• Il passe sous licence open source et se met ainsi à la portée des experts de la donnée comme des moins initiés.
• Il permet notamment d’accélérer l’étape de « feature engineering » indispensable en machine learning.
Au début des années 2000, Marc Boullé, ingénieur de recherche Orange, initie un projet pour la conception d’une solution d’apprentissage automatique dédiée à la fouille et à l’exploitation de grandes bases de données multi-tables. Depuis, cet outil baptisé Khiops n’a cessé d’évoluer, d’accroître son potentiel afin de toujours mieux remplir sa mission : offrir une expérience de machine learning (ML, apprentissage automatique) entièrement automatisée, intuitive et mettant en avant l’interprétabilité du modèle.
Automatisation, simplicité, rapidité
Récemment, Khiops a franchi un jalon stratégique avec son passage sous , lui conférant ainsi une accessibilité – et une audience – élargies.
Avant d’évoquer cette transition majeure, il est utile de revenir sur ce qui fait la force de l’outil. La performance d’un modèle de machine learning requiert un travail de préparation des données souvent long, laborieux et coûteux. C’est ici qu’intervient Khiops, « en automatisant et en accélérant des opérations autrefois manuelles telles que le , soit le processus de transformation des données brutes en variables exploitables, explique Alexis Bondu, chercheur en IA chez Orange. Là où des experts de la donnée pouvaient consacrer de longues journées à préparer, nettoyer, agréger, etc., des masses de données, ils s’affranchissent avec Khiops de ces étapes, pour concentrer leur réflexion sur la problématique métier à traiter. »
Khiops adopte des standards reconnus du monde Open Source – environnement Python, syntaxe sklearn, installation programmatique via Conda.
Une approche unique
Plus en détails, Khiops se fonde sur un formalisme mathématique singulier, et une approche dénuée d’ . Cette particularité est associée à un bénéfice très concret, à savoir une protection contre le phénomène de surapprentissage (apprentissage par cœur des données), nuisible à la performance du modèle. Elle évite par ailleurs la répétition de cycles essais/erreurs, très chronophage, afin de gagner en temps de calcul.
Entre autres points de différenciation, l’outil valorise également son interprétabilité : chaque décision et résultat produit peut être expliqué en toute transparence, permettant à Khiops de se soustraire à tout effet boîte noire.
Une empreinte élargie avec l’open source
Une communauté au sein du groupe Orange disposait jusqu’ici d’un accès presque exclusif aux premières versions de Khiops. Un millier d’utilisateurs environ ont été séduits par la performance de la solution, testée avant que soient complétés le travail de mise en accessibilité, la standardisation et la documentation. La prise en main requérait alors un certain niveau d’expertise et un temps de formation préalable. La migration de l’outil vers l’écosystème open source, lancée fin 2022, a levé les freins à son adoption. Khiops s’est normalisé en adoptant des standards reconnus du monde open source – environnement Python, syntaxe sklearn, installation programmatique via Conda. En parallèle, l’accent a été porté sur la simplification du parcours d’acculturation et de montée en compétence, avec une documentation technique vulgarisée, des guidelines et des notebooks d’explications, etc., disponibles sur le site khiops.org.
En évolution permanente
Luc-Aurélien Gauthier, data scientist et coordinateur du projet Khiops, explique que « pour un jeune utilisateur, la perspective de travailler sur une solution ouverte, documentée et évolutive est plus attrayante que de composer avec un outil propriétaire lourd ».
Le site dédié à Khiops propose de nombreuses ressources documentaires et est destiné à s’enrichir dans les prochains mois, pour accueillir par exemple des supports relatifs à de nouveaux cas d’usage avancés. L’outil Khiops en tant que tel continue lui aussi d’évoluer, avec l’arrivée d’une v11 attendue dans le courant de l’année 2024, qui apportera des changements majeurs tels que la prise en charge des données textuelles et de nouveaux outils de visualisation.
Sources :
Une licence open source autorise à chacun l’accès au code d’un logiciel, sa modification et sa redistribution.
Ingénierie des fonctionnalités en français. Désigne l’étape de pré-traitement des données brutes en vue de les utiliser comme données d’apprentissage automatique ou machine learning.
Paramètres définis manuellement pour contrôler le processus d’apprentissage du modèle, au contraire d’autres paramètres dont la valeur découle de cet apprentissage.