• Il insiste sur le besoin de toujours comprendre et vérifier le travail de l’IA et le code généré.
• Selon lui, il faut ne pas devenir dépendant de ce type d’outils qui, en général, coûtent fort cher et enferment les testeurs dans un modèle no-code.
« L’IA marque une deuxième révolution dans le monde du test, après l’automatisation des tests il y a une dizaine d’années. Aujourd’hui, on est en mesure d’automatiser plus facilement des tâches comme l’écriture de tests », explique Yann Helleboid, pilote de la transformation du test chez Orange. De fait, de nombreuses entreprises cherchent à accélérer les cycles de développement informatique tout en maintenant une qualité élevée grâce à l’IA. Les phases de test n’y échappent pas. Objectif : réaliser des tests automatiques et de manière continue sur des volumes de code plus importants en documentant plus facilement les changements dans les applications.
Attention néanmoins à ne pas devenir dépendant de ce type d’outils qui, en général, coûtent fort cher et enferment les testeurs dans un modèle no-code
Un enjeu de compétitivité
« Il y a la promesse d’un côté et la réalité de l’autre », explique l’ingénieur. Le 17 avril à 13h30, lors d’une conférence à Devoxx 2025, il fait une démonstration de vibe testing en live coding. « L’objectif est de montrer que ce qui est généré fonctionne, à condition de comprendre les limites de l’IA et de savoir ce que l’on peut faire et ne peut pas faire. » Son premier conseil est toutefois d’inciter les testeurs à utiliser l’IA : « S’ils ne le font pas, ils seront à la traîne sur la production et cela jouera également sur leur employabilité. » Pour lui, l’IA n’enlève d’ailleurs pas de travail aux testeurs, mais le change en leur permettant de se concentrer sur les tâches les plus intéressantes et à forte plus-value. « Il faut également être méfiant de ce qui est généré et ne jamais exécuter un test généré si on n’est pas en mesure de le comprendre. » Quant au choix des moteurs d’IA pour effectuer les tests, mieux vaut prendre le plus performant, qui parfois s’avère être le plus cher, « et donc interroger les moteurs moins souvent », explique-t-il.
Des tests à l’autonomie encore limitée
Produire des tests avec l’IA a toutefois des limites. « L’IA est limitée, il ne faut pas oublier qu’elle n’est pas intelligente ; dans la recherche de bugs, il faut être créatif et innovant, ce qu’elle n’est pas. » La qualité du code produit pose également question, d’où la nécessité pour les entreprises d’avoir des employés compétents pour le relire et interpréter les résultats. Outre les LLM connus sur le marché, d’autres acteurs ont pris le pas : des start-up comme Meticulous AI annoncent sur leurs sites que le test est mort. La société a développé un outil qui « surveille vos interactions quotidiennes avec votre application au fur et à mesure que vous la développez. En suivant les branches de code exécutées par chaque interaction, Meticulous génère une suite de tests visuels de bout en bout qui couvrent chaque ligne de votre base de code ». Une promesse peut-être à prendre au sérieux au regard du pool d’investisseurs de la société, qui comprend notamment le CTO de GitHub. « Attention néanmoins à ne pas devenir dépendant de ce type d’outils qui en général coûtent fort cher et enferment les testeurs dans un modèle no-code dont il est impossible de sortir et qui est en général peut performant », insiste Yann Helleboid.
Une qualité de test équivalente
Dans un article publié sur Arxiv intitulé « Disrupting Test Development with AI Assistants: Building the Base of the Test Pyramid with Three AI Coding Assistants », deux chercheurs de la société Concordat Credit se sont intéressés à l’impact des modèles d’IA sur le développement de tests logiciels. Pour eux, les tests générés par l’IA sont de la même qualité que les tests originaux même si les outils (GPT, GitHub Copilot et Tabnine) fournissent des résultats différents. La couverture des tests est ainsi similaire aux originaux et ce, notamment, dans le cas de scénarios complexes. Ils précisent que la génération de tests pour les scénarios complexes nécessite des prompts plus poussés et que les testeurs doivent toujours réviser et finaliser les tests pour garantir leur pertinence.
