• Elle peut comprendre les gestes, l’état émotionnel et les propos des clients pour répondre rapidement à leurs besoins, permettant par exemple aux conseillers clientèle de se concentrer sur des tâches à forte valeur ajoutée.
• L’IA omnimodale présente des défis importants comme l’intégration des modalités dans un modèle unique et la nécessité de réduire les biais algorithmiques qui peuvent se propager entre les modalités.
Des outils d’Intelligence Artificielle qui, fonctionnellement, imitent et comprennent mieux les humains ? C’est la promesse de l’IA omnimodale qui émerge comme un domaine majeur dans l’IA et qui promet des interactions plus fluides entre utilisateurs et machines. À la différence de l’IA multimodale qui traite des données de manière séparée, l’IA omnimodale intègre l’ensemble des données de manière cohérente. Par exemple, une IA multimodale ne pourra pas interpréter une photo directement pour la retoucher, mais devra la décrire pour ensuite l’envoyer à un modèle de diffusion, tandis qu’une IA omnimodale sera capable de faire cette opération de manière fluide, en utilisant un unique modèle intégré. « L’IA omnimodale traite ainsi et génère plusieurs types de données ou “modalités” texte, image, audio, vidéo – de façon totalement fluide et intégrée », explique Thierry Nagellen, Directeur recherche Client et Collaborateur Augmentés chez Orange.
L’IA omnimodale permet aux conseillers clients de se concentrer sur des tâches à forte valeur ajoutée
Des interactions plus naturelles
L’IA omnimodale ouvre la voie à de nouvelles applications, par exemple dans le domaine de la relation client grâce à des expériences plus immersives et contextualisées pour les clients. « C’est un sujet passionnant qui demande néanmoins des précautions en terme réglementaire au regard de l’IA Act qui impose des règles strictes sur la reconnaissance des émotions pour éviter tout risque de manipulation. En réalité, quand un vendeur apprend des techniques de vente qui sont autorisées, il n’y a pas une différence majeure. » L’idée est qu’un client puisse être compris par une IA en fonction de son attitude corporelle, ses gestes, et ses propos pour qu’une entreprise puisse être en mesure de répondre au plus vite à ses besoins. « Cela permet ensuite aux conseillers clients de se concentrer sur des tâches à forte valeur ajoutée », souligne Thierry Nagellen. Des agents natifs IA, complètement autonomes, pourraient par ailleurs gérer des tâches complexes et offrir un service client 24/7.
Des défis techniques supplémentaires
L’IA omnimodale parfaite n’existe pourtant pas pour l’heure. « On a encore besoin d’améliorer la qualité de ce qui peut être traité et reconnu » note Thierry Nagellen. Les défis sont nombreux : l’intégration des modalités dans un modèle unique est une tâche complexe, qui demande également un alignement temporel et spatial très précis pour les données (comme pour l’audio et la vidéo). L’IA omnimodale est par ailleurs plus coûteuse à entraîner, puisqu’elle nécessite des ressources computationnelles plus importantes pour traiter les différents types de données. Et, pour limiter les biais algorithmiques, l’exercice devient encore plus délicat pour les éditeurs de solutions d’IA puisque les modalités communiquant entre elles, un biais sur l’une d’elles peut entraîner des biais sur d’autres et ainsi, des réactions en chaîne. Enfin, l’interprétabilité des résultats des IA multimodales s’avère fastidieuse : la complexité des interactions entre les modalités entraîne celle de la compréhension des résultats.
Vers des smartphones omnimodaux ?
En mai 2024, Open AI a sorti son premier modèle omnimodal, GPT-4 Omni, qui laisse entrevoir la polyvalence de tels modèles, mais présente toujours d’importants biais et hallucinations. Thierry Nagellen s’interroge sur la méthode qui dominera : « L’essor de l’IA omnimodale dépend également de sa fluidité. Aujourd’hui une interface de smartphone demande de passer par différentes applications pour traiter différentes modalités. Certains opérateurs envisagent déjà de baser des smartphones davantage sur l’IA que sur des applications, mais rien ne dit que c’est la bonne évolution pour que l’expérience utilisateur soit optimale. Se pose également la question de savoir si les modèles omnimodaux tourneront dans le cloud ou dans les terminaux, ce qui va avoir des impacts en matière de respect du RGPD. »
