Nos cerveaux sont capables de recevoir et d’interpréter différents types d’informations en même temps, qu’elles soient textuelles, visuelles ou sonores. Un individu peut ainsi se faire une idée nuancée de la réalité grâce à tous ces éléments. En informatique, l’IA multimodale incarne de la même manière une capacité qui permettrait d’imiter le cerveau dans le traitement de différents types d’informations provenant de différentes sources, qu’il s’agisse de textes manuscrits, d’images, de musiques ou de vidéos. Par exemple, dans le cas d’une admission à l’hôpital, une ordonnance pourrait être prise en photo et la raison de l’hospitalisation du patient pourrait être dictée à la voix.
Passer d’un modèle unimodal à un modèle multimodal comporte de nombreux défis, d’une part parce que ces modèles unimodaux sont tous entraînés différemment
Dans les faits, passer d’un modèle unimodal à un modèle multimodal comporte de nombreux défis. Pour commencer, ces modèles unimodaux sont tous entraînés différemment. Un modèle qui produit du texte, comme ChatGPT, ne sera pas construit de la même manière qu’un modèle qui produit des images. Le premier sera entraîné à partir de mots et l’autre de pixels. Il en est de même pour les modèles sonores, qui ne vont pas utiliser des pixels mais des fréquences sonores.
Il faut donc construire une représentation commune pour des données de différentes natures, tout en appréhendant un volume de données annotées important, pour que ces modèles multimodaux soient efficaces. Le but d’un modèle d’IA multimodale est d’aligner ces différents types de données dans le cadre d’un processus de « fusion ». Par exemple, le mot « pancréas », une IRM d’un pancréas et le son « pancréas » doivent être fusionnés pour former une représentation unique qui pourra être absorbée par un modèle multimodal.
Une IA multimodale permet de manipuler différents types de données simultanément, ce qui multiplie les possibilités d’application. On peut, par exemple, lui demander de résumer un compte-rendu médical à partir d’une simple photo de celui-ci. La multimodalité permet aussi à l’IA d’appréhender son environnement de manière plus holistique. Un modèle unimodal, comme ChatGPT, qui n’est entraîné que sur du texte, aura une vision du monde limitée par sa modalité. Par exemple, il a capturé de la connaissance sur les organes du corps humain mais, comme il n’est pas entraîné sur des images, il aura du mal à en visualiser l’anatomie.
Une IA multimodale a donc en théorie deux avantages : elle peut absorber une connaissance plus complète de son environnement et elle apporte de nouvelles applications pour naviguer entre les modalités.