Coup de projecteur sur cette start-up japonaise, récemment sélectionnée par le programme d’accélération Orange Fab Asia.
Vitesse, volume, hauteur, ton … : Empath analyse les propriétés physiques de la voix pour identifier des émotions comme la joie, la colère ou la tristesse.
Avec l’essor des chatbots et des assistants personnels du type Siri (Apple) ou Djingo (Orange), avec ou sans enceinte connectée, le marché de la reconnaissance vocale a fait un bond ces dernières années. Mais la plupart des applis se concentrent sur l’analyse linguistique : essayer de repérer avec un maximum de pertinence le lexique et la grammaire des phrases prononcées par un utilisateur. Or, en matière de communication, les mots ne sont pas tout. Le sens est aussi porté par la façon dont nous les prononçons, c’est-à-dire par nos émotions. Pas besoin d’être un comédien chevronné pour comprendre qu’une même phrase ne véhiculera pas tout à fait le même message selon qu’elle est murmurée avec hésitation ou hurlée avec force.
Dans le sillage du tsunami…
C’est cet aspect de la conversation qu’a choisi d’explorer la start-up japonaise Empath. Tout a commencé à la suite du tremblement de terre et du tsunami qui ont ravagé le nord-est du Japon en mars 2011. Directeur de la stratégie d’Empath, Hazumu Yamazaki raconte : « alors qu’il travaillait pour un groupe spécialisé dans les technologies médicales, notre fondateur Takaaki Shimoji s’est aperçu qu’il existait beaucoup de solutions pour analyser les données sur la condition physique des victimes de la catastrophe, mais rien pour évaluer leur état mental ». C’est ainsi qu’est née l’idée du projet Empath, dont le premier produit est arrivé sur le marché en 2014.
« Empath est une intelligence artificielle de l’émotion, résume Hazumu Yamazaki. En analysant, non pas le langage, mais les propriétés physiques de la voix telles que la vitesse, le volume, la hauteur, le ton, etc., notre solution parvient à identifier en temps réel des émotions comme la joie, la colère, le calme ou la tristesse ». Les perspectives de cette technologie sont multiples. Par sa capacité à enrichir et affiner nos interactions avec les robots, elle intéresse aussi bien les spécialistes de l’intelligence artificielle (IA), que les services de santé et de secours, ou bien encore les centres d’appel commerciaux. Le kit de développement (SDK) et l’API d’Empath ont été déjà été adoptés par plus de 700 clients dans 50 pays. Et ce n’est qu’un début !
Enrichir le comportement des robots
Aujourd’hui, la start-up cherche à passer à la vitesse supérieure, tant sur le plan technologique que commercial. Empath a récemment rejoint l’Orange Fab Asia : ce programme d’accélération lui ouvre la perspective d’une entrée sur le marché européen, et en particulier français.
Hazumu Yamazaki se verrait bien approfondir sa collaboration avec Orange : « Les assistants vocaux comme Alexa d’Amazon, Cortana de Microsoft et Google Assistant sont des acteurs dominants sur le marché, alors qu’une nouvelle forme de e-commerce, le ‘commerce vocal’, s’apprête à exploser au Etats-Unis. Je pense qu’en intégrant Empath, l’assistant vocal d’Orange Djingo pourrait fortement se différencier : en le rendant capable de comprendre les émotions de l’utilisateur, Djingo se comporterait de façon plus humaine et amicale. Sans compter que notre IA émotionnelle pourrait aussi contribuer au développement du commerce vocal : dans le télémarketing, Empath a déjà démontré sa capacité à accroitre les ventes jusqu’à 20 % ».
S’appuyant sur le machine learning, Empath continue de développer son logiciel. « Notre force, conclut Hazumu Yamazaki, c’est que nous disposons du plus vaste portefeuille d’utilisateurs dans le domaine de la reconnaissance vocale des émotions. Et si nous cherchons à nous développer à l’international, nous allons aussi créer une équipe R&D globale pour faire progresser notre IA émotionnelle. Pour cela, notre petite équipe de 6 personnes a besoin de se renforcer avec des experts en IA et en informatique affective ». Faites passer le message !