• Axés à l’origine sur les communications vocales, les télécoms ont été un terrain privilégié de recherches pour l’acoustique : codage, reconnaissance, synthèse de la parole, etc.
• Aujourd’hui les sons continuent de fournir de nombreuses innovations : l’immersion sonore pour la réalité virtuelle, la reconnaissance des sons de l’environnement pour les espaces naturels (détection d’activités de braconnage ou d’abattage d’arbres, recensement des populations d’espèces pour les mesures de biodiversité) ou les espaces urbains (sécurité) ou encore la maison (détection de chutes de personne), les interactions homme-machine où les informations sonores viennent compléter, voire suppléer le visuel.
Les ondes sonores ont de multiples applications, parfois méconnues : elles servent à communiquer, mais elles peuvent aussi permettre de refroidir ou chauffer un bâtiment, de surveiller les migrations des oiseaux ou de commander une télévision… Au fil des mutations de la société, le domaine de l’acoustique participe à de nombreuses innovations qui viennent apporter des solutions aux enjeux du quotidien. Le monde des télécoms ne fait pas exception.
Il semble aujourd’hui possible de peupler nos environnements de « petites oreilles d’or » consistant en des dispositifs équipés de microphones et dotés d’une capacité de reconnaissance automatique de sons.
De la place de l’Acoustique dans les Télécoms
Le domaine des télécommunications (ou ICT pour Information and Communication Technologies) est axé depuis l’origine sur les communications vocales. L’acoustique y a longtemps représenté un enjeu clé des activités de recherche, avec notamment les travaux sur le codage de la parole, la synthèse vocale ou la reconnaissance de la parole. La diversification des technologies de communication aurait pu induire une baisse d’intérêt pour les questions autour de l’acoustique. Il n’en est rien, bien au contraire. Au fil des évolutions technologiques, on observe un constant renouvellement des thèmes de recherche avec à la clé un flux d’innovations (Figure 1) : l’immersion sonore, la reconnaissance automatique de sons (qui peut être utilisée par exemple pour la surveillance des environnements naturels ou urbains, et des maisons), les interfaces cerveau ordinateur pilotées par des sons, etc.
Retour sur plusieurs décennies d’une aventure acoustique au service des ICT du futur…
Du son dans toutes ses dimensions…
Les années 90 voient l’émergence du concept de Téléprésence (c’est à dire donner l’illusion aux participants d’une visioconférence qu’ils partagent le même espace), et les premières études sur la communication immersive sont lancées. La spatialisation sonore est immédiatement identifiée comme une composante incontournable de l’immersion, mais elle nécessite de revisiter l’ensemble de la chaîne audio, de la captation des sons à leur reproduction, sans oublier les codecs audio 3D. L’événement « Don Giovanni », en partenariat avec l’Opéra de Rennes, permet de tester en grandeur nature ces nouvelles technologies pour la retransmission d’événements live. Le succès auprès du public fait grand bruit que ce soit avec la diffusion sur la place de la Mairie de Rennes ou la restitution sur tablettes à distance, offrant la possibilité de partager avec le plus grand nombre (hôpitaux, prisons, etc.).
Aux côtés des autres acteurs dont notamment l’Institut Fraunhofer, Orange participe à l’élaboration du format MPEG-H Audio 3D permettant la transmission des contenus audio immersifs et offrant une grande flexibilité en termes de formats audio 3D et de systèmes de reproduction (dispositifs multicanaux 5.1, casque, etc.). Aujourd’hui, une extension pour la réalité virtuelle est en cours de construction. Plus récemment, dans le cadre d’une autre instance de normalisation (3GPP), le codec IVAS (Immersive Voice and Audio Services) introduit l’immersion dans les services de communication vocale.
Dans les années 2000, le succès des smartphones démocratise l’usage du casque audio. L’immersion sonore devient alors binaurale (Figure 2) et Orange contribue au projet « BiLi » (pour Binaural Listening) initié par Radio France et France Télévisions pour le développement de l’immersion sonore sur casque à destination du grand public.
… A l’oreille d’or
Le film Le chant du loup (Antonin Baudry, 2019) nous plonge dans le quotidien d’une « oreille d’or » avec un officier marinier spécialisé dans l’écoute des bruits sous-marins et capable d’en identifier l’origine (animaux, séismes, activités de pêche, sous-marins, etc.).
Littéralement il scrute la nuit de l’océan avec ses oreilles…
Or, il apparait aujourd’hui possible de peupler nos environnements de « petites oreilles d’or » consistant en des dispositifs équipés de microphones et dotés d’une capacité de reconnaissance automatique de sons. Cette approche est déjà largement utilisée dans le domaine de la bioacoustique pour la surveillance des espaces naturels, par exemple pour lutter contre la déforestation, le braconnage ou évaluer la présence d’espèces au sein d’un biotope.
Avec la révolution de l’internet des objets (ou IoT pour Internet of Things) et des environnements connectés (« smart environment », « smart building », etc.), n’importe quel objet peut être doté de capteurs, de capacités d’analyse, et peut communiquer. Dans le cas où les capteurs sont des microphones, l’analyse des sons permet de détecter des événements (par exemple la chute d’une personne) ou d’identifier une situation afin de déclencher des actions. Dans le monde de la santé, la société OSO-AI propose sur ce principe une aide aux soignants pour le suivi à distance des patients. Les sons peuvent aussi participer à la maintenance prédictive des machines dans une usine. Chacun a déjà observé comment une variation subtile du ronronnement d’une voiture annonce l’usure d’une pièce ou une prochaine panne…
Jusqu’au contrôle par la pensée en utilisant des sons…
Les assistants vocaux permettent de contrôler par la voix les machines ou les environnements connectés. Cette forme d’interaction séduit car elle est très intuitive. Il est possible d’aller encore plus loin avec le contrôle par la pensée : c’est la promesse des interfaces cerveau ordinateur (ICO). Les premières expériences ont exploité la modalité visuelle, mais la modalité auditive offre des avantages certains : simplicité de l’équipement (haut-parleurs ou casque), confidentialité (si on utilise un casque), réactivité potentiellement plus élevée, et possibilité de spatialiser les sons. Le principe consiste à présenter différents sons à l’utilisateur, chaque son étant associé à une action spécifique (par exemple : allumer une lampe, changer le programme de la télévision, etc.). L’utilisateur concentre son écoute sur le son correspondant à l’action de son choix. L’enjeu est alors d’identifier dans son activité cérébrale le son sur lequel il focalise son attention.
En 2022, une première étude réalisée au sein d’Orange démontre la faisabilité du concept d’ICO auditives. La prochaine étape vise à optimiser le design des sons utilisés pour maximiser leur détectabilité, tout en rendant leur écoute la plus agréable possible.
Et ce n’est pas fini !
Tous ces exemples illustrent la richesse et la diversité des innovations permises par l’acoustique. L’avenir est tout aussi riche d’opportunités. Alors que la réalité virtuelle propose pour l’instant une expérience essentiellement visuelle, l’enrichir avec d’autres modalités sensorielles offrirait la possibilité d’effacer la frontière entre mondes réels et virtuels. Dans ce but, équiper les casques de réalité virtuelle du son 3D est une première étape incontournable, notamment parce que le son a naturellement un grand pouvoir immersif. De plus, d’un point de vue cognitif, les informations auditives permettent de compléter les informations visuelles, voire de les renforcer. Des bénéfices en termes de mémorisation ou d’apprentissage ont notamment été observés.
La révolution de l’apprentissage machine (machine learning) investit aussi massivement les outils de traitement du signal audio avec des résultats déjà très prometteurs (codage, réduction de bruit, etc.).
A plus long terme, face aux enjeux de la crise climatique, la thermo-acoustique, qui exploite les interactions entre ondes acoustiques et ondes thermiques, montre qu’il est possible d’exploiter les échanges de chaleur au niveau du passage d’une onde acoustique pour offrir des solutions permettant de rafraîchir ou chauffer les bâtiments, et pourquoi pas produire de l’énergie électrique.
Glossaire :
L’Acoustique est le domaine scientifique qui s’intéresse aux sons. Il engloble tous les phénomènes liés à leur émission (haut-parleurs, instruments de musique), leur propagation (réverbération, matériaux isolants), leur captation (microphones), leur transmission et leur perception (audition).
La Téléprésence est la finalité ultime de la communication immersive : lorsqu’on met en communication deux personnes ou deux groupes de personnes, on souhaite leur donner l’illusion qu’ils partagent le même espace, bien qu’ils soient parfois séparés de milliers de kilomètres. L’objectif est de reproduire les conditions naturelles d’une conversation en physique. La téléprésence repose notamment sur une restitution la plus réaliste possible de l’image et de la voix des interlocuteurs, en incluant notamment la spatialisation sonore.
L’Audio 3D correspond aux techniques permettant de créer ou de reproduire des sons localisés dans l’espace autour de l’auditeur. Les sons spatialisés peuvent être diffusés sur un système multi haut-parleurs ou un casque.
La Reconnaissance Automatique des Sons est un domaine proche de la reconnaissance automatique de la parole qui est utilisé pour les assistants vocaux. La différence réside dans le fait que la reconnaissance automatique des sons concerne tous les sons autres que la parole. Elle est basée sur des algorithmes aujourd’hui majoritairement élaborés par apprentissage machine à partir de réseaux de neurones.
Les Interfaces Cerveau Ordinateur (ICO) proposent une nouvelle façon d’interagir avec les machines. Elles proposent de contrôler les objets en traduisant l’activité cérébrale de l’utilisateur en commandes. Dans les ICO de type réactif utilisant des stimuli visuels, on présente à l’utilisateur des lumières clignotant à différentes fréquences, chacune étant associée à un contrôle spécifique. L’utilisateur doit se concentrer sur la lumière correspondant à la commande de son choix.
L’effet Thermo-Acoustique correspond à la conversion de chaleur en énergie acoustique et réciproquement. Cet effet se produit sous des conditions très spécifiques qui sont obtenues par exemple dans les machines thermo-acoustiques : le réfrigérateur thermo-acoustique qui utilise une onde sonore dans une cavité (résonateur) contenant une structure poreuse pour extraire la chaleur d’un fluide, ou le moteur thermo-acoustique capable de créer à partir d’une source de chaleur une onde sonore qui à son tour peut être convertie en courant électrique à l’aide d’un microphone.
Sources :
Rozenn Nicol and Jean-Yves Monfort. Acoustic research for telecoms: bridging the heritage to the future, Acta Acustica, Topical Issue – CFA 2022, 7, 2023.
En savoir plus :
Société Française d’Acoustique (SFA)
Schuyler R. Quackenbush, Jürgen Herre. MPEG standards for compressed representation of immersive audio. Proceedings of the IEEE 109, 9 (2021), 1578–1589.
IVAS – taking 3GPP voice and audio services to a new immersive level
Une machine qui sait tendre l’oreille
Focus OSO-AI : L’oreille augmentée des soignants
https://www.wavely.fr/applications/maintenance-industrielle/
L’enjeu d’une Interface Cerveau Ordinateur fonctionnant pour tout le monde