Un essaim de micros pour différencier des zones d’écoute

 

Il est bien difficile pour l’oreille humaine de distinguer les sons et paroles des conversations émises dans une pièce où se trouvent de nombreuses personnes.

Obtenir ce résultat par une manipulation acoustique revient à isoler chaque locuteur, séparer la parole de tous les autres bruits et associer chaque discours à un espace à 2 dimensions particulier.

De nombreux essais dans ce but ont utilisé un appareillage lourd, caméras et microphones fixes, sans obtenir de très bons résultats.

Des chercheurs de l’Université de Washington, Seattle, WA, USA et de Microsoft, Redmond, WA, ont utilisé une distribution de microphones reliés par radio navigant de façon coopérative pour se disposer sur une surface plane afin de pouvoir localiser les sons dans l’espace à 2 dimensions.
Ce système constitue une sorte d’essaim acoustique de microphones auto-localisés. Ils forment une matrice qui permet, grâce à un logiciel très sophistiqué, de séparer des locuteurs humains dans l’espace à 2 dimensions en définissant des zones de conversation.

La vidéo ci-dessous laisse apprécier les possibilités de cette technique :

Vidéo 1. L’obtention de zones distinctes de conversation
L’essaim de microphones posé sur la table sépare deux conversations dans deux zones différentes  en utilisant les particularités des paroles et les positions estimées des locuteurs.
Tiré de Creating speech zones with self-distributing acoustic swarm,
Malek Itani, Tuochao Chen, Takuya Yoshioka & Shyamnath Gollakota
Nature communications | (2023) 14:5684 CC BY 4,0

 

Le montage expérimental

Il s’agit d’un ensemble de 7 petits robots munis chacun de 2 microphones, d’un haut-parleur, d’une IMU ( unité de mesure de position inertiellle), d’un équipement radio et de 2 moteurs assurant déplacement et rotation .

Les robots sont capables de s’adapter à différents environnements et de se déployer sur une surface plane à partir d’une base en plastique (fig.1. F, G).

Ils se disposent de manière à occuper la surface la plus grande possible afin de balayer avec leurs micros un maximum d’espace.

Ils ont la capacité d’éviter de tomber hors de la surface et de s’adapter aux collisions avec des objets sur la surface.

En raison de la capacité limitée de leur batterie, les robots sont capables de naviguer vers une base de recharge quand il en est besoin. Ce sont 2 billes en aluminium qui assurent le contact avec le chargeur.

Enfin, pour localiser de nombreux locuteurs, les robots microphones sont synchronisés par radio. Ils se  localisent entre eux par émission de brefs signaux acoustiques par les haut-parleurs. Cela leur permet de déterminer leur position relative au centimètre près.

Les robots sont reliés par Bluetooth à un ordinateur hôte qui détermine la séparation des discours et leur localisation.

 

La figure 1 ci-dessous détaille ce dispositif :

Fig.1 La création de zones de conversation par l’essaim de microphones A) L’essaim acoustique disposé sur une table face à la scène crée une zone de conversation et une zone muette à partir des localisations à 2 dimensions de chacun des hauts parleurs des robots.. B) Sept robots dans une seule main. C) Vue de près d’un robot. D) Vue éclatée d’un robot muni de 2 microphones, d’un haut-parleur, d’une unité de mesure inertielle IMU (accéléromètre et gyroscope) et de photocellules pour détecter les bords de la table. Les 2 moteurs assurent le déplacement et une éventuelle rotation. E) La plateforme de base avec sa rampe d’entrée, son trajet en creux et sa rampe de sortie. F) Un ruban conducteur sur la base qui permet la charge des robots. G) Une des 2 billes d’aluminium sous le robot qui le mettent en contact avec les rubans conducteurs. Le chargeur peut charger tous les robots simultanément sur la plateforme. Tiré de Creating speech zones with self-distributing acoustic swarm, Malek Itani, Tuochao Chen, Takuya Yoshioka & Shyamnath Gollakota Nature communications | (2023) 14:5684 CC BY 4,0

Fig.1 La création de zones de conversation par l’essaim de microphones
A) L’essaim acoustique disposé sur une table face à la scène crée une zone de conversation et une zone muette à partir des localisations à 2 dimensions de chacun des locuteurs.
B) Sept robots dans une seule main.
C) Vue de près d’un robot.
D) Vue éclatée d’un robot muni de 2 microphones, d’un haut-parleur, d’une unité de mesure inertielle IMU (accéléromètre et gyroscope) et de photocellules pour détecter les bords de la table. Les 2 moteurs assurent le déplacement et une éventuelle rotation.
E) La plateforme de base avec sa rampe d’entrée, son trajet en creux et sa rampe de sortie.
F) Un ruban conducteur sur la base qui permet la charge des robots.
G) Une des 2 billes d’aluminium sous le robot qui le mettent en contact avec les rubans conducteurs. Le chargeur peut alimenter tous les robots simultanément sur la plateforme.
Tiré de Creating speech zones with self-distributing acoustic swarm,
Malek Itani, Tuochao Chen, Takuya Yoshioka & Shyamnath Gollakota
Nature communications | (2023) 14:5684 CC BY 4,0

 

 

Quelques détails de programmation

Chaque robot navigue en interaction avec les autres. Tous se positionnent sur la surface et savent venir se recharger quand il en est besoin. Un algorithme combine les indications de position des IMU et celles relatives fournies par les signaux acoustiques brefs de chaque robot pour commander la navigation 2D et la routine de recharge.

Un autre algorithme assure à la fois la localisation 2D et la séparation des discours. Il utilise 2 réseaux de neurones, l’un pour limiter l’espace de recherche aux zones de paroles et l’autre pour trouver les positions 2D des locuteurs dans l’espace restant .

 

La vidéo suivante montre le déploiement de l’essaim de robots microphones sur une table rectangulaire.

Vidéo 2 Déploiement de l’essaim des robots microphones
On y voit les différentes étapes du déploiement des robots sur une table.
Ils s’ordonnent d’abord sur la plateforme en se plaçant sur les repères de celle-ci.
Ils se déplacent enfin sur la surface selon des directions séparées
pour atteindre leurs positions finales.
La localisation des zones de conversation peut alors débuter.
Tiré de Creating speech zones with self-distributing acoustic swarm,
Malek Itani, Tuochao Chen, Takuya Yoshioka & Shyamnath Gollakota
Nature communications | (2023) 14:5684 CC BY 4,0

 

 

 

Ce dispositif d‘essaim acoustique offre de vastes opportunités dues à  caractéristique unique de pouvoir s’adapter à tout environnement et assurer sa recharge automatique. Cela le diffère fortement des systèmes conventionnels à microphones fixes. Les robots peuvent se déployer dans une salle de conférences en couvrant un espace bien plus large que les dispositifs y existant déjà. L’essaim acoustique résout le fameux « problème du cocktail » en permettant de se focaliser sur une conversation particulière dans une région spécifique de l’endroit où celle-ci se tient.

On peut aussi imaginer que dans le futur, ces robots puissent équiper des logements connectés, autorisant ainsi des interactions avec des dispositifs basés sur les localisations des locuteurs.

 

 

Pour en savoir plus :

Creating speech zones with self-distributing acoustic swarm,

Malek Itani, Tuochao Chen, Takuya Yoshioka & Shyamnath Gollakota
Nature communications | (2023) 14:5684 CC BY 4,0