techredac
 

Intelligence Artificielle - mettre un visage sur une voix


Rédigé le Mardi 9 Juillet 2019 à 11:25
Andrée Navarro



Aux États-Unis, une équipe du laboratoire d’informatique et d’Intelligence Artificielle du MIT (Massachussetts Institute of Technology) a réussi à apprendre à un algorithme d’apprentissage automatique, à associer un type de voix à des caractéristiques faciales.

Le programme, un réseau convolutif de type "deep learning", a été mis au point à partir de millions de vidéos. Des séquences de 3 à 10 secondes ont été extraites de 290.000 vidéos postées sur YouTube montrant une unique personne en train de parler, sans interférence, sans bruit de fond parasite. On y trouve plus de 100.000 visages différents pour 4.700 heures de film.

L’entraînement de l'algorithme a consisté à lui présenter une voix et un unique plan de la vidéo correspondante. Il devait analyse les deux types de données afin de produire un spectrogramme de la voix d’un côté, et d'extraire les caractéristiques crâno-faciales saillantes de l’autre (largeur de la mâchoire, diverses mesures des lèvres, de la bouche, du nez, de la mandibule) et enfin d'apprendre à corréler les deux.

L’algorithme s'est ensuite vu soumettre un spectrogramme comme donnée d’entrée pour encoder le signal vocal. qui est ensuite décodé en fournissant une image fixe d’un visage, de face à l’expression neutre.

Le but n’est pas de générer un visage ressemblant à celui d’origine, tel qu’il est dans les vidéos, mais un visage correspondant aux critères "appris" par l’algorithme. Le système parvient déjà très bien à corréler visage et voix d’un même âge et à associer à 94 % ,voix et visage d’un même genre.