Retour au reportage Retour au reportage
20230062_0031

© Christian MOREL / LIPN / CNRS Images

Reference

20230062_0031

Un réseau profond pour l’apprentissage de représentations discriminantes pour la reconnaissance de locuteurs à partir du signal vocal

L’apprentissage des réseaux de neurones artificiels consiste essentiellement à appliquer par alternance, sur les données, une suite de transformations linéaires et non linéaires. Ces deux types de transformations peuvent être vus respectivement comme des projections et des seuillages dans de nouveaux espaces de représentations. Cette figure illustre parfaitement ce processus d’apprentissage au niveau de toutes les couches du réseau de neurones artificiels. Le bas de cette figure montre le résultat des différentes transformations dans les différents espaces de représentations hiérarchiques, modélisés par les couches du réseau. Chaque ellipse représente l’enveloppe convexe du nuage de points (messages vocaux) de chaque classe (ici classe = locuteur). Il est possible d'observer sur la couche d’entrée un fort recouvrement entre les différentes classes, donc une forte confusion entre les locuteurs. Au fur et à mesure qu’on avance dans les couches du réseau, la variabilité intra-classes baisse et la variabilité inter-classes augmente. Au niveau de la couche de sortie (décision), toutes les classes sont bien séparées. C’est simplement le résultat des différentes transformations alternées, linéaires et non linéaires appliquées de manière hiérarchique sur les données.

CNRS Institute(s)

Regional office(s)

Scientific topics

CNRS Images,

Our work is guided by the way scientists question the world around them and we translate their research into images to help people to understand the world better and to awaken their curiosity and wonderment.