Retour au reportage Retour au reportage
20230062_0032

© Christian MOREL / LIPN / CNRS Images

Référence

20230062_0032

Un réseau profond pour l’apprentissage de représentations discriminantes pour la reconnaissance de locuteurs à partir du signal vocal

L’apprentissage des réseaux de neurones artificiels consiste essentiellement à appliquer par alternance, sur les données, une suite de transformations linéaires et non linéaires. Ces deux types de transformations peuvent être vus respectivement comme des projections et des seuillages dans de nouveaux espaces de représentations. Cette figure illustre parfaitement ce processus d’apprentissage au niveau de toutes les couches du réseau de neurones artificiels. Le bas de cette figure montre le résultat des différentes transformations dans les différents espaces de représentations hiérarchiques, modélisés par les couches du réseau. Chaque ellipse représente l’enveloppe convexe du nuage de points (messages vocaux) de chaque classe (ici classe = locuteur). Il est possible d'observer sur la couche d’entrée un fort recouvrement entre les différentes classes, donc une forte confusion entre les locuteurs. Au fur et à mesure qu’on avance dans les couches du réseau, la variabilité intra-classes baisse et la variabilité inter-classes augmente. Au niveau de la couche de sortie (décision), toutes les classes sont bien séparées. C’est simplement le résultat des différentes transformations alternées, linéaires et non linéaires appliquées de manière hiérarchique sur les données.

Délégation(s)

Thématiques scientifiques

CNRS Images,

Nous mettons en images les recherches scientifiques pour contribuer à une meilleure compréhension du monde, éveiller la curiosité et susciter l'émerveillement de tous.