Le laboratoire d’intelligence co-fondé par Iliad vient de dévoiler son premier modèle d’intelligence artificielle doté de capacités vocales.
En 6 mois, une équipe de 8 chercheurs a réussi à développer un prototype expérimental pour Moshin “la toute première IA douée de parole accessible à tous”. Cet assistant vocal est doté d’un modèle d’intelligence artificielle doté de capacités vocales inédites.
Moshi ne convertit pas une requête vocale en texte pour y répondre, comme le font les autres assistants vocaux. Les travaux de Kyutai visent à ce que le modèle puisse reconnaître un son et prédire celui qui arrivera ensuite afin de tenir une conversation naturelle. Le temps de latence est annoncé à 160 ms, un record dans cette industrie, plus rapide que ChatGPT-4o. Le modèle peut également reconnaître des émotions et en imiter 70. Cette technologie d’un nouveau type permet pour la première fois de dialoguer de façon fluide, naturelle et expressive avec une IA.
“Plus largement, Moshi a le potentiel de révolutionner l’usage de la parole dans le monde digital. Ses capacités de synthèse vocale (“text-to-speech”) sont exceptionnelles en termes d’émotion et d’interaction entre plusieurs voix” explique Iliad. Le projet avait été teasé par Xavier Niel en avril dernier, sans qu’il n’en réveille les détails.
La démo interactive de l’IA sera par ailleurs accessible depuis le site de Kyutai en fin de journée ; elle pourra donc être librement testée en ligne dès aujourd’hui, ce qui constitue une première mondiale pour une IA générative vocale.
Commentaires
Bonjour , avant poster, veuillez vous assurer d'avoir pris connaissance des règles.
X
Cinq consignes avant de réagir :