Le premier modèle open-source qui spécialise l’IA pour la voix et le texte

Dans LLMs
20 janv., 12:28
0 commentaire

Chercheurs de l’Université nationale de Singapour et de l’Université Jiao Tong de Shanghai dévoilent MoST, premier grand modèle de langage speech-text entièrement open-source. Son innovation : une architecture Mixture of Experts modality-aware qui route intelligemment audio et texte vers des experts spécialisés, plutôt que d’utiliser les mêmes paramètres pour les deux modalités.

Qu'est-ce que MoST ? Architecture modality-aware

MoST signifie « Mixture of Speech and Text ». Soumis à arXiv le 15 janvier 2026, le projet se présente comme le premier grand modèle de langage speech-text entièrement open-source construit sur une architecture Mixture of Experts — cette approche d’IA où seuls certains sous-réseaux (les « experts ») s’activent pour chaque entrée, plutôt que d’utiliser le modèle complet.

L’équipe dirigée par Yuxuan Lou, Kai Yang et Yang You repose sur une observation élémentaire mais fondatrice : le texte et l’audio n’ont pas les mêmes motifs internes. Pourquoi forcer les mêmes paramètres à traiter des représentations aussi différentes ?

Structure du modèle

MoST contient 64 experts routés (32 pour le texte, 32 pour l’audio) et 2 experts partagés accessibles à toutes les modalités. Concrètement, chaque token entrant, qu’il soit textuel ou audio, est étiqueté selon sa modalité. Un système de routage applique ensuite un filtre : un token textuel accède uniquement aux experts texte et aux experts partagés, tandis qu’un token audio accède uniquement aux experts audio et aux experts partagés.

Cette spécialisation parallèle capture les motifs uniques de chaque modalité — les patterns de phonétique pour l’audio, les dépendances lexicales pour le texte — tout en gardant un espace partagé pour la fusion cross-modale. C’est cette séparation intelligente de la charge de travail qui différencie MoST des approches multimodales classiques, où tous les tokens sont traités par les mêmes paramètres, indépendamment de leur nature.

Innovation clé : le routage modality-aware

Le cœur technique de MoST réside dans sa couche de routage MAMoE (Modality-Aware Mixture of Experts Gate).

Fonctionnement du routage

Le processus se déploie en cinq étapes. Un token arrive au routeur avec son étiquette modalité (0 pour le texte, 1 pour l’audio). Le routeur calcule normalement des scores d’affectation pour tous les experts. Un masque met ensuite à zéro les scores pour tous les experts non autorisés. Le système sélectionne alors les top-K experts avec les scores restants (généralement 2 ou 3). Enfin, le token est acheminé uniquement vers ces experts autorisés.

Les experts partagés restent accessibles à tous les tokens, quelle que soit leur modalité, formant ainsi un pont pour la communication cross-modale.

Analogie illustrative

Là où une Mixture of Experts classique ressemble à un carrefour où chaque véhicule peut emprunter n’importe quelle route, la MAMoE de MoST ressemble à un carrefour où les voitures (tokens texte) et les camions (tokens audio) ont des voies réservées, tandis que quelques voies communes permettent l’échange d’information cross-modale.

Résultats empiriques

Les études d’ablation confirment que ce routage modality-spécifique améliore significativement les performances sur tous les domaines testés.

Entraînement et données : l'accent sur la reproductibilité

MoST suit un pipeline d’entraînement en deux étapes.

Post-training sur données vocales

Le modèle apprend sur des datasets massifs de reconnaissance vocale (ASR) et synthèse vocale (TTS). L’équipe utilise trois datasets publics : LibriHeavy (60 000 heures de parole en anglais, extension du LibriSpeech), Common Voice (dataset multilingue crowdsourcé par Mozilla) et VoxPopuli (400 heures de parole multilingue du Parlement européen). Tous sont open-source et accessibles publiquement, un détail crucial pour la reproductibilité scientifique.

Fine-tuning sur instructions mixtes

Le modèle est ajusté sur un dataset d’instructions speech-text pour apprendre à répondre à des commandes parlées et générer des réponses texte ou vocales.

Reproductibilité en tant qu'avantage

MoST verrouille son entraînement sur données exclusivement open-source. Cela signifie que n’importe quel chercheur ou organisation peut, en théorie, reproduire le modèle complet du zéro — un avantage majeur sur les LLMs propriétaires (GPT-4o, Claude Opus) dont les données d’entraînement sont secrets.

Performances rapportées et benchmarks

L’équipe a testé MoST sur quatre domaines distincts.

Reconnaissance vocale (ASR)

Mesurée en WER (Word Error Rate), les performances rapportées sont : LibriSpeech-clean 2,0%, LibriSpeech-other 3,7%, VoxPopuli-V1.0-en 6,2%, Common Voice-v13 8,4%.

Synthèse vocale (TTS)

Les résultats en CER (Character Error Rate) indiquent : LS-Clean 6,0% WER, VoxPopuli 10,1% CER, Common Voice 11,5% CER.

Modélisation du langage audio

La prédiction du token audio suivant atteint une précision moyenne de 71,94%, avec un pic de 83,64% sur sTopic-StoryCloze.

Question-réponse parlée

Les tests Spoken QA montrent : Llama Q (speech → text) 74,8%, Llama Q (speech → speech) 62,6%, Trivial QA (speech ↔ speech) 32,1%, WebQ (speech → text) 58,2%, WebQ (speech → speech) 44,7%.

Interprétation des résultats

D’après les résultats synthétisés par Quantum Zeitgeist, MoST surpasse des modèles comparables comme MinMo et LLaMA-Omni2 sur plusieurs benchmarks. Néanmoins, ces chiffres proviennent de l’évaluation interne de l’équipe ; aucune validation externe par des tiers indépendants n’a encore confirmé ces résultats. La comparaison se limite aux modèles nommés ; une évaluation exhaustive face à tous les modèles multimodaux 2026 n’existe pas.

Quand sera-t-il disponible ? Le statut open-source

La promesse est claire : code d’entraînement, code d’inférence, checkpoints de modèles et données d’entraînement seront mis en open-source. Mais le timing reste incertain.

Statut actuel

Le dépôt GitHub officiel (github.com/NUS-HPC-AI-Lab/MoST) affiche le statut « 🚧 Coming Soon ». Les checkpoints du modèle et les données complètes sont en cours de préparation.

Cela signifie qu’au 20 janvier 2026 : les architectures et détails techniques sont documentés et reproductibles via le papier arXiv et le README GitHub, mais les fichiers de poids (checkpoints) ne sont pas accessibles, et la date exacte de release n’a pas été annoncée.

Estimer février ou mars 2026 pour la publication complète relève de la spéculation. Il convient de surveiller le dépôt GitHub pour les actualisations officielles.

Contexte : pourquoi Mixture of Experts devient standard en 2026

MoST émerge dans un écosystème où l’architecture Mixture of Experts est devenue quasi-standard pour les modèles open-source.

Autres acteurs adoptant MoE

Meta travaille sur Llama 4 Maverick/Scout (début 2026), modèle multimodal vision-texte fondé sur MoE. Mistral a lancé Mistral Large 3 (novembre 2025), une architecture MoE multimodale générique. DeepSeek a publié R1, un modèle orienté raisonnement qui fusionne MoE sparse avec chaînes de pensée, représentant 671 milliards de paramètres avec 37 milliards activés par token.

L'attrait central du MoE : l'activation sparse

Au lieu d’utiliser tous les paramètres à chaque étape, seuls certains experts s’activent. Les résultats concrets incluent une inférence plus rapide, un coût d’exécution réduit en GPU et une qualité comparable aux modèles denses.

Différenciation de MoST

Ce qui distingue MoST dans ce paysage, c’est sa cible : la modalité speech-text reste largement inexploitée comparée aux approches vision-texte. L’impact réel dépendra de la qualité de la release open-source et de l’adoption communautaire après publication.

Pourquoi cela compte

MoST incarne une tendance bien réelle : les chercheurs académiques rattrapent leurs homologues propriétaires, non pas via des modèles plus larges (GPT-4o et Claude restent plus puissants), mais via des architectures astucieuses, l’open-science et une optimisation intelligente des ressources.

La séparation des experts par modalité n’est pas une révolution théorique, mais c’est un raffinement ingénieux et empiriquement validé. L’engagement sur les données open-source élimine une classe entière de secret commercial.

La vraie question n’est pas si MoST dépassera les modèles fermés — ce sera probablement non. C’est si cette approche devient reproduisible, accessible et assez performante pour que des organisations académiques ou mid-market l’adoptent plutôt que des APIs propriétaires.

Pour répondre à cette question, il convient d’attendre les checkpoints publics et les retours de la communauté sur la latence et la fiabilité réelle en production. D’ici là, MoST reste une promesse convaincante, ancrée dans une architecture technique solide et un engagement scientifique clair.

FAQ

Qu'est-ce que MoST et en quoi diffère-t-il des autres modèles multimodaux ?

MoST est un grand modèle de langage speech-text open-source utilisant une architecture Mixture of Experts modality-aware (MAMoE). Contrairement aux modèles classiques qui traitent audio et texte avec les mêmes paramètres, MoST route les tokens vers des experts spécialisés selon leur modalité, améliorant ainsi les performances.

Comment fonctionne le routage MAMoE de MoST ?

Le routage MAMoE utilise un système de masquage : chaque token reçoit une étiquette (texte ou audio). Le routeur calcule les scores d’affectation aux experts, puis applique un masque qui annule les scores des experts non autorisés pour cette modalité, avant de sélectionner les top-K experts accessibles.

Quand MoST sera-t-il disponible en open-source ?

Les détails techniques et le code sont documentés depuis janvier 2026. Les checkpoints (poids du modèle) et les données complètes sont en préparation et marqués « Coming Soon » sur GitHub, sans date officielle annoncée.