Imaginez un enfant qui apprend à lire. Il commence par déchiffrer chaque lettre, puis assemble des syllabes, avant de reconnaître des mots entiers. Les modèles de langage actuels, eux, fonctionnent à l'envers : on leur enseigne d'emblée des morceaux de mots préfabriqués, appelés "tokens". Mais une équipe de chercheurs vient de publier sur ArXiv une architecture baptisée Fast Byte Latent Transformer qui pourrait bien bouleverser cette approche. L'idée ? Revenir aux fondamentaux en traitant le texte lettre par lettre — ou plutôt octet par octet.
Quand la simplicité devient un handicap
Les modèles qui travaillent au niveau des octets (bytes) existent déjà. Leur avantage principal ? Ils se passent complètement de vocabulaire prédéfini. Pas besoin de découper "anticonstitutionnellement" en morceaux bizarres comme "anti##constitution##nelle##ment". Ces modèles lisent directement les caractères bruts, ce qui les rend théoriquement plus universels et plus robustes face aux fautes d'orthographe ou aux langues rares.
Mais voilà le piège : cette approche "lettre par lettre" est d'une lenteur exaspérante. Pour générer un simple paragraphe, le modèle doit prédire chaque caractère individuellement, dans un processus appelé génération autorégressive. C'est comme si vous deviez épeler chaque mot à voix haute avant de pouvoir le prononcer. Résultat : ces modèles restaient cantonnés aux laboratoires, trop lents pour être utiles en pratique.
L'astuce du double niveau
Le Fast Byte Latent Transformer résout ce problème avec une architecture à deux étages. Au lieu de générer directement des octets un par un, le modèle travaille d'abord dans un espace latent — une sorte de représentation abstraite et compressée du texte. C'est seulement dans un second temps qu'il traduit ces représentations en caractères concrets.
L'analogie ? Pensez à un pianiste virtuose. Il ne réfléchit pas à chaque doigt qui frappe chaque touche : il pense en accords, en phrases musicales. Le Fast Byte Latent Transformer fait pareil : il "pense" en blocs de sens, puis les décompose en lettres. Cette approche hybride lui permet d'égaler les performances des modèles traditionnels à base de tokens, tout en conservant la flexibilité du traitement octet par octet.
Les premiers résultats publiés montrent que cette architecture atteint des vitesses de génération comparables aux modèles classiques. Un exploit technique qui semblait hors de portée il y a encore quelques mois.
Et maintenant, vers quoi ?
Cette avancée soulève une question fascinante : avons-nous vraiment besoin de vocabulaires préfabriqués ? Les tokens ont été inventés par nécessité technique, mais ils introduisent aussi des biais. Un modèle entraîné sur un vocabulaire anglais peinera avec le vietnamien ou le code informatique. Les approches au niveau des octets promettent une véritable universalité linguistique.
Mais attention aux conclusions hâtives. Le Fast Byte Latent Transformer n'est pour l'instant qu'un article de recherche. Son passage à l'échelle industrielle — avec des modèles de plusieurs centaines de milliards de paramètres — reste à démontrer. Et puis, il faudra convaincre une industrie qui a massivement investi dans l'infrastructure des tokens.
Ce qui est certain, c'est que cette architecture ouvre une voie alternative crédible. Dans quelques années, vos assistants IA liront peut-être vraiment lettre par lettre. Comme vous l'avez fait, un jour, au CP.