Paris, 7 Juillet 2022. Les grands modèles de langage ont atteint un degré de sophistication qui surprend même les experts. Ils peuvent recevoir des requêtes et y répondre en langage naturel.
Puisque cette manière d’interagir nous est si familière et que la sortie générée fait preuve en apparence de compréhension et de créativité, nous confrontons naturellement la réponse de ces modèles à celle d’un être humain. Et ce, non seulement sur le critère de l’exactitude grammaticale du texte produit ou de sa factualité, mais également sur l’esprit de la langue et les connaissances spécifiques que l’on attendrait d’un locuteur natif.
Un parallèle avec la « vallée de l’étrange », théorie du roboticien Masahiro Mori, s’impose. Selon cette théorie, plus l’apparence d’un robot est similaire à celle d’un humain, plus ce qui l’en sépare nous paraît monstrueux. Dans notre cas, la vallée de l’étrange est de nature non pas visuelle, mais linguistique et culturelle.
Jusqu’à présent, les grands modèles de langage les plus utilisés ont été entraînés avec un corpus composé principalement d’anglais et pour les rendre disponibles dans d’autres langues, il fallait passer par la case traduction. Dans ce blogpost, nous allons montrer que cela peut entraîner une perte ou une fausse représentation d’idiosyncrasies culturelles, créant ainsi les conditions pour la « vallée de l’étrange ». Nous allons également voir que notre modèle français entraîné nativement produit un texte de qualité tout en palliant ce problème.
Le poids d’un chat
Comme illustration, nous partirons d’un exemple simple, où l’on demande au modèle le poids moyen d’un chat en français.
Pour le modèle entraîné en anglais, nous devons d’abord traduire la question du français vers l’anglais, puis demander au modèle de donner une réponse à la question traduite, réponse qui sera, à son tour, traduite en français. Dans le cas du modèle français entraîné nativement, on saute les étapes de traduction.
Comparons maintenant les réponses obtenues en français à partir des deux modèles : bien que la réponse générée par le modèle anglais soit correcte, elle donne le poids du chat en livres (environ 0,454kg), une unité de mesure peu utilisée en France, alors que notre modèle français, lui, utilise la bonne unité de mesure (le kilogramme) pour construire sa réponse.
Cet exemple est représentatif de situations où la couche de traduction introduit ce type de biais, il en est de même pour les textes générés qui contiennent des unités de mesure (impériales vs métriques), une devise (USD vs EUR), une température (Fahrenheit vs Celsius) ou des distances (miles vs kilomètres).
La raison en est que la sortie générée par un modèle est entièrement dépendante des informations apprises lors de son entraînement. Par conséquent, le modèle anglais aura une forte tendance à utiliser les unités impériales et les dollars comme monnaie. La sortie produite est ensuite soumise à une traduction qui, certes, peut produire un français grammaticalement correct, mais qui ne tient pas compte des particularités culturelles et n’ira donc pas changer les unités et les devises pour celles couramment utilisées dans la langue cible.
Dans ce qui suit, le texte d’entrée en français sera précédé de ✍️🇫🇷. La sortie générée par notre modèle français sera précédée de 🤖🇫🇷, et celle du modèle anglais de 🤖🇺🇸. Une traduction anglaise des textes d’entrée et des textes générés est fournie à côté du texte français.
Voici un autre exemple amusant, lié à la culture pop, en particulier aux titres de films.
✍️🇫🇷 En 2009, Todd Phillips produit et réalise un film mettant en scène Bradley Cooper, Ed Helms, Zach Galifianakis et Justin Bartha qui s'appelle
Un modèle entraîné en anglais, plus la traduction, génèrent à partir de ce texte d’entrée la réponse “La gueule de bois”, traduction littérale du titre anglais “The Hangover”. À partir du même texte d’entrée, notre modèle français génère la réponse qui correspond au vrai titre du film en France : “Very Bad Trip”.
Inexactitudes factuelles
Voyons maintenant une deuxième classe d’exemples pour lesquels la supériorité du modèle nativement entraîné en français est manifeste. Pour cette classe, le modèle anglais génère un texte factuellement faux compte tenu du contexte régional et culturel. Ainsi si nous considérons le texte d’entrée suivant :
✍️🇫🇷 La consommation annuelle moyenne d'électricité résidentielle est de
Le modèle anglais a tendance à retourner des valeurs autour de 10 000 kWh, alors que les réponses de notre modèle français donnent des valeurs plus centrées autour de 5 000 kWh. Le premier fournit une estimation valable pour l’Amérique du Nord, d’où proviennent probablement la plupart des données qu’il a vues lors de son entraînement. Mais cette estimation est fausse pour la France en raison des différences régionales, historiques, culturelles et politiques. Le modèle français, étant entraîné sur une base de données à spécificité française, donne une réponse juste.
Prenons un autre exemple et demandons aux modèles de compléter la phrase
✍️🇫🇷 La limitation de vitesse sur les autoroutes est
Le modèle anglais donne 65 mph, soit environ 105 km/h. Le modèle français donne 130 km/h. Une fois de plus, ce dernier est le seul à donner une réponse valable dans le contexte français.
De nombreux autres exemples font partie de cette deuxième classe, sur des sujets variés tels que l’âge légal pour conduire, les soins de santé universels, l’âge légal pour consommer de l’alcool et le capital financier du pays, etc.
Subtilités culturelles
Il est facile de vérifier l’exactitude des faits. A contrario, les contours de la notion de culture sont beaucoup plus « flous », et il peut s’avérer difficile d’étiqueter certains avec « vrai » ou « faux ». Certes, sélectionner uniquement des textes anglais pour le corpus d’apprentissage d’un modèle linguistique peut créer un biais culturel en faveur des États-Unis dans les textes générés ; cependant, la génération sera également influencée par les données d’autres pays et régions anglophones, ainsi que par des textes anglais écrits par des locuteurs non natifs.
De même, le français n’est pas parlé uniquement en France, et, tout comme un modèle anglais, le modèle français n’est pas étanche aux influences culturelles d’autres pays.
Mais le modèle français reste un plus fin connaisseur de la culture française, ainsi que le montre bon nombre d’exemples. Ainsi, pour la question suivante :
✍️🇫🇷 Le fromage est-il fabriqué à partir de lait non pasteurisé ?
🤖🇺🇸 Si c'est le cas, il peut être chargé de bactéries, et il peut être dangereux pour les personnes allergiques aux produits laitiers. Le fromage non pasteurisé peut provoquer de graves problèmes de santé chez les personnes allergiques, comme un choc anaphylactique. La meilleure façon d'éviter ce risque est d'éviter le fromage non pasteurisé.
🤖🇫🇷 Oui, mais pas n’importe lequel. Le fromage est fait à partir de lait cru soigneusement sélectionné, provenant de vaches nourries à l’herbe dont le lait est cru, non chauffé et non homogénéisé. Le lait cru est un aliment vivant qui contient des bactéries vivantes et des levures.
Les réponses du modèle anglais reflètent l’attitude américaine envers le lait non pasteurisé : elles se concentrent sur la possibilité de contamination par des bactéries et les dangers existants en particulier pour les femmes enceintes et les personnes allergiques. Notre modèle français génère un texte beaucoup plus conforme à la compréhension et à l’attachement français au fromage, véhiculant une description beaucoup plus chaleureuse de celui-ci.
Maintenant nous allons nous tourner vers préférences musicales :
✍️🇫🇷 Sans aucun doute, l'un des plus grands interprètes du XXe siècle a été
Le modèle anglais répond la plupart du temps Elvis Presley, avec un peu de Michael Jackson de temps à autre. Notre modèle français, en revanche, mentionne Marilyn Horne, Rudolf Noureev, Jean Sablon, Dietrich Fischer-Dieskau et d’autres. Encore une fois, nous ne suggérons pas que l’un a raison et que l’autre a tort. Nous voulons plutôt montrer à quel point les préférences culturelles sont profondément ancrées dans les modèles linguistiques à travers leur corpus d’entraînement.
En guise de conclusion
Nous souhaitons clôturer ce blogpost de la manière la plus française possible : avec une formule de politesse.
✍️🇫🇷 Pour terminer une lettre très formelle, vous pouvez écrire :
🤖🇺🇸 Sincèrement vôtre
🤖🇫🇷 Je vous prie d'agréer, Monsieur le Président, l'expression de mes sentiments les plus respectueux.
Quelle langue merveilleuse ! 🥰
Dans cet article de blog, nous avons illustré les avantages des grands modèles de langage nativement entraînés en comparant notre modèle français avec un modèle anglais. Avec les modèles nativement entraînés, plus besoin de couches de traduction supplémentaires, ce qui élimine la complexité et les erreurs introduites par la traduction. De plus, ces modèles s’appuient sur un corpus d’entraînement chargé de spécificités culturelles, qui génère un texte plus conforme à ce qu’un utilisateur attendrait.
Nous pensons donc que pour traverser l’étrange vallée linguistique et culturelle, un modèle de langage doit être nativement entraîné. Voilà pourquoi, chez LightOn, nous proposons les modèles VLM-4 nativement entraînés en cinq langues : français, italien, allemand, espagnol et anglais. Inscrivez-vous sur muse.lighton.ai et testez-les avec notre plan développeur gratuit, soit sur la page dédiée (le Playground), soit en faisant directement des appels à l’API Muse. Pour plus d’informations, consultez muse.lighton.ai.