Quand Kenneth Wehr a pris en charge la version groenlandaise de Wikipédia il y a quatre ans, sa première décision fut radicale : supprimer presque l’intégralité des articles existants. Ce jeune Allemand de 26 ans, passionné par le Groenland depuis son adolescence, avait étudié la langue groenlandaise – parlée par environ 57 000 locuteurs, majoritairement Inuits – avant de s’installer au Danemark pour l’enseigner. Pourtant, malgré les apparences, l’édition groenlandaise de Wikipédia, lancée en 2003 et comptant 1 500 articles, n’était qu’un leurre. La plupart des contributions provenaient de non-locuteurs, voire de traductions automatiques truffées d’erreurs, allant de fautes grammaticales élémentaires à des incohérences flagrantes, comme une entrée affirmant que le Canada n’avait que 41 habitants. Certains articles contenaient même des chaînes de caractères aléatoires, générées par des outils d’IA incapables de trouver des équivalents en groenlandais.

Ce phénomène n’est pas isolé. Wikipédia, projet multilingue le plus ambitieux après la Bible avec plus de 340 éditions actives et 400 en développement, voit ses versions minoritaires submergées par des contenus traduits automatiquement. Des bénévoles travaillant sur quatre langues africaines estiment que 40 à 60 % de leurs articles sont des traductions machine non corrigées. Une audit de l’édition en inuktitut, langue inuite proche du groenlandais, révèle que plus des deux tiers des pages contiennent des segments générés ainsi. Ce cercle vicieux s’aggrave avec l’IA : les modèles comme Google Translate ou ChatGPT s’entraînent sur des textes en ligne, souvent issus de Wikipédia, qui devient la principale source pour les langues peu documentées. Les erreurs s’y propagent alors en boucle, dégradant la qualité des traductions futures.

Les conséquences sont lourdes. Pour des langues comme le malgache, le yoruba ou le shona, Wikipédia représentait en 2020 plus de la moitié des données d’entraînement des IA. Une étude allemande de 2022 a même identifié 27 langues pour lesquelles Wikipédia était la seule source accessible en ligne. Or, si ces éditions sont mal rédigées, les modèles d’IA reproduisent et amplifient leurs défauts, risquant d’accélérer le déclin de langues déjà fragilisées. Comme le souligne Trond Trosterud, linguiste à l’université de Tromsø, plus Wikipédia domine comme référence, plus les dommages seront irréversibles.

Le problème dépasse la simple automatisation. Wikipédia utilise depuis ses débuts des bots pour des tâches techniques, mais l’IA permet désormais à des contributeurs mal intentionnés ou naïfs de générer massivement du contenu défectueux. Amir Aharoni, membre du comité des langues de Wikipédia, insiste sur la nécessité de bénévoles compétents : sans eux, les éditions minoritaires s’effondrent, comme celle du groenlandais. Trosterud parle même de « pirates de Wikipédia », des utilisateurs armés de Google Translate qui produisent des articles longs mais incohérents, aggravant la crise pour les langues les moins dotées en ressources. Sans surveillance humaine, l’IA transforme ainsi un outil collaboratif en menace pour la diversité linguistique.