La diversité linguistique menacée par la concentration des contenus dans une dizaine de langues
Les langues font partie intégrante de la culture. La langue maternelle transcrit l’héritage culturel natif qu’un locuteur a reçu dès sa plus petite enfance. Mais plus encore, les langues, leur grammaire, leur vocabulaire, etc. façonnent la façon dont leurs locuteurs pensent. Par exemple, comment parler des concepts de « gauche » et « droite » avec des membres de certaines tribus océaniennes qui ne possèdent pas ces mots ou idées dans leur langue ?
Cependant, le développement rapide de la numérisation concentre la grande majorité des contenus d’Internet dans une dizaine de langues et les langues locales sont négligées. Aussi, elles disparaissent avec leur dernier locuteur, plus vite que jamais, au rythme effréné d’une langue toutes les deux semaines[1], emportant avec elles une façon de voir le monde.
Devant ce constat, l’ONU a placé l’année 2019 sous le signe de la promotion des langues autochtones en soulignant leur intérêt pour « le développement, la consolidation de la paix et la réconciliation ». L’intelligence artificielle (IA) s’inscrit dans ce cadre, au travers de diverses applications permettant à la fois la préservation des langues menacées, et le déchiffrage de textes anciens dans des langues disparues.
L’IA pour pérenniser et préserver la diversité des langues
Parmi les exemples d’utilisation de l’IA au service des langues, on retrouve les chatbots, aussi nommés agents conversationnels. Ces programmes offrent aux personnes désireuses de pratiquer la langue un compagnon virtuel de discussion, promouvant ainsi les occasions de la pratiquer. Le chatbot comprend et répond à tout un panel de phrases sur différents sujets, même en cas de fautes de grammaire ou d’orthographe. Par exemple, Reobot, le chatbot de Facebook, répond en maori de Nouvelle-Zélande et en anglais, 7j/7 et 24h/24, une aubaine pour les quelques 3.7% de la population néozélandaise qui parlent encore cette langue autochtone.
Dans le domaine de la pédagogie, certaines IA facilitent l’apprentissage de langues étrangères pour aider les professeurs ou même les apprenants autodidactes. Le robot Opie de Microsoft aide ainsi les linguistes à promouvoir les langues indigènes d’Australie en ciblant leur enseignement aux enfants dans leur période la plus propice à l’apprentissage de langues, soit de 2 à 5 ans. L’IA de ce robot a collecté l’équivalent de 40 000 heures d’enregistrements dans ces langues, et les a utilisés pour capter l’attention des enfants au travers de jeux et d’histoires. De plus, Opie permet de suivre la progression des élèves dans ces langues au cours du temps.
L’IA pour déchiffrer et traduire les langues éteintes
Certaines langues éteintes depuis longtemps gardent toujours, cachées dans des textes encore non déchiffrés, des informations inestimables sur la société dans laquelle évoluaient les locuteurs de l’époque. Avant l’émergence de l’IA, les spécialistes utilisaient déjà des techniques modernes pour aider leur traduction, comme par exemple des techniques d’imagerie dans le cas de textes gravés, où la profondeur de la gravure influe sur le sens du texte.
Aujourd’hui, une nouvelle technologie basée sur l’intelligence artificielle permet d’aider les spécialistes à déchiffrer les langues éteintes. Cette IA fonctionne en examinant la façon dont les mots sont reliés les uns aux autres dans une grande base de données textuelle. Partant du postulat que les relations entre les mots sont similaires quelle que soit la langue, les programmeurs lient entre eux les mots les plus souvent utilisés dans un même contexte, au travers d’une analyse statistique. Ils en déduisent alors le sens des mots à partir de ces relations.
Cette méthode précise et efficace a permis de traduire les deux tiers d’une langue disparue, le Linéaire B. Récemment, l’intelligence artificielle DeepMind de Google s’est également révélée plus performante que les humains pour la traduction de grec ancien.
D’autres méthodes fondées sur l’IA, et nécessitant moins de points de données, peuvent aider les traducteurs à déchiffrer des langues éteintes, même quand il existe peu de textes à disposition.
L’intérêt est d’autant plus fort pour les langues encore très peu connues, comme le cunéiforme, dont on n’a traduit qu’une dizaine de pourcents des textes à ce jour. Des programmes de recherches multi-pays visent à traduire des milliers de textes dans cette langue en s’aidant de l’IA.
L’implication des scientifiques dans le domaine de l’IA appliquée aux langues montre une volonté d’utiliser les techniques les plus avancées que l’Homme ait pour déchiffrer un passé inconnu et préserver la richesse et la diversité que les langues offrent. Cette technologie peut apporter des bénéfices sociaux et culturels forts, et nous donner des clés pour construire notre avenir à partir des enseignements du passé.
Alcimed explore et développe les terres inconnues avec ses clients. Le plus souvent, ces terres inconnues concernent le futur, les nouvelles technologies et la prospective. Il est fascinant de voir que de tels développements peuvent aussi permettre la préservation d’un patrimoine historique, menacé de disparition.
A propos des auteurs
Stéphane, Consultant Senior dans l’équipe Santé d’Alcimed en France
[1] https://news.un.org/en/audio/2016/01/608532