Google a annoncé jeudi qu'il ajoutait la prise en charge de 110 nouvelles langues à son application Google Translate grâce à l'intelligence artificielle. Le service sera disponible sur les smartphones et sur le Web et aidera les utilisateurs du monde entier.

A lire aussi : Google DeepMind développe V2A qui crée du son pour les vidéos IA

Avant le développement actuel, Google Translate prenait en charge 133 langues différentes, mais avec ce nouvel ajout, la société a étendu son service à 243 langues au total. Un quart des nouvelles langues incluses sont d’origine africaine. Les nouvelles langues les plus importantes sont l'afar, le cantonais, le pendjabi et le tok pisin.

PaLM2 peut traduire efficacement des langues étroitement liées

Il s’agit du plus grand afflux de langues depuis le précédent grand ajout de mai 2022, pour lequel l’entreprise a utilisé une technologie d’apprentissage automatique sans tir. Google utilise son PaLM2 pour l'apprentissage/traduction, basé sur la technologie Zero-shot. Avec cette technique, un modèle n’a pas besoin d’apprendre à partir d’exemples, ce qui permet un apprentissage plus rapide.

Plus tard, en 2022, Google a annoncé son initiative 1000 langues pour les langues mondiales les plus courantes. Google a déclaré que son grand modèle linguistique (LLM) PaLM2 aide à traduire plus efficacement des langues étroitement liées. Isaac Caswell, ingénieur logiciel principal chez Google Translate, a déclaré :

"[PaLM2] est une pièce clé du puzzle, aidant Translate à apprendre plus efficacement des langues étroitement liées les unes aux autres, y compris des langues proches de l'hindi, comme l'Awadhi et le Marwadi."

Il a ajouté que le créole seychellois et le créole mauricien sont proches des créoles français, qui sont également traduits via PaLM2. Le même modèle d’IA a été utilisé pour alimenter le chatbot Bard, qui a évolué vers Gemini mais utilise désormais un modèle différent. PaLM2 a été formé sur d'énormes ensembles de données contenant 250 milliards de paramètres. 

Google Translate déploiera plus de langues

PaLM2 est un modèle d'IA avancé qui fonctionne couramment sur des textes écrits, ce qui le rend capable de gérer des tâches linguistiques. Cependant, le modèle n’a pas la capacité de traiter l’audio ou les visuels. Google a déclaré avoir choisi les « variétés les plus courantes de chaque langue », car il était difficile de choisir les langues à ajouter. 

La société a déclaré que cette expansion s’adresserait à 8 % de la population mondiale, car les langues sélectionnées sont parlées par « plus de 614 millions de locuteurs ». Caswell a déclaré que certaines langues comptent plus de 100 millions de locuteurs.

A lire aussi : Google Nose pourrait devenir une réalité grâce au machine learning

L’entreprise a envisagé des communautés plus petites, en ajoutant des langues parlées par des communautés autochtones peu peuplées. Parmi elles se trouvent certaines langues sans locuteur natif mais avec « des efforts actifs de revitalisation ».

Un utilisateur de Reddit qui s'appelle stanley_fatmax a commenté la mise à jour en disant :

"Impressionnant; c’est l’une des utilisations vraiment intelligentes et utiles de l’IA, à mon avis. Je suis heureux qu’ils donnent un peu d’amour à Google Translate.

Cependant, l'utilisateur de Reddit a également déclaré que la plupart des étrangers qu'il connaît utilisent désormais un service alternatif appelé DeepL. L'utilisateur a déclaré que Google Translate prenait du retard et que l'entreprise devrait travailler sur les langues déjà prises en charge et en ajouter de nouvelles.

L'entreprise a révélé que la langue la plus demandée était le cantonais, qui chevauche souvent le chinois. L'obtention de données pour la formation en langue cantonaise était difficile en raison de sa ressemblance avec l'écriture mandarine. Un autre exemple est la langue manx de l’île de Man, qui a disparu en 1974 avec la mort de son dernier locuteur natif. Depuis, la langue a été relancée et des milliers de personnes la parlent désormais à travers l’île. Google a annoncé qu'il continuerait à déployer de nouvelles langues au cours des prochains jours.

Reportage cryptopolitain d'Aamir Sheikh