Une percée révolutionnaire dans l’IA arabe ouvre la voie à des modèles linguistiques inclusifs

L'avènement des plates-formes d'IA avec de grands modèles de langage comme Chat-GPT a marqué le début d'une nouvelle ère d'interactions basées sur l'IA. Même si l’intérêt et le développement de la technologie de l’IA ont augmenté au Moyen-Orient, les modèles en langue arabe sont souvent à la traîne. Cependant, un effort de collaboration entre l'Université d'intelligence artificielle Mohamed bin Zayed (MBZUAI) d'Abou Dhabi, Cerebras Systems, basée dans la Silicon Valley, et la société d'IA G42, basée aux Émirats arabes unis, a dévoilé un outil d'IA révolutionnaire conçu sur mesure pour les arabophones, appelé « Jais ». Ce développement répond non seulement aux besoins des arabophones, mais a également le potentiel de faire progresser de grands modèles linguistiques dans d’autres langues sous-représentées dans le paysage de l’IA.

Le défi des modèles linguistiques arabes

Bien que les modèles linguistiques existants tels que ChatGPT et LLaMA de Meta présentent certaines fonctionnalités pour la langue arabe, ils ont été principalement formés sur des données anglaises provenant d'Internet. Selon Timothy Baldwin, doyen par intérim et professeur de traitement du langage naturel à MBZUAI, Jais a adopté une approche différente. Il a utilisé une combinaison d’ensembles de données en anglais et en arabe, avec un fort accent sur le contenu du Moyen-Orient. Cette approche de formation unique a permis à Jais d'atteindre un niveau de compréhension et de maîtrise de l'arabe qui le distingue de ses homologues.

La domination des langues à alphabet latin

La prédominance des langues utilisant l’alphabet latin sur Internet, avec l’anglais en tête, a conduit à la création d’ensembles de données plus importants pour ces langues. Mohammed Soliman, directeur du programme de technologies stratégiques et de cybersécurité au Middle East Institute, souligne qu'un accès exclusif aux outils d'IA pour des langues spécifiques pourrait désavantager divers secteurs de la société. Les modèles linguistiques formés principalement en anglais manquent souvent de sensibilisation culturelle et de compréhension des divers horizons, ce qui peut avoir un impact négatif sur l'expérience utilisateur.

Nuances culturelles et dialectes en arabe

L’arabe, sixième langue la plus parlée au monde, présente un défi unique en raison de la riche diversité de ses dialectes. L'arabe standard moderne est généralement utilisé pour les documents officiels et les écrits formels, tandis que les dialectes locaux sont répandus dans les blogs et les médias sociaux. Jais, avec ses antécédents diversifiés, a la capacité de naviguer entre ces dialectes et de comprendre les nuances culturelles, ce qui le rend plus polyvalent et applicable dans différents secteurs.

Élargissez les possibilités

À mesure que Jais continue d'évoluer, l'équipe de développement cherche à étendre ses capacités au-delà des interactions textuelles. Ils prévoient d'intégrer la possibilité de travailler avec des images, des graphiques ou des données tabulaires, ouvrant ainsi la voie à des applications dans l'interprétation d'analyses médicales, l'analyse de données d'investissement ou le traitement de données satellitaires.

Responsabilité dans le développement de l'IA

Jais, comme d'autres modèles d'IA générative, met en œuvre l'optimisation des instructions pour empêcher la génération de contenu nuisible ou toxique. Adhère aux règles et coutumes locales, garantissant que les réponses sont conformes aux normes éthiques et culturelles. Le processus de développement de Jais impliquait un dialogue avec le gouvernement des Émirats arabes unis et d'autres institutions pour garantir une mise en œuvre responsable de l'IA.

Développements régionaux aux Émirats arabes unis

Les Émirats arabes unis ont été à l’avant-garde du développement de systèmes d’intelligence artificielle générative. En 2017, il est devenu le premier pays au monde à nommer un ministre de l’IA. Notamment, le plus grand modèle d'IA générative de la région, Falcon, a été dévoilé par l'Advanced Technology Research Council d'Abu Dhabi et le Technology Innovation Institute (TII). Bien que Falcon ne soit actuellement disponible qu'en anglais, il possède 180 milliards de paramètres et surpasse ses concurrents en matière de raisonnement, de codage et de tests de connaissances. Falcon et Jais sont tous deux open source, ce qui rend leur code accessible à tous pour l'utiliser ou le modifier.

L’impact potentiel de l’intelligence artificielle au Moyen-Orient

Selon un rapport de PwC de 2018, le Moyen-Orient bénéficiera de l’IA jusqu’à 320 milliards de dollars d’ici 2030. La région souhaite développer ses capacités en matière d’IA pour exploiter tout le potentiel de cette technologie. Ali Hosseini, directeur numérique de PwC pour le Moyen-Orient, souligne que certains des meilleurs modèles d'IA open source ont été développés dans la région, citant Falcon et Jais comme exemples éloquents.

L’introduction de Jais, un outil d’IA conçu pour les arabophones, représente une avancée significative dans la lutte contre le fossé linguistique dans le paysage de l’IA. Cela répond non seulement aux besoins des Arabes, mais crée également un précédent en matière de développement de modèles linguistiques pour les langues sous-représentées dans le monde. Grâce à sa capacité à comprendre les dialectes et les nuances culturelles, Jais est sur le point d'avoir un impact profond dans diverses industries, favorisant ainsi l'évolution de l'intelligence artificielle au Moyen-Orient et au-delà. À mesure que la technologie de l’IA continue de progresser, l’inclusivité des modèles linguistiques est essentielle pour garantir que les avantages de l’IA soient accessibles à diverses populations du monde entier. Jais représente une étape prometteuse dans cette direction, avec un potentiel de développements plus innovants à l'horizon.