L’IA Gemini de Google est une menace sérieuse pour ChatGPT – voici pourquoi

POINTS CLÉS À RETENIR

L'introduction de Google Gemini, un ensemble de grands modèles de langage (LLM) incorporant des techniques inspirées d'AlphaGo, marque la réponse stratégique de Google à ChatGPT. Grâce à ses capacités multimodales et à l'accès potentiel aux vastes données d'entraînement propriétaires de Google provenant de divers services, Gemini vise à remettre en question la domination de ChatGPT dans l'espace de l'IA générative. Cette initiative souligne l'engagement de Google en faveur de l'innovation en matière d'IA et de la concurrence sur le marché de l'IA générative, qui connaît une croissance rapide et dont la valeur devrait atteindre 1,3 billion de dollars d'ici à 2032.

Le lancement de ChatGPT en novembre dernier a ébranlé Google dans ses fondements. Le populaire chatbot représentait une telle menace pour les activités de l’entreprise que celle-ci a dû déclarer un code rouge et a commencé à investir pour rattraper son retard dans le domaine de l’IA générative. Cet effort s’est traduit non seulement par la sortie de Google Bard, mais aussi de Google Gemini.

Qu’est-ce que Google Gemini ?

Gemini est un ensemble de grands modèles de langage (LLM) qui s’appuient sur des techniques de formation tirées d’AlphaGo. Notamment l’apprentissage par renforcement et la recherche arborescente. Et qui ont le potentiel de détrôner ChatGPT en tant que solution d’IA générative la plus dominante de la planète.

Cette nouvelle intervient quelques mois seulement après que Google a fusionné ses laboratoires d’IA Brain et DeepMind pour créer une nouvelle équipe de recherche appelée Google DeepMind, et quelques mois seulement après le lancement de Bard et de son PaLM 2 LLM de nouvelle génération.

Les chercheurs prévoient que le marché de l’IA générative vaudra 1,3 billion de dollars d’ici 2032. Il est donc clair que Google investit à fond dans cet espace pour maintenir sa position de leader dans le développement de l’IA.

Tout ce que nous savons à ce jour sur Gemini

Si beaucoup s’attendent à ce que Google Gemini soit commercialisé à l’automne 2023, on ne sait pas grand-chose des capacités du modèle.

En mai dernier, Sundar Pichai, PDG de Google et d’Alphabet, a publié un billet de blog présentant une vue d’ensemble du LLM, en expliquant :

“Gemini a été conçu dès le départ pour être multimodal, très efficace en matière d’intégration d’outils et d’API et conçu pour permettre de futures innovations, telles que la mémoire et la planification.

M. Pichai a également indiqué que “bien qu’il soit encore tôt, nous voyons déjà des capacités multimodales impressionnantes qui n’ont pas été vues dans les modèles précédents”.

“Une fois mis au point et soumis à des tests de sécurité rigoureux, Gemini sera disponible en différentes tailles et capacités, tout comme PaLM 2”.

Depuis, peu de choses ont été dites sur la sortie officielle, à part l’interview de Demis Hassabis, PDG de Google DeepMind, avec Wired, notant que Gemini “combinera certaines des forces des systèmes de type AlphaGo avec les capacités linguistiques étonnantes des grands modèles.”

Android Police a également affirmé qu’une source anonyme impliquée dans le produit a commenté que Gemini sera capable de générer du texte et des images contextuelles et sera entraîné sur des sources telles que les transcriptions de vidéos YouTube.

Gemini prendra-t-il la place de ChatGPT ?

L’une des plus grandes conversations autour de la sortie de Gemini est de savoir si le modèle de langage mystère a ce qu’il faut pour détrôner ChatGPT, qui a atteint cette année plus de 100 millions d’utilisateurs actifs mensuels.

Au départ, Google utilisait la capacité de Gemini à générer du texte et des images pour le différencier de GPT4, mais le 25 septembre 2023, OpenAI a annoncé que les utilisateurs pourraient saisir des requêtes vocales et des images dans ChatGPT.

Maintenant qu’OpenAI expérimente une approche de modèle multimodal et a connecté ChatGPT à internet, le différentiateur le plus menaçant entre les deux est peut-être la vaste gamme de données d’entraînement propriétaires de Google. Google Gemini peut traiter des données provenant de différents services, notamment Google Search, YouTube, Google Books et Google Scholar.

L’utilisation de ces données exclusives pour l’entraînement des modèles Gemini pourrait se traduire par un net avantage en termes de sophistication des informations et des déductions qu’il peut tirer d’un ensemble de données. Cela est particulièrement vrai si les premiers rapports indiquant que Gemini est entraîné sur deux fois plus d’éléments que GPT4 sont corrects.

En outre, le partenariat entre les équipes DeepMind et Brain de Google cette année ne doit pas être sous-estimé, car il met l’OpenAI face à une équipe de chercheurs en IA de classe mondiale, dont le cofondateur de Google Sergey Brin et le scientifique principal en IA de DeepMind et expert en apprentissage automatique Paul Barham.

Il s’agit d’une équipe expérimentée qui sait parfaitement comment appliquer des techniques telles que l’apprentissage par renforcement et la recherche arborescente pour créer des programmes d’IA capables de recueillir des commentaires et d’améliorer leur résolution de problèmes au fil du temps, ce que l’équipe de DeepMind a utilisé pour apprendre à AlphaGo à vaincre un champion du monde de Go en 2016.

La course à l’armement de l’IA

La combinaison des capacités multimodales de Gemini, l’utilisation de l’apprentissage par renforcement, les capacités de génération de textes et d’images et les données propriétaires de Google sont tous les ingrédients dont Gemini a besoin pour surpasser GPT-4.

Les données d’entraînement sont le principal facteur de différenciation. Après tout, l’organisation qui remportera la course à l’armement des LLM sera en grande partie déterminée par celle qui entraînera ses modèles sur l’ensemble de données le plus vaste et le plus riche.

Cela étant dit, OpenAI travaillant apparemment sur un nouveau LLM multimodal de nouvelle génération appelé Gobi, nous ne pouvons pas encore faire une croix sur le géant de l’IA générative. La question est maintenant de savoir qui exécute le mieux l’IA multimodale.

Tim Keary

Depuis janvier 2017, Tim Keary est rédacteur et journaliste indépendant spécialisé dans les technologies d'entreprise et la cybersécurité.