Fiabilidad

La IA Gemini de Google es una seria amenaza para ChatGPT

Resumen

La introducción de Google Gemini, un conjunto de grandes modelos lingüísticos (LLM) que incorporan técnicas inspiradas en AlphaGo, marca la respuesta estratégica de Google a ChatGPT. Con capacidades multimodales y acceso potencial a los amplios datos de entrenamiento propiedad de Google procedentes de diversos servicios, Gemini pretende desafiar el dominio de ChatGPT en el espacio de la IA generativa. Este movimiento subraya el compromiso de Google con la innovación en IA y la competencia en el mercado de la IA generativa, en rápido crecimiento y con un valor previsto de 1,3 billones de dólares para 2032.

El lanzamiento de ChatGPT en noviembre de 2022 sacudió a Google hasta sus cimientos. El popular chatbot suponía tal amenaza para el negocio de la compañía que tuvo que declarar un código rojo y comenzó a invertir para ponerse al día en el carro de la IA generativa.

Este esfuerzo no sólo se ha traducido en el lanzamiento de Google Bard, sino también de Google Gemini.

Gemini se lanzó el miércoles 6 de diciembre de 2023 y, a medida que pasen los meses, seguiremos su trayectoria: hay serias posibilidades de que Google arrebate la popular corona de la IA a ChatGPT.

¿Qué es Google Gemini?

Gemini es un conjunto de grandes modelos lingüísticos (LLM) que aprovechan técnicas de entrenamiento tomadas de AlphaGo, incluido el aprendizaje por refuerzo y la búsqueda en árboles, que tiene el potencial de desbancar a ChatGPT como la solución de IA generativa más dominante del planeta.

Llega meses después de que Google combinara sus laboratorios de IA Brain y DeepMind para crear un nuevo equipo de investigación llamado Google DeepMind, y tras el lanzamiento de Bard y su LLM PaLM 2 de nueva generación.

Teniendo en cuenta que los investigadores prevén que el mercado de la IA generativa alcanzará un valor estimado de 1,3 billones de dólares en 2032, está claro que Google va a por todas invirtiendo en este espacio para mantener su posición de líder en el desarrollo de IA.

Todo lo que sabemos hasta ahora sobre Gemini

En mayo, Sundar Pichai, CEO de Google y Alphabet, publicó una entrada en su blog en la que ofrecía una visión general del LLM:

“Gemini se creó desde cero para ser multimodal, muy eficiente en las integraciones de herramientas y API y construido para permitir futuras innovaciones, como la memoria y la planificación.”

Pichai también señaló que “aunque todavía es pronto, ya estamos viendo impresionantes capacidades multimodales no vistas en modelos anteriores.”

“Una vez puesta a punto y sometida a rigurosas pruebas de seguridad, Gemini estará disponible en varios tamaños y capacidades, al igual que PaLM 2”.

En su entrevista con Wired, Demis Hassabis, CEO de Google DeepMind, señaló que Gemini “combinará algunos de los puntos fuertes de los sistemas tipo AlphaGo con las asombrosas capacidades lingüísticas de los modelos grandes.”

¿Le arrebatará Gemini la corona a ChatGPT?

Una de las mayores conversaciones en torno al lanzamiento de Gemini es si el modelo lingüístico tiene lo que hace falta para desbancar a ChatGPT, que este año ha alcanzado más de 100 millones de usuarios activos mensuales.

Inicialmente, Google utilizaba la capacidad de Gemini para generar texto e imágenes para diferenciarlo de GPT4, pero el 25 de septiembre de 2023, OpenAI anunció que los usuarios podrían introducir consultas de voz e imagen en ChatGPT.

Ahora que OpenAI está experimentando con un enfoque de modelo multimodal y ha conectado ChatGPT a Internet, quizá el factor diferenciador más amenazador entre ambos sea el vasto conjunto de datos de entrenamiento propiedad de Google. Google Gemini puede procesar datos de varios servicios, como Google Search, YouTube, Google Books y Google Scholar.

El uso de estos datos propios para entrenar los modelos de Gemini podría suponer una clara ventaja en la sofisticación de los conocimientos y las inferencias que puede extraer de un conjunto de datos. Esto es especialmente cierto si los primeros informes de que Gemini se entrena con el doble de tokens que GPT4 son correctos.

Además, la asociación entre los equipos de Google DeepMind y Brain este año no puede subestimarse, ya que pone a OpenAI cara a cara con un equipo de investigadores de IA de talla mundial, entre los que se encuentran el cofundador de Google Sergey Brin y el científico sénior de IA y experto en aprendizaje automático de DeepMind Paul Barham.

Se trata de un equipo experimentado que tiene un profundo conocimiento de cómo aplicar técnicas como el aprendizaje por refuerzo y la búsqueda de árboles para crear programas de IA que puedan recopilar información y mejorar su resolución de problemas con el tiempo, algo que el equipo de DeepMind utilizó para enseñar a AlphaGo a derrotar a un campeón mundial de Go 2016.

La carrera armamentística de la IA

La combinación de capacidades multimodales de Gemini, el uso del aprendizaje por refuerzo, las capacidades de generación de texto e imágenes y los datos propiedad de Google son todos los ingredientes que Gemini necesita para superar a GPT-4.

Los datos de entrenamiento son el factor diferenciador clave, después de todo, la organización que gane la carrera armamentística de los LLM se decidirá en gran medida en función de quién entrene sus modelos con el mayor y más rico conjunto de datos.

Dicho esto, OpenAI está trabajando en un nuevo LLM multimodal de nueva generación llamado Gobi, por lo que no podemos descartar todavía al gigante de la IA generativa. La pregunta ahora es: ¿quién ejecuta mejor la IA multimodal?

Temas relacionados

Tim Keary
Editor

Desde enero de 2017, Tim Keary ha sido un escritor y reportero de tecnología independiente que cubre tecnología empresarial y ciberseguridad.