El lanzamiento de ChatGPT en noviembre de 2022 sacudió a Google hasta sus cimientos. El popular chatbot suponía tal amenaza para el negocio de la compañía que tuvo que declarar un código rojo y comenzó a invertir para ponerse al día en el carro de la IA generativa.
Este esfuerzo no sólo se ha traducido en el lanzamiento de Google Bard, sino también de Google Gemini.
Gemini se lanzó el miércoles 6 de diciembre de 2023 y, a medida que pasen los meses, seguiremos su trayectoria: hay serias posibilidades de que Google arrebate la popular corona de la IA a ChatGPT mientras van surgiendo nuevos competidores y la industria va creciendo.
¿Qué es Google Gemini?
Gemini es un conjunto de grandes modelos lingüísticos (LLM) que aprovechan técnicas de entrenamiento tomadas de AlphaGo, incluido el aprendizaje por refuerzo y la búsqueda en árboles, que tiene el potencial de desbancar a ChatGPT como la solución de IA generativa más dominante del planeta.
Llega meses después de que Google combinara sus laboratorios de IA Brain y DeepMind para crear un nuevo equipo de investigación llamado Google DeepMind, y tras el lanzamiento de Bard y su LLM PaLM 2 de nueva generación.
Teniendo en cuenta que los investigadores prevén que el mercado de la IA generativa alcanzará un valor estimado de 1,3 billones de dólares en 2032, está claro que Google va a por todas invirtiendo en este espacio para mantener su posición de líder en el desarrollo de IA.
Todo lo que sabemos hasta ahora sobre Gemini
En mayo, Sundar Pichai, CEO de Google y Alphabet, publicó una entrada en su blog en la que ofrecía una visión general del LLM:
“Gemini se creó desde cero para ser multimodal, muy eficiente en las integraciones de herramientas y API y construido para permitir futuras innovaciones, como la memoria y la planificación.”
Pichai también señaló que “aunque todavía es pronto, ya estamos viendo impresionantes capacidades multimodales no vistas en modelos anteriores.”
“Una vez puesta a punto y sometida a rigurosas pruebas de seguridad, Gemini estará disponible en varios tamaños y capacidades, al igual que PaLM 2”.
En su entrevista con Wired, Demis Hassabis, CEO de Google DeepMind, señaló que Gemini “combinará algunos de los puntos fuertes de los sistemas tipo AlphaGo con las asombrosas capacidades lingüísticas de los modelos grandes.”
¿Le arrebatará Gemini la corona a ChatGPT?
Una de las mayores conversaciones en torno al lanzamiento de Gemini es si el modelo lingüístico tiene lo que hace falta para desbancar a ChatGPT, que este año ha alcanzado más de 100 millones de usuarios activos mensuales.
Inicialmente, Google utilizaba la capacidad de Gemini para generar texto e imágenes para diferenciarlo de GPT4, pero el 25 de septiembre de 2023, OpenAI anunció que los usuarios podrían introducir consultas de voz e imagen en ChatGPT.
Ahora que OpenAI está experimentando con un enfoque de modelo multimodal y ha conectado ChatGPT a Internet, quizá el factor diferenciador más amenazador entre ambos sea el vasto conjunto de datos de entrenamiento propiedad de Google. Google Gemini puede procesar datos de varios servicios, como Google Search, YouTube, Google Books y Google Scholar.
El uso de estos datos propios para entrenar los modelos de Gemini podría suponer una clara ventaja en la sofisticación de los conocimientos y las inferencias que puede extraer de un conjunto de datos. Esto es especialmente cierto si los primeros informes de que Gemini se entrena con el doble de tokens que GPT4 son correctos.
Además, la asociación entre los equipos de Google DeepMind y Brain este año no puede subestimarse, ya que pone a OpenAI cara a cara con un equipo de investigadores de IA de talla mundial, entre los que se encuentran el cofundador de Google Sergey Brin y el científico sénior de IA y experto en aprendizaje automático de DeepMind Paul Barham.
Se trata de un equipo experimentado que tiene un profundo conocimiento de cómo aplicar técnicas como el aprendizaje por refuerzo y la búsqueda de árboles para crear programas de IA que puedan recopilar información y mejorar su resolución de problemas con el tiempo, algo que el equipo de DeepMind utilizó para enseñar a AlphaGo a derrotar a un campeón mundial de Go 2016.
La carrera armamentística de la IA
La combinación de capacidades multimodales de Gemini, el uso del aprendizaje por refuerzo, las capacidades de generación de texto e imágenes y los datos propiedad de Google son todos los ingredientes que Gemini necesita para superar a GPT-4.
Los datos de entrenamiento son el factor diferenciador clave, después de todo, la organización que gane la carrera armamentística de los LLM se decidirá en gran medida en función de quién entrene sus modelos con el mayor y más rico conjunto de datos.
Dicho esto, OpenAI está trabajando en un nuevo LLM multimodal de nueva generación llamado Gobi, por lo que no podemos descartar todavía al gigante de la IA generativa. La pregunta ahora es: ¿quién ejecuta mejor la IA multimodal? habrá que estar atentos a las últimas innovaciones del sector y probarlas para dar un veredicto.