Gemini AI de Google es una Amenaza Seria para ChatGPT: te explicamos por qué

El lanzamiento de ChatGPT el pasado noviembre sacudió a Google hasta sus cimientos. El popular chatbot suponía tal amenaza para el negocio de la compañía que ésta tuvo que declarar un código rojo y comenzó a invertir en subirse al carro de la IA generativa. Este esfuerzo no sólo se ha traducido en el lanzamiento de Google Bard, sino también de Gemini.

¿Qué es Google Gemini?

Gemini es un conjunto de grandes modelos de lenguaje (LLM) que combinan GPT-4 con técnicas de entrenamiento tomadas de AlphaGo, como el aprendizaje por refuerzo y la búsqueda en árbol, que tiene el potencial de desbancar a ChatGPT como la solución de IA generativa más dominante del planeta.

La noticia llega pocos meses después de que Google combinara sus laboratorios de IA Brain y DeepMind para crear un nuevo equipo de investigación llamado Google DeepMind, y pocos meses después del lanzamiento de Bard y su LLM PaLM 2 de nueva generación.

Teniendo en cuenta que los investigadores prevén que el mercado de la IA generativa alcanzará un valor de 1,3 billones de dólares en 2032, está claro que Google va a invertir en este campo para mantener su posición de liderazgo en el desarrollo de la IA.

Todo lo que sabemos hasta ahora sobre Gemini

Aunque muchos esperan que Google Gemini se lance en otoño de 2023, no se sabe mucho sobre las capacidades del modelo.

En mayo, Sundar Pichai, CEO de Google y Alphabet, publicó una entrada en su blog en la que ofrecía una visión general del LLM:

“Gemini se creó desde cero para ser multimodal, muy eficiente en las integraciones de herramientas y API y construido para permitir futuras innovaciones, como la memoria y la planificación.”

Pichai también señaló que “aunque todavía es pronto, ya estamos viendo impresionantes capacidades multimodales no vistas en modelos anteriores.

“Una vez puesta a punto y sometida a rigurosas pruebas de seguridad, Gemini estará disponible en varios tamaños y capacidades, al igual que PaLM 2”.

Desde entonces, no se ha dicho mucho sobre el lanzamiento de forma oficial, aparte de la entrevista del CEO de Google DeepMind, Demis Hassabis, con Wired en la que señalaba que Gemini “combinará algunos de los puntos fuertes de los sistemas tipo AlphaGo con las increíbles capacidades lingüísticas de los modelos grandes.”

Android Police también ha afirmado que una fuente anónima involucrada en el producto ha comentado que Gemini será capaz de generar texto e imágenes contextuales y será entrenado en fuentes como transcripciones de vídeos de YouTube.

¿Le arrebatará Gemini la corona a ChatGPT?

Uno de los temas más debatidos en torno al lanzamiento de Gemini es si el misterioso modelo lingüístico tiene lo que hay que tener para desbancar a ChatGPT, que este año ha superado los 100 millones de usuarios activos mensuales.

A primera vista, la capacidad de Gemini para generar texto e imágenes le da una seria ventaja sobre GPT4 en cuanto a la gama de contenidos que puede producir.

Sin embargo, quizá el factor diferenciador más amenazador entre ambos sea la amplia gama de datos de entrenamiento propiedad de Google. Google Gemini puede procesar datos de varios servicios, como Google Search, YouTube, Google Books y Google Scholar.

El uso de estos datos propios para entrenar los modelos de Gemini podría suponer una clara ventaja en la sofisticación de los conocimientos y las inferencias que puede extraer de un conjunto de datos. Esto es especialmente cierto si los primeros informes de que Gemini se entrena con el doble de tokens que GPT4 son correctos.

Además, la asociación entre los equipos de Google DeepMind y Brain este año no puede subestimarse, ya que pone a OpenAI frente a frente con un equipo de investigadores de IA de talla mundial, entre los que se encuentran el cofundador de Google Sergey Brin y el científico sénior de IA y experto en aprendizaje automático de DeepMind Paul Barham.

Se trata de un equipo experimentado que tiene un profundo conocimiento de cómo aplicar técnicas como el aprendizaje por refuerzo y la búsqueda en árboles para crear programas de IA que puedan recopilar información y mejorar su resolución de problemas con el tiempo, algo que el equipo de DeepMind utilizó para enseñar a AlphaGo a derrotar a un campeón mundial de Go 2016.

La carrera armamentística de la IA

Las capacidades multimodales de Gemini, el uso de la crianza por refuerzo, las capacidades de generación de texto e imágenes y los datos patentados de Google son todos los ingredientes que Gemini necesita para superar a GPT-4.

Los datos de entrenamiento son el factor diferenciador clave; al fin y al cabo, la organización que gane la carrera armamentística de los LLM se decidirá en gran medida en función de quién entrene sus modelos con el mayor y más rico conjunto de datos.

La pregunta ahora es, ¿qué hará OpenAI para responder?

Tim Keary

Desde enero de 2017, Tim Keary ha sido un escritor y reportero de tecnología independiente que cubre tecnología empresarial y ciberseguridad.