Desde hace un año, la guerra de la inteligencia artificial (IA) entre OpenAI, Microsoft, Google y otros ha disparado el campo de la disrupción, compitiendo cara a cara y lanzando modelos nuevos y más potentes.
Aunque Google no fue el primero en aparecer en la escena de la IA, ahora pretende llegar a lo más alto con Gemini, que se especula que es el modelo de IA más potente que jamás haya existido.
Gemini se lanzó el miércoles 6 de diciembre de 2023, así que ahora veremos cómo se desarrolla el juego a largo plazo.
Así es como funciona Gemini, lo potente que es y lo que será capaz de hacer: es todo lo que sabemos hoy sobre Gemini.
Leer más: Google Gemini ¡EN VIVO! Más información
Google Gemini: Multimodal desde el principio
Desde el principio, cuando Gemini fue anunciado por primera vez el 10 de mayo durante la conferencia de desarrolladores Google I/O por el propio CEO Sundar Pichai, una cosa quedó clara: Google estaba construyendo una IA de nueva generación. El proyecto, liderado por los equipos de Google Brain Team y DeepMind, se basa en PaLM 2.
PaLM 2, o Pathways Language Model 2, es la tecnología central que Google utiliza para impulsar las capacidades de IA en todo su conjunto de productos. Esto incluye productos y servicios de Google Cloud, Gmail, Google Workspace, dispositivos de hardware como el smartphone Pixel o el termostato Nest y, por supuesto, el famoso chatbot de IA Bard.
Por aquel entonces, Gemini aún estaba en pleno desarrollo y modo de entrenamiento, pero Pichai reveló qué haría diferente a la nueva IA.
Gemini lleva la IA multimodal más allá
“Géminis se creó desde cero para ser multimodal”.
Esa fue la frase clave de Pichai, y si hay una palabra que describe a Gemini, es sin duda «multimodal». Aunque muchos confunden la IA multimodal con cualquier IA que pueda trabajar con diferentes contenidos, como imágenes o texto, para Google, el término significa mucho más.
Recientemente, el 24 de octubre, durante las ganancias del tercer trimestre de 2023 de Alphabet, Pichai dio señales evidentes de qué tipo de IA multimodal estaban construyendo.
«Estamos sentando realmente las bases de lo que considero la serie de modelos de próxima generación que lanzaremos a lo largo de 2024», dijo Pichai.
«El ritmo de innovación es extraordinariamente impresionante de ver».
Gemini es una IA más humana
De un modo u otro, ya hemos sido testigos de la IA multimodal. Empresas como OpenAI -responsable de ChatGPT– o Microsoft ofrecen diferentes tecnologías de IA generativa que pueden trabajar con imágenes, texto, datos e incluso código.
Sin embargo, todos estos primeros sistemas de IA no hacen más que arañar la superficie de la tecnología multimodal, ya que la integración de diferentes contenidos y formatos de datos no es eficiente.
La razón de que la IA generativa sea un éxito tan salvaje es que, por primera vez, una máquina puede imitar lo que hacen los humanos. Pero, ¿qué pueden hacer exactamente los humanos? No sólo podemos chatear, codificar, escribir informes y crear imágenes, podemos hacer todo eso.
El cerebro humano es brillantemente complejo. Puede interpretar y comprender simultáneamente varios formatos de datos, como texto, palabras, sonidos y elementos visuales.
Esto nos permite dar sentido al mundo que nos rodea, responder a estímulos y resolver problemas de forma creativa e innovadora. Y de eso trata la Gemini de Google. Una nueva IA que se acerca más a lo que realmente hacen los humanos: una IA multimodal multitarea.
Gemini no es un modelo, son muchas IA combinadas
Sólo hay una forma de crear una IA multimodal elegante y eficaz. Se trata de combinar diferentes modelos de IA en uno solo.
El aprendizaje automático y los modelos de IA como el procesamiento de gráficos, la visión por ordenador, el procesamiento de audio, los modelos lingüísticos, la codificación y programación y los modelos 3D deben integrarse y orquestarse para lograr sinergias al desarrollar la IA multimodal.
Se trata de una tarea monumental y desafiante, y Google quiere llevar este concepto a un nivel nuevo y sin precedentes.
Desatado para desarrolladores
Otra gran diferencia entre Gemini y otros modelos como ChatGPT o Bing Chat es el limitado nivel de acceso que tienen actualmente los desarrolladores a la tecnología.
Sin embargo, Gemini romperá esta tendencia desde el primer momento.
Pichai añadió que Gemini será «altamente eficiente con herramientas e integraciones API».
Esto significa que Google no sólo está trabajando en una nueva IA para que sea un pony show para la web, sino que está construyendo versiones ligeras y potentes de Gemini para que los desarrolladores puedan utilizarlas y personalizarlas para crear sus propias aplicaciones y API de IA.
Una IA para crear IA
No es demasiado pronto para saber cómo utilizarán Gemini los desarrolladores para crear nuevas aplicaciones y API de IA. A mediados de septiembre saltó la noticia de que Google empezaba a dar acceso a los usuarios a una versión temprana de Gemini. Naturalmente, como era de esperar, llegaron las primeras filtraciones de Gemini.
El 15 de octubre, el ingeniero de Javascript Bedros Pamboukian sorprendió al mundo con las primeras capturas de pantalla de lo que parecía ser Gemini integrado en Makersuite.
Lanzado a principios de 2023 e impulsado por PaLM 2, MakerSuite de Google es utilizado por los desarrolladores para crear aplicaciones de IA.
MakerSuite es básicamente una IA para crear IA. Cuenta con una sencilla interfaz de usuario en la que los desarrolladores pueden crear herramientas de generación de código, aplicaciones de procesamiento del lenguaje natural (PLN) y mucho más.
Pamboukian -el primero en filtrar la integración de Gemini en MarketSuite- reveló la punta del iceberg de las capacidades multimodales de Gemini. La filtración muestra que Gemini ya dispone de capacidades de reconocimiento de texto y objetos y puede subtitular y comprender indicaciones que combinan texto libre con imágenes.
¿Es Gemini más potente que ChatGPT?
Al comparar Gemini con ChatGPT, muchos expertos hablan de parámetros. En un sistema de IA, los parámetros son las variables cuyos valores se ajustan durante la fase de entrenamiento y que la IA utiliza para transformar los datos de entrada en resultados. A grandes rasgos, cuantos más parámetros tiene una IA, más sofisticada es.
ChatGPT 4.0, la IA más avanzada en funcionamiento, tiene 1,75 billones de parámetros. Gemini, por el contrario, superará esta cifra, con informes que afirman que tendrá 30 billones o incluso 65 billones de parámetros.
Pero la potencia de un sistema de inteligencia artificial no sólo depende de la cantidad de parámetros.
Un estudio de SemiAnalysis asegura que Gemini «aplastará» a ChatGPT 4.0. SemiAnalysis anticipa que, para finales de 2023, Gemini podría superar a ChatGPT 4.0 en un factor de cinco, siendo potencialmente 20 veces más potente.
Gemini, chips y datos de entrenamiento
El concepto detrás de un modelo de IA también es relevante.
Aunque, como ya se ha dicho, la capacidad multimodal de ChatGPT sigue siendo mínima -puede trabajar con lenguaje y código, pero no con imágenes-, Gemini lo combinará todo.
«Google Gemini es multimodal, lo que significa que puede procesar y generar texto, imágenes y otros tipos de datos. Esto lo hace más versátil que ChatGPT, que sólo es capaz de procesar texto”, se lee en el informe de SemiAnalysis.
SemiAnalysis añade que Google «invirtió una potencia computacional sin precedentes» para entrenar a Gemini, superando a GPT-4. Para entrenar a Gemini, Google utiliza chips de entrenamiento de última generación conocidos como TPUv5.
Según los informes, estos chips son la única tecnología del mundo capaz de orquestar 16.384 chips trabajando juntos. Estos superchips son el secreto que permite a Google entrenar un modelo tan masivo.
SemiAnalysis dice:
“En la actualidad, ninguna otra entidad del sector posee la capacidad necesaria para emprender semejantes tareas de formación”.
Pero para entrenar un modelo de IA no sólo se necesitan chips, sino también datos. Y cuando se trata de datos, Google es uno de los reyes reinantes. «Google posee una extensa colección de datos sólo de código, estimada en unos 40 billones de tokens, un hecho que ha sido verificado», añade SemiAnalysis.
Cuarenta billones de tokens equivalen a cientos de petabytes o al contenido de millones de libros. Según SemiAnalysis, sólo el conjunto de datos de Google es cuatro veces mayor que la totalidad de los datos utilizados para entrenar ChatGPT 4.0, que incluye datos con y sin código.
En resumen: El objetivo final de Google para Gemini
Al igual que PaLM 2 impulsa todas las marcas de Google, se espera que Gemini haga lo mismo con la IA. Google está alimentando Gemini y espera que crezca hasta convertirse en la columna vertebral de toda la inteligencia de IA incorporada e integrada en todos los productos y servicios de Google.
¿Qué productos y servicios finales veremos impulsados por Gemini? Si sustituye a PaLM 2, Gemini impulsará todo, desde Maps hasta Docs y Translate, todo el entorno y los servicios de Google Workplace y Cloud, así como software y hardware y nuevos productos.
Google está plenamente comprometido con la creación de una IA más potente, versátil y consciente del contexto, capaz de comprender el mundo e interactuar con él de formas nuevas y sin precedentes.
Los programadores utilizarán Gemini para codificar, automatizar y mejorar las operaciones en la nube y en los bordes, impulsar las ventas e integrarse en chatbots y asistentes virtuales dentro de smartphones con tecnología de Google, aplicaciones, API y mucho más.
Si 2023 acaba siendo el año en que la IA se generalice, 2024 podría ser realmente el año de Géminis.