Google ha anunciado el lanzamiento de su nuevo modelo de IA multimodal llamado Gemini, diseñado para comprender y reconocer texto, imágenes, vídeo, audio y código.
“Gemini es el resultado de los esfuerzos de colaboración a gran escala de equipos de todo Google, incluidos nuestros colegas de Google Research”, señaló el CEO y cofundador de Google DeepMind Demis Hassabis en la entrada oficial del blog.
“Se construyó desde cero para ser multimodal, lo que significa que puede generalizar y comprender, operar y combinar sin problemas diferentes tipos de información, incluyendo texto, código, audio, imagen y vídeo”, escribió Hassabis.
LEER MÁS: La IA Gemini de Google es una seria amenaza para ChatGPT – He aquí por qué
Hay tres versiones confirmadas del modelo: Gemini Ultra, Gemini Pro y Gemini Nano, que son todas únicas. Gemini Ultra es el más grande, mientras que Gemini Pro está diseñado para escalar a través de una gama de tareas, y Gemini Nano es el modelo más eficiente para tareas en el dispositivo (por lo que es ideal para su uso en dispositivos móviles).
A partir de hoy, Géminis se ha añadido al chatbot de Google Bard, y Gemini Nano se añadirán al Pixel 8 Pro para potenciar las funciones de resumen y respuesta inteligente en diciembre.
Los modelos Gemini se añadirán con el tiempo a otros productos como Search, Ads y Chrome.
¿Es tan bueno Google Gemini?
El lanzamiento se produce apenas un mes después de que OpenAI anunciara el lanzamiento de GPT-4 Turbo y su propio modelo multimodal, GPT-4v, capaz de comprender entradas de imagen.
Aunque es demasiado pronto para concluir que Gemini ha superado a OpenAI y GPT-4, lo cierto es que lo parece. En una entrevista concedida a The Verge, Hassibis confirmó que Google había comprobado Gemini frente a GPT-4 en 32 puntos de referencia y había descubierto que Gemini estaba “sustancialmente por delante” en 30 de ellos.
Uno de los logros más destacados de Gemini hasta la fecha es que se ha convertido en el primer modelo en superar a los expertos humanos en comprensión lingüística multitarea masiva (MMLU), alcanzando una puntuación del 90%.
Al mismo tiempo, Gemini Ultra ha obtenido una puntuación justo por encima de GPT-4 en una serie de pruebas comparativas, entre las que se incluyen:
- Big-Bench Difícil (83,6% frente a 83,1%),
- Big-Bench Difícil (83,6% frente a 83,1%)
- DROP (82,4% vs $80,9%),
- GSM8K (94,4% frente a 92,0%),
- GSM8K (94,4% frente a 92,0%)
- MATH (53,2% frente a 52,9%),
- HumanEval (74,4% frente a 67,0%).
Esto indica que Gemini Ultra tiene una ligera ventaja sobre GPT-4 en razonamiento multipaso, comprensión lectora, manipulaciones aritméticas básicas y generación de código Python.
Además, Google afirma que Gemini Ultra también supera a GPT-4 en rendimiento multimodal, comprensión de imágenes naturales, OCR de imágenes naturales, comprensión de documentos, comprensión de infografías y razonamiento matemático en contextos visuales.
LEER MÁS:
- ¿Quiénes son los competidores de ChatGPT?
- 5 formas en las que los LLM pueden mejorar la ingeniería de software?
- El dilema ético de la IA: encontrar el equilibrio entre progreso y responsabilidad
Gemini también ha logrado una puntuación de vanguardia en el benchmark MMMU, que mide el rendimiento en tareas multimodales.
Para lograr este rendimiento, Gemini se entrenó en diferentes modalidades y luego se ajustó para aumentar la capacidad del modelo de comprender y razonar sobre diferentes tipos de entradas mejor que cualquier LLM hasta la fecha.
En resumen
Con las puertas abiertas, exploraremos Gemini en las próximas semanas y veremos cómo se ajustan las afirmaciones a la realidad.
Lo que resulta emocionante es cómo Gemini puede conectarse con el conjunto de servicios de Google: ¿será Google Home más fácil de usar cuando puedas mantener conversaciones más informales con tu “casa”?
¿Serán radicalmente diferentes las páginas del motor de búsqueda? ¿Serán muy diferentes servicios como Gmail y Google Maps, con la IA interponiéndose entre el usuario y el producto?
Cuando se considera el rendimiento de Gemini en estos puntos de referencia junto con los planes para integrar el LLM con productos populares como Chrome y Search en el camino hacia una Experiencia Generativa de Búsqueda, está claro que OpenAI tiene un serio contendiente al que enfrentarse.