- Ver más
¿Qué es Google Gemini (Gemini AI)?
Google Gemini (Gemini AI) es un conjunto integrado de grandes modelos lingüísticos (LLM) que Google DeepMind diseñó desde el principio para ser multimodal. El conjunto integrado puede procesar texto, imágenes, código y audio a través de una única interfaz de usuario (IU).
En diciembre de 2023, Gemini sustituyó a PaLM 2, el LLM que impulsaba Google Bard. En febrero de 2024, Google anunció que, a partir de ese momento, Bard se llamaría Gemini.
Las definiciones de la IA Gemini de Google suelen situar a los LLM Gemini como una familia de potentes asistentes de IA. El término “asistente” implica que Google ve a Gemini como una herramienta de inteligencia aumentada que está diseñada para ayudar a los usuarios con diversas tareas, no para sustituir a los trabajadores humanos.
¿Cómo se llamó Google Gemini?
Algunos medios de comunicación han informado de que Gemini significa “Interfaz de Red de Inteligencia Multimodal Generalizada”, pero esa información no se ha podido confirmar.
Según Google Bard, es más probable que los desarrolladores de Google bautizaran la suite LLM integrada con el nombre de la constelación de Géminis y del antiguo mito griego de Cástor y Pólux que inspiró el signo del zodiaco.
Cuando se le preguntó, Google Gemini se mostró de acuerdo y señaló que esto concuerda con el historial de Google de utilizar temas astronómicos en la denominación de productos.
¿Cómo funciona Géminis?
Se rumorea que los modelos de IA de Géminis utilizan la arquitectura Google Pathways. En este tipo de arquitectura de IA, inicialmente se enseña a una serie de modelos modulares de aprendizaje automático a realizar una tarea específica. Una vez entrenados, los módulos se conectan para formar una red.
Los módulos conectados en red pueden trabajar de forma independiente, o pueden trabajar juntos para generar distintos tipos de resultados.
En el extremo posterior, los codificadores convierten distintos tipos de datos en un lenguaje común, y los descodificadores generan salidas en distintas modalidades en función de las entradas codificadas y la tarea que se esté realizando.
Google ha reconocido que los modelos son más rápidos cuando se ejecutan en las Unidades de Procesamiento Tensorial (TPU) de Google.
Una interfaz fácil de usar oculta las complejidades de la arquitectura de Gemini y hace posible que personas con distintos niveles de habilidad utilicen los modelos Gemini con fines de IA generativa.
¿Qué puede hacer Gemini?
Es importante tener en cuenta que Google Gemini está en continua evolución, y las capacidades de los modelos siempre se están ampliando. Por ejemplo, las primeras versiones de los modelos gratuitos basados en la web podían interpretar imágenes cargadas, pero no podían generar imágenes a partir de indicaciones.
Hoy en día, la versión gratuita de Gemini puede utilizarse para generar texto en diversos formatos, traducir idiomas, responder a preguntas con precisión de hechos, resumir información de páginas web, explicar conceptos de programación, generar código nuevo y sugerir mejoras para fragmentos de código.
Otra cosa que parece estar evolucionando continuamente son los nombres de los productos para los distintos grupos de modelos Gemini. Actualmente, la versión más pequeña de la familia de modelos Gemini se llama Gemini Nano. Es una versión ligera de Gemini que puede ejecutarse en dispositivos Android, empezando por el Google Pixel 8 Pro y la serie Samsung S24.
Ecosistema Google Gemini
Según Sundar Pichai, CEO de Google y Alphabet, “Gemini dará soporte a todo un ecosistema: desde los productos que miles de millones de personas utilizan cada día, hasta las API y plataformas que ayudan a los desarrolladores y a las empresas a innovar.”
Hasta que Google estandarice las descripciones del chatbot Gemini y las opciones de integración de productos, los usuarios pueden obtener la información más reciente visitando la página de aterrizaje de Google para Actualizaciones de Gemini.
¿Cómo se entrena la IA de Géminis?
Se afirma que los modelos LLM de Gemini se han entrenado con una combinación de las siguientes técnicas:
Algunos expertos del sector han especulado con que Google se basó en gran medida en el aprendizaje por refuerzo con retroalimentación humana (RLHF) para entrenar los módulos Gemini en los chips Cloud TPU v5e. Según Google, las TPU tienen cinco veces más potencia de cálculo que los chips utilizados para entrenar Chat GPT.
De momento, Google no ha publicado ninguna información detallada sobre los conjuntos de datos en los que se entrenaron los modelos de IA Gemini. Sin embargo, es probable que los ingenieros de Google utilizaran el marco LangChain y reutilizaran los datos que usaron para entrenar PaLM 2.
Si es así, los modelos de la base Gemini se habrían entrenado inicialmente con datos de documentos web, libros, código, imágenes, audio y vídeo. Queda por ver si el enfoque holístico de Google DeepMind para entrenar a los asistentes de IA será tan eficaz como el enfoque de Open AI, que ha consistido en añadir nuevos modos de forma iterativa.
Modelos de suscripción gratuitos y de pago
Los usuarios de ordenadores de sobremesa pueden acceder a la versión gratuita de Gemini a través de un navegador web. Los usuarios de móviles tienen la opción de utilizar la versión gratuita, que actualmente se denomina Gemini Pro, instalando la aplicación Gemini en dispositivos Android o la aplicación Google en dispositivos iOS.
Gemini Advanced es una versión de pago de Gemini que amplía las capacidades de la versión gratuita por 19,99 $/mes. La página de inicio de Gemini Advanced se refiere al modelo como 1.0 Ultra. No está claro si DeepMind está utilizando a los suscriptores de Gemini Advanced para probar versiones empresariales de Gemini, o si Gemini Advanced acabará llamándose Gemini Ultra.
Actualmente, los clientesde Google Workspace pueden suscribirse a Gemini Business o Gemini Enterprise para acceder a 1.0 Ultra. Gemini Business cuesta 20 $ por usuario/mes y requiere un compromiso de un año. Proporciona a los usuarios seguridad y privacidad de nivel empresarial y está diseñado para satisfacer las necesidades de la mayoría de los usuarios de empresa.
Gemini Enterprise cuesta 30 $ por usuario/mes y también requiere un compromiso de un año. La suscripción empresarial proporciona todo lo que ofrece Gemini Business, así como funciones avanzadas de traducción para reuniones y acceso/uso completo de Gemini.
Gemini frente a GPT-4
Gemini y GPT-4 suelen utilizarse juntos porque cada familia de modelos tiene puntos fuertes diferentes. Por ejemplo, ChatGPT Plus destaca en resumir temas y escribir código, mientras que Géminis Avanzado es mejor en la escritura creativa y en ajustar el tono de las salidas de texto. Si necesitas ayuda con un proyecto de escritura creativa, Géminis puede ser una opción mejor. Pero si estás escribiendo no ficción o analizando código, GPT-4 podría ser más adecuado.
Otra consideración es que Gemini puede acceder a Internet. Esto significa que Géminis puede incorporar conocimientos más recientes en sus respuestas que Chat GPT-4.
Ventajas e inconvenientes de Google Gemini
Una de las mayores ventajas de Gemini es que Google está integrando esta familia de modelos de IA multimodal en otros productos y servicios de Google. Esto significa que los usuarios podrán acceder a las capacidades de Gemini dentro de herramientas familiares de Google como la Búsqueda, Gmail y Docs, sin necesidad de cambiar entre distintas aplicaciones.
Una de las mayores desventajas de Géminis es que a veces puede dar respuestas excesivamente seguras, incluso cuando las salidas de información son incorrectas.
Preguntas frecuentes
¿Qué es Google Gemini en términos sencillos?
¿Para qué sirve Google Gemini?
¿Es bueno Google Gemini?
¿Google Gemini es gratuito o de pago?
¿Es Gemini mejor que ChatGPT?
Referencias
- Google DeepMind Gemini – Dr Alan D. Thompson – Life Architect (Lifearchitect)
- Introducing Pathways: A next-generation AI architecture (Blog)
- Tensor Processing Units (TPUs) | Google Cloud (Cloud.google)
- Get started with Gemini Nano on Android (on-device) | Google AI for Developers (Ai.google)
- Store.google (Store.google)
- Gemini Apps’ release updates & improvements (Gemini.google)
- Announcing Cloud TPU v5e and A3 GPUs in GA | Google Cloud Blog (Cloud.google)
- Generative AI applications with Vertex AI PaLM 2 Models and LangChain | Google Cloud Blog (Cloud.google)
- Gemini Advanced – get access to Google’s most capable AI model, 1.0 Ultra (Gemini.google)
- Gemini for Google Workspace | Gen AI Tools for Business (Workspace.google)