¿Qué es Google Gemini?
Google Gemini, o Gemini AI, es un conjunto integrado de grandes modelos lingüísticos (LLM) que está desarrollando actualmente Google AI. Según Sundar Pichai, CEO de Google, los modelos básicos de Gemini se diseñaron desde el principio para ser multimodales.
Esto significa que los usuarios podrán procesar y generar texto, imágenes, código y contenido de audio a través de una única interfaz de usuario (UI).
Características de Google Gemini
Zoubin Ghahramani, vicepresidente de Google DeepMind, ha declarado que Gemini estará disponible en los mismos cuatro tamaños que PaLM 2: Gecko, Otter, Bison y Unicorn.
- Se espera que Gecko sea ligero e ideal para su uso en dispositivos móviles.
- Otter está diseñado para ser más potente que Gecko. Se espera que sea adecuado para una amplia gama de tareas unimodales.
- Bison está diseñado para ser más grande y versátil que Otter. Es probable que sea adecuado para un número limitado de tareas multimodales y se espera que compita con Chat GPT-4 por cuota de mercado.
- Unicorn está diseñado para ser el Gemini más grande, potente y versátil. Se espera que sea adecuado para una amplia gama de tareas multimodales y que supere con creces las capacidades de Chat GPT o de cualquiera de sus competidores.
Cómo funciona Gemini AI
Es probable que Gemini utilice la arquitectura Google Pathways. En este tipo de arquitectura, una serie de modelos modulares de aprendizaje automático aprenden inicialmente a realizar una tarea específica. Una vez entrenados, los módulos se conectan para formar una red.
Los módulos conectados en red pueden trabajar de forma independiente o conjunta para generar distintos tipos de resultados. En el extremo posterior, los codificadores convierten distintos tipos de datos en un lenguaje común, y los descodificadores generan salidas en distintas modalidades en función de las entradas codificadas y la tarea que se esté realizando.
Se espera que Google utilice Duet AI como interfaz de Gemini. Esta interfaz fácil de usar ocultará las complejidades de la arquitectura de Gemini y hará posible que personas con distintos niveles de destreza utilicen los modelos de Gemini para fines de IA generativa.
Cómo se entrena la IA de Gemini
Se afirma que los modelos LLM de Gemini se han entrenado con una combinación de las siguientes técnicas:
- Aprendizaje supervisado: Los módulos de IA de Gemini se entrenaron para predecir resultados para nuevos datos utilizando patrones aprendidos a partir de datos de entrenamiento etiquetados.
- Aprendizaje no supervisado: Los módulos de Gemini AI se entrenaron para descubrir de forma autónoma patrones, estructuras o relaciones dentro de los datos sin necesidad de ejemplos etiquetados.
- Aprendizaje por refuerzo: Los módulos de IA de Gemini mejoraron sus estrategias de toma de decisiones de forma iterativa a través de un proceso de prueba y error que enseñó a los módulos a maximizar las recompensas y minimizar las penalizaciones.
Algunos expertos del sector han especulado con que Google recurrió en gran medida al aprendizaje por refuerzo con retroalimentación humana (RLHF) para entrenar los módulos Gemini en los chips Cloud TPU v5e. Según Google, las TPU tienen cinco veces más potencia de cálculo que los chips utilizados para entrenar Chat GPT.
Por el momento, Google no ha publicado ninguna información específica sobre los conjuntos de datos en los que se entrenó Gemini AI. Sin embargo, es probable que los ingenieros de Google utilizaran el marco LangChain y reutilizaran los datos que emplearon recientemente para entrenar PaLM 2. Estos datos procedían de diversas fuentes.
Estos datos proceden de diversas fuentes, como libros y artículos, repositorios de código, sitios web, transcripciones de vídeos y podcasts, publicaciones en redes sociales y datos internos de Google.
Fecha de lanzamiento de Google Gemini
Gemini ha entrado en funcionamiento recientemente. Google ha dado acceso anticipado a Gemini a un número limitado de desarrolladores de un reducido número de empresas.
Gemini podría está listo para su uso e integración en los servicios de IA de Google Cloud Vertex. Si todo va bien, Gemini AI también se integrará en todos los servicios en la nube para empresas y consumidores de Google que utilizan inteligencia artificial (AI), incluidos Google Search, Google Translate y Google Assistant.
Una vez que se lance Gemini AI, su adaptabilidad-junto con su herramienta flexible y sus capacidades de integración de interfaz de programación de aplicaciones (API)- hará que sea adecuado para su uso en una amplia gama de aplicaciones móviles y de escritorio en tiempo real.
Cómo se llamó Google Gemini AI
Algunos medios de comunicación han informado de que Gemini son las siglas de “Generalized Multimodal Intelligence Network Interface” (interfaz de red de inteligencia multimodal generalizada), pero esa información no ha podido confirmarse.
Según Google Bard, es más probable que los desarrolladores de Google bautizaran la suite LLM integrada con el nombre de la constelación de Géminis y el antiguo mito griego de Cástor y Pólux que inspiró el signo del zodiaco.