Fiabilidad

Grok

¿Qué es Grok?

Grok es un chatbot de inteligencia artificial (IA) y asistente de investigación desarrollado por xAI de Elon Musk que está diseñado para responder a las indicaciones de texto del usuario con humor y sarcasmo.

El chatbot está inspirado en la comedia de ciencia ficción La guía del autoestopista galáctico y funciona con el modelo de lenguaje Grok-1 de xAI. También tiene acceso a datos en tiempo real extraídos de las publicaciones realizadas en X (antes conocido como Twitter).

Como señala xAI en la entrada del blog del anuncio, Grok está “pensado para responder a casi cualquier cosa” y está “diseñado para responder a preguntas con un poco de ingenio”. El post señalaba que la solución también pretende ayudar a los usuarios a acceder a la información, procesar datos y descubrir nuevas ideas.

La organización también confirmó que Grok estaría disponible para un grupo limitado de usuarios en Estados Unidos antes de un lanzamiento más amplio. El 22 de noviembre de 2023, Musk publicó en X que Grok estaría disponible para todos los suscriptores Premium+ la semana siguiente.

Grok AI frente a ChatGPT y otros asistentes de IA

En esta fase de desarrollo, la diferencia clave entre Grok y otros asistentes de IA como ChatGPT y Claude 2 es que está conectado a datos en tiempo real extraídos de la plataforma de redes sociales X.

Aunque la naturaleza de estos datos de entrenamiento no se ha hecho pública, el hecho de poder acceder al gran volumen de contenido conversacional de X y, potencialmente, a algunos de los datos de propiedad exclusiva del proveedor entre bastidores podría convertir al chatbot en un actor importante del mercado.

Además, el énfasis de Grok en el humor y el ingenio es también un importante punto de diferenciación respecto a competidores como GPT-4 y Claude 2, que se han centrado en interactuar con los usuarios de forma conversacional pero comedida y en minimizar las salidas dañinas. Como Musk explicó en un post sobre X, Grok “se basa y ama el sarcasmo”.

Como resultado, su enfoque lúdico de Grok tiene el potencial de entretener a los usuarios con respuestas ingeniosas de una manera que replica la naturaleza desenfadada de la interacción humana cotidiana.

¿Cómo se comporta Grok frente a otros LLM?

Con sólo dos meses de entrenamiento, xAI ya ha informado de que el LLM Grok-1 ha obtenido buenos resultados en pruebas de referencia de IA como Human Eval y MMLU, con un 63,2% y un 73%, respectivamente.

Estas puntuaciones superan tanto al GPT-3.5 de OpenAI como al Llama 2 70B de Meta en ambas pruebas. Como referencia, GPT-3.5 obtuvo un 48,1% en Human Eval y un 70% en MMLU, mientras que Llama 2 70B obtuvo un 29,9% y un 68,9%.

xAI también informa de que Grok obtuvo buenos resultados en otra tarea de rendimiento en la que se comprobó el rendimiento de Grok, Claude 2 y GPT-4 en el examen nacional de matemáticas de secundaria de Hungría de mayo de 2023. En este ejercicio, Grok-1 obtuvo una calificación de C con un 59%, Claude 2 obtuvo una calificación de C con un 55% y GPT-4 obtuvo una calificación de B con un 68%.

Aunque Grok no alcanza el nivel de rendimiento de GPT-4, el hecho de que sea competitivo con LLM como GPT-3.5, Claude 2 y Llama 2 70B en determinadas tareas es impresionante si se tiene en cuenta que sólo lleva cuatro meses en desarrollo.

Además, utiliza una fracción de los datos de entrenamiento y los recursos computacionales de LLM como GPT-4 y Llama 2 70B. Aunque no está claro cuántos parámetros tiene Grok-1, Grok-0 tenía 33.000 millones de parámetros.

En comparación, LLama 2 tiene 70.000 millones.

Equipo de investigación de Grok

xAI se lanzó en marzo de 2023 y está compuesto por investigadores experimentados en IA que han trabajado previamente en organizaciones e instituciones como OpenAI, DeepMind, Google Research y la Universidad de Toronto.

Entre ellos se encuentran Ibor Babuschkin, Manual Kroiss, Yuhuai Wu, Christian Szegedy, Jimmy Ba, Toby Pohlen, Ross Nordeen, Kyle Kosic, Greg Yang, Guodong Zhang, Zihang Dai, Xiao Sun, Fabio Aguilera-Convers, Ting Chen y Szymon Tworkowski.

Los investigadores de la empresa han contribuido a una amplia gama de innovaciones en este campo, como GPT-4, GPT-3.5, AlphaStar, AlphaCode, Inception, Minerva, el optimizador Adam, la normalización de lotes, la normalización de capas, Transformer-XL, la autoformalización y el escalado del tamaño de los lotes.

En general, el experimentado equipo de investigadores que hay detrás de Grok sugiere que xAI tiene potencial para convertirse en un proveedor importante en el mercado de la IA generativa de cara al futuro.

Potencial de resultados nocivos

Como chatbot impulsado por LLM, Grok se enfrenta a los mismos retos que el resto de modelos lingüísticos en el sentido de que se le puede incitar o manipular para que produzca contenido dañino, discriminatorio o ilegal.

Sin embargo, no está claro si el énfasis de Grok en ofrecer respuestas humorísticas e ingeniosas a las indicaciones de los usuarios aumentará el riesgo de crear contenidos que algunos usuarios puedan considerar ofensivos.

Como señala xAI, Grok tiene una “vena rebelde” y responderá a preguntas rechazadas por otros sistemas de IA, lo que significa que potencialmente hay más oportunidades de que se genere contenido ofensivo.

Otros retos: Sesgo de X

Otro posible factor de riesgo es el uso de datos en tiempo real de X. Históricamente, X, cuando se conocía como Twitter, ha sido objeto de muchas críticas por la propagación de toxicidad y desinformación en la plataforma.

Por ejemplo, Pew Research descubrió que el 17% de los usuarios ha experimentado un comportamiento acosador o abusivo en la plataforma, y el 33% ha visto mucha información inexacta o engañosa.

Esto significa que existe el riesgo de que parte de la toxicidad y la desinformación de la plataforma se filtre en los datos de formación de Grok y cree sesgos y respuestas perjudiciales. Esto significa que habrá que moderar mucho el contenido para evitar que el contenido tóxico o inexacto se filtre en los resultados.

Hasta ahora, xAI parece estar trabajando para minimizar el riesgo de resultados perjudiciales. La empresa destacó en su entrada de blog que el equipo está “interesado en mejorar la solidez de los LLM” y “hacer todo lo posible para garantizar que la IA siga siendo una fuerza para el bien”. Cuenta con el asesoramiento activo de Dan Hendrycks, director del Centro para la Seguridad de la IA.

Temas relacionados

Tim Keary
Editor

Desde enero de 2017, Tim Keary ha sido un escritor y reportero de tecnología independiente que cubre tecnología empresarial y ciberseguridad.