El chip de IA ultrarrápido de Groq lo convierte en un rival clave para OpenAI en 2024

Fiabilidad

En el mundo de los grandes modelos lingüísticos (LLM), la velocidad mata.

A medida que avanza la carrera armamentística de la IA generativa, la empresa de chips Qroq, con sede en California, ha ido ganando adeptos por desarrollar chips, conocidos como unidades de procesamiento de lenguaje (LPU), que pueden funcionar 10 veces más rápido que el hardware de procesamiento de IA tradicional.

¿Se convertirá Groq en un elemento clave para el desarrollo de modelos de IA en el futuro? Veamos de qué es capaz hoy.

Puntos clave

  • Groq es una startup de IA que desarrolla unidades de procesamiento de lenguaje que pueden ejecutar la inferencia de IA 10 veces más rápido que las GPU.
  • Groq AI se adapta a las empresas que quieren aumentar la velocidad de las tareas de inferencia al tiempo que reducen su coste global.
  • Las altas velocidades de inferencia convierten a Groq en un competidor clave frente a OpenAI.

¿Qué es Groq y por qué es importante la IA de Groq en 2024?

Groq es un chip de IA fundado en 2016 por el CEO Johnathan Ross, que desarrolla chips y un motor de inferencia LPU diseñado para ofrecer una inferencia más rápida para los modelos generativos de IA.

El motor de inferencia actúa como interfaz de chatbot de Groq AI, donde los usuarios pueden introducir instrucciones.

Antes de crear Groq, Ross trabajó como ingeniero en Google. Ayudó a la organización a desarrollar su popular unidad de procesamiento tensorial (TPU), un chip acelerador utilizado para ayudar a entrenar y ejecutar modelos.

En la actualidad, Groq AI es un actor clave en el mercado de la IA generativa porque sus LPU pueden ejecutar modelos hasta 10 veces más rápido que otras alternativas como las GPU o las CPU de Nvidia.

Visión general del chip Groq AI. Fuente: BittWare

Esto significa que puede ser una opción definitiva para las empresas que quieran aumentar la velocidad de las tareas de inferencia y, al mismo tiempo, reducir su coste total.

Estas capacidades sólo mejorarán en el futuro a medida que surjan más novedades de Groq.

La startup está valorada actualmente en 1.000 millones de dólares y ha recaudado 367 millones hasta la fecha.

Groq frente a OpenAI

Las altas velocidades de inferencia que ofrece Groq lo convierten en un competidor clave frente a OpenAI.

Aunque no produce su propio LLM, ofrece una infraestructura que puede acelerar el rendimiento de otros modelos de terceros.

El uso de Groq y la mayor capacidad de cálculo de sus LPU reducen el tiempo de cálculo por palabra. Esto significa que las secuencias de texto pueden crearse más rápidamente y que se reduce el coste global de las tareas de inferencia.

Por ejemplo, Groq puede combinarse con potentes modelos de código abierto como Llama 3 para ofrecer respuestas a la altura de GPT-4 a velocidades extremadamente altas.

Más concretamente, la Llama 3 emparejada con Groq alcanzó un rendimiento de 877 tokens por segundo en la Llama 3 8B y de 284 tokens por segundo en la Llama 3 70B. En cambio, según ArtificialAnalysis, GPT-4 tiene un rendimiento de 18,2 tokens por segundo.

En este sentido, la menor velocidad de inferencia de OpenAI puede animar a organizaciones y desarrolladores a gravitar hacia el uso de Groq y sus LPU como alternativa de alta velocidad.

¿Es barato utilizar Groq AI?

Usar Groq es rentable cuando se utilizan modelos lingüísticos, como Llama 3 (8B y 70B), Mixtral 8x7B SmoE y Gemma 7B.

El precio, según Groq, es el siguiente:

Modelo Velocidad (tokens/segundo) Precio por 1 millón de tokens (Entrada/Salida)
Llama 3 70B (longitud de contexto 8K) ~280 $0.59 / $0.79
Mixtral 8x7B SMoE (longitud de contexto 32K) ~480 $0.27 / $0.27
Llama 3 8B ~870 $0.05 / $0.10
Gemma 7B (longitud de contexto 8K) ~820 $0.10 / $0.10

Artificial Analysis comparó la API Mixtral 8x7B Instruct de Groq con otros proveedores de inferencia en la nube y descubrió que ofrecía un precio competitivo de 0,27 USD por 1 millón de tokens, al tiempo que ofrecía un rendimiento significativamente superior al de competidores como Perplexity, DeepInfra, Lepton, Anyscale, Together.ai, Fireworks y Mistral.

 

Esto significa que Groq requiere menos potencia informática total que otros proveedores que necesitan consumir más recursos para procesar menos tokens. Así que, en este caso, Groq es una opción más barata.

Aplicaciones de Groq

Groq se adapta bien a varios casos de uso básicos. Entre ellos están

  1. Inferencia de alta velocidad: La LPU de Groq supera a las CPU y GPU en la ejecución de tareas de inferencia para grandes modelos lingüísticos, lo que garantiza un procesamiento rápido.
  2. Generación y ejecución de programas en tiempo real: Aprovechar Groq junto con modelos como Llama 3 facilita la creación y ejecución inmediata de programas, permitiendo una capacidad de respuesta en tiempo real.
  3. Soporte versátil de LLM: Groq ejecuta LLM de alto rendimiento como Llama 3, Mixtral 8x7B y Gemma, proporcionando una plataforma para diversas necesidades computacionales.
  4. Escalabilidad para modelos grandes: Capaz de soportar diferentes modelos, Groq se escala para manejar LLM pequeños y grandes, incluidos los que superan los 70B de parámetros.

Limitaciones de Groq AI

Aunque Groq es extremadamente útil, tiene algunas limitaciones significativas. Son las siguientes

  • Experiencia de usuario: Aunque funciona extremadamente rápido, la interfaz gráfica de su motor de inferencia ofrece una experiencia de usuario menos pulida que otras herramientas como ChatGPT (con GPT-4).
  • Transparencia limitada: Hay poca información disponible sobre las capacidades de las LPU.
  • Falta de atención a la formación: La inferencia es sólo una parte de la ecuación, y muchas organizaciones quieren optimizar tanto la formación como la inferencia.

Visión y estrategia de Groq AI: Planes de futuro

Uno de los mayores retos a los que se enfrenta Groq es que necesita convencer a las empresas de que los chips de Groq son una alternativa mejor que los de Nvidia, que, según algunas estimaciones, tiene entre un 80% y un 95% de cuota de mercado en el mercado de los chips de IA.

Groq parece enfrentarse a este reto sin rodeos, criticando abiertamente el lanzamiento de los chips Blackwell por parte de Nvidia en una entrada de su blog y diciendo:

“Blackwell de NVIDIA no son sólo caballos más rápidos, son más de ellos, atados a más carruajes, unidos por una red de arneses en expansión. La escala es estupenda, la ingeniería notable, y sigue siendo una arquitectura de caballos y calesas”.

Así pues, la estrategia consiste en posicionar las LPU como sucesoras de las GPU para proporcionar a las empresas mayor rendimiento y eficiencia energética. Naturalmente, esto incluye mejorar las capacidades de la LPU con el tiempo.

Como explicó un desarrollador de Groq en Reddit: “Es seguro suponer que la próxima generación será un paso adelante en rendimiento, eficiencia energética y escalabilidad. Para ello es necesario aumentar la memoria y garantizar que la interconectividad entre chips sea perfecta a mayor escala.

“Definitivamente estamos considerando la implicación de que los modelos han estado creciendo en tamaño ~2x al año, y estamos intentando firmar un hardware que haga frente a esto y mantenga una gran experiencia de usuario”.

Conclusión

Groq se ha convertido rápidamente en uno de los proveedores más interesantes del mercado LLM y se encuentra en una posición sólida para ser un facilitador clave del desarrollo de modelos de IA en el futuro.

En la actualidad, su capacidad para realizar tareas de inferencia a gran velocidad lo convierte en una gran opción para quienes necesitan un alto rendimiento a bajo coste.

Preguntas frecuentes

¿Qué es Groq LPU?

¿Es Groq mejor que Nvidia?

¿Para qué sirve Groq?

¿Quién es el Director General de Groq?

Temas relacionados

Artículos relacionados

Tim Keary
Technology Specialist
Tim Keary
Editor

Desde enero de 2017, Tim Keary ha sido un escritor y reportero de tecnología independiente que cubre tecnología empresarial y ciberseguridad.