Mientras los grandes modelos lingüísticos (LLM) siguen cautivando al mundo con sus notables capacidades, un movimiento paralelo ha ido ganando impulso: el auge de las alternativas de código abierto.
Mientras gigantes de la industria como OpenAI, Anthropic y Google acaparan la atención con sus modelos patentados como ChatGPT, Claude y Gemini, una creciente comunidad de investigadores y desarrolladores ha adoptado la filosofía del código abierto, impulsada por un compromiso con la transparencia, la accesibilidad, la reproducibilidad y la innovación colaborativa.
Hace unas semanas, el impulso para democratizar los LLM cobró más fuerza cuando Elon Musk, uno de los seis cofundadores de OpenAI, demandó a la empresa por desviarse de su acuerdo inicial de código abierto. Para cumplir su palabra, Musk anunció que su empresa de IA, xAI, abrirá su chatbot Grok.
Tanto si Musk gana el caso como si no, una cosa es segura: eso no impedirá que los LLM de código abierto ofrezcan una propuesta atractiva a las empresas que buscan aprovechar el poder de la IA generativa sin las limitaciones de unas tasas de licencia exorbitantes o unas prácticas de datos opacas.
Algunos argumentan que aprovechar la capacidad intelectual colectiva de la comunidad de código abierto podría hacer que los LLM de código abierto fueran más potentes que sus homólogos de código cerrado en dominios específicos.
Una encuesta reciente sugiere que los LLM de código abierto superarán a las versiones comerciales en los próximos dos años. Un trabajo de investigación que mide las capacidades de los LLM de código abierto frente a las versiones de pago también descubrió que los LLM de código abierto demuestran un potencial competitivo frente a ChatGPT en tareas específicas.
Puntos clave
- Los LLM de código abierto como Falcon180B, Llama 2, Mixtral AI y Smaug-72B están ganando impulso, impulsados por un compromiso con la transparencia, la accesibilidad y la innovación colaborativa.
- Aunque los LLM de código abierto son más asequibles, siguen requiriendo inversiones iniciales de configuración, y su rendimiento puede quedar por detrás de modelos propietarios como GPT-4 y Claude 3 en determinadas tareas.
- Los LLM de código abierto tienen el potencial de superar a las versiones comerciales en dominios o tareas específicas mediante el ajuste y la adaptación por parte de la comunidad de desarrolladores.
- Aunque los expertos difieren sobre si los LLM de código abierto superarán a los modelos propietarios en rendimiento general, su rápido progreso y la capacidad intelectual colectiva de la comunidad de código abierto sugieren que seguirán acortando distancias.
- Los LLM de código abierto están bien posicionados para sobresalir en aplicaciones de dominio específico mediante el ajuste fino, mientras que los modelos propietarios pueden conservar una ventaja en aplicaciones de propósito general debido a su acceso a vastos datos de entrenamiento de alta calidad.
¿Por qué los LLM de código abierto están ganando adeptos?
Aparte del punto de vista de la capacidad, los LLM patentados han estado envueltos en controversias sobre cómo entrenan sus modelos y la cantidad real de datos que se les suministran.
Es justo argumentar que si estos modelos se entrenaron con conjuntos de datos disponibles públicamente, ¿por qué entonces se comercializan? Algunas de estas controversias han dado lugar a muchas demandas judiciales y a la prohibición total de ChatGPT en Italia el año pasado, debido a problemas de privacidad.
Una vez más, el enfoque de código abierto también fomenta una cultura de experimentación e iteración y, como tal, puede facultar a las empresas para afinar y adaptar estos modelos a sus casos de uso específicos, desbloqueando nuevas posibilidades y permitiendo aplicaciones más matizadas y contextuales.
Desde un punto de vista económico, los LLM de código abierto, como la Llama 2 y el Halcón 180B de Meta, son más asequibles, ya que no requieren el pago de licencias.
Esto supone una opción atractiva para las organizaciones con limitaciones presupuestarias. Sin embargo, DeepChecks señala que, aunque son asequibles, los LLM de código abierto siguen requiriendo algún tipo de inversión inicial en configuración.
Los 4 mejores modelos LLM de código abierto para empresas en 2024
Aunque hay decenas de LLM de código abierto, nuestra atención se centrará en estos cuatro debido a su capacidad demostrada y a su estatus establecido en la comunidad de código abierto.
4. Falcon180B
Desarrollado por el Instituto de Innovación Tecnológica (TII) de los Emiratos Árabes Unidos, Falcon180B es posiblemente el mayor LLM de código abierto que se lanzará en 2023. TII afirma que el modelo está entrenado con 180.000 millones de parámetros y 3,5 billones de fichas de un conjunto de datos de RefinedWeb .
TII afirma que el modelo tiene un rendimiento excepcional en tareas como pruebas de razonamiento, codificación, competencia y conocimiento, y ya ha superado a Llama 2 y GPT-3.5 en varias tareas de procesamiento del lenguaje natural (PLN). TII también presume de que el LLM puede competir con el PaLM 2 de Google, el LLM que impulsa Google Bard.
En octubre de 2023, Hugging Face, una de las principales plataformas de investigación en PNL, clasificó al Falcon180B como el número uno en modelos lingüísticos preentrenados según algunas métricas.
3. LLAMA 2
Meta-owned Llama 2 es otro LLM de calidad de libre acceso. Llama 2 está disponible para una amplia gama de usuarios, desde aficionados individuales hasta investigadores profesionales y empresas.
Lanzada públicamente en 2023, la familia de LLM Llama 2 es una colección de modelos generativos de IA basados en texto, preentrenados y afinados, cuya escala oscila entre 7.000 y 70.000 millones de parámetros. Llama se ofrece en tamaños de 7, 13 y 70 mil millones de parámetros.
El LLM también ofrece un modelo afinado conocido como Llama-2-Chat que está optimizado sólo para casos de uso de diálogo. Según Huggingface, “los modelos Llama-2-Chat superan a los modelos de chat de código abierto en la mayoría de los puntos de referencia que probamos”.
Las pruebas de evaluación humana de utilidad y seguridad revelaron que los modelos Llama-2-Chat están a la par con ChatGPT y PaLM.
2. MIXTRAL AI
Mistral es una startup fundada por investigadores anteriormente asociados a los gigantes tecnológicos Meta y Google. Hicieron una incursión en la comunidad de la IA genérica de código abierto el año pasado con su LLM de 7.000 millones de parámetros.
Según la empresa con sede en París, Mistral 7B supera a otros destacados LLM de código abierto, como LLaMA 2, en numerosas métricas. En diciembre de 2023, Mistral generó una gran expectación al publicar un modelo aún más capaz llamado Mixtral 8x7B a través de un enlace torrent, demostrando así su compromiso con el código abierto.
Mixtral 8x7B tiene licencia Apache 2.0 y se ha sometido a una serie de pruebas comparativas bajo Huggingface. Dada su ligereza pero sus prestaciones mejoradas, Mixtral 8x7B se erige como uno de los mejores LLM en términos de relación coste/prestaciones.
1. Smaug-72B
Desarrollado por Abacus AI, Smaug-72B entró en la comunidad de LLM el mes pasado. El informe de evaluación de la tabla de clasificación del LLM abierto Hugging Face muestra que Smaug-72B es el primer y único modelo de código abierto que ha conseguido una puntuación media superior a 80 en todas las evaluaciones principales del LLM.
Según Abacus AI, Smaug-72B se afinó utilizando conjuntos de datos existentes de “Qwen-72B”, un robusto modelo lingüístico presentado unos meses antes por Qwen, un equipo de investigación afiliado al Grupo Alibaba.
Aunque todavía no alcanza la media de 90-100 puntos considerada un rendimiento de nivel humano, su publicación sugiere que la IA de código abierto podría rivalizar pronto con las capacidades de los modelos desarrollados por empresas privadas.
¿Derrocará el LLM de código abierto a los LLM privados?
A pesar de sus logros hasta ahora, Alan Smithson, director general de MetaVRs, cree que los LLM de código abierto no superarán a los LLM privados en rendimiento, investigación y desarrollo.
En una charla con Techopedia, dijo:
“El código abierto es un movimiento que no se puede detener. El mundo se ha beneficiado enormemente del software creado por una red de ingenieros y no por una sola organización.
“Sin embargo, los LLM de código abierto siempre estarán un paso por detrás de las empresas privadas porque la economía permite una I+D mucho más centrada. A veces, en los proyectos de código abierto, un colaborador principal se marcha, lo que provoca retrasos en el progreso del desarrollo.”
En cuanto al rendimiento, Smithson afirma que es poco probable que los modelos de código abierto superen en tareas a los de GPT4/Claude3, etc., pero pueden acercarse.
“Si se les proporcionan suficientes datos y potencia de cálculo, combinados con un equipo dedicado que dirija la tarea, es factible que el código abierto pueda realizar mejor ciertas tareas, pero poco probable”.
Para Julien Salinas, fundador y director general de NLP Cloud, sigue siendo difícil predecir la trayectoria exacta de los LLM de código abierto en comparación con los modelos propietarios como GPT-4 o Claude 3.
“Personalmente, creo que los LLM de código abierto pueden superar a los LLM propietarios en los próximos años. Sin embargo, esto dependerá probablemente de una combinación de factores, como la disponibilidad de datos, los avances en la investigación de la IA y la continua colaboración e inversión en la comunidad de código abierto.”
Para Marie Maria Sukhareva, experta principal en IA de Siemens, los LLM de código abierto lo tendrán muy difícil para superar a GPT-4 y Claude-3.
Según ella:
“OpenAI se ha creado una ventaja competitiva increíble desde que lanzaron su sitio web público. A través de ese sitio web, utilizado a diario por millones de personas, consiguieron recopilar el conjunto de datos más representativo de la historia, que utilizan para mejorar sus modelos. Google intenta hacer lo mismo con el acceso público a Gemini”.
Sukhareva también argumentó que, dado que la mayoría de los LLM de código abierto se entrenan a partir de datos sintéticos generados por GPT-4, su rendimiento siempre será limitado. Sin embargo, cree que los LLM de código abierto podrían tener un rendimiento superior en dominios específicos si se ajustan correctamente.
“Veo la esperanza de los modelos de código abierto más bien en el ámbito de las aplicaciones que son muy específicas de un dominio, por ejemplo, la programación de PLC en Siemens, que necesitarían un ajuste fino y en las que GPT-4 no funcionará bien. No creo que en un futuro próximo los modelos de código abierto puedan competir con los modelos generalistas patentados para aplicaciones de dominio general, como los robots de preguntas frecuentes, el soporte de primer nivel, etc.”, añadió.
Lo esencial
Aunque los modelos propietarios pueden conservar actualmente una ligera ventaja en cuanto a rendimiento y base de usuarios, es innegable el rápido progreso de los grandes modelos lingüísticos de código abierto, que están acortando distancias rápidamente.
Sorprendentemente, algunos LLM de código abierto ya han demostrado capacidades superiores en comparación con sus homólogos de parámetros más grandes, lo que subraya el impacto de los datos de entrenamiento de alta calidad, que pueden pesar más que el mero tamaño del modelo.