Los 6 mejores LLM de código abierto a tener en cuenta en 2024

Fiabilidad
Resumen

A medida que la industria de la IA continúa desarrollándose, echamos un vistazo a los 6 mejores LLM de código abierto a tener en cuenta en 2024.

Si algo hemos aprendido en 2023 es que la IA de código abierto está ganando terreno rápidamente. Mientras que el lanzamiento de ChatGPT de OpenAI en noviembre acaparó los titulares en 2022, este año han ido apareciendo cada vez más modelos lingüísticos de código abierto (LLM) de alto rendimiento para investigación y uso comercial.

Aunque estos modelos LLM de código abierto preentrenados aún no están en la fase de desbancar el rendimiento de los modelos de IA propietarios como GPT4, pueden ser una alternativa viable a LLM como GPT 3.5.

A continuación, analizaremos 6 de los mejores LLM a tener en cuenta en 2024 a medida que el ecosistema de IA de código abierto siga evolucionando.

Los 6 mejores LLM de código abierto

6. Llama 2: Mejor LLM de código abierto en general

Llama 2
Captura de Llama 2. Techopedia

Uno de los LLM de código abierto más importantes lanzados este año es Llama 2 de Meta, posiblemente el mejor LLM de código abierto para uso comercial debido a su versatilidad y rendimiento generales.

En julio, Meta y Microsoft anunciaron el lanzamiento de Llama 2, un modelo de IA generativa preentrenado con 2 billones de tokens, que admite entre 7.000 y 70.000 millones de parámetros. Cabe destacar que Llama 2 se entrenó con un 40% más de datos que Llama 1 y admite el doble de longitud de contexto.

En el momento de escribir estas líneas, Llama 2 sigue siendo uno de los modelos lingüísticos de código abierto con mejores resultados del mercado, destacando en pruebas de referencia clave como las de razonamiento, codificación, competencia y conocimientos.

Actualmente, la Hugging Face Open LLM Leaderboard sitúa a Llama 2 70B como el segundo mejor LLM del mercado, con una puntuación media de 67,35, 67,32 en ARC, 87,33 en HellaSwag, 69,83 en MMLU y 44,92 en TruthfulQA.

Llama 2 también ha demostrado un rendimiento prometedor frente a modelos propios como GPT4. Waleed Kadous, científico jefe de Anyscale y ex ingeniero principal de Google, publicó en su blog que Llama 2 tenía aproximadamente el mismo nivel de precisión en el resumen que GPT-4 y que, además, era 30 veces más barato de ejecutar.

Vale la pena señalar que Meta también tiene una nueva versión de Llama 2 llamada Llama 2 Long, diseñada para responder bien a consultas largas. Se trata de una versión modificada de Llama 2 que viene con 400.000 millones de tokens adicionales y admite una longitud de contexto de 32.000.

Tras su lanzamiento, Meta afirma que la variante 70B de Llama 2 Long supera el rendimiento de GPT 3.5 16ks en tareas de contexto largo, como la respuesta a preguntas, el resumen de pruebas y la agregación de varios documentos.

Pros

  • Generación de lenguaje natural
  • Ajustado para casos de uso de chat
  • Aprendizaje de pocos disparos
  • Aprendizaje multitarea
  • Utiliza menos recursos informáticos que los LLM de tamaño similar
  • Traduce a varios idiomas
  • Admite varios lenguajes de programación
  • Genera resultados más seguros
  • Utiliza un conjunto de datos diverso con más de un millón de anotaciones humanas.

Contras

  • La formación puede ser costosa financiera y computacionalmente
  • No es tan creativo como modelos como GPT 3.5
  • Soporte limitado en idiomas distintos del inglés
  • El rendimiento depende de la calidad de los datos de preentrenamiento
  • Alucinaciones

5. Falcon 180B: el modelo de acceso abierto más potente

captura de falcon
Captura de Falcon. Techopedia

 

Uno de los mayores LLM abiertos (de acceso libre) que se lanzaron en 2023 fue Falcon 180B. El modelo lingüístico del Instituto de Innovación Tecnológica de los Emiratos Árabes Unidos (TII) se entrenó con 3,5 billones de tokens extraídos del conjunto de datos RefinedWeb, que admite hasta 180.000 millones de parámetros.

Fue diseñado para sobresalir en la realización de tareas de lenguaje natural y, en octubre de 2023, es el LLM mejor clasificado en la tabla de clasificación de Hugging Face Open LLM para modelos de lenguaje preentrenados, con una puntuación media de 68,74, 69,8 en ARC, 88,95 en HellaSwag, 70,54 en MMLU y 45,67 en TruthfulQA.

El TII afirma que Falcon 180B ha “rendido excepcionalmente bien”en las pruebas de razonamiento, dominio de la codificación y conocimiento, superando a competidores como Llama 2 en algunas áreas y rindiendo “a la par” que PaLM 2 de Google, que impulsa el popular chatbot Bard.

Los investigadores que deseen experimentar con Falcon 180B en un contexto de chatbot pueden utilizar una versión modificada llamada Falcon 180B Chat, que es una versión modificada del modelo principal afinada con datos de chat e instrucciones.

Sin embargo, una de las principales limitaciones de Falcon 180B es que su licencia subyacente es bastante restrictiva. Además de prohibir a los usuarios utilizar el LLM para infringir leyes locales o internacionales o dañar a otros seres vivos, las organizaciones que pretendan alojar u ofrecer servicios de gestión basados en el LLM necesitarán una licencia aparte.

Además, Falcon 180B carece de barandillas en comparación con otros LLM propietarios o LLM de código abierto que han sido perfeccionados para garantizar la seguridad, como Llama 2, lo que significa que puede utilizarse más fácilmente para casos de uso malintencionado.

Pros

  • Más potente que herramientas populares como GPT 3.5 y Llama 2
  • Generar texto
  • Escribir y depurar código
  • Optimizado para la inferencia
  • Disponible para investigación y uso comercial
  • Puesta a punto con datos de chat e instrucciones
  • Entrenado en datos diversos (incluido el conjunto de datos RefinedWeb)

Contras

  • Acceso abierto en lugar de código abierto
  • Restricciones al uso comercial
  • Requiere un hardware potente para funcionar
  • No es tan fácil de usar como otras herramientas del mercado
  • Necesidad de consultar a TII antes de ofrecer acceso alojado al modelo

4. Code Llama: el mejor LLM abierto para la generación de código

code llama
Captura de Neta AI. Techopedia

 

En lo que respecta a la creación de código, uno de los lanzamientos más interesantes de este año vino de Meta en forma de Code Llama. Se trata de un modelo de IA creado entrenando a Llama 2 en conjuntos de datos específicos de código, que incluyen 500.000 millones de tokens de código y datos relacionados con el código.

Code Llama admite parámetros de 7B, 13B y 34B y ha sido perfeccionado para generar código y explicar lo que hace el código en una serie de lenguajes, como Python, C++, Java, PHP, Typescript(Javascript), C#, Bash, etc.

Por ejemplo, los usuarios pueden pedirle al chatbot que escriba una función que genere la secuencia de Fibonacci o que les dé instrucciones para listar todos los archivos de texto de un directorio determinado.

Esto lo hace ideal para desarrolladores que quieran agilizar sus flujos de trabajo o para programadores principiantes que quieran entender mejor qué hace un fragmento de código y cómo funciona.

Existen dos variantes principales de Code Llama: Code Llama Python y Code Llama Instruct. Code Llama – Python está entrenado en 100B tokens extra de código Python para ofrecer a los usuarios mejores capacidades de creación de código en el lenguaje de programación Python.

Code Llama Instruct es una versión perfeccionada de Code Llama, que se entrena con 5.000 millones de tokens de instrucciones humanas y se ha desarrollado para comprender mejor las instrucciones humanas.

Pros

  • Capaz de generar lenguaje natural y código
  • Versión perfeccionada del modelo disponible para casos de uso de chat (Mistral 7B Instruct)
  • Tiempo de inferencia más rápido (mediante atención a consultas agrupadas)
  • Menor coste de inferencia (gracias a la atención por ventanas deslizantes)
  • Puede utilizarse localmente
  • Sin restricciones en virtud de la licencia Apache 2.0

Contras

  • El rendimiento de la codificación es inferior al de GPT-4 sin ajustes adicionales
  • Parámetros limitados
  • Riesgo de inyecciones rápidas
  • Propenso a alucinaciones

3. Mistral: Mejor modelo 7B preentrenado

zephyr beta
Captura de Zephyr. Techopedia

 

En septiembre de 2023, Mistral AI anunció el lanzamiento de Mistral 7B, un LLM de código abierto pequeño pero de alto rendimiento con 7.000 millones de parámetros, desarrollado para funcionar de forma más eficiente que los modelos de código cerrado de mayor tamaño, lo que lo hace ideal para dar soporte a aplicaciones en tiempo real.

Mistral 7B utiliza técnicas como la atención a consultas agrupadas para realizar inferencias más rápidas y la atención a ventanas deslizantes (SWA) para manejar secuencias más largas con un coste menor.

Estas técnicas permiten al LLM procesar y generar textos de gran tamaño con mayor rapidez y menor coste que otros LLM que consumen más recursos.

El comunicado de la organización indica que Mistral 7B obtuvo una puntuación del 80,0% en arc-e, 81,3% en HellaSwag, 60,1% en MMLU y 30,5% en las pruebas de referencia HumanEval, superando significativamente a LLama 2 7B en cada categoría.

Mistral AI también sugirió que Mistral supera a Llama 1 34B en código, matemáticas y razonamiento, mientras que se acerca al rendimiento de Code Llama 7 B en tareas de código.

En conjunto, esta información sugiere que Mistral AI es una opción viable tanto para tareas de lenguaje natural como de generación de código.

También existe una versión alternativa de Mistral 7B llamada Mistral 7B Instruct, que ha sido entrenada en conjuntos de datos de conversación disponibles públicamente y supera a todos los modelos 7B en la prueba MT-Bench.

Por otra parte, cabe mencionar que algunos comentaristas han expresado su preocupación por la falta de moderación de contenidos de Mistral 7B, lo que le ha llevado a generar contenidos problemáticos, como instrucciones para crear una bomba.

Pros

  • Generación de lenguaje natural y código
  • Versión perfeccionada del modelo disponible para casos de uso de chat (Mistral 7B Instruct)
  • Tiempo de inferencia rápido (mediante atención a consultas agrupadas)
  • Coste de inferencia reducido (mediante la atención de ventana deslizante)
  • Puede utilizarse localmente
  • Sin restricciones en virtud de la licencia Apache 2.0

Contras

  • El rendimiento de la codificación es inferior al de GPT-4 sin ajuste fino
  • Parámetros limitados
  • Expuesto a inyecciones rápidas
  • Puede alucinar los hechos

2. Vicuña: mejor tamaño-calidad de salida LLM

captura 2
Captura de Llama 2. Techopedia

 

Vicuna 13B es un chatbot de código abierto lanzado en marzo de 2023 por estudiantes y profesores de la Universidad de Berkeley en el marco de la organización de investigación abierta Large Model Systems Organisation (LMSYS Org).

Los investigadores de LMSYS Org tomaron el modelo Llama de Meta y lo perfeccionaron con 70.000 conversaciones de ChatGPT compartidas por los usuarios en ShareGPT.com. El entrenamiento de Llama con estos datos ha dado a Vicuna la capacidad de generar respuestas detalladas y articuladas a las consultas de los usuarios con un nivel de sofisticación comparable al de ChatGPT.

Por ejemplo, las pruebas preliminares realizadas por LMSYS Org sugieren que Vicuna alcanza el 90% de la calidad de ChatGPT y Bard, al tiempo que supera a Llama y Stanford Alpaca en el 90% de los escenarios (aunque los investigadores admiten que es necesario investigar para evaluar completamente la solución).

LMSYS ORG también informa de que Vicuna 13B logró 6,39 en MT-bench, una calificación ELO de 1.061 arena y 52,1 en MMLU.

Del mismo modo, en la clasificación AlpacaEval, que evalúa la capacidad de seguimiento de instrucciones de los modelos lingüísticos, Vicuna 13B obtuvo un porcentaje de victorias del 82,11%, frente al 81,71% de GPT-3.5 y el 92,66% de Llama 2 Chat 70B.

Estos resultados son impresionantes si se tiene en cuenta que Vicuna 13B tardó unos 300 dólares en entrenarse.

También existe una versión más grande de Vicuna, llamada Vicuna-33B, que obtiene 7,12 puntos en MT-bench y 59,2 en MMLU.

Pros

  • Produce resultados detallados en lenguaje natural
  • Ligero
  • Cuesta 300 dólares entrenarlo
  • Puesta a punto con más de 70.000 conversaciones extraídas de ShareGPT
  • Disponible en el mercado

Contras

  • Rendimiento limitado en tareas de razonamiento y matemáticas
  • Puede alucinar información
  • Controles limitados de moderación de contenidos.

1. Jirafa: Mejor modelo de escala y longitud de contexto

jirafa techopedia
Captura de Abacus. Techopedia

 

En septiembre de 2023, Abacus.AI lanzó una versión 70B de Giraffe, una familia de modelos de IA afinados basados en Llama 2, ampliando la longitud de contexto del modelo de 4.096 a 32.000. Abacus.AI ha dotado a Giraffe de una ventana de contexto larga para ayudar a mejorar el rendimiento de las tareas de procesamiento posteriores.

La ampliación de la longitud del contexto permite al LLM recuperar más información de un conjunto de datos posterior cometiendo menos errores. Al mismo tiempo, también ayuda a mantener conversaciones más largas con los usuarios.

Abacus.AI afirma que Giraffe muestra el mejor rendimiento de todos los modelos de código abierto en extracción, codificación y matemáticas. En la prueba de evaluación MT-Bench, la versión 70B de Giraffe obtiene una puntuación de 7,01.

“Hemos realizado una evaluación del modelo 70B en nuestro conjunto de puntos de referencia que sondean el rendimiento LLM en contextos largos”, ha declarado Bindu Reddy, CEO de Abacus AI.

“El modelo 70B mejora significativamente en las ventanas de contexto más largas (32k) para la tarea de control de calidad de documentos frente al modelo 13B, con una precisión del 61% frente al 18% del 13B en nuestro conjunto de datos AltQA. También observamos que supera al modelo comparable LongChat-32k en todas las longitudes de contexto, con un rendimiento cada vez mayor en las longitudes de contexto más largas (registrando un 61% frente a un 35% de precisión en longitudes de contexto de 32k.”

Cabe destacar que Abacus AI también ha informado de que Giraffe 16k “debería rendir bien en tareas del mundo real de hasta 16.000 longitudes de contexto” y potencialmente hasta 20.000-24.000 longitudes de contexto.

Pros

  • Comprender y generar texto en lenguaje natural
  • La ventana de contexto de gran tamaño admite entradas más grandes y conversaciones más largas
  • El modelo 16 debería funcionar bien en tareas de hasta 16K de longitud de contexto
  • Disponible una versión del modelo ajustada a las instrucciones de la vicuña.

Contras

  • Requiere una potencia de cálculo considerable
  • La precisión de la recuperación requiere un ajuste fino
  • Propenso a las alucinaciones

Lo esencial

Aunque este artículo sólo araña la superficie de algunos de los LLM que se están desarrollando y perfeccionando sobre una base de código abierto, todos estos modelos ilustran que la gama de soluciones abiertas de IA está creciendo rápidamente.

Si quieres que tu LLM sea de código abierto y esté disponible de forma gratuita, hay muchas opciones en el mercado. A medida que se publiquen y perfeccionen más iteraciones de estos modelos, la utilidad de estas soluciones seguirá creciendo.

Temas relacionados

Tim Keary
Technology Specialist
Tim Keary
Editor

Desde enero de 2017, Tim Keary ha sido un escritor y reportero de tecnología independiente que cubre tecnología empresarial y ciberseguridad.