La pugna por desarrollar el próximo LLM estrella

Fiabilidad
Resumen

El éxito de ChatGPT ha provocado una fiebre del oro en el campo de los grandes modelos lingüísticos. Aquí tienes otros cuatro LLM para tu consideración.

El éxito de ChatGPT ha provocado una fiebre del oro en el campo de los grandes modelos lingüísticos (LLM), una especie de inteligencia artificial (IA) que utiliza modelos estadísticos y análisis de alta velocidad para crear textos y discursos que suenen naturales.

Los LLM existen desde hace tiempo, pero sólo recientemente han alcanzado un punto en el que sus resultados parecen perfectamente humanos.

Esto ha provocado un gran entusiasmo por una serie de aplicaciones, como los chatbots, la creación de contenidos y los asistentes digitales personales, pero también la preocupación generalizada de que difumine la línea que separa el compromiso humano del compromiso robótico en un mundo cada vez más digitalizado.

Próxima oleada de LLM: Aprovechar el éxito

Aunque ChatGPT causó sensación a principios de este año, con 180 millones de usuarios según las últimas estimaciones, no es ni mucho menos el único LLM de la ciudad. En los círculos tecnológicos, el éxito tiende a engendrar competencia, y muchas empresas adineradas están muy interesadas en hacer que la IA parezca lo más normal y natural posible.

He aquí algunas de las soluciones LLM más prometedoras que podrían aparecer pronto en una empresa cercana.

BERT

BERT (Bidirectional Encoder Representations from Transformer) es el campeón de Alphabet en la guerra de los LLM. Se dice que BERT es muy hábil en la creación de «incrustaciones», las representaciones matemáticas que permiten a los modelos captar e interpretar los significados de las palabras y sus relaciones entre sí.

Esto significa que puede transmitir con precisión datos textuales u orales y proporcionar una comprensión profunda del significado semántico incluso de comunicaciones extensas.

Por este motivo, BERT se considera un modelo de apoyo líder para el procesamiento del lenguaje natural (PLN) y otras formas de aprendizaje automático (AM).

Ambas técnicas requieren que la IA ingiera y comprenda grandes cantidades de datos, sobre todo los datos no estructurados de correos electrónicos, conversaciones de chat y otras formas de interacción humana.

BERT también puede crear incrustaciones a partir de texto y números para integrar, por ejemplo, nombres y edades, y puede concatenar incrustaciones con otras características para crear entradas de datos multidimensionales, todo lo cual agiliza el proceso de formación y aporta más flexibilidad a las operaciones del modelo.

Tongyi Qianwen

En China, mientras tanto, Alibaba Group ha lanzado Tongyi Qianwen («Buscar la verdad haciendo mil preguntas»), que algunos observadores describen como la respuesta de la empresa a ChatGPT.

Tongyi Qianwen, basado en el anterior marco de IA preentrenada Tongyi, se está integrando en una amplia gama de aplicaciones empresariales de Alibaba, como la herramienta de comunicación en el lugar de trabajo DingTalk y el asistente personal TGenie, así como en numerosas aplicaciones de consumo, como comercio electrónico y entretenimiento.

Los desarrolladores también tienen a su disposición una API beta para empezar a crear aplicaciones personalizadas para una amplia gama de casos de uso personal y profesional.

Uno de los aspectos más intrigantes de Tongyi Qianwen es su potencial de funcionalidad multimodal, que se espera conduzca a la interpretación avanzada de imágenes, la conversión de texto a imagen e incluso de texto a vídeo. Según los responsables de Alibaba, se espera que esto, junto con la infraestructura de nube a hiperescala de la empresa, dé el pistoletazo de salida a una nueva era en el desarrollo de la IA.

NeMo LLM

En términos de potencia, sin embargo, la mejor parece ser la plataforma NeMo de Nvidia. Con capacidad para gestionar hasta 500.000 millones de parámetros ajustables durante el proceso de entrenamiento, tiene una enorme capacidad para realizar predicciones precisas o producir correctamente el resultado deseado con un mínimo de indicaciones.

De este modo, los usuarios deberían ser capaces de dirigir sus modelos para realizar tareas que van desde el resumen y la paráfrasis de textos hasta la narración completa de historias con unos conocimientos mínimos sobre el entrenamiento de modelos o la tecnología informática en general.

Nvidia ya está tratando de llevar el marco NeMO al siguiente nivel aumentando su capacidad de parámetros hasta el rango de los varios billones. El sistema puede buscar de forma rápida y eficaz los parámetros óptimos de entrenamiento e inferencia en múltiples clusters GTP distribuidos utilizando herramientas como el procesamiento automatizado de datos distribuidos y herramientas de hiperparámetros.

También permitirá una alta eficiencia de entrenamiento y una amplia personalización mediante técnicas como el paralelismo tensorial, de datos, de canalización y de secuencias, así como el recálculo activo selectivo para reducir el consumo de memoria.

LLaMA

Sin embargo, lo grande no siempre es mejor a la hora de desarrollar modelos LLM, sobre todo cuando se carece de los recursos necesarios para arquitecturas de hiperescala. Meta ha introducido una solución más pequeña llamada LLaMA (Large Language Model Meta AI) que tiene un máximo de unos 65.000 millones de parámetros.

La idea es proporcionar un entorno de desarrollo de bajo coste y baja escala, que permita a más investigadores probar sus ideas antes de lanzarlas a entornos de producción.

Estos modelos más pequeños se basan más en tokens (fragmentos de palabras), que son más fáciles de entrenar y ajustar que las soluciones más amplias.

Esto permite a los desarrolladores crear modelos viables para casos de uso específicos y luego compartir el código entre proyectos para mejorar su resistencia a los sesgos, la toxicidad, las alucinaciones y otras entradas negativas que afectan a todos los LLM. Actualmente, Meta sólo emite licencias no comerciales para LLaMA con el fin de dar a la comunidad investigadora la oportunidad de desarrollar directrices para un uso responsable en todos los entornos.

Conclusión

Es probable que los grandes modelos lingüísticos acaparen por el momento la mayor parte de la atención en el ámbito de la IA. Al fin y al cabo, son los que presentan las características más parecidas a las humanas, lo que los hace parecer los más inteligentes.

El reto en este momento es desarrollar capacidades que vayan más allá de escribir y hablar para que sean realmente útiles en nuestra vida personal y profesional. No es tarea fácil, teniendo en cuenta los numerosos pasos cognitivos que hay que dar para decidir qué ropa ponerse o qué desayunar.

Con toda probabilidad, solo integrando los LLM con otras formas de IA, como el aprendizaje automático, las redes neuronales y el aprendizaje profundo, llegaremos a un punto en el que la tecnología sea realmente transformadora.

Temas relacionados

Artículos relacionados

Arthur
Technology Writer
Arthur
Editor

Arthur Cole es un periodista independiente de tecnología que ha estado cubriendo desarrollos en tecnología de la información y empresas durante más de 20 años. Contribuye a una amplia variedad de sitios web líderes en tecnología, incluyendo IT Business Edge, Enterprise Networking Planet, Point B and Beyond, y varios servicios de proveedores.