Puntos clave
- Meta ha anunciado la publicación de varios modelos nuevos de investigación sobre IA.
- Se trata de cinco modelos, entre ellos modelos de generación de texto a música y modelos de imagen a texto.
- El gigante tecnológico espera que estos modelos aceleren la investigación y la innovación en el futuro.
El equipo de Investigación Fundamental sobre IA (FAIR) de Meta ha anunciado la publicación de cinco nuevos modelos de investigación sobre IA, entre ellos algunos que podrían detectar contenidos falsos.
Los modelos incluyen Chameleon, JASCO, AudioSeal (una técnica diseñada para detectar el habla generada por IA), un modelo de predicción multi-token y un código de evaluación de disparidades geográficas + anotaciones.
Al compartir públicamente estos modelos de investigación, Meta espera contribuir al avance de la innovación en IA. Veamos los modelos con más detalle.
Camaleón
Algunos grandes modelos lingüísticos (LLM), como Llama 3 de Meta, de código abierto, son unimodales, es decir, tienen una única entrada y salida; por ejemplo, pueden convertir imágenes en texto o texto en imágenes.
Chameleon es multimodal, es decir, puede procesar y entregar texto e imágenes simultáneamente. Podría utilizarse para tareas como la generación de pies de foto para imágenes o para crear nuevas escenas utilizando conjuntamente la entrada de texto e imagen.
Meta tiene previsto lanzar componentes clave de modelos de la familia Chameleon.
JASCO
Este modelo de generación de música por IA no se basa en la introducción de texto, como otros modelos como MusicGen, sino que admite la introducción de música mixta, de modo que se puede introducir un ritmo o acordes y añadir texto para crear pistas generadas por IA.
Modelo de predicción multi-token
Hasta ahora, los LLM se entrenaban para predecir la palabra siguiente, pero esto no es eficaz. La predicción multi-token puede ayudar a entrenar modelos para predecir múltiples palabras futuras. Meta liberará los modelos preentrenados para completar código bajo una licencia “no comercial, sólo para investigación”.
AudioSeal
Meta afirma que AudioSeal es la primera técnica de marca de agua en audio diseñada para detectar el habla generada por IA. Al escuchar clips de audio más largos, AudioSeal puede detectar segmentos generados por IA mediante detección localizada.
Es hasta 485 veces más rápido que los métodos de detección tradicionales, que dependen de complejos algoritmos de descodificación. Esta nueva tecnología se comercializará bajo licencia y podría ayudar a evitar el uso indebido de las herramientas de IA.
Código de evaluación de disparidades geográficas + anotaciones
El último lanzamiento de Meta, el código de evaluación de disparidades geográficas + anotaciones, está diseñado para mejorar la diversidad y la representación en las imágenes generadas por la IA en todo el mundo. Para crearlo, Meta realizó un estudio de más de 65.000 anotaciones y más de 20 respuestas a encuestas para cada ejemplo.
La publicación de los nuevos modelos y tecnología de acceso público se produce pocos meses después del lanzamiento del LLM de código abierto de Meta, Llama 3, en abril.
Podría decirse que es el mejor LLM de código abierto que existe y ahora está listo para competir con modelos propietarios como Gemini y GPT-4.