SeamlessM4T de Meta: Un avance hacia la traducción de idiomas

Fiabilidad
Resumen

SeamlessM4T de Meta redefine la interacción entre idiomas con IA avanzada. Este revolucionario modelo traduce sin esfuerzo voz y texto entre idiomas, transformando los negocios globales, la educación, los viajes, los medios de comunicación y mucho más.

En nuestro mundo interconectado, la traducción de idiomas está más solicitada que nunca.

Pero construir un traductor universal de idiomas, como el ficticio Pez Babel de La guía del autoestopista galáctico, es todo un reto, porque los sistemas existentes de voz a voz y de voz a texto sólo cubren una pequeña parte de las lenguas del mundo.

En este contexto, Meta ha introducido una solución innovadora: el modelo de traducción multimodal SeamlessM4T.

Este avance impulsado por la inteligencia artificial (IA) tiene el potencial de transformar la comunicación interlingüística al proporcionar servicios de traducción y transcripción sin esfuerzo tanto para contenidos hablados como escritos.

En este artículo, nos adentramos en los entresijos de este modelo e imaginamos varias aplicaciones potenciales.

Presentación de SeamlessM4T

SeamlessM4T es el modelo básico de IA para la Traducción Automática Multilingüe y Multimodal Masiva (M4T), diseñado para gestionar con eficacia diversas tareas de traducción, como la traducción de voz a voz, de voz a texto, de texto a voz y de texto a texto, junto con el reconocimiento automático del habla.

Con capacidad para casi 100 idiomas, ofrece una solución bastante completa para las tecnologías de traducción de voz.

SeemlessM4T ha demostrado un rendimiento excepcional en idiomas con recursos lingüísticos digitales limitados, especialmente en idiomas con recursos bajos y medios (por ejemplo, cuando hay pocos datos de entrenamiento disponibles), al tiempo que mantiene una sólida competencia en idiomas como el inglés, el español y el alemán, que poseen amplios recursos digitales.

Además, la capacidad inherente del modelo para identificar las lenguas de origen evita la necesidad de un modelo de identificación lingüística independiente.

Detrás del proceso de desarrollo de SeamlessM4T

En términos técnicos, SeamlessM4T funciona como un modelo codificador-decodificador. El codificador toma el texto de origen y las frases habladas y los convierte en vectores.

A la inversa, el descodificador genera el habla y el texto de destino basándose en las representaciones de las frases de origen. Los detalles de los procesos de codificación y descodificación son los siguientes:

– Proceso de codificación del habla

SeamlessM4T emplea el modelo de codificación del habla w2v-BERT 2.0, entrenado mediante preentrenamiento autosupervisado sobre datos de audio sin etiquetar.

Este método resuelve los problemas que plantea la obtención de datos etiquetados para tareas de voz, sobre todo en los idiomas menos comunes.

Combinando las técnicas wav2vec 2.0 y BERT, el modelo aprende simultáneamente las representaciones del habla y el relleno del habla enmascarada.

Adaptado al habla, identifica las distintas unidades del habla y se encarga de tareas duales.

Para SeamlessM4T se ha elegido w2v-BERT XL, con 24 capas y 600 millones de parámetros, entrenado en un amplio conjunto de datos de 1 millón de horas en 143 idiomas.

– Proceso de codificación de texto

Para la codificación de texto, SeamlessM4T se basa en el modelo NLLB. No Language Left Behind (NLLB) es un proyecto de código abierto de Meta diseñado para apoyar a las lenguas de bajos recursos.

Este modelo ha sido entrenado para comprender textos en casi 100 idiomas y crear representaciones adecuadas para la traducción.

– Proceso de generación de voz

El decodificador de generación de voz de SeamlessM4T consta de dos pasos para la traducción de voz a voz (S2ST).

El primer paso convierte el habla en unidades acústicas distintas utilizando UnitY. En el segundo paso, estas unidades se transforman de nuevo en habla coherente mediante un vocoder de unidades HiFi-GAN.

Este proceso se mejora con un modelo X2T previamente entrenado, que sustituye al modelo original de traducción de voz a texto dentro de UnitY.

Los investigadores recopilaron 470.000 horas de datos grabados alineados para entrenar este modelo.

– Proceso de generación de texto

SeamlessM4T se basa en un modelo de traducción texto-texto NLLB para generar texto a partir de representaciones codificadas de voz o texto.

Esto se mejora mediante la destilación de conocimientos a nivel de token, lo que permite al modelo NLLB abordar tareas de conversión de voz a texto. Tanto para la traducción de voz como de texto, se utiliza un enfoque de aprendizaje multitarea para entrenar el modelo X2T, un modelo NLLB refinado con capacidad añadida de descodificación de voz a texto.

Los datos de entrenamiento proceden de diversas fuentes, entre las que se incluyen datos etiquetados por humanos y pseudoetiquetados derivados de modelos multilingües de texto a texto.

– Recopilación de datos para el entrenamiento de SeemlessM4T

La creación de un sistema de traducción fiable como SeamlessM4T requiere importantes recursos para varios idiomas y métodos de comunicación.

Para hacer frente a este reto, los investigadores han puesto en marcha un procedimiento automatizado de recopilación de datos.

Para clasificar el contenido hablado por idiomas, diseñaron un sistema de identificación del lenguaje hablado para 100 lenguas de destino.

A la hora de obtener pares de frases para traducir, emplearon la minería de datos paralelos, un proceso que consiste en comparar frases para identificar traducciones similares.

Para ello, representaron cada frase como vectores de tamaño fijo mediante una técnica denominada Sonar.

El resultado de estos esfuerzos es SeamlessAlign, un conjunto de datos que comprende la impresionante cantidad de 470.000 horas de datos meticulosamente alineados que abarcan múltiples idiomas.

Acceso a SeemlessM4T

SeamlessM4T es ahora accesible al público a través de una licencia de investigación bajo CC BY-NC 4.0, lo que permite a investigadores y desarrolladores seguir desarrollando este proyecto. El modelo está disponible en HuggingFace.

Meta publica también los metadatos de SeamlessAlign, el mayor conjunto de datos de traducción multimodal abierto hasta la fecha, que abarca la notable cifra de 270.000 horas de habla y texto alineados obtenidos mediante minería.

Imaginando posibilidades: Casos de uso de la traducción multilingüe del habla

SeemlessM4T abre un abanico de aplicaciones apasionantes en diversos ámbitos, lo que hace que su potencial sea palpable. Imagine su impacto en varios escenarios:

– Comunicación empresarial global: Las empresas internacionales pueden aprovechar la traducción multilingüe de SeemlessM4T para comunicarse a la perfección en distintos idiomas, fomentando la cohesión en reuniones, presentaciones y negociaciones virtuales.

– Colaboración intercultural: Investigadores y expertos de todo el mundo pueden colaborar sin esfuerzo utilizando la traducción de voz para comprender y compartir conocimientos en sus lenguas maternas.

– Aprendizaje de idiomas y educación: Los estudiantes de idiomas reciben traducción y transcripción en tiempo real, lo que facilita su aprendizaje de nuevos idiomas y culturas.

– Viajes y turismo: Los viajeros interactúan eficazmente con los lugareños, navegan por entornos extranjeros y acceden a la información en su idioma preferido, lo que mejora sus experiencias de viaje.

– Medios de comunicación y creación de contenidos: Los creadores de contenidos conectan con una audiencia global, traduciendo vídeos, podcasts o contenidos escritos a varios idiomas para ampliar la accesibilidad y el compromiso.

– Atención al cliente en línea: Las plataformas de comercio electrónico ofrecen asistencia multilingüe, lo que aumenta la satisfacción y la experiencia del usuario.

– Entretenimiento y accesibilidad de los medios de comunicación: El subtitulado y el doblaje de películas, programas de televisión y retransmisiones en directo ganan en eficacia gracias a la traducción multilingüe de voz, lo que favorece una mayor accesibilidad.

– Participación de la comunidad: Los organismos públicos se dirigen a comunidades culturalmente diversas utilizando SeamlessM4T, ofreciendo servicios e información en sus idiomas preferidos.

Estos convincentes casos de uso ponen de relieve el potencial transformador de SeemlessM4T, mostrando cómo puede remodelar la dinámica de la comunicación en todo el mundo.

El resultado final

SeamlessM4T de Meta tiene el potencial de transformar la comunicación multilingüe integrando a la perfección la traducción de voz y texto.

A medida que aumentan la conectividad digital y el uso de dispositivos móviles, la demanda de traducción instantánea de voz a voz se ha vuelto crucial.

Este innovador modelo de IA trasciende las barreras lingüísticas y ofrece servicios de traducción y transcripción sin esfuerzo.

El potencial de SeamlessM4T es ilimitado, con diversas aplicaciones que van desde los negocios globales a la participación comunitaria.

No solo mejora la tecnología, sino que también conecta a las personas, fomenta el entendimiento y promueve la inclusión, imaginando un mundo más conectado.

Temas relacionados

Artículos relacionados

Dr. Tehseen Zia
Tenured Associate Professor
Dr. Tehseen Zia
Profesor titular asociado, Universidad COMSATS de Islamabad (CUI)

El Dr. Tehseen Zia tiene un doctorado y más de 10 años de experiencia investigadora postdoctoral en Inteligencia Artificial (IA). Es profesor titular asociado y dirige la investigación sobre IA en la Universidad Comsats de Islamabad, y coinvestigador principal en el Centro Nacional de Inteligencia Artificial de Pakistán. En el pasado, trabajó como consultor de investigación en el proyecto Dream4cars, financiado por la Unión Europea.