¿Qué significa la conversión de texto a voz?
La conversión de texto a voz (TTS) es un proceso de modelado del lenguaje natural que requiere cambiar unidades de texto en unidades de voz para su presentación en audio. Es lo contrario de la conversión de texto a voz, en la que una tecnología toma palabras habladas e intenta grabarlas con precisión como texto. En la actualidad, la conversión de texto a voz es habitual en las tecnologías que intentan generar una salida de audio a partir de un texto digital para ayudar a quienes no saben leer, o para otro tipo de usos.
Definición de conversión de texto a voz
Desarrollar la capacidad de conversión de texto a voz incluye algunos retos únicos. Especialmente en la lengua inglesa, donde un gran número de homónimos tienen pronunciaciones variadas, los programas informáticos se basan en modelos de probabilidad para adivinar la pronunciación deseada de una palabra en el texto digital. El programa también tiene que convertir unidades de texto en fonemas, las unidades más pequeñas de pronunciación del habla. El resultado es que muchas tecnologías de texto a voz son menos que infalibles, aunque los desarrolladores han hecho grandes progresos en estas tecnologías a lo largo de varios años.
Con el tiempo, los expertos han observado algunas prácticas recomendadas para el desarrollo de TTS. Entre ellas están las bases de fonemas y los enfoques concatenados con análisis predictivos. Los mejores programas también son capaces de trabajar con requisitos mínimos de memoria y son fáciles de configurar. Los desarrolladores siguen trabajando en recursos TTS para cualquier lengua, superando los grandes retos de la ambigüedad y otros obstáculos para una representación más precisa.