¿Qué significa síntesis del habla?
La síntesis de voz es la simulación artificial del habla humana mediante un ordenador u otro dispositivo.
La síntesis del habla, homóloga del reconocimiento de voz, se utiliza sobre todo para traducir información de texto en información de audio y en aplicaciones como los servicios de voz y las aplicaciones móviles.
Además, también se utiliza en la tecnología de asistencia para ayudar a las personas con problemas de visión a leer contenidos de texto.
Definición de síntesis de Voz
El VODER de Homer Dudley, que se basaba en el vocoder de los Laboratorios Bell, se considera el primer sintetizador de voz totalmente funcional.
El ordenador utilizado en la síntesis del habla se conoce como sintetizador del habla u ordenador del habla. La calidad del ordenador del habla suele juzgarse por su similitud con la voz humana.
La mayoría de los sistemas operativos informáticos incorporan sintetizadores de voz desde principios de los años 90. El habla sintetizada suele generarse con la ayuda de la concatenación de trozos de habla grabada, que está contenida en una base de datos.
La etapa inicial de la síntesis del habla es el preprocesamiento, que elimina la ambigüedad en torno a la forma en que debe leerse la palabra concreta, y que también incluye el tratamiento de los homógrafos.
En la siguiente etapa de la síntesis del habla, el ordenador se ayuda de los fonemas para convertir el texto en una secuencia de sonidos. La última etapa implica el uso de grabaciones humanas o técnicas básicas de generación de sonidos para imitar el mecanismo de la voz humana y leer en voz alta todo el texto.
Una de las ramas populares de la síntesis del habla es la síntesis del habla audiovisual o síntesis del habla multimodal, que utiliza una cara animada estrechamente sincronizada para complementar el habla sintetizada.
La síntesis del habla multimodal también incorpora funciones adicionales, como señales no verbales al habla, para ayudar a comunicar las palabras del usuario con mayor precisión. Muchos sistemas de síntesis de voz permiten a los usuarios elegir el tipo de voz, como voz masculina o femenina.
La mayoría de los sistemas de síntesis de voz son capaces de leer textos y emitirlos de forma muy inteligente, aunque a veces la voz puede resultar aburrida. Sin embargo, la síntesis de voz aún no ha desarrollado la capacidad de imitar completamente el amplio espectro de entonaciones y cadencias humanas.