Virtual Singer
Aspectos técnicos
de la voz
Síntesis de la voz cantada
|
En síntesis vocal, hablada o cantada, se
encuentran tres métodos principales:
-
la modelización del conducto vocal,
-
la puesta uno detrás de otro de elemento grabados,
-
la síntesis por formantes.
La modelización del conducto vocal |  |
Es el método historicamente más
antiguo. Las primeras síntesis vocales fueron hechas para autómatas
utilizando un conjunto de tubos y de membranas que simulan el conducto
vocal.
Por el momento, la puesta en obra informática de este proceso
no dio resultado convincente por culpa de su extrema complejidad.
La puesta uno detrás de otro de los elementos
de la voz |  |
Es la grabación de un cantante o de un locutor para memorizar
los fonemas o las reuniones de fonemas para ponerlos uno detrás
de otro para restituir la voz de la persona. Algoritmos complejos
que deforman los fonemas grabados para que sigan la prosodía de
la voz cantada, y dan excelentes resultados. Sin embargo, estos algoritmos
son mal adaptados a las largas zonas de frecuencias utilizadas en
la voz cantada.
El inconveniente de este proceso es llegar a archivos de descripción
de voz muy largos. Además, para definir otra voz, es necesario
grabar otra persona.
El otro defecto de este sistema es que la
totalidad
de los fonemas de una lengua deben ser pronunciados. Entonces, para fabricar
un programa multilingüe, es necesario grabar una persona perfectamente
polígloto para sacar muestras del conjunto de los fonemas pronunciables
en cada lengua.
La síntesis por formantes |  |
Esta síntesis se apoya sobre el análisis del sonido
que constituye la voz. En efecto, los especialistas en acústica
se dieron cuenta de que las resonancias del conducto vocal favorecían
algunas zonas de frecuencia específicas al fonema pronunciado. Los
especialistas en acústica llamaron estas zonas de frecuencia "formantes".
Un formante está caracterizado por su frecuencia (altura)
y su energía (fuerza).
 |
Nota:
En electrónica o en informática,
el formante se acerca de un filtro pasa zona de frecuencia con resonancia. |
|
En los años 1960, los primeros dispositivos utilizaban filtros
electrónicos para producir fonemas reconocibles. Se dieron cuenta
de que tres e seis formantes eran suficientes para obtener un fonema
de buena calidad acústica.
Las ventajas de este sistema son que muy pocos datos son necesarios
para generar un fonema (estando suficiente, en teoría, la descripción
de los formantes) y que es mucho más fácil hacer pequeñas
modificaciones para obtener voz diferentes.
Sin embargo, el resultado obtenido es en general menos realista que
en el caso de una voz grabada.
Este tercero método es el que fue tomado para Virtual Singer. |