Virtual Singer
Edición de los fonemas
|
 |
¡Muy importante! Este capítulo recurre a nociones
avanzadas de tratamiento numérico de la señal. Entonces,
es necesario tener algún conocimiento en acústica así
como nociones de tratamiento de la señal para sacar partido de él.
|
|
Hemos visto que los fonemas están considerados
como entidades acústicas elementarias que componen la voz hablada
o cantada (ver capítulos "Aspecto técnico
de la voz")
Virtual Singer utiliza algoritmos complejos para sintetizar
fonemas reconocibles.
Esta síntesis, dicha por formante, utiliza cálculos
internos originales, inspirados entre otros de lo que ha escrito de D.
Klatt (ver bibliografía), así
como en otras publicaciones.
El algoritmo fue puesto a punto y afinado
gracias a los resultados de búsquedas propias en el campo de la
restitución de la voz cantada.
En la edición del timbre de la voz, un botón “Avanzado"
abre la caja de dialogo permitiéndole definir los fonemas de nuevo.
Las modificaciones que puede aportar están limitadas al cantador
en curso de edición: la manera de pronunciar los fonemas de los
demás cantantes no será modificada.
Un poco de técnica |  |
 |
Pregunta: ¿Cómo
Virtual Singer produce un fonema? |
|
Una señal numérica de excitación (historicamente
llamado fuente de la glotis) es generada, con arreglo al volumen y de la
frecuencia fundamental del fonema. Esta señal está constituida
de un medio período parabólico y de un medio período
de silencio (parada de glotis). Entonces, los armónicos número
1 (frecuencia fundamental), 2 (doble de la frecuencia fundamental) y 3
(triple de la frecuencia fundamental) de esta señal son ampliadas
para acercarse del dado sonoro de una fuente vocal cantada. Después,
esta fuente es más o menos ampliada según el valor de volcalización.
Después, el tratamiento numérico de esta señal
se divide en dos:
El tratamiento en cascada, en el que el ruido dicho de aspiración
está añadido. Entonces, esta fuente está tratado por
una red de filtros colocados en serie (cascada), correspondiendo
cada filtro a un formante.
El tratamiento en parallelo, en que está añadido
el ruido dicho fricativo. Entonces, la derivada de orden uno de
esta fuente está tratada por una red de filtros colocados
en paralelo, correspondiendo cada filtro a un
formante. La amplitud
de cada formante está tomada en cuenta para aumentar más
o menos tal o tal formante.
Entonces, los resultados de estos dos tratamientos están adicionados
y eventualmente modulados por una pulsación de baja frecuencia (20
Hz) para reproducir los efectos de "R" fuerte (sonido "R"
español por ejemplo).
Después de ampliación y reglaje
de los graves y de los agudos, la señal numérica está
lista por fin.
Concretamente, este algoritmo tiene varias implicacines mayores sobre
la restitución de un fonema:
-
La amplitud de cada formante sólo está tomada en cuenta
en la parte paralela del tratamiento. Entonces, aunque la amplitud
de un formante sea nula, este formante seguirá teniendo un efecto
sobre la señal resultado por su acción sobre la parte cascada.
-
El ruido de aspiración pasa a través de la red de
filtros en cascada. Entonces, está muy influenciado por los
formantes del fonema y produce un ruido más filtrado (más
sordo), que puede simular los ruidos de soplo producidos lejos por
detrás en el conducto vocal.
-
La derivada de orden uno del ruido fricativo pasa a través
de la red de filtros en paralela. Entonces, resulta un ruido más
agudo, que simula los ruidos de silbido producidos por la parte
delantera de la boca.
Los fragmentos |  |
El elemento de base de la fonética es el fonema. Ahora
bien, hemos podido ver que algunos fonemas complejos, tales como los diptongos,
pueden estar constituidos de varios estados sucesivos.
Esto puede habernos llegado a definir la noción
de fragmento, que representa un estado "fijo" dentro de un fonema.
De hecho, un fonema puede estar definido por !!A../pictures/clouds2.jpg
uno
o varios fragmentos.
En la lista de izquierda, va a encontrar la lista de todos los fragmentos
que pueden estar pronunciados, sea la que sea la lenguas utilizada.
Los fragmentos aparecen en negrita son los utilizados en la
lengua corriente.
 |
Nota importante:
En esta ventana, es posible modificar la manera
de pronunciar uno o varios fragmentos.
Esta modificación es específica
a la voz del cantante en curso de edición.
La modificación de un fragmento en
esta ventana sólo va a alterar la pronunciación
de este cantante y no la de los demás |
|
Cuando un fragmento fue modificado, aparece de color en la lista. Cuando
Usted se coloca sobre un fragmento modificado, es posible encontrar los
valores predefinidos haciendo clic sobre el botón Original
por abajo de la lista.
En la parte derecha de la caja, varios objetos gráficos le permiten
modificar los datos del fragmento.
Por arriba de esta ventana, una ficha da el tipo del fragmento.
El tipo !!6../pictures/clouds2.jpg vocal significa que este fragmento
puede ser alargado en el tiempo.
Si no hay vocal en la sílaba, Virtual Singer intentará
después alargar los fragmentos de tipo vocal de transición.
Si no, intentará alargar las consonantes vocalizadas,
luego las consonantes no vocalizadas.
La duración del fragmento puede ser editado por un cursor.
Esta duración es la duración
natural
del fragmento. Si el fragmento está alargado, su duración
estaró aumentada.
 |
Nota :
Cuando un parámetro está editado
de manera gráfica, su valor numérico aparece en un cuadrado
en un cuadrado por abajo en la derecha de la ventana. |
|
La parte estática del fragmento |  |
Se trata del conjunto de los parámetros que definen
el fragmento en su parte estática, es decir independiente
de las transiciones con los fragmentos adyacentes.
Estos parámetros están editados en la grande área
gráfica en la parte derecha de la ventana.
Los formantes están representados por triángulos.
Para cada formante, la frecuencia mediana (en Hertz), la amplitud
(en dB) y la banda pasante (base du triángulo, en Hz) pueden
estar editados.
Una serie de pequeños botones debajo
este gráfico permiten activar o desactivar cada uno de los formantes
en la parte paralela del generator de voz.
 |
Nota:
Como le hemos visto más arriba, aunque
un formante esté desactivado y no aparezca en el programa, su frecuencia
y su banda pasante están utilizadas en la parte cascada del
generator de voz. |
|
En la derecha, una serie de cursores verticales permiten arreglar los niveles
de vocalización (!!av), de R fuerte (!!Rl), de aspiración
(!!asp) y de fricación (!!af).
 |
Astucia:
Durante la edición gráfica
de la frecuencia mediana o de la banda pasante de un formante,
dos barras verticales aparecen, mostran el límite bajo y
el límite alto encontrados para este parámetro en
la totalidad de los fragmentos.
Esto le permite controlar
que no da a este parámetro un valor demasiado "exótico" |
|
Los grafos de evolución del fragmento |  |
Durante una secuencia hablada o cantada, el paso de un fragmento a otro
no es instantáneo. En efecto, la articulación del fragmento
siguiente antes de que la del fragmento anterior sea totalmente acabada.
Esta transición ligera entre los fragmentos se llama la coarticulación.
El grafo de evolución permite, para
cada uno de los parámetros
que definen un fragmento (frecuencia de los formantes, amplitud, banda
pasante y los diferentes niveles) de definir su curva de evolución
en el tiempo. El parámetro cuya curva es en curso de edición
aparece rodeado de rojo en el gráfico superior.
Para cada parámetro, puede entonces definir una curva de evolución
que le está propio, utilizando el área gráfica por
abajo de la ventana.
En este gráfico, por convención,
el valor precedente del parámetro está representado
por la ordonada más baja.
El valor estático del fragmento en curso de edición (definida
en el gráfico superior) está representado por la ordonada
más alta.
 |
Nota: Esto es
un presentación simbólica que no tiene relación con
el tamaño efectivo del parámetro. |
|
La evolución del parámetro desde el valor precedente
hasta el valor estático del fragmento está definido por dos
segmentos:
Un primer segmento, en la izquierda, cuya duración
está "tomada" al fragmento anterior.
Va a hacer evolucionar el parámetro desde el valor estático
del fragmento anterior hasta un valor intermediario definido por los dos
cursores verticales en la izquierda del gráfico.
El cursor Ratio (Ra) permite definir la importancia
que da al valor precedente del parámetro con relación al
valor que alcanzar en el cálculo del valor intermediario.
Ejemplo : un ratio del 0 % fija el valor intermediario
directamente al valor que alcanzar.
Un ratio del 100 % fija el valor intermediario al valor precedente
del parámetro.
Un ratio del 50 % fija el valor intermediario a la media del valor
anterior y del valor que alcanzar.
El desfase de principio (Od) permite añadir un valor fijo
al valor intermediario.
Ejemplo : para un ratio (Ra) del 50 % y desfase (Od) de 100, el valor
intermediario será igual a 100 + la media del valor anterior y del
valor que alcanzar.
En el esquema, el segundo segmento da la duración de transición
entre el valor intermediario y el valor estático que alcanzar (mesa).
Esta duración está tomada al fragmento corriente.
Simétricamente, dos segmentos en la derecha, así como
cursores, permiten definir la transición del parámetro desde
su valor estático corriente hasta el valor estático siguiente.
Acabamos de ver que para cada parámetro de un fragmento, podemos
definir su curva de evolución desde el valor del fragmento
precedente
y hacia el valor del fragmento
siguiente.
Cada una de estas dos curvas de evolución
sólo será utilizada si el fragmento corriente tiene una prioridad
superior al fragmento que linda con él. La prioridad está
dada por la
posición del fragmento en la lista de los fragmentos.
Cuanto más el fragmento está alto en la lista, más
la lista es grande.
Ejemplo:
Así, si tenemos una lista que contiene tres fragmentos:
"a, b, c" clasificados en esta orden, y si la sílaba que pronunciar
es "bacb", vamos a obtener, para cada parámetro de los fragmentos,
la evolución siguiente:
-
valor estático del fragmento "b"
-
evolución hacia el valor del fragmento "a" dado por los primeros
segmentos de la curva de evolución de "a" (siendo prioritario "a"
con relación a "b"),
-
valor estático del fragmento "a"
-
evolución hacia el valor del fragmento "c" dado por los primeros
segmentos de la curva de evolución de "a" (siendo prioritario "a"
con relación a "c"),
-
valor estático du fragmento "c"
-
evolución hacia el valor del fragmento "b" dado por los primeros
segmentos de la curva de evolución de "b" (siendo prioritario "b"
con relación a "c"),
-
valor estático del fragmento "b".
Los botones de acción |  |
Estos botones, colocados por abajo en la derecha
de la ventana, le permiten efectuar un cierto número de acciones:
Botón Ensayar
Permite ensayar sus fragmentos gracias a una fase de ensayos
simple como ya encontrado precedentemente.
En cambio, cuando hace clic sobre el botón Ensayar, la
lista
de los fragmentos utilizados para pronunciar el texto aparece.
Los símbolos > y < que separan los fragmentos
indican la prioridad respectiva de los fragmentos unos con relación
a otros.
Mencionemos que cuando cambia de fragmento en la lista, una palabra
de ejemplo que utiliza este fragmento está insertado en seguida
en el área de texto.
Ficha de cambio de lengua
Cuando elige otra lengua, los fragmentos utilizados en esta
lengua aparecen de negrita en la lista de los fragmentos.
Botones "copiar/pegar"
Permiten copiar el conjunto de los parámetros de un
fragmento y su evolución, luego pegarlos sobre otro fragmento. |