página anterior    Harmony Assistant    página siguiente 
 

Introducción
Productos
¿Algo nuevo?
Tutoriales
Notación
Escucha
Devices/scripting
Virtual Singer
Generalidades
Creación rápida
Cantar el FaSoLa
Gregoriano
Jazz Scat
Midi y ABC
Reglas de escritura
Aspectos técnicos
Parámetros
Paleta
Reglajes simples
Efectos
Timbre
Fonemas
SAMPA
Preguntas / Repuestas
Mandos
Real Singer
Gracias / Vínculos bibliográficos
Preguntas / Repuestas
Licencía de utilización
Asistencia técnica
Appendices
Manual imprimible


Nuevo capitulo: En inglés:

 

Virtual Singer


Edición de los fonemas


 
    ¡Muy importante! Este capítulo recurre a nociones avanzadas de tratamiento numérico de la señal. Entonces, es necesario tener algún conocimiento en acústica así como nociones de tratamiento de la señal para sacar partido de él.

Hemos visto que los fonemas están considerados como entidades acústicas elementarias que componen la voz hablada o cantada (ver capítulos "Aspecto técnico de la voz")
Virtual Singer utiliza algoritmos complejos para sintetizar fonemas reconocibles.
Esta síntesis, dicha por formante, utiliza cálculos internos originales, inspirados entre otros de lo que ha escrito de D. Klatt (ver bibliografía), así como en otras publicaciones.
El algoritmo fue puesto a punto y afinado gracias a los resultados de búsquedas propias en el campo de la restitución de la voz cantada.

En la edición del timbre de la voz, un botón “Avanzado" abre la caja de dialogo permitiéndole definir los fonemas de nuevo. Las modificaciones que puede aportar están limitadas al cantador en curso de edición: la manera de pronunciar los fonemas de los demás cantantes no será modificada.

Un poco de técnica

Pregunta: ¿Cómo Virtual Singer produce un fonema?
Una señal numérica de excitación (historicamente llamado fuente de la glotis) es generada, con arreglo al volumen y de la frecuencia fundamental del fonema. Esta señal está constituida de un medio período parabólico y de un medio período de silencio (parada de glotis). Entonces, los armónicos número 1 (frecuencia fundamental), 2 (doble de la frecuencia fundamental) y 3 (triple de la frecuencia fundamental) de esta señal son ampliadas para acercarse del dado sonoro de una fuente vocal cantada. Después, esta fuente es más o menos ampliada según el valor de volcalización.

Después, el tratamiento numérico de esta señal se divide en dos:

El tratamiento en cascada, en el que el ruido dicho de aspiración está añadido. Entonces, esta fuente está tratado por una red de filtros colocados en serie (cascada), correspondiendo cada filtro a un formante.

El tratamiento en parallelo, en que está añadido el ruido dicho fricativo. Entonces, la derivada de orden uno de esta fuente está tratada por una red de filtros colocados en paralelo, correspondiendo cada filtro a un formante. La amplitud de cada formante está tomada en cuenta para aumentar más o menos tal o tal formante.

Entonces, los resultados de estos dos tratamientos están adicionados y eventualmente modulados por una pulsación de baja frecuencia (20 Hz) para reproducir los efectos de "R" fuerte (sonido "R" español por ejemplo).

Después de ampliación y reglaje de los graves y de los agudos, la señal numérica está lista por fin.

Concretamente, este algoritmo tiene varias implicacines mayores sobre la restitución de un fonema:

  • La amplitud de cada formante sólo está tomada en cuenta en la parte paralela del tratamiento. Entonces, aunque la amplitud de un formante sea nula, este formante seguirá teniendo un efecto sobre la señal resultado por su acción sobre la parte cascada.
  • El ruido de aspiración pasa a través de la red de filtros en cascada. Entonces, está muy influenciado por los formantes del fonema y produce un ruido más filtrado (más sordo), que puede simular los ruidos de soplo producidos lejos por detrás en el conducto vocal.
  • La derivada de orden uno del ruido fricativo pasa a través de la red de filtros en paralela. Entonces, resulta un ruido más agudo, que simula los ruidos de silbido producidos por la parte delantera de la boca.

Los fragmentos

El elemento de base de la fonética es el fonema. Ahora bien, hemos podido ver que algunos fonemas complejos, tales como los diptongos, pueden estar constituidos de varios estados sucesivos.
Esto puede habernos llegado a definir la noción de fragmento, que representa un estado "fijo" dentro de un fonema.
De hecho, un fonema puede estar definido por !!A../pictures/clouds2.jpg uno o varios fragmentos.

En la lista de izquierda, va a encontrar la lista de todos los fragmentos que pueden estar pronunciados, sea la que sea la lenguas utilizada.
Los fragmentos aparecen en negrita son los utilizados en la lengua corriente.

Nota importante: En esta ventana, es posible modificar la manera de pronunciar uno o varios fragmentos.
Esta modificación es específica a la voz del cantante en curso de edición.
La modificación de un fragmento en esta ventana sólo va a alterar la pronunciación de este cantante y no la de los demás

Cuando un fragmento fue modificado, aparece de color en la lista. Cuando Usted se coloca sobre un fragmento modificado, es posible encontrar los valores predefinidos haciendo clic sobre el botón Original por abajo de la lista.

En la parte derecha de la caja, varios objetos gráficos le permiten modificar los datos del fragmento.

Por arriba de esta ventana, una ficha da el tipo del fragmento. El tipo !!6../pictures/clouds2.jpg vocal significa que este fragmento puede ser alargado en el tiempo.
Si no hay vocal en la sílaba, Virtual Singer intentará después alargar los fragmentos de tipo vocal de transición.
Si no, intentará alargar las consonantes vocalizadas, luego las consonantes no vocalizadas.

La duración del fragmento puede ser editado por un cursor.
Esta duración es la duración natural del fragmento. Si el fragmento está alargado, su duración estaró aumentada.

Nota : Cuando un parámetro está editado de manera gráfica, su valor numérico aparece en un cuadrado en un cuadrado por abajo en la derecha de la ventana.

La parte estática del fragmento

Se trata del conjunto de los parámetros que definen el fragmento en su parte estática, es decir independiente de las transiciones con los fragmentos adyacentes.
Estos parámetros están editados en la grande área gráfica en la parte derecha de la ventana.

Los formantes están representados por triángulos. Para cada formante, la frecuencia mediana (en Hertz), la amplitud (en dB) y la banda pasante (base du triángulo, en Hz) pueden estar editados.
Una serie de pequeños botones debajo este gráfico permiten activar o desactivar cada uno de los formantes en la parte paralela del generator de voz.

Nota: Como le hemos visto más arriba, aunque un formante esté desactivado y no aparezca en el programa, su frecuencia y su banda pasante están utilizadas en la parte cascada del generator de voz.
En la derecha, una serie de cursores verticales permiten arreglar los niveles de vocalización (!!av), de R fuerte (!!Rl), de aspiración (!!asp) y de fricación (!!af).
 
Astucia:
Durante la edición gráfica de la frecuencia mediana o de la banda pasante de un formante, dos barras verticales aparecen, mostran el límite bajo y el límite alto encontrados para este parámetro en la totalidad de los fragmentos.
Esto le permite controlar que no da a este parámetro un valor demasiado "exótico"

Los grafos de evolución del fragmento

Durante una secuencia hablada o cantada, el paso de un fragmento a otro no es instantáneo. En efecto, la articulación del fragmento siguiente antes de que la del fragmento anterior sea totalmente acabada. Esta transición ligera entre los fragmentos se llama la coarticulación.

El grafo de evolución permite, para cada uno de los parámetros que definen un fragmento (frecuencia de los formantes, amplitud, banda pasante y los diferentes niveles) de definir su curva de evolución en el tiempo. El parámetro cuya curva es en curso de edición aparece rodeado de rojo en el gráfico superior.

Para cada parámetro, puede entonces definir una curva de evolución que le está propio, utilizando el área gráfica por abajo de la ventana.
En este gráfico, por convención, el valor precedente del parámetro está representado por la ordonada más baja.
El valor estático del fragmento en curso de edición (definida en el gráfico superior) está representado por la ordonada más alta.
 

Nota: Esto es un presentación simbólica que no tiene relación con el tamaño efectivo del parámetro.

La evolución del parámetro desde el valor precedente hasta el valor estático del fragmento está definido por dos segmentos:

Un primer segmento, en la izquierda, cuya duración está "tomada" al fragmento anterior.
Va a hacer evolucionar el parámetro desde el valor estático del fragmento anterior hasta un valor intermediario definido por los dos cursores verticales en la izquierda del gráfico.
El cursor Ratio (Ra) permite definir la importancia que da al valor precedente del parámetro con relación al valor que alcanzar en el cálculo del valor intermediario.

Ejemplo : un ratio del 0 % fija el valor intermediario directamente al valor que alcanzar.
Un ratio del 100 % fija el valor intermediario al valor precedente del parámetro.
Un ratio del 50 % fija el valor intermediario a la media del valor anterior y del valor que alcanzar.

El desfase de principio (Od) permite añadir un valor fijo al valor intermediario.

Ejemplo : para un ratio (Ra) del 50 % y desfase (Od) de 100, el valor intermediario será igual a 100 + la media del valor anterior y del valor que alcanzar.

En el esquema, el segundo segmento da la duración de transición entre el valor intermediario y el valor estático que alcanzar (mesa). Esta duración está tomada al fragmento corriente.
Simétricamente, dos segmentos en la derecha, así como cursores, permiten definir la transición del parámetro desde su valor estático corriente hasta el valor estático siguiente.

Acabamos de ver que para cada parámetro de un fragmento, podemos definir su curva de evolución desde el valor del fragmento precedente y hacia el valor del fragmento siguiente.

Cada una de estas dos curvas de evolución sólo será utilizada si el fragmento corriente tiene una prioridad superior al fragmento que linda con él. La prioridad está dada por la posición del fragmento en la lista de los fragmentos. Cuanto más el fragmento está alto en la lista, más la lista es grande.

Ejemplo:
Así, si tenemos una lista que contiene tres fragmentos:  "a, b, c" clasificados en esta orden, y si la sílaba que pronunciar es "bacb", vamos a obtener, para cada parámetro de los fragmentos, la evolución siguiente:

  • valor estático del fragmento "b"
  • evolución hacia el valor del fragmento "a" dado por los primeros segmentos de la curva de evolución de "a" (siendo prioritario "a" con relación a "b"),
  • valor estático del fragmento "a"
  • evolución hacia el valor del fragmento "c" dado por los primeros segmentos de la curva de evolución de "a" (siendo prioritario "a" con relación a "c"),
  • valor estático du fragmento "c"
  • evolución hacia el valor del fragmento "b" dado por los primeros segmentos de la curva de evolución de "b" (siendo prioritario "b" con relación a "c"),
  • valor estático del fragmento "b".

 Los botones de acción

Estos botones, colocados por abajo en la derecha de la ventana, le permiten efectuar un cierto número de acciones:

Botón Ensayar

Permite ensayar sus fragmentos gracias a una fase de ensayos simple como ya encontrado precedentemente.
En cambio, cuando hace clic sobre el botón Ensayar, la lista de los fragmentos utilizados para pronunciar el texto aparece.
Los símbolos > y < que separan los fragmentos indican la prioridad respectiva de los fragmentos unos con relación a otros.
Mencionemos que cuando cambia de fragmento en la lista, una palabra de ejemplo que utiliza este fragmento está insertado en seguida en el área de texto.
Ficha de cambio de lengua
Cuando elige otra lengua, los fragmentos utilizados en esta lengua aparecen de negrita en la lista de los fragmentos.
Botones "copiar/pegar"
Permiten copiar el conjunto de los parámetros de un fragmento y su evolución, luego pegarlos sobre otro fragmento.


(c) Myriad 2013 - Todos los derechos reservados