Virtual Singer
Aspectos técnicos
da Voz
Síntese da Voz
|
Na síntese da voz, tanto a falada como a cantada,
três métodos principais podem ser usados :
- a simulação do canal vocal,
- a conexão de elementos gravados,
- síntese formante.
Simulação do canal vocal |  |
Históricamente, é o método mais antigo. A
primeira síntese vocal foi criada para um autómato mecânico,
reunindo um grupo de tubos e válvulas para simular o canal vocal.
Os modelos de computador usando este processo não deram resultados
convincentes até à data, por causa da sua extrema complexidade.
Conexão de elementos gravados |  |
Um cantor ou orador é gravado digitalmente, de forma a
armazenar o conjunto total de fonemas (ou grupo de fonemas).
Então estas amostras são processadas em frações
afim de reconstruir a voz humana. São usados algorítmos complexos
para alterar os fonemas gravados e torná-los em prósodia vocal.
Eles dão excelentes resultados.
No entanto, estes algorítmos são
menos adequados à geração da voz cantada, porque aí
é necessário uma variação de frequências
mais alargada.
Um outro problema deste método é a necessidade de ficheiros
de descrição da voz bastante grandes.
Para definir outra voz, é necessário gravar outro orador/cantor.
Além disso, o conjunto total de fonemas para cada linguagem
deverá ser gravado.
Para criar um programa multilingue, é então necessário
gravar vários oradores/cantores poliglotas, e gravar estas amostras
num ficheiros com vários megabytes.
Síntese formante |  |
Esta síntese é baseada na análise do som
de uma voz. Os técnicos de acústica aperceberam-se que
a ressonância do canal vocal aumenta um pequeno número de intervalos
de frequência, relacionados com o fonema falado. Estes intervalos de
frequência chamados de "formantes".
Uma estrutra é caracterizada pela sua frequência
(altura), a largura de banda (largura do intervalo de frequências)
e a energia (força).
|
Nota :
Na computação electrónica,
uma formante pode ser simulada por um filtro passa-banda ressonante. |
|
No início dos anos 60, os primeiros aparelhos usavam filtros electrónicos
para gerar fonemas reconhecíveis. Os técnicos de acústica
aperceberam-se então que só entre três a seis formantes
eram necessárias para gerar um fonema com qualidade aceitável.
A vantangem deste método é o facto de necessitar de uma quantidade
pequena de dados para gerar o fonema, e é muito mais fácil
modificar ligeiramente estes dados para obter timbres diferentes para a voz.
No entanto, o resultado é geralmente menos
realístico do que quando se usa partes gravadas da voz.
Este terceiro método é o que é usado no Virtual
Singer.
|