
Virtual Singer
Aspetti tecnici della
voce
Sintesi della voce
cantata
|
In materia di sintesi vocale, palata o
cantata, si incontrano tre metodi
principali:
- modellizzazione del canale vocale,
- collocazione pezzo per pezzo di elementi
registrati ,
- sintesi per formanti.
-
Simulazione del canale
vocale
|
|
Si tratta del metodo storicamente
più antico. Le prime sintesi
vocali sono state fatte per mezzo di automi
meccanici impiegando un insieme di tubi
e membrane che simulavano il canale
vocale.
La messa in opera informatica di questo
procedimento non ha dato finora risultati
probanti a causa della sua estrema
complessità.
Collocazione pezzo per pezzo
degli elementi della voce
|
|
È la registrazione di un
cantore o di un locutore per memorizzare i
fonemi o assemblare i fonemi
pronunciati per unirli pezzo a pezzo e
restituire la voce della persona. Algoritmi
complessi modificano i fonemi registrati
per portarli a seguire la prosodia della
voce parlata e dànno risultati
eccellenti. Tuttavia questi algoritmi si
adattano male ai grandi ambiti di
frequenza della voce cantata.
L'inconveniente di questo procedimento
è quello di generare documenti di
descrizione della voce molto
pesanti. Inoltre, per definire un'altra
voce, è necessario registrare un'altra
persona.
Altro difetto di questo sistema è che
deve essere pronunciata la
totalità dei fonemi di una
lingua. Per costruire un programma in
più lingue è dunque necessario
registrare una persona perfettamente
poliglotta al fine di campionare l'insieme
dei fonemi pronunciabili in ognuna delle
lingue.
La sintesi per formanti
|
|
Questa sintesi si fonda sull'analisi del
suono di cui la voce è
costituita. Gli acustici si sono accorti,
infatti, che le risonanze del canale vocale
esaltano certe zone di frequenza,
specifiche del fonema pronunciato. Essi
hanno chiamato queste zone di frequenza"
formanti".
Una formante è caratterizzata dalla
sua frequenza (altezza) e dalla sua
energia (forza).
 |
Nota :
In elettronica o in
informatica la formante
è riconducibile a un
filtro passa-banda con
risonanza. |
|
Negli anni '60, per produrre fonemi
riconoscibili i primi dispositivi
impiegavano filtri elettronici. Si è
poi capito che per ottenere un filtro di
buona qualità acustica erano
sufficienti da tre a sei
formanti
I vantaggi di questo sistema sono che, per
generare un fonema, bastano pochissimi dati
(essendo sufficiente, in teoria, la
descrizione delle formanti) e che è
molto facile apportare lievi modifiche ai
dati per ottenere voci diverse.
Tuttavia il risultato ottenuto è in
generale meno realistico che nel caso della
voce registrata.
Questo terzo metodo è quello che
è stato adottato in Virtual
Singer.
|