Virtual Singer
Stimme technischer Hintergrund
Stimmen-Synthese
|
Bei der Synthese von Stimmen, sowohl bei Sprache, als auch bei Gesang,
können drei Hauptmethoden Verwendung finden:
-
Simulation des Vokal-Traktes (Stimmerzeugungsbereich),
-
Verbindung aufgenommener Elemente,
-
Formant Synthese.
Simulation des Vokal-Traktes
|
 |
Historisch gesehen ist dies die älteste Methode. Die
allererste Sprach-Synthese wurde für mechanische Automaten
hergestellt, indem durch eine Ansammlung von Röhren und Ventilen
ein Vokal-Trakt simuliert wurde.
Aufgrund der extremen Komplexität erbrachten Computermodelle
dieses Prozesses bis heute keine zufriedenstellende Ergebnisse.
Verbindung aufgenommener Elemente
|
 |
Ein Sänger oder Sprecher wird digital aufgenommen,
um den ganzen Satz von Phonemen (oder Gruppen von Phonemen) zu
speichern.
Dann werden diese Samples aneinander gesetzt, um die Stimme
nachzubilden. Komplexe
Algorythmen werden genutzt, um die aufgenommenen Phoneme so zu
verändern, daß sie der Stimmführung folgen. Hiermit
erreicht man exzellente Resultate für gesprochene Sprache.
Wie dem auch sei, diese Algorythmen sind nicht so erfolgreich bei
Gesang, da hier die Frequenzbereiche viel weiter sind.
Ein weiterer Rückschlag für diese Methode ist die
Tatsache, daß man sehr große
Stimm-Beschreibungs-Dateien benötigt.
Um eine andere Stimme zu deffinieren, muß man einen anderen
Sänger/Sprecher aufnehmen.
Darüber hinaus muß der ganze Phonem-Satz für jede
Sprache aufgenommen werden.
Um eine mehrsprachige Software herzustellen ist es also nötig
verschiedene mehrsprachige Sänger/Sprecher aufzunehmen und diese
Samples müssen dann in riesigen Datein von mehreren Megabyte
Größe gespeichert werden.
Formant Synthese
|
 |
Diese Synthese basiert auf der Analyse des Stimm-Klanges. Akkustiker
fanden heraus, daß Vokal-Trakt-Resonanzen eine kleine Zahl von
Frequenz-Bereichen verstärken, in Abhängigkeit vom
gesprochenen Phonem. Ein solcher Frequenz Bereich wurde "Formant"
genannt.
Ein Formant ist charakterisiert durch seine Frequenz
(Tonhöhe), seine Bandbreite
(Breite des Frequenz Bereichs) und seine Energie (Stärke).
 |
Hinweis:
In der Elektronik oder am Computer kann ein Formant durch einen
Resonanz Bandpass Filter simuliert werden. |
|
In den früher 60ern benutzten die ersten Apparate elektronische
Filter um erkennbare Phoneme zu erzeugen. Die Akkustiker fanden dann
heraus daß nur drei bis sechs Formante nötig sind um
Phoneme mit akzeptabler Qualität zu erzeugen.
Der Vorteil dieser Methode ist, daß man nur eine kleine Menge an
Daten benötigt, um ein Phonem zu erzeugen. Darüber hinaus ist
es viel einfacher, durch leichte Veränderung dieser Daten ein neues
Stimm-Timbre zu erzeugen.
Wie auch immer, das Ergebnis ist generell weniger realistisch als mit
aufgenommenen Sprachstücken.
Diese dritte Methode wird von Virtual Singer
verwendet.
|