Vorige pagina    Harmony Assistant    Volgende pagina 
 

Inleiding
Producten
Wat is er nieuw ?
Handleiding
Notatie
Geluidsweergave
Apparaten/scripting
Virtual Singer
Algemene punten
Snelle werkwijze
Nootvormen
Gregoriaans
Jazz Scat
MIDI & ABC
Regels voor het schrijven
Technische achtergrond
Algemene punten
Zangstem synthese
Instellingen
SAMPA notatie
FAQ
Overzicht van de commando's
Real Singer
Bibliografie en dankwoord
FAQ
Software licentie
Technische ondersteuning
Appendices
Afdrukbare handleiding


Gewijzigde hoofdstukken:
In het Engels:

 
 
 

Virtual Singer

Technische achtergrond voor stemgeluid

Zangstem synthese


In de stemsynthese, zowel bij spraak als bij zang, kunnen drie methoden worden gebruikt:
  • spraakkanaal simulatie;
  • verbinden van opgenomen elementen;
  • synthese van de geluidsfrequentie.
  •  

    Spraakkanaal simulatie


    Vanuit historisch perspectief is dit de oudste methode. De allereerste spraaksynthese was ontworpen voor een mechanische automaat. Hij gebruikte een verzameling buizen en kleppen om het spraakkanaal te simuleren. Tot op dit moment hebben computermodellen hiervan nog geen overtuigend resultaat gegeven. Dit komt door de enorme complexiteit.

    Verbinden van opgenomen elementen

    Een zanger of een spreker wordt digitaal opgenomen. De hele set van fonemen (of groepen daarvan) kan nu worden opgeslagen. Vervolgens worden deze samples onderling verbonden om opnieuw een stem op te bouwen. Er worden complexe algoritmen gebruikt om de opgenomen fonemen aan te passen en om hen een bepaalde vocale intonatie (prosodie) te laten volgen.

    Voor de standaard spraak levert deze methode uitstekende resultaten. Maar om een zingende stem te genereren, zijn deze algoritmen zeer slecht aangepast. Dit komt door het grotere frequentiebereik. Een ander nadeel van deze methode is dat er erg grote bestanden met stembeschrijvingen nodig zijn.

    Om een andere stem te kunnen definiŽren, is het nodig om een andere spreker of zanger op te nemen. Daarbij geldt dat de hele groep van fonemen voor iedere taal afzonderlijk moet zijn opgenomen. Om meertalige programma's te maken is het dus nodig om meerdere verschillende sprekers en zangers op te nemen. Deze samples moeten in een zeer groot bestand van meerdere megabytes worden opgeslagen.

    Synthese van de geluidsfrequentie

    Deze synthese is gebaseerd op de analyse van vocaal geluid. Akoestici hebben vastgesteld dat resonanties in het spraakkanaal een klein aantal bereiken van frequenties kunnen versterken. Zij zijn gerelateerd aan het gesproken foneem. Deze bereiken van frequenties worden in het Engels "formants" genoemd. Een formant wordt gekarakteriseerd door zijn frequentie (hoogte), zijn bandbreedte (breedte van het frequentiebereik) en zijn energie (sterkte).

    Opmerking: In de elektronica en bij computers wordt een geluidsfrequentie door een resonante bandfilterbreedte gesimuleerd.

    Aan het begin van 1960 werden de eerste elektronische filters gebruikt om herkenbare fonemen te genereren. Akoestici realiseerden zich toen dat er maar drie tot zes formants nodig zijn om een foneem van redelijke kwaliteit te genereren. Het voordeel van deze methode is dat er maar een kleine hoeveelheid data nodig is om dat te doen. Daarnaast is het veel makkelijker om deze data licht aan te passen om een andere klankkleur voort te kunnen brengen.
    Deze derde methode wordt in Virtual Singer gebruikt.


(c) Myriad - Alle rechten voorbehouden