Page précédente    Harmony Assistant    Page suivante 
 

Introduction
Produits
Quoi de neuf ?
Prise en main
Notation
Interprétation
Périphériques/Pilotage
Virtual Singer
Introduction
Création rapide
FaSoLa
Grégorien
Scat Jazz
Midi & ABC
Règles d'écriture
Aspects techniques
Généralités
Synthèse vocale
Paramétrage
Le SAMPA
Foire aux questions
Résumé des commandes
Real Singer
Remerciements/Liens
Questions/réponses
Licence d'utilisation
Assistance
Annexes
Imprimer le manuel


Le symbole désigne les nouveaux chapitres.

 


Virtual Singer

Aspects techniques de la voix

Synthèse de la voix chantée


En matière de synthèse vocale, parlée ou chantée, on rencontre trois méthodes principales :

  • la modélisation du conduit vocal,
  • la mise bout à bout d' éléments enregistrés,
  • la synthèse par formants.

  • La modélisation du conduit vocal

    Il s'agit de la méthode historiquement la plus ancienne. Les premières synthèses vocales ont été faites pour des automates mécaniques en utilisant un ensemble de tubes et de membranes simulant le conduit vocal.
    La mise en oeuvre informatique de ce procédé n'a pour l'instant pas donné de résultat probant en raison de son extrême complexité.

    La mise bout à bout des éléments de la voix

    C'est l'enregistrement d'un chanteur ou d'un locuteur pour mémoriser les phonèmes ou les assemblages de phonèmes prononcés afin de les mettre bout à bout en vue de restituer la voix de la personne. Des algorithmes complexes déforment les phonèmes enregistrés pour leur faire suivre la prosodie de la voix parlée, et donnent d'excellents résultats. Ces algorithmes sont cependant mal adaptés aux larges plages de fréquences utilisées dans la voix chantée.
    L'inconvénient de ce procédé est d'aboutir à des fichiers de description de voix très lourds. De plus, pour définir une autre voix, il est nécessaire d'enregistrer une autre personne.
    L'autre défaut de ce système est que la totalité des phonèmes d'une langue doivent être prononcés. Pour fabriquer un logiciel multi-langues, il est donc nécessaire d'enregistrer une personne parfaitement polyglotte afin d'échantillonner l'ensemble des phonèmes prononçables dans chacune des langues.

    La synthèse par formants

    Cette synthèse s'appuie sur l'analyse du son constituant la voix. Les acousticiens se sont en effet aperçus que les résonances du conduit vocal mettaient en avant certaines plages de fréquence spécifiques au phonème prononcé. Les acousticiens ont nommé ces plages de fréquence "formants".
    Un formant est caractérisé par sa fréquence (hauteur) et son énergie (force).
     

    Note :
    En électronique ou en informatique, le formant s'apparente à un filtre passe-bande avec résonance.


    Dans les années 1960, les premiers dispositifs  utilisaient des filtres électroniques afin de produire des phonèmes reconnaissables. On s'est alors aperçu que trois à six formants étaient suffisants pour obtenir un phonème de bonne qualité acoustique.
    Les avantages de ce système sont que très peu de données sont nécessaires pour générer un phonème (la description des formants étant en théorie suffisante) et qu'il est beaucoup plus facile d'opérer de légères modifications à ces données afin d'obtenir des voix différentes.
    Cependant, le résultat obtenu est en général moins réaliste que dans le cas d'une voix enregistrée.

    C'est cette troisième méthode qui a été retenue dans Virtual Singer.



(c) Myriad - Tous droits réservés