Myriad Blog 1.3.0 Sunday, Nov 18th, 2018 at 06:11am 

Thursday, Mar 28th, 2013 at 04:59pm
Harmony 9.6 et autres étape 488

 
Que ce soit dans Harmony, lors du chargement d'un fichier MIDI Karaoke, ou dans PDFtoMusic, lorsque le programme analyse les paroles incluses dans la partition, nos programmes ont besoin de déterminer en quelle langue sont écrits les textes.
 
Virtual Singer peut ainsi être configuré automatiquement afin de chanter les paroles en utilisant la prononciation qui correspond à la langue.
 
Bien sûr, en cas d'erreur du programme, l'utilisateur peut facilement changer la langue en quelques clics. Mais autant que la détermination automatique soit la plus fiable possible.
 
Jusqu'ici, nous avions établi à la main une liste de syllabes spécifiques à chaque langue, ainsi qu'une liste de caractères spéciaux (accentués, etc) qui ne pouvaient être trouvés que dans l'une de ces langues. Cela fonctionnait globalement, mais n'était pas toujours fiable.
 
Nous avons donc tout repris à zéro, et implémenté un filtre Bayesien (le type de filtre qui détecte automatiquement le spam dans vos boîtes à lettres électroniques). Notre filtre effectue des calculs statistiques sur la présence de chacune des syllabes qui composent le texte, en considérant les probabilités que cette syllabe apparaisse dans l'une des 9 langues gérées par Virtual Singer.
 
Pour alimenter le filtre, et lui fournir les données statistiques qui lui permettent de déterminer la langue, nous avons extrait les paroles d'un lot de fichiers PDF que nous possédons, ainsi que des musiques de démo d'Harmony Assistant.
Les 2200 fichiers de paroles ainsi obtenus ont ensuite été vérifiés et reclassés à la main.  
A partir de ces 2200 fichiers soigneusement triés par langue, une base de 930000 syllabes a été constituée. Grâce au volume important de cette base, le module de filtrage Bayesien semble extrêmement fiable : les essais que nous avons effectués ne nous ont pour l'instant pas permis de le prendre en défaut.
by Olivier Guillion
Comments

Comment from JP Thursday, Mar 28th, 2013 at 07:36pm
Bravo!
J'ai remarqué que les spammeurs ont trouvé des contournements aux filtres Bayesiens en ajoutant à la fin de leurs publicités pour des produits immoraux ou illégaux (voire les deux!) de longs paragraphes littéraires qui parviennent à duper l'algorithme. Heureusement dans votre cas les partitions ne sont pas volontairement truquées pour vous berner, et j'espère que vous allez réussir ce challenge!
Cordialement
JP


Most recent first
Oldest first

Top of page
Legal information Last update:  (c) Myriad