Myriad Blog 1.3.0 Thursday, Aug 16th, 2018 at 00:32am 

Monday, Dec 7th, 2015 at 04:59pm
Harmony 9.6 étape 850

 
Nous nous sommes à nouveau heurtés à un problème de détermination automatique de langue par Virtual Singer.
 
Le filtre de détermination Bayésien évalue les probabilité de présence de groupes de lettres consécutives dans le flux de caractères des paroles des chansons. Par exemple, s'il y a écrit : "Le temps des cerises", il va étudier le flux : "LETEMPSDESCERISES", en évaluant la probabilité de trouver tout à tour dans des textes français, anglais, italiens...  les combinaisons LE, ET, TE, EM, PS, SD, DE, ES, ... ainsi que LET, ETE, TEM, EMP, MPS...
 
En comparant les résultats de chacune des langues, il détermine laquelle est la plus probable.  
 
Mais, si les paroles contiennent une syllabe répétée de nombreuses fois par exemple: "You Oh La La La La La La Oh Yeah La La La La La La", le résultat dépendra principalement de la probabilité de rencontrer la syllabe "La" dans chacune des langues.  
 
Le texte d'exemple est en anglais, mais "La" a plus de chance de se trouver dans des textes français (ou espagnols). Etant donné que cette syllabe est surreprésentée dans le texte à analyser, le calcul est faussé et tend à trouver "français" plutôt qu'anglais.
 
Nous avons donc mis en place un système qui limite le nombre de combinaisons identiques à analyser dans un même texte. Dans l'exemple, le programme analysera donc "YOUOHLAYEAH", en supprimant les "La" et "Oh" répétés, et trouvera probablement l'anglais.
Ceci devrait donc permettre une meilleure détermination de la langue, mais devra d'abord être testé sur un maximum de fichiers avant d'être validé.
by Olivier Guillion
Comments

Comment from Grorom Monday, Dec 7th, 2015 at 10:58pm
générateur de mot
oh... ça me fait penser à ça :
[youtube]YsR7r2378j0[/youtube]
https://www.youtube.com/watch?v=YsR7r2378j0


Most recent first
Oldest first

Top of page
Legal information Last update:  (c) Myriad