Myriad Blog 1.3.0 Sunday, Nov 18th, 2018 at 08:40pm 

Thursday, Jun 25th, 2015 at 05:05pm
Harmony 9.6 étape 785

 
L'algorithme permettant de déterminer automatiquement la langue dans laquelle sont écrites les paroles de chansons est maintenant au point.
 
Une nouvelle structuration des données sous forme d'arbre logique a remplacé l'ancienne structure en liste, trop lente pour supporter plus de 20 langues. Le temps d'apprentissage est alors passé de plus d'une demi-heure à ... 5 secondes.
 
Il nous faut maintenant trouver, pour chaque langue, un corpus de textes permettant au module d'établir des statistiques sur les lettres et syllabes. Et cette partie est loin d'être la plus simple.
 
Pour le Français par exemple, nous avons récupéré des recueils de poèmes de Hugo, Rimbaud et Verlaine. Pour l'espagnol, les oeuvres complètes de Garcia Lorca, et un volume de Don Quichotte. Nous avons trouvé également suffisamment de textes en Portugais. Mais quand il va s'agir de l'Esperanto, du Tchèque, du Bulgare ou du Slavon, nous risquons d'avoir un peu plus de mal...
by Olivier Guillion


Most recent first
Oldest first

Top of page
Legal information Last update:  (c) Myriad