Myriad Blog 1.3.0 Saturday, Jun 23rd, 2018 at 08:54am 

Monday, Aug 24th, 2015 at 04:50pm
Harmony 9.6 étape 809

 
Afin de déterminer automatiquement la langue utilisée dans les paroles de chansons, nous avons donc mis en place une détermination bayesienne, basée sur les fréquences d'apparition des groupes de 3 et de 4 lettres.
 
La base de données utilisée par ce filtre représente environ 13 Mo de données au format texte. Une fois compactée, elle occupe 3 Mo.
 
Ce n'est pas si énorme, mais nous avons toujours essayé de limiter au maximum la taille de nos archives installables. 3 Mo nous paraissant non négligeable (cela fait grimper la taille de l'archive de 15%, nous avons essayé de la réduire, mais nous n'y sommes pas parvenus sans diminuer la fiabilité de la détermination.
 
Il est donc probable que nous conservions cette base un peu volumineuse mais efficace.
by Olivier Guillion


Most recent first
Oldest first

Top of page
Legal information Last update:  (c) Myriad