Nous avons collecté la plupart des textes dont nous avions besoin pour alimenter notre filtre de détermination automatique de la langue. Les langues à translittération (Japonais-Romaji / Grec / Hébreu) ont été parmi les plus compliquées. En grec, nous allons devoir effectuer nous-même la translittération (la conversion de caractères grecs en écriture avec des caractères latins) car aucun long texte n'existe dans cette graphie. En hébreu, nous allons essayer de récupérer des textes sur des sites Web proposant des paroles de chansons. Mais la langue qui nous donne le plus de fil à retordre est l'occitan. Mis à part de très vieux textes (plus de 5 ou 6 siècles) en occitan ancien ou les ouvrages de Frédéric Mistral écrit en occitan "Mistralien" et non en occitan "Classique", aucun long texte roman original ou traduit depuis une autre langue, recueil de poèmes ou de chansons, rien ne semble exister gratuitement en Occitan moderne sur Internet. Nous avons donc battu le rappel des Occitanophiles, et Danièl nous a fourni des contacts prometteurs. En attendant, nous avons commencé à aspirer un site de chansons en occitan. Mais parmi les textes de paroles, se glissent du Français, les diverses formes d'occitan, de l'espagnol, de l'italien ou même de l'allemand. Nous allons essyer d'éliminer ces langues, pour ne conserver que ce qui nous paraît être de l'occitan, en espérant que les erreurs resteront à un taux relativement faible. Nous utiliserons cette base textuelle si nous ne pouvons pas trouver mieux. |