HomeProductsDownloadOrderSupportSearch
  
 
 Myriad Blog 1.3.0 Tuesday, Mar 19th, 2024 at 05:42am 

Dev News Tuesday, May 30th, 2006 at 04:50pm
Projet PDFToMusic, étape 4.
Nous sommes toujours dans l'étape qui consiste à analyser les polices de caractères présentes dans un fichier PDF.
Comme le format "Adobe Type 1C", le  format "Adobe Type 1" utilise un interpréteur PostScript pour dessiner les formes de caractères. La différence entre les deux formats est que le "Adobe Type 1C" est compacté, le "Adobe Type 1", est au format texte, non compacté. Par contre, le format "Adobe Type 1" est encrypté (certaines polices peuvent être protégées). Heureusement, l'algorithme d'encryptage/décryptage est public. Après quelques tatonnements et fausses pistes, le format "Adobe Type 1" est décodé. Nous écrivons alors un interpréteur PostScript rudimentaire pour tracer les caractères. Le résultat semble correct et utilisable.  
Maintenant, il va falloir analyser un autre type de police : le type 3, c'est un format où les caractères sont dessinés avec des commandes PDF. L'intention générale est d'uniformiser tout ceci et de convertir "Type 1", "Type 1C", "Type 3" en un format de description commun et homogène qui permettra un tracé plus uniformisé.  
Parallèlement à ceci, Olivier a essayé d'autres voies que le réseau neuronal pour la reconnaissance et obtient des résultats prometteurs...
by Didier Guillion

Dev News Tuesday, May 23rd, 2006 at 04:58pm
Projet PDFToMusic, étape 3.
Nous sommes dans l'étape qui consiste à analyser les polices de caractères présentes dans un fichier PDF.
Le format de police "Adobe Type 1C" (C pour compacté) est public. A partir de cette documentation, un extracteur et interpréteur de commande graphique a été écrit pour pouvoir dessiner grossièrement les caractères. En effet, nous avons progressé dans la reflexion sur l'association "numéro de caractère" vers "signification du caractère". Une solution serait de procéder en deux étapes :
1- Rechercher des données similaires dans une base de données, pour savoir si le caractère à déjà été rencontré.
2- Si le caractère est nouveau, tracé du caractère et reconnaissance automatique de celui-ci. S'il est reconnu, alors nous alimenterons la base de donnée utilisée en étape 1.
 
La reconnaissance de caractère passera peut-être par des réseaux neuronaux. Un réseau neuronal a été écrit (en MyrScript, c'est un excellent langage pour faire rapidement des maquettes) et donne des résultats intéressants...
 
Entretemps un nouveau type de police est rencontré, le format "Adobe Type 1". La prochaine étape sera l'analyse de ce format.
by Didier Guillion
 2 comments.

Dev News Friday, May 19th, 2006 at 05:08pm
Projet PDFToMusic, étape 2.
Nous sommes dans l'étape qui consiste à analyser les polices de caractères présentes dans un fichier PDF.
Cette étape de l'étude vise à extraire les données graphiques d'une police au format TrueType. Heureusement, la documentation est disponible. En première analyse, le format a l'air très complet et complexe. Mais avons-nous besoin de toutes ces informations ? Nous nous intéressons en premier lieu à la manière dont les glyphes (rendu graphique d'un caractère d'une police) sont encodés. Après quelques tatonnements, nous arrivons à extraire les données des glyphes et à tracer les caractères pour vérification. Cette phase est donc validée, même si nous laissons plusieurs problèmes dans l'ombre : rencontrerons-nous des polices non TrueType ? Des polices qui encoderaient les formes en passant par le bytecode TrueType ?
Maintenant que nous avons les données qui définissent la forme des caractères, il faut associer le caractère mémorisé dans le document PDF au numéro de glyphe. En effet le format PDF ne stocke pas toute la police mais uniquement les caractères présents dans le document. Ceci passe par les "Cmaps" du fichier TrueType.  
Quelques recherches sur l'Internet nous font découvrir un site présentant des centaines de partitions au format PDF. Il apparaît qu'une bonne proportion de ces fichiers utilisent une police de type "Adobe Type1C". La prochaine étape sera l'analyse de ce format.
by Didier Guillion

Dev News Wednesday, May 17th, 2006 at 05:05pm
Projet PDFToMusic, étape 1.
L'étude du PDF a débuté (voir le billet "On échange ?"), une première ébauche du parseur (analyseur ou butineur qui balaye un fichier pour en extraire les informations) a été écrite et l'on commence à extraire les différents éléments des fichiers PDF. Il apparaît que, du point de vue de l'utilisation que nous voulons en faire, trois catégories de documents se dégagent.  
La catégorie 0 (zéro): Ce sont les PDF n'incluant qu'une seule image de la partition par page du document. Ils ont vraisemblablement été générées directement depuis un scanner. La seule chose que l'on pourrait faire de ces documents serait d'exporter les images de manière séparée et de les faire traiter par OMeR.
La catégorie 1 : Ce sont les PDF, incluant des objets graphiques (lignes, rectangles, etc), et les objets musicaux (tête de note, nuance, etc) dessinés à partir d'une police de caractère. Ce sont des fichiers issus de l'exportation directe depuis un logiciel de musique, comme ce que l'on obtient depuis Harmony Assistant par exemple. L'interprétation des objets semble possible. Le problème est que la police incluse dans le document PDF est "remappé" (seuls les caractères utilisés dans le document sont présents) et ne semble pas utilisable directement.
La catégorie 2 : Ce sont les PDF n'incluant que des objets graphiques : les objets musicaux sont dessinés avec des primitives graphiques simples et non avec des polices. Je n'ai aucune idée de la façon dont ces fichiers ont été générés. Il va falloir isoler ces objets et construire un système expert de reconnaissance de forme ? Probablement.
 
La catégorie 1 semble la plus répandue. La catégorie 2 vient ensuite nettement moins souvent. La catégorie 0 est très rare à ma connaissance. La pierre d'achoppement de la catégorie 1 va être l'extraction des données brutes des fichiers de polices inclus dans le document et leur analyse. Apparemment, la plupart de ces fichiers sont des polices au format TrueType qui est un format public. Bon point. Cela va être la prochaine étape de l'analyse : serons-nous capables d'extraire ces données et de reconnaître la forme que ces données dessinent ?
by Didier Guillion
 3 comments.

Dev News Thursday, May 4th, 2006 at 02:35pm
On échange ?
Les échanges de document musicaux ont toujours été une de nos préoccupations. Chaque logiciel de musique utilise son propre format de fichier, et il est difficile de partager des documents quand on travaille sur des logiciels différents.  
En général, le format le plus reconnu est le MIDI. Mais, c'est un format maintenant ancien, que l'on peut qualifier de spartiate et plus destiné aux synthétiseurs qu'aux ordinateurs. Par exemple, le format MIDI ne comporte aucune information de mise en page et l'on se retrouve vite limité car un export puis un import ne redonne pas le même aspect de la partition.
 
Grâce à MyrScript, le langage intégré à Harmony Assistant, il est possible d'importer des documents musicaux provenant de toutes sortes de logiciels : Finale, Noteworthy, Encore, GuitarPro, Tabledit, etc. Depuis deux ans, une bonne partie de notre temps a été passée à écrire des scripts d'importation, mais il y a tellement de logiciels différents que je ne pense pas que nous en verrons un jour la fin. Il faut en effet, pour chaque logiciel, concevoir un script spécifique, parfois même avec des variantes car les formats ont évolués dans le temps.
 
Nous réfléchissons depuis quelque temps à une autre approche du problème. L'idéal serait d'avoir un format de fichier qui soit commun à tous les logiciels. Il y a bien l'initiative très intéressante du MusicXML mais cela suppose qu'un exporteur MusicXML existe pour le logiciel. Or, très souvent, les nouveaux utilisateurs de Melody/Harmony utilisaient un programme dont le développement a été arrété, et voudraient bien récupérer les partitions créées avec celui-ci. Ils se retrouvent bloqués.
 
C'est alors que nous est venue une idée. Un format d'échange existe : c'est le PDF. Que ce soit sur Mac OS X, où l'exportateur en PDF est intégré au système, sur Mac OS 9 où des pseudo pilotes d'impression existent, ou sur Windows avec des programmes gratuits comme PDFCreator, il est aisé de créer un document PDF à partir de n'importe quel logiciel. De plus on trouve une grande quantité de partitions en PDF sur l'Internet notamment sur Choral Public Domain Library.
 
Si l'on pouvait lire ces fichiers PDF avec Harmony/Melody nous disposerions alors d'un format d'importation universel. La description du format a été publiée par son créateur, Adobe. Une pré-étude a été lancée cette semaine pour voir si ce format est lisible et si l'on peut faire quelque chose de ces données.
Dès que la nouvelle version d'Harmony et de Melody sera publiée (normalement Mardi prochain 9 Mai) nous approfondirons la question.
by Didier Guillion
 1 comment.


Full view
Reduced view
Most recent first
Oldest first
All
Didier Guillion
Olivier Guillion
Sylvie Ricard
All
To be seen
Dev News
Myriad Life
Memories
Mood
Technical
30 previous days
Apr 2006
May 2006
Jun 2006
Jul 2006
Aug 2006
Sep 2006
Oct 2006
Nov 2006
Dec 2006
Jan 2007
Feb 2007
Mar 2007
Apr 2007
May 2007
Jun 2007
Jul 2007
Aug 2007
Sep 2007
Oct 2007
Nov 2007
Dec 2007
Jan 2008
Feb 2008
Mar 2008
Apr 2008
May 2008
Jun 2008
Jul 2008
Aug 2008
Sep 2008
Oct 2008
Nov 2008
Dec 2008
Jan 2009
Feb 2009
Mar 2009
Apr 2009
May 2009
Jun 2009
Jul 2009
Aug 2009
Sep 2009
Oct 2009
Nov 2009
Dec 2009
Jan 2010
Feb 2010
Mar 2010
Apr 2010
May 2010
Jun 2010
Jul 2010
Aug 2010
Sep 2010
Oct 2010
Nov 2010
Dec 2010
Jan 2011
Feb 2011
Mar 2011
Apr 2011
May 2011
Jun 2011
Jul 2011
Aug 2011
Sep 2011
Oct 2011
Nov 2011
Dec 2011
Jan 2012
Feb 2012
Mar 2012
Apr 2012
May 2012
Jun 2012
Jul 2012
Aug 2012
Sep 2012
Oct 2012
Nov 2012
Dec 2012
Jan 2013
Feb 2013
Mar 2013
Apr 2013
May 2013
Jun 2013
Jul 2013
Aug 2013
Sep 2013
Oct 2013
Nov 2013
Dec 2013
Jan 2014
Feb 2014
Mar 2014
Apr 2014
May 2014
Jun 2014
Jul 2014
Aug 2014
Sep 2014
Oct 2014
Nov 2014
Dec 2014
Jan 2015
Feb 2015
Mar 2015
Apr 2015
May 2015
Jun 2015
Jul 2015
Aug 2015
Sep 2015
Oct 2015
Nov 2015
Dec 2015
Jan 2016
Feb 2016
Mar 2016
Apr 2016
May 2016
Jun 2016
Jul 2016
Aug 2016
Sep 2016
Oct 2016
Nov 2016
Dec 2016
Jan 2017
Feb 2017
Mar 2017
Apr 2017
May 2017
Jun 2017
Jul 2017
Aug 2017
Sep 2017
Oct 2017
Nov 2017
Dec 2017
Jan 2018
Feb 2018
Mar 2018
Apr 2018
May 2018
Jun 2018
Jul 2018
Aug 2018
Sep 2018
Oct 2018
Nov 2018
Dec 2018
Jan 2019
Feb 2019
Mar 2019
Apr 2019
May 2019
Jun 2019
Jul 2019
Aug 2019
Sep 2019
Oct 2019
Nov 2019
Dec 2019
Jan 2020
Feb 2020
Mar 2020
Apr 2020
May 2020
Jun 2020
Jul 2020
Aug 2020
Sep 2020
Oct 2020
Nov 2020
Dec 2020
Jan 2021
Feb 2021
Mar 2021
Apr 2021
May 2021
Jun 2021
Jul 2021
Aug 2021
Sep 2021
Oct 2021
Nov 2021
Dec 2021
Jan 2022
Feb 2022
Mar 2022
Apr 2022
May 2022
Jun 2022
Jul 2022
Aug 2022
Sep 2022
Oct 2022
Nov 2022
Dec 2022
Jan 2023
Feb 2023
Mar 2023
Apr 2023
May 2023
Jun 2023
Jul 2023
Aug 2023
Sep 2023
Oct 2023
Nov 2023
Dec 2023
Jan 2024
Feb 2024
Mar 2024
Mar 18th, 2024 at 08:14pm 
Comment from Sylvain
Mar 18th, 2024 at 08:13pm 
Comment from Sylvain
@André
Mar 18th, 2024 at 07:28pm 
Comment from Antoine Bautista
Build 82....
Mar 18th, 2024 at 05:02pm 
Article from Didier Guillion
Harmony Assistant 9.9.8  étape 198
Mar 18th, 2024 at 05:02pm 
Article from Didier Guillion
Harmony Assistant 9.9.8  étape 198
Mar 17th, 2024 at 11:40am 
Comment from Antoine Bautista
Frite....
Mar 17th, 2024 at 11:40am 
Comment from Antoine Bautista
Frite....
Mar 16th, 2024 at 09:16am 
Comment from André Baeck
Mar 16th, 2024 at 09:16am 
Comment from André Baeck
Mar 16th, 2024 at 09:13am 
Comment from André Baeck

Top of page
Legal information Cookies Last update:  (c) Myriad