Nous sommes dans l'étape qui consiste à analyser les polices de caractères présentes dans un fichier PDF. Le format de police "Adobe Type 1C" (C pour compacté) est public. A partir de cette documentation, un extracteur et interpréteur de commande graphique a été écrit pour pouvoir dessiner grossièrement les caractères. En effet, nous avons progressé dans la reflexion sur l'association "numéro de caractère" vers "signification du caractère". Une solution serait de procéder en deux étapes : 1- Rechercher des données similaires dans une base de données, pour savoir si le caractère à déjà été rencontré. 2- Si le caractère est nouveau, tracé du caractère et reconnaissance automatique de celui-ci. S'il est reconnu, alors nous alimenterons la base de donnée utilisée en étape 1. La reconnaissance de caractère passera peut-être par des réseaux neuronaux. Un réseau neuronal a été écrit (en MyrScript, c'est un excellent langage pour faire rapidement des maquettes) et donne des résultats intéressants... Entretemps un nouveau type de police est rencontré, le format "Adobe Type 1". La prochaine étape sera l'analyse de ce format. |