Il nous est venu une astuce qui permettrait peut être d'améliorer la reconnaissance. Maintenant, nous savons localiser les lignes sur la page et extraire des blobs sur celles ci. Il est très difficile de différencier par exemple un 'i' d'un 'l' surtout quand le point du 'i' est considéré comme un blob indépendant. Le seul critère dont nous disposons est la hauteur de la forme par rapport à la hauteur de la ligne de caractère. Par rapport à la ligne de base, il y a la partie au dessus appelée "ascent" et la partie en dessous appelée "descent". Par exemple, un 'p' ou un 'g' ont un descent, un 't' ou un 'l' un ascent plus prononcé. Un '(' a à la fois un ascent et un descent. Nous avons commencé à implémenter des algorithmes de discrimination des caractères permettant de déterminer si le blob à un ascent, un descent, si c'est un accent associé à une lettre ou même un symbole de ponctuation, simplement en comparant l'aire de la forme à l'aire de la ligne. A terme, nous espérons que cela permettra de mieux séparer les caractères en restreignant la recherche à un groupe de caractères possibles. |