next up previous index
Next: PO.20 A General Markov Up: PO Poster Previous: PO.18 Building New Kernel

PO.19 Caractérisation d'objets mathématiques et redondance graphique pour la lecture automatique de documents mathématiques

Télécharger fichier PDF

Résumé: La rétroconversion des manuels scolaires est aujourd'hui un problème important pour les éditeurs; nous travaillons actuellement dans ce contexte à la rétroconversion des documents et ouvrages de mathématiques. A notre connaissance, il n'y a que peu de travaux sur l'ensemble du document mathématique, seules des études concernant l'analyse des formules de mathématiques ont été développées à ce jour. C'est la raison pour laquelle nous posons le problème de la lecture automatique de ces documents.

Ceux-ci contiennent deux types d'informations de natures différentes : le texte et les objets mathématiques. Afin de traiter le texte plus efficacement, nous sommes conduits à séparer ces deux types d'informations ; dans cet article, nous nous intéressons particulièrement à cette étape qui peut être abordée comme un problème de segmentation multi-langages. Les méthodes classiques de segmentation ne donnant pas des résultats satisfaisants, nous avons été conduits à préconiser de nouvelles voies de segmentation physique et logique, de bas niveau.

Elles s'appuient en particulier sur la redondance graphique de caractères dans le texte, et la propagation autour de marqueurs que nous introduisons. Pour cela, une définition du texte mathématique est proposée, ainsi qu'une première classification des objets mathématiques le composant. Nous détaillons plus spécifiquement les techniques de redondance et la détection d'une certaine classe de formules mathématiques.

Ce travail est réalisé dans le cadre d'un contrat industriel avec la société PRITEC de Toulouse et un appui de l'ANVAR.


next up previous index
Next: PO.20 A General Markov Up: PO Poster Previous: PO.18 Building New Kernel
Marc Parizeau
5/18/1999