next up previous index
Next: S8.5 An Automatic Municipal Up: S8 Document Previous: S8.3 Un logiciel d'analyse

S8.4 Étiquetage fonctionnel des textes imprimés

Télécharger fichier PDF

Résumé: Cet article présente une approche de l'étiquetage des données textuelles des documents imprimés, basée sur une analyse de texture. Nous abordons ici la caractérisation de la mise en forme typographique des polices et définissons des critères de complexité, de compacité et de relief structural des tracés des textes. L'étiquetage est lié à une recherche d'informations sur le document basée sur le constat que notre perception n'est pas aléatoire mais qu'elle est implicitement liée à la mise en forme matérielle des données. Nous proposons ainsi de référencer et de regrouper les différents types de textes selon leur aspect visuel et l'impression de texture qui s'en dégage. A partir de cette caractérisation et de la définition de trois grandes familles génériques et stables correspondant à trois types d'information sur le document (titre, paragraphe, note), nous proposons un étiquetage fonctionnel des blocs de texte. Ce travail s'inscrit dans un projet plus complet de segmentation et de reconnaissance de la structure logique de documents composites.


Abstract: This paper presents a new approach of textual data labeling based on texture analysis. The texture is used here to show the impact of the document making up on the visual exploration. We will show how textural properties are well adapted to typography characterization. In this context, we have defined complexity, compactness and structural relief criteria based on text drawing. The functional labeling is linked to the fact that the information search on a document is not random but directly linked to the document layout. We propose to reference and gather different types of text fonts according to their visual aspect and the visual impress which emerges from the textual data. This characterization allows us to define three kinds of generic families corresponding to three informative classes of texts: the class title, the class paragraph of text (summary, body of the document...), the class of head or foot notes (or all little and specific and punctual information). On the base of this segmentation in three classes, we propose a functional labeling of text blocks. The blocks are obtained by a first structure analysis of the document, which will be quickly presented in this article.


next up previous index
Next: S8.5 An Automatic Municipal Up: S8 Document Previous: S8.3 Un logiciel d'analyse
Marc Parizeau
5/18/1999