algèbre de composants : une approche fonctionnelle à la sémantique de documents bart lamiroy...
Post on 03-Apr-2015
106 Views
Preview:
TRANSCRIPT
Algèbre de composants : une approche fonctionnelle à la
sémantique de documents
Bart Lamiroy
LORIA/INPL
QGar - École des Mines de Nancy
Notre approche
• Présentation de recherche prospective• Aborder la notion de sémantique d’un
document (à des fins de manipulation de documents par leur contenu)
• Réinvestissment de l’existant et aller vers la généricité
• Rester pragmatique
Plan
• Situation du contexte de travail• Exemple : Scan2XML• Définition de la notion « Algèbre de
composants »• Pistes et outils pour la formalisation de la
sémantique et sa manipulation
Analyse de documents : buts
• Rétroconversion• Interprétation• Recherche d’information• Aide à la navigation/consultation
Appuyé sur des méthodes d'analyse du signal et des structures visuelles
Formes de document
• Avant : origine papier, format bitmap• Maintenant :
− bitmap− électronique, mais pauvrement structuré
• Documents électroniques complètement structurés
− lourdeur à la saisie− extrêmement lié au contexte de création
Contenu de documents
Propriété principale : produit par des humains pour des humains
Texte Graphique
Analyse linguistique
Sémantique
• Reconnaissance de formes• Matching• Indexation
?
?
Conclusion
• Texte− beaucoup de progrès (rétroconversion)− hors domaine QGar− frein linguistique
• Graphique− ad hoc− performant dans des cas particuliers− sémantique « figée » au contexte
Objectifs : Exploiter le contenu sémantique des parties graphiques et établir des liens entre le texte et le graphique
Scan2XML : cas d’étude
• Images de type « éclaté »• Démarche
− identifier 3 types de zones :dessin - légende - index
− associer les zones se correspondant− rendre le document navigable
• In fine : navigation intra- et inter-document
Exemple
Scan2XML : suite
Extraction de sémantique à plusieurs niveaux :
• notion de zone (connecté, déconnecté)• type de zone (dessin, texte, légende, index
…)• lien (association entre zones)• sens (analyse de la légende, du graphique)
Scan2XML : analyse
• Preuve de faisabilité (démo)• Composition de briques existantes• Mise en pipeline
Généralisation à la majorité des applications d'analyse de documents (toutes ?)
Algèbre de composants
Préambule :− syntaxe + métrique + contexte =
sémantique− C
métr, ctxt(syntaxe) = sémantique
− Pipeline :C
1(C
2(...C
n(syntaxe)))) = sémantique
syntaxe = sémantique !
Algèbre de composants
• Domaine = données initiales + données produites
• Opérateurs = composants élémentaires (implémentations d'algorithmes)
• Sémantique = « preuve » par combinaison d'opérateurs
• Contexte ? Enfoui dans le composant et dans le pipeline.
Formalisation : définitions
• Composant : C : D D'
s |C (s)
• Contexte applicatif : ensemble K de tous les C disponibles
• Sémantique : D' = D1'D
2'D
n'
• Sémantique intrinsèque d'un document I est la fermeture de I sur K.
Sémantique intrinsèque
• Contraintes :− ordre d'application des composants− disponibilité des données
• Structure hiérarchisée en forme de semi-treillis (origine = document)
− noeuds = sémantique− chemins = contexte
(plusieurs chemins peuvent mener au même noeud)
Récapitulatif
• Sémantique bornée par les composants• Géométrie variable (modularité,
extensible, ...)• Structuration hierarchique avec expression
des interdépendances (héritage ?)• Pragmatique, puisque construit sur des
composants opérationnels
Avantages
• Expression des interdépendances (automatisable)
• Extraction partielle du contexte• Support de raisonnement
− inférence− prédiction/vérification− validation
Besoins
• Composants
www.qgar.org• Langage d'expression des chaînes de
composants (liant entre composants)
Scripting ?• Représentation des documents et des
résultats produits
SVG++ ?
Applications possibles :
• Inférence de connaissances pour l'aide à la navigation ou la recherche d'information
• Combinaison text/graphique• Evaluation de fiabilité par combinaison de
chaînes de composants• Articulation/intégration web sémantique et
outils formels de raisonnement
Défis
• Les paramètres : données ou contexte ?• Evaluation de la validité du contexte• Pertinence des données• ...
Questions ?
top related