![Page 1: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/1.jpg)
Algèbre de composants : une approche fonctionnelle à la
sémantique de documents
Bart Lamiroy
LORIA/INPL
QGar - École des Mines de Nancy
![Page 2: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/2.jpg)
Notre approche
• Présentation de recherche prospective• Aborder la notion de sémantique d’un
document (à des fins de manipulation de documents par leur contenu)
• Réinvestissment de l’existant et aller vers la généricité
• Rester pragmatique
![Page 3: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/3.jpg)
Plan
• Situation du contexte de travail• Exemple : Scan2XML• Définition de la notion « Algèbre de
composants »• Pistes et outils pour la formalisation de la
sémantique et sa manipulation
![Page 4: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/4.jpg)
Analyse de documents : buts
• Rétroconversion• Interprétation• Recherche d’information• Aide à la navigation/consultation
Appuyé sur des méthodes d'analyse du signal et des structures visuelles
![Page 5: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/5.jpg)
Formes de document
• Avant : origine papier, format bitmap• Maintenant :
− bitmap− électronique, mais pauvrement structuré
• Documents électroniques complètement structurés
− lourdeur à la saisie− extrêmement lié au contexte de création
![Page 6: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/6.jpg)
Contenu de documents
Propriété principale : produit par des humains pour des humains
Texte Graphique
Analyse linguistique
Sémantique
• Reconnaissance de formes• Matching• Indexation
?
?
![Page 7: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/7.jpg)
Conclusion
• Texte− beaucoup de progrès (rétroconversion)− hors domaine QGar− frein linguistique
• Graphique− ad hoc− performant dans des cas particuliers− sémantique « figée » au contexte
Objectifs : Exploiter le contenu sémantique des parties graphiques et établir des liens entre le texte et le graphique
![Page 8: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/8.jpg)
Scan2XML : cas d’étude
• Images de type « éclaté »• Démarche
− identifier 3 types de zones :dessin - légende - index
− associer les zones se correspondant− rendre le document navigable
• In fine : navigation intra- et inter-document
![Page 9: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/9.jpg)
Exemple
![Page 10: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/10.jpg)
Scan2XML : suite
Extraction de sémantique à plusieurs niveaux :
• notion de zone (connecté, déconnecté)• type de zone (dessin, texte, légende, index
…)• lien (association entre zones)• sens (analyse de la légende, du graphique)
![Page 11: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/11.jpg)
Scan2XML : analyse
• Preuve de faisabilité (démo)• Composition de briques existantes• Mise en pipeline
Généralisation à la majorité des applications d'analyse de documents (toutes ?)
![Page 12: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/12.jpg)
Algèbre de composants
Préambule :− syntaxe + métrique + contexte =
sémantique− C
métr, ctxt(syntaxe) = sémantique
− Pipeline :C
1(C
2(...C
n(syntaxe)))) = sémantique
syntaxe = sémantique !
![Page 13: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/13.jpg)
Algèbre de composants
• Domaine = données initiales + données produites
• Opérateurs = composants élémentaires (implémentations d'algorithmes)
• Sémantique = « preuve » par combinaison d'opérateurs
• Contexte ? Enfoui dans le composant et dans le pipeline.
![Page 14: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/14.jpg)
Formalisation : définitions
• Composant : C : D D'
s |C (s)
• Contexte applicatif : ensemble K de tous les C disponibles
• Sémantique : D' = D1'D
2'D
n'
• Sémantique intrinsèque d'un document I est la fermeture de I sur K.
![Page 15: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/15.jpg)
Sémantique intrinsèque
• Contraintes :− ordre d'application des composants− disponibilité des données
• Structure hiérarchisée en forme de semi-treillis (origine = document)
− noeuds = sémantique− chemins = contexte
(plusieurs chemins peuvent mener au même noeud)
![Page 16: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/16.jpg)
Récapitulatif
• Sémantique bornée par les composants• Géométrie variable (modularité,
extensible, ...)• Structuration hierarchique avec expression
des interdépendances (héritage ?)• Pragmatique, puisque construit sur des
composants opérationnels
![Page 17: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/17.jpg)
Avantages
• Expression des interdépendances (automatisable)
• Extraction partielle du contexte• Support de raisonnement
− inférence− prédiction/vérification− validation
![Page 18: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/18.jpg)
Besoins
• Composants
www.qgar.org• Langage d'expression des chaînes de
composants (liant entre composants)
Scripting ?• Représentation des documents et des
résultats produits
SVG++ ?
![Page 19: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/19.jpg)
Applications possibles :
• Inférence de connaissances pour l'aide à la navigation ou la recherche d'information
• Combinaison text/graphique• Evaluation de fiabilité par combinaison de
chaînes de composants• Articulation/intégration web sémantique et
outils formels de raisonnement
![Page 20: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/20.jpg)
Défis
• Les paramètres : données ou contexte ?• Evaluation de la validité du contexte• Pertinence des données• ...
![Page 21: Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy](https://reader035.vdocuments.pub/reader035/viewer/2022062404/551d9d81497959293b8baa28/html5/thumbnails/21.jpg)
Questions ?