silfide : ressources, outils et normalisation laurent romary laboratoire loria nancy
TRANSCRIPT
![Page 1: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/1.jpg)
Silfide : ressources, outils et normalisation
Laurent RomaryLaboratoire LoriaNancy
![Page 2: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/2.jpg)
Silfide - présentation
Serveur Interactif pour la Langue Française, son Identité, sa Diffusion, son EtudeProjet commun lancé au début de 1996
CNRS (Centre National de la Recherche Scientifique)
Aupelf•Uref (Association des Universités Partiellement ou Entièrement de Langue Française)
Équipes : Loria, INaLF, CLIPS, LIMSI, LPL
![Page 3: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/3.jpg)
Principaux objectifs
coordonner les efforts de la communauté académique dans le domaine des ressources linguistiques
développer et promouvoir des actions de normalisation
procurer un accès libre aux ressources et aux services associés
![Page 4: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/4.jpg)
Contexte
Ressources linguistiques Textes (littérature,théâtre, poésie, journaux, etc.) Transcriptions (e.g. dialogues) Dictionnaires, lexiques
Utilisateurs Lexicographes, linguistes, informaticiens Outils divers (e.g. étiqueteurs morpho-
syntaxiques)
![Page 5: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/5.jpg)
Un constat
coût intellectuel et financier de la création des données
quelle documentation associée à ces données ?
comment utiliser ces données (outils) ?
Normaliser pour mieux utiliser et partager nos données.
![Page 6: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/6.jpg)
TEI (Text Encoding Initiative)
Origine : réunion de novembre 1987 au Vassar College (Poughkeepsie, New York)
Directives de codage des textes électroniques sur la base de SGML
Institutions scientifiques :ACH, ALLC, ACL
Guidelines for Electronic Text Encoding and Interchange (TEI P3)
eds. : Michael Sperberg-McQueen et Lou Burnard
![Page 7: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/7.jpg)
TEI - Contenu
Recommandations norme SGML (Standard Generalized Markup
Language) modularité de la DTD TEI
un jeu de balises "noyau" (core tag set) : en-tête, divisions, paragraphes etc.
des ensembles de balises de base (base tag sets) : prose, poésie en vers, dictionnaires, etc.
des jeux de balises additionnelles (additional tag sets) : liens hypertextuels etc.
Conséquence : une famille de DTD TEI
![Page 8: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/8.jpg)
TEI - Documentation des textes
Identification et suivi des textescf. catalogage des documents électroniques (ex.
Silfide)cf. échange des documents électroniques
Comment : en-tête TEI (TeiHeader)aspects bibliographiques du document source
(auteur, éditeur, édition, etc.)aspects propres au document électronique (aspects
bibliographiques, codage, historique des révisions etc.)
![Page 9: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/9.jpg)
TEI - Pièces de théâtre
interventions et indications scéniques<sp who=“P”>
<speaker>Paul</speaker>
<p>Il fait chaud aujourd’hui…</p>
</sp>
<stage>Paul allume une cigarette</stage>
remarque : déclaration des personnages dans une <castList>
![Page 10: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/10.jpg)
TEI - Transcriptions de l’oral
tours de parole, segments<u who=“S”>
<seg>France Telecom, bonjour.</seg>
<seg>Que désirez-vous?</seg>
</u>
remarque : possibilités de coder les pauses, transitions,
superpositions, bruits, difficultés de transcription etc.
![Page 11: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/11.jpg)
TEI - Dictionnaires
structure minimale d’une entrée : mot-vedette, indications grammaticales, définition,
exemples<entry>
<form>
<orth>table</orth>
</form>
<gramGrp><pos>n.f.</pos><gramGrp>
<def>Pièce de mobilier…</def>
<eg>Une table de cuisine</eg>
</entry>
![Page 12: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/12.jpg)
Silfide - du point de vue de l’utilisateur
pas de balise SGML…un scénario en deux temps
Sélection de ressources : construction d’un corpus de travail (“panier”)
Requêtes sur le contenu : utilisation d’outils en ligne sur ce corpus
![Page 13: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/13.jpg)
Sélection des ressources
Liste des sélections
•Le petit Prince…•Le Père Goriot…•ksqjdhlksqjhd•ksjqdhlkqj•…
Titre
Auteur
Requête complexe
Recherche
panier
Sélection Travail en ligne
Résultat
![Page 14: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/14.jpg)
Et XML arriva...
Où l’internet donne raison à la démarche de la TEI
![Page 15: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/15.jpg)
Un rapide état des lieux - 1
XML Une recommandation du W3C simplifiant
SGML Un gain en souplesse et en puissance
Document bien formé/valide
Des interfaces de programmation API DOM : modèle arborescent API SAX : accès par évènements
![Page 16: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/16.jpg)
Un rapide état des lieus - 2
Des recommandations associées Xpath
Un langage généralisé d ’accès à la structure d ’un document XML/body//div/q[lan=“de”]
, XSLUn langage de transformation et de présentationUn système à base de règle exprimées en XMLLes bases d ’une BD orientée XML?
![Page 17: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/17.jpg)
Mise en réseau de serveurs Silfide
DB1Serveur 1
DB2
Serveur 2
DB3
Serveur 3
DB4
Serveur 4
Client(navigateur)
http
Point d ’accès local
![Page 18: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/18.jpg)
Usage généralisé de XML
Informations utilisateursGestion de l ’espace de travail
Paramètres de session « Panier »
RequêtesListes de résultats
![Page 19: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/19.jpg)
Silfide et XML…
DB1Server 1
DB2
Server 2
DB3
Server 3
DB4
Server 4
User Client
<XQL>
Local access point<XRS>
<SWS>
![Page 20: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/20.jpg)
Bilan : apports d ’XML
Uniformisation des formats Contenus « utiles » (adapter la TEI…) Gestion des échanges
Fractionnement et recomposition Utilisation des documents par parties
E.g. : entrée d ’un dictionnaire
Résultat >> documentApplications : commandes en « pipe » (cf. HCRC)
![Page 21: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/21.jpg)
Bilan : apports d ’XML - 2
De premiers composants réutilisables Parseurs XML Interpréteur de requêtes sur des documents
structurés Au delà?
![Page 22: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/22.jpg)
Et maintenant ?
Pistes de développement des efforts de normalisation
![Page 23: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/23.jpg)
Développements en cours - 1
Ressources primaires Initiative INaLF-Loria de rétro-conversion de
textes issus de FrantextThéâtre, poésie etc.Des bases éditoriales codifiées et simplifiées (en-
tête minimal)
Une prise de conscience du besoin de normalisation : IRESCO, Paris IV, etc.
![Page 24: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/24.jpg)
Développements en cours - 2
Annotation externe Cf. CES/Eagles - avènement de Xpath Exemple: alignement de textes multilingues Annotation de la référence MLIS/Mate: une initiative européenne dans le
domaine de l ’étude du dialogue
![Page 25: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/25.jpg)
Développements en cours - 3
Ressources pour l ’Informatique linguistique Terminologie/lexicographie multilingue
MARTIF (ISO 12200, expérimenté dans MLIS/Dhydro)
Lexique syntaxiqueTAGML
![Page 26: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/26.jpg)
Perspectives
Stabiliser une « couche basse » API d ’accès aux mots d ’un texte Entrées/Sorties d ’étiqueteurs morpho-
syntaxiques Architectures de ressources lexico-
grammaticales
![Page 27: Silfide : ressources, outils et normalisation Laurent Romary Laboratoire Loria Nancy](https://reader036.vdocuments.pub/reader036/viewer/2022081516/551d9db6497959293b8db379/html5/thumbnails/27.jpg)
Moyens
Accroître la normalisation des données et des interfaces Des rencontres régulières (au delà de cette
journée « découverte ») Un vrai GT sur ce thème
Aboutir à une base commune pour: Échanger des données primaires Échanger des composants Évaluer nos systèmes