1
• Une version (très) affaiblie de la compréhension automatique de texte
• Ciblée sur une tâche précise• Des résultats exploitables (80 % des
performances humaines)
Extraction d’Informations (EI)
2
I. Tâche et architecture
BUT : Extraire des informations, factuelles, à partir de textes
– Un type d'informations bien spécifique, – A partir d’un type de textes (corpus « homogène » -
textes courts type « dépêches d’agences »)– Une tâche spécifique : constituer des « fiches »
(« templates ») rassemblant sous un format relationnel simple les « faits » extraits des textes.
Les « MUC » (Message Understanding Conferences): dans les années 90, série de campagnes d’évaluation (US) ayant joué un rôle déterminant dans le progrès des méthodes et des traitements.
« On sait ce qu’on cherche, où le chercher, et (à peu près) sous quelle forme »
3
Exemples de textes et d’informations à extraire
Exemple 1 : ( veille technologique)Corpus : Articles de revues sur l'industrie des semi-
conducteursInformation extraite : Nature chimique des dépôts,
épaisseur des couches, température de dépôts, dépositaires du procédé
Exemple 2 : (veille économique)Corpus : articles de journaux [± spécialisés], dépêches
d'agences…Information extraite :Joint ventures (MUC 5, 1993) ou autres opérations
financières Mouvements dans la direction des sociétés (MUC 6, 1995)
4
Exemple 3 : (informations politiques)Corpus : Articles de presseInformation extraite : Descriptifs
d'attentats terroristes (MUC 3, 1991)
Exemple 4 : (informations médicales, épidémiologie)Corpus : C.R. d’hospitalisationInformation extraite : pathologie, examens,
interventions, résultats (Projet Européen Ménélas)
5
Exemples de « templates »
Exemple 3 : Attentats terroristes (MUC 3, 1991)
6
7
Extraction d’information Passer du texte à la base de données (veille technologique,
économique…)
Opération : nouveau produitSociété: Trusted LogicMatériel : Trusted NFC platformUsage : Google Android
Opération : nouveau produitSociété: ASKMatériel : contactless USB readerUsage : home or desk
8
Opération : prise de participationAuteur : CDC EntrepriseCible : Nom :OpenPortal Software
Activité : Editeur de logicielMontant : 1,5 MEuros
Opération : acquisitionAuteur : Nom : Grand Chaix de France
Activité : producteur de vinsCible : Nom : Sauvion
Activité : Négociant en vinsMontant : —
9
Exemple 2 : Mouvements dans la direction des sociétés (MUC 6, 1995)CHARLOTTE, N.C., Sept. 13 ICNWI ‑ United Dominion
Industries Ltd. (NYSE, TSE: UDI), a manufacturer of diversified engineered pro ducts, today announced the appointment of John G. MacKay, 56, to the newly created position of executive vice president‑Europe.
Mr. MacKay, who has been president of United Dominion's Industrial Products Segment, will be responsible for working with various operating units and the corporate staff to enlarge the company's presence in Europe through acquisitions, joint ventures and other strategic alliances. He will be based in Europe at a site to be determined.
10
MUC‑style templates can be produced in french or english language, from either input text : <SUCCESSION‑EVENT‑c2O97. english .txt‑16> :=
ORGANIZATION:<ORGANIZATION‑c2O97.english.txt‑43>POST: "executive vice president"PERSON: <PERSON‑c2O97. english .txt‑48>VACANCY‑REASON:OTH‑UNK
<ORGANIZATION‑c2O97. english .txt‑43> :=NAME: "United Dominion Industries Ltd."ALIAS: "United Dominion"
"UDI"TYPE: COMPANY
<PERSON‑c2O97. english .txt‑48> :=NAME: "John G. MacKay"ALIAS: "MacKay"TITLE: "Mr."
11
The system produces identical summaries from both these texts, in English:
United Dominion Industries Ltd. appoints John G. MacKay as executive vice president.
and in French: United Dominion Industries Ltd. nomme John G. MacKay vice‑président di recteur.
12
Chaîne de traitement documentaire
• En amont : sélection des textes (dépêches, articles…) pertinents dans un « flux » ou une base documentaire : méthodes de RD.
• Traitements linguistiques, remplissage des « templates », stocké dans un format de type BD (en gardant les liens vers les textes d’origine)
• Interrogation possible en LN (en utilisant +/- le même analyseur)
13
Exemple de chaîne de traitements : Scisors
14
Analyse linguistique :
• Adapter le schéma général de la C.A. pour traiter de vrais textes
• Combiner approches top-down et bottom-up
But: fiches à remplir
Texte
BOTTOM-UP
Analyseslinguistiques (syntaxe, sémantique…)
TOP-DOWN
Connaissancesdu domaine, Recherche d’ «éléments pertinents» dans le texte (« attentes »)
FRUMP (1982)Lexique, apprentissage…
Patrons d’extraction
TACIT LASIE
- Généricité +
15
Schéma général d’un système d’EI « actuel »
Prétraitements
- Tokenisation- Correction orthographique- Extraction des entités nommées
I
Analyse linguistique
- Analysemorphologique- Analyse syntaxique- Analyse sémantique- Analyse du discours
II
Instantiation des formulaires- Identification des entités et événements- Remplissage des champs - Inférences
III
16
II. Méthode « des patrons d’extraction »
17
Exemple
19 Mars – Une bombe a explosé ce matin près d’une centrale électrique à San Salvador. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. L’attentat est attribué au FMLN par M. Ramirez, chef de la police de la ville.
18
Préliminaires :Observation un corpus significatif pour définir le micro-domaine et le format des
fiches
Type d ’attentat : attentat à l ’explosif
Date : 19 Mars 1982Lieu : pays = El Salvador, Ville = San
SalvadorAuteur : FMLNCible humaine : NonCible physique : centrale électriqueEffet : graveEngin explosif : bombe
19
Types d ’entités :Personnes (fonctions…)Organisations politiques.Bâtiments (installations industrielles…)Engins explosifs et armes (bombes,
véhicules piégés…)Lieux géographiques, dates.
Evénements : Nature : AttentatsAttributs : cible (humaine/physique),
instrument, auteur, gravité…
20
Analyse linguistique
• Analyse morphologique (lemme + flexion + catégorie) + Entités nommées (« noms propres » étendus)
• Analyse syntaxique et sémantique locale (groupes nominaux) --> Entités
• « patrons d ’extraction » --> Evenements
• Discours : Coréférence, temps …
21
Traitement linguistique (1) : Analyse Morphologique ...
19 Mars – Une bombe a explosé ce matin, à 6:50 près d’ une centrale électrique à San Salvador. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. L’ attentat est attribué au FMLN par M. Ramirez, chef de la police de la ville.
22
… et Entités nommées
[e.n. Date-jour 19 Mars ] – Une bombe a explosé ce matin, à [e.n. Date-heure 6:50 ] près d’ une centrale électrique à [e.n. géo-ville/pays
San Salvador ]. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. L’ attentat est
attribué au [e.n. acro Orga.pol. FMLN ] par [e.n. pers. M. Ramirez ], chef de la police de la ville.
23
(2) Analyse syntaxique locale : groupes nominaux (entités)
[19 Mars ] – [gn e1 Une bombe] a explosé ce matin, à [6:50 ] près d’ [gn e2 une centrale
électrique ] à [en e3 San Salvador ]. [gn e4
La charge de forte puissance ] a gravement endommagé [gn e5 la centrale ], ….
e1 : bombe e3 : ville e2 : centrale_elect
e4 : charge_explosive (qualif : puissance = forte)
e5 : centrale_elect
24
(3) Evénements : Recherche de « Patterns »Un mixte d ’analyse syntaxique et sémantique sélective
orientée par le domaine et le but
[Une bombe] a explosé ce matin, à [6:50 ] près_d’ [une centrale électrique ] à [ San Salvador ]. [La charge de forte puissance ] a gravement endommagé [la centrale ], plongeant la ville dans le noir pendant plusieurs heures.
Pattern 1 :<engin> <vb : exploser> <prep : près_de>
<cible> {<lieu>}<engin> := <gn : bombe, charge, voiture piégée…
><cible> := <cible humaine> | <cible matérielle> <lieu> := prep_loc <e.n. géo>
25
(3) Evénements : Recherche de « Patterns »Un mixte d ’analyse syntaxique et sémantique sélective
orientée par le domaine et le but
[Une bombe] a explosé ce matin, à [6:50 ] près_d’ [une centrale électrique ] à [ San Salvador ]. [La charge de forte puissance ] a gravement endommagé [la centrale ], plongeant la ville dans le noir pendant plusieurs heures.
Pattern 2 : <engin> <atteindre> <cible>< atteindre > := <vb : toucher, endommager,
atteindre…>
26
(4) Coréférence
[e1 Une Une bombebombe] a explosé ce matin, à [6:50 ] près_d’ [e2 une centrale électrique ] à [e3 San Salvador ]. [e4 La La charge charge dede forteforte puissancepuissance ] a gravement endommagé [e5 la centrale ], plongeant [e6la ville] dans le noir pendant plusieurs heures.
e1 = e4 e2 = e5 e3=e6
27
Etape 3 : Remplissage des Fiches
[e1 Une bombeUne bombe] [EV1 a explosé ce matin], à [6:50 ] près_d’
[e2une centrale électrique ] à [e3 San Salvador ].
[e1 La charge de forte puissanceLa charge de forte puissance ] [EV2a gravement
endommagé] [e2 la centrale ], plongeant [e3 la ville] dans le
noir pendant plusieurs heures.
Evénements : Ev1 : exploser, engin = e1, cible : e2, lieu = e3Ev2 : atteindre, effet : grave, engin = e1, cible : e2 Ev1 = Ev2
28
Type d ’attentat : attentat à l ’explosif (Ev1)Date : 19 Mars 1982Lieu : pays = El Salvador, Ville = San Salvador (e3)Auteur : FMLNCible humaine : NonCible physique : centrale électrique (e3-e5)Effet : grave (Ev2)Engin explosif : bombe (e1)
Evénements et entités extraites : Ev1 : exploser, engin = e1-e4, cible :e2-e5, lieu = e3Ev2 : atteindre, effet : grave, engin = e1-e4, cible : e2-e5 Ev1 = Ev2
e1 : bombe e2 : centrale_electe3 : ville e4 : charge_explosive (qualif : puissance = forte)e5 : centrale_electe1 = e4 e3 = e5
29
Problème : Acquisition de ressources
• Un « goulot d ’étranglement » pour le portage sur de nouveaux corpus/tâches
• Outils d’exploration de corpus
• Apprentissage de classes sémantiques et de patterns
30
Idée : élargir les patterns par « similitude »• On part d’un ensemble de motifs pertinents
Une bombe a explosé près d’une centrale…Une centrale a été la cible d’un attentat à la voiture
piégée…
• On utilise des dictionnaires « sémantiques » (word net, Dicologique…) pour repérer des « équivalents » substituablesBombe = charge (explosive) = engin explosif…Installation industrielle hypéronyme de centrale
électrique…==> des patrons de même forme, avec un lexique + riche
• On cherche des motifs « similaires » par des « patrons à trous »X a explosé près de Y ==> nouvelles entités engin
(X) et cible(Y)Une bombe E ==> nouvel événement E de type
« exploser »
• Le système fournit un ensemble de « candidats » validés par le développeur
31
III. Autres architectures
• LASIE (Scheffield) : schéma « standard » de la compréhension automatique de texte– Analyse morpho-syntaxique et sémantique =>
Forme Quasi Logique (QLF)– Constitution des fiches
Avantages/désavantages+ Généricité- limites des analyses « tout venant » :
syntaxe, référence…
32
•TACIT (Caen) : Constats d’accidents automobiles
Texte A-11Le conducteur du véhicule B me doublant par la droite a accroché mon pare-choc avant droit et m’a entraîné vers le mur amovible du pont de Gennevilliers que j’ai percuté violemment. D’après les dires du témoin le conducteur du véhicule B slalomait entre les voitures qui me suivaient. Après m’avoir heurtée, il a pris la fuite et n’a pu être rejoint par le
témoin cité.
33
Texte A-11Le conducteur du véhicule B me doublant par la droite a accroché mon pare-choc avant droit et m’a entraîné vers le mur amovible du pont de Gennevilliers que j’ai percuté violemment. D’après les dires du témoin le conducteur du véhicule B slalomait entre les voitures qui me suivaient. Après m’avoir heurtée, il a pris la fuite et n’a pu être rejoint par le témoin cité.
Accident A-11Impacts : I1,I2
Impact I1Véhicules : V1,V2Autres_entités : —
Impact I2Véhicules : V1Autres_entités :“ Le mur amovible du pont de Gennevillier ”
Personne P1Identité : RédacteurA/B : AVéhicule : V1
Personne P2Identité : —A/B : BVéhicule : V2
Véhicule V1Type : —Conducteur: P1Parties_touchées : <pare_choc, avant, droite>
Véhicule V2Type : —Conduct : P2Parties_touchées : —
Constat et formulaires associés
34
Méthode : « partial (shallow) parsing »Combinaison :
– d’analyses linguistiques génériques « légères » et « sûres »:• Analyse morpho-syntaxique partielle « sûre » (J
Vergne) : chunks nominaux, rel. Sujet-Verb (± Verbe-Objet)
• Calcul de référence « sûr » : certains pronoms…– et de « ressources » spécifiques du corpus:
• schémas actanciels des « verbes de choc » => analyse syntaxico-sémantique restreinte à certaines propositions
• Informations sémantiques sur les EN et GN, Métonymie conducteur/véhicule
• ….
Avantages/désavantages+ exploite des analyseurs génériques fiables, et
seulement ceux-ci+ moins figé que les patrons (+ générique)- certaines étapes « ad hoc »
35
IV. Bilan, discussion(1) Evaluation
• Une nécessité (et un acquis des MUC)• Mesure quantitative des performances
Rappel (R) = nombre de réponses (champs slots) correctes / nombre de réponses attendues
Précision (P) = nombre de réponses correctes / nombre total de réponses
• Meilleurs résultats : R = 50-75% P = 70-85%70 à 80% des performances humainesVarie selon la complexité des textes et des fichesTACIT : P = 84 % R= 73% F-mesure = 78 %.
• A la limite des applications “industrielles”
36
Thème Indice de complexité
Rappel Précision
F-mesure
MUC-4 Attentats terroristes 1,87 62% 53% 55,93%
MUC-5 Fusion d'entreprise 2,67 57% 64% 52,75%
MUC-6 Changement d'un membre de direction
2,47 47% 70% 56,40%
MUC-7 Lancement d'engins spatiaux
2,44 67% 50% 57,14%
37
(2) Améliorations linguistiques
• Analyse morphologique et syntaxique (?)
• Calcul de la coréférence
• Temps (scénarios complexes : trouver la succession des événements, leurs dates…), localisation…
38
(3) Portage sur de nouvelles applications
• Etude du corpus : estimation de faisabilité, caractéristiques exploitables (« homogénéité »)
• Constitution de ressources (lexicales, patrons, grammaires spécifiques, customisation d’analyseurs…)
• Intérêt d’une analyse linguistique « générique » accompagnée d’une adaptation au corpus.
39
• Site des conférences TAC (Text Analysis Conferences) = ± suite de MUC
http://www.nist.gov/tac/publications/2008/index.html
• Et site général sur la recherche d’informations (Conférences TREC)
http://trec.nist.gov/