extraction dinformations spatiales et linguistiques dans les documents laurence likforman, pascal...
TRANSCRIPT
Extraction d’Informations Spatiales et Linguistiques
dans les Documents
Laurence Likforman, Pascal Vaillant, G. Chollet
ENST/TSI et CNRS-LTCI46 rue Barrault
75634 PARIS cedex 13
2
Plan
Majordome / Assistant Multimodal Intelligent Traitement des Télécopies Extraction d’informations spatiales Traitements Linguistiques bas niveaux Perspectives
3
Accès, Communication
Désir d’accéder à l’information à travers le téléphone sur INTERNET
Besoin de communiquer messagerie
4
«MAJORDOME»
messagerie unifiée intelligente
Projet Eureka no 2340
EDFHolistique
G. Chollet, K. Hallouli , J. Kharroubi, D. Kofman, L. Likforman, D. Petrovska, M. Sigelle, P. Vaillant, F. Yvon
5
Qu’est-ce qu’un Majordome ?
messages entrants vocal mèl télécopies
serveurtraitement des messages
accès aux messages
téléphone terminal
authentification, dialogue,routage, résumés,mises a jour, agenda
pagerPDA
6
Le Majordome individuel
7
Adaptation à l’utilisateur
Serveur multi-utilisateurs : diriger les messages vers le bon utilisateur
Capacité d’identifier le destinataire des messages, quand différents messages arrivent à un numéro unique (tel. ou fax.)
Capacité d’authentifier l’utilisateur lors de l’accès à sa messagerie
Fournir à l’utilisateur des paramètres personnels (carnet d’adresses, agenda …)
8
Adaptation au canal d’accès
Accès par le web : le contenu de la boîte aux lettres « unifiée »
peut être affiché de manière synthétique possibilités étendues de navigation les documents visuels sont présentés dans
leur mode naturel Accès par téléphone :
nécessité de condenser l’information, même lors de la lecture de la liste des messages
nécessité de résumer les messages importants
9
Adaptation à la modalité des messages
Mode de présentation natif : au téléphone pour les messages vocaux, sur écran pour les méls ou les fax
Transformations nécessaires dans les autres cas Messages vocaux transmis sous forme de fichiers Méls ou fax « lus » (synthèse TTS) au téléphone
Pour la détection des infos essentielles (expéditeur, date, sujet, mots-clés) : En-têtes normalisés (ex. RFC-822) pour les méls Fax, voix : aiguille dans une botte de foin
10
Traitements
11
Traitement des Télécopies
Recherche d’informations ciblées :consultation du message adaptée au medium de communication
Objectif : routage, transmission d’informations-clés
Recherche du nom de l’expéditeur : Analyse spatiale Analyse linguistique Combinaison des 2 critères
P. Vaillant, L. Likforman
12
Expéditeur
Destinataire
Mots clés
Télécopies
13
Analyse spatiale
Repérage de la zone NOM EXPEDITEUR
Extraction tolérante de mots clés par classe
Nom : NOM/NAME/ Expéditeur : FROM/EXPEDITEUR/DE Destinataire : TO/A/
14
Analyse spatiale : critères perceptifs
15
Traitement Linguistique
Objet : traiter des données de nature linguistique Limites : la partie purement OCR (resp.
phonétique) relève de la reconnaissance de l’écrit (resp. de la parole)
Applications : extraction automatique d’informations-clés(expéditeur, destinataire, date, objet, mots-clés) résumé automatique catégorisation : filtrage et routage des messages
16
Techniques d’analyse linguistique
Objectif de Majordome : traiter les messages en temps réel Pas d’utilisation extensive des techniques
coûteuses du domaine T.A.L. (parsing …) Techniques « bas niveau », rapides et
efficaces : repérage de formes grammaires locales outils statistiques
17
Repérage de composants-clés
Repérage des noms propres (1) Indices internes :
majuscule au début, ou tout en capitales présence dans un dictionnaire de noms propres absence dans un dictionnaire de mots communs caractéristiques mophologiques internes plus
fréquentes parmi les noms propres (noms de famille) que parmi les noms communs ; ex. composés avec préfixes « Le- » ou « Du- », suffixes « -eur » ou « -ault » …
18
Repérage de composants-clés
Repérage des noms propres (2) : Indices externes :
présence, dans le contexte local du mot, de marqueurs d’identité (« M. », « Mme », « Dr. » …)
présence, dans le contexte de la phrase, d’indices grammaticaux, comme l’apposition du GN (« le député RPR Thierry Mariani […] »)
présence, dans le meilleur des cas, de marqueurs de fonction par rapport au message (« Expéditeur », « Destinataire », …)
19
Repérage de composants-clés
Repérage de mots-clés : mots apparaissant dans le contexte d’une
ligne « Objet » ou « Titre » … mots de fréquence relative élevée(fréquence relative = fréquence dans le
document analysé / fréquence dans un corpus général de la langue)
20
Résumé automatique
Mesure pour chaque phrase d’un « score » de représentativité (% de mots-clés)
Extraction des phrases ayant leur score au-dessus d’un seuil donné
Concaténation des phrases choisies
Résultat : texte parfois peu esthétique, mais généralement lisible et compréhensible(étude réalisée par Aude Acoulon)
21
Catégorisation de textes
Les genres se manifestent souvent par des caractéristiques globales (présence excessive de ponctuations « ! » ou « ? » dans les messages publicitaires, nombre moyen de lettres par mot plus élevée dans les textes scientifiques, etc.)
Méthode : mesure d’un certain nombre de ces
caractéristiques dans des corpus d’apprentissage
max. variance + régression linéaire discriminateurs
22
Techniques utilisées (1)
Techniques de représentation de lexiques à accès rapide :
Arbres binaires de recherche équilibrés, un mot par nœud, ordre alphabétique : stockage d’un lexique avec infos sur les entrées temps d’accès réduit (log 2, taille du lexique)
Tries (graphes acycliques directs), une lettre par arc temps d’accès minimal (linéaire, taille des mots) recherche floue (calcul de distance pendant le
parcours)
23
Techniques utilisées (2)
Techniques statistiques : calcul de fréquences d’occurrences de caractères de digrammes (séquences de 2 caractères) de trigrammes (séquences de 3 caractères) de mots de séquences de 2 mots
Calcul de fréquences de co-occurrences Ex. fréquence d’occurrence de 2 mots dans
une fenêtre contextuelle de n mots
24
Techniques utilisées (3)
Application de règles de grammaires locales Contexte très réduit :
Ex. séquence « Mme » + Chaîne1 + Chaîne2 Chaîne1 appartient à un dictionnaire de
prénoms Chaîne2 est en capitales
Chaîne2 est un nom de famille
25
Fusion données spatiales et textuelles
Création d’un tableau de paires (mot, zone) N.B. Certaines zones (smears) n’ont pas de mot
(ex. logos, signatures, zones manuscrites …) Pour chaque entrée, stockage d’informations
obtenues par des traitements sur l’image (ex. zone expéditeur) et d’informations obtenues par des traitements sur le texte (ex. mot en capitales, prénom, mot de grande fréquence relative) pondération indice de confiance pour la détection
26
Résultats