extraction dinformations spatiales et linguistiques dans les documents laurence likforman, pascal...

Extraction d’Informations Spatiales et Linguistiques

dans les Documents

Laurence Likforman, Pascal Vaillant, G. Chollet

[email protected]

ENST/TSI et CNRS-LTCI46 rue Barrault

75634 PARIS cedex 13

2

Plan

Majordome / Assistant Multimodal Intelligent Traitement des Télécopies Extraction d’informations spatiales Traitements Linguistiques bas niveaux Perspectives

3

Accès, Communication

Désir d’accéder à l’information à travers le téléphone sur INTERNET

Besoin de communiquer messagerie

4

«MAJORDOME»

messagerie unifiée intelligente

Projet Eureka no 2340

EDFHolistique

G. Chollet, K. Hallouli , J. Kharroubi, D. Kofman, L. Likforman, D. Petrovska, M. Sigelle, P. Vaillant, F. Yvon

5

Qu’est-ce qu’un Majordome ?

messages entrants vocal mèl télécopies

serveurtraitement des messages

accès aux messages

téléphone terminal

authentification, dialogue,routage, résumés,mises a jour, agenda

pagerPDA

6

Le Majordome individuel

7

Adaptation à l’utilisateur

Serveur multi-utilisateurs : diriger les messages vers le bon utilisateur

Capacité d’identifier le destinataire des messages, quand différents messages arrivent à un numéro unique (tel. ou fax.)

Capacité d’authentifier l’utilisateur lors de l’accès à sa messagerie

Fournir à l’utilisateur des paramètres personnels (carnet d’adresses, agenda …)

8

Adaptation au canal d’accès

Accès par le web : le contenu de la boîte aux lettres « unifiée »

peut être affiché de manière synthétique possibilités étendues de navigation les documents visuels sont présentés dans

leur mode naturel Accès par téléphone :

nécessité de condenser l’information, même lors de la lecture de la liste des messages

nécessité de résumer les messages importants

9

Adaptation à la modalité des messages

Mode de présentation natif : au téléphone pour les messages vocaux, sur écran pour les méls ou les fax

Transformations nécessaires dans les autres cas Messages vocaux transmis sous forme de fichiers Méls ou fax « lus » (synthèse TTS) au téléphone

Pour la détection des infos essentielles (expéditeur, date, sujet, mots-clés) : En-têtes normalisés (ex. RFC-822) pour les méls Fax, voix : aiguille dans une botte de foin

10

Traitements

11

Traitement des Télécopies

Recherche d’informations ciblées :consultation du message adaptée au medium de communication

Objectif : routage, transmission d’informations-clés

Recherche du nom de l’expéditeur : Analyse spatiale Analyse linguistique Combinaison des 2 critères

P. Vaillant, L. Likforman

12

Expéditeur

Destinataire

Mots clés

Télécopies

13

Analyse spatiale

Repérage de la zone NOM EXPEDITEUR

Extraction tolérante de mots clés par classe

Nom : NOM/NAME/ Expéditeur : FROM/EXPEDITEUR/DE Destinataire : TO/A/

14

Analyse spatiale : critères perceptifs

15

Traitement Linguistique

Objet : traiter des données de nature linguistique Limites : la partie purement OCR (resp.

phonétique) relève de la reconnaissance de l’écrit (resp. de la parole)

Applications : extraction automatique d’informations-clés(expéditeur, destinataire, date, objet, mots-clés) résumé automatique catégorisation : filtrage et routage des messages

16

Techniques d’analyse linguistique

Objectif de Majordome : traiter les messages en temps réel Pas d’utilisation extensive des techniques

coûteuses du domaine T.A.L. (parsing …) Techniques « bas niveau », rapides et

efficaces : repérage de formes grammaires locales outils statistiques

17

Repérage de composants-clés

Repérage des noms propres (1) Indices internes :

majuscule au début, ou tout en capitales présence dans un dictionnaire de noms propres absence dans un dictionnaire de mots communs caractéristiques mophologiques internes plus

fréquentes parmi les noms propres (noms de famille) que parmi les noms communs ; ex. composés avec préfixes « Le- » ou « Du- », suffixes « -eur » ou « -ault » …

18


Repérage des noms propres (2) : Indices externes :

présence, dans le contexte local du mot, de marqueurs d’identité (« M. », « Mme », « Dr. » …)

présence, dans le contexte de la phrase, d’indices grammaticaux, comme l’apposition du GN (« le député RPR Thierry Mariani […] »)

présence, dans le meilleur des cas, de marqueurs de fonction par rapport au message (« Expéditeur », « Destinataire », …)

19


Repérage de mots-clés : mots apparaissant dans le contexte d’une

ligne « Objet » ou « Titre » … mots de fréquence relative élevée(fréquence relative = fréquence dans le

document analysé / fréquence dans un corpus général de la langue)

20

Résumé automatique

Mesure pour chaque phrase d’un « score » de représentativité (% de mots-clés)

Extraction des phrases ayant leur score au-dessus d’un seuil donné

Concaténation des phrases choisies

Résultat : texte parfois peu esthétique, mais généralement lisible et compréhensible(étude réalisée par Aude Acoulon)

21

Catégorisation de textes

Les genres se manifestent souvent par des caractéristiques globales (présence excessive de ponctuations « ! » ou « ? » dans les messages publicitaires, nombre moyen de lettres par mot plus élevée dans les textes scientifiques, etc.)

Méthode : mesure d’un certain nombre de ces

caractéristiques dans des corpus d’apprentissage

max. variance + régression linéaire discriminateurs

22

Techniques utilisées (1)

Techniques de représentation de lexiques à accès rapide :

Arbres binaires de recherche équilibrés, un mot par nœud, ordre alphabétique : stockage d’un lexique avec infos sur les entrées temps d’accès réduit (log 2, taille du lexique)

Tries (graphes acycliques directs), une lettre par arc temps d’accès minimal (linéaire, taille des mots) recherche floue (calcul de distance pendant le

parcours)

23


Techniques statistiques : calcul de fréquences d’occurrences de caractères de digrammes (séquences de 2 caractères) de trigrammes (séquences de 3 caractères) de mots de séquences de 2 mots

Calcul de fréquences de co-occurrences Ex. fréquence d’occurrence de 2 mots dans

une fenêtre contextuelle de n mots

24


Application de règles de grammaires locales Contexte très réduit :

Ex. séquence « Mme » + Chaîne1 + Chaîne2 Chaîne1 appartient à un dictionnaire de

prénoms Chaîne2 est en capitales

Chaîne2 est un nom de famille

25

Fusion données spatiales et textuelles

Création d’un tableau de paires (mot, zone) N.B. Certaines zones (smears) n’ont pas de mot

(ex. logos, signatures, zones manuscrites …) Pour chaque entrée, stockage d’informations

obtenues par des traitements sur l’image (ex. zone expéditeur) et d’informations obtenues par des traitements sur le texte (ex. mot en capitales, prénom, mot de grande fréquence relative) pondération indice de confiance pour la détection

26

Résultats