clerc frédéric commerot sami croguennec julien garnier nicolas mignÉ vincent vaillant laurent

31
CLERC Frédéric CLERC Frédéric COMMEROT Sami COMMEROT Sami CROGUENNEC Julien CROGUENNEC Julien GARNIER Nicolas GARNIER Nicolas MIGNÉ Vincent MIGNÉ Vincent VAILLANT Laurent VAILLANT Laurent Encadreur : DUCASSÉ Mireille Encadreur : DUCASSÉ Mireille Re Re cherche cherche mantique mantique d’ d’ In In formation formation Soutenance de Janvier

Upload: evelyn

Post on 14-Jan-2016

28 views

Category:

Documents


0 download

DESCRIPTION

Soutenance de Janvier. Re cherche Sé mantique d’ In formation. CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent Encadreur : DUCASSÉ Mireille. INTRODUCTION AU SUJET. Recherche d’information. ReSeIn : Re cherche Sé mantique d’ In formation - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

CLERC FrédéricCLERC Frédéric

COMMEROT SamiCOMMEROT Sami

CROGUENNEC JulienCROGUENNEC Julien

GARNIER NicolasGARNIER Nicolas

MIGNÉ VincentMIGNÉ Vincent

VAILLANT LaurentVAILLANT Laurent

Encadreur : DUCASSÉ MireilleEncadreur : DUCASSÉ Mireille

ReRecherche cherche SéSémantique mantique d’d’InInformationformation

Soutenance de Janvier

Page 2: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

2

ReSeIn : ReReSeIn : Recherche cherche SéSémantique d’mantique d’InInformationformation

But de la recherche d’information : développer des systèmes

capables de fournir à un utilisateur, qui interroge une base de

données

documentaire, les textes les plus pertinents.

Difficultés actuelles dans la recherche Internet (Google) : Ce que l’on cherche se trouve rarement dans les premières

réponses Temps souvent long avant d’obtenir ce que l’on recherche

INTRODUCTION AU SUJET

Recherche d’informationRecherche d’information

Page 3: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

3

Exemple d’applications du traitement automatique du langage naturel : Recherche documentaire Traduction automatique

Il est nécessaire pour ces applications d’acquérir un lexique

décrivant le sens des mots qu’elles manipulent.

Représentation sémantique (ie. basée sur le sens)

Des études linguistiques ont prouvé qu’il existe un lien sémantique

fort entre les noms et les verbes

La représentation des couples qualia utilise ce lien

Le couple qualia est l’élément central du projet

INTRODUCTION AU SUJET

SémantiqueSémantique

Page 4: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

4

Couple qualia : Fait l’objet d’études linguistiques Extrait du Lexique Génératif développé en 1995 par J. Pustejovsky Définition : association d’un nom et d’un verbe qui sont liés par le sens

Exemple : le nom livre Couple (livre,lire) : rôle de but ou de fonction Couple (livre,écrire) : rôle de création etc …

Utilité de ces couples dans la recherche d’information

Exemple : reformulation de requête

« Magasin de disques » « Vendre des disques »

avec le couple qualia (magasin,vendre)

INTRODUCTION AU SUJET

Couple qualiaCouple qualia

Page 5: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

5

Intérêt de la récupération automatique des couples qualia pour les

linguistes

Point de départ du projet : prototype de recherche de Vincent

Claveau [IRISA,TEXMEX] permettant cette récupération

But du projet :

Correction des bogues du prototype

Mise en place d’une interface pour faciliter son utilisation par les

linguistes

Réalisation d’une application Web utilisant les couples qualia

PRÉSENTATION DU PROJET

Prototype de recherchePrototype de recherche

Page 6: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

6

1-Introduction au sujet

2- Présentation du projet

3- Le Prototype

4- La Spécification

5- Bilan

PRÉSENTATION DU PROJET

PlanPlan

Page 7: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

7

LE PROTOTYPE

Fonctionnement Global (1/3)Fonctionnement Global (1/3)

ApprentissageProgrammation Logique

Inductive (Aleph)corpus

exemplespositifs

Expertslinguistes

exemplesnégatifs

exemple :(...) je pense aller au magasinpour acheter des disques (...)

exemples :qualia(magasin, acheter).qualia(disque, acheter)....

exemples :non_qualia(magasin, penser).non_qualia(disque, aller)....

Page 8: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

8

LE PROTOTYPE

Fonctionnement Global (2/3)Fonctionnement Global (2/3)

ApprentissageProgrammation Logique

Inductive (Aleph)

exemplespositifs

exemplesnégatifs

exemples :qualia(magasin, acheter).qualia(disque, acheter)....

exemples :non_qualia(magasin, penser).non_qualia(disque, aller)....

règles

exemple :est_qualia(Nom,Verbe) si :- distance entre Nom et Verbe < 4 mots- Verbe = verbe d’action- Nom = lieu...

Page 9: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

9

LE PROTOTYPE

Fonctionnement Global (3/3)Fonctionnement Global (3/3)

règles

exemple :est_qualia(Nom,Verbe) si :- distance entre Nom et Verbe < 4 mots- Verbe = verbe d’action- Nom = lieu...

Extraction

corpus

couplesqualia

exemples :qualia(magasin, acheter).qualia(disque, acheter).qualia(magasin, vendre).qualia(album, vendre).qualia(disque, vendre)....

exemple :(...) Le magasin de disque vend bien le dernier album de Lorie (...)

Page 10: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

10

LE PROTOTYPEFonctionnement Global : Fonctionnement Global : RécapitulatifRécapitulatif

règles Extraction couplesqualia

ApprentissageProgrammation Logique

Inductive

exemplespositifs

exemplesnégatifs

Expertslinguistes

corpus

Page 11: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

11

LE PROTOTYPE

Données nécessaires en entrée Données nécessaires en entrée d’apprentissage : le Corpusd’apprentissage : le Corpus

corpus : texte ou recueil de textes relatif à un domaine spécifique

servant à

une étude linguistique.

contraintes (pour le traitement par le prototype) :

taille conséquente (au moins 100.000 mots)

en français uniquement

style non-littéraire de préférence (phrases concrètes)

termes techniques propres au domaine fréquemment utilisés

nécessité d’avoir un étiquetage syntaxique et sémantique

des mots

Page 12: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

12

LE PROTOTYPEDonnées nécessaires en entrée Données nécessaires en entrée d’apprentissage : le Corpus d’apprentissage : le Corpus étiquetéétiqueté

1385\1 TOK Le le#det_sg\ddef1385\4 TOK marché marché#noun_sg\acy1385\11 TOK du de#prep\rde1385\14 TOK disque disque#noun_pl\art1385\21 TOK devrait devoir#verb_sg\mod1385\29 TOK reculer reculer#verb_inf\acp1385\37 TOK cette ce#det_sg\ddemon1385\43 TOK année année#noun_sg\tme1385\48 PTERM_P . EOS .#sent\sent

Exemple de phrase : “Le marché du disque devrait reculer cette année.”

Problème : utilisation du logiciel payant Cordial7

Page 13: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

13

Exemples Positifs E+ (resp. Négatifs E-) : couples Nom-Verbe présents dansle corpus et certifiés par un expert linguiste comme qualia (resp. non qualia).

clauses Prolog totalement adaptées

LE PROTOTYPE

Données nécessaires en entrée Données nécessaires en entrée d’apprentissage : les Exemplesd’apprentissage : les Exemples

exemple :is_qualia(magasin,acheter) :-

phrase entière d’où est tirée l’exempleavec l’étiquetage associé à chaque mot.

format :is_qualia(N,V) :-tags(et_debut,tc_vide,ts_vide),tags(NomN,tagSyntaxiqueN,tagSemantiqueN),pred(NomN,et_debut),tags(V,tagSyntaxiqueV,tagSemantiqueV),pred(N,V),...

Pour un bon apprentissage : 3.000 ex. positifs et 3.000 négatifs pour 100.000 mots très fastidieux pour les experts linguistes solution alternative automatisée : le Bootstrapping

Page 14: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

14

LE PROTOTYPEL’apprentissage : Approche L’apprentissage : Approche généralegénérale

Obtention de règles généralisant les exemples positifs en excluant les exemples négatifs

Utilise la programmation logique inductive, système Aleph (implémenté en Prolog)

Objectif : construire des règles permettant d’extraire automatiquement les couples qualia à partir du corpus

Page 15: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

15

LE PROTOTYPE

L’apprentissage : SchémaL’apprentissage : Schéma

ApprentissageAleph

règles

E+

E-

BackgroundKnowledge

En entrée : E+ et E-, les exemples B, le Background knowledge, ensemble de connaissances élémentaires

En sortie : les règles

Page 16: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

16

LE PROTOTYPE

L’apprentissageL’apprentissage

description syntaxique des différents types de mots : common_noun(W) :- plural_common_noun(W).verb(W) :- infinitive(W).

description sémantique des différents types de mots :common_noun(W) :- artefact(W).verb(W) :- action_verb(W).

prédicats d’ordre et de distance (propriétés entre les mots) :precedes(V,N) :- distance(N,V,X,_).near_verb(N,V) :- distance(N,V,_,1).

L’apprentissage : L’apprentissage : Le Background KnowledgeLe Background Knowledge

Page 17: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

17

LE PROTOTYPE

L’apprentissage : algorithmeL’apprentissage : algorithme

1. Choix de manière aléatoire d’un exemple positif e dans E+. Si E+ est vide, arrêt.

2. Construction d’un espace de recherche H

Construction du treillis correspondant à e

┬ clause la plus générale

┴ clause la plus spécifique (e)

3. Chercher dans H la règle h qui a le score le plus élevé

fonction de score = nb de E+ couverts – nb de E- couverts

4. Retirer à E+ tous les exemples couverts par la règle h. Aller à l’étape 1.

e

is_qualia(A,B)

Page 18: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

18

LE PROTOTYPE

Extraction des couples qualiaExtraction des couples qualia

Extraction = exécution directe des règles Prolog sur les faits

Obtention des couples qualia (Nom, Verbe) vérifiant les règles

Extractioncouplesqualia

Règles prolog générées par Aleph

(Apprentissage)

Corpus étiqueté sous forme

de faits Prolog

Page 19: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

19

Page 20: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

20

Page 21: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

21

Page 22: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

22

Page 23: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

2323

Le prototype est un programme en ligne de commande

Création d'une interface et d'un assistant d'installation

Un seul corpus est disponible

Recherche et création d'un nouveau corpus

Utilisation concrète des couples qualia

Spécification d'une application Web

SPÉCIFICATIONS

IntroductionIntroduction

Page 24: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

2424

But :

Convention dans le cadre d'une distribution d'un produit

Simplifier la procédure d'installation qui est contraignante

Installation possible par un linguiste sans intervention de

l'administrateur

Conception :

Une interface qui guide l'utilisateur

Un assistant pas à pas

Possibilité de voir le déroulement détaillé de l'installation

SPÉCIFICATIONS

Installation AutomatiqueInstallation Automatique

Page 25: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

2525

Pourquoi ?

Interface du prototype en ligne de commande et

rebutante.

Souci d'avoir un logiciel exploitable par un linguiste.

Une valeur ajoutée pour la distribution :

Des fonctionnalités supplémentaires :

• Affichage du corpus

• Sauvegarde facilitée des informations

Faciliter la manipulation des données utilisées

par le protoype :

• Les fichiers d'exemples notamment.

SPÉCIFICATIONS

Interface PrototypeInterface Prototype

Page 26: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

2626

Conception :

Choix d'une interface avec des onglets.

Chacun des onglets représente un module ou un prérequis précis du prototype.

Parties de l'interface :1 : Menu2 : Onglets3 : Bouton d'aide4 : Operation suivante

SPÉCIFICATIONS

Interface PrototypeInterface Prototype

Page 27: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

27

Motivations :

Tester le prototype en profondeur

Avoir une utilisation personnelle

pour notre projet

Conditions :

Texte sans fautes d’orthographe

Contraintes par rapport à l’étiquetage

SPÉCIFICATIONS

Nouveau corpusNouveau corpus

Page 28: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

28

SPÉCIFICATIONS

Nouveau corpus sur le sportNouveau corpus sur le sport

Nouveau domaine choisi : le sport

Listing des sports : Sports collectifs Sports individuels Sports mécaniques Sports de combat Sports extrêmes

Taille du corpus : 180 000 mots environ

Source : Internet

Page 29: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

29

But de l’application : Aider un utilisateur dans ses recherches sur Google Lui proposer des sites plus ciblés sur sa requête Prendre en compte la généralité de certaines requêtes Avoir une application concrète pour le prototype

Conception : Stockage des couples qualia dans une base de données Classement des couples en fonction de leur

pertinence

SPÉCIFICATIONS

Application WebApplication Web

Page 30: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

30

SPÉCIFICATIONS

Application Web : ExempleApplication Web : Exemple

Page d’aide à la recherche : On propose à l’utilisateur de

compléter

sa requête, avec les couples qualia

Requête initiale :

buteur France Brésil

Buteur :

1 – marquer

2 – jouer

3 – tirer

4 – gagner

5 – manquer

Résultats :

Avec ces choix, l’utilisateur obtient une nouvelle requête :

(buteur OU marquer)ET(France Brésil)

Cette nouvelle requête est directement envoyée vers la page de résultats de Google

Page 31: CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent

31

Apports : Création de rapports (Latex) Test d’un logiciel Découverte de la complexité des algorithmes Utilisation concrète de Prolog

Difficultés de mise en œuvre : Lenteur du prototype pour récupérer les couples qualia Nécessité d’utiliser Cordial7 (logiciel sous licence) au préalable

Limite du Projet : Couples qualia spécifiques à un domaine précis

Interrogations sur la validation des résultats : Pertinence des couples qualia obtenus à partir de notre corpus ? Validation de l’interface par les linguistes ? Efficacité de l’application Web dans la recherche d’informations ?

BILAN

Conclusion & Interrogations Conclusion & Interrogations