des textes aux associations entre les concepts qu’ils contiennent

13
Des textes aux associations entre les concepts qu’ils contiennent Yves Kodratoff, Jérôme Azé, Mathieu Roche, Oriane Matte-Tailliez LRI, Orsay

Upload: byron-nash

Post on 01-Jan-2016

12 views

Category:

Documents


1 download

DESCRIPTION

Des textes aux associations entre les concepts qu’ils contiennent. Yves Kodratoff, Jérôme Azé, Mathieu Roche, Oriane Matte-Tailliez LRI, Orsay. Processus global. Étiquetage + termes. Rowan. Terminologie. Corpus nettoyé. Classification conceptuelle. Shallow parser. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Des textes aux associations entre les concepts qu’ils contiennent

Des textes aux associations entre les concepts qu’ils contiennent

Yves Kodratoff, Jérôme Azé,

Mathieu Roche, Oriane Matte-Tailliez

LRI, Orsay

Page 2: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

2

Processus global

Corpus

Corpus nettoyé

TerminologieClassification conceptuelle

nettoyage

Étiquetage+ termes

Relations syntaxiques

Rowan

Extraction des règles d’association

Introductions d’articles de « Fouille de données »Tests psychologique de la société PerformanSe

Shallowparser

Page 3: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

3

Plan

• Extraction des associations entre concepts– Intensité d’Implication Normalisée– Moindre Contradiction– Sélection des règles intéressantes

• Expériences réalisées

• Conclusion et perspectives

Page 4: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

4

Extraction des connaissances

• Recherche de règles d’association de la forme A B

• Utilisation de mesures de qualité permettant d’extraire des règles peu contredites par les données (des pépites de connaissance)– Intensité d’Implication Normalisée [Lerman-Azé,

EGC’03]

– Moindre Contradiction [Azé-Kodratoff, EGC’02]

Page 5: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

5

Intensité d’Implication Normalisée

• Amélioration récente de l’Intensité d’Implication [Gras, 1979]

• Recherche de règles A B étonnament peu contredites par les données

A

B

Page 6: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

6

Principe de l’Intensité d’Implication

A

B

X

Y

nnnnnnn

qba

baba

ba

)(1)( baqBAII baq )( BAII

Défaut : converge rapidement vers 1 en fonction de n

Page 7: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

7

Amélioration apportée : IIN[Lerman-Azé, EGC’03]

• Modification de la mesure pour obtenir l’Intensité d’Implication Normalisée (IIN)

• IIN(AB) = • Meilleur comportement en fonction de n

)(

)('

ba

bababa q

qqq

)'(1 baq

Page 8: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

8

Moindre-Contradiction[Azé-Kodratoff, EGC’02]

b

baab

nnnBAmc )(

A

B

Page 9: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

9

Moindre-Contradiction

b

baab

nnnBAmc )(

A1

B1

A1

B2

mc(A1B1) > mc(A1B2)

Page 10: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

10

Sélection des règles intéressantes

• Proposer à l’expert les « meilleures » règles obtenues

• Pour chaque mesure, les règles telles que m(R) > (m) + (m) sont proposées à l’expert

Page 11: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

11

Résultats obtenus

• Etude de trois bases de données• Deux bases “ancrées” (Corpus PerformanSe et Corpus Fouille

de données)

• Une base “académique” (Mushrooms, UCI)

Bases de données IIN et MC IIN MC

« Fouille de données » 1 6 1

PerfomanSe 22 38 25

Mushrooms 108 363 224

Page 12: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

12

Conclusion

• Les règles trouvées par les deux mesures sont souvent validées par l’expert

• Présence de l’expert indispensable à tous les niveaux du processus

• Nécessité de minimiser les interventions de l’expert

Page 13: Des textes aux associations entre les concepts qu’ils contiennent

JDS 2003 - Session "Analyse de données textuelles"

13

Perspectives

• Prise en considération des données bruitées

• Extraction de règles plus « complexes »

• Validation plus large – autres corpus– autres experts