la situation actuelle : coexistence de « tunnels méthodologiques»

12
Lyon Janvier 2007 La situation actuelle : Coexistence de « tunnels méthodologiques» Les corpus textuels sontm is en form e sous des formats propres pour des traitements qui ne permettent pas l’échangederésultatsinterm édiaires Les résultats se présentent sous des formats qui ne permettent que très difficilementlescomparaisons.

Upload: aleda

Post on 27-Jan-2016

34 views

Category:

Documents


2 download

DESCRIPTION

La situation actuelle : Coexistence de « tunnels méthodologiques». Hétérogénéité des procédures 1. Hétérogénéité des procédures (2). Procédures de Type 1 Entièrement formalisables Procédures de Type 2 Nécessitant une intervention humaine Appuyées sur des ressources complexes. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: La situation actuelle :  Coexistence de « tunnels méthodologiques»

Lyon Janvier 2007

La situation actuelle : Coexistence de « tunnels méthodologiques»

Les corpus textuels sont mis en forme

sous des formats propres pour des traitements qui ne permettent pas l’échange de résultats intermédiaires

Les résultats se présentent sous des formats qui ne permettent que très difficilement les comparaisons.

Page 2: La situation actuelle :  Coexistence de « tunnels méthodologiques»

Lyon Janvier 2007

Hétérogénéité des procédures 1

Segmentation

Préparation des corpus textuels

Etape 1 Etape 2 Etape 3

Statistique

Textuelle

Interprétation

Résultats & commentaires

Page 3: La situation actuelle :  Coexistence de « tunnels méthodologiques»

Lyon Janvier 2007

Hétérogénéité des procédures (2)

Procédures de Type 1Entièrement formalisables

Procédures de Type 2Nécessitant une intervention humaine

Appuyées sur des ressources complexes

Page 4: La situation actuelle :  Coexistence de « tunnels méthodologiques»

Lyon Janvier 2007

Meta objets textométriquesLa segmentation

a) données grammaticales embarquées dans la séquence textuelle

Les [DETDEF LE] représentants [NOM REPRESENTANT] du [PREP-DET DE-LE] peuple [NOM PEUPLE] français [ADJ FRANCAIS]

b) données textuelles utilisant un balisage de type XML <mot><forme>Les</forme><cat>Detdef</cat><lemme>Le</lemme></mot>

<mot><forme>représentants</forme><cat>NOM</cat><lemme>REPRESENTANT</lemme></mot>

<mot><forme>du</forme><cat>PREP-DET</cat><lemme>DE-LE</lemme></mot>

<mot><forme>peuple</forme><cat>NOM</cat><lemme>PEUPLE</lemme></mot>

<mot><forme>français</forme><cat>ADJ</cat><lemme>FRANCAIS</lemme></mot>

c) étiquettes grammaticales présentées en colonnes d’un tableau

Forme Catégorie Lemme

Les représentants du peuple français

DetDef Nom PREP-DET NOM ADJ

LE REPRESENTANT DE-LE PEUPLE FRANCAIS

Page 5: La situation actuelle :  Coexistence de « tunnels méthodologiques»

Lyon Janvier 2007

Distance entre textes 1

Calcul d’une distance

Segmentation Identification Formalisation de la distance Formule de calcul

Jaccard, chi-deux, etc. Visualisations

2(j, j’) = (…)i

Page 6: La situation actuelle :  Coexistence de « tunnels méthodologiques»

Lyon Janvier 2007

Distance entre textes 2 <T=a1> aa abab bba ba ba abababr fdf av hh o o o hjhh oo oo bba ba ba abababr fdf av hh bba ba ba abababr fdf av hh o aa abab <T=a2> aa abab bba ba ba abababr fdf av hh o o o hjhh oo oo bba ba ba abababr fdf av hh bba ba ba abababr fdf av hh o o<T=a3> bab bba ba ba abababr fdf av fdf av hh bba ba ba fdf

a1 a2 a3 …. an

delalesetdes

yyzz a1 a2 a3 … an

a1a2a3

an

8978352815

0 1

9958452819

1 0

8258352420

0 0

7663382820

0 0

0.78.35

.35

0.35

.42

0

.56

.0

Page 7: La situation actuelle :  Coexistence de « tunnels méthodologiques»

Lyon Janvier 2007

Echange d’objets textométriques

Des procédures simples permettent de transformer les différents états d’un texte et de créer des états standardisés.

Les logiciels permettent d’exporter et d’importer à chaque étape du traitement des résultats intermédiaires.

Les résultats sont stockés sous des formats permettant à la fois leurs échanges et leurs réutilisations lors d’étapes ultérieures de traitement.

Page 8: La situation actuelle :  Coexistence de « tunnels méthodologiques»

Lyon Janvier 2007

Texte & structures

Segmentation Trame textométrique

il est un air

Page 9: La situation actuelle :  Coexistence de « tunnels méthodologiques»

Lyon Janvier 2007

Texte, structure & forme intégrée

Partitionsil est un air

Etiquettes

Annot. div.

Représentationintégrée

Page 10: La situation actuelle :  Coexistence de « tunnels méthodologiques»

Lyon Janvier 2007

Les sélections 1Les sélections 1types généralisés (Tgen)types généralisés (Tgen)

sous-ensemble d ’occurrences du corpussous-ensemble d ’occurrences du corpus

Exemples de Tgen(s) les occurrences d ’un segment répétés les cooccurrences de deux formes à l ’intérieur de

phrases. un ensemble de formes présentant un lien au plan

sémantique le résultat d ’un surlignage sélectif par un humain une classe de fréquence

Page 11: La situation actuelle :  Coexistence de « tunnels méthodologiques»

Lyon Janvier 2007

Les sélections 2Les sélections 2zones (ou topes)zones (ou topes)

sous-ensemble d ’occurrences du corpussous-ensemble d ’occurrences du corpus

Exemples de Topes une partie du corpus une section particulière (paragraphe, phrase, etc.) une zone mise en évidence lors d’une analyse. un ensemble de zones sélectionnées

Page 12: La situation actuelle :  Coexistence de « tunnels méthodologiques»

Lyon Janvier 2007

XML : Norme de stockage et d’échange des méta objets

Textes, textes balisés, textes catégorisés Segmentation Trame textométrique Localisation des occurrences d’une unité Partition du corpus textuel Tableau lexicaux, tableaux de segments Résultats d’analyses statistiques sur la

répartition dans les corpus d’objets textométriques