linguistique de corpus. détails administratifs enseignants: amalia todirascu ([email protected]),...
TRANSCRIPT
Linguistique de corpus
Détails administratifs Enseignants: Amalia Todirascu
([email protected]), Daniela Capin, François Rousselot
salle informatique 4S.12, bâtiment 4 au sous-sol
des séances de 3 heures 13.10, 03.11, 10.11, 17.11, 24.11, 01.12,
08.12, 15.12 évaluation: contrôle continu sur
machine (2x1h)
Plan Mise en place des notions:
Corpus: définition, exemples, formats Apport théorique: utilisation d'un
concordancier simple AntConc Concordancier : définition,
fonctionnement, fonctions génériques Utilisation d'AntConc, concordancier
gratuit Corpus en ligne: Frantext
Plan (II) Le concordancier Xaira : exploitation de
données en format XML Mesures statistiques Corpus étiquetés
Etiquetage des textes : notions fondamentales, difficultés, outils
Utilisation de Wordsmith, concordancier permettant des recherches sur des textes étiquetés.
Exploitation des informations syntaxiques avec TigerSearch
Corpus: définitions, exemples, formats
Mise en place des notions
Définition des corpus Corpus ou bases textuelles existants Constitution de corpus
i. exemples concrets de problèmes de recherche : linguistiques – sociolinguistiques – historiques
ii. critères de sélection des corpus Formats des corpus: texte brut, langage
de balises (XML), annotations (TEI).
Qu'est-ce que c'est un corpus? Un corpus est un recueil de textes
ou de paroles en format électronique sélectionnés pour un objectif précis
"A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language" (Sinclair, 1996)
Pourquoi des corpus? étudier une phénomène linguistique
particulier vérifier les emplois "réels"
constituer des ressources linguistiques pour une analyse automatique
étudier l'évolution d'un dialecte ou d'une langue en diachronie introduction de mots nouveaux, changement
des formes comparer les travaux de deux auteurs
lexique, syntaxe, figures de style
Pourquoi des corpus (II)? retrouver toutes les informations liés à un
personnage historique ou à un pays relations avec d'autres personnalités, avec les
pays voisins, pour une période bien déterminée
analyser les sources d'un conflit social acteurs, causes du conflit, phases du conflit
vérifier les emplois pour la traduction rechercher les expressions pour voir si leur
utilisation est fréquente
Corpus Taille de corpus: variable selon l'application
Des millions de mots Quelques miliers de mots
Oral/écrit Annotations:
morpho-syntaxiques sémantiques commentaires
Texts complets ou fragments? Biber 1988: 1000 mots sont suffisants Habert 1993: texts complets
Corpus (II) disponibles en ligne ou téléchargeables
(peu de disponibilités :0( ) corpus "fermés", pas d'accès au texte
intégral outils d'exploration de corpus: les
concordanciers proposent les contextes d'un mot ou d'une
expression nécessitent l'apprentissage du langage
d'intérrogation – pas toujours facile
Exemples de corpus ou bases textuelles Français
Linguistique: base textuelle Frantext (textes littéraires et techniques)
http://www.frantext.fr Corpus oral C-ORAL-ROM
http://www.elda.org/en/proj/coralrom.html collection d'articles de journaux (L'Est républicain)
http://www.cnrtl.fr/corpus/ Sociolinguistique
corpus du français parlé à Ottawa-Hull http://www.sociolinguistique.uottawa.ca/materiel/canadien
-fa.html Sociologie: CLAPI
http://clapi.univ-lyon2.fr/feuilleter.php
Exemples de corpus multilingues
débats parlementaires (Parlement européen)
http://corp.hum.sdu.dk/cqp.fr.html corpus étiqueté, lemmatisé, disponible en
plusieurs langues: français, anglais, esperanto, danois, portugais,
espagnol
corpus de normes européenes (Acquis Communautaire) http://langtech.jrc.it/JRC-Acquis.html – disponible en 22 langues
Anglais Linguistique et TAL :
British National Corpus (http://www.natcorp.ox.ac.uk ) Brown Corpus
(http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/list/private/brown/brown.html)
Susanne (http://www.cs.cmu.edu/afs/cs/project/ai-repository/ai/areas/nlp/corpora/susanne/0.html)
Histoire : ASChart (http://www.aschart.kcl.ac.uk/) CELT Corpus of Electronic Texts ( http://www.ucc.ie/celt/ )
Sociolinguistique : Corpus of Early English Correspondence Sampler (CEECS)
(http://khnt.hit.uib.no/icame/manuals/ceecs/INDEX.HTM) Sociologie :
Homepage corpus (http://www.inf.uszeged.hu/rgai/homepagecorpus)
British National Corpus corpus de référence répartition uniforme de genres:
la partie écrite: le domaine: 75% de textes "informatifs", le reste
appartient à la fiction; le support: 60% livres, 30% périodiques, supports de
discours radio, télé etc. la datation: fiction (1960-1993), informatifs (1975-1993) la diffusion (meilleurs ventes, les ouvrages les plus
prêtés) la partie orale: echantillon démographique: âge,
sexe, groupe social, région (dates, environnement, participants)
Corpus en ligne – autres langues (I) Allemand
TüPP-D/Z (articles de journaux, 200 millions de tokens)
http://www.sfs.uni-tuebingen.de/en_nf_asc_resources.shtml
Deutsches Referenzkorpus (DeReKo) http://www.ids-mannheim.de/kl/projekte/
korpora/ Multilingue
Wortschatz http://corpora.informatik.uni-leipzig.de/ Corpus Oslo – 2,6 millions de mots
http://www.hf.uio.no/forskningsprosjekter/sprik/english/corpus/index.html
norvégien, anglais, français, italien
Corpus en ligne – autres langues (II) Corpus international du portugais – 1 million de mots
(http://cintil.ul.pt/index.jsp) Corpus pour de production écrite pour l’apprentissage
d’une langue étrangère – norvégien (http://ask.uib.no/index.page)
Corpus national croate (http://hnk.ffzg.hr/pretraga_en.html)
3,1 millions de mots Corpus bulgare
http://www.bultreebank.org/btbmorf/ 1 million de mots
Corpus littéraire – estonien (Multext-EAST) – 400000 mots (http://www.cl.ut.ee/korpused/morfkorpus/)
Bases textuelles Association des Bibliophiles Universels
(ABU) http://abu.cnam.fr/
Gallica (BNF) http://gallica.bnf.fr/
Les bibliothèques virtuelles humanistes http://www.bvh.univ-tours.fr/numerisation.asp
La bibliothèque virtuelle des manuscripts suisses http://www.e-codices.unifr.ch/fr
Bases textuelles vs. corpus documents en
format numérique recherche par des
critères "classiques" auteur, titre,
editeur, année la recherche plein
texte n'est pas toujours accessible
documents en format numérique
critères de sélection spécifiques, selon objectif
recherches avancées plein texte catégorie lexicale,
fonction syntaxique, information sémantique...
texte enrichi, documenté
Corpus électroniques Corpus électronique = un ensemble
de textes numériques qui sont sélectionnés sur des critères bien
définis (paramètres de Biber) documentés (nom de la personne qui
a numérisé le document, le format etc.)
couplés à des outils d'exploration (concordanciers)
Comment constituer son propre corpus? Developping Linguistic Corpora: a
Guide for Good Practices http://ahds.ac.uk/creating/guides/
linguistic-corpora/index.htm
Un exemple de constitution de corpus (sociolinguistique)
Étudier les moyens d’application d’une politique linguistique par les entreprises multinationales implantées en Alsace Corpus: entretiens avec plusieurs
acteurs impliqués dans la mise en place d’une politique linguistique (PDG, responsables des services, simple employés)
Méthodologie de travail identifier l'objectif de l'étude à
effectuer sur corpus définir des critères de sélection des
textes en fonction de son objectif identifier les sources pertinentes définir les aspects techniques:
le format des documents les informations d'annotation les outils nécessaires pour rassembler les textes
et pour les annoter nettoyer le corpus constitué
Critères de sélection des textes typologie des textes, genres et registres
(D.Biber,1999) types de textes: ensemble de
caractéristiques linguistiques narratif, argumentatif, descriptif
genre/registre: catégories intuitives qui utilisent les locuteurs pour répartir les productions langagières
thèmes formes de textes
Critères de sélection (II)
Paramètres situationnels (Biber 1999) canal: écrit/parlé/écrit lu; format: publié/non-publié; cadre: institutionnel/autre cadre public/
privé-interpersonnel destinataire
pluralité: pluriel/individuel/non-compté présence: présent/absent interaction: aucune/peu/beaucoup connaissances partagées:
générales/spécialisées/personnelles
Critères de sélection (III)
destinataire: variation démographique: sexe, age,
profession statut: individu/institution
Factualité informatif-factuel/intermédiaire/imaginaire
Objectifs persuader, amuser, édifier, informer,
expliquer, donner des consignes, etc. Thèmes=>documenter le corpus
annoter le corpus
Exemples de corpus constitué (I) Corpus Sociolinguistique
Source des textes: entretiens oraux transcrits
Critères de sélection: Canal: oral Interlocuteurs:
Fonction occupé dans l’entreprise, sexe, age, langues maîtrisées (bi ou plurilinguisme)
Cadre: institutionnel/privé Date Entreprise: caractère multinational
Exemple de corpus constitué (II) Format :
Fichiers en format texte brut Informations provenant de la
transcription (pauses, reprises etc.) Annotation:
Les locuteurs La date L’entreprise concernée
Méthodologie de travail identifier l'objectif de l'étude à effectuer sur
corpus définir des critères de sélection des textes
en fonction de son objectif identifier les sources pertinentes définir les aspects techniques:
le format des documents les informations d'annotation les outils nécessaires pour rassembler les textes
et pour les annoter nettoyer le corpus constitué
Où trouver des documents numériques?
Bibilothèques virtuelles faciliter la navigation utiliser des outils de recherche
spécialisés archiver et numériser des documents
outils de recherche (moteurs et méta-moteurs spécialisés)
portails spécialisés
Portail
une interface Web qui est le point d'accès unique vers plusieurs catégories de ressources disponibles sur Internet, sur un thème spécifique Pages Web Forums, listes de discussions Blog Moteurs de recherches dédiés a chaque site Catalogues en ligne
Portail (II) Quelques exemples
le portail de l'Education Nationale http://www.education.gouv.fr/
le portail des revues en SHS http://www.revues.org/
le portail du CNRShttp://www.drei.cnrs.fr
- le Bulletin Officielhttp://www.education.gouv.fr/pid230/textes-officiels.html
Bibilothèques virtuelles
Un portail regroupant des ressources ciblées Bases de données bibliographiques Accès aux revues électroniques Collection de documents numériques:
livres, images, vidéos etc. Possibilités avancées de navigation
et de recherche
Moteurs de recherches dédiés Moteur de recherche spécialisé pour la
recherche des livres http://books.google.com/
Moteur de recherche spécialisé – indexation des articles scientifiques http://scholar.google.com
HAL-SHS http://www.archives-ouvertes.fr/
Portails Actualités (GlossaNet http://glossa.fltr.ucl.ac.be/)
Le Web comme source le Web n'est pas un corpus!! taille importante
environ 76 milliards de mots (Kilgariff & Greffenstette 2003)
hétérogénéité pas de contrôle sur l'information publiée
disparité de ressources thématique langues
langage structuré – HTML
Techniques Aspiration directe d'un site
pertinence choix des documents propres Désavantage: il faut connaître les adresses
des sites exploiter les résultats des moteurs de
recherche automatisé, mais beaucoup des documents
inutiles plate-formes dédiées (Telanaute, projet
SAFIR, BootCat)
Problèmes
doublons inclusions des documents vérification manuelle du corpus
impossible si taille trop importante Pas de contrôle sur l’auteur du texte
documents indexés par les moteurs (taille variable de l'index)
Exercice: Un exemple de constitution de corpus
Un corpus constitué pour étudier les conséquences de la crise financière sur l’augmentation du chômage en France Quelle sources? Quels critères de sélection? Quelles informations annotés?
Format
en fonction de l'application utilisée pour créer les documents PDF, HTML (Page Web), document Microsoft
Word etc. extension du fichier = une indication sur
l'application à utiliser pour les lire txt – texte non-formaté pdf – Acrobat Reader doc – Microsoft Word html – Dreamweaver, Microsoft Word, Internet
Explorer Utiliser le logiciel approprié pour lire le
contenu et convertir vers d'autres formats
Formats (II) texte brut PDF texte enrichi d'annotation
Extended Markup Language – XML (délimitation de la zone du texte marqué par l'annotation)
format d'annotation de textes : TEI (Texte Encoding Initiative)
Formats - Exercice Ouvrez Microsoft Word tapez un texte dans le nouveau document,
avec des mises en forme simples (gras, italique, liste, etc.) enregistrer ce document dans le répertoire
"Mes documents" et sous divers formats (sélectionnez le menu Fichier|Enregistrer sous) et changez le Type du fichier:
document Word (doc) texte simple (Texte brut) RTF (Rich Text Format) HTML (PageWeb)
Formats – Exercice (suite) fermez Microsoft Word ouvrez les applications suivantes
et essayez de lire les fichiers que vous avez enregistré sous Word Acrobat Reader WordPad Bloc Notes Internet Explorer
Texte brut une suite de lettres et de chiffres, sans mise
en forme seulement le caractère nouvelle ligne
pas de mise en forme interprétable par tous les éditeurs de textes
tous systèmes d'exploitation: Windows, Linux, MacOS
code ASCII (limité à 128 caractères) plusieurs encodages possibles
LATIN-1 Unicode (UTF-8, UTF-7, UTF-16)
Format HTML Langage interprété par les
navigateurs Internet Visualisation du contenu et la
navigation Mise en forme: en gras, en couleurs
etc. Structuration du texte: paragraphes,
tableaux, liens vers d’autres pages…
Notion de balise Une balise permet de distinguer un
document HTML d’un fichier texte Les balises sont insérées dans le corps du
document Elles permettent de contrôler le formatage et
la présentation d’un document Mise en forme des paragraphes, insertion
d’images, insertion de liens hypertexte, tableaux …
Quatre balises sont obligatoires dans un document HTML <html>, <head>, <body>, <title>
Notion de balise (II) Une balise est encadrée par <…> et
peut avoir aussi une balise de fin </…> Les balises peuvent être imbriquées
mais elles doivent être fermées dans l’ordre inverse des balises d’ouverture Par exemple <font
size="+1"><b><i>texte</i></b></font>
Notion de balise (III) Une balise peut avoir trois formes
<nombalise> <br> passage à la ligne
<nombalise> … </nombalise> <b>texte à mettre en gras</b>
<nombalise attribut1="valeur_1"… attributn="valeur_n"> texte
</nombalise> <body bgcolor="#80fff" text="red">
le fond de la page sera de couleur bleu clair
Limites du langage HTML L’ensemble des balises est
prédéfini, mais limité à celui défini par le World Wide Web consortium http://www.w3.org
Seulement la mise en forme ou la structure du texte Pas de possibilité de marquer le
contenu
Texte annoté - XML XML – Extended Markup Language marquage de plusieurs zones de textes
pour: faciliter la recherche d'information faciliter le partage des connaissances
Même principe que le langage HTML On peut définir les balises adaptées à notre
propre application Annotation morpho-syntaxique Annotation sémantique (les noms de personnes,
d’organisations, de métiers)
Pourquoi XML? Structurer l'information
Identification du contenu des données Accessibilité
divers types de présentations de données (XSL)
interopérabilité des données re-utiliser les XML dans d'autres
applications possibilité de vérifier si le document est
valide: DTD, XML schémas définitions partagées
Texte annoté (II) Outils pour l’annotation en format
XML Annotea, Gate, Oxygène, XML Starlet,
Notepad++ Outils pour executer des requêtes
sur les balises XML Xaira, XQuery
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE corpus SYSTEM "def.dtd"> - <corpus>- <nouvelle lang="fr">- Solution à la crise financière et économique : L’intervention de l’Etat est
nécessaire, selon les rénovateurs La financière et économique dans laquelle est englué le monde ne peut être résolue que par le retour aux fondements de la social-démocratie dont l’un des principes majeurs est <solution>l’interventionnisme de l’Etat dans l’économie</solution>. Telle est la conviction de <organisation id="1">l’Union pour le renouveau démocratique </organisation> qui a réfléchi sur le sujet lors de son université d’hivernage du week-end.
Que doivent faire les socio-démocrates pour sortir de la crise ? A cette question, <Personne>Diégane Sène</Personne>, membre de la direction exécutive de <organisation id="1">l’Union pour le renouveau démocratique (Urd)</organisation> qui animait une conférence sur le thème : ‘Les recettes de la social-démocratie’ au deuxième jour de l’université d’hivernage de <organisation id="1">l’Urd</organisation>, tenue ce week-end, répond qu’il faut ‘retourner au fondement de la social démocratie’.
- </nouvelle> </corpus>
Un premier exemple d’annotation XML
Elements XML <corpus>, <nouvelles>,
<Personne>, <organisation>, <solution>
Attributs: Lang pour l’élément <nouvelles> Id pour l’élément <organisation>
Un premier exemple (II) Interprétation
Un document est constitué par un élément <corpus>
Un <corpus> est composé par un ou plusieurs éléments <nouvelles>
Un <nouvelles> est composé par plusieurs séquences de texte, par un ou plusieurs <organisation>, <Personne>, <solution>
MEXICO - Le Mexique s'est dit sur le point de maîtriser l'épidémie de grippe porcine, détectée dans vingt et un pays, mais l'Organisation mondiale de la Santé a averti lundi que le virus pourrait prendre sa revanche à l'automne. Aux Etats-Unis aussi, les autorités se sont montrées prudemment optimistes, tout en mettant en garde contre une seconde vague du virus à l'automne sous une forme plus virulente.
Malgré ces nouvelles rassurantes, l'épidémie continue de se propager, avec un nouveau cas annoncé lundi au Portugal et certains pays ont renforcé les mesures de protection.
L’Express, Date: lundi 4 mai 2009
<?xml version="1.0" encoding="ISO-8859-1"?><Lieu>MEXICO</Lieu> <épidémie><épisode><pays>Le Mexique</pays> s'est dit sur <état
type="maîtrise">le point de maîtriser l'épidémie</état> de <maladie>grippe porcine</maladie>, détectée dans vingt et un pays, mais <organisation>l'Organisation mondiale de la Santé</organisation> a averti lundi que <hypothèse>le virus pourrait prendre sa revanche à l'automne</hypothèse>
</épisode>. <épisode><pays>Aux Etats-Unis </pays>aussi, les autorités
se sont <état type="maîtrise">montrées prudemment optimistes</état>, tout en mettant en garde contre <hypothèse>une seconde vague du virus à l'automne sous une forme plus virulente</hypothèse>
</épisode>. <épisode>Malgré ces nouvelles rassurantes, <état
type="propagation">l'épidémie continue de se propager, avec un nouveau cas annoncé </état> <date>lundi</date> au <pays>Portugal</pays>
</épisode> <épisode>et certains pays <état type="prévention">ont
renforcé les mesures de protection.</état></épisode></épidémie><Source>L’Express</Source><Datepubli>lundi le 4 mai
2009</Datepubli>
Avantages du XML Structuration de l’information Définitions partagées Facilite le développement des standards
TEI pour l’édition de corpus (http://www.tei-c.org/index.xml)
Dublin Core (http://dublincore.org/) et OLAC (http://www.language-archives.org/) pour les bibliothèques virtuelles
XCES pour l’annotation morpho-syntaxique (http://www.xces.org/)
OWL pour l’annotation sémantique (http://www.w3.org/TR/owl-features/)
Exercice Annotez le corpus constitué sur la
crise financière avec vos propres balises
Normes - TEI Text Encoding Initiative:
objectif: partage de l'information textuelle normalisation de l'annotation simple, clair et extensible représentation complète de l'information textuelle
Proposé par Association for Computers and the Humanities the Association for Computational Linguistics the Association for Literary and Linguistic Computing
Site officiel: http://www.tei-c.org/index.xml
TEI(II) <TEI> <teiHeader><!-- [ TEI Header information ] --> </teiHeader> <text> <front> </front> <body><!-- [ body of text ... ] --> </body> <back> </back> </text></TEI>
TEI beaucoup d'outils pour
l'édition des annotations et des meta-données
validation des annotations plusieurs projets de bases
textuelles et de corpus adopte le standard http://www.tei-c.org/Activities/Projects
/
Quelques références Burnard, L., Sperberg-McQueen, C.M. (1996) La TEI
simplifiée : une introduction au codage des textes électroniques en vue de leur échange, Cahiers GUTenberg, no 24, http://www.tei-c.org/Guidelines/Customization/Lite/teiu5_fr.html
Biber, D., Conrad, S., Reppen, R. (1998) Corpus Linguistics : Investigating Language Structure and Use. Cambridge University Press
Habert B. (2005) Instruments et ressources électroniques pour le français, Ed.Orphys
Sinclair, J. (1991) Coocurrences, concordances, collocations
Autres ressources European Language Distribution
Agency (http://www.elda.org/) Linguistic Data Consortium
(http://www.ldc.upenn.edu/)
Plan Mise en place des notions:
Corpus: définition, exemples, formats Apport théorique: utilisation d'un
concordancier simple AntConc Concordancier : définition,
fonctionnement, fonctions génériques Utilisation d'AntConc, concordancier
gratuit Corpus en ligne: Frantext
Concordanciers recherches dans le corpus et outils
d'exploration de corpus qu'est-ce que c'est un
concordancier? fonctions de base un exemple: Antconc
Recherches sur les corpus en linguistique: trouver des exceptions
ou renforcer une hypothèse linguistique en traduction: chercher des emplois
réels en sociolinguistique: quel point de vue
ont les divers acteurs? en littérature: comparer le style de deux
auteurs en TAL: chercher les informations
spécifiques: qui a fait quoi? quand? où?
Analyse quantitative vs. analyse qualitative quantitative
analyse factorielle fréquence distance
intertextuelle données
structurées volume de
données important
qualitative analyse fine du contenu informations
linguistiques à prendre en compte:
catégorie lexicale fonctions syntaxiques informations
sémantiques données non-structurées volume de données
limité (si analyse manuelle)
Qu'est-ce que c'est un concordancier? un outil qui permet la recherche
d'un pivot dans un texte et établit la liste des occurences de ce pivot en contexte pivot = un mot, un groupe de mots,
une expression contextes
gauche et droit à l'intérieur de la phrase au sein du même paragraphe
Les fonctions d'un concordancier définir un pivot: mot, terme,
expression visualiser les contextes d'apparition
du pivot tri des contextes sélection de contextes extraire des n-grammes (séquences
de 2 ou plusieurs mots)
Concordanciers outils indépendants
Antconc, Lexico, Wordsmith, ParaConc
on peut les appliquer sur notre propre corpus
concordanciers en-ligne interface Web permettant des
recherches dans les corpus "fermés"
Antconc outil gratuit
http://www.antlab.sci.waseda.ac.jp/ pivot: mot (avec respect de la casse) ou
expression régulière expression régulière: une suite de lettres,
chiffres et caractères spéciaux: .,?,*,+ format de sortie KWIC tri sur les contextes gauches ou droites
50 caractères la taille du contexte
Antconc (II) taille de corpus limitée visualisation d'occurences par
rapport au corpus formats divers:
fichier texte (Unicode, Latin-1) format HTML (mais balises
confondues avec le texte)
Antconc (III) calcul de cooccurences sélection des contextes
les contextes qui contiennent un ou plusieurs mots
liste de mots exclusion des mots grammaticaux comparaison avec un corpus de
référence extraction de n-gramms
Autres fonctions du Antconc Plot: la position de chaque
collocateur dans le fichier Utiliser les balises:
pour séparer des parties du corpus pour exclure des parties du corpus pour faire des recherches sur les
balises
Recherches - méthodologie
quoi chercher? établir la liste des mots les plus
fréquents (mots contenus) extraire les séquences de n mots les
plus fréquentes définir manuellement une liste de
termes, mots, expressions pertinentes
Recherches – méthodologie (II)
analyse des résultats identification de contextes inutiles ou
erronées analyse des collocatifs position dans le document
recherches complexes sélection des contextes pertinentes
présence ou absence d'un mot dans les contextes position par rapport au pivot