algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
DESCRIPTION
1. Définitions et approches importantes 2. Le projet MorTAL 3. Apprendre la dérivation allemande(?). Algorithmes pour l’apprentissage d’une morphologie dérivationnelle et leur adéquation à la morphologie allemande. Sina Zarriess [email protected]. - PowerPoint PPT PresentationTRANSCRIPT
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
Sina Zarriess [email protected]
Algorithmes pour l’apprentissage Algorithmes pour l’apprentissage
d’une morphologie dérivationnelle d’une morphologie dérivationnelle
et leur adéquation à la et leur adéquation à la
morphologie allemandemorphologie allemande
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
1.1. Pourquoi apprendre une morphologie?
1.2. La structure analogique du lexique
1.3. Sommaire de quelques travaux
Problèmes de l’exploitation de connaissances
dérivationnelles (selon Jacquemin 1997):
• Existe-t-il une relation morphologique entre deux
lexèmes?
• Cette relation est-elle « pertinente » ? (ex. corollaire - corolle)
• Quelle est la base dérivationnelle d’un lexème
polysémique? (ex. occasion – occasionnel )
• Comment traiter des procédés morphologiques rares /
dépendants d’un domaine?
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
Sina Zarriess [email protected]
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
1.1. Pourquoi apprendre une morphologie?
1.2. La structure analogique du lexique
1.3. Sommaire de quelques travaux
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
Sina Zarriess [email protected]
applications en morphologie
• apprentissage automatique
• implémentation d’une analyse manuelle
• segmentation de mots
• identification de morphèmes
• appariement de mots morphologiquement liés
• génération de mots
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
arguments pour l’acquisition automatique de connaissances morphologiques à partir de corpus, dictionnaires …
accessibilité, voluminosité de données
réduction considérable de l’effort manuel
indépendance d’une langue particulière
application de la méthode à d’autres tâches
1.1. Pourquoi apprendre une morphologie?
1.2. La structure analogique du lexique
1.3. Sommaire de quelques travaux
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
Sina Zarriess [email protected]
(Hathout 2005)
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
relation morphologique : partage de son et de sens
structure analogique du lexique
aimer
j’aime
googler
je google
aimer
aimable
googler
googlable
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
1.1. Pourquoi apprendre une morphologie?
1.2. La structure analogique du lexique
1.3. Sommaire de quelques travaux
Sina Zarriess [email protected]
(Hathout 2005)
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
L’analogie dans d’autres domaines scientifiques
Exemple: AI, métaphore = analogie
soleil
planète
noyau
électron
schéma : A est à B ce que C est à D
- transfert de propriétés d’un domaine à un autre
- une modification à la fois
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
1.1. Pourquoi apprendre une morphologie?
1.2. La structure analogique du lexique
1.3. Sommaire de quelques travaux
Sina Zarriess [email protected]
(Lepage 1998)
« un atome est un système solaire »
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
Établir une relation morphologique
Établir une relation graphémique
Établir une relation
sémantique
- trouver la sous-chaîne maximale de deux chaînes
(ex. Jacquemin 1997)
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
1.1. Pourquoi apprendre une morphologie?
1.2. La structure analogique du lexique
1.3. Sommaire de quelques travaux
Sina Zarriess [email protected]
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
Definition Word-k-similarity: Two words w and w’ are said to be k-similar if and only if the following equation is true:
p = max ( min ( |w| - k , |w’| - k) , 1 )
trunc (w,p) = trunc (w’,p){where trunc(w,i) is composed of the first i characters of w and where |w| is the length of w.
Definition Maximal Common String: Let k0 be the minimal value of k, such that two words w and w’ are k-similar. The corresponding truncation is called Maximal Common String and the corresponding suffixes are called Minimal Truncation Suffixes.
(Jacquemin 1997)
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
1.1. Pourquoi apprendre une morphologie?
1.2. La structure analogique du lexique
1.3. Sommaire de quelques travaux
Sina Zarriess [email protected]
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
Établir une relation morphologique
Établir une relation graphémique
Établir une relation
sémantique
- trouver la sous-chaîne maximale de deux chaînes (Jacquemin 1997)
- extraire des affixes d’un trie (Schone & Jurafsky 2000)
- utiliser un lexique existant (Yarowsky, Wicentowsky 2000)
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
1.1. Pourquoi apprendre une morphologie?
1.2. La structure analogique du lexique
1.3. Sommaire de quelques travaux
Sina Zarriess [email protected]
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
Établir une relation morphologique
Établir une relation graphémique
Établir une relation
sémantique
- trouver la sous-chaîne maximale de deux chaînes (Jacquemin 1997)
- extraire des affixes d’un trie (Schone & Jurafsky 2000)
- utiliser un lexique existant (Yarowsky, Wicentowsky 2000)
- calcul statistique; critère de la cooccurrence
ex. LSA (latent semantic analysis)
(la plupart des approches)
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
1.1. Pourquoi apprendre une morphologie?
1.2. La structure analogique du lexique
1.3. Sommaire de quelques travaux
Sina Zarriess [email protected]
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
But - Constitution semi-automatique d’une base de
données dérivationnelles
Méthode - Acquisition à partir de lexiques et dictionnaires
de synonymes existants
- Pas de calcul statistique
- Basé sur la structure analogique du lexique
analogie morphologique
analogie
sémantique
analogie
graphémique
2.1. Méthode générale
2.2. Établir l’analogie graphémique
2.3. Établir l’analogie sémantique
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
Sina Zarriess [email protected]
(Hathout 2003, 2005)
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
2.1. Méthode générale
2.2. Établir l’analogie graphémique
2.3. Établir l’analogie sémantique
contrôlable
agitable
agiter
contrôler
gonfler
gonflableactiver
activable
1 Extraction de deux ensembles de lemmes
2 Apprentissage de schémas de suffixation
Chaque couple X:Y définit un schéma de suffixation
X’:Y’ tel que X = Z x X’ et Y = Z x Y’ où Z est le préfixe graphémique maximal
commun à X et Y .
(Hathout 2005 )
3 Construction d’un graphe qui
représente des
relations orthographiques
activ- :agit-activ- :agit-
-er :-able
-er :-ableactiver activable
agitableagiter
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
Sina Zarriess [email protected]
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
Analogie sémantique Analogie synonymique
2.1. Méthode générale
2.2. Établir l’analogie graphémique
2.3. Établir l’analogie sémantique
former des quadruplets morphosynonymiques X1:X2 :: Y1:Y2 tels que
(1) X1:X2 et Y1:Y2 sont orthographiquement apparentés
(2) X1 est un synonyme de Y1 et X2 est un synonyme de Y2
décorer
décoration
embellir
embellissement
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
Sina Zarriess [email protected]
(Hathout 2003, 2005)
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
2.1. Méthode générale
2.2. Établir l’analogie graphémique
2.3. Établir l’analogie sémantique
1 Extraction du lexique (du dictionnaire de synonymes)
2 Construction d’un graphe qui représente les relations de synonymie
3 Exploration simultanée du graphe
graphémique et sémantique
contrôlable
agitable
agiter
contrôler
gonfler
gonflableactiver
activable
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
Sina Zarriess [email protected]
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
3.1. Phénomènes d’allomorphie
3.2. Orientations des recherches allemandes
3.3. Idées pour manier le non-concaténatif
Hypothèse sous-jacente omniprésente:
(préfixe x) radical (x suffixe)
morphologie purement concaténative
mais …
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
Sina Zarriess [email protected]
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
suffixation Umlaut Schlag:Schläger,Sturm:stürmisch,spotten:spötteln,
Rauch:räuchern
Ablaut reiten:Ritter,singen:Sänger
Élision de /ə/ Freude:freudlos, sammeln:Sammler, Teufel:teuflisch
Fugenelement Mann:Mannestum, Morgen: morgendlich, Katze:katzenhaft,
changements voc. avec suffixes étrangers
Qualität:qualitativ, Nomen:nominal, Tabelle:tabellarisch
pluriel = base de dérivation
Christ:Christentum, Umstand:umständehalber
préfixation opérations simultanées
Volk:bevölkern, Stalin:entstalinisieren, Freund:anfreunden,
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande (?)
3.1. Phénomènes d’allomorphie
3.2. Orientations des recherches allemandes
3.3. Idées pour manier le non-concaténatif
Sina Zarriess [email protected]
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
Gesund heit s ver träg lich keit s prüf ung
A0
AaffA0
A0
N0
N0
N0 V0
V0V0Vaff Aaff NaffNaff
N0
+ composition productive
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
3.1. Phénomènes d’allomorphie
3.2. Orientations des recherches allemandes
3.3. Idées pour manier le non-concaténatif
Sina Zarriess [email protected]
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
perspective de l’analyse morphologique ou la représentation efficace du lexique est souvent privilégié
ressources et analyseurs disponibles:
• http//:www.canoo.net
• http//:www.lingsoft.fi/cgi-bin/gertwol
• TAGH (www.dwds.de)
• Morphy, Morphix, Morph …
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
3.1. Phénomènes d’allomorphie
3.2. Orientations des recherches allemandes
3.3. Idées pour manier le non-concaténatif
Sina Zarriess [email protected]
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
ed(X[i+ 1],Y[j+ 1]) = ed(X[i],Y[j]) if xi+1 = yj+1
(last characters are the same)
= 1 + min{ed(X[i - 1], Y[j - 1]),
ed(X[i + 1], Y[j]),
ed(X[i], Y[j+ 1])} if both xi = yj and xi = yj
(last characters are transposed)
= 1 + min{ed(X[i], Y[j]), otherwise
ed(X[i + 1], Y[j]),
ed(X[i], Y[j + 1])}
ed(X[0],Y[j]) = j 0 < j < n
ed(X[i],Y[0]) = i 0 < i < m
ed(X[-1], Y[j]) = ed(X[i], Y[-1])= max(m, n) (boundary definitions)
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
3.1. Phénomènes d’allomorphie
3.2. Orientations des recherches allemandes
3.3. Idées pour manier le non-concaténatif
Sina Zarriess [email protected]
(Oflazer 1996)
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
1. Baroni, Matiasek, Trost: « Unsupervised Discovery of morphologically related words based on orthographic and semantic similarity »
calcul de la similarité orthographique
distance d’édition relative
ex. sim(woman,women) = 0,8
calcul de la similarité sémantique
calcul statistique de la cooccurrence
Problème: Induction de règles?
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande (?)
3.1. Phénomènes d’allomorphie
3.2. Orientations des recherches allemandes
3.3. Idées pour manier le non-concaténatif
Sina Zarriess [email protected]
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
2. Neuvel,Fulop: « Unsupervised Learning of Morphology Without Morphemes »
vue relationelle de la morphologie: « 2 mots sont en relation morphologique si l’on peut trouver toutes les différences qui existent entre eux dans un moins 1 autre paire de mots »
(4) Differences
First word Second word
X iveV X ptionNs
X iveV X ptionNs
Similarities
First Second
rece### rece#####
conce### conce#####
(5) Differences
First word Second word
X iveV X ptionNs
Similarities
First Second
*##ce### *##ce#####
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
3.1. Phénomènes d’allomorphie
3.2. Orientations des recherches allemandes
3.3. Idées pour manier le non-concaténatif
Sina Zarriess [email protected]
Algorithmes pour l’apprentissage d’une morphologie dérivationelle (allemande)
Bibliographie
Baroni M., Matiasek J., Trost H.: « Unsupervised discovery of morphologically related words based on orthographic and semantic similarity ». Technical Report, Österreichisches Forschungsinstitut für Artificial Intelligence, Wien, TR-2002-21, 2002
Geyken, Andreas; Hanneforth, Thomas (2005). « TAGH: A Complete Morphology for German based on Weighted Finite State Automata. » In: Proceedings of FSMNLP 2005. Lecture Notes in Artificial Intelligence, Springer.
Hathout, Nabil (2003) : « L’analogie, un moyen de croiser les contraintes et les paradigmes. Acquisition de connaissances à partir de dictionnaires de synonymes ». Revue d’Intelligence Articielle, 17(5-6), p. 923–934.
Hathout, Nabil (2005): « Exploiter la structure analogique du lexique construit: une approche computationelle ». Cahiers de Lexicologie 87, 2005-2, p. 1-24.
Jacquemin, Christian (1997) : « Guessing Morphology from Terms and Corpora ». Proceedings of 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’97), p. 156–167. ACM, Philadelphia, PA.
Lepage, Yves (1998) : « Solving analogies on words : an algorithm ». In Proceedings of the of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics, vol. 2, p. 728–735. Montréal, Canada.
Neuvel, Sylvain et Fulop, Sean A. (2002) : « Unsupervised Learning of Morphology Without Morphemes ». In Proceedings of the Workshop on Morphological and Phonological Learning 2002. ACL Publications, Philadelphia.
Schone, Patrick; Jurafsky, Daniel (2000): “Knowledge-Free Induction Of Morphology Using Latent Semantic Analysis”, in: Proceedings of CoNLL-2000 and LLL-2000, p. 67-72, Lisbon, Portugal.
Oflazer, Kemal (1996): « Error-tolerant finite-state Recognition with Applications to Morphological Analysis and Spelling Correction ». Computational Linguistics, Vol. 22, Issue 1, p. 73-89.
Zweigenbaum, Pierre; Grabar Natalie (2003): « Learning Derived Words from Medical Corpora ». AIME 2003: 189-198, 2002.
1. Définitions et approches importantes
2. Le projet MorTAL
3. Apprendre la dérivation allemande(?)
Sina Zarriess [email protected]