désuffixation -- algorithme de porter
Post on 05-Jan-2017
238 Views
Preview:
TRANSCRIPT
Desuffixation – Algorithme de Porter
Thierry Lecroq
Universite de RouenFRANCE
Thierry Lecroq (Univ. Rouen) Desuffixation 1 / 22
But : avoir la meme forme de base pour des mots de la meme famille
Concu pour l’anglais, adaptable a d’autres langues (francais, ...)
Thierry Lecroq (Univ. Rouen) Desuffixation 2 / 22
Plan
1 Notations
2 Algorithme
Thierry Lecroq (Univ. Rouen) Desuffixation 3 / 22
Consonne ou voyelle
v represente une voyelle (y est considere comme une voyelle s’il estprecede par une consonne)
c represente une consonne
V represente une suite de voyelles
C represente une suite de consonnes
Thierry Lecroq (Univ. Rouen) Desuffixation 4 / 22
De la mesure
Un mot en anglais peut etre de l’une des 4 formes suivantes :
CV CV · · ·CCV CV · · ·VV CV C · · ·CV CV C · · ·V
ce qui peut se representer par
[C]V CV C · · · [V ]
ou[C](V C)m[V ]
ou m est appelee la mesure d’un mot.
Thierry Lecroq (Univ. Rouen) Desuffixation 5 / 22
Mesurons la mesure
m = 0 : tree, by
m = 1 : trouble, oats, trees, ivy
m = 2 : troubles, private, oaten, orrery
Thierry Lecroq (Univ. Rouen) Desuffixation 6 / 22
Regles
Les regles de desuffixation sont exprimees sous la forme(condition) S1 → S2
ce qui signifie que si un mot se termine par S1 et que le prefixe satisfait lacondition alors le suffixe S1 est remplace par S2
Thierry Lecroq (Univ. Rouen) Desuffixation 7 / 22
Condition
∗e : le prefixe se termine par la lettre e
∗v∗ : le prefixe contient une voyelle
∗d : le prefixe se termine par une consonne doublee
∗o : le prefixe se termine par cvc ou le second c n’est ni w, ni x, ni y
Il est possible d’utiliser des operateurs booleens : et, ou, non
Thierry Lecroq (Univ. Rouen) Desuffixation 8 / 22
A chaque etape seule la regle capturant le plus long S1 s’applique
Thierry Lecroq (Univ. Rouen) Desuffixation 9 / 22
Plan
1 Notations
2 Algorithme
Thierry Lecroq (Univ. Rouen) Desuffixation 10 / 22
Etape 1a
sses → ss caresses → caressies → i ponies → poni
ties → tiss → ss caress → caresss → cats → cat
Thierry Lecroq (Univ. Rouen) Desuffixation 11 / 22
Etape 1b
(m > 0)eed → ee feed → feedagreed → agree
(∗v∗)ed → plastered → plasterbled → bled
(∗v∗)ing → motoring → motorsing → sing
at → ate conflat(ed) → conflatebl → ble troubl(ed) → troubleiz → ize siz(ed) → size
(∗d et non (∗l ou ∗ s ou ∗ z))→ lettre non doubleehopp(ing) → hoptann(ed) → tanfall(ing) → fallhiss(ing) → hissfizz(ed) → fizz(m = 1) et ∗ o → e fail(ing) → fail
(filing) → fileThierry Lecroq (Univ. Rouen) Desuffixation 12 / 22
Etape 1c
(∗v∗)y → i happy → happisky → sky
Thierry Lecroq (Univ. Rouen) Desuffixation 13 / 22
Etape 2
(m > 0)ational → ate relational → relate
(m > 0)tional → TION conditional → condition
rational → rational
(m > 0)enci → ence valenci → valence
(m > 0)anci → ance hesitanci → hesitance
(m > 0)izer → ize digitizer → digitize
(m > 0)abli → able conformabli → conformable
(m > 0)alli → al radicalli → radical
(m > 0)entli → ent differentli → different
(m > 0)eli → e vileli → vile
(m > 0)ousli → ous analogousli → analogous
(m > 0)ization → ize vietnamization → vietnamize
(m > 0)ation → ate predication → predicate
(m > 0)ator → ate operator → operate
(m > 0)alism → al feudalism → feudal
(m > 0)iveness → ive decisiveness → decisive
(m > 0)fulness → ful hopefulness → hopeful
(m > 0)ousness → ous callousness → callous
(m > 0)aliti → al formaliti → formal
(m > 0)iviti → ive sensitiviti → sensitive
(m > 0)biliti → ble sensibiliti → sensibleThierry Lecroq (Univ. Rouen) Desuffixation 14 / 22
Etape 3
(m > 0)icate → ic triplicate → triplic(m > 0)ative → formative → form(m > 0)alize → al formalize → formal(m > 0)iciti → ic electriciti → electric(m > 0)ical → ic electrical → electric(m > 0)ful → hopeful → hope(m > 0)ness → goodness → good
Thierry Lecroq (Univ. Rouen) Desuffixation 15 / 22
Etape 4
(m > 1)al → revival → reviv(m > 1)ance → allowance → allow(m > 1)ence → inference → infer(m > 1)er → airliner → airlin(m > 1)ic → gyroscopic → gyroscop(m > 1)able → adjustable → adjust(m > 1)ible → defensible → defens(m > 1)ant → irritant → irrit(m > 1)ement → replacement → replac(m > 1)ment → adjustment → adjust(m > 1)ent → dependent → depend(m > 1 et (∗s ou ∗ t))ion → adoption → adopt(m > 1)ou → homologou → homolog(m > 1)ism → communism → commun(m > 1)ate → activate → activ(m > 1)iti → angulariti → angular(m > 1)ous → homologous → homolog(m > 1)ive → effective → effect(m > 1)ize → bowdlerize → bowdlerThierry Lecroq (Univ. Rouen) Desuffixation 16 / 22
Etape 5a
(m > 1)e → probate → probatrate → rate
(m > 1 et non ∗ o)e → cease → cease
Thierry Lecroq (Univ. Rouen) Desuffixation 17 / 22
Etape 5b
(m > 1 et ∗ d et ∗ l)→ lettre non doubleecontroll →controlroll→roll
Thierry Lecroq (Univ. Rouen) Desuffixation 18 / 22
generalizations→generalization etape 1→generalize etape 2→general etape 3→gener etape 4
Thierry Lecroq (Univ. Rouen) Desuffixation 19 / 22
oscillators→oscillator etape 1→oscillate etape 2→oscill etape 4→oscil etape 5
Thierry Lecroq (Univ. Rouen) Desuffixation 20 / 22
sur 10 000 mots
etape 1 3597etape 2 766etape 3 327etape 4 2424etape 5 1373non reduits 3650
6370 formes reduites
Thierry Lecroq (Univ. Rouen) Desuffixation 21 / 22
Reference
M. F. PorterAn Algorithm for Suffix StrippingProgram, 14(3), 130–137, 1980
Thierry Lecroq (Univ. Rouen) Desuffixation 22 / 22
top related