discriminadores de texto ruy luiz milidiú resumo objetivo apresentar modelos discriminadores de...
TRANSCRIPT
Discriminadores de Texto
Ruy Luiz Milidiú
Resumo ObjetivoApresentar modelos Discriminadores de
Texto e seus algoritmos de aprendizado e predição
Sumário Discriminadores Conditional Random Fields Entropia Modelos de Entropia Máxima
Formulation Use
observables
hidden
SYMBOLS
INFORMATIONS
EMISSIONS
STATES
FORMUL A T I ON
USE
Gabaritos de Traços do texto Regras ou padrões
Co-ocorrência de palavras e etiquetas Contadores de Freqüência Interdependência seqüencial
tpos_-1=N tpos_0=N -> tpos=ADJ
tpos_0=ART tpos_[1;2]=ART -> tpos=PREP
tpos_0=ART word_0=a tpos_1=VTD -> tpos=PREP
word_-1=que tpos_0=N -> tpos=VTD
Co-ocorrência …X Y X Y X Y0 0 1 10 1 1 11 0 0 01 1 1 1
Com gerador…
P(y|x1,…,xn) P(x1,…,xn|y) . P(y)
P(y|x) = P(y,x) / P(x) = P(x|y).P(y) / P(x)
ClassificadorP(y|x1,…,xn) = ?
gerador
Sem gerador…
P(y1,…,yn|x1,…,xn) P(y1,…,yn,x1,…,xn)
P(y|x) = P(y,x) / P(x)
ClassificadorP(y1,…,yn|x1,…,xn) = ?
Sem gerador & com memória
P(y|x,1,…,m) P(y,x,1,…,m)
P(y|x,1,…,m) = P(y,x,1,…,m) / P(x,1,…,m)
ClassificadorP(y1,…,yn|x1,…,xn,1,…,m) = ?
Gabaritos de Traços
P(y,x,1,…,m) = P(z1(y,x),…,zm(y,x),1,…,m)
zk(y,x) k= 1,…,m contador frequencia número total de ocorrências do k-ésimo gabarito
Contagem total ponderada
P(y,x,1,…,m) e……… k.zk(y,x)
Classificador
P(y|x,1,…,m)
=e…….……….. / w e………….
k k.zk(y,x) k k.zk(w,x)
Informação e surpresap = Pr[E] p1 = Pr[E1] p2 = Pr[E2]
I(E) = f(p) = ? I(p) quando p Pr[E1E2] = p1.p2 E1 independente de E2 I(p1.p2) = I(p1) + I(p2)
I(p) = - lg(p)
Entropia pi = Pr[ X=i ] i = 1,…,n
H(X) E[I(X)] = - lg(pi).pi
H(cste) = 0 H(uniforme) = lg(n) 0 H(X) lg(n)
Entropia MáximaH(x) = - (ln2)-1.[ x.ln(x) + (1-x).ln(1-x) ]
H’(x) = -(ln2)-1.[ln(x) + x/x - ln(1-x) - (1-x)/(1-x)]H’(x) = - (ln2 )-1.[ ln( x/(1-x) ) ]H’(x) = 0 então x = 1-x = 1/2
H’’(x) = -(ln2)-1 .[ 1/x + 1/(1-x) ] H(1/2) = 1 , H’(1/2) = 0 e H’’(1/2) = -4.ln2
Entropia
0.0
0.2
0.4
0.6
0.8
1.0
p
Entropia MáximaH(p) = - (ln2)-1.pi.ln(pi)
L(p, ) = H(p) + .( pi - 1)
Di L(p) = -(ln2)-1.[ ln(pi) + pi/pi - .(ln2)]Di L(p) = -(ln2)-1.[ ln(pi) + 1 - .(ln2)]Di L(p) = 0 então pi = e1-.(ln2) = cste = 1/n
Modelos de Máxima Entropia Maximizar a entropia equivale a não
incluir informação adicional X e’ um contador 0,1,2,… X = arg max { H(Y) | E[Y] = m }
ENTÃOX geo(1/m)
Entropia MáximaH(p) = - (ln2)-1.pi.ln(pi)
L(p, , ) = H(p) + .( pi - 1) + .( i.pi - m)
Di L(p) = -(ln2)-1.[ ln(pi) + pi/pi - - .i ]Di L(p) = -(ln2)-1.[ ln(pi) + 1 - - .i ]Di L(p) = 0 então pi e-.i = qi q = e-
pi = p.qi i=0,1,2,… m= p +q(1+m) logo p = 1/m
Modelos de Máxima Entropia max - pij . lg(pij) sujeito a pij = 1 i i.pij = m1 contador 1 j j. pij = m2 contador 2
ENTÃO pij = e-(a.i+b.j)/ e-(a.x+b.y)
Entropia MáximaH(p) = - (ln2)-1. pij.ln(pij)
L(p, , a, b) = H(p) + .(pij - 1)
+ a.( i.pij – m1) + b.( j.pij – m2)
Dij L(p) = -(ln2)-1.[ ln(pij) + pij/pij - - a.i - b.j ]Dij L(p) = -(ln2)-1.[ ln(pij) + 1 - - a.i - b.j ]Dij L(p) = 0
pij e-a.i-b.j i=0,1,2,… j=0,1,2,…
Classificador
P(y|x,1,…,m)
=e…….……….. / w e………….
k k.zk(y,x) k k.zk(w,x)
AprendizadoExemplos (xi , yi) i = 1, … ,n xi atributos yi classificações zk(y,x) k= 1,…,m traços
total de ocorrências do k-ésimo traço frequencia
Classificador f: (x1,x2, … , xn) y funcional P(Y|X) probabilístico
Aprendizado
i P(yi|xi,1,…,m)
=i e…….……….. / w e………….
k k.zk(yi,xi) k k.zk(w,xi)
Máxima verossimilhança
ln i P(yi|xi,1,…,m)
=
i [k k.zk(yi,xi) – ln( w e………… ) ]k k.zk(w,xi)
Quadro ! Desenvolver o resultado com
apenas dois contadores de traços …