“cadenas de markov ocultas” -...
Post on 07-Oct-2018
218 Views
Preview:
TRANSCRIPT
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
“Cadenas de Markov Ocultas”
Nicolas Troncoso Carrere
Analisis Inteligente de DatosDepartamento de Informatica
Universidad Tecnica Federico Santa Marıa
Valparaıso, 24 de Noviembre de 2005
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
1 IntroduccionCadenas de MarkovCadenas de Markov Ocultas
2 Descripcion del Modelo
3 Secuenciacion de ADN
4 Otras Areas de Aplicacion
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
Cadenas de MarkovCadenas de Markov Ocultas
Cadenas de Markov
Las cadenas de Markov pueden ser representadas como unagramatica regular estocastica. Estocastica en el sentido que lastransiciones entre un estado y otro no son deterministas sino queestan dadas por una probabilidad.
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
Cadenas de MarkovCadenas de Markov Ocultas
Gramatica Regular
Supongamos el siguiente vocabulario; {Bueno, Regular, Malo}(almuerzos en el comedor de la universidad). Como abreviacion seusara B=Bueno, R=Regular y M=Malo. Cualquier combinacion deBs,Rs y Ms es reconocida si usamos la siguiente gramatica:
Figura: Gramatica Regular
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
Cadenas de MarkovCadenas de Markov Ocultas
Gramatica Regular - Extension Estocastica
Consideremos la misma gramatica anterior, pero ahora lastransiciones entre estados tienen una probabilidad. Para reflejar estastransiciones se utiliza una matriz, en este caso la matriz de transicionA:
A =0,2 0,3 0,50,3 0,4 0,30,5 0,1 0,4
(1)
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
Cadenas de MarkovCadenas de Markov Ocultas
Resultados (1/3)
Dado el modelo de Markov anterior, una de las preguntas quepodemos hacer es la siguiente:Dado que el lunes el almuerzo fue malo, cual es la probabilidad de verla siguiente cadena esta semana; MMRBBB ?Esta probabilidad se evalua y expresa de la siguiente manera:
P(O|Modelo) =P(S1,S1,S2,S3,S3,S3|Modelo)P[S1] ·P[S1|S1] ·P[S2|S1] ·P[S3|S2]·P[S3|S3] ·P[S3|S3]
=π1 ·a11 ·a12 ·a23 ·a33 ·a33
=1 ·0,2 ·0,3 ·0,3 ·0,4 ·0,4
=2,88×10−3
(2)
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
Cadenas de MarkovCadenas de Markov Ocultas
Resultados (2/3)
Otra interesante pregunta es:Dado un estado inicial, cual es la probabilidad de que siga en eseestado exactamente d dıas?Esta probabilidad se puede calcular verificando la probabilidad de lasiguiente observacion:
O = {Si1,Si
2,Si
3, . . . ,Si
d, Sj
d+16= Si} (3)
Usando el modelo:
P(O|Modelo) = (aii)d−1(1−aii) = pi(d) (4)
Que es la funcion de densidad de probabilidad de la cantidad de dıasen el estado i .
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
Cadenas de MarkovCadenas de Markov Ocultas
Resultados (3/3)
Finalmente seria interesante calcular cuantos dıas se puede esperarque las observaciones permanezcan en un mismo estado. Larespuesta a esta pregunta esta dada por:
di =∞
∑d=1
dpi(d)
=∞
∑d=1
d(aii)d−1(1−aii) =1
1−aii
(5)
Usando el modelo: M = 1/(0.8) = 1.25 ; R = 1/(0.6) = 1.67 ;B = 1/(0.6) =1.67
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
Cadenas de MarkovCadenas de Markov Ocultas
Cadenas de Markov Ocultas
El modelo de Markov anterior considera que cada estadocorresponde a un evento fısicamente observable.
Ahora en cada estado existe un probabilidad de que suceda unaobservacion.
Lo que se tiene ahora es un modelo doblemente estocastico en el cualhay un proceso subyacente que esta oculto. Este proceso solo puedeser visto a traves de las observaciones. Esto es un Modelo de MarkovOculto (HMM).
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
Cadenas de MarkovCadenas de Markov Ocultas
Ejemplo del Cocinero
Consideremos el siguiente escenario, el modelo de Markovanteriormente descrito. El cocinero tiene dos estados de animo; Felizy Enojado. El problema es que nosotros nunca vemos al cocinero, porlo que no sabemos su estado de animo. La unica manifestacion de suestado son nuestras observaciones que serian si el almuerzo esta;Malo, Regular o Bueno.
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
Cadenas de MarkovCadenas de Markov Ocultas
Elementos en un HMM
1 N, numero de estados2 M, numero de observaciones distintas en cada estado (alfabeto).3 A, matriz de probabilidad de transicion entre estados.4 B, matriz de probabilidad de emision de una observacion para un
estado dado.5 π, matriz de distribucion de estados iniciales.
Para caracterizar un HMM se necesita de dos parametros N y M, y detres medidas de probabilidad A, B, pi . Por conveniencia se ocupara lanotacion:
λ = (A,B,π) (6)
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
Cadenas de MarkovCadenas de Markov Ocultas
El Modelo del Cocinero
Figura: HMM Cocinero
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
Interrogantes que se debe atender
1 Dada una observacion O y un modelo λ, como calculamos deforma eficiente la probabilidad de dicha observacion, P(O|λ),dado el modelo?
2 Dada una observacion O y un modelo λ, como escogemos unasecuencia de estados Q que explique de forma optima laobservacion?
3 Como ajustamos los parametros del modelo λ = (A,B,π) paramaximizar P(O|λ)?
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
Solucion a la Interrogante 1
Por motivos de eficiencia se utiliza el algoritmo “Forward-Backward”;que define la variable forward como
αt(i) = P(O1,O2 . . .Ot ,qt = Si |λ) (7)
Figura: Forward Variable
Luego se tiene que
P(O|λ) =N
∑i=1
αT (i) (8)
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
variable Backward
βt(i) = P(Ot+1,Ot+2 . . .OT |qT = Si ,λ) (9)
βT (i) =1
βt(i) =N
∑j=1
aijbj(Ot+1βt+1)(10)
Figura: Backward VariableTroncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
Solucion a la Interrogante 2
Esta interrogante no tiene solucion exacta como la anterior, ya quedepende de lo que definamos como “explicacion optima”. Una posiblesolucion es la que maximiza la probabilidad de estados(individuales)correctos. Esta solucion se puede expresar en terminos de lasvariables forward-backward.
γt(i) =P(qt = Si |O,λ)
=αt(i)βt(i)P(O|λ)
=αt(i)βt(i)
∑Ni=1 αt(i)βt(i)
(11)
Otro manera eficiente es usar el algoritmo de Viterbi.
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
Solucion a la Interrogante 3
Para esta pregunta no existe solucion analıtica hasta el momento. Elajuste de los parametros es hecho con varios metodos como
EM (expectation-modification)
Tecnicas de Gradiente
Metodo de Baum-Welch
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
Metodo de Baum-Welch
Este metodo se basa en calcular dos medidas1 El numero esperado de transiciones desde Si
2 El numero esperado de transiciones desde Si a Sj
Luego el algoritmo postula que una estimacion razonable de losparametros π,A,B son:
πi =frecuencia esperada un el estado Si en el tiempo 1 = γ1(i)
aii =numero esperado de transiciones desde Si a Sj
numero esperado de transiciones desde Si
bi(k) =numero esperado de veces en el estado i observando k
numero esperado de veces en el estado i(12)
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
ADN
Las cadenas de ADN estan formadas por millones denucleotidos.
Para los cientıficos es de interes detectar las secuencias decodones.
Luego es detectar las secuencias de codones que codifican ungen.
Los HMM ayudan a detectar nuevos genes, ası como a detectargenes falsos positivos.
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
Otras Areas de Aplicacion
Reconocimiento de Voz.
Natural language processing.
Reconocimiento de Caracteres.
Clasificacion.
Reconocimiento de imagenes.
Troncoso “Cadenas de Markov Ocultas”
TemarioIntroduccion
Descripcion del ModeloSecuenciacion de ADN
Otras Areas de Aplicacion
Preguntas
Gracias
NTC/LATEX 2ε
Troncoso “Cadenas de Markov Ocultas”
top related