algoritmos bayesianos karina figueroa. preliminares aprendizaje ◦ cuál es la mejor hipótesis...
Post on 27-Jan-2016
215 Views
Preview:
TRANSCRIPT
Algoritmos Algoritmos BayesianosBayesianos
Karina Figueroa
PreliminaresPreliminaresAprendizaje
◦cuál es la mejor hipótesis (más probable) dados los dato?
Red Bayesiana (RB)◦Red de creencia
Clasificación de una RB◦Aprendizaje Estructural. Obtener la estructura de la red
◦Aprendizaje Paramétrico Dada la estructura, obtener las probabilidades
asociadas
Probabilidades conjuntasProbabilidades conjuntasP(A, B) Probabilidad de
ambas A y B. P(A,B)<P(A|B)
P(A|B) Probabilidad
condiciona.La probabilidad de A, dado B.
A B
Probabilidades….Probabilidades….Condicional.
◦ Cuál es la prob.de que la 2ª canica sea roja dado que la 1ª es azul?
◦ P(R2|R1)?Conjunta
◦ Cuál es la prob.de que la 1ª sea roja y la 2ª azul?
◦ P(R1 y R2)?
Red BayesianaRed BayesianaUna red bayesiana es un grafo
dirigido acíclico que consta de:◦Un conjunto de nodos, uno por cada
variable aleatoria del “mundo”◦Un conjunto de arcos dirigidos que
conectan los nodos◦Cada nodo tiene una probabilidad
condicional asociada ◦Cada arco X a Y indica una influencia
directa de X sobre Y
Ejemplo: red BayesianaEjemplo: red Bayesiana
hijo hijo
Padre
Ejemplo de una RBEjemplo de una RB
Razones para usar un RBRazones para usar un RBDiagnóstico
◦Del efecto a la causa◦P(Dolor | Caries)
Predicción◦De la causa al efecto◦P(Caries | Dolor)
Teorema de BayesTeorema de BayesRegla de Bayes
h es la hipótesis o clase◦Ej. Juega tenis o no
D conjunto de valores para los atributos◦Ej. temperatura, humedad, etc.
€
P(h |D) =P(D | h) ⋅P(h)
P(D)
Teorema de BayesTeorema de BayesP(h) probabilidad a priori de una de
las clasesP(D) probabilidad a priori de que los
atributos tengan ciertos valoresP(D|h) probabilidad a priori de que
los atributos tengan ciertos valores dado que la instancia pertenece a una clase
P(h|D) es la probabilidad a posteriori de que una instancia pertenezca a cierta clase
Probabilidades….Probabilidades….P(h). Fácil
◦Porcentaje de ejemplos de entrenamiento pertenecientes a una clase
P(D). Fácil en valores discretos◦Probabilidad de que los atributos tengan
un cierto conjunto de valores◦P(temp=calor, humedad=alta,
viento=poco)P(D|h). No tan fácil
◦Muy semejante a la P(D), pero sólo se consideran las que son instancias de h.
EjemploEjemplo
A
B E
J M
P(B) P(E)
P(J | A) P(M | A)
P(A | B, E)
Probabilidad de influencia directaVariable
aleatoria
Red Bayesiana representa la probabilidad de dependencia/independencia entre las variables aleatorias
Prob.cond. dado sus padres
Tipos de conexionesTipos de conexiones
a
b
ab
ca
c
b
c
Linear
Converging Diverging
IndependientesIndependientes
Dependientes dado E
Aplicación de una RBAplicación de una RBDoctor's
NoteStudent
Ill
Frequent Absence
Student Disinterested
Computer Crash
Paper Late
Dog Ate It
“Dog Ate It”
Power Failure
Clocks Slow
Lives in Dorm
Hungry Dog
“Computer Crash”
Make up Excuse
EjemploEjemploPredecir la probabilidad de que un cierto
paciente esté afectado por una enfermedadSe realiza un análisis de sangre al paciente
con resultado positivo (de acuerdo con el test, el paciente sufre la enfermedad)
Qué hipótesis tiene mayor probabilidad: afectado o no afectado?
Se conocen de antemano los siguientes datos◦ 0.8% de la población está afectada por la
enfermedad◦ Si una persona está afectada, el test ofrece un
resultado positivo en un 98% de los casos (2% tasa de error)
◦ Si una persona no está afectada, el test ofrece resultado negativo en un 97% de los casos (3% tasa de error)
Qué hipótesis tiene mayor Qué hipótesis tiene mayor probabilidad: afectado o no probabilidad: afectado o no afectado?afectado?
Comparar numeradores…Conclusión?
€
P(afectado | test _ positivo) =P(test _ positivo | afectado) ⋅P(afectado)
P(test _ positivo)
€
P(no_ afectado | test _ positivo) =P(test _ positivo | no_ afectado) ⋅P(no_ afectado)
P(test _ positivo)
ConclusionesConclusionesCondiciones
◦ Disponer de un gran número de ejemplos de entrenamiento
◦ Se dipone de algún conocimiento inicial sobre el problema a resolver
Ventajas ◦ Cada nuevo ejemplo puede aumentar o disminuir
la estimación de una hipótesis (flexibilidad - incrementalidad)
◦ Conocimiento a priori se puede combinar con datos para determinar la probabilidad de las hipótesis
◦ Da resultados con probabilidades asociadas◦ Puede clasificar combinando las predicciones de
varias hipótesis◦ Sirve de estandar de comparación de otros
algoritmos
ProblemasProblemas
En una RB con 37 nodos se necesitan calcular:137,438,953,472
valores
Teorema de BayesTeorema de BayesPuede ser muy complicado
calcular las probabilidades dependientes
Una solución propuesta, y muy común en la práctica, es considerar probabilidades independientes: Naïve Bayes
P(A,B) = P(A) P(B)◦Para sucesos independientes
top related