reconocimiento de patrones - universidad nacional de … crp-2.pdf · “compuesto de” washington...

38
Reconocimiento de Patrones Autores: José Luis Alba - Universidad de Vigo Jesús Cid - Universidad Carlos III de Madrid Ultima revisión: mayo de 2006

Upload: vuhanh

Post on 28-Sep-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

Reconocimiento de Patrones

Autores:José Luis Alba - Universidad de Vigo

Jesús Cid - Universidad Carlos III de Madrid

Ultima revisión: mayo de 2006

Page 2: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 2

ÍndiceIntroducción

Esquema general del análisis de imágenesElementos del reconocimiento de patrones

PatronesPatrones vectorialesPatrones estructurados

Reconocimiento de patrones mediante funciones discriminantes

ElementosMínima distancia y Adaptación (Pattern Matching)Clasificadores estadísticamente óptimosRedes Neuronales Artificiales

Page 3: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 3

PREPROCESADO(MEJORA-

RESTAURACIÓN)

ADQUISICIÓN DE LA IMAGEN

SEGMENTACIÓN

EXTRACCIÓN DE CARACTERÍSTICAS

RECONOCIMIENTO CLASIFICACIÓN

INTERPRETACIÓN

BASE DE CONOCIMIENTO

imagen

IntroducciónIntroducciónEsquema general del análisis de imágenes

Técnicas de bajo nivel Técnicas de alto nivel

Técnicas de nivel intermedio

Page 4: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 4

PatronesTras los procesos de segmentación, extracción de características y descripción, cada objeto queda representado por una colección (posiblemente ordenada y estructurada) de descriptores, denominada patrón.En los problemas de reconocimiento, cada patrón se supone perteneciente a una categoría o clase, ciEl sistema de reconocimiento debe asignar cada objeto (de interés) a su categoría.

Reconocimiento o clasificación: proceso por el que se asigna una “etiqueta”, que representauna clase, a un patrón concreto.Clase: conjunto de entidades que comparten alguna característica que las diferencia de otras.Clase de rechazo: conjunto de entidades que no se pueden etiquetar como ninguna de lasclases del problemaExtractor de características: subsistema que extrae información relevante para la clasificacióna partir de las entidades cuantificablesClasificador: subsistema que utiliza un vector de características de la entidad cuantificable y lo asigna a una de M clasesEvaluación del error de clasificación: “error de clasificación”, “tasa de error empírica”, “tasade rechazo empírica”, “conjunto de datos independientes”.Falso rechazo (falso negativo) y falsa aceptación (faso positivo): para problemas de 2 clases estas definiciones reflejan la importancia de una decisión contra la opuesta. El sistema de clasificación se puede “sintonizar” para que trabaje ponderando un tipo de error sobre el otro

Elementos del reconocimiento de patrones

Page 5: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 5

PatronesPatrones

Segmentador

Extracción +Descripción

Extracción +Descripción

Extracción +Descripción

Extracción +Descripción

Patrón

Patrón

Patrón

Patrón

Reconocedor

Reconocedor

Reconocedor

Reconocedor

Clase 1

Clase 2

Clase 2

Clase 1

Para el reconocimiento automático, es importante quePatrones que describen objetos de una misma clase, presenten características similares.Patrones que describen objetos de diferentes clases presenten características diferenciadas.

Tipos de patrones:Vectores: x = (x1, x2,…, xn)T

CadenasÁrboles

Page 6: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 6

Patrones vectorialesEjemplo: Clasificación de tipos de Iris (flores).

Tres categoríasPatrones bidimensionales

Longitud del pétaloAnchura del pétalo

Los descriptores utilizados sirven para discriminar iris setosa de las otras dos, pero no para discriminar entre iris virginica e iris versicolor

http://www.et.ethz.ch/eTutorials/evim/dateien/u3/irisbilder.htm

Iris Setosa Iris Versicolor Iris Virginica

Page 7: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 7

Patrones estructuradosCodifican relaciones (espaciales o de otro tipo) entre componentes del objeto o descriptores.Ejemplo:

Reconocimiento de huellas dactilaresLos algoritmos de reconocimiento suelen basarse en la detección de las minucias (minutiae), las cadenas (ridges) que forman, y su relación entre ellas

Imágenes tomadas de http://perso.wanadoo.fr/fingerchip/index.htm

Page 8: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 8

Ejemplo:Imagen de satéliteDescripción en árbol

Cada rama codifica una relación “compuesto de”

Washington D.C. (centro urbano y zonas residenciales)

Page 9: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 9

Reconocimiento mediante Reconocimiento mediante funciones discriminantesfunciones discriminantes

Elementos:Función discriminante, di(x):

Mide la relevancia de la clase cipara el patrón x.

Región de decisión, Ri:El conjunto de todos los puntos del espacio que el reconocedor asigna a la clase ci

Frontera de decisión:Separa regiones de decisión.

Decisor:Típicamente (aunque no siempre), seleccionan la clase de mayor (o menor) valor de la función discriminante di(x).

Análisis discriminante

PatrónDecisorx d

di(x)

Page 10: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 10

Aprendizaje:Conjunto de entrenamiento:

{x(k),c(k), k=1,…,K}

Conjunto de patrones etiquetados (cuya clase es conocida)

Algoritmo de entrenamiento:Es un conjunto de reglas de ajuste de los parámetros de las funciones discriminantes

di(x,wi)Conjunto de prueba (test)

Conjunto de patrones etiquetados NO utilizados durante el entrenamiento.Sirven para evaluar el rendimiento del clasificador.Generalización: capacidad para clasificar correctamente patrones no utilizados durante el entrenamiento.

Análisis discriminante

PatrónDecisorx d

di(x)

Page 11: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 11

Métodos (lista no exahustiva):Adaptación (Pattern Matching)

Representan cada clase mediante un patrón prototipo.Clasificador de mínima distanciaAdaptación por correlación

Clasificadores estadísticamente óptimosSe fundamentan en la Teoría de la Decisión Estadística

Clasificador bayesiano para clases gausianas

Redes neuronalesSe fundamentan en la teoría del aprendizaje estadístico

Perceptrón para dos clasesPerceptrón multicapa

Page 12: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 12

Reconocimiento mediante funciones discriminantes

Clasificador de mínima distancia

Se caracteriza por las funciones discriminantes

siendo mi un patrón prototipo de la clase i.Asignan la muestra a la clase “más próxima”

Dado que

se puede prescindir del primer término, que no depende de la clase, de modo que las funciones discriminantes

son equivalentes a las anteriores.Las fronteras de decisión del clasificador de mínima distancia son de la forma

es decir,

que son hiperplanos

( ) 2iid mxx −=

( ) iTi

Tiid mmxmx +−= 2

( ) ( )xx ji dd =

( ) 02 =−+−− jTji

Ti

Tij mmmmxmm

( ){ }xiidd minarg=

( ) ( ) ( ) iTi

Ti

Ti

Tiid mmxmxxmxmxx +−=−−= 2

Page 13: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 13

PrototipoEl prototipo mi que caracteriza a cada clase puede obtenerse mediante extracción de características sobre una imagen previamente etiquetada.También puede obtenerse a partir de una colección de patrones etiquetados:

siendo {xi,j} los patrones de la clase i del conjunto de entrenamiento.

∑=

=iN

jji

ii N 1

,1 xm

http://www.et.ethz.ch/eTutorials/evim/dateien/u3/irisbilder.htm

Iris Setosa Iris Versicolor

Page 14: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 14

Ejemplo: Reconocimiento de caracteres.Clases: Ck:{A,B,…,a,b,…0,1,2,…a,b,…a,b,…a,b,..a,b,…a,b,…}Clase de rechazo: Cr:{!,”,$,%,&,/,(,),=,?,¿,~,×…}Extractor de características:

3)dimensión de(vector masas de centro

cerrados) (contornos huecos denºperímetro

)y eje saltos de (suma |:),1()(:,|

x)eje saltos de (suma |:)1,-(n:),(|

columnas) las de sumay ejen (proyecció )(:,

filas) las de suma x ejen (proyecció :),(

binario vector oimagen )1360( ó )1820(

18

2

20

2

18

1

20

1

v

nznzS

znzS

nzP

nzP

z

ny

nx

ny

nx

≡⎪⎭

⎪⎬

⎪⎩

⎪⎨

⎪⎩

⎪⎨

−−=

−=

⎪⎩

⎪⎨

→=

→=

××≡

∑∑∑∑

=

=

=

=

Page 15: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 15

El reconocedor de caracteres asigna el vector “v” a la claseque más se “parece”.Medidas de similitud:

distancia euclideadistancia de Hamming, distancia de Mahalanobis, correlación cruzada, etc a

b

c

9

v d(v, vc)

d(v, v9)

d(v, vb)

d(v, va)

Mínim

o

Clase Ck=“h”

Page 16: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 16

Ventajas del clasificador de mínima distancia

SimplicidadFacilidad de ajuste

Inconvenientes:Sólo funciona cuando las clases forman nubes poco dispersas y bien separadas

Ejemplo: fuente de caracteres E-13B de la American Bankers Association, especialmente diseñada para facilitar el reconocimiento automático.La signatura refleja la derivada de la cantidad de negro en dirección vertical, al mover un scanner de izquierda a derechaEl muestreo en los puntos de la cuadrícula proporciona información con suficiente capacidad discriminante

Page 17: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 17

Extensiones del clasificador de mínima distancia:

Permiten obtener fronteras de clasificación más complejas, y modelar categorías que no quedan adecuadamente representadas por su media.k-NN (Nearest Neighbour):

Cada clase, Ci, se caracteriza por una colección de prototipos, mijCada patrón, x, se asigna a la clase mayoritaria de los k prototipos más próximosSelección de prototipos:

Cada muestra de entrenamiento, un prototipo.Prototipos obtenidos mediante un algoritmo de agrupamiento (como el k-means –ver presentación de Análisis de imágenes-). 1-NN, 2 prototipos por clase

Page 18: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 18

Reconocimiento mediante funciones discriminantes

Adaptación por correlación

Los métodos de adaptación por correlación también se basan en la comparación de la imagen a clasificar con una o varias imágenes patrón que caracterizan a cada clase. Es equivalente al de mínima distancia si los patrones están normalizados:

Utilizan medidas de similitud basadas en correlaciones:

Correlación:

( ) ( ) ( )∑∑ ++=s t

tysxwtsfyxc ,,,

( ) ( ) xmxmmxmx Tiii

Ti

Tii dd =′⇒+−= 2

Page 19: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 19

Coeficiente de correlación:Proporciona una medida invariante frente a cambios en la amplitud.

donde los promedios de w se calculan sobre todo el patrón (habitualmente más pequeño que la imagen), mientras que los de f se calculan sobre la región en torno al píxel del tamaño del patrón.

Otras normalizaciones (para obtener invarianzas respecto a cambios de escala u orientación) son posibles, pero a mayor complejidad

( )( ) ( )( ) ( )( )

( ) ( )( ) ( )( )2/1

22/1

2 ,,,

,,,,

⎥⎦

⎤⎢⎣

⎡−++⎥

⎤⎢⎣

⎡−

−++−=

∑∑∑∑

∑∑

s ts t

s t

wtysxwtsftsf

wtysxwtsftsfyxc

Page 20: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 20

Introducción:El mecanismo de generación de patrones se puede representar de forma probabilística:

Datos no disponibles: Prob. a priori Datos disponibles: Prob. a posteriori

Procesofísico

Sistema

sensorialClasificador de patrones

Extracción de características

Clase generada:CkC={C1 , C2 , ...Cn}

(Ck)P

Objetoo suceso“medible”

vector de medidas: z

vector de características: x

clase asignada: C( )xP C( )=( Ck | x)x x=

Experimento

Reconocimiento mediante funciones discriminantes

Clasificadores estadísticamente óptimos

Page 21: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 21

Reconocimiento mediante funciones discriminantes

Clasificadores estadísticamente óptimos

Caracterización estadísticaLa teoría de la decisión parte del supuesto de que los patrones son realizaciones independientes de un modelo probabilístico p (c,x)=P (c |x) p (x)

En general, en los problemas de reconocimiento de patrones tenemos clases mutuamente exclusivas y colectivamente exhaustivas, es decir:

siendo C el número de clases.Elementos:

Los costescostes, Lij : coste de asignar a cj un patrón de la clase ci .El riesgo medio condicionalriesgo medio condicional de asignar un patrón a clase j :

( ) ( )∑=

=C

kkkjj cPLr

1| xx

1)(1

=∑=

C

kkcP

Page 22: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 22

Clasificador de mínimo riesgoSerá aquél basado en las reglas de decisión

aplicando la regla de Bayes

se obtiene la expresión alternativa

Clasificador de mínima probabilidad de errorSe obtiene dando idéntico valor a todos los errores: Lij = 1-δij

(que es la probabilidad de error)

(decisión MAP (máximo a posteriori), que selecciona la categoría más probable, dada la observación)

( ) ( )∑=

==C

kkkjjjj

cPLri1

|minargminarg xx

( ) ( ) ( ) ( )xxxx |1||11

j

C

kkkj

C

kkj cPcPcPr −=−= ∑∑

==

δ

( ){ } ( ){ }xx |maxarg|1minarg jjjjcPcPi =−=

)()|()(

)|( |

xx

xx

kcxkk p

cpcPcP k=

( ) ( )∑=

=C

kkkkjj

cPcpLi1

|minarg x

Page 23: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 23

Ejemplo: Reconocimiento de caracteres mediante un decisor MAP

h x Máxim

o

Clase ck=“h”

p(x|ca) x

x

x

p(x|cb)

p(x|c9)

Pr(ca)

Pr(cb)

Pr(c9)

Page 24: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 24

Diseño del clasificador BayesianoEn la mayoría de las aplicaciones prácticas, no se conocen P(ck), p(x|ck) ni P(ck|x).En tal caso, deben estimarse a partir de un conjunto de entrenamiento.Se presentan dos alternativas:

Estimar P(ck|x), o bien Estimar P(ck) y p(x|ck)

P(ck): puede suponerse constante (categorías equiprobables) o estimarse como la proporción de observaciones etiquetadas y no etiquetadas.p(x|ck): hay muchos métodos. Los más sencillos suponen que las distribuciones son gausianas. La estimación se reduce a los parámetros de media y covarianzas.

Page 25: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 25

mi

Clasificador bayesiano para clases gausianasSe caracteriza por

siendo

x

p(x|c0)P(c0)L10 p(x|c1)P(c1)L01

Umbral de decisión

( ) ( )⎥⎦⎤

⎢⎣⎡ −−−= −

iiT

ii

cp mxVmxV

x 12/1N/2i 2

1exp)(2

1)|(π

{ }

( )( ){ } ( )( )∑

=

=

−−≈−−=

≈=

ik

ik

cd

Ti

ki

k

i

Tiii

cd

k

ii

NcE

NcE

)(

)(

)()(i

)(i

1|

1|

mxmxmxmxV

xxm

Page 26: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 26

Función discriminante: suele utilizarse el logaritmo:

Es una forma cuadrática para cada clase, con lo que la frontera de decisión será una cuadrática también.

Ej: P(c1)=0.6; P(c2)=0.4; V1 =[0.77 0;0 0.77]; V2 =[0.77 0;0 1.26]

( ) ( ) ( )( ) ( ) ( ) ( ) ( )( )

( ) ( ) ( )( )iiiT

ii

iiiT

iiiii

cP

cPNcPcpd

ln21ln

21

ln21ln

212ln

2|ln

12/1

12/1

+−−−−≡

+−−−−−==

mxVmxV

mxVmxVxx π

Page 27: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 27

Cuando las matrices de covarianzas de todas las clases coinciden (Vi=V) , el discriminante se reduce a:

y, por tanto, es una función discriminante linealSi, finalmente, las matrices son proporcionales a la identidad, resulta

que coincide con la función discriminante del clasificador de mínima distancia.

( ) ( )( )iiTi

Tii cPd ln

21 11 +−≡ −− mVmxVmx

( ) iTi

Tiid mmxmx

21

−≡

Page 28: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 28

Las Imágenes multiespectrales codifican información en varias bandas, sensibles a diferentes longitudes de onda del espectro electromagnético.

Los clasificadores bayesianos se han mostrado efectivos para clasificación de terrenos en muchos tipos de imágenes

Ejemplo: clasificación de terrenos en imágenes multiespectrales.

Page 29: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 29

Inconvenientes del modelo gausiano:Con frecuencia, no es realista (los datos no tienen una distribución gausiana)

Ejemplo: Diagrama de dispersión de las bandas 1 (azul) y 5 (infrarrojo cercano) de un conjunto de datos pertenecientes a una imagen Landsat (7 bandas) de las Ría de Vigo.

* → Rocao → Frondosas+ → Eucalipto● → Terreno Agrícola

Page 30: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 30

Clasificador bayesiano para mezclas de gausianasModelo más general: x ∈Ck se asume con fdp compuesta por una mezcla de gausianas de medias μkl , covarianza Vkly factores de mezcla wl es decir:

La estimación ML de los parámetros wl , μkl y Σkl para cada clase se realiza de forma iterativa mediante un algoritmo conocido como Esperanza-Maximización (EM).El clasificador MAP responde a la expresión:

Las fronteras de decisión son superficies hipercuádricas a tramos

[ ]∑∑ =

=−−−==

L

l klklT

klkl

pklkL

l klk wclpwcp1

121

2/12/1)()(exp

||)2(1),|()|( μxVμx

Vxx

π

{ })|()(maxarg)( kkk

CxpCPxC =

Page 31: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 31

Ejemplo:Clasificación de piel/no piel en un espacio de color bi-dimensional (sin información de luminancia), modelando cada clase como una mezcla de gausianas y estimando parámetros con el algoritmo EM:

Page 32: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 32

Reconocimiento mediante funciones discriminantes Métodos basados en Teoría de la Decisión

Redes Neuronales ArtificialesBackgroundPerceptrón para dos clases

Algoritmos de entrenamientoClases separables linealmenteClases no separables linealmente

Page 33: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 33

Motivación:El análisis previo pone de manifiesto que, para diseñar un clasificador estadísticamente óptimo a partir de un conjunto de datos de entrenamiento, pueden adoptarse tres estrategias:

Estimar P(ck|x)Estimar P(x|ck) y P(ck)Determinar una función discriminante que proporcione la frontera de decisión óptima.

El término “redes neuronales” engloba a un conjunto de técnicas que proporcionan soluciones flexibles (adaptables a cada problema) para cada una de estas estrategias.

Page 34: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 34

Perceptron para dos clases

Implementa la función discriminante lineal:

Para un conjunto finito de muestras podemos hallar un vector de pesos apropiado buscando una solución de estas inecuaciones (para dos clases):

¿Cómo determinar los pesos? Algoritmo de entrenamiento: procedimiento recursivo que modifica el vector de pesos hasta que se cumplen las desigualdades:Iniciar aleatoriamente los pesosPresentar cada muestra al sistema de inecuaciones

Si bien clasificada no alterar pesosSi mal clasificada alterar los pesos de forma conveniente

( ) eTe

n

iii xwwxdz xw=+== ∑

=10

w0

1x1

x2

xN

w1

w2

wN

z

...o

22

11

1,0

1,0

Mj

Mj

jt

e

jt

e

≤≤>−

≤≤>+

xw

xw

Page 35: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 35

Algoritmos de entrenamiento Clases separables linealmente

Regla del Regla del PerceptrónPerceptrón:

Si no hay error, no hay cambioSi hay error, w(k+1)T x(k) cambia en el sentido de corregir el error.

Teorema de entrenamiento del perceptrón:

Si las clases son linealmente separables, la regla del perceptrón converge a una solución de cero errores en un número finito de pasos.

( ) [ ] ( ) }1;1{,;10 2

)()()()()()(1 −=<<−+=+ kkkkkkk odconod αα xww

xx

xx

xxx

x

xx

xxx x

x

xxx

x x

t=0

t=1t=2

t=4t=10

Page 36: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 36

Clases no separables linealmenteEn este caso, la regla del perceptrón no se detiene.Soluciones:

Discriminantes no lineales, pero lineales en los parámetros:

permiten obtener fronteras no lineales que obtengan soluciones de cero errores perceptrón multicapaVariantes heurísticas, como el algoritmo del lgoritmo del BolsilloBolsillo, que conserva en una memoria aparte (bolsillo) los pesos que han dado lugar a la secuencia de pasos de entrenamiento libre de errores más larga

Inconvenientes de la Regla del Perceptrón:Mala generalización:

aunque el problema sea intrínsecamente separable (para el clasificador usado), el algoritmo puede colocar la frontera en una posición inadecuada

oo

oo

o o

o

××

×

××

××

×

××

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x( ) ∑∑==

++==n

iii

n

iii xwxwwxdz

1

2

10

Page 37: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 37

El ADALINE (“ADAptive LInear NEuron”)Tiene la misma arquitectura del Perceptrón, pero se entrena mediante un algoritmo de gradiente:

siendo J(we) una función de coste. La más habitual es el error cuadrático:

En la versión estocástica (el algoritmo de Widrow-Hoff) se aplica el gradiente sobre una sola muestra, resultando

Puede demostrarse que, para α suficientemente pequeño, la regla del ADALINE converge (aunque no necesariamente a una solución de mínimo numero de errores).

[ ] ( )10 )()()()()1( <<−+=+ αα ke

kkTke

ke zd xww

( ))()()1( ke

ke

ke J www w∇−=+ α

( ) ( ) ( )⎭⎬⎫

⎩⎨⎧ −≈−= ∑

=

2)()()(

1

2)()()(

21

21 k

eTk

ek

N

k

ke

Tke

k dEdN

J xwxww

Page 38: Reconocimiento de Patrones - Universidad Nacional de … CRP-2.pdf · “compuesto de” Washington D.C. ... Se caracteriza por las funciones discriminantes siendo m iun patrón prototipo

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 38

Perceptrón multicapaArquitectura básica

El perceptrón multicapa es un aproximador universal.