gildardo chaparro magallanez

TESIS DEFENDIDA POR

Gildardo Chaparro Magallanez

Y APROBADA POR EL SIGUIENTE COMITÉ

Dr. Josué Álvarez Borrego

Director del Comité

Dr. Héctor Manuel Escamilla Taylor Dr. Santiago Camacho López

Miembro del Comité Miembro del Comité

Dr. Héctor Alonso Echavarría Heras

Miembro del Comité

Dr. Pedro Negrete Regagnon Dr. David Hilario Covarrubias Rosales

Coordinador del programa de posgrado en ciencias en óptica

Director de Estudios de Posgrado

20 de octubre de 2011

CENTRO DE INVESTIGACIÓN CIENTÍFICA Y DE EDUCACIÓN SUPERIOR

DE ENSENADA

PROGRAMA DE POSGRADO EN CIENCIAS

EN ÓPTICA

Correlación invariante mediante el uso de firmas

unidimensionales

que para cubrir parcialmente los requisitos necesarios para obtener el grado de MAESTRO EN CIENCIAS

Presenta:

GILDARDO CHAPARRO MAGALLANEZ

Ensenada, Baja California, México, octubre, 2011.

RESUMEN de la tesis de Gildardo Chaparro Magallanez, presentada como requisito parcial para la obtención del grado de MAESTRO EN CIENCIAS en Óptica con orientación en optoelectrónica. Ensenada, Baja California. Octubre, 2011.

CORRELACIÓN INVARIANTE MEDIANTE EL USO DE FIRMAS UNIDIMENSIONALES

Resumen aprobado por:

________________________________

Josué Álvarez Borrego Director de tesis

Se presenta un nuevo sistema de reconocimiento de imágenes usando correlaciones digitales no lineales, con invariancia a posición, rotación, escala y ruido. Son utilizadas firmas unidimensionales, generadas a partir de la información obtenida de filtros adaptativos binarios de anillos concéntricos. Se muestra la operación del sistema variando las opciones para la construcción de la máscara binaria de anillos concéntricos, usando tanto la parte real como imaginaria de la transformada de Fourier, así como también invirtiendo el estado binario de los anillos. Fue realizado un análisis estadístico para conocer el nivel de confianza de la correlación promedio. En la primera parte se obtienen resultados para simulaciones donde son usadas imágenes binarias que presentan variaciones de tamaño de ±30% y variaciones de rotación (1º - 360º). Posteriormente son usadas imágenes de diatomeas en escala de grises con variación de tamaño (90% - 107%) y variaciones de rotación (1º - 360º). Por último se presenta una discusión del desempeño del sistema de correlación donde imágenes de diatomeas en escala de grises son afectadas por ruido gaussiano y ruido impulsivo. Con base en los resultados de las simulaciones, se da a conocer el filtro con mejor desempeño en el sistema de reconocimiento, tanto para las imágenes binarias como en escala de grises, en presencia de distorsiones de posición, escala, rotación y ruido, caracterizándose así un sistema de reconocimiento de imágenes rápido y funcional.

Palabras Clave: reconocimiento de patrones, filtros de correlación, firmas.

ABSTRACT of the thesis presented by Gildardo Chaparro Magallanez as a partial requirement to obtain the MASTER OF SCIENCE degree in Optics with orientation in optoelectronics. Ensenada, Baja California, México, October, 2011.

INVARIANT CORRELATION USING ONE-DIMENSIONAL SIGNATURES

A new system for image recognition using nonlinear digital correlations with position, scale, rotation and noise invariance is presented. One-dimensional signatures are used, these generated with information obtained from binary adaptative filters of concentric rings. Different options for building the binary mask of concentric rings are described. A statistical analysis was done to know the mean correlation confidence level. In the first part, results for simulations using binary images of letters B, E, F, H, P and T are obtained, with scale and rotation variances of ±30% and 1º to 360º respectively. In addition, diatom images in gray scale are used, with size variance (90% - 107%), and rotation variance (1º - 360º). Finally, a discussing about the performance of the correlation system where images of diatoms affected with Gaussian and impulsive noise is presented. Based on simulation results, it is shown the filter with better performance for binary and gray scale images recognition in presence of position, size, rotation and noise distortions, being characterized of this way a fast and functional image recognition system.

Keywords: pattern recognition, correlation filters, signatures.

Dedicatorias A Esther Magallanez Martínez y Jesús María Chaparro Molina, mis padres.

Agradecimientos

A mi director de tesis, Josué Álvarez Borrego, por el apoyo recibido, sus

consejos y su enorme paciencia. A los doctores Héctor Escamilla Taylor, Santiago

Camacho López y Héctor Echavarría Heras por su disposición en todo momento y

sugerencias. A cada uno de mis compañeros de generación, con quienes siempre

compartí un cálido compañerismo, y que sin duda me ayudó a continuar. A mis

padres, hermanos y sobrinos, quienes me motivaron siempre a seguir con mi

desarrollo profesional. A mis amigos, que directa o indirectamente fueron un apoyo

a lo largo de mis estudios me maestría.

Se agradece al Centro de Investigación Científica y de Educación Superior

de Ensenada (CICESE) y al Consejo Nacional de Ciencia y Tecnología

(CONACYT), por la beca que durante dos años me otorgó. Este trabajo fue

apoyado por el proyecto CONACYT titulado “Correlación invariante a posición,

rotación, escala, ruido e iluminación para identificación de organismos y

estructuras microscópicas y macroscópicas”, con número 102007.

Especialmente, y sobre todo, agradezco a Dios Único, que abre y cierra

puertas aún sin mi consentimiento, para sus propósitos y mi salvación.

CONTENIDO

Página

Resumen español…………………………………………………………… i

Resumen inglés……………………………………………………………… ii

Dedicatorias………………………………………………………………….. iii

Agradecimientos…………………………………………………………….. iv

Contenido…………………………………………………………………….. v

Lista de Figuras……………………………………………………………… vii

Lista de Tablas………………………………………………………………. ix

Capítulo I. Introducción……………………………………………………. 1

I.1 Sistemas de correlación………………………………….………………. 1

I.2 Sistemas de correlación digital empleados para reconocimiento…… 2

I.3 Justificación……………………………………………………………….. 3

I.4 Objetivos…………………………………………………………………… 4

-Objetivo general……………………………………………………………… 4

-Objetivos particulares……………………………………………………….. 4

I.5 Estructura de la tesis……………………………………………………… 5

Capítulo II. Fundamentos matemáticos…………………………………. 6

II.1 Introducción……………………………………………….………………. 6

II.2 Transformada de Fourier………………………………….…………….. 7

II.3 Transformada de Fourier inversa………………………….…………… 8

II.4 Transformada discreta y transformada discreta de Fourier inversa… 8

II.5 Transformada de Fourier discreta en dos dimensiones…….….……. 9

II.6 Propiedades de la transformada discreta de Fourier………….……… 10

CONTENIDO (continuación)

II.7 Teorema de convolución…………………………………………..……. 11

II.8 Teorema de convolución en el tiempo…………………………………. 12

II.9 Teorema de convolución en la frecuencia……………….……………. 14

II.10 Teorema de correlación………………………………………………… 14

Capítulo III. Marco teórico……………………….…………………………. 15

III.1 Introducción………………………………………….…………………… 15

III.2 Filtros de correlación………………………………….…………………. 16

III.3 Imágenes con ruido………………………………….………………….. 20

Capítulo IV. Metodología…………………………………………………… 24

IV.1 La transformada de Fourier en las imágenes…………………….….. 24

IV.2 Obtención de la máscara binaria de anillos y alternativas……….… 25

IV.3 Obtención de las firmas unidimensionales………………….………. 29

IV.4 Correlaciones entre firmas de imágenes……….……………………. 33

Capítulo V. Resultados y discusión……………………….…………….. 34

V.1 Correlaciones con imágenes binarias……………….……………….. 35

V.2 Correlaciones con imágenes en escala de grises…………….…….. 46

V.3 Imágenes en presencia de ruido………………….…………………… 56

Capítulo VI. Conclusiones…………………………………………………. 61

Referencias…………………………………………………………………… 63

LISTA DE FIGURAS

Figura

Página

1 Resolución de problemas con transformadas 6

2 Imágenes problema y objetivo 15

3 Representación polar 17

4 Distribución de Gauss 21

5 Imágenes con ruido gaussiano 21

6 Imágenes con ruido impulsivo 22

7 Transformada de Fourier de una imagen 24

8 Imagen original 25

9 Parte real de la transformada de Fourier 25

10 Corte de la parte real de la transformada de Fourier 26

11 Función binaria 27

12 Máscara binaria de anillos concéntricos 27

13 Obtención de la máscara para la imagen de la letra B 28

14 Selección óptima de la MBAC 28

15 Multiplicación punto a punto de matrices 29

16 Firma sencilla 30

17 Firma promedio 31

18 Módulo compuesto 32

19 Correlaciones solo de fase para la letra F 36

20 Correlaciones no lineales (k=0.1) para la letra F 37

21 Imágenes binarias utilizadas 39

22 Diferentes formas de hacer el filtro 40

23 Filtro de mejor desempeño 45

24 Imágenes de diatomeas en escala de grises utilizadas 46

25 Correlaciones utilizando como filtro la imagen A 47

LISTA DE FIGURAS (CONTINUACIÓN)

26 Correlaciones utilizando como filtro la imagen B 47

27 Correlaciones utilizando como filtro la imagen C 48

28 Correlaciones utilizando como filtro la imagen D 48

29 Correlaciones utilizando como filtro la imagen E 49

30 Correlaciones utilizando como filtro la imagen F 49

31 CD del sistema agregando ruido gaussiano 57

32 CD del sistema agregando ruido impulsivo 57

33 CD del sistema agregando ambos ruidos, σ2=1 58

LISTA DE TABLAS

Tabla Página

I Correlaciones de filtros no lineales con diferente número

de imágenes

II Correlaciones de filtros solo de fase con diferente número

de imágenes

III Correlaciones usando la parte real de la TF 41

IV Correlaciones usando la parte real de la TF e invirtiendo

el anillo

V Correlaciones usando la parte imaginaria de la TF e

invirtiendo el anillo

VI Correlaciones usando la parte imaginaria de la TF 44

VII Correlaciones usando como filtro la diatomea A 50

VIII Correlaciones usando como filtro la diatomea B 51

IX Correlaciones usando como filtro la diatomea C 52

X Correlaciones usando como filtro la diatomea D 53

XI Correlaciones usando como filtro la diatomea E 54

XII Correlaciones usando como filtro la diatomea F 55

Capítulo I

Introducción

I.1 Sistemas de correlación.

A principios de la década de los 60’s los sistemas de correlación adquirieron

un importante impacto en el desarrollo de diferentes campos de la ciencia. Los

avances tecnológicos conseguidos desde entonces hasta la fecha, utilizando

técnicas de correlación, van desde análisis vibracionales en sistemas mecánicos

hasta procesamiento de señales generadas por sistemas de magnitudes físicas de

órdenes cuánticos. Algunos otros ejemplos también muy significativos son los

conseguidos en algunas aplicaciones en actuales cámaras digitales y sistemas de

metrología de deformación de objetos.

La correlación busca establecer la medida de similitud entre dos funciones,

es decir, determina la medida de la dependencia de una función A sobre una

función B. Las técnicas de correlación son variadas dependiendo en gran medida

del problema presente. Con respecto al reconocimiento de imágenes, la

correlación óptica y digital en el dominio de Fourier (Solorza Calderón, S. y J.

Álvarez Borrego. (2010)) son técnicas muy útiles actualmente para el logro de un

buen desempeño y toma de decisiones en una gran cantidad de campos.

I.2 Sistemas de correlación digital empleados para

reconocimiento de imágenes.

El reconocimiento de patrones de imágenes es un problema común. Cada

día las personas de manera natural le dan solución de forma instantánea, lo

suficientemente rápido como para ser considerado un verdadero problema.

Utilizando las técnicas de correlación digital de imágenes es posible proponer

diversas soluciones a problemas donde las capacidades naturales humanas por sí

solas no serían suficientes para obtener una respuesta confiable.

La taxonomía nos da un ejemplo claro de cómo sus orígenes

metodológicos están fuertemente basados en el análisis meramente humano. De

esta manera, y con la necesidad de altos niveles de confianza, según sea el

problema en análisis, además de procesar cantidades de información fuera del

alcance de las capacidades humanas, los sistemas automáticos desempeñan un

papel fundamental en la tarea de relevar antiguas e innecesarias metodologías.

Recientes trabajos de investigación han probado con mucho éxito cómo los

sistemas de correlación digital de imágenes superan los requerimientos

establecidos para diferentes tareas taxonómicas. Pech-Pacheco, José Luis y

Josué Álvarez-Borrego (1998), muestran resultados concernientes al campo de la

taxonomía donde con un algoritmo computacional logra identificar diferentes

especies de fitoplancton en tiempos no posibles solo por análisis visual, además

de un alto nivel de confianza. En el campo de la acuicultura también se han

logrado mejorías en el diagnóstico de enfermedades en los cultivos mediante la

implementación de sistemas automáticos. Álvarez-Borrego Josué y María Cristina

Chávez Sánchez (2001), muestran la metodología necesaria para encontrar el

virus IHHN en el tejido de camarones con la ayuda de un sistema de correlación

de imagen de tejidos bajo análisis. De manera sostenidamente creciente el

impacto de los sistemas de correlación digital de imágenes ha desencadenado un

notable interés en la búsqueda de avances para diferentes campos de la ciencia y

tecnología tales como sistemas de seguridad, psicología, y biología general (Fájer

Ávila Emma Josefina y Josué Álvarez-Borrego, (2002)). Entre los avances

ingenieriles destacan reconocimiento automático de objetos en movimiento,

reconocimiento biométrico, reconocimiento de caracteres ópticos y sensado

remoto.

El diseño y uso de los algoritmos de correlación de reconocimiento de

patrones requiere de antemano conocimiento de algunas áreas como, por

ejemplo, el procesamiento digital de señales, teoría de sistemas lineales, procesos

y variables aleatorias, métodos matriciales y procesamiento óptico. La lista puede

ser muy larga dependiendo el sistema a desarrollar, ya que en la actualidad el

carácter multidisciplinario de la investigación va más lejos que el conocimiento de

solo una rama de la ciencia.

I.3 Justificación.

Desde sus inicios a fechas recientes, los sistemas de correlación de

imágenes preparan novedosas y eficientes soluciones a los problemas de

reconocimiento a pesar de requerir alto desempeño sin importar las distorsiones

presentes tales como tamaño, rotación, posición, ruido o combinación entre éstas.

Algunas consideraciones de diseño tales como la fuga de información en el

proceso, el costo computacional requerido, la complejidad del sistema y la

tecnología requerida son muy importantes para determinar la factibilidad del

sistema de correlación. El método que se propone es un sistema que emplea

correlación digital mediante transformada de Fourier usando dos filtros no lineales

con invariancia a rotación, escala, posición y ruido, además de ser un sistema

adaptativo basado en firmas unidimensionales, teniendo de esta forma la enorme

ventaja de un reconocimiento rápido y con alto nivel de confianza. De esta

manera, el costo computacional se reduce de manera significativa.

I.4 Objetivos.

Objetivo general.

Desarrollo de una nueva metodología de correlación digital unidimensional

invariante a rotación, escala, posición y ruido, mediante el uso de máscaras

binarias adaptativas y firmas unidimensionales.

Objetivos particulares.

1. Obtención de la máscara binaria adaptativa de un objeto a reconocer

utilizando la parte real de su transformada de Fourier (TF). Obtener la firma

unidimensional.

2. Obtención de la máscara binaria adaptativa de un objeto a reconocer

utilizando la parte imaginaria de su transformada de Fourier (TF). Obtener

la firma unidimensional.

3. Realizar un estudio profundo de la comparación de resultados de los

objetivos particulares de 1 y 2. Escoger la mejor máscara adaptativa con su

firma unidimensional.

4. Obtener una máscara adaptativa compuesta mediante imágenes de

entrenamiento con diferente escala.

5. Estudiar el desempeño de la firma compuesta obtenida, y determinar el

máximo número de imágenes de entrenamiento que puede soportar a un

nivel de confianza de al menos 90 %.

6. Encontrar el límite de los valores de escala con los cuales el sistema de

reconocimiento tenga un buen desempeño.

7. Estudiar el desempeño de las firmas unidimensionales en presencia de

diferentes tipos de ruido (gaussiano e impulsivo y ambos).

I.5 Estructura de la tesis.

Para una mejor organización, el contenido de la tesis está distribuido en una

extensión de seis capítulos. El capítulo I presenta una introducción a los sistemas

de correlación digital para reconocimiento de imágenes así como la descripción de

los objetivos perseguidos. El capítulo II muestra un análisis teórico de las

herramientas matemáticas necesarias en la materia, como la correlación y la

transformación de Fourier. Para el capítulo III se prepara una discusión acerca de

filtros lineales y no lineales, así como también la teoría relacionada con el ruido

utilizado para determinar la operación del sistema en su presencia. Los

procedimientos paso a paso en la generación de las firmas unidimensionales,

máscaras de anillos y opciones de elaboración (parte imaginaria o real de la TF y

selección de anillo) así como la obtención de las correlaciones entre las firmas

están dadas en el capítulo IV. El capítulo V muestra los resultados obtenidos en

las simulaciones, tablas de correlaciones y el análisis de desempeño del sistema

en presencia de ruido. Las conclusiones están reservadas al capítulo VI.

Capítulo II

Fundamentos matemáticos

II.1 Introducción.

Esta sección está destinada a mostrar lo relacionado a la base matemática

sobre la cual está sostenida la metodología en el desarrollo de la tesis,

fundamentalmente, la transformada de Fourier (TF). En matemáticas, la

transformación se refiere al replanteamiento o cambio de un sistema a una

dimensión diferente (figura 1). Esta reformulación permite una solución más ágil,

aun cuando es requerida una transformación inversa para expresar resultados en

la dimensión original. La TF es un recurso matemático ampliamente utilizado en

diversos campos científicos e ingenieriles. Mucho de lo que conocemos en materia

tecnológica ha sido diseñado con énfasis en las propiedades que tiene la TF, tales

como la correlación hecha por un simple ratón óptico de computadora, hasta un

sofisticado equipo militar de procesamiento de señales, espectroscopía, equipos

de radar o sonar, aplicaciones de biomedicina, análisis mecánico, análisis

geofísico y más.

Figura 1. Solución de problemas con transformadas.

Inicialmente es explicada la TF y la transformada de Fourier inversa (TFI)

para funciones continuas y discretas en una dimensión, así como el análisis de

sus principales propiedades. Posteriormente se trata con la transformada de

Fourier discreta en dos dimensiones.

Debido a la importancia de los teoremas de la convolución y correlación, se

prepara una discusión general de estos temas tanto en el caso continuo como en

el discreto y se muestran sus ventajas al ser usadas como propiedades de la

transformación de Fourier y el impacto que tienen en el reconocimiento de

imágenes.

II.2 La transformada de Fourier.

La integral de Fourier unidimensional de una función h t está definida por:

2 ,j ftH f h t e dt

donde 1j . Si la función h t es continua para cada valor de t en la integral,

entonces decimos que H f es la transformada de Fourier de la función h t . La

transformada de Fourier H f representa una cantidad compleja descrita por

,j fH f R f jI f H f e (2)

donde R f corresponde a una cantidad real, jI f es una cantidad imaginaria,

H f es la magnitud o módulo del espectro de Fourier y f es el ángulo de

fase de la TF. La ecuación (1) también se representa como

.H f h t (3)

II.3 La transformada de Fourier inversa.

La transformada de Fourier inversa la definimos de la siguiente manera:

2 ,j fth t H f e df

y es utilizada para expresar la función transformada H f en el dominio de la

función h t . De esta manera se dice que la función H f de la ecuación (1) y la

función h t de la ecuación (4) forman un par transformado de Fourier, tal y como

es expresado en la ecuación (3).

II.4 Transformada discreta y transformada discreta de Fourier

inversa.

Se entiende por una señal discreta como la representación discontinua de

una señal muestreada por un intervalo fijo de tiempo T de un número de muestras

N. La ecuación (5) muestra la transformada discreta de Fourier.

Nj nk NH n T T h kT e

donde k es un número entero positivo que indica el período en el dominio de kT ,

n es el dominio en frecuencia de la función periódica H n T . De igual manera

podemos obtener la transformada discreta de Fourier inversa que está dada por la

expresión:

11 2 .

Nj nk Nh kT H n T e

De esta forma sabemos entonces que la ecuación (5) y la ecuación (6) forman un

par de transformación de Fourier. Tanto el factor T en la ecuación (5) como 1 N en

la ecuación (6) son términos que compensan las modificaciones de escala que

sufren las funciones en el proceso de transformación.

II.5 Transformada discreta de Fourier y transformada discreta

de Fourier inversa en dos dimensiones.

La transformada de Fourier en dos dimensiones está representada por una

doble sumatoria en donde una función en el dominio espacial ,h pT qTx x mapea

una función bidimensional en la frecuencia ,H n Tx m Ty . Está dada por

2 2, ,,0 0

M Nj np N j mq MH n Tx m Ty h pT qT e ex y

0,1,..., 1 0,1,..., 1

.0,1,..., 1 0,1,..., 1

p N n N

q M m M

La transformada discreta de Fourier inversa en dos dimensiones es

representada como

1 11 1 2 2, ,,0 0

M Nj np N j mq Mh pT qT H n Tx m Ty e ex y

M Nm n

0,1,..., 1 0,1,..., 1

.0,1,..., 1 0,1,..., 1

p N n N

q M m M

Entonces, entre ellas forman un par transformado de Fourier:

, .,h pT qT H n Tx m Tyx x (11)

II.6 Propiedades de la transformada de Fourier discreta.

A continuación se señalan las principales propiedades de la TF

unidimensional.

Linealidad

Si las funciones x k y y k tienen las transformaciones X n y Y n

respectivamente, entonces

.x k y k X n Y n (12)

Simetría.

Si x k y X n es un par transformado de Fourier discreto, entonces

.X k x nN

Desplazamiento en el espacio.

Si una función en el espacio es desplazada por un entero i , entonces

2 .j ni Nx k i X n e (14)

Desplazamiento en frecuencia.

2 .j ik Nx k e X n i (15)

Funciones pares.

Si x ke es una función real par, entonces la TF discreta también es una

función par y es real.

2cos .

Nnkx k R k x ke e e N

Funciones impares.

x k x ko o , entonces x ko es una función impar y su transformada

de Fourier Discreta es una impar e imaginaria, si x ko es real.

II.7 Teorema de convolución.

La convolución puede ser definida de manera sencilla como la propiedad

especial de la transformada de Fourier. Tanto la convolución como correlación de

dos funciones han tenido una importante utilidad en diversas áreas de la ciencia.

En esta sección se muestra de manera detallada el procedimiento en la obtención

de la convolución de dos funciones.

La ecuación que determina la convolución de dos funciones es llamada

integral de convolución y está representada por

* .y t x h t d x t h t

La ecuación (17) nos dice que para obtener la convolución y t de las

funciones x y h es necesario integrar el producto de ambas funciones, donde h

está en función de y además presenta un retardo t . Asimismo, podemos

obtener el mismo resultado de la convolución si hacemos una multiplicación de

ambas funciones si estas están en el dominio de la frecuencia,.

Existe una forma alternativa de presentar la integral de convolución, esta

nos dice que podemos intercambiar las posiciones de las funciones a

convolucionar; el resultado siempre es el mismo:

.y t h x t d

II.8 Teorema de convolución en el tiempo.

El teorema de convolución en el tiempo nos presenta mediante la

transformación de Fourier, una alternativa rápida en la solución de problemas

donde se requiere el espectro frecuencial del producto de dos funciones

espaciales, ahorrando de manera significativa tiempo y complejidad. El teorema de

convolución en el espacio nos dice que podemos obtener el producto de dos

funciones en el dominio de la frecuencia si únicamente obtenemos la transformada

de Fourier de la convolución de las funciones espaciales, ahorrándonos así la

tarea de obtener la transformación de cada función por separado. La ecuación (19)

muestra el teorema de convolución en el tiempo:

* .h t x t H f X f (19)

Para poder llegar a este resultado partimos de la ecuación (20) haciendo

uso de la integral de convolución de la ecuación (17) y posteriormente obteniendo

su transformada de Fourier:

2 2j ft j fty t e dt x h t d e dt

. (20)

Esta ecuación puede ser expresada de igual forma de la siguiente manera

2j ftY f x h t e dt d

. (21)

Si sustituimos t la ecuación se vuelve

2 2 2j f j f j fh e d e h e d

, (22)

2 2j f j fh e d e H f

. (23)

De esta forma la ecuación (21) puede ser escrita como

2j fY f x e H f d H f X f

. (24)

Obtenemos así el producto de las dos funciones en el dominio de la

frecuencia.

II.9 Teorema de Convolución en la frecuencia.

El teorema de la convolución en la frecuencia nos dice que a partir de ésta

podemos obtener un par transformado de Fourier que da como resultado una

multiplicación de las funciones en el dominio espacial.

*h t x t H f X f . (25)

De esta forma podemos decir que la convolución en el tiempo y en la

frecuencia son operaciones invertidas entre ellas, es decir, la convolución en un

dominio es la multiplicación en el otro.

II.10 Teorema de correlación.

Sin duda alguna tanto la correlación como la convolución son igualmente

importantes y de igual forma que la convolución, es también una propiedad más

de la transformada de Fourier. Hasta esta parte solo se ha hablado de la

convolución por razones que más tarde serán evidentes. La correlación entre dos

funciones es principalmente utilizada para obtener una referencia que puede ser

empleada en la medida de la similitud entre dos funciones. La función de la

correlación es expresada de la siguiente manera:

y t x h t d x t h t

. (26)

La función de correlación es muy similar a la función de convolución, solo

que en la correlación h t indica que no es necesaria una reflexión de esta

función para obtener un resultado. En el caso de la convolución para la función h

sí es necesaria esta operación. La ecuación (26) es de mucha importancia ya que

esta tesis está sustentada en gran medida en el teorema de correlación.

Capítulo III

Marco teórico

III.1 Introducción.

Los filtros de correlación son funciones matemáticas representadas por la

información de la imagen objetivo, que al ser correlacionadas con la función

descriptiva de la imagen problema, obtenemos un plano de correlación que nos

determina la similitud entre la imagen problema y la imagen objetivo (figura 2). Los

filtros de correlación han sido ampliamente utilizados desde hace algunas

décadas. Se atribuye a Vander Lugt (1964) la creación del primer filtro de

correlación. Posteriormente se diseñaron diferentes filtros para propósitos

similares al original, pero optimizados éstos con el propósito de obtener las

correlaciones invariantes a múltiples distorsiones que son siempre intrínsecas en

todos los sistemas. Entre estos filtros podemos mencionar el filtro de acoplamiento

clásico desarrollado por Vander Lugt, el filtro solo de fase, el filtro inverso y el filtro

no lineal. Cada uno de estos filtros posee características diferentes que pueden

ser usadas dependiendo de las distorsiones del sistema.

Figura 2. (a) Ejemplo de imagen problema. (b) Ejemplo de imagen objetivo.

(a) (b)

El principal reto que se tiene en los filtros de correlación se presenta cuando

deseamos obtener un pico de correlación alto, que sea claramente distinguible

cuando se busca localizar una imagen objetivo dentro de una imagen problema,

anulando de esta manera el valor que se obtiene en la correlación con objetos

diferentes a nuestra imagen objetivo.

III.2 Filtros de correlación

a. Filtro clásico.

Es también llamado filtro de acoplamiento clásico o CMF por sus siglas en

inglés (Classical Matched Filter), y fue desarrollado por Vander Lugt (1964). Su

principal ventaja sobre otros filtros es que brinda un alto nivel de correlación aun

cuando el sistema está siendo afectado por ruido blanco aditivo. Su desventaja es

que cuando existen distorsiones de rotación, escala o iluminación su capacidad

discriminatoria se reduce dramáticamente. Otro aspecto de mucha importancia es

que el pico máximo de correlación se presenta con lóbulos secundarios de fuertes

amplitudes. La ecuación (27) muestra la función que describe el filtro clásico:

, (27)

donde y son variables en el dominio de la frecuencia, Pn(μ, ν) es la densidad

espectral de ruido y es una constante arbitraria; S*(μ, ν) es llamado el complejo

conjugado de la función ,S , que es la transformada de Fourier de la entrada

al sistema. Otra forma de representar esta ecuación se muestra en la ecuación

(28) si consideramos nula la afectación de la densidad espectral del ruido.

iH A e

. (28)

En este caso ,A representa el módulo y , la fase de la función

,H . Debido a que la función ,H es compleja, podemos representarla de

forma polar tal y como se muestra en la figura 3:

Figura 3. Representación polar de un punto en la función ,H .

b. Filtro solo de fase.

En 1984 fue desarrollado el filtro solo de fase o POF por sus siglas en

inglés (Phase Only Filter) Joseph L. Horner and Peter D. Gianini, (1984) como una

nueva alternativa de filtraje que produce considerables ventajas respecto al filtro

de acoplamiento clásico (CMF). El filtro solo de fase es capaz de generar picos de

correlación mucho más estrechos que el filtro clásico.

Como su nombre lo indica, el filtro solo de fase se vale únicamente de la

información de la fase obtenida por medio de la transformada de Fourier de la

imagen de referencia. La ecuación (29) muestra el filtro solo de fase:

( , )( , )( , )

( , )riT

Podemos observar que el filtro solo de fase se obtiene de igualar a uno el

módulo de la transformada de Fourier. Esto se obtiene del hecho de que si

consideramos su uso en un sistema óptico en donde no hay cambios en la

intensidad luminosa a través del sistema solo hay variaciones de la fase debido al

filtro. El filtro solo de fase (POF) presenta correlaciones mucho más estrechas con

respecto al filtro de acoplamiento clásico (CMF); esto quiere decir que los lóbulos

laterales al pico máximo de correlación no son tan grandes como en el filtro

clásico.

c. Filtro no lineal k.

El filtro no lineal está descrito por una función matemática que entrega a la

salida de un sistema una respuesta no lineal de energía con respecto a la entrada.

De igual manera que los filtros anteriores, el filtro no lineal también se obtiene de

de la transformación de Fourier. A partir de la ecuación (28) y utilizando las

variaciones de la constante k podemos obtener una no linealidad del sistema que

se describe tal como en la ecuación (30):

ikH A e

. (30)

Esta expresión llamada ley k fue adoptada en 1990 por Kumar y

Hassebrook (B. V. K Vijaya Kumar and L. Hassebrook (1990)). Se ha determinado

bajo un análisis numérico el valor óptimo de k en donde se obtiene un mejor

desempeño del filtro; este mismo valor es utilizado en el algoritmo desarrollado en

este trabajo. Guerrero-Moreno R. E. y Álvarez-Borrego J. (2009) presentan un

estudio del desempeño de este filtro. Como ya se ha mencionado con anterioridad,

el filtro de acoplamiento clásico presenta grandes problemas cuando la imagen

problema está inmersa en ruido de diferentes naturalezas, además si a esto

agregamos distorsiones de rotación y escala, el problema se agrava. El filtro no

lineal presenta la característica de poder tratar estos problemas con buenos

resultados dando como salida niveles de correlación muy bien definidos y

angostos en un plano de salida aun menos ruidoso que el filtro solo de fase. En el

filtro solo de fase el módulo es igualado a uno mientras que en el filtro no lineal el

valor del módulo puede ser disminuido de manera que conservamos solo

información que está mayormente constituida por la fase de la transformada de

Fourier de la imagen de referencia.

d. Filtro no lineal compuesto.

Los filtros de correlación mediante transformada de Fourier, han

presentado problemas cuando se desea identificar un objetivo dentro de una

imagen problema cuando ésta presenta modificaciones en escala. Por ello se han

venido utilizando los denominados filtros compuestos como una alternativa muy

eficiente. Este trabajo presenta un método sencillo pero muy útil dentro de una

gran variedad de filtros compuestos que existen en diferente literatura. La

característica principal de los filtros compuestos es que, como su nombre lo indica,

están formados a partir de la unión de información colectada de diferentes

imágenes. Estas imágenes son denominadas imágenes de entrenamiento. La

ecuación (31) nos describe la forma en la que se obtiene un filtro compuesto.

, , , 0 1m

H A e k

. (31)

Esta clase de filtros podría ser una composición lineal de filtros de

acoplamiento clásicos. En el caso del presente trabajo es utilizada una sumatoria

de filtros no lineales donde N representa el número de imágenes de entrenamiento

con las que se elaborará el filtro.

III.3 Imágenes con ruido.

Es imposible encontrar un sistema de correlación ya sea óptico o digital en

el cual no exista la presencia de ruido; existe aun en sistemas robustos en donde

no se manifiesta un cambio significativo en la salida del sistema; en todo caso

existirá presentándose de diversas maneras. En el presente trabajo se considerará

la presencia de dos diferentes tipos de ruido bastante comunes para imágenes

digitales; estos son el ruido gaussiano aditivo y el ruido impulsivo. El origen del

ruido en las imágenes puede ser analizado desde diferentes puntos de vista; aun

se podría confundir el término cuando al capturar una imagen ésta incluye detalles

naturales no deseados. Consideramos ruido a la respuesta caótica de la circuitería

y demás dispositivos en la cámara fotográfica principalmente el CCD (Charge-

Coupled Device) que afecta la calidad de la exposición de la escena de entrada,

como por ejemplo, alteraciones en el brillo, el color o la aparición de “manchas” en

la imagen. La respuesta de los componentes electrónicos a diferente temperatura

se traduce también en una señal de ruido que afecta la calidad de la imagen. A

continuación se presenta una novel discusión acerca de estos ruidos con la

intención de resaltar su relevancia dentro del desarrollo de esta tesis.

a. Ruido gaussiano.

El ruido gaussiano es sin duda uno de los principales modelos de ruido que

se maneja en múltiples sistemas y la razón fundamental se debe a que según el

teorema del límite central aplicado a funciones de ruido, la suma de cada uno de

los ruidos introducidos a un sistema da como resultado una distribución de

probabilidad de Gauss. También es llamado ruido térmico o ruido Johnson-

Nyquist. La ecuación (32) nos muestra la manera en la que se representa

matemáticamente el ruido gaussiano:

gn x e

, (32)

donde x es una variable aleatoria, σ es la desviación estándar y μ es el promedio.

La figura 4 muestra la distribución de Gauss para cuatro diferentes valores de

desviación estándar y promedio igual a cero.

Figura 4. Distribución gaussiana para cuatro diferentes desviaciones estándar.

Es importante considerar la afectación del ruido gaussiano dentro de un

sistema de correlación usando filtros digitales. De esta manera se puede

caracterizar el funcionamiento en su presencia y determinar si será una opción

viable para emplearse en la tarea para la cual fue diseñado. A continuación se

muestra un par de ejemplos en los que algunas imágenes son afectadas por ruido

gaussiano.

Figura 5. a) Imagen sin ruido, b) ruido con σ =0.1 y c) ruido con σ =0.7.

a) b) c)

b. Ruido impulsivo.

También llamado ruido sal y pimienta es junto con el ruido gaussiano el más

comun dentro de la fotografía digital. El nombre sal y pimienta se deriva de los

puntos blancos o negros que se generan aleatoriamente en la imagen provocados

éstos en su mayoría por anomalías es el sistema de conversión de intensidad

luminosa de analógica a digital o bien por un CCD defectuoso. La característica

principal de este ruido es que son pixeles bien definidos que se dan a muy altos o

muy bajos niveles de intensidad. Puede compararse con el caso acústico en

donde se presenta como un sonido muy estridente y de enorme intensidad, con un

periodo de duración casi instantáneo. En la ecuación (33) se muestra la

representación del ruido impulsivo:

n para x a

n x n para x b

otro caso

. (33)

En la figura 6 se observa un ejemplo con imágenes a las cuales se les

agregó ruido impulsivo. La medida de ruido está determinada por un índice de

densidad d que nos proporciona la información de pixeles afectados de la imagen

que va de 0 a 1, donde 1 equivale al caso donde la totalidad de pixeles están

dañados por ruido impulsivo y 0.5 representa la mitad de los pixeles siendo

afectados.

Figura 6. a) Imagen sin ruido, b) ruido con d=0.1, c) ruido con d=0.5.

a) b) c)

c. Capacidad de discriminación (DC).

Existen variadas métricas de desempeño de filtros de correlación para

conocer su efectividad sin o con presencia de ruido agregado. Una métrica sencilla

pero importante para caracterizar los filtros digitales bajo condiciones de ruido

gaussiano e impulsivo es utilizando la capacidad de discriminación (Discriminant

capacity), que nos muestra de manera clara hasta qué niveles de ruido nuestro

sistema tiene un funcionamiento considerablemente bueno sin importar que nos

alejemos del óptimo.

, (34)

donde Cn es el pico máximo en el plano de correlación para el área fuera del

objeto a reconocer que incluye todo el ruido; Co el pico máximo en el plano de

correlación del objeto a reconocer, incluido el ruido agregado.

La ecuación (34) nos dice que cuando DC es un valor positivo, nuestro

sistema es capaz de reconocer el objeto deseado inmerso en el ruido. A medida

que el ruido se incrementa, la relación de las correlaciones se va haciendo cada

vez mayor y de esta manera el coeficiente de discriminación se va reduciendo

hasta llegar a cero para posteriormente convertirse en un número negativo. A

partir de que el coeficiente es igual a cero el sistema de correlación digital deja de

operar correctamente.

Capítulo IV

Metodología

IV.1 La transformada de Fourier en las imágenes.

En el capítulo II se mostró la transformada de Fourier y sus propiedades. Se

empleó el programa computacional Matlab para elaborar el sistema de correlación.

En el apéndice A se muestra el algoritmo empleado para obtener la transformada

rápida de Fourier, popularizado por Cooley y Tukey en 1965 mientras trabajaban

en los laboratorios de IBM. Después de la elaboración de este algoritmo se

presentan notables avances en diferentes campos de la investigación y tecnología,

ya que hacer la computación de la integral de Fourier y la transformada de Fourier

inversa requería mucho tiempo de cómputo. En la figura 7 se muestra una imagen

y la composición de la transformada de Fourier.

Figura 7. a) Imagen antes de la transformación, b) parte real, c) Parte imaginaria, d) módulo, e) y fase de la TF.

a) b) c)

IV.2 Obtención de la máscara binaria de anillos y alternativas.

Con el propósito de obtener invariancia a rotación dentro del sistema de

correlación, se desarrollan máscaras binarias de anillos concéntricos a partir de la

transformación de Fourier; estas máscaras son adaptativas, es decir, cada imagen

tiene su propia máscara binaria. El procedimiento en la obtención de la máscara

binaria se muestra a continuación.

Figura 8. Imagen original.

Para ejemplificar utilizamos la letra P en una imagen binaria, cuadrada de

256 pixeles (figura 8). A partir de esta imagen se obtiene la transformada discreta

de Fourier, y utilizando su parte real graficamos, obteniendo como resultado el

gráfico tridimensional mostrado en la figura 9, al que le llamamos fr(x,y), donde

(x,y) representan las posiciones de un pixel. Como se mostrará más adelante, es

posible también utilizar la parte imaginaria de la TF.

Figura 9. Parte real de la TF.

Figura 10. Corte de la parte real de la TF.

De la función fr(x,y), que es parte real de la TF mostrada en la figura 9,

obtenemos un corte (figura 10). De acuerdo a las dimensiones de la imagen

original, las coordenadas de donde es extraído este corte corresponden al punto

medio del espectro en el eje x al que llamaremos Cx, y el eje completo y, es decir

fr(Cx,y).

Posteriormente es aplicado el criterio de estados binarios para elaborar la

máscara de anillos, creando así una nueva función llamada Z(y). La ecuación (35)

dice que todos los valores de la función fr(Cx,y) mayores a cero nos dan el estado

binario igual a uno, en todos los demás casos es igual a cero, es decir, cuando

fr(Cx,y) sea menor o igual a 0.

si ( , ) 01,

( )0, si no es así

f C yr xZ y

También podemos invertir los estados binarios de la máscara como en la ecuación

(36); de esta forma obtenemos una máscara binaria de anillos concéntricos

invertida.

si ( , ) 00,

( )1, si no es así

f C yr xZ y

Figura 11. Función binaria.

Una vez definida, la función z(y) es rotada 360 grados en un plano de

iguales dimensiones que el de la imagen original, dando como resultado la

máscara binaria de anillos concéntricos. En la figura 12 se observa la máscara

binaria de anillos concéntricos correspondiente a la letra P, utilizando la parte real

de la TF y la ecuación (35).

Figura 12. Máscara binaria de anillos concéntricos.

Un ejemplo más para la letra B sería el siguiente:

Figura 13. Obtención de MBAC para la letra B utilizando la parte real de la TF.

Existen diferentes maneras para construir la máscara binaria de anillos

concéntricos. Una selección puede ser si empleamos ya sea la parte real o

imaginaria de la transformada discreta de Fourier o si la condición binaria puede

ser invertida. En la figura 14 se muestra las posibles opciones para la construcción

de la máscara binaria de anillos concéntricos.

Figura 14. Selección óptima de la máscara binaria

Parte real de TDF MBAC fr(Cx,y) Z(y)

Imagen original

IV.3 Obtención de las firmas unidimensionales.

Podemos llamarle firma a la información que puede ser extraída de un

objeto para representarlo de manera única, evitando así ser confundida con otra

firma obtenida bajo el mismo procedimiento. Es necesario obtener la firma de la

imagen objetivo o imagen de referencia y la firma de la imagen problema o escena

de entrada, para así obtener la similitud entre éstas y determinar el grado de

semejanza que presentan entre sí. La firma del objeto constituye el elemento

fundamental en este método de reconocimiento digital de imágenes.

Una vez obtenida la máscara binaria de anillos concéntricos se necesita

emplear la información del módulo de la transformada de Fourier de la imagen

para después hacer una multiplicación punto a punto entre ellas; así obtenemos

una función bidimensional diferente (figura 15). De esta manera la máscara binaria

de anillos concéntricos nos sirve para fraccionar la información del módulo de la

transformada de Fourier de la imagen, descartando los elementos nulos de la

máscara, es decir, solo nos quedaremos con la información del módulo en las

áreas donde el valor del anillo sea igual a uno.

Figura 15. a) Imagen original, b) módulo de la TF de la imagen, c) máscara binaria,

d) resultado de la multiplicación punto a punto de b) y c).

La firma de la imagen se obtiene sumando los valores en cada anillo. De esta

forma se crea un vector que está constituido por la suma de cada uno de estos

valores. Si la máscara tiene ocho anillos, entonces la firma está hecha por un

vector de ocho valores diferentes.

a) La firma sencilla.

Le llamamos firma sencilla a aquella que está formada a partir de una sola

imagen, es decir, no se tiene la información de una misma imagen a más de una

sola rotación. A pesar de utilizar la máscara binaria de anillos concéntricos para

obtener invariancia a rotación, puede mejorarse como adelante se dará a conocer.

Mediante esta firma podemos obtener un sistema de correlación digital invariante

a posición y rotación. La siguiente figura muestra un ejemplo de firma sencilla para

la letra P utilizando la parte real de la TF.

Figura 16. Firma sencilla.

Módulo

de la T

Índice de anillo

b) La firma promedio.

Una firma promedio es obtenida a partir de las imágenes de entrenamiento

a diferentes rotaciones; una vez que son obtenidas las firmas de cada una de las

diferentes rotaciones, éstas son promediadas.

Un aspecto interesante en la obtención de las firmas promedio es que las

variaciones en la rotación de la imagen de entrenamiento provocan cambios más

significativos en las altas frecuencias cuando es transformada la imagen al

dominio de Fourier; de esta forma, al obtener el promedio de todas las firmas de

entrenamiento se consigue corregir un poco este problema. Estas variaciones en

las altas frecuencias con cada imagen rotada se debe al siempre famoso efecto

sierra que toda imagen digital tiene; esto debido a la naturaleza de los pixeles que

la conforman. En la figura 17 se muestra cómo en un conjunto de firmas

sobrepuestas, las altas frecuencias contenidas en los últimos elementos de las

firmas presentan las variaciones ya mencionadas.

Figura 17. Firma promedio de la letra P rotada grado a grado.

Módulo

de la T

Índice de anillo

En la figura de arriba se muestra en un color más intenso la firma promedio.

Es por esto que le llamamos filtro promedio. Uno de los métodos propuestos para

ayudar en la corrección del problema del efecto sierra se muestra en Ángel

Coronel-Beltrán y Josué Álvarez-Borrego (2010).

c) La firma compuesta.

Generar una firma compuesta es una manera sencilla pero eficiente para lograr un

sistema de correlación digital invariante a escalamiento. Como se ha mostrado en

el capítulo tercero, un filtro compuesto se obtiene a partir de la información de más

de una imagen de entrenamiento, estando éstas a diferente escala pero también a

diferente rotación. Se desea tener un filtro promediado pero al mismo tiempo

entrenado para ser capaz de reconocer imágenes tanto como de diferente escala,

rotación y también posición.

Figura 18. Suma del módulo de cada imagen para obtener la firma compuesta.

ΙFTI 90% B letter

Nuevo plano del módulo con imágenes

ΙFTI 100% B letter

IV.4 Correlaciones entre firmas de imágenes.

Una vez obtenidas las firmas tanto de la imagen problema como la imagen

objetivo, se procede a hacer una correlación entre éstas, para obtener la similitud

que existe entre ellas y poder compararse entre un conjunto de correlaciones que

al final nos determina si nuestra imagen objetivo se encuentra en nuestra imagen

problema.

Capítulo V

Resultados y discusión

En el presente capítulo se muestran los resultados obtenidos del sistema

digital de correlación invariante a posición, rotación y escala. En la primera parte

se expone la operación del sistema utilizando imágenes binarias de letras, de

256x256 pixeles. Se muestran los resultados para las diferentes alternativas en la

construcción de la máscara binaria adaptativa, ya sea utilizando la parte real o

imaginaria de la transformada de Fourier, o también si se invierte la condición del

estado binario de la máscara de anillos (MBAC). De esta forma se elige la mejor

para emplearse posteriormente al elaborar filtros compuestos, esto, para obtener

invariancia a escala.

En la segunda parte se presentan los resultados para imágenes en escala

de grises, con las mismas dimensiones a las utilizadas para imágenes binarias. Se

emplean los criterios en la fabricación de la máscara binaria que mejor resultado

mostró en las imágenes en blanco y negro. Son utilizadas imágenes de diatomeas,

que son una especie de algas unicelulares microscópicas y que constituyen una

parte muy importante en la cadena alimenticia marina. Estos organismos son

estudiados principalmente en el lecho marino y dulceacuícola, pero existen

también en tierra, en ambientes húmedos indistintamente a la salinidad del agua o

la temperatura ambiental natural. La importancia en la identificación de estos

organismos radica en el monitoreo de la calidad del agua así como en la vigilancia

de las condiciones medioambientales.

En la tercera parte son mostrados los resultados que ponen a prueba el

sistema de correlación digital agregándole ruido; primero ruido gaussiano y

después ruido impulsivo. Se presentan los coeficientes de la capacidad de

discriminación (DC) que determina el nivel de ruido soportado por el sistema. Fue

utilizada una computadora con un procesador Intel Pentium Dual CPU T2330 a

1.60 GHz de velocidad de reloj y 533 MHz de velocidad de bus. Además se utilizó

el programa computacional MATLAB versión R2008a para generar los códigos. El

programa STATISTICA 6 fue utilizado para la representación y orden de la gran

cantidad de datos adquiridos por las correlaciones hechas por el algoritmo.

V.1 Correlaciones con imágenes binarias.

Se ha realizado un experimento elaborando firmas promedio donde se

utilizaron imágenes de letras del abecedario en Arial, cuadradas de 256x256

pixeles. Se elaboraron correlaciones con todas las letras del abecedario y los

resultados fueron que las imágenes con mayores problemas fueron las imágenes

que contenían las letras B, E, F, H, P y T. Esto por la gran similitud que existe

entre ellas; estas imágenes son las que se utilizaron en la búsqueda del mejor

filtro en la siguiente sección. Se utilizaron correlaciones no lineales.

Considerando la densidad de probabilidad gaussiana, podemos obtener el

nivel de confianza para cada filtro mediante la cercanía de cada conjunto de

correlaciones para cada letra. Es decir, se obtienen 360 diferentes correlaciones

para cada filtro. El promedio de estos valores es representado por el cuadro chico.

A un error estándar tenemos un nivel de confianza de 68.3%, esto es

representado en la gráfica con la caja. A dos errores estándar obtenemos un nivel

de confianza del 95.4%; esto es representado con las barras; de esta forma, si las

correlaciones no se traslapan, entonces se tiene un nivel de confianza del 100%.

Filtro solo de fase (F)

±2*SE

Outliers

Extremes

Filtros de imágenes problema

Figura 19. Correlaciones con filtro sólo de fase para la letra F.

En la figura 19 de muestran los valores de correlación para la letra F

utilizando un filtro solo de fase. Claramente se mira cómo podría confundirse con

las letras de D y M debido a la cercanía que tiene con éstas.

En la figura 20 se muestran las correlaciones para la letra F utilizando un

filtro no lineal con k=0.1. Se nota como estas correlaciones están más separadas

del resto de las que se obtienen con el filtro sólo de fase; existe un problema

únicamente con los extremos de las correlaciones de la letra Y. Así se obtiene

como máximo un nivel de confianza de 95.4%.

Promedio ±EE ±2*EE Outliers Extremos

Filtro no lineal (F)

±2*SE

Outliers

Extremes

Filtros de imágenes problema

a 20. Correlaciones no lineales (k=0.1) para la letra F.

Se realizaron filtros promedios para las seis diferentes letras (B, E, F, H, P y

T) y usando también diferente número de imágenes utilizando la variable ∆θ, que

es el incremento en grados a los que se rota la imagen. De esta manera un ∆θ=1

nos dice que la imagen es rotada de grado en grado obteniéndose un total de 360

imágenes; de esta forma se obtienen 360 firmas diferentes que serán

promediadas. Las tablas I y II muestran los niveles de correlación para dos filtros

no lineales, usando las letras (B, E, F, H, P y T) y con diferente número de

imágenes.

Promedio ±EE ±2*EE Outliers Extremos

Tabla I. Niveles de confiabilidad de correlación de filtros no lineales para las letras (B, E, F, H, P y T) con diferente número de imágenes.

FILTRO NO LINEAL (k=0.1)

f1 ∆θ=360

f8 ∆θ=45

f18 ∆θ=20

f30 ∆θ=12

f40 ∆θ=9

f60 ∆θ=6

f360 ∆θ=1

B 100% 100% SIN Y

100% 100% SIN Y

95% 100% 95.4%

E 100% 100% 100% 100% 100% 100% 100%

F 100% 100% 100% 100% 100% 100% 100%

H 100% 100% 100% 100% 100% 100% 100%

P 100% 100% 100% 100% SIN Y

100% SIN Y

100% 100%

T 100% 100% 100% 100% 100% 100% 100%

Tabla II. Niveles de correlación de filtros solo de fase para las letras (B, E, F, H, P y T) con diferente número de imágenes.

FILTRO SOLO DE FASE

f1 ∆θ=360

f8 ∆θ=45

f18 ∆θ=20

f30 ∆θ=12

f40 ∆θ=9

f60 ∆θ=6

f360 ∆θ=1

B 100%

100% SIN W

E 100%

100% SIN R

100% SIN R,W

F 100%

100% SIN D,M

68.3% SIN M

100% SIN D,M

H 100%

100% SIN A,O

P 100%

100% SIN W

95.4% SIN W

100% SIN W

T 100%

Se muestra en la celda a la derecha de la casilla del porcentaje de

confianza las imágenes para las que el sistema presenta deficiencias. Para el filtro

no lineal (k=0.1), la única letra con la que tuvo problemas el filtro fue con la Y, y

sólo en pocos casos. De esta forma se comprueba que el filtro sólo de fase tiene

menor desempeño.

Selección del mejor filtro considerando variaciones de escala.

En esta sección se presentan los resultados de las correlaciones también

para imágenes binarias, pero considerando ahora una variación de escala de 70%

hasta 130%. Usando únicamente las imágenes con las letras B, E, F, H, P, y T

(figura 21), se procede a encontrar el mejor filtro compuesto no lineal utilizando los

criterios mostrados en la figura 22. Se hacen experimentos usando ya sea la parte

real o imaginaria de la transformada de Fourier y se elige de entre dos diferentes

maneras de construir la máscara binaria de anillos concéntricos (MBAC)

invirtiendo su estado binario.

Figura 21. Imágenes binarias utilizadas.

Figura 22. Diferentes formas de hacer el filtro.

Los resultados generados con las combinaciones de la figura 22, para

construir las firmas, se muestran en las siguientes cuatro tablas, donde la marca x

indica que el sistema no es capaz de exhibir un buen desempeño para ese caso

en particular. La casilla a la derecha del porcentaje de confianza muestra la

imagen y el tamaño en donde existe un traslape de información, esto es, indica la

imagen y el porcentaje con el cual puede ser confundida nuestra imagen de

referencia.

Tabla III. Correlaciones utilizando la parte real de la TF.

B FILTRO

70% 80% 90% 100% 110% 120% 130%

100.00 P80 X

100.00 H90

80% 68.30

100.00

90% 100.00

100.00

100% 100.00

100.00

100.00 E110

100.00

E FILTRO

70% 80% 90% 100% 110% 120% 130%

70% 100.00

100.00

80% 100.00

100.00

X B100 100.00

68.30 F80 100.00

100% 100.00

100.00 B100 100.00

100.00

100.00 B110 100.00 P100 100.00

100.00

100.00 F110 X

100.00 B100

F FILTRO

70% 80% 90% 100% 110% 120% 130%

70% X E90 X

100.00

80% 100.00

100.00

90% 100.00

100.00

100% 100.00

100.00

100.00 P110 100.00

100.00

100.00 P110 100.00

100.00

H FILTRO

70% 80% 90% 100% 110% 120% 130%

100.00

68.30 B90 100.00

80% 100.00

100.00

X T70 100.00

100% X T,P X T,P 100.00 B90 100.00

100.00

100.00 F100 X

100.00

100.00 E130 95.40

100.00

P FILTRO

70% 80% 90% 100% 110% 120% 130%

X B80 X

80% 95.40

90% 100.00

100.00

100% 100.00

100.00

100.00 E130 100.00

100.00

100.00 E130 100.00

100.00

T FILTRO

70% 80% 90% 100% 110% 120% 130%

70% 100.00

100.00

80% 100.00

100.00

90% 100.00

100.00

100% 100.00

100.00

Tabla IV. Correlaciones utilizando la parte real de la TF e invirtiendo el anillo.

B FILTRO

70% 80% 90% 100% 110% 120% 130%

70% 100.00 E100 X E X

80% 100.00

100.00

90% 100.00

100.00

100% 100.00

100.00

X E,F X

100.00

E FILTRO

70% 80% 90% 100% 110% 120% 130%

70% 100.00

100.00

80% 100.00 B 100.00 B X

100.00

90% 100.00 B 100.00 B 100.00 B X B,F

100% 100.00 B 100.00 B 95.40

X B,F X

100.00

F FILTRO

70% 80% 90% 100% 110% 120% 130%

70% 100.00

68.30 E100 X B100 100.00

80% 100.00

100.00

90% 100.00

100.00

100% 100.00

100.00

H FILTRO

70% 80% 90% 100% 110% 120% 130%

70% 100.00

100.00

80% 100.00

100.00

90% 100.00

100.00

100% 100.00

100.00

68.30 E70 68.30 E70 100.00

100.00

P FILTRO

70% 80% 90% 100% 110% 120% 130%

70% X B,E X B,E,F 100.00

100.00

80% 100.00

100.00

100.00 B100 100.00 E,90

90% 100.00

100.00

100.00 B100

100% 100.00

100.00

100.00 H120 68.30

100.00

T FILTRO

70% 80% 90% 100% 110% 120% 130%

70% 100.00

100.00 F90 68.30 F80 100.00 F80

80% 100.00

100.00

90% 100.00

100.00

100% 100.00

100.00

Tabla V. Correlaciones utilizando la parte imaginaria de la TF e invirtiendo anillo.

B FILTRO

70% 80% 90% 100% 110% 120% 130%

70% 100.00 100.00 100.00 100.00

80% 100.00 100.00 100.00 100.00 F80

90% 100.00 100.00 E90 100.00 68.30

100% 100.00 100.00 E100 100.00 100.00 100.00 100.00 100.00 P130

110% 100.00 E130 100.00 E130 95.40 100.00

120% 68.30 F100 100.00 E130 X X

130% 100.00 100.00 X 68.30

E FILTRO

70% 80% 90% 100% 110% 120% 130%

70% 95.40 F90 100.00 100.00 100.00

80% 100.00 100.00 100.00 100.00

90% 100.00 100.00 100.00 100.00 P100

100% 100.00 100.00 100.00 100.00 68.30 100.00 100.00

110% 100.00 P120 100.00 100.00 100.00

120% 100.00 P120 100.00 X 68.30

130% 100.00 100.00 100.00 100.00

F FILTRO

70% 80% 90% 100% 110% 120% 130%

70% 100.00 100.00 100.00 100.00

80% X P100 100.00 P90 100.00 68.30 P90

90% 100.00 100.00 100.00 100.00

100% 100.00 100.00 100.00 100.00 100.00 100.00 E110 100.00

110% 100.00 68.30 100.00 95.40

120% 100.00 100.00 100.00 100.00

130% 100.00 100.00 X X

H FILTRO

70% 80% 90% 100% 110% 120% 130%

70% 100.00 100.00 100.00 100.00

80% 100.00 100.00 100.00 100.00

90% 100.00 100.00 100.00 100.00

100% 100.00 100.00 100.00 100.00 100.00 100.00 100.00

110% 100.00 100.00 100.00 100.00

120% 100.00 100.00 100.00 100.00

130% X X X X

P FILTRO

70% 80% 90% 100% 110% 120% 130%

70% X X X X

80% 95.40 E100 100.00 100.00 100.00

90% 100.00 100.00 100.00 100.00

100% 100.00 100.00 100.00 100.00 95.40 100.00 68.30

110% 100.00 E130 100.00 100.00 E110 100.00

120% 100.00 100.00 100.00 100.00

130% 100.00 100.00 100.00 100.00

T FILTRO

70% 80% 90% 100% 110% 120% 130%

70% X X X X

80% X X X X

90% 100.00 F100 100.00 F100 100.00 100.00

100% 100.00 F100 100.00 100.00 100.00 100.00 100.00 68.30 F110

110% 100.00 E110 100.00 100.00 95.40 F110

120% 100.00 95.40 68.30 X

130% X X X X

Tabla VI. Correlaciones utilizando la parte imaginaria de la TF.

B FILTRO

70% 80% 90% 100% 110% 120% 130%

70% X X 100.00 X

80% X X X 100.00

90% X 100.00 X 100.00

100% X 68.30 E80 100.00 100.00 100.00 X X

110% 100.00 100.00 X X

120% 68.30 P100 X 95.40 100.00

130% X X X X

E FILTRO

70% 80% 90% 100% 110% 120% 130%

70% X 100.00 X 100.00

80% X X X X

90% X 100.00 100.00 100.00

100% X X 100.00 100.00 100.00 P100 100.00 X

110% 100.00 95.40 X X

120% X X X 100.00

130% X X 100.00 X

F FILTRO

70% 80% 90% 100% 110% 120% 130%

70% 100.00 100.00 X 100.00

80% X 100.00 100.00 SIN H90 100.00

90% X 100.00 100.00 100.00

100% 100.00 100.00 X 100.00 P110 100.00 P100 95.40 X

110% 100.00 100.00 B100 100.00 X

120% X X X X

130% X X X X

H FILTRO

70% 80% 90% 100% 110% 120% 130%

70% 95.40 100.00 X X

80% 68.30 X X X

90% X X X 68.30

100% 95.40 X X 100.00 SIN P90 100.00 100.00 68.30

110% 95.40 100.00 100.00 68.30

120% 100.00 X X 100.00

130% 100.00 X 100.00 X

P FILTRO

70% 80% 90% 100% 110% 120% 130%

70% 100.00 100.00 100.00 X

80% 100.00 SIN H80 X 100.00 SIN H80 68.30 L

90% 100.00 SIN B 100.00 100.00 SIN F80 100.00

100% 100.00 100.00 95.40 SIN B 100.00 X X X

110% X X X

120% X X X

130% X X X

T FILTRO

70% 80% 90% 100% 110% 120% 130%

70% 100.00 100.00 100.00 100.0

80% 100.00 100.00 100.00 100.00

90% 100.00 100.00 100.00 100.00

100% 100.00 100.00 100.00 100.00 100.00 100.00 100.00

110% 100.00 100.00 100.00 100.00

120% 100.00 100.00 100.00 100.00

130% 100.00 100.00 100.00 100.00

Las tablas III, IV, V y VI muestran todos los niveles de correlación para las

seis diferentes letras y diferentes opciones en la construcción de la firma. Después

de un simple análisis en éstas, se puede notar de manera clara cómo los

porcentajes en los niveles de confianza son mucho mayores en el caso donde se

utiliza la parte imaginaria de la transformada de Fourier, además de usarse una

inversión del estado binario de los anillos. Esto quiere decir que el mejor

desempeño se observo al utilizar la ecuación (37), explicada en el capítulo IV.

si ( , ) 00,

( )1, si no es así

f C yi xZ y

Figura 23. Filtro de mejor desempeño en imágenes binarias y utilizado en imágenes en

escala de grises.

V.2 Correlaciones con imágenes en escala de grises.

Figura 24. Imágenes de diatomeas en escala de grises utilizadas.

La figura 24 muestra las imágenes en escala de grises utilizadas en el

sistema de correlación digital. Se emplea el filtro de mejor desempeño utilizado en

las imágenes binarias y se realizan las correlaciones para cada una de las

imágenes con una variación de escala que va desde el 90% hasta el 107%. Se

presentan las gráficas de las correlaciones de los filtros de cada una de las

imágenes. En la figura 27 se aprecia como las correlaciones que van desde el

91% al 97% para la diatomea etiquetada con la letra C se traslapan con la

correlación de la imagen que contiene la diatomea D en la escala del 107%. Del

mismo modo, el filtro generado con la imagen de la diatomea D, una vez que es

correlacionado con cada una de las imágenes, presenta problemas desde 104% al

106%, tal y como se puede ver en la figura 28, debido a que en esos valores de

escala el sistema las confunde con la diatomea A.

Figura 25. correlaciones usando como filtro la imagen de la diatomea A.

Figura 26. Correlaciones usando como filtro la imagen de la diatomea B.

Promedio

±2*EE

Promedio ±EE

±2*EE

a 27. Correlaciones usando como filtro la imagen de la diatomea C.

Figura 28. Correlaciones usando como filtro la imagen de la diatomea D.

Promedio ±EE

±2*EE

Promedio ±EE

±2*EE

Figura 29. Correlaciones usando como filtro la imagen de la diatomea E.

Figura 30. Correlaciones usando como filtro la imagen de la diatomea F.

Promedio ±EE ±2*EE

Tabla VII. Correlaciones usando como filtro la diatomea A.

A FILTRO

90% 100

91% 100

92% 100

93% 100

94% 100

95% 100

96% 100

97% 100

98% 100

99% 100

100% 100

101% 100

102% 100

103% 100

104% 100

105% 100

106% 100

107% 100

Tabla VIII. Correlaciones usando como filtro la diatomea B.

B FILTRO

90% 100

91% 100

92% 100

93% 100

94% 100

95% 100

96% 100

97% 100

98% 100

99% 100

100% 100

101% 100

102% 100

103% 100

104% 100

105% 100

106% 100

107% 100

Tabla IX. Correlaciones usando como filtro la diatomea C.

C FILTRO

90% 100 100

91% 100 100

SIN D107%

92% 100 100

93% 100 100

94% 100 100

95% 100 100

96% 100 100

97% 100 100

98% 100 100

99% 100 100

100% 100 100

101% 100 100

102% 100 100

103% 100 100

104% 100 100

105% 100 100

106% 100 100

107% 100 100

Tabla X. Correlaciones usando como filtro la diatomea D.

D FILTRO

90% 100

91% 100

92% 100

93% 100

94% 100

95% 100

96% 100

97% 100

98% 100

99% 100

100% 100

101% 100

102% 100

103% 100

104% 100 100

105% 100 100

106% 100 100

107% 100

Tabla XI. Correlaciones usando como filtro la diatomea E.

E FILTRO

90% 100

91% 100

92% 100

93% 100

94% 100

95% 100

96% 100

97% 100

98% 100

99% 100

100% 100

101% 100

102% 100

103% 100

104% 100

105% 100

106% 100

107% 100

Tabla XII. Correlaciones usando como filtro la diatomea F.

F FILTRO

90% 100

91% 100

92% 100

93% 100

94% 100

95% 100

96% 100

97% 100

98% 100

99% 100

100% 100

101% 100

102% 100

103% 100

104% 100

105% 100

106% 100

107% 100

V.3 Imágenes en presencia de ruido

Con la finalidad de poner a prueba el buen funcionamiento del sistema se

utilizó la métrica de desempeño de la capacidad de discriminación (DC). Para esto

se agregó ruido gaussiano primeramente; posteriormente se analizó su

funcionamiento con ruido impulsivo, y por último, se obtuvo la gráfica de

funcionamiento del sistema en presencia de la combinación de ambos ruidos. Se

propone una tolerancia de ±5% del promedio obtenido de 16 diferentes

realizaciones de una imagen afectada con la misma desviación estándar de ruido.

Para los próximos ejercicios se utiliza la imagen que contiene la diatomea

etiquetada con la letra C (Nitzchia Praereinholdii-schrader). Las gráficas nos

muestran la capacidad que tiene el sistema para reconocer la imagen del filtro y es

muy fácil de entender, puesto que si la capacidad de discriminación alcanza el

valor de cero, entonces el sistema de correlación deja de funcionar. La figura 31

nos muestra como el sistema soporta una varianza de cuatro (σ2=4), donde el

sistema deja de operar.

DC de imagen con ruido gaussiano

Promedio

-95%0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

Desviación estándar del ruido

Figura 31. Capacidad de discriminación de sistema agregando ruido gaussiano.

DC de imagen con ruido sal y pimienta

Promedio

-95%0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Densidad de ruido impulsivo

gura 32. Capacidad de discriminación de sistema agregando ruido impulsivo.

Varianza del ruido

DC de imagen con ruido gaussiano e impulsivo

Promedio

-95%0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6

Figura 33. Capacidad de discriminación de sistema agregando ruido gaussiano (σ2=1) y

ruido impulsivo.

Promedio

ruido impulsivo.

Promedio

ruido impulsivo.

Promedio

ruido impulsivo.

La figura 32 muestra el excelente desempeño del sistema en presencia de

ruido impulsivo únicamente, llegando a una densidad de ruido igual a 0.9. A partir

de la figura 33 se agrega ruido gaussiano e impulsivo a las imágenes; el ruido

gaussiano se mantiene constante excepto en el valor inicial para cada una de las

gráficas, donde la imagen no presenta ruido agregado. Se varía la densidad de

ruido impulsivo. En la figura 33 el ruido gaussiano se mantiene con una σ2=1 y el

ruido impulsivo se modifica llegando hasta una densidad de 0.4 como límite de

operación máximo; en la figura 34 σ2=2 y el límite de operación para ruido

impulsivo es de 0.275. En la figura 35 σ2=3 y el límite de operación de ruido

impulsivo es de 0.175; en la figura 36 donde σ2=4, la capacidad de discriminación

cae drásticamente a cero desde la primera iteración con ruido, tal y como se

esperaría, debido a que con el ruido gaussiano, únicamente para en el mismo

valor de desviación estándar, el sistema deja de operar correctamente.

Capítulo VI

Conclusiones

El presente trabajo es una contribución al campo del procesamiento digital

de imágenes con énfasis en el reconocimiento de patrones, en donde se

aprovecha de las propiedades de las transformadas integrales para elaborar el

algoritmo de un sistema de correlación digital con invariancia a posición, rotación y

escala.

Se han obtenido resultados muy favorables cumpliendo con los

requerimientos necesarios para un sistema de correlación digital funcional. En

base a la transformación de Fourier se logró implementar la construcción de

máscaras binarias de anillos concéntricos adaptativas con el propósito de generar

firmas de las imágenes, que pudieran ser invariantes a rotación y posición.

Se elaboró un método sencillo pero eficiente para generar filtros

compuestos capaces de identificar imágenes aun cuando existen variaciones de

tamaño. Se ha hecho además una comparación entre la eficiencia de un filtro no

lineal contra un filtro lineal (filtro solo de fase) dejando como resultado la evidencia

de la superioridad de los filtros no lineales en la tarea de reconocimiento de

imágenes, siendo éste el empleado para obtener los resultados de mayor

confianza.

Se realizó un experimento con imágenes binarias (blanco y negro) de las

letras B, E, F, H, P, y T con variaciones de escala desde 70% hasta 130% y

variaciones de rotación de 360 grados, donde se encontró el mejor diseño del filtro

de correlación, siendo éste el generado a partir de la parte imaginaria de la

transformada de Fourier y utilizando anillos de binario invertido. Una vez

encontrado el mejor filtro, se obtuvieron excelentes resultados al utilizar imágenes

de diatomeas en escala de grises con variaciones de escala desde 90% hasta

107% y variaciones de rotación de 360 grados.

Se logró obtener un sistema de correlación digital capaz de tolerar altos

niveles de ruido gaussiano e impulsivo. Se encontró que el sistema tiene un buen

funcionamiento aun cuando la imagen problema se encuentra inmersa en ruido

gaussiano con varianza σ2=4. Con respecto al ruido impulsivo, el sistema es capaz

de operar con un límite máximo de densidad de d=0.9. Agregando ambos ruidos a

las imágenes se tiene que con una combinación de ruido gaussiano con σ2=3 y

densidad de ruido impulsivo d=0.175, el sistema aún es capaz de dar resultados

positivos.

El sistema de correlación digital propuesto en esta tesis presenta un

excelente funcionamiento, y además ha cumplido con los objetivos establecidos

desde el inicio del proyecto, siendo capaz de operar utilizando imágenes binarias

(blanco y negro), así como también demostrar perfectos niveles de confianza para

imágenes en escala de grises; se agrega además los altos niveles de tolerancia a

ruido gaussiano e impulsivo.

Referencias

Alvarez Borrego J. y Chávez Sánchez M. 2001. Detection of IHHN virus in shrimp tissue by digital color correlation. Aquaculture. 194. (CPOPA20011-2001). Pág. 1-9.

Fájer Ávila E. J. y Alvarez Borrego J. 2002. Invariant digital color correlation for the identification of worm parasites from bullseye pufferfish. The International Symposium on Optical Science and Technology. 4790. Pág. 511-517.

Guerrero Moreno R. E. y Álvarez Borrego J. 2009. Nonlinear composite filter performance. Opt. Eng. 48(6). (067201-1).

Horner J. L. y Gianini P. D. 1984. Phase-only matched filtering. Appl. Opt. 23. Pág. 812-816.

Pech Pacheco J. L. y Álvarez Borrego J. 1998. Optical-digital processing applied to the identification of five phytoplankton species. Mar. Biol. 132. (3). Pág. 357-365.

Solorza Calderón S. y Álvarez Borrego J. 2010. Digital system of invariant correlation to position and rotation. Opt. Commun. 283. Pág. 3613-3630.

Vander Lugt A. 1964. Signal detection by complex filters. IEEE Trans. If. Theory. IT-10. Pág. 139-145.

Vijaya Kumar B. y Hassebrook L. 1990. Performance measures for correlation filters. Appl. Opt. 29. Pág. 2997-3006.

gildardo chaparro magallanez

Documents

c.p. gildardo moreno hernÁndez director general

portafolio carlos chaparro

conferencia eduardo chaparro - cepal

2 clase profesor chaparro

leidy barrera chaparro

chaparro sainz

aprendizaje por competencias final (gildardo pc)

examen semestral, gildardo magaña 4o. b

bethsaad chaparro

diana chaparro

portafolio de evidencias gildardo elorza

fernando chaparro

claudia chaparro

imir gildardo aguilar santiago - repository.usta.edu.co

2 - luis chaparro

agustin chaparro

cuentos - rafael chaparro

silva chaparro

presentación jose chaparro

gildardo obando neira.pdf