facultad de telemÁtica procesamiento y...
TRANSCRIPT
FACULTAD DE TELEMÁTICA
PROCESAMIENTO Y ANÁLISIS DE IMÁGENES SATELITALES UTILIZANDO LÓGICA DIFUSA PARA APOYAR EN EL ESTUDIO DE CASOS DE DENGUE
TESIS
que para obtener el grado de:
MAESTRA EN COMPUTACIÓN
Presenta: LI. JARIDE DEL ROCÍO TORRES ALONSO
Asesor: D. en C. MIGUEL ÁNGEL GARCÍA RUIZ
COLIMA, COLIMA. AGOSTO DEL 2011.
UNIVERSIDAD DE COLIMA
FACULTAD DE TELEMÁTICA
PROCESAMIENTO Y ANÁLISIS DE IMÁGENES SATELITALES UTILIZANDO LÓGICA DIFUSA PARA APOYAR EN EL ESTUDIO DE CASOS DE DENGUE
TESIS
que para obtener el grado de:
MAESTRA EN COMPUTACIÓN
Presenta:
LI. JARIDE DEL ROCÍO TORRES ALONSO
Asesor:
D. en C. MIGUEL ÁNGEL GARCÍA RUIZ
COLIMA, COLIMA. AGOSTO DEL 2011.
i
AGRADECIMIENTOS
A mi asesor y profesor, DC. Miguel A. García Ruiz por su tiempo, paciencia y apoyo
para la culminación de este documento.
A mi madre por su gran amor, fuerza y optimismo en mis tiempos de desvelo.
A mi esposo por su solidaridad y motivación.
A mi compañera y amiga Gabriela por su apoyo incondicional.
Al Dr. Alfredo Medina González por toda su ayuda y la información proporcionada.
A la Asociación Colimense de Universitarias (ACU) y a la Universidad de Colima por
la beca otorgada para mi último semestre de estudio.
ii
Índice
Agradecimientos i
Índice ii
Índice de Figuras vi
Índice de Tablas viii
Resumen 1
Abstract 2
CAPITULO 1. Introducción 3
1.1. Justificación 4
1.2. Descripción del problema a investigar 4
1.2.1 Preguntas de investigación 8
1.3. Hipótesis de trabajo 9
1.4. Los objetivos que se persiguen 10
1.4.1. Objetivo general 10
1.4.2. Objetivos específicos 10
1.5. Metodología empleada 11
1.6. Descripción de la organización del trabajo 12
CAPITULO 2. Estado del arte 13
2.1. Marco histórico 13
2.1.1. Antecedentes del trabajo 14
2.2. Marco contextual 15
2.2.1. Trabajos relacionados 16
2.2.1.1. Modelo de simulación para el control del mosquito Aedes aegypti, transmisor del dengue y la fiebre
16
iii
amarilla, por el crustáceo Mesocyclops spp.
2.2.1.2. Freeze Frame Video Printer (FFVP) 19
2.2.1.3. Sistemas de clasificación de imágenes 20
2.2.1.4. Unidad de Inteligencia Epidemiológica 22
2.2.1.5. Uso de Sistemas de Información Geográfica (SIG) para la vigilancia de enfermedades vectoriales en áreas de fronteras
22
2.2.1.6. Estrategias de participación comunitaria con enfoque ecosistémico en el control del Dengue. Experiencia en Cuba.
25
2.3. Marco teórico 29
2.3.1. La Vaguedad (Fuzziness) 30
2.3.2. Algunas semánticas ambiguas 31
2.3.3. Lógica para computadoras 32
2.3.4. Lógica Difusa 32
2.3.5. Teoría de Lógica Difusa 33
2.3.6. Teoría de conjuntos difusos 34
2.3.6.1. Conjuntos ordinarios y difusos 34
2.3.6.2. Operaciones de los conjuntos difusos 38
2.3.6.3. Propiedades de los conjuntos difusos 40
2.3.6.4. Medidas de Vaguedad (Fuzziness) 41
2.3.6.5. Relaciones difusas 41
2.3.7. Modelos difusos 45
2.3.8. Análisis por grupos (Cluster Analysis) 47
2.3.9. Agrupamiento o clustering 50
2.3.9.1. Agrupamiento jerárquico (Hierarchical Clustering) 53
2.3.9.2. Algoritmos de vínculo único y enlace completo de la Teoría de Grafos
56
2.3.9.3. Algoritmo aglomerativo para un agrupamiento de vínculo único
58
iv
2.3.9.4. Algoritmo aglomerativo para un agrupamiento de enlace completo
58
2.3.10. Métodos de agrupamiento basados en la Teoría de Grafos
61
2.3.11. Agrupamiento particional 65
2.3.11.1. Algoritmo de agrupamiento del vecino más cercano 66
2.3.11.2. Algoritmo de agrupamiento de vecindario mutuo 66
2.3.12. Algoritmos de agrupamiento difuso 67
2.3.12.1. Fuzzy K-means 70
2.3.13. Sistema de Información Geográfica (SIG) 72
2.3.14. Imágenes 74
2.3.14.1. Descripción y Procesamiento de Imágenes Satelitales
76
2.3.15. La Teledetección 77
2.3.16. La enfermedad 81
CAPITULO 3. Desarrollo 87
3.1. Modelo de procesos de Software 87
3.1.1. Modelo deconstrucción de prototipos 87
3.2. Modelo conceptual 88
3.2.1. Interface del front-end 92
3.2.2. Entorno de comunicación 94
3.2.3. Interface back-end 95
3.2.4. Estructura de datos 96
3.3. Diseño del Sistema. 97
3.3.1 Arquitectura del sistema 98
3.3.2 Diseño de Interfaces 101
3.3.3. Diseño de la base de datos 106
3.3.4. Especificación Formal 107
v
3.4. Implementación del Sistema 107
3.4.1. Programación de Módulos y componentes 108
3.4.2. Implementación de Interfaces 108
CAPITULO 4. Pruebas y resultados 114
4.1. Pruebas de integración 114
4.2. Pruebas de congruencia 115
4.3. Pruebas de usabilidad 117
4.4. Resultado de la prueba de usabilidad 118
4.5. Interpretación de los resultados 121
CAPITULO 5. Conclusiones y sugerencias 122
5.1. Discusión 122
5.2. Cumplimiento de la hipótesis 122
5.3. Cumplimiento de los objetivos 123
5.4. Importancia de los resultados obtenidos 124
5.5. Posibles aplicaciones 125
5.6. Limitaciones de la investigación 125
5.7. Recomendaciones para continuar con la investigación en lo futuro
126
Referencias 127
Apéndice A. Glosario 130
Apéndice B. Lista de Abreviaturas 133
Anexo 1 134
Anexo 2 140
vi
Índice de Figuras
Figura 1 Estructura del Controlador Difuso 20
Figura 2 Mapa de manzanas con foco de Aedes aegypti (Torres, 2008). 27
Figura 2a Mapa de manzanas con riesgo epidemiológico (Torres, 2008).
28
Figura 3 Grupos o Clusters de patrones de puntos en dos dimensiones (Jain & Dubes, 1988, p. 2).
48
Figura 4 Árbol con los tipos de clasificación del agrupamiento o clustering (Jain & Dubes, 1988, p. 56)
50
Figura 5 Ejemplo de dendrograma (Jain & Dubes, 1988, p. 59). 55
Figura 6 Matriz de proximidad n= 5 (Jain & Dubes, 1988, p. 60) 56
Figura 7 Relación Binaria y umbral gráfico de 5 (Jain & Dubes, 1988, p. 61).
57
Figura 8 Umbral gráfico y dendrogramas para agrupamiento jerárquico de vínculo único y enlace completo (Jain & Dubes, 1988, p. 62).
60
Figura 9 Matriz de proximidad con 8 objetos (Jain & Dubes, 1988, p. 87)
63
Figura 10 Matriz de proximidad, vínculo único, enlace completo y 2 nodos conectados (Jain & Dubes, 1988, p. 88)
64
Figura 10a Grados, diámetros y radios (Jain & Dubes, 1988, p. 89) 64
Figura 11 Grupos o clusters con límites (a) bien definidos y (b) sin definir (Jain & Dubes, 1988, p. 130).
68
Figura 12 Estados con mayor incidencia de Fiebre Hemorrágica por Dengue
85
Figura 13 Casos de FHD por fuente de notificación, 2000-2006 86
Figura 14 Cargar la imagen a procesar 89
Figura 15 Tamaño de la imagen satelital 89
Figura 16 Patrones de color 89
vii
Figura 17 Segmentar imagen 90
Figura 18 Guardar resultado de la segmentación 91
Figura 19 Modelo conceptual 91
Figura 20 Diagrama de navegación de ventanas del SIDAIS 94
Figura 21 Diagrama de casos de uso 99
Figura 22 Diagrama de actividades 100
Figura 23 Diseño menú principal 102
Figura 24 Diseño capturar imagen 103
Figura 25 Diseño introducir clima, resguardo y salir 104
Figura 26 Diseño A cerca de 105
Figura 27 Vista diseño y relaciones de la base de datos 106
Figura 28 Código del módulo resguardo 108
Figura 29 Ventana capturar imagen 109
Figura 30 Ventana introducir clima 110
Figura 31 Ventana análisis 111
Figura 32 Ventana resguardo 112
Figura 33 Ventana A cerca de 113
Figura 34 Bahía de Manzanillo, Colima. Formato TIF (Google Earth, 2010)
115
Figura 35 Bahía de Manzanillo, Colima. Formato JPG. Segmentación por patrones de color. (Google Earth, 2010)
116
Figura 36 Bahía de Manzanillo, Colima. Formato JPG. (Google Earth, 2010)
116
Figura 37 Bahía de Manzanillo, Colima. Formato JPG. Resultado de la aplicación del algoritmo. (Google Earth, 2010)
117
viii
Índice de Tablas
Tabla 1 Porcentaje de serotipos circulantes en México 82
Tabla 2 Serotipos circulantes en México 1997-2006 83
Tabla 3 Tiempo de procesamiento de una imagen por el algoritmo difuso SIDAIS
120
1
Resumen
Proyectos anteriores de investigación han estudiado las enfermedades epidemiológicas como el
dengue. Estos proyectos obtienen información acerca de los parámetros comunes entre las personas
infectadas con el propósito de prevenir cualquier tipo de enfermedad epidémica en el futuro. Los
Sistemas de Información Geográfica (SIG) pueden ser aplicados para la vigilancia de la salud,
identificando áreas con un mayor riesgo para contraer enfermedades epidémicas, con el objetivo de
anticiparse a las enfermedades y controlarlas.
Esta tesis propone un sistema de información similar a un SIG, el cual realiza procesamiento y
clasificación de imágenes satelitales basado en reglas y funciones de Lógica Difusa. El sistema
analiza imágenes satelitales para localizar las zonas del estado de Colima, que pueden indicar una
mayor presencia de la reproducción del mosquito Aedes aegypti responsable de la propagación del
dengue hemorrágico.
La contribución de este trabajo ofrece un nuevo enfoque para el procesamiento de imágenes
con el desarrollo de un algoritmo de Lógica Difusa que mide los parámetros del ambiente ayudando en
el estudio de casos y apoyando a la toma de decisiones o estrategias para la prevención, detección y
control del dengue hemorrágico en el Estado de Colima, México.
Palabras Clave: Dengue hemorrágico, Lógica Difusa, Imágenes satelitales.
2
Abstract Past research projects have studied epidemiological diseases like dengue. These projects get
information about common parameters between infected persons with the propose to prevent any kind
of epidemic disease in the future. Geographical Information Systems (GIS) can be applied for health
monitoring, identifying areas with a major risk to get epidemic diseases, with the objective of anticipate
to the diseases and control it.
This thesis proposes an information system similar to a GIS, which uses satellite image
processing and classification based on Fuzzy Logic rules and functions. The system analyzes satellite
images to locate areas from Colima state where these may indicate a major presence of Aedes aegypti
reproduction as the responsible for spreading hemorrhagic dengue.
The contribution of this work offers a new approach for the image processing with the
development of a fuzzy logic algorithm that measures environment parameters helping in the study of
cases and supporting decision making or strategies for the prevention, detection and control of
hemorrhagic dengue in the state of Colima, Mexico.
Keywords: Hemorrhagic Dengue, Fuzzy Logic, Satellite Image.
3
CAPÍTULO 1. Introducción
Durante los últimos años, se ha incrementado la aparición de casos de dengue tanto
clásico como hemorrágico, en el Estado de Colima. El dengue es una enfermedad
febril exantemática que se transmite a través de la picadura del mosquito Aedes
aegypti infectado. Cada vez se vuelve un problema más grave ya que el dengue
hemorrágico puede ocasionar la muerte. Las campañas publicitarias en radio,
televisión, prensa y otros medios que el sector salud dirige a la población en riesgo
cumplen con la labor de informar acerca de las medidas preventivas y en caso de
contagio, que se deben tomar. El principal medio de reproducción del mosquito, en
zonas pobladas, son los criaderos en contenedores artificiales como latas, botes o
llantas. Pero existen zonas desiertas donde el terreno y el clima son naturalmente
propicios para su reproducción y donde ciertas medidas de prevención no son
llevadas a cabo.
La toma de imágenes satelitales del estado de Colima nos permite tener una
cobertura total del área considerada en estudio y su análisis ayudará a detectar las
zonas que por sus variables pueden ser clasificadas como foco rojo en la
reproducción del mosquito causante del dengue hemorrágico.
Este documento presenta algunas aplicaciones basadas en Lógica Difusa para
el procesamiento de imágenes y reconocimiento de patrones. El desarrollo y
aplicación de algoritmos difusos para el procesamiento y reconocimiento de
imágenes son importantes ya que las reglas y los conjuntos difusos en los que se
basan son efectivos en sistemas cognitivos parecidos al humano y ayudan a manejar
el ruido e información difusa o vaga que encontramos en nuestra vida diaria.
4
1.1. Justificación
Es importante poder contribuir a la erradicación de problemas como la enfermedad
del dengue hemorrágico, el cual se ha incrementado desde el año 2000 a 2006
cuando se reportaron en México 15, 866 casos de dengue correspondientes al
Estado de Colima 4,495 (5%). Para el año 2006 se confirmaron 27,287 de los cuales
4,477 pertenecían nuevamente al Estado de Colima, siendo considerado dentro de
los estados con mayor tasa promedio de casos dengue hemorrágico (CONAVE y
SSA, 2007). Según indicadores proporcionados por instituciones de salud en el
estado, la atención de casos incluye defunciones a causa de esta enfermedad,
recordando que se presenta en todo el mundo.
Sumado a todos los esfuerzos del sector salud y de las indicaciones a la
población por parte del mismo, este trabajo presenta sólo una propuesta con un
nuevo enfoque que ayude a detectar de forma previa el lugar de reproducción del
mosquito cuando las variables del ambiente sean factibles para llevarse a cabo dicha
reproducción. Es imprescindible hacer algo, ya que el causante es un enemigo casi
silencioso, por poco invisible y no distingue edad, raza o género.
1.2. Descripción del problema a investigar
Actualmente el control del dengue hemorrágico se lleva a cabo con el método de
Nebulización o aplicación de insecticida en el aire, así como el siguiente
procedimiento a continuación descrito tomado de (CONAVE y SSA, 2007):
1. Detectar y estimar por vivienda aleatoria la densidad de larvas, en zonas de riesgo
que bajo criterios de selección permita obtener una muestra representativa. La
5
muestra permite verificar nuevos especímenes y su densidad, aplicación de
encuestas a la población y requisición de formatos con el fin de conocer la cantidad y
tipo de recipientes que contienen agua, larvas o pupas. Posteriormente se generan
fórmulas como: Índice Casas Positivas, ICP= Casas con criaderos positivos x 100 /
casas exploradas ó Índice de Recipientes Positivos, IRP=Recipientes positivos x 100
/ Recipientes con agua explorados; con el fin de generar indicadores que
comparándolos con criterios establecidos por la Norma Oficial Mexicana para la
vigilancia epidemiológica, prevención y control de las enfermedades transmitidas por
vector, permitan evaluar el grado de riesgo de transmisión de la enfermedad del
Dengue. Es necesario clasificar los recipientes positivos existentes entre abatizables
(Floreros, baños y tinas; llantas, pilas, pozos y tinacos descubiertos), controlables
(Botes y cubetas, macetas) y eliminables (menos de 5 L de capacidad); conocer el
tipo de recipiente que presenta mayor productividad o probabilidad de ser colonizado
permitirá plantear alternativas de tratamiento, eliminación, control o aplicación de
algún larvicida (CONAVE y SSA, 2007).
Este método de muestreo no es aplicable en poblaciones que rebasen las 300
mil viviendas, la muestra se restringe a zonas con mayor riesgo, especificando
medidas a seguir y aplicable en la fase larvaria o pupa del mosquito (CONAVE y
SSA, 2007).
2. En la fase adulta del mosquito Aedes aegypti, se crean ovitrampas con un
recipiente de plástico pintado o forrado de color negro lleno con 1/3 de agua potable
y abatelenguas fijos en el interior, asimismo colocándose en el interior o exterior de la
vivienda al ras del suelo para crear competencia con otros posibles criaderos (llantas
o botes), el lugar debe ser sombreado u oscuro. Anotando datos de la vivienda y
número de la ovitrampa, se revisará cada 5 o 6 días cambiando el agua y llevando a
analizar cada abatelenguas con el fin de identificar y cuantificar huevecillos de Aedes
aegypti. Los datos obtenidos serán el porcentaje de viviendas positivas al huevecillo,
su promedio y positividad en interiores o exteriores de la vivienda. Este
6
procedimiento requiere tiempo para obtener la muestra y es probable perderla al
secarse o derramarse el agua (CONAVE y SSA, 2007).
3. Otra forma consiste en capturar el mosquito utilizando carnada humana, esto es,
exponer las extremidades de una persona a la picadura en horarios de mayor
actividad (amanecer o anochecer). Utilizando una lámpara y colocando los
especímenes en vasos de cartón encerado y tapa de tul. Con este método lo
principal es que la persona corre riesgo de infectarse, aunque se realiza en periodos
que no exista transmisión y sólo para investigación (CONAVE y SSA, 2007).
4. Desarrollar actividades de control larvario dirigidas a eliminar o controlar cualquier
depósito donde se puedan desarrollar larvas de cualquier tipo de mosquito pero
primordialmente Aedes aegypti. El control físico consiste en lavar, tallar, voltear,
destruir, cubrir, proteger bajo techo o evitar el almacenamiento de agua en todos los
recipientes que sean capaces de criar larvas. El control químico consiste en aplicar
en exteriores (pilas, tinacos y cisternas sin tapa, entre otros) e interiores (floreros); el
larvicida Temephos al 1% por 10 L agua, su presentación es en granos de arena y un
periodo de efectividad entre 60 y 90 días. Su aplicación se emplea de forma
preventiva y se regirá por el tiempo de duración del producto. Este procedimiento se
lleva a cabo sólo por personal de salud autorizado. El control biológico aplicado en
algunos lugares del país, consiste en sembrar peces en los contenedores de agua
para terminar con las larvas, basado en un modelo depredador-presa (CONAVE y
SSA, 2007).
5. Finalmente la promoción permite dar continuidad por parte de morador a las
actividades de control larvario. El responsable de control debe presentarse
uniformado y portando su credencial, debe dar un mensaje haciendo énfasis en la
importancia de su actividad y sin su apoyo no se podrá prevenir o controlar la
enfermedad. Este punto, ha dado pie a que personal no autorizado visite las
7
viviendas con otros fines ajenos al control, además crea cierta desconfianza entre la
población al abrir las puertas de su casa a un desconocido (CONAVE y SSA, 2007).
Nebulización
La nebulización o rociado espacial consiste en aplicar gotitas pequeñas de
insecticida en el aire, dentro o fuera de un lugar cerrado, con el propósito de que
puedan entrar en contacto y matar a los mosquitos adultos presentes en el ambiente.
Este procedimiento especialmente para mosquitos adultos, además debe medir el
tamaño de las gotas del insecticida ya que si son demasiado pequeñas se alejarán a
la deriva del área y si son muy grandes caerán con rapidez sin eficacia. El equipo de
aplicación debe estar entonces en buenas condiciones. También se hacen aerosoles
fríos utilizando máquinas pesadas y portátiles, a bordo de vehículos automotores,
lanchas y aviones especialmente diseñados para tal efecto. Las máquinas pueden
cubrir de 1,500 a 2,000 casas en promedio, por jornada de trabajo. Es prioridad
contar con mapa de las localidades. Si la velocidad del vehículo es mayor a 10 km/hr
o la temperatura mayor a 28°C no debe realizarse este proceso (CONAVE y SSA,
2007).
En general, como problema prioritario de salud se han realizado acciones,
haciendo énfasis en las actividades de prevención y control del factor humano, tales
como: mantener patios limpios y cuidar el agua almacenada, así como la aplicación
de larvicidas en pilas por promotores de salud. El dengue es una enfermedad que
incapacita y ocasiona pérdidas humanas, con importantes impactos sociales y
económicos es un problema que va en aumento en México y la región (CONAGO,
2007).
8
1.2.1. Preguntas de Investigación ¿Es posible desarrollar de manera eficaz un programa en lenguaje Python que
permita analizar con Lógica Difusa una imagen de satélite?
¿Es factible aplicar la Lógica Difusa para obtener un eficiente análisis de imágenes
satelitales?
¿Es recomendable segmentar por medio de patrones de falso color, la vegetación y
cuerpos de agua, encontrados en imágenes satelitales para considerar la
probabilidad de que ahí se desarrolle el mosquito causante del dengue?
9
1.3. Hipótesis de trabajo
La aplicación de un algoritmo con Lógica Difusa y falso color para el
procesamiento de imágenes satelitales, apoyará favorablemente la detección de
zonas donde el mosquito Aedes aegypti causante del dengue hemorrágico se
desarrolla.
La variable dependiente:
Obtención de información adecuada, oportuna y pertinente que conduzca a la
identificación de zonas del estado de Colima consideradas probables zonas de
riesgo para la reproducción del mosquito Aedes aegypti causante del dengue
hemorrágico.
La variable independiente:
Programa de procesamiento digital de imágenes satelitales con análisis de
Lógica Difusa para la detección de vectores del Dengue.
Variables intervinientes:
Mala calidad de las imágenes de satélite, ruido aleatorio en las imágenes, equipo
de cómputo deficiente o lento para el procesamiento de imágenes.
10
1.4. Los objetivos que se persiguen
1.4.1. Objetivo general
Facilitar la ubicación de zonas probables fuentes de reproducción del mosquito
Aedes aegypti causante del dengue hemorrágico por medio de un sistema similar a
un SIG (Sistema de Información Geográfica).
1.4.2. Objetivos específicos
• Adaptar un sistema similar a un Sistema de Información Geográfica con el
propósito de procesar imágenes de zonas específicas del estado de Colima
consideradas probables fuentes de reproducción del mosquito causante del
dengue hemorrágico.
• Adaptar y aplicar un algoritmo difuso para realizar la clasificación de una
imagen a través del módulo segmentar imagen. El algoritmo recorrerá la
imagen con el fin de identificar cuerpos de agua (lagos, lagunas, esteros, ríos
y arroyos) y vegetación presentes en el área, resaltando por color amarillo y
morado, respectivamente. Así como de color rojo, con la presencia de ambos.
Se utilizará el sistema Google Earth para obtener la imagen satelital.
• Llevar a cabo un análisis comparativo entre las variables del clima y los
elementos predominantes (agua y vegetación) en la zona considerada de
riesgo para la reproducción del mosquito Aedes aegypti.
11
• Calcular en qué porcentaje las variables están presentes en la imagen
procesada.
• Mejorar la toma de decisiones o estrategias de prevención, detección y control
de las zonas en riesgo.
1.5. Metodología empleada
En esta sección se utilizó una metodología exploratoria, basada en la
elaboración incremental de prototipos de software (Mcconnel, 1998) y se llevaron a
cabo pruebas de testeo de ingeniería de software (Ammann y Offutt, 2008) y de
usabilidad (Nielsen, 1993).
• Consultar bibliografía acerca de métodos difusos y Sistemas de Información
Geográfica.
• Investigar y aprender la programación en el lenguaje Python.
• Desarrollar un método similar a un Sistema de Información Geográfica.
• Diseñar las pantallas y botones que permitirán un uso más fácil y amigable del
sistema.
• Utilizar y adaptar un algoritmo para segmentar imágenes, basado en técnicas
de Lógica Difusa, en lenguaje Python.
• Llevar a cabo la prueba del sistema para corroborar que reconoce las
variables establecidas y realiza el correcto reconocimiento de patrones de
falso color.
12
• Documentar el funcionamiento del sistema así como los resultados
proporcionados.
• Presentar una propuesta del sistema que ayudará a analizar imágenes
satelitales, plasmándola en una tesis.
1.6. Descripción de la organización del trabajo
En la primera sección de este trabajo se hace una introducción a la problemática del
dengue hemorrágico, haciendo énfasis en que se trata de un problema mundial y en
las medidas de prevención y control que se han tomado. La segunda parte hace
referencia al estado del arte presentando lo que algunos autores han escrito sobre el
tema, así como aportaciones personales y se describen modelos matemáticos así
como Sistemas de Información Geográfica, que se han desarrollado con el fin de
intentar erradicar esta enfermedad. La tercera sección habla del diseño técnico del
proyecto propuesto con el uso de un algoritmo que ejemplifique mejor la manera
cómo se llevará a cabo el procesamiento de las imágenes satelitales. Finalmente la
cuarta sección concluye con este trabajo haciendo propuestas de mejora, así
también se describen a groso modo las limitaciones de esta investigación y se hacen
recomendaciones para continuar en lo futuro con esta misma.
13
CAPÍTULO 2. Estado del arte
Este punto presenta lo que algunos autores han escrito sobre el tema y que dan
soporte a esta investigación.
2.1. Marco histórico
Desde que la Lógica Difusa fue creada en 1965 se propuso la idea de que en el
campo de la ingeniería podía existir la vaguedad, el Profesor Lofti Zadeh su creador
introdujo entonces conceptos tales como: medición e integral difusa. En el año de
1974 se aplicó por primera vez en el diseño de controles. A principios de los 90’s su
aplicación se extendió a la industria tanto en el desarrollo de procesos de purificación
de agua como en el desarrollo de un sistema de control automático para trenes, así
como de productos electrónicos para el hogar. Siendo Japón el pionero en su
aplicación de manera especial y exitosa en el campo de control considerado parte del
razonamiento difuso, se formó una Asociación Internacional de Sistemas Difusos
como la primera organización académica para teóricos y practicantes de la Lógica
Difusa (Tanaka, 1997). A continuación se describen trabajos que utilizan la Lógica
Difusa así como investigaciones que se centran en el control de epidemias causadas
por plagas de insectos como el mosquito Aedes aegypti.
14
2.1.1. Antecedentes del trabajo
Existe una variedad de sistemas que nos permiten el manejo de información útil para
la investigación científica, incluso se puede obtener de forma gratuita, como son:
mapas geográficos, variables del clima, temperatura, imágenes satelitales o censos
demográficos.
Los Sistemas de Información Geográfica, procesan imágenes satelitales y
ayudan en la identificación de zonas con mayor incidencia de casos de
enfermedades consideradas como problemas mundiales de salud; esto es,
agregando una marca en la ubicación exacta donde ocurre cada caso; la vigilancia y
control por parte del sector salud se ve reforzada con este tipo de sistemas, aunque
la posibilidad de detectar y actuar sobre la amenaza antes de que se extienda, es
nula.
Otros sistemas enfocados a la vigilancia epidemiológica, permiten obtener
estadísticas de síntomas comunes a algún tipo de enfermedad, permiten la captura y
manejo de información personal y de salud, por caso que acude por atención a las
clínicas de salud. La graficación de estos datos muestra el nivel de afectación del
estado o país por cada 100 000 habitantes. Las campañas de concientización a la
población sobre las medidas que deben tomar dentro y fuera de sus hogares, la
mayoría de las veces no se llevan a cabo o la enfermedad se introduce por personas
de otro lugar. Nuevamente la posibilidad de detectar con premura, es nula.
La propuesta de este trabajo se centra en detectar dónde existe una mayor
probabilidad de reproducción del mosquito Aedes aegypti causante del dengue
hemorrágico antes de que pueda infectar a cualquier persona, evitando el contagio y
a su vez la propagación de la enfermedad. Localizar el hacinamiento del mosquito en
15
zonas donde su desplazamiento a los hogares sea mínimo y certero, de esta forma
analizar qué medidas emplear o mejorar principalmente antes de que sea un
problema de salud.
2.2. Marco contextual
Este proyecto comprende el estudio delimitado al Estado de Colima, localizado
geográficamente al norte 19°31', al sur 18°41'; de latitud norte; al este 103°29', al
oeste 104°41' de longitud oeste. Colinda al norte con Jalisco; al este con Jalisco y
Michoacán de Ocampo; al sur con Michoacán de Ocampo y el Océano Pacífico; al
oeste con el Océano Pacífico y Jalisco. Cuenta con una extensión territorial de 5 625
kilómetros cuadrados (Km2), predominando un clima caluroso (cálido), en las zonas
bajas del valle del municipio de Tecomán con algo de humedad (subhúmedo). De la
llanura costera hacia la sierra, el clima es más seco (semiseco), pero es caluroso.
Conforme se sube a las faldas del Volcán de Colima, la temperatura empieza a
disminuir (clima semicálido). Los climas templados y semifríos se encuentran en las
partes altas del Volcán (INEGI, 2008). El Sistema Nacional de Vigilancia de dengue se ve reforzado por otros
sistemas tanto para geo-referenciar casos como para monitorear actividades de
vigilancia y control, delimitación de cercos sanitarios, sistemas de visualización y
alerta temprana, asimismo de cálculo de población en riesgo (CONAGO, 2007).
El día miércoles 30 de abril de 2008 se efectuó una capacitación a nivel
nacional, para epidemiólogos y capturistas del sector salud sobre el manejo de un
nuevo sistema para la captura en plataforma web de todos los casos de fiebre por
dengue y fiebre por dengue hemorrágico. El sistema toma datos personales, de
16
sintomatología y laboratorio del paciente, entre otros. Una vez que se ingresa el caso
en la plataforma, el sistema puede geo-referenciarlo por el domicilio y establecer su
marca de posición. Esto permite localizar las manzanas o sectores de la población
donde se den más ocurrencias de la enfermedad, mismas que facilitarán la toma de
decisiones respecto a la vigilancia y control.
2.2.1. Trabajos relacionados
A continuación se describen 5 trabajos que sea por el método o técnica que utilicen,
se encuentran relacionados (como el título lo indica) con esta propuesta de
investigación.
2.2.1.1. Modelo de simulación para el control del mosquito Aedes
aegypti, transmisor del dengue y la fiebre amarilla, por el crustáceo Mesocyclops spp.
La erradicación del vector A. aegypti se ha realizado mundialmente,
desafortunadamente después de un tiempo resurge, como es el caso de algunos
países de América del Sur, motivo por el cual se han implementado otros métodos de
control. Uno de los métodos consiste en la utilización de copépodos de la especie A.
albopictus con M. longisetus en laboratorio, para comprobar su efectividad sobre el
control de mosquitos. Los copépodos son una clase de crustáceos, microscópicos y
que abundan en agua dulce como salada. Encontrados como depredadores de
17
larvas de mosquitos se plantea como posible método de control (Duque, Muñoz y
Navarro-Silva, 2004).
El objetivo de este modelo es presentar la manera en que se lleva a cabo la
depredación de larvas Aedes aegypti por el Mesocyclops spp. Compuesto por
variables y parámetros descritos en 6 ecuaciones diferenciales, H'(t), cantidad de
huevos; L'(t), cantidad de larvas; A'(t), cantidad de adultos de Aedes aegypti que
varía en el tiempo y C'(t), cantidad de copépodos (Duque, Muñoz y Navarro-Silva,
2004).
Los parámetros son, entre otros, tasa de transformación de huevos a larvas
del mosquito Aedes y tasa de mortalidad natural, tasa de transformación de las
larvas a adulto y de depredación por Mesocyclops, asimismo tasa de mortalidad
natural de la población de adultos del mosquito Aedes aegypti y tasa de mortalidad
natural de Mesocyclops (Duque, Muñoz y Navarro-Silva, 2004).
La simulación del modelo se realizó con el programa Matlab 5.3 utilizando
valores hipotéticos y se modificaron buscando mayor aproximación a datos naturales,
ya que los resultados de estos trabajos varían de acuerdo a las condiciones de
campo y laboratorio. Se ilustran a continuación las ecuaciones diferenciales (Duque,
Muñoz y Navarro-Silva, 2004).
La ecuación (1) representa la dinámica vital de los huevos del mosquito la
cual depende de la oviposición de los adultos, tasa de inviabilidad y el paso al
estado L (t) (Duque, Muñoz y Navarro-Silva, 2004).
(1)
18
En la ecuación (2) se resumen los estados larvarios del mosquito en una sola
variable L (t). Se observa en esta ecuación la función que representa el control del
predador aC(t)L(T), en la cual las presas son liquidadas de forma linear (Duque,
Muñoz y Navarro-Silva, 2004).
(2)
Luego se cambia aC(t)L(T) por la función , finalmente se obtiene la
ecuación (3), donde se incluyen los parámetros como K y m que regulan la densidad
de la presa asumiendo que los copépodos pueden tener un límite de captura,
diferente de la forma planteada en la ecuación e.2 (Duque, Muñoz y Navarro-Silva,
2004).
(3)
La ecuación (4) muestra la dinámica de los mosquitos adultos cuyo incremento
es regulado por el paso de L(t) a A(t) menos la mortalidad natural de los adultos
(Duque, Muñoz y Navarro-Silva, 2004).
(4)
La ecuación (5) representa el depredador y de esta ecuación se sustituye
eC(t)L(T) (Duque, Muñoz y Navarro-Silva, 2004):
(5)
19
De esta manera los copépodos, además de ser dependientes de L(t), también
tienen una disminución en el ataque, lo cual se ajusta más a la realidad ecuación (6)
(Duque, Muñoz y Navarro-Silva, 2004).
(6)
Ambas especies siendo larvas necesitan de la misma materia orgánica para
su desarrollo teniendo que coexistir. Por lo anterior se agregó al modelo la función
donde los copépodos estén regulados, por factores propios de la especie
interpretados por el parámetro m=Constante media de saturación. El modelo es
sencillo ya que no incluye parámetros de clima o físicos, está basado en un sistema
clásico presa-depredador, el depredador sólo tiene un tipo de presa y no hay
competencia por el alimento. Posiblemente se obtendrán datos poco reales y los
resultados no se ajusten a la biología de estas especies pero abren una hipótesis
respecto a la importancia del control biológico por copépodos y su eficiencia o hasta
qué punto lo son (Duque, Muñoz y Navarro-Silva, 2004).
2.2.1.2. Freeze Frame Video Printer
Asgharzadeh (1996) por primera vez hace mención a un sistema experto basado en
reglas difusas para el análisis y realce de imágenes digitales. El Freeze Frame Video
Printer (FFVP), dispositivo que transfería una imagen de video (digital/análoga) en
algún tipo de medio de salida, donde un usuario podía ver la imagen en el monitor
del FFVP y basándose en su experiencia y gusto, ajustaba las opciones de control
del FFVP y obtenía una mejor toma. El sistema propuesto un Controlador Difuso
(Fuzzy Controller) compuesto por una unidad analizadora y una unidad de realce
embebido (añadido) al FFVP, permitió automatizar el proceso de ajuste realizado por
20
el usuario. Utilizando las reglas difusas la imagen era analizada y sus características
como color, brillo, contraste y/o balance, automáticamente ajustadas con el fin de
optimizar la calidad de la toma, a la primera. El esquema descrito anteriormente se
muestra en la Figura 1.
La investigación demostró que el desarrollo de un sistema basado en reglas
difusas era capaz de ajustar las características de video de una imagen fija para
obtener una calidad de impresión alta. El proceso no requirió técnicas de
procesamiento de imágenes costosas y podía implementarse en tiempo real. La
Lógica Difusa proporcionó un método rápido y simple para obtener, analizar y
corregir atributos requeridos en sistemas de impresión de video (Asgharzadeh,
1996).
Figura 1 Estructura del Controlador Difuso (Asgharzadeh, 1996, p. 3).
2.2.1.3. Sistema de Clasificación de imágenes
Gutiérrez y Jegat (2005) mencionan que investigaciones realizadas sobre los
sistemas de clasificación de imágenes satelitales muestran un análisis respecto al
modelaje de la incertidumbre o ambigüedad de la información relacionada con la
21
imprecisión, errores y calidad de la misma, en un sistema de Información Geográfica
(SIG) trabajando junto con Sensores Remotos (SR); planteando que a medida que la
información es procesada pasa por una serie de transformaciones. De la
combinación o unión de los SIG y SR se generan diversos modelos de áreas
geográficas como: Modelo de campo (C), Imagen (I), Temático (T) se refiere a la
clasificación de la imagen ya sea supervisada o no; y Objeto (O) es decir, el mapa
final (puntos, líneas y polígonos); así como los diferentes procesos de transformación
a partir de imágenes satelitales.
Con la utilización de Lógica Difusa es posible dar un paso adelante en la
descripción de la realidad de la superficie terrestre. Si existen usos y coberturas
mezclados o zonas de transición, mediante esta técnica podemos instruir
adicionalmente al sistema de clasificación con esas características complementarias,
esto es, le informamos sobre los porcentajes de mezcla o transición, según sea
nuestro conocimiento (Gutiérrez y Jegat, 2005).
Existen muchas aplicaciones para procesar imágenes, que haciendo un pre-
procesamiento seleccionan y resaltan un patrón de clasificación base. Ejemplos
comunes son el reconocimiento de facciones donde se asigna una imagen a cada
persona o diagnóstico médico de pacientes imaginarios. En cualquiera de los casos
el rechazo o una incorrecta clasificación generan costos extra. Por ejemplo,
diagnosticar sana a una persona con una enfermedad mortal puede ser penalizado
que si se diagnostica sana a una persona que probablemente no lo está. Algoritmos
propuestos de patrones de clasificación basados en reglas de decisión difusas, IF-
THEN fuzzy rules, permiten incorporar patrones de entrenamiento “pesados” donde
los atributos de la imagen son divididos en conjuntos difusos, mismos que generan
mapas de uso y cobertura del área. Los algoritmos de clasificación se aplican a
diversos procesos de imágenes para el diagnóstico de cáncer de pulmón y la
clasificación de imágenes satelitales. El concepto de “peso” (weight) se refiere al
22
costo que genera el rechazo o una mala clasificación de un patrón de entrada dado
al sistema. Las reglas son generadas considerando los “pesos” y la compatibilidad de
los patrones de entrenamiento (Nakashima, Schaefer, Yokota & Ishibuchi, 2007).
2.2.1.4. Unidad de Inteligencia Epidemiológica
El Centro de Innovación Tecnológica en conjunto con la Facultad de Medicina y con
el apoyo financiero de CONACyT así como del Gobierno del Estado, desarrollará una
denominada Unidad de Inteligencia Epidemiológica que tendrá como objetivo
“analizar información relacionada con la epidemiología; esto es, dónde ocurren los
casos de enfermedades y su progreso en el tiempo, de tal forma que dicha
información sirva no nada más para graficar y tener estadísticas, sino para anticipar y
proyectar el tamaño de las epidemias y coberturas de información y encontrar
patrones entre las personas que se enferman” (Universidad de Colima, 2007).
2.2.1.5. Uso de Sistemas de Información Geográfica (SIG) para la vigilancia de enfermedades vectoriales en áreas de fronteras
A causa del dengue, América se ha visto afectada por el incremento en el número de
casos notificados, siendo 255 casos fatales. En 1997, Argentina presenta casos de
serotipos 1, 2 y 3 de los 4 existentes. La existencia de mosquitos, la ocurrencia de
casos en países limítrofes y el intenso tránsito de personas a lo largo de las
fronteras, pone en alto riesgo al país debido a la re-introducción de la enfermedad. El
Plan Continental de la Organización Panamericana de la Salud propone identificar
23
las áreas con mayor riesgo de contagio evitando pandemias y muertes por dengue,
esto es, concentrar esfuerzos para así reducir y controlar el vector (Botinelli, Ulon,
Marder y Cabral, 2006).
Los SIG se utilizan principalmente para analizar la asociación entre
medioambiente y enfermedad, ayudan a localizar eventos de salud en espacio y
tiempo, así como su monitoreo, comportamiento de factores de riesgo en un período
de tiempo, identificación de áreas geográficas y grupos de población con grandes
necesidades de salud. Un SIG es un conjunto integrado de programas de
computadora, capaz de geo-referenciar datos ligados al territorio, almacenar,
analizarlos y presentar los resultados en forma de listados, mapas y gráficos.
Realizado en ArcView 3.5 (Botinelli et als., 2006).
El proyecto tendrá como objetivo acceder al SIG, determinar y evaluar áreas y
poblaciones en riesgo, es decir, se visitan áreas de frontera, se censan, encuestan y
entrevistan para la obtención de datos que serán analizados por el SIG. Siendo no
prioritario por la falta de concientización de su relevancia, por la falta de información
y por el acceso a nuevas tecnologías, presenta problemas ya que las autoridades
encargadas de proporcionar información no siempre responden a favor, lo que
genera escasez de datos epidemiológicos, datos clínicos y de laboratorio (Botinelli et
als., 2006).
Tanaka (1997) nos dice que el razonamiento difuso se lleva a cabo a través de
reglas de inferencia expresadas como reglas difusas IF-THEN, donde la sentencia
seguida del IF es llamada premisa y el término después del THEN es llamado la
consecuencia. El diseño de controladores de Lógica Difusa involucra la construcción
de reglas de control y el procedimiento se basa en los siguientes pasos:
24
1. Construcción de las reglas de control
2. Afinando parámetros (para determinar los conjuntos difusos) y,
3. Validación y revisión de las reglas de control
La construcción de las reglas inicia determinando qué variables seleccionar
como entrada ya que las variables de salida están implícitamente determinadas por
el objetivo. El afinamiento de parámetros afecta la forma de los conjuntos difusos.
Para el control de Lógica Difusa, conjuntos difusos de forma triangular y exponencial
son frecuentemente utilizados. La revisión consiste en agregar o borrar reglas que
afecten realizar el control (Tanaka, 1997).
Por otra parte, se han aplicado con éxito en el área de epidemiología los
sistemas de información geográfica; los mapas utilizados han sido reconocidos como
una fuente de poder e inspiración para la aventura. Sólo cuando uno sabe dónde
está física y metafóricamente, puede planear a dónde ir. Históricamente, los
elaboradores de mapas hicieron posible la fundación de imperios. Desde el
Mapamundi a los atlas electrónicos de hoy en día, la cartografía se ha enfocado en
patrones geográficos; en este punto, se considera que sólo los sensores de datos de
satélites pueden dar a los biólogos información apropiada y actualizada (en tiempo)
de los ambientes naturales, así como de los animales y plantas viviendo junto a
ellos. Se ha dado a conocer un importante proyecto enfocado a un subgrupo de esta
biodiversidad vector-borne enfermedades de animales en los cuales parte del ciclo
de vida de los parásitos lo pasan junto a huéspedes invertebrados (caracoles,
garrapatas o insectos). Con la ayuda de información satelital se puede incrementar el
conocimiento sobre la transmisión de enfermedades y la habilidad para rastrear y
monitorear el impacto de las intervenciones que quizá se hagan en la transmisión
(Hay, Randolph & Rogers, 2002).
25
Es importante mencionar que las técnicas que utilizan sensores remotos (RS),
proceso por el cual se adquiere información acerca de un objeto o fenómeno a
distancia; tienen el potencial para revolucionar la disciplina de la epidemiología y su
aplicación en la salud humana (Hay, Randolph & Rogers, 2002).
2.2.1.6. Estrategias de participación comunitaria con enfoque ecosistémico en el control del Dengue. Experiencia en Cuba.
Dentro de los métodos y estrategias para llevar a cabo la prevención y control del
dengue, la participación de la comunidad ha tomado prioridad en algunas partes del
mundo de la cual se desprenden algunos conceptos básicos como participar que
significa tomar parte, la intervención de la gente en procesos que afectan su vida
(económicos, políticos, culturales y sociales), en cuestión de salud la participación
social comprende acciones en las que la población identifique y analice sus
problemas para formular y negociar propuestas de manera democrática. Aunque
desde el año de 1978 ya se tienen antecedentes en lograr salud para todos (Alma
Ata). Las principales estrategias: la organización comunitaria, educación para la
salud y la comunicación social en salud (Torres, 2008).
El Instituto de Medicina Tropical “Pedro Kourí”, con 70 años de servicio en la
Habana, Cuba brinda asesoría científico técnica a organismos e instituciones que
tengan interés en el desarrollo de las ciencias biomédicas, la prevención y el control
de las enfermedades transmisibles, de esta forma Cuba inició en el año 2000
experiencias con proyectos que utilizan un enfoque de eco-salud por las siguientes
razones: porque los ecosistemas cuentan con recursos finitos y si se quieren
preservar para nuestros predecesores se deben cuidar; así como también porque
aproximadamente el 80% de las enfermedades están relacionadas con los
26
ecosistemas donde vivimos y finalmente, porque permite comprender las diversas
interacciones en la sociedad y cómo se relacionan con la salud en un determinado
ambiente (Torres, 2008).
Torres (2008), menciona que en el año 2003 se lleva a cabo el proyecto
Cotorro, donde la participación comunitaria dentro del mismo, es considerada un
proceso que involucra a los sectores y la población a beneficiarse desde el inicio al
fin, garantizando el aporte de su inteligencia y habilidades para resolver problemas y
encontrar soluciones “novedosas” llevando un control de las tareas y el
mantenimiento de lo realizado. Los objetivos consistieron en el diseño y ensayo de
un sistema de vigilancia para la prevención del dengue y la promoción de la
participación comunitaria en relación a la gestión del ecosistema vinculada al
mosquito Aedes aegypti y el Dengue.
La estrategia de Ecosalud se enfocaba en involucrar al gobierno y grupos
vecinales, entre otros, en una capacitación proporcionada por el consejo de salud.
Además, contaban con el apoyo de un Sistema de Información Geográfica (SIG) que
les proporcionaba mapas con el total de manzanas infectadas por el mosquito Aedes
aegypti, así como mapas de las manzanas con riesgo epidemiológico y zonas de
influencia de las manzanas con foco (infección). De esta manera, una vez
identificadas las zonas de riesgo se organizaron grupos vecinales motivados por
resolver problemas de su entorno y encabezaron procesos de participación,
capacitados con un programa específico y con una guía para realizar paso a paso su
trabajo. La Figura 2 y 2a muestran los tipos de salidas que proporciona el SIG
(Torres, 2008). Se diseñó y validó una estrategia gracias a la formación de los grupos
vecinales llamada, Proyecto: Ecosistemas Saludables para la prevención del
Dengue. Guía paso a paso para el trabajo de los Grupos vecinales. Cotorro 2003-
2005.
27
Figura 2 Mapa de manzanas con foco de Aedes aegypti (Torres, 2008).
28
Figura 2a Mapa de manzanas con riesgo epidemiológico (Torres, 2008).
29
Como resultado se realizaron diálogos en las comunidades y se dieron talleres
de sensibilización con los organismos y organizaciones del municipio. Dentro de las
tareas de los grupos estaban: educar a los habitantes de los alrededores, vigilancia y
control de los peligros para la propagación del vector y abogar a favor de la solución
de problemas que requerían la atención de instituciones del área. La capacitación se
centró en cómo realizar el diagnóstico y profundizar en los problemas, abarcó temas
como problematización, comunicación, motivación, trabajo en grupos, dirección por
objetivos, enfoque lógico, mercadotecnia, entre otros (Torres, 2008).
En Cuba las condiciones ambientales, la colindancia con países de una alta
incidencia de dengue y ciertos comportamientos humanos favorecen el riesgo de
aparición de epidemias, como el Dengue. En conclusión, el proyecto Cotorro es una
propuesta de participación de la comunidad para que diagnostique problemas de
manera agradable y creativa, enfatizando en los que favorecen la reproducción de
mosquitos con el fin de convertir el municipio en un Ecosistema saludable.
2.3. Marco teórico
La Lógica Difusa (Fuzzy Logic) es parte de la lógica y fue diseñada para representar
niveles de imprecisión indicados por palabras como “muy”, “poco”, “bastante” o
“mucho”. Creando conjuntos de elementos llamados “conjuntos difusos o borrosos”
(fuzzy sets) con valores como “verdadero” o “más o menos verdadero”, entre otros, a
partir de los cuales se determina la pertenencia o no de un elemento al conjunto. Lo
que hace es representar el razonamiento humano a través de sentencias o reglas de
decisión llamadas reglas difusas o fuzzy rules (Padhy, 2005).
Las primeras aplicaciones de la Lógica Difusa se dieron en la ingeniería y
30
después se extendieron a las ciencias sociales, para diagnósticos médicos y
sistemas de inventarios (Masao, 2001). A continuación se resumen a groso modo
conceptos clave relacionados con la Lógica Difusa, necesarios para comprender su
utilidad.
2.3.1. La Vaguedad (Fuzziness)
Masao (2001) nos dice que en nuestra vida diaria nos enfrentamos con la vaguedad,
es imposible vivir sin ella. Cuando queremos hacer algo primero elegimos hacia
dónde queremos ir, trazamos un camino y establecemos una meta. Pero a lo que nos
enfrentemos en el recorrido a la meta no podemos saberlo hasta que nos
encontramos frente al problema. No es posible definir los obstáculos o detalles de un
plan antes de que sea ejecutado. En las matemáticas, la vaguedad no existe, todo es
verdadero o es falso. Si uno comete un error las matemáticas lo examinan y lo
cuentan como tal. En una computadora sucede lo mismo, no le es posible evaluar la
vaguedad que existe en los sentimientos de una persona, por ejemplo, “sentir” que
marcamos la respuesta correcta al realizar un test. La realidad no se reconoce como
si (1) y no (0) ya que está llena de incertidumbre que puede llegar a producir
confusiones. Cuando decimos “si” o “no” también lo sentimos en nuestra mente. La
vaguedad, ambigüedad o incertidumbre es esencial e indispensable para el ser
humano.
31
2.3.2. Algunas semánticas ambiguas
En la referencia (Masao, 2001) nos muestra algunas semánticas ambiguas:
1. Incompleta: no entendible por la falta de información. Por ejemplo, Yo no
puedo hablar inglés. Así que no entiendo algo que se hable en inglés. Aunque la
información, tiene un significado, no podremos aceptarla por la falta de conocimiento.
En este caso del idioma inglés.
2. Ambigüedad: indefinición en varias interpretaciones de una palabra. Una
palabra en japonés como “hashi” tiene varios significados a lo que se le llama
ambigüedad de una palabra. Esta propiedad incluye también figuras; por ejemplo,
una famosa fotografía que puede ser vista como el rostro de una mujer joven y de
una mujer grande, a la vez.
3. Aleatoriedad: desconocida hasta que se realiza en el futuro. Cuál lado caerá
al lanzar un dado? Cuál pierna usaré primero al salir de casa? Son ejemplos de
ambigüedad con consideraciones a eventos futuros.
4. Imprecisión: no preciso o exacto. Cubre casos ambiguos que incluyen
errores o “ruido”. La ambigüedad es causada por la imprecisión de la información.
5. Vaguedad (Fuzzines): incapaz de definirse, o se tiene una definición sin
sentido. La ambigüedad en la semántica de las palabras como decidir si “ella es
bonita o no” o si “hace calor hoy o no”, la respuesta quizá depende de la percepción
individual.
32
2.3.3. Lógica para computadoras
La computadora está basada en la lógica binaria, en la que todo es si (1) o no (0) sin
rangos intermedios y la información digital también está representada por una
combinación de 0 y 1’s. A este principio donde no hay un estado intermedio se le
conoce como ley de exclusión del medio. La ventaja de la lógica binaria es lograr la
precisión requerida en teoría por el incremento de dígitos así como ser capaz de
programar cualquier procedimiento definido claramente y hecho por computadoras.
El uso de la electrónica ha permitido la implementación de computadoras de alta
velocidad y menor tamaño, más fácil diseño del sistema, tolerancia al ruido y una
arquitectura de hardware más simple. La información orientada a la sociedad es
posible debido a las computadoras. Las comunicaciones y las bases de datos
ayudan a la sociedad a ser más práctica; así como también comunicaciones digitales
llamadas Sistemas de Redes de Información (SRI) y Servicios Integrados de Redes
Digitales (SIRD) (Tanaka, 1997).
2.3.4. Lógica Difusa
La Lógica Difusa es un conjunto bien desarrollado de conceptos, técnicas y teoremas
para manejar la vaguedad y la imprecisión. Es una de las técnicas de la Inteligencia
Artificial utilizada en aplicaciones prácticas, dentro del ámbito industrial y
empresarial, en tareas como clasificación, reconocimiento de patrones o de control
de dispositivos como ferrocarriles o lavadoras automáticas (Rich y Knight,1994).
Emula una de las funcionalidades “inteligentes” de los seres humanos, en este
caso, el razonamiento con incertidumbre o conocimiento incierto, a través de la
33
creación de conjuntos difusos permite representar proposiciones como (Pajares,
Sanz y Santos, 2005):
Juan es muy alto
María está un poco enferma
Luisa y Josefina son amigas muy íntimas
Las excepciones a la regla son casi imposibles
La mayoría de los hombres franceses son muy altos
Son situaciones donde intervienen consideraciones subjetivas, en las que
resulta difícil determinar la pertenencia o no de un elemento a un conjunto. Tales
conjuntos pueden recibir el calificativo de “borrosos” para indicar que no existe un
criterio que determine exactamente un límite entre la pertenencia y no pertenencia al
conjunto (Pajares, Sanz y Santos, 2005).
2.3.5. Teoría de Lógica Difusa
Masao (2001) nos dice que existen múltiples ambigüedades ya que hay cosas
indefinidas que pueden cambiar. Mientras que las cosas definidas pueden ser
determinadas de forma única. Los cuestionamientos pueden ser modelados en lógica
binaria. Sin embargo, no es seguro aplicar sólo Lógica Difusa a las ambigüedades ya
que es difícil tener solo una teoría que cubra todas las ambigüedades. La
Probabilidad, es la única teoría reconocida de todas las teorías que estudian la
ambigüedad. La Probabilidad y la Teoría de Lógica Difusa estudian la ambigüedad.
La Teoría de Lógica Difusa inició con un documento en “conjuntos difusos”
34
publicado en un diario académico “Information and Control” en 1965 por el Profr. L.
A. Zadeh. En el documento el Profr. Zadeh nombra como conjuntos difusos aquellas
expresiones o palabras que no son claras como “conjunto de mujeres bellas”,
“conjunto de números grandes” o “conjunto de personas altas” Señaló que los
conjuntos difusos juegan un importante papel en el razonamiento humano para el
reconocimiento de patrones, que es la capacidad elemental, la comunicación de
semántica y especialmente la abstracción. Extendió su aseveración en una teoría
matemática (Tanaka, 1997).
2.3.6. Teoría de conjuntos difusos
La teoría de conjuntos difusos ha encontrado su mayor aplicación en los campos del
reconocimiento de patrones y el procesamiento de imágenes. Modelos para realizar
reconocimiento de patrones han sido publicados presentando varias contribuciones
empezando desde conceptos hasta la aplicación de modelos difusos para la solución
de problemas de la vida real (Zheru, Hong & Tuan, 1996).
2.3.6.1. Conjuntos ordinarios y difusos
Padhy (2005) describe un conjunto ordinario como una colección de elementos
diferentes, incluso puede contener otros conjuntos ordinarios llamándose de esta
forma, un superconjunto en la teoría convencional. Matemáticamente se puede
representar este subconjunto por medio de una función característica, donde el superconjunto a su vez representará el universo del discurso, si define los límites
35
( )Α xμ
( )Α xμ
dentro del cual todos los elementos residen.
“Un conjunto difuso es una colección de distintos elementos con una variación
en el grado de pertenencia o inclusión al conjunto” (Padhy, 2005).
En la teoría convencional un elemento cualquiera pertenece o no a un
conjunto. Considerando el conjunto A, el análisis de un elemento x usando la función
de pertenencia se expresa de la siguiente forma ecuación (7) (Padhy, 2005):
( )⎩⎨⎧
Α∉Α∈
=Α xx
x,0,1
μ (7)
Padhy (2005) apunta que en los conjuntos difusos se permiten expresar varios
grados de pertenencia al conjunto. La función de pertenencia denotada por
permite expresar todos los valores intermedios entre 0 y 1 y se indica entre
corchetes, esto es, todos los números dentro del intervalo [0,1]. Desde este intervalo,
la función contiene infinitos números e infinitos grados del miembro que son posibles.
En la siguiente ecuación la función miembro traza cada elemento del universo de
discurso X al intervalo [0,1] ecuación (8).
( ) ]1,0[:x →Α Xμ (8)
Padhy (2005) menciona que existen 2 formas de denotar los conjuntos
difusos. Si X es el universo del discurso; y x es un elemento en particular de X,
entonces un conjunto difuso A definido en X quizá sea escrito como una colección de
pares ordenados de la siguiente forma ecuación (9):
( )( ){ } Xxx ∈Α=Α Α ,,μ (9)
36
))(,( xx Αμ( )Α xμ
( )Α xμ
ii xx /)(Αμ
Donde cada par es llamado singleton y muestra a x seguida por
su miembro en A, . La función característica en la teoría convencional de
conjuntos sólo distingue entre pertenecer y no pertenecer al conjunto. Reformulando
el conjunto ordinario A como ecuación (10) (Padhy, 2005):
}{x=Α (10)
Donde sólo se incluyen los elementos con funciones características iguales a 1.
En los conjuntos ordinarios, un singleton es sólo el elemento x por sí mismo. En los
conjuntos difusos, un singleton está compuesto por 2 términos: x y
.. Se denota también como ecuación (11) (Padhy, 2005):
xx /)(Αμ (11)
Donde el símbolo ‘/’ es utilizado para separar la función miembro del elemento
x. Los singletons cuya membresía al conjunto sea 0 se pueden omitir. Por ejemplo,
un conjunto de enteros E definido sobre el universo de discurso de enteros positivos
quizá sea dado por la colección o unión de todos los singletons
como ecuación (12) (Padhy, 2005):
( ) ( ) ( ) ( ) ( )
( ) ( ) ( )}1.0,8,1.0,7,3.0,6,3.0,5,5.0,4,75.0,3,0.1,2,0.1,1{=Α (12)
Padhy (2005), define el conjunto difuso como ecuación (13):
∑∈
Α=Α
Xxii
i
xx /)(μ (13)
37
xx /)(Αμ
xx /)(Αμ
Una notación alternativa utilizada más frecuentemente representa un conjunto
difuso como la unión de todos los singletons, ver ecuación (14) (Padhy,
2005):
iiXxxx
i
/)(Α∈∪=Α μ (14)
Con esta notación el ejemplo de los números enteros puede representarse
como sigue, ver ecuación (15) (Padhy, 2005):
8/)8(7/)7(6/)6(5/)5(4/)4(3/)3(2/)2(1/)1(
ΑΑΑ
ΑΑΑΑΑ+++
++++=Αμμμ
μμμμμ (15)
8/1.07/1.06/3.05/3.04/5.03/75.02/0.11/0.1 +++++++=
Para un universo continuo del discurso, se denota como en la ecuación (16)
(Padhy, 2005):
∫ Α=Αx
xx /)(μ (16)
donde, la integral representa la unión de todos
singletons. La diferencia entre los conjuntos ordinarios y los conjuntos
difusos radica en la función de pertenencia, para los conjuntos ordinarios es total o
nula, mientras que para los conjuntos difusos admiten pertenencia parcial (Padhy,
2005).
38
2.3.6.2. Operaciones de los conjuntos difusos
Padhy (2005) apunta que cuando se involucran en la descripción de incertidumbre de
un problema dado dos o más conjuntos difusos, la solución analítica casi siempre
requiere de operaciones entre estos conjuntos. Algunas de las operaciones tales
como intersección y unión son definidas por los operadores min (∧) y max (∨),
utilizados para seleccionar el mínimo y máximo, respectivamente, de dos elementos.
Siendo similares al producto (⋅) y la suma (+) en álgebra.
Por ejemplo 3 ∧ 4 = 3 y 3 ∨ 4 = 4 ó min(3,4)=3 y max(3,4)=4 (Padhy, 2005).
Padhy (2005), menciona que en general, el mínimo de elementos μ1 y μ2 es
denotado como en la ecuación (17):
( ) ( )2121 ,,,min μμμμ ∧ ó 21 μμ ∧ (17)
Un conjunto difuso vacío A≡○ (18)
si 0)( =Α xμ Xx∉∀ (19)
Un conjunto difuso normal 1)( =Α xμ (20)
Igualdad de conjuntos difusos A≡B
si )()( xx Bμμ =Α (21)
Unión de dos conjuntos difusos (operador lógico OR)
39
)()()( xxx Bμμμ ∨= ΑΒ∪Α (22)
Intersección de conjuntos difusos (operador lógico AND)
)()()( xxx Bμμμ ∧= ΑΒ∩Α (23)
Complemento de un conjunto difuso (Ā Negación)
)(1)( xx ΑΑ −= μμ (24)
Producto de dos conjuntos difusos
)()()( xxx Bμμμ ⋅= ΑΒ⋅Α (25)
Infinito de un conjunto difuso (VERY). Entre corchetes el conjunto difuso es
llamado dilatación o DIL (operación para representar el modificador lingüístico MORE
or LESS) (Padhy, 2005). Ver ecuación (26):
[ ]αα μμ )()( xx ΑΑ= (26)
Concentración de un conjunto difuso denotado como CON(A), ver ecuación
(27):
[ ]2)( )()( xxCON ΑΑ ≡ μμ (27)
Dilatación de un conjunto difuso denotado como DIL(A) en la siguiente
ecuación (28):
)()()( xxDIL ΑΑ ≡ μμ (28)
40
2.3.6.3. Propiedades de los conjuntos difusos
Las propiedades más importantes de los conjuntos difusos son (Masao, 2001):
Cardinalidad. Se refiere al número total de elementos en el conjunto. Ver
ecuación (29):
( ) ∑ Α=Αix
ixCard )(μ (29)
Altura. Se divide en normal cuando altura=1 y subnormal con altura < 1. Un
conjunto subnormal es un conjunto difuso que contiene sólo una parte de los
miembros y es generado en el proceso de razonamiento difuso basado en reglas.
Ver ecuación (30):
( ) )(max iix
xHeight Α=Α μ (30)
Convexidad. Ver ecuación (31):
[ ] { })(),(min)1( baba ΑΑΑ ≥−+ μμλλμ (31)
Para todo a, b ∉ X y 0 ≤ λ ≥ 1, esto es, el valor del miembro de cualquier
elemento dado en el intervalo [a,b] no debe ser menor que el valor del miembro de
cualquier punto final (Masao, 2001).
41
2.3.6.4. Medidas de Vaguedad (Fuzziness)
Padhy (2005) señala que estas medidas indican el grado de vaguedad de un
conjunto difuso dado. De Luca y Termini sugieren como una medida de vaguedad la
“entropía” de un conjunto difuso por ejemplo ver ecuación (32):
( ){ })(, xx Α=Α μ (32)
Es definido como en la ecuación (33) y (34):
( ) ( ) ( ) XxHHd ∈Α⊄+Α=Α , (33)
( ) [ ]∑=
ΑΑ ×Κ−=Αn
iii xxH
1)(ln)( μμ (34)
n= número de elementos de Ā
K= constante positiva
2.3.6.5. Relaciones difusas
Este tema se basa en la idea de establecer relaciones entre conjuntos difusos
resaltando las propiedades de las conexiones entre los elementos de un conjunto
difuso y otro (Padhy, 2005).
42
De igual forma (Padhy, 2005) nos comenta que cuando dos elementos
pertenecen a una relación R se les denomina pares ordenados denotado como (a,b)
∉R o aRb, siendo a el primer elemento y b el segundo. Las relaciones con dos, tres y
n elementos asociados son conocidas, respectivamente como relaciones binarias,
terciarias y n-arias. A su vez una asociación de n elementos en una relación n-aria es
llamada n-tupla, donde cada tupla está relacionada con un grado. Ver ecuación (35):
( ) ( )( ){ }yxyxR R ,,, μ= (35)
Donde cada par ordenado (x,y) pertenece al producto cartesiano de las X x Y.
Se puede reutilizar la notación para formar la unión de todas las singleton de X x Y,
ver ecuación (36):
( ) ( )jiXxYjyix
ji yxyxR ,/,),(∑
∉
= (36)
Producto cartesiano, ver la siguiente ecuación (37):
∫= XxY R yxyxR ),/(),(μ (37)
La misma notación se utiliza para cualquier n-aria relación difusa. Una forma
de representarlas es la matriz de pertenencia (de una n x m relación binaria difusa)
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
),()...,(),(
),()...,(),(
...),()...,(),(
21
22212
12111
nmRmRmR
nRRR
nRRR
yxyxyx
yxyxyx
yxyxyx
R
μμμ
μμμ
μμμ
(38)
43
A continuación se describen algunas relaciones especiales y su respectiva
matriz de pertenencia (Masao, 2001):
- Relación difusa de identidad R1, la diagonal principal de elementos es 1 y los
demás elementos 0.
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡=
100010001
R (39)
- Relación difusa universal RE todos los elementos de la matriz son 1’s
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
=
111...
1...111...11
R (40)
-Relación difusa nula R0 todos los elementos de la matriz son 0’s
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
=
000...
0...000...00
R (41)
La transpuesta de una matriz de pertenencia R es la inversa de la relación R,
denotada por R-1
44
),(),(1 yxxy RR μμ =− (42)
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
=−
),()...,(),(...
),()...,(),(),()...,(),(
21
22221
112111
nmRnRnR
mRRR
mRRR
yxyxyx
yxyxyxyxyxyx
R
μμμ
μμμμμμ
(43)
La transpuesta se obtiene haciendo los renglones de R las columnas de R-1 y
las columnas de R los renglones de R-1.
La inversa de una relación inversa es la relación original, así mismo para la
inversa de una matriz es la matriz original.
(R-1) -1=R (44)
45
2.3.7. Modelos difusos
Zheru, Hong & Tuan (1996), reconocen que existen varios modelos para resolver
problemas en reconocimiento de patrones y procesamiento de imágenes los más
populares son: el uso de funciones de pertenencia difusas, “clustering” difuso,
sistemas basados en reglas difusas, entropía difusa (medida de la vaguedad),
medida difusa e integral difusa. A groso modo se describen a continuación:
1. Funciones de pertenencia difusas: base de todo modelo difuso, capaz de
modelar la transición gradual de una región a otra en un modo sutil. Esto ha
sido aplicado para medir la vaguedad característica en el reconocimiento de
caracteres numéricos manuscritos. El uso directo de funciones de pertenencia
tiene como objetivo encontrar un realce eficaz para una imagen donde
diferentes tipos de funciones de pertenencia son utilizadas para reducir la
cantidad de iteraciones ejecutadas por una técnica de relajación y
proporcionan una mejor manera para manejar la incertidumbre del histograma
de la imagen.
2. “Clustering” difuso: Ha sido un método de solución dominante para un
patrón de clasificación de problemas. Sin embargo, existen sólo unos pocos
casos donde las diferencias entre los patrones son puros. Muchos problemas
que implican la clasificación analizando imágenes y visión por computadora,
han sido efectivamente resueltos usando técnicas de “clustering” difuso.
3. Emparejamiento de formas difuso: Muchos problemas de reconocimiento
de patrones pueden ser simplificados a un punto o tareas de emparejamiento
de patrones de línea. Los algoritmos difusos pueden manejar la ambigüedad y
características difusas de puntos ruidosos o patrones de línea.
46
4. Sistemas basados en reglas difusas: Este sistema es importante punto de
investigación de la Inteligencia Artificial. Se cree que nosotros como seres
humanos tomamos una percepción del mundo que nos rodea de una manera
cuadrada cuando en la vida real casi todo es incierto. Estos sistemas basados
en reglas encuentran su aplicación en varios campos incluyendo control, toma
de decisiones y reconocimiento de patrones. Consisten en un conjunto de
reglas IF-THEN que junto con una máquina de inferencia, un “fuzzifier” y un
“defuzzifier” forman un sistema basado en reglas de decisión. El papel que
desempeña un “fuzzifier” es trazar puntos en el espacio de entrada a
subconjuntos difusos aplicando funciones de pertenencia. El desempeño del
sistema depende las funciones elegidas, en particular, para sistemas
dedicados al procesamiento de imágenes y reconocimiento de patrones.
5. Entropía difusa: La entropía difusa o medida de vaguedad término
introducido por De Luca y Termini. Es una función para medir el grado de
vaguedad de un conjunto difuso, el cual está basado en la función de
Shannon. El modelo de entropía difusa ha sido aplicado para proveer una
medida cuantitativa de ambigüedad a los problemas de tono de grises del
realce de una imagen. La medida de la vaguedad basada en distancia métrica
es útil también en diagnósticos médicos como los síntomas de varias
enfermedades expresadas por pacientes superpuestos unos a otros.
6. Medida difusa e Integral difusa: Basada en la notación de la teoría de
conjuntos difusos, términos introducidos por Sugeno. La Integral difusa es un
tipo de operador de agregación de información.
47
2.3.8. Análisis por grupos (Cluster analysis)
De acuerdo con (Jain & Dubes, 1988) el Análisis por grupos es el proceso de
clasificar objetos dentro de subconjuntos que tienen un significado en el contexto de
un problema en particular y en donde los objetos están organizados en una
representación eficiente que caracteriza la población muestra. En el campo del
reconocimiento de patrones e inteligencia artificial a esto se le llama “aprendizaje no
supervisado”.
Jain & Dubes (1988) nos dicen que el Análisis por grupos organiza datos
abstrayendo una profunda estructura como un grupo de individuos o como una
jerarquía de grupos, sirve como herramienta para explorar la estructura de los datos
que no requieren suposiciones comunes a la mayoría de los métodos estadísticos.
Su objetivo no es establecer reglas que separen los futuros datos en categorías, sino
simplemente encontrar una válida y conveniente organización de ellos.
También, es el estudio formal de algoritmos y métodos para el agrupamiento o
clasificación de objetos, donde un objeto es descrito por un conjunto de medidas o
por las relaciones entre los objetos con otros objetos. Existen algoritmos de
agrupamiento encaminados a encontrar una estructura en los datos; agrupan
objetos, artículos de datos, basados en índices de proximidad entre los pares de
objetos. Los objetos mismos han sido llamados individuos, casos, temas y UTOs
(Unidades Taxonómicas Operacionales) (Jain & Dubes, 1988).
Jain & Dubes (1988), mencionan que otras definiciones lo describen como un
conjunto de entidades las cuales se parecen y entidades de diferentes grupos
(clusters) que no se parecen o descritos como regiones conectadas de un espacio
multi-dimensional que contiene relativamente una alta densidad de puntos,
separados de otras regiones por una región, que contiene relativamente una baja
48
densidad de puntos. Esta última definición supone que los objetos a ser agrupados
están representados como puntos en el espacio a medir. Es difícil definir un grupo
(cluster) ya que los objetos pueden ser agrupados en grupos pero con diferentes
propósitos. Los datos pueden revelar grupos de diferentes “figuras” y “tamaños”.
Además, la pertenencia al grupo puede cambiar con el tiempo, como es el caso con
los grupos de estrellas en la que el número de grupos depende de la resolución con
la que se ven los datos. En la Figura 3 se muestra un ejemplo donde se perciben
cuatro grupos a nivel local o nivel alto de similitud. En cambio, en un nivel bajo se
perciben doce grupos. El problema al identificar los grupos radica en especificar cuál
es la proximidad y cómo medirla.
Figura 3 Grupos o Clusters de patrones de puntos en dos dimensiones (Jain &
Dubes, 1988, p. 2).
49
En un ejemplo más real considerar el problema de agrupar todos los colegios
y universidades. Pueden ser agrupados basándose en su localización geográfica,
cantidad de estudiantes, tamaño del campus o las ofertas de varios programas de
graduados. Los factores dependen del objetivo del análisis. Las figuras y tamaños de
los grupos formados dependerán del atributo en particular utilizado para definir la
similitud entre los colegios. Se generan interesantes y estimulantes problemas si se
toman varios atributos juntos para construir los grupos. Un grupo podría representar
colegios privados de la zona oeste principalmente dedicados a las artes con menos
de 1000 estudiantes y otro grupo puede representar a todas las universidades del
estado. Las características o atributos mencionados distan mucho de ser medidos.
¿Qué hay de los atributos como calidad de la educación, calidad de la facultad y de
la vida del campus los cuales no pueden ser medidos fácilmente? Se puede hacer un
sondeo entre los alumnos o con un panel de expertos para obtener de cualquiera una
marcación numérica (en una escala del 1 al 10) para estos factores o medidas de
similitud para todos los pares de universidades. Estos marcadores o similitudes
deberán ser promediados entre todos los que respondieron porque las opiniones
individuales son diferentes.
El ejemplo ilustra la diferencia entre la toma de decisiones y el agrupamiento.
50
2.3.9. Agrupamiento o clustering
El clustering es un tipo especial de clasificación. En la Figura 4 se muestran en un
árbol los tipos de clasificación del clustering (Jain & Dubes, 1988).
Figura 4 Árbol con los tipos de clasificación del agrupamiento o clustering (Jain &
Dubes, 1988, p. 56)
51
Estos tipos de clasificación son definidos por Jain & Dubes (1988) de la siguiente
manera:
Exclusiva vs. no-exclusiva. La clasificación exclusiva consiste en una partición del
conjunto de objetos, donde cada uno pertenece a exactamente un subconjunto o
grupo (cluster). Por el contrario, la clasificación no-exclusiva o superpuesta, permite
asignar un objeto a varias clases. Por ejemplo, una agrupación de personas por edad
o sexo es exclusiva, mientras que si se agrupa por tipos de enfermedad es no-
exclusiva porque una persona puede tener una o más enfermedades al mismo
tiempo. El agrupamiento difuso pertenece a un tipo de clasificación no-exclusiva en la
cual a un patrón se le asigna un grado de pertenencia a cada grupo formado en una
partición.
Intrínseca vs. extrínseca. La clasificación intrínseca utiliza sólo una matriz de
proximidad para realizar la clasificación, en el reconocimiento de patrones es llamada
“aprendizaje no supervisado” porque no utiliza etiquetas denotando una partición
anterior de los objetos. La clasificación extrínseca sí utiliza etiquetas en los objetos
así como la matriz de proximidad. El problema con estas clasificaciones consiste en
establecer un punto discriminante que separe los objetos de acuerdo a la categoría.
En otras palabras, un clasificador extrínseco depende de “un maestro”, mientras que
un clasificador intrínseco tiene sólo la matriz de proximidad.
Un camino para evaluar una clasificación intrínseca es verificar cómo el grupo
de etiquetas, asignado a los objetos durante la agrupación, coincide con la categoría
de etiquetas, asignado a priori. Por ejemplo, suponiendo que diversos índices de
salud personal fueron reunidos de fumadores y no fumadores. Una clasificación
intrínseca agruparía a los individuos basada en las similitudes entre los índices de
salud y entonces trata de determinar si fumar fue un factor en la propensión de los
individuos hacia diversas enfermedades. Una clasificación extrínseca trataría de
estudiar formas de discriminar fumadores de no fumadores basada en índices de
salud.
52
La clasificación intrínseca es la esencia del análisis por grupos (cluster analysis).
Jerárquica vs. particional. Las clasificaciones exclusiva e intrínseca son
subdivididas dentro de clasificaciones jerárquica y particional por el tipo de estructura
impuesta en los datos. Una clasificación jerárquica es una secuencia anidada de
particiones, la particional es una partición individual. El término agrupamiento
(clustering) se utiliza para una exclusiva e intrínseca clasificación particional; el
término agrupamiento jerárquico (hierarchical clustering) para una exclusiva e
intrínseca clasificación jerárquica.
Diversos algoritmos pueden ser propuestos para expresar la misma exclusiva
clasificación intrínseca. A continuación se explican las principales opciones
algorítmicas de uso común (Jain & Dubes, 1988).
1. Aglomerativa vs. divisiva. Una aglomerativa clasificación jerárquica sitúa cada
objeto en su propio grupo y gradualmente une estos grupos atómicos dentro de
grupos más largos hasta que todos los objetos están en un solo grupo (cluster). Una
divisiva clasificación jerárquica revierte el proceso iniciando con todos los objetos en
un grupo y subdividiéndolos en pequeñas piezas. Así esta opción corresponde a un
procedimiento de elección en lugar de un tipo diferente de clasificación. Una partición
individual puede ser establecida pegando juntos pequeños grupos (aglomerativa) o
fragmentando a un único grupo (divisiva).
2. Serial vs. simultánea. Procedimientos seriales manejan patrones uno por uno,
mientras que la clasificación simultánea trabaja con el conjunto entero de patrones al
mismo tiempo.
3. Monotético vs. politético. Esta opción es más aplicable a problemas en
taxonomía, donde los objetos a ser agrupados son representados como patrones o
puntos en un espacio. Un algoritmo de agrupamiento monotético utiliza las
53
características una por una, un procedimiento politético utiliza todas las
características a la vez. Por ejemplo, una característica diferente se puede utilizar
para formar cada partición en una clasificación jerárquica bajo un algoritmo
monotético.
4. Teoría de grafos vs. álgebra de matrices. ¿Cuál es el formalismo matemático
apropiado para expresar un algoritmo de agrupamiento? Algunos algoritmos se
expresan en términos de Teoría de Grafos, usando propiedades tales como
conectividad y exhaustividad para definir clasificaciones y otros algoritmos se
expresan en términos de construcciones algebraicas, tales como la cuadrática media
de error. La elección dependerá de la claridad, conveniencia y elección personal.
2.3.9.1. Agrupamiento jerárquico (Hierarchical Clustering)
Jain & Dubes (1988), mencionan que este método es un procedimiento para
transformar una matriz de proximidad en una secuencia de particiones anidadas. Un
algoritmo de agrupamiento jerárquico es la especificación de pasos para transformar
un agrupamiento jerárquico. Esto a menudo es conveniente para caracterizar un
método de agrupamiento jerárquico escribiendo un algoritmo, pero el algoritmo debe
ser separado del método mismo. Además, para definir algoritmos y métodos, se
define el tipo de estructura matemática impuesta a un agrupamiento jerárquico de
datos y se describen formas de ver la estructura (Jain & Dubes, 1988).
La notación de secuencia de particiones anidadas:
Los n objetos a ser agrupados son denotados por el conjunto de X .
donde xi es el iésimo objeto. Una partición, C, de X divide a X en subconjuntos {C1,
C2,..., Cm} reuniendo lo siguiente, ver ecuación (45) y (46):
54
Ci ∩ Cj= Φ para i y j de 1 a m, i ≠ j (45)
C1 ∪ C2 ∪...� Cm = X (46)
En la notación, “∩” a favor de establecer una intersección, “∪” a favor de
establecer una unión y Φ es el conjunto vacío. Un agrupamiento es una partición; los
componentes de la partición son llamados grupos (clusters). La partición B está
anidada en la partición C si cada componente de B es un subconjunto de un
componente de C .
Esto es, C está formado por la fusión de componentes de B . Por ejemplo, si el
agrupamiento C con 3 grupos y el agrupamiento B con 5 grupos son definidos como
sigue, entonces B está anidado en C . Ambos C y B son agrupamientos del
conjunto de objetos {x1, x2,..., x10}. Ver ecuación (47) y (48):
C = {(x1, x3, x5, x7), (x2, x4, x6, x8), (x9, x10)} (47)
B = {(x1, x3), (x5, x7), (x2), (x4, x6, x8), (x9, x10)} (48)
Ni B ni C está anidada en la siguiente partición, ni la partición está anidada en
C o B . Ver ecuación (49):
{(x1, x2, x3, x4), (x5, x6, x7, x8), (x9, x10)} (49)
55
Un agrupamiento jerárquico es una secuencia de particiones en el cual cada
partición está anidada en la siguiente partición en la secuencia. Un algoritmo
aglomerativo para el agrupamiento jerárquico inicia con la agrupación disjunta, la
cual sitúa cada uno de los n objetos en un grupo individual. El algoritmo de
agrupamiento utilizado dicta cómo la matriz de proximidad debería ser interpretada
para unir 2 o más de estos grupos, así anidando el agrupamiento trivial en una
segunda partición. El proceso se repite para formar una secuencia de agrupamientos
anidado en el que el número de grupos disminuye a medida que avanza la secuencia
hasta que siga siendo un solo grupo que contenga todos los objetos n, llamado el
conjunto de agrupaciones. Un algoritmo divisivo transforma la tarea en el orden
inverso.
Una foto del agrupamiento jerárquico es más fácil de comprender que una lista
de símbolos abstractos. Un dendrograma es un tipo especial de estructura de árbol
que ofrece un panorama del agrupamiento jerárquico, consiste en capas de nodos,
cada una representando un grupo. Líneas conectan nodos representando grupos los
cuales están anidados dentro de otros. Un dendrograma de corte horizontal crea una
agrupación o clustering. La Figura 5 muestra un ejemplo de un dendrograma (Jain &
Dubes, 1988).
Figura 5 Ejemplo de dendrograma (Jain & Dubes, 1988, p. 59).
56
El nivel, o el valor de proximidad, a una agrupación que está formada también
pueden registrarse. Si los objetos son representados como patrones, o puntos en un
espacio, los centros de los grupos pueden ser importantes, tanto como los
diferenciales de los grupos. Dos métodos específicos de agrupamiento jerárquico son
el vínculo único y el enlace completo. Las secuencias de agrupamientos creados por
estos métodos dependen de las proximidades sólo a través de su orden de rango.
Así primero se asume una escala ordinal para las proximidades y se utiliza la Teoría
de Grafos para expresar los algoritmos. Los métodos jerárquicos de vínculo único y
enlace completo no están limitados a datos ordinales.
2.3.9.2. Algoritmos de vínculo único y enlace completo de la Teoría de Grafos
Jain & Dubes (1988), nos explican que inicia con una matriz de proximidad n x n D=
[d(i, j)]. Las n(n-1)/2 entradas en uno de los lados de la diagonal principal se supone
que contienen una permutación de enteros de 1 a n(n-1)/2 sin vínculos. Esto es, las
proximidades son en una escala ordinal. Se toman las proximidades a ser
disimilares; d(1,2) > d(1,3) significa que los objetos 1 a 3 se parecen más que los
objetos 1 y 2. Ver la matriz de proximidad en la Figura 6.
D1=
Figura 6 Matriz de proximidad n= 5 (Jain & Dubes, 1988, p. 60)
57
Un grafo threshold es un grafo no dirigido y no ponderado con n nodos sin
ciclos libres o múltiples aristas. Cada nodo representa un objeto. Un grafo threshold
G(v) está definido por cada nivel de disimilitud insertando una arista (i, j) entre los
nodos i y j si los objetos i y j son menos disímiles que v. Ver ecuación (50):
Esto es, (i, j) ∈ G(v) si y solo si d(i, j) ≤ v (50)
Asumiendo que d(i, j)=0 para toda i. Así G(v) define una relación binaria para
cualquier número real v que sea reflexivo y simétrico. Una relación binaria es un
subconjunto del producto del conjunto X x X , donde X es el conjunto de los objetos.
Objetos xi y xj están “relacionados” si sus disimilitudes están por debajo del threshold
(umbral) v.
A continuación en la Figura 7 se muestra la relación binaria resultado de la
matriz de proximidad D1 por encima de un umbral (threshold) de 5. El símbolo “*” en
la posición (i, j) de la matriz significa que el par (xi, xj) pertenece a la relación binaria.
Figura 7 Relación Binaria y umbral gráfico de 5 (Jain & Dubes, 1988, p. 61).
Algoritmos simples para los métodos de agrupamiento vínculo único y enlace
completo basados en grafos threshold deberían ayudar a conceptualizar el camino
en el cual las dos jerarquías son formadas y pueden fácilmente ser aplicadas a
pequeños problemas. Ambos algoritmos asumen una matriz de disimilitud que
58
contengan entradas no vinculadas y produzca una secuencia anidada de
agrupamientos que pueden ser tomados en un dendrograma.
2.3.9.3. Algoritmo aglomerativo para un agrupamiento de vínculo único Paso 1. Inicia con el agrupamiento disjunto implícito por el grafo threshold G(0), el
cual no contiene bordes y sitúa cada objeto en un único grupo, como el agrupamiento
actual. Conjunto k ← 1
Paso 2. Formar un grafo threshold G (k).
Si el número de componentes (subgrafos máximos conectados) en G (k) es
menor que el número de clusters en el agrupamiento actual, redefinir el
agrupamiento actual nombrando cada componente de G (k) como un grupo (cluster).
Paso 3. Si G(k) consiste de un único grafo conectado, detenerse. Si no, establecer k
← k + 1 e ir al paso 2.
2.3.9.4. Algoritmo aglomerativo para un agrupamiento de enlace completo Paso 1. Inicia con un agrupamiento disjunto implícito por un grafo threshold G(0), el
cual no contiene bordes y sitúa cada objeto en un único grupo, como el agrupamiento
actual. Conjunto k ← 1
59
Paso 2. Formar un grafo threshold G (k).
Si dos de los grupos actuales forman una pandilla (subgrafos máximos
completos) en G (k), redefinir el agrupamiento actual mediante la fusión de estos dos
grupos en un solo.
Paso 3. Si k = n(n – 1)/2, a fin de que G (k) sea el grafo completo en los n nodos,
detenerse. Si no, establecer k ← k + 1 e ir al paso 2.
Estos algoritmos pueden ser extendidos a matrices disimilares en intervalos de
radio y escalas tanto, como las entradas no estén vinculadas. Ver a G (k) como el
grafo threshold que contiene bordes correspondientes a las k más pequeñas
disimilitudes.
Un dendrograma threshold registra los agrupamientos en el orden en el cual
son formados, independientemente del nivel de disimilitud en el que los
agrupamientos primero aparezcan.
Un dendrograma de proximidad lista los niveles de disimilitud en el que cada
agrupamiento forma y, en efecto, es una transformación no lineal de la escala
utilizada con un dendrograma threshold. Un agrupamiento de vínculo único en G (v)
es definido en términos de subgrafos conectados en G(v); el agrupamiento de enlace
completo utiliza subgrafos completos. Sin embargo, no todos los subgrafos máximos
completos en un grafo threshold necesitan ser grupos de enlace completo. El orden
en el cual los grupos son formados es crucial.
En la Figura 8 se presentan los agrupamientos jerárquicos de vínculo único y
enlace completo para la matriz de proximidad D1 . Los primeros 7 grafos threshold en
la secuencia de 10 se muestran con nodos etiquetados a fin de que el nodo j denote
xj. Toda la jerarquía del vínculo único está definida por los primeros 4 grafos
threshold.
60
Figura 8 Umbral gráfico y dendrogramas para agrupamiento jerárquico de vínculo
único y enlace completo (Jain & Dubes, 1988, p. 62).
Sin embargo, los primeros 7 grafos threshold son necesarios para determinar la
jerarquía del enlace completo. Una vez que los 2 grupos del agrupamiento de enlace
completo han sido obtenidos, no se necesitan dibujar más grafos threshold porque
los 2 grupos serán fusionados en el agrupamiento conjunto solo cuando todos n(n-
1)/2 bordes han sido insertados. El ejemplo demuestra la importancia en la jerarquía.
Objetos {( x2, x5, x4)} forman una pandilla, o un subgrafo máximo completo, en el
grafo threshold G(5), pero los 3 objetos no son un grupo de enlace completo. Una
vez que los grupos de enlace completo {x2, x3} y {x1, x4} han sido establecidos, el
objeto x5 debe fusionarse con uno de los 2 grupos establecidos, una vez formados,
los grupos no pueden disolverse ni superponerse. Los dendrogramas por sí mismos
son dibujados con cada agrupamiento mostrado en un nivel aparte, aunque por
61
ejemplo, el agrupamiento de vínculo único de 2 grupos se obtiene de G (3) y el
agrupamiento de enlace completo de 2 grupos se obtiene de G (7).
La interpretación del dendrograma no está bajo consideración pero en la figura
anterior da lugar a una pregunta acerca del objeto x5 . Pertenece al grupo {x2, x3} o
al grupo {x1, x4}? Otro caso puede hacerse por llamar a {x2, x4, x5} un grupo. Quizá
una estructura jerárquica no es apropiada para esta matriz de proximidad.
Hubert (1974) provee los siguientes algoritmos para generar agrupamientos
jerárquicos por los métodos de vínculo único y enlace completo. Cuando la matriz de
proximidad no contiene vínculos, los agrupamientos están numerados 0,1..., (n – 1)
y el agrupamiento matemático, Cm, contiene n – m grupos.
2.3.10. Métodos de agrupamiento basados en la Teoría de Grafos
Las sentencias de los algoritmos de vínculo único y enlace completo en la Teoría de
Grafos sugieren que las propiedades de conectividad y finalización pueden ser
utilizadas para definir métodos de agrupamiento. La idea es ver la secuencia de los
grafos threshold o los grafos de proximidad por la apariencia de la propiedad
adecuada. Hubert (1974) sugiere la siguiente expresión de algoritmos que definen
métodos de agrupamiento jerárquico. Vínculos en las proximidades pueden afectar
los agrupamientos en formas inesperadas, así que se asume que no hay vínculos en
la matriz de proximidad.
Nuevos algoritmos de agrupamiento jerárquico se forman cambiando el paso 2
en el algoritmo de vínculo único y enlace completo de la Teoría de Grafos. La función
Qp(k) es definido como sigue para todos los pares de grupos { Cmr, Cmt } en el
agrupamiento { Cm1,…, Cm(n – m) }
62
Qp(k) (r, t) = min { d(i,j) : el subgrafo máximo de G[d(i, j)] definidos por
Cmr ∪ Cmt conectado y cualquiera tiene la propiedad p(k) o está completo}
Siguiendo el algoritmo Cmp y Cmq son fusionados para formar el siguiente
agrupamiento en la secuencia si, ver ecuación (51):
Qp(k) (p, q) = min { Qp(k) (r, t) } (51)
Algunos ejemplos de la propiedad p se muestran a continuación. El entero k
es un parámetro, por ejemplo, p(k) podría significar una conexión de nodos k o un
grado de nodos k.
Conectividad de Nodos. Los nodos de un subgrafo conectado es el número más
largo nc tal que todos los pares de nodos están unidos por al menos nc caminos sin
tener nodos en común.
Conectividad de bordes. De un subgrafo conectado es el entero más largo ne tal
que todos los pares de nodos están unidos por al menos ne caminos sin tener nodos
en común.
Grado de nodos. El grado de un subgrafo conectado es el entero más largo nd tal
que cada nodo tiene al menos nd bordes incidentes.
Diámetro. El diámetro de un subgrafo conectado es la máxima “distancia” entre dos
nodos en el subgrafo. La distancia entre dos nodos es el número de bordes en el
camino más corto uniéndolos.
Radio. El radio de un nodo conectado es el entero más pequeño nr tal que al menos
un nodo está dentro de la distancia nr de todos los otros nodos en el subgrafo.
Jain & Dubes (1988), encontraron que especificando el parámetro k la
propiedad p se define un nuevo método de agrupamiento. Cada grupo debe al
63
menos estar conectado. Una vez que todos los bordes han sido insertados dentro del
subgrafo, está completo y otras propiedades pueden aplicarse. Por ejemplo, una
conectividad de k nodos implica una conectividad de k bordes, pero a la inversa no
es verdad. De forma similar, una conectividad de k bordes implica un grado mínimo
de k, pero a la inversa no se mantiene. Una razón fascinante debe aparecer antes de
que uno de estos métodos sea utilizado en lugar del vínculo único, el enlace
completo u otro SAHN algoritmo.
A continuación se demuestran métodos de agrupamiento jerárquico definidos
por propiedades de grafos. En la Figura 9 se muestra una matriz de proximidad
ordinal está dada con 8 objetos.
Figura 9 Matriz de proximidad con 8 objetos (Jain & Dubes, 1988, p. 87)
En la Figura 10 y 10a se muestran ejemplos de dendrogramas de la Teoría de
Grafos: (a) grafo threshold G(13) para una matriz de proximidad; (b) vínculo único; (c)
enlace completo; (d) 2 nodos conectados; (c) 2 bordes conectados; (f) 2 grados; (g) 2
diámetros; (h) 2 radios.
64
Figura10 Matriz de proximidad, vínculo único, enlace completo y 2 nodos conectados
(Jain & Dubes, 1988, p. 88)
Figura 10a Grados, diámetros y radios (Jain & Dubes, 1988, p. 89)
65
2.3.11. Agrupamiento particional
Técnicas de agrupamiento jerárquico organizan los datos dentro de secuencias de
grupos anidadas. Una característica importante de estos métodos es el impacto
visual del dendrograma, el cual posibilita el análisis de datos para ver cómo los
objetos están siendo fusionados dentro de grupos o divididos en sucesivos niveles de
proximidad. El análisis de datos puede tratar de decidir entonces si todo el
dendrograma describe los datos puede seleccionar un agrupamiento, a un nivel fijo
de proximidad (Jain & Dubes, 1988).
Los métodos de agrupamiento no jerárquico son referidos como métodos de
agrupamiento particional. Generan una sola partición de los datos en un intento por
recuperar grupos naturales presentes en los datos. Ambas estrategias de
agrupamiento tienen sus propios dominios de aplicaciones (Jain & Dubes, 1988).
Jain & Dubes (1988), mencionan que los métodos jerárquicos generalmente
requieren sólo de una matriz de proximidad entre los objetos, mientras que técnicas
de partición esperan los datos en la forma de una matriz de patrones. Generalmente
se asume que las características han sido medidas en una escala de radio.
Las técnicas jerárquicas son populares en ciencias biológicas, sociales y de la
conducta por la necesidad de construir taxonomías. Las técnicas particionales son
utilizadas frecuentemente en aplicaciones de ingeniería donde particiones
individuales son importantes. Los métodos de agrupamiento particional son
especialmente apropiados para la eficiente representación y comprensión de grandes
bases de datos. Los dendrogramas son poco prácticos con poco más de 100
patrones (Jain & Dubes, 1988).
66
2.3.11.1. Algoritmo de agrupamiento del vecino más cercano
Paso 1. Establecer i ← 1 y k ← 1
Paso 2. Establecer i ← i + 1. Encontrar al vecino más cercano de xi de entre los
patrones ya asignados a grupos. Dejar dm denotar la distancia de xi a su vecino más
cercano. Suponer que el vecino más cercano es un grupo está en el grupo m.
Paso 3. Si dm ≤ t entonces se asigna xi a Cm . De otra forma, establecer k ← k + 1 y
asignar xi al nuevo grupo Ck
Paso 4. Si cada patrón ha sido asignado a un grupo, detenerse. Si no, ir al paso 2.
2.3.11.2. Algoritmo de agrupamiento de vecindario mutuo Paso 1. Determinar los k vecinos cercanos de cada patrón
Paso 2. Computar el Valor Mutuo de Vecindario (VMV) para cada par de patrones. Si
los patrones xi y xj no son vecinos mutuos para un valor dado de k, establecer VMV
(xj, xj) a un número arbitrariamente largo.
Paso 3. Identificar todos los pares de patrones con VMV de 2. Fusionar cada par
dentro de un grupo, iniciando con el par que tenga la distancia más pequeña.
Repetir el paso 3 para thresholds VMV de 3,4,…, 2k para generar una jerarquía.
67
El parámetro k controla la profundidad del vecindario siendo esencial para el
desarrollo del algoritmo. Valores pequeños de k dan varios grupos “fuertes” valores
largos de k dan pocos grupos “débiles”. De hecho, k puede ser siempre
suficientemente largo para hacer al algoritmo devolver un solo grupo. Se demostró
que el algoritmo es capaz de identificar grupos con poblaciones desiguales.
2.3.12. Algoritmos de agrupamiento difuso
En términos técnicos, agrupamiento difuso puede ser descrito como el problema de
determinar el conjunto difuso al que pertenece el punto de datos k en el grupo i. El
número total de punto de datos puede ser denotado por n, y una a principalmente
especifica el número de grupos que pueden ser denotados por c (Hamerly & Elkan,
2002).
Los algoritmos de agrupamiento descritos asignan cada patrón a un solo
grupo. Los patrones son divididos dentro de conjuntos disjuntos; patrones en grupo
se supone que son más parecidos unos con otros que los patrones que están en
grupos diferentes. Si están separados no hay incertidumbre o ambigüedad asociada
con la asignación de cada patrón a un grupo. En la Figura 11 se aprecia la diferencia
entre un grupo con límites bien definidos y otro donde la asignación de patrones a los
grupos se dificulta (Jain & Dubes, 1988).
68
Figura 11 Grupos o clusters con límites (a) bien definidos y (b) sin definir (Jain &
Dubes, 1988, p. 130).
Jain & Dubes (1988), explica que la teoría de conjuntos difusos desarrollada
por Zadeh (1965) expresa que un objeto pertenece a un grupo a través de un grado
de pertenencia, este grado toma valores entre 0 y 1. De esta forma 1 indica que el
patrón u objeto pertenece al grupo y el 0 que no. Con grupos difusos, el patrón tiene
un grado de pertenencia denotado por ƒq(xi) ≥ 0, o denotado por el q-ésimo grupo
donde, ver ecuación (52):
(52)
A continuación se muestran los pasos en un algoritmo de agrupamiento difuso
particional.
1)( =∑ iqq
xf
69
Algoritmo de Agrupamiento Difuso Particional
Paso 1. Seleccionar una partición inicial { }1=kk KC
Repetir pasos del 2 al 4 hasta que las pertenencias al grupo se estabilicen.
Paso 2. Computar las funciones de pertenencia { })( jCk xf
Paso 3. Computar la función de criterio fΦ
Paso 4. Reclasificar patrones para mejorarlos fΦ
La salida de un algoritmo difuso sólo incluye una partición pero también
información en forma de valores de pertenencia que debe ser interpretada por el
analizador de datos. Se puede interpretar también que el grado de pertenencia mide
la compatibilidad de un patrón o un objeto con la descripción de un conjunto difuso
(Jain & Dubes, 1988).
Las técnicas difusas imponen una estructura particular en los datos y el
propósito del análisis por grupos es revelar dicha estructura o “patrón” en largas
cantidades de datos numéricos. Se debe enfatizar que la diferencia entre un
algoritmo y un método de agrupamiento radica en que el algoritmo es un modo
particular de implementar el método (Jain & Dubes, 1988).
70
2.3.12.1. Fuzzy K-means
Una tarea importante en el reconocimiento de patrones y las máquinas de
aprendizaje es el agrupamiento de datos (data clustering), algoritmos difusos como el
K-means (Fuzzy K-means, sus siglas FKM) permiten manejar datos espaciales
donde su objetivo es encontrar agrupamientos naturales en los datos, partiéndolos
en conjuntos k, llamados centros y ubicando cada uno de ellos al centro de los datos,
para los cuales se considera como su centro más cercano. Ver ecuación (53)
(Hamerly & Elkan, 2002).
(53)
Donde:
uij = grupo de datos χi
cj = centro
r ≥ 1 entre más grande es r más difuso es
El algoritmo FKM, llamado también C-means, es una adaptación donde a
diferencia de su antecesor K-means en el cual cada dato pertenece sólo a un grupo y
se identifica como 1 en la matriz de pertenencia u, éste permite que cada punto de
datos pertenezca parcialmente a más de un grupo. Otra diferencia con su antecesor
radica en la forma de actualizar los centroides o grupos (Yen & Langari, 1999).
71
La pertenencia de los datos a cada centroide se calcula utilizando la siguiente
ecuación
(54)
Una vez que se calcula los grados de pertenencia de cada valor de la matriz de
datos a cada centroide, se debe actualizar el valor de los centroides, para lo que se
aplica la siguiente ecuación (55) (Yen & Langari, 1999):
(55)
Existe otra variante del algoritmo FKM llamado K-harmonic means o por sus
siglas KHM con un método similar al K-means estándar donde la función objetivo
utiliza la distancia media armónica de cada punto de datos, arrojando un puntaje
menor cuando éstos se aproximan a un centro, función propia del FHM. Este
algoritmo muestra superioridad al encontrar agrupamientos de mejor calidad, sin
embargo, junto con el FKM son considerados dentro de los mejores al utilizar
métodos de partición aleatorios para encontrar mejores agrupamientos o clusterings
(Hamerly & Elkan, 2002)..
72
2.3.13. Sistemas de Información Geográfica (SIG)
Un Sistema de Información Geográfica (SIG) es un programa informático que permite
gestionar y analizar principalmente datos espaciales. Una de las características
principales de los SIG es que permiten trabajar con mapas, llevando a cabo el
análisis espacial, utilizando los datos espaciales y sus atributos almacenados en el
mismo sistema, permitiendo obtener nuevos mapas de una única fuente de datos. La
aplicación de los SIG depende de cualquier proceso que requiera información
espacial, ejemplos de su utilización son en gestión catastral y de propiedad urbana,
el medio ambiente, planificación urbana y el control de grandes redes como:
telecomunicaciones, gas, agua, electricidad, etc. Aunque su uso se ha extendido al
manejo de negocios, arqueología, análisis histórico, epidemiología y criminología; es
decir, cualquier campo científico, técnico o empresarial en el que se trabaje con
datos espaciales (Ordóñes & Martínez-Alegría, 2003).
El manejo de un SIG es muy sencillo lo que ocasiona que usuarios sin
conocimientos sobre los datos geográficos y funciones de análisis que incluye el
sistema, generen resultados aparentemente correctos pero con nulo valor científico o
técnico. Dentro de los SIG el más utilizado es el sistema IDRISI32 debido a la
variedad de funciones que incluye para análisis de problemas relacionados con el
medio ambiente (Ordóñes & Martínez-Alegría, 2003).
Un SIG está compuesto por módulos que realizan diferentes operaciones y para
ser considerados SIG deben cumplir con ciertos componentes y capacidades
mínimas. Los componentes esenciales son: una base de datos para almacenar los
datos geográficos y sus atributos, un sistema gestor de base de datos, un sistema de
representación cartográfica y un sistema de análisis espacial; otros incluyen un
sistema de tratamiento de imágenes y de análisis estadístico. Todos estos
73
componentes son más completos y avanzados en unos sistemas que en otros, se
describen a groso modo a continuación (Ordóñes & Martínez-Alegría, 2003).
a) Bases de datos espacial o temática: es donde se almacenan de forma
estructurada, los objetos cartográficos (su posición, tamaño y forma) y sus
características no geométricas (atributos), respectivamente. Por ejemplo, un mapa
parcelario (forma y situación de parcelas) estaría en una base de datos geográfica y
la información del propietario, tipo de uso y otros, estaría en la base de datos
temática (Ordóñes & Martínez-Alegría, 2003).
b) Sistema Gestor de Bases de Datos (DBMS): considerado como un software
utilizado para manejar y analizar los datos almacenados en la base. De estos
sistemas se pueden almacenar datos en tablas, establecer relaciones entre ellos y
crear nuevas tablas con los resultados obtenidos, mismos que se pueden relacionar
con la base de datos espacial y representar mapas temáticos (Ordóñes & Martínez-
Alegría, 2003).
c) Sistema de digitalización de mapas: los datos que conforman la base de
datos del SIG son mapas, fotografías o imágenes que para ser cargados en la base
de datos del SIG es necesario convertirlos en formato digital con programas de
digitalización y de conversión de formatos (Ordóñes & Martínez-Alegría, 2003).
d) Sistema de representación cartográfica: permite dibujar mapas a partir de
los elementos seleccionados de las bases de datos, hacer distintas composiciones
cartográficas así como enviar estos mapas a los dispositivos de salida, como
impresoras o plotters. Los mapas son los medios más utilizados para representar los
resultados de los análisis realizados en un SIG (Ordóñes & Martínez-Alegría, 2003).
74
En conclusión un SIG permite colectar, almacenar, actualizar, modificar,
analizar y mostrar o presentar de manera eficiente información geo-referenciada.
2.3.14. Imágenes
Desde el principio de la ciencia, la observación visual ha jugado un rol principal, la
única manera en que se documentaban los resultados de un experimento era por
descripción verbal y dibujos manuales. El siguiente paso fue la invención de la
fotografía lo cual permitió que los resultados fueran documentados objetivamente
(Jähne, 2001).
Tres prominentes ejemplos de aplicaciones científicas de la fotografía son la
astronomía, fotogrametría, y partículas físicas. Los astrónomos fueron capaces de
medir las posiciones y magnitudes de las estrellas; y los fotógramos produjeron
mapas topográficos desde imágenes de antena. La búsqueda a través de incontables
imágenes desde cámaras de burbujas de hidrógeno llevó al descubrimiento de
muchas partículas elementales en física. Estos procedimientos de evaluación
manual, consumían tiempo. Sin embargo, fueron adaptados a un propósito en
específico porque la evaluación cuantitativa de imágenes no encontró muy difundida
la aplicación en aquel tiempo. Generalmente, las imágenes fueron sólo utilizadas
para documentación, descripción cualitativa e ilustración del fenómeno observado
(Jähne, 2001).
Alrededor del año 2002, se dio una segunda revolución alumbrada por el rápido
progreso en video y tecnología computacional. Las computadoras personales y
estaciones de trabajo se volvieron lo suficientemente poderosas para procesar
imágenes de datos. Como resultado, el software multimedia y el hardware se
75
volvieron un estándar para el manejo de imágenes, secuencias de imagen e incluso
visualización en tercera dimensión (3D). La tecnología está ahora disponible a
cualquier científico o ingeniero. En consecuencia, el procesamiento de imágenes se
ha expandido y ha pasado de aplicaciones especializadas a herramientas científicas
estándar. Las técnicas de procesamiento son aplicadas virtualmente a todas las
ciencias naturales y disciplinas técnicas (Jähne, 2001).
Según Jähne (2001), un ejemplo simple claramente demuestra el poder de la
información visual. Suponer que se tuvo la tarea de escribir un artículo acerca de un
nuevo sistema técnico, por ejemplo un nuevo tipo de planta solar. Podría tomar un
gran esfuerzo describir el sistema si no pudiera incluir las imágenes y dibujos
técnicos. El lector tendría una experiencia frustrante, gastaría mucho tiempo tratando
de adivinar cómo trabaja la nueva planta de poder solar y quizá termine con una
imagen equivocada o limitada de cómo es.
Jähne (2001) menciona que los dibujos técnicos y fotografías de la planta solar
serían de gran ayuda para los lectores del artículo ya que inmediatamente tendrían la
idea de la planta y podrían estudiar detalles en los dibujos y fotografías las cuales no
fueron descritas en el texto, pero captaron su atención. Información visual provee
más detalles, un hecho que se puede resumir en el dicho “una imagen vale más que
mil palabras”. Otra observación de interés. Si el lector después escucha de la nueva
planta podría fácilmente recordar cómo es y asociar instantáneamente el objeto
“planta solar” con una imagen.
76
2.3.14.1. Descripción y procesamiento de Imágenes satelitales
Con el avance de la ciencia obtener información en algunos campos de la
investigación, en la actualidad, no requiere la presencia física del hombre. La
invención y uso de satélites en la aplicación de procesos permite que sea una tarea
sencilla y los resultados sean instantáneos (Rodríguez y Arredondo, 2005).
El proceso para obtener una imagen satelital se puede comparar con imágenes
fotográficas, porque la técnica es conocida. La obtención de una fotografía se basa
en la impresión de un objeto sobre una película sensible a la luz con el apoyo de un
sistema óptico para control de condiciones de exposición. Necesita la existencia de
una fuente de energía externa para que tenga buena calidad, usualmente el sol.
Entre el objeto y la cámara está la atmósfera, a mayor distancia entre ambos menor
claridad o nitidez, para lo cual ya se cuenta con los elementos más importantes de un
sistema de teledetección: objeto, fuente de energía, sensor, plataforma, sistema de
transmisión-recepción y como usuario en el caso de los sensores remotos se
sustituye la cámara por el término sensor el cual detecta la reflexión de luz solar e
incluso el calor y hasta puede generar su propio haz de energía. Se conoce como
sensor remoto al arte de obtener información acerca de un objeto, área o fenómeno a
través del análisis de datos proporcionados por sensores que no están en contacto
directo con ellos (Rodríguez y Arredondo, 2005).
77
2.3.15. La Teledetección
Mencionan Rodríguez y Arredondo (2005), que la teledetección es una de las
técnicas mejor desarrolladas para facilitar la comprensión acerca de las propiedades
y comportamiento de la naturaleza. Esta técnica ha mejorado de forma progresiva,
iniciando con fotografías aéreas desde un globo (1859), desde un avión (1909) y en
la Segunda Guerra Mundial se desarrollan las cámaras de reconocimiento; asimismo
sensores como el radar y los sistemas de comunicación aplicados en la exploración y
control de los recursos naturales. Exploraciones del planeta inician en 1957 con el
lanzamiento del satélite soviético Sputnik, posteriormente en 1960 la NASA lleva a
cabo misiones de observación meteorológica poniendo en órbita el satélite TYRUS.
Con el interés de la comunidad científica en este ámbito, en Julio de 1972 se dispone
del Landsat primer satélite de la serie ERTS (Earth Resources Technology Satellite),
luego siguieron otra serie de proyectos como SPOT de origen francés, MOS1,
MODIS (Resolución Moderada de Imágenes Espectroradiométricas), entre otros.
Rodríguez y Arredondo (2005), encontraron que la teledetección es un conjunto
de conocimientos y técnicas utilizados para determinar características físicas y
biológicas de objetos a través de datos adquiridos por un sensor que no está en
contacto directo con el objeto de investigación; los sensores remotos pueden captar
la radiación electromagnética reflejada o emitida por la superficie de la tierra, usan
mediciones del espectro electromagnético con el fin de caracterizar el paisaje. Con el
tiempo se ha logrado ampliar el rango de obtención de información, de esta forma se
encuentran sensores de tipo térmico (obtienen la temperatura terresrtre) y medidores
de microondas (lectura de humedad local).
Rodríguez y Arredondo (2005), nos dicen que la teledetección espacial se
puede definir como la técnica que permite adquirir imágenes de la superficie terrestre
78
desde sensores instalados en plataformas espaciales, la adquisición resultado de
una interacción energética entre la tierra y el sensor remoto ya sea por reflexión de la
energía solar o un haz de energía artificial y la recepción transmitida a la tierra para
su aplicación.
Los sensores permiten distinguir escalas de observación local y global,
proporcionan información de la superficie de la tierra, vegetación, altimetría y uso de
la tierra, que combinado con mapas digitales del suelo incluso permiten obtener
estimaciones de la capacidad de almacenamiento en un sistema de presa. El
incremento de sensores genera una gran cantidad de información valiosa, porque su
aplicación es diversa (Rodríguez y Arredondo, 2005).
Rodríguez y Arredondo (2005), nos explican que se encuentran sensores en los
satélites Landsat para adquirir imágenes; el MSS (escáner multiespectral o
multiespectral scanner) que ofrece información sobre cuatro bandas del espectro, el
TM (mapeo termático o thermatic mapper) que ofrece 7 bandas del espectro y el
satélite francés SPOT que permite dos modalidades de observación: multibanda de 3
canales con resolución de 20x20m y pancromático con una resolución de 10x10m.
Las plataformas geoestacionarias localizadas a 36000 Km. de la tierra proporcionan
una imagen completa del planeta.
Rodríguez y Arredondo (2005), además mencionan que los sistemas de
teledetección espacial están constituidos por:
1. Fuente de energía. Creador de energía detectado por el sensor puede ser un
actor externo (teledetección pasiva) o emitida por el propio sensor
(teledetección activa). El sol es la más importante fuente de energía.
79
2. Cubierta terrestre. Formada por vegetación, agua, construcciones o suelo que
reflejan energía generada por la fuente, dependiente de sus características
propias.
3. Sistema sensor. Compuesto por el sensor y la plataforma que lo conforma.
Capta la energía procedente de la cubierta terrestre y la envía a la base de
recepción.
4. Sistema de recepción. Es donde se recibe la información del sensor y se
graba en un formato adecuado y posteriormente se distribuye a los usuarios.
5. Intérprete. Encargado de analizar la información, en forma de imágenes
satelitales determinando su temática.
6. Usuario final. Encargado de analizar el documento resultado de la
interpretación de resultados.
En cualquier sistema de teledetección deben existir un sensor, objeto y flujo
energético, responsable este último de la interacción entre los objetos. La forma de
adquirir información puede ser por reflexión, por emisión y por emisión-reflexión. El
flujo energético entre la cubierta terrestre y el sensor remoto constituye una forma de
radiación electromagnética, este fenómeno interactúa en los procesos de
teledetección, científicamente el fenómeno se ha descrito desde dos teorías
contrapuestas una, determinada como un haz ondulatorio, y la otra concebida como
una sucesión de unidades discretas de energía con masa igual a cero, las dos
teorías se complementan gracias a que la luz se comporta de acuerdo a ambos
planteamientos (Rodríguez y Arredondo, 2005).
Según la física, la energía electromagnética se transmite de un lugar a otro con
la trayectoria de un modelo armónico, a la velocidad de la luz y conteniendo dos
80
campos de fuerzas ortogonales entre sí que son eléctricos y magnéticos (Rodríguez
y Arredondo, 2005).
Aplicaciones de la teledetección que mencionan (Rodríguez y Arredondo, 2005)
son, entre otras:
1. Estudio de erosión de playas y arenales
2. Cartografía geológica para explosión petrolífera
3. Cartografía de nuevos depósitos volcánicos
4. Control de movimiento de Iceberg en zonas polares
5. Inventarios del agua superficial
6. Verificar la salinidad en corrientes de agua
7. Cartografía de la cobertura vegetal del suelo
8. Rápida evaluación de condiciones de estrés en la vegetación, por efectos de
la sequía o erosión.
9. Control de pastizales
10. Cartografía e inventario de cultivos por especies
Rodríguez y Arredondo (2005), concluyen que los países desarrollados adquieren
información digital de los satélites, la cual es interpretada por Sistemas de
Información Geográfica (SIG) diseñados para su procesamiento mediante una
modelación. Estos sistemas permiten solucionar y manejar problemas de mayor
complejidad y con eficiencia es por esto que se han convertido de vital importancia
para el análisis, planeamiento y administración de los recursos naturales.
81
2.3.16. La enfermedad
También conocido como trancazo, el dengue es una infección causada por un virus
de la familia Flaviviridae que con base a criterios clínicos, biológicos, inmunológicos y
moleculares ha sido agrupado en 4 serotipos distintos (Denv-1, Denv-2, Denv-3 y
Denv-4). El Dengue es transmitido de una persona enferma a una susceptible a
través de la picadura de mosquitos hematófagos conocidos como Aedes aegypti,
principalmente, aunque también existe otro vector que es el A. albopictus. Originario
probablemente del Continente Africano, al mosquito Aedes aegypti, se le conocen
tres variantes principales. A. aegypti var. Tipo, A. aegypti ssp. formosus y A. aegypti
var. queenslandensis; de las cuales la variante tipo A es la más distribuida en el
mundo, en trópicos y zonas subtropicales aunque tiene una preferencia doméstica en
su ciclo de vida también se le encuentra en zonas rurales (CONAVE y SSA, 2007).
CONAVE y SSA (2007), demostraron que se distribuye en forma permanente
entre los 35° de latitud norte y 35° de latitud sur pero puede extenderse hasta los 45°
norte y hasta los 40° sur, donde coinciden con una sotermia de 10 °C en verano, la
altitud promedio en donde se encuentra es por debajo de los 1,200 metros, aunque
se ha registrado alturas de alrededor de los 2,400 metros sobre el nivel del mar en
África. En América la mayor altitud registrada corresponde a Colombia, con 2,200
metros y en México se encuentra registrado hasta los 1,700 metros.
Sus condiciones mínimas de sobrevivencia y su resistencia a diferentes
eventos adversos, como la desecación y la inanición, lo hace un mosquito de
presencia muy común y continua, así como de elevadas densidades poblacionales
durante las épocas lluviosas con temperatura y humedad estables (CONAVE y SSA,
2007).
82
En la mayor parte del territorio nacional se ha detectado la circulación de tres
serotipos de los ya mencionados que aumentan el riesgo de presentación de formas
hemorrágicas. A continuación se presentan en la Tabla 1 los porcentajes de los
serotipos circulantes en México y en la Tabla 2 su distribución geográfica (CONAVE
y SSA, 2007).
TABLA 1
PORCENTAJE DE SEROTIPOS CIRCULANTES EN MÉXICO (CONAVE y
SSA, 2007).
AÑO DENV-1 DENV-2 DENV-3 DENV-4
1997 6.5 1.6 88.3 3.6
1998 5 2 93 -
1999 3 13.4 81.7 1.
2000 0.7 55.2 44.1 -
2001 - 75 25 -
2002 0.7 65.6 33.7 -
2003 81.43 17.14 1.43
2004 5.26 84.21 6.77 3.76
2005 14 77 8 1
2006 53 8 27 12
83
TABLA 2
SEROTIPOS CIRCULANTES EN MÉXICO
1997 – 2006 (CONAVE y SSA, 2007).
AÑO DENV-1 DENV-2 DENV-3 DENV-4
1997 Campeche Coahuila,
Michoacán, Morelia,
SLP, Tamaulipas y
Veracruz.
Camp, Coah, Col,
Chis, Gro,
Jal, Hgo, Nay, NL,
Mor,
Oax, Pue, Q. Roo
SLP,
Tamps, Ver y Yuc.
Camp, Nay y
Tamps.
1998 Tamaulipas
Tamaulipas
Hgo, Mor, N.L. Oax,
SLP, Tamps y Ver.
1999 Coah, NL, Pue, Son
y Tamps. Coah, Chis, Mor,
Oax y Tamps. Coah, Chis, Hgo,
Jal, Mor, NL, Pue,
SLP, Son, Tamps y
Ver.
Hgo, Tamps y Ver.
2000 NL Camp, Chis, Oax,
Tab, Tamps y Ver. Camp,Chis, Mex,
Pue, Son, Tab,
Tamps y Ver.
2001 Camp, Chis, Gro,
Mor, Oax, Pue, Sin,
Ver y Yuc.
Chis, Mex, Mich,
Pue y Sin.
2002 Yuc. Camp, Chis, Gro,
Hgo, Jal, Mich, Mor,
Nay, NL, Oax, Sin,
Son, Tab, Tamps,
Ver y Yuc.
Chis, Hgo, Mor,
Mich, Oax, Sin, Son,
Tab y Ver.
2003 B.C.S. Camp. Dgo,
Hgo. Mor. Nay. N.L.
Oax. Pue. Sin. Son.
Tab. y Ver.
B.C.S., Mor, Oax,
Sin, Son y Tab. Sonora
2004 Chis y Oax. Camp, Col. Chis,
Gro, Hgo, Jal, Méx.
Mich, Mor, NL, Oax,
Q.Roo, S.L.P. Sin,
Tab, Tamps, y Ver.
Nay., Oax., Q.Roo y
Ver. Camp. Chis. Oax.
Son y Tab.
84
2005 Cam, Col, Chis, Gro,
Mor, Oax, Q. Roo,
SLP, Tamps y Yuc.
Cam, Coah, Hgo,
Mex, Nay, NL, Pue,
Sin, Tab, Ver, Col,
Chis, Gro, Mor, Oax,
Q. Roo, SLP, Tamps
y Yuc.
Chis, NL, Oax, Q.
Roo, Sin, Tab y Ver. Col, Chis y Oax.
2006 Camp, Col, Chis,
DF, Gro, Jal, Mor,
Nay, Oax, Pue,
Queret, Q. Roo,
SLP, Sin, Son, Tab,
Ver y Yuc
Col, Gro, Hgo, Mich,
Mor, Oax, Pue, SLP,
Tab, Ver y Yuc.
Col, DF, Mor, Nay,
Oax, Pue, Q. Roo,
Ver y Yuc.
Camp, Col, Q.Roo,
Son y Tab.
85
Según (CONAVE y SSA, 2007) los estados en México con mayor tasa promedio de
casos de Fiebre Hemorrágica por Dengue del año 2000 al 2006 fueron: Colima con
23.16 casos por 100 mil habitantes, seguido en orden decreciente por los estados de
Baja California Sur (14.02), Quintana Roo (10.51), Guerrero (10.04), Tamaulipas
(8.58) y Veracruz (8.02). Siendo el grupo más afectado de 10 a 14 años de edad, con
36.3% del total de casos, seguido por el de 15 a 19 (34.2%) y por el de 25 a 44 años
(33.3%). Estos datos se presentan en la Figura 12.
Figura 12 Estados con mayor incidencia de Fiebre Hemorrágica por Dengue,
2000-2006 (CONAVE y SSA, 2007).
86
Las instituciones del sistema local involucradas en la atención y notificación de
casos de fiebre por dengue y fiebre hemorrágica por dengue se muestran en la
Figura13 con el porcentaje respectivo de notificación de casos del año 2000 al 2006
(CONAVE y SSA, 2007).
Casos de FHD por fuente de notificación, 2000-2006
Figura 13 Casos de FHD por fuente de notificación, 2000-2006 (CONAVE y
SSA, 2007).
Espinoza (2002), menciona que la enfermedad se transmite de una persona a
otra por medio de la picadura del mosquito Aedes aegypti, presentando fiebre, dolor
de hueso o hemorragias y causando incluso, la muerte. Es de importancia saber que
la propagación del virus del dengue a nivel mundial, se favorece por factores como el
crecimiento demográfico, la insuficiencia de agua, viviendas en estado deficiente,
descuido de sitios públicos, el mal manejo de desechos e incremento de botellas de
plástico y otros recipientes como llantas, así como deficiencias en la higiene o
saneamiento ambiental.
87
CAPÍTULO 3. Desarrollo
3.1. Modelo de proceso de Software
Pressman (1998), menciona que un modelo de proceso o también llamado
paradigma de ingeniería de software, es aquél que un equipo de trabajo toma como
estrategia para ayudar a resolver conflictos reales en una empresa, se selecciona de
acuerdo a las características del proyecto y la aplicación a desarrollar. Para
Pressman (1988) el desarrollo del software se divide en 4 partes:
1. Status quo: estado actual de eventos
2. Definición de problemas: identificación del problema en específico a resolver
3. Desarrollo técnico: aplicar alguna tecnología para resolver el problema
4. Integración de soluciones: resultados
3.1.1. Modelo de construcción de prototipos
Existen varios modelos de proceso de software como: modelo lineal secuencial
también llamado modelo en cascada, modelos de construcción de prototipos,
modelos de Desarrollo Rápido de Aplicaciones (DRA), modelos evolutivos, métodos
formales, entro otros. Para el desarrollo del SIDAIS se ha considerado el modelo de
construcción de prototipos ya que de acuerdo con Pressman (1998) “el responsable
del desarrollo del software puede no estar seguro de la eficacia de un algoritmo, de la
capacidad de adaptación de un sistema operativo, o de la forma en que debería
88
tomarse la interacción hombre-máquina. En éstas y en otras muchas situaciones, un
paradigma de construcción de prototipos puede ofrecer el mejor enfoque” (p. 24).
El modelo consiste en definir de manera general los objetivos con los que debe
cumplir el sistema, realizar un diseño rápido y construir un prototipo, el cual será
utilizado y evaluado encontrando detalles a refinar hasta completar todos los
requisitos.
3.2. Modelo conceptual
El procesamiento de imágenes satelitales se basa primordialmente, en la aplicación
de un algoritmo difuso realizado en el lenguaje de programación Python, el cual abre
una imagen en formato .TIF (Tagged Image File, por sus siglas en inglés), la
segmenta por patrón de color, identifica -de acuerdo al patrón- vegetación, cuerpos
de agua o ambos; y finalmente devuelve como resultado de la segmentación una
imagen en formato .JPEG (Joint Photographic Experts Group, por sus siglas en
inglés). A continuación se describe su funcionamiento:
Al ejecutar el algoritmo difuso, primero se carga una imagen satelital de un área del
Estado de Colima, de la que se desea saber la probabilidad que existe, de que el
mosquito causante del dengue pueda reproducirse ahí. El formato de extensión de la
imagen es .TIF, como se menciona anteriormente. Ver Figura 14.
89
Figura 14 Cargar la imagen a procesar.
El algoritmo difuso, primeramente recorre la imagen para obtener la cantidad de
pixeles que en total la componen, así como definir su tamaño (altura y ancho), como
se muestra en la Figura 15.
Figura 15 Tamaño de la imagen satelital.
Utilizando una tabla de falso color para su mejor visualización, se asigna la
probabilidad de que el mosquito causante del dengue pueda reproducirse. Para llevar
a cabo la segmentación por patrón de color, se definen los colores por los que se
deben sustituir los colores verde y azul que son: amarillo y morado. El rojo se
recuerda es para cuando se encuentran juntos ambos. Ver Figura 16.
Figura 16 Patrones de color.
90
De esta manera el algoritmo utilizando reglas difusas, recorre la imagen completa,
pixel por pixel, comparando y agrupando por patrón de color. Este proceso se
muestra en la Figura 17. Si encuentra un pixel verde o un rango de verde, lo colorea
de amarillo lo que significa que ha encontrado vegetación. Si encuentra un pixel azul
o un rango de azul, lo colorea de morado indicando que ha encontrado cuerpos de
agua. Continuando con el proceso, si encuentra un pixel verde seguido de un azul los
colorea de rojo, indicando la presencia de vegetación y cuerpos de agua juntos.
Segmenta la imagen completamente hasta terminar. Ver Figura 17.
Figura 17 Segmentar imagen.
La imagen resultado de la segmentación, como se menciona con anterioridad, se
guarda en formato .JPEG (Joint Photographic Experts Group, por sus siglas en
inglés) y puede contener segmentos amarillos y/o morados, así como de color rojo.
Ver Figura 18.
91
Figura 18 Guardar resultado de la segmentación.
Cabe mencionar que la temperatura está definida como una constante de 28°, de
acuerdo a la temperatura que prevalece en nuestro estado la mayor parte del año.
A groso modo, el sistema con la información obtenida determinará las zonas que son
propicias para la reproducción del mosquito Aedes aegypti y posteriormente se
puede llevar a cabo un análisis acerca de la mejora en la toma de decisiones para la
prevención y control de esta plaga. El sistema en conjunto se muestra a
continuación. Ver Figura 19.
Figura 19 Modelo conceptual (Figura del planeta obtenida en Mayo de 2008 de
http://www.periodicoelpulso.com/images/abr06/debate/planeta.jpg.)
92
3.2.1. Interface del front-end
En este punto se detallan las ventanas de navegación así como los elementos a
través de las cuales el usuario podrá interactuar con el sistema.
El menú del sistema consta de los siguientes elementos u opciones a los cuales el
usuario puede ingresar y se encuentran siempre visibles:
Menú principal
- Botón Capturar imagen: permite obtener una imagen digital desde el disco duro,
esto es, la imagen se obtiene originalmente del sistema Google Earth se guarda con
formato JPEG para posteriormente cargarse al SIDAIS con esta opción del menú.
• Botón Segmentar imagen: una vez que se ha cargado la imagen el sistema
podrá clasificarla o segmentarla coloreando en verde las zonas con
vegetación y azul los cuerpos de agua existente en dicha imagen.
• Botón Guardar: permite guardar la imagen una vez que el sistema la
segmenta.
- Botón Introducir clima: una vez que la imagen fue clasificada se introducen los
parámetros del clima residente en la zona a la cual pertenece la imagen. Estos
parámetros son temperatura, precipitaciones, vientos, humedad y presión
atmosférica; todos ellos propios de un clima tropical.
• Botón Guardar: permite guardar los parámetros en la base de datos
Parametros.mdb (Access).
93
• Botón Cerrar: cierra la ventana activa.
- Analizar imagen: en este punto se compara la imagen determinando si pertenece
la zona a un clima propicio para el desarrollo del mosquito causante del dengue
hemorrágico.
• Botón Iniciar: realiza el proceso de comparación y devuelve un porcentaje de
riesgo en una ventana de mensaje.
- Resguardo: esta opción permite abrir o desplegar los datos de la base datos que
se encuentra en formato Access, con campos iniciales como fecha de captura o
fecha en que se lleva a cabo el procesamiento de la imagen, así como los
parámetros del clima presentes al momento y nombre de la imagen (zona o
municipio al que pertenece).
- Acerca de: contiene breve descripción del objetivo del sistema y versión.
- Salir: cierra la sesión en el sistema.
A continuación la Figura 20 muestra el diagrama de navegación de ventanas del
SIDAIS descrito con anterioridad.
94
Figura 20 Diagrama de navegación de ventanas del SIDAIS
3.2.2. Entorno de comunicación
Se utilizará una laptop para la ejecución del programa, obtención y resguardo de la
imagen procesada con las siguientes características:
Modelo: HP Pavilion dv2125
Procesador: Intel Core Duo
Disco Duro: 120 GB DD
Memoria RAM: 1 GB
Protocolo de comunicación: TCP-IP
Iniciar Análisis
95
3.2.3. Interface del back-end
El desarrollo del algoritmo difuso se realizará en Python 2.5, que a continuación a
groso modo se describe: es un lenguaje de programación fácil de aprender, además
de que maneja eficientes estructuras de datos tiene una extensa librería desde la que
podemos utilizar varias funciones, como por ejemplo la librería Python Image Library
(PIL) PIL-1.1.7.win32-py2.5, que se utiliza para la manipulación de imágenes; cuenta
también con una serie de módulos escritos en el mismo lenguaje o en lenguaje de
programación #C. Módulos de interfaces propios de Python o para sistemas
operativos específicos, como Unix. Módulos útiles para el desarrollo de aplicaciones
específicas como la WWW (World Wide Web). Python en su versión 2.5, posee una
licencia de código abierto; denominada Python Software Foundation License y nos
permite utilizarlo de forma gratuita; asimismo los enlaces a sus herramientas y a la
documentación, que se encuentran disponibles en su sitio web.
En resumen, se ha elegido el lenguaje de programación Python porque:
1. Es de Libre Uso,
2. Código simple y legible,
3. Cantidad de información y
4. Recursos económicos del programador y usuario.
Para el desarrollo de la interfaz del sistema se ha elegido el lenguaje de
programación Visual Basic 6.0, siendo posible en lo futuro ejecutar el algoritmo
desarrollado en Python desde Visual Basic a través de la ventana de comandos
MS-DOS. A continuación se listan otros aspectos que se consideraron para elegir
este lenguaje:
1. Experiencia
96
2. Aplicación
3. Interfaz
4. Cantidad de información y
5. Recursos económicos del programador y usuario
Gracias también a su facilidad de uso en el desarrollo de aplicaciones del entorno
Windows comúnmente conocido y el acceso a información almacenada en bases de
datos como Access.
3.2.4. Estructura de datos
En este punto, es importante resaltar que la estructura de datos se ha contemplado
implementarla como trabajo a futuro. El sistema consta, para almacenar o resguardar
la información resultado del análisis de la imagen, de una base de datos en Access
(.mdb). La base consta de los siguientes campos:
Id: Autonumérico
fecha: Almacena la fecha actual en la cual se procesa la imagen
Tipo: fecha (date)
hora: Almacena la hora en que se procesa la imagen
Tipo: Tiempo (Time)
nom_img: Almacena el nombre de la imagen
Tipo: Texto
temp: Almacena la temperatura
97
Tipo: numérico
hum: Almacena la humedad
Tipo: Numérico
precip: Almacena la cantidad de precipitaciones en la zona
Tipo: numérico
presatm: Almacena el dato de la presión atmosférica (medida en milibares)
Tipo. Numérico
viento: Almacena el tipo de viento
Tipo: Texto
observa: Almacena cualquier observación acerca del proceso o la imagen
Tipo: Memo
analisis: Almacena el resultado del análisis
Tipo: Memo
3.3. Diseño del Sistema
El diseño del sistema se compone de 4 módulos: Capturar imagen, Segmentar
imagen, Introducir clima y Resguardo, los cuales son ejecutados por medio de
eventos click con el ratón.
Módulo capturar imagen: Carga imagen a procesar desde el cual se puede hacer
un llamado al módulo Segmentar.
98
Módulo Segmentar imagen: Puede ser llamado dentro de Capturar imagen y su
propósito es segmentar la imagen para ubicar cuerpos de agua y vegetación de la
zona en la imagen a procesar.
Módulo Introducir clima: Puede ser llamado después de Segmentar una imagen.
Permite introducir variables del clima predominante en la zona de la imagen ya
procesada.
Módulo Resguardo: Permite desplegar los datos almacenados de cada imagen
procesada.
3.3.1 Arquitectura del sistema
La Arquitectura del sistema consta de una descripción del diseño y su contenido, así
como también de información del hardware y software que contiene, y si fuese
necesario información de la capacidad de la red.
Diagrama de casos de uso: descripción de las acciones del sistema desde el punto
de vista del usuario. El diagrama descrito se muestra en la Figura 21.
99
Figura 21 Diagrama de Casos de Uso
A continuación se muestra el diagrama de actividades, el cual describe la interacción
entre el usuario y el sistema, describiendo las actividades que realizan. Ver diagrama
en la Figura 22.
100
Figura 22 Diagrama de actividades
Selección de una imagen
Carga imagen seleccionada
Selección de Segmentar imagen
Carga imagen segmentada
Selección guardar imagen segmentada
Guarda imagen segmentada
Captura parámetros del clima
Validación de parámetros
Selección guardar parámetros Guarda parámetros
Selección Análisis de imagen
Desplegar resultado del análisis
Selección iniciar análisis
Inicia análisis
Selección Resguardo
Desplegar base de datos
101
3.3.2 Diseño de Interfaces
El diseño de interfaces se realizó con el programa de edición de imágenes Adobe
Photoshop 7.0.
Se consideró un diseño de menú simple ya que la mayor dificultad se encuentra
en el proceso interno que realiza el sistema para llevar a cabo la segmentación de la
imagen.
La navegación entre ventanas es sencilla ya que podría ser de mayor utilidad
para personas con perfil médico.
Las interfaces integran el sistema con un menú principal el cual contiene los
siguientes botones: Capturar imagen, Análisis, Resguardo, Acerca de… y Salir. Se
aplicaron degradados en color verde y blanco, así como la colocación de una imagen
del planeta tierra tomada de Periódico el Pulso (Obtenida en Mayo de 2008 de
http://www.periodicoelpulso.com/images/abr06/debate/planeta.jpg.)
102
SIDAIS
Sistema Difuso para el Análisis de Imágenes Satelitales
Diseño Menú Principal
Figura 23 Diseño Menú Principal
103
SIDAIS
Sistema Difuso para el Análisis de Imágenes Satelitales
Diseño Capturar imagen
Otra opción: Guardar y Segmentar imagen
Figura 24 Diseño Capturar Imagen
104
SIDAIS
Sistema Difuso para el Análisis de Imágenes Satelitales
Diseño Introducir clima, Resguardo y Salir
Figura 25 Diseño Introducir clima, Resguardo y Salir
105
SIDAIS
Sistema Difuso para el Análisis de Imágenes Satelitales
Diseño Acerca de
Figura 26 Diseño Acerca de
106
3.3.3. Diseño de la base de datos
Vista diseño y relaciones
Base de datos: resguardo.mdb
Tabla: Parametros
Figura 27 Vista diseño y relaciones de la base de datos
107
3.3.4. Especificación Formal
Pseudocódigo
Inicializar matriz de pertenencia (U)
iter = 0 ‘inicializa iteración
Repetir {Picard iteration}
iter = iter+1 ‘incrementa iteración
Calcular grupos o centroides iniciales (C)
Calcular distancia del dato al centro ||X-C||
U'=U
Actualizar matriz de pertenencia U
Hasta que ||U-U'|| <= tol_crit .or. iter = Max_iter
La matriz sea igual al total de criterios o la iteración llegue a su máximo
3.4. Implementación del Sistema
Es importante mencionar que para la implementación del sistema se debe integrar el
algoritmo, este proceso se llevará a cabo como trabajo a futuro. Sin embargo, a
continuación se describen las partes que han sido programadas y que serán parte
del sistema.
108
3.4.1. Programación de Módulos y Componentes
A continuación muestra un ejemplo del código por medio del cual se lleva a cabo el
registro de parámetros del clima en la base de datos llamada “Parametros” a través
del botón guardar en la ventana Introducir clima. Ver Figura 28.
Figura 28 Código del Módulo Resguardo
3.4.2. Implementación de Interfaces
A continuación se describe la implementación de todas las interfaces que componen
al sistema y que se encuentran desarrolladas en el lenguaje Visual Basic 6.
La ventana principal del SIDAIS compuesta por las siguientes herramientas del
Set Db = New ADODB.Connection 'Abre una nueva conexión Ado
Set Rs = New ADODB.Recordset 'Nuevo objeto recordset
Db.Open "Provider=Microsoft.Jet.OLEDB.4.0; Data Source=" & App.Path & "\resguardo2.mdb;Persist Security Info=False"
Rs.Open "Select * FROM Parametros", Db, adOpenStatic, adLockPessimistic
109
cuadro de herramientas: 8 botones de comando o CommandButton, una herramienta
Image y un cuadro CommonDialog, éste último es visible a través del cuadro de
mensaje que aparece para cargar y guardar la imagen. El botón Guardar y
Segmentar imagen son visibles una vez que se carga la imagen a procesar (botón
Capturar imagen). En estado de ejecución la herramienta “Image” muestra la imagen
a procesar, así como el resultado una vez que se Segmenta. También, se muestra
parte del código del botón Capturar imagen. La ventana descrita anteriormente se
muestra en la Figura 29.
Figura 29 Ventana Capturar Imagen
Herramienta Image
CommonDialog
CommandButton
110
La siguiente ventana se muestra cuando se da click en el botón Introducir clima,
compuesta por: 7 cuadros de texto o TextBox, 2 botones de comando o
CommandButton, un control DTPicker y una herramienta Timer para capturar la
fecha y hora en que se realiza el proceso, respectivamente. El botón Guardar
almacenará los datos del clima en la base de datos Parametros.mdb de Access. La
ventana descrita se muestra en la Figura 30.
Figura 30 Ventana Introducir clima
DTPicker
Timer
CommandButton
111
La ventana de Análisis se compone de 5 cajas de texto o TextBox para desplegar los
datos recientemente almacenados al ir al último registro a través del control Data y
un botón de comando o CommandButton para iniciar el análisis comparativo entre los
valores de referencia constantes y los capturados. Ver ventana en la Figura 31.
Figura 31 Ventana Análisis
CommandButton
TextBox
Control Data
112
La ventana Resguardo despliega la información contenida en la base de datos por
registro, se compone de un control Data para manipular los registros de la base de
datos, 10 cajas de texto o TextBox que muestran la información del registro actual,
una herramienta Image para visualizar la imagen que fue segmentada y un botón de
comando o CommandButton que se encuentra deshabilitado ya que su programación
se encuentra considerado como una de las opciones de mejora al sistema. Ver
Figura 32.
Figura 32 Ventana Resguardo
CommandButton
Herramienta Image
Control Data
113
La ventana Acerca de … proporciona información general del sistema, aparece al dar
click en el botón del mismo nombre, se compone de una imagen diseñada en
Photoshop 7.0. Ver Figura 33.
Figura 33 Ventana Acerca de
114
CAPÍTULO 4. Pruebas y resultados
Las pruebas de software tienen como principal objetivo descubrir errores o defectos
en el sistema probando cada uno de sus componentes individualmente. Los
componentes pueden ser funciones u objetos. Además, las pruebas del software
deben convencer y demostrar a los desarrolladores del sistema y a los clientes de
que éste satisface sus requerimientos; y, descubrir todos los defectos posibles en el
software donde el comportamiento es incorrecto, no deseable o no cumple su
especificación (caídas del sistema o cálculos incorrectos) (Sommerville, 2005).
4.1. Pruebas de integración
Sommerville (2005) nos explica que este tipo de pruebas implica construir el sistema
a partir de sus componentes y probarlo para encontrar problemas debido a esta
integración. Los componentes pueden ser comerciales, reutilizables o que han sido
adaptados; así como componentes nuevos. En el sistema SIDAIS se comprobó que
los componentes funcionan juntos, que son llamados correctamente y transfieren los
datos correctos a través de sus interfaces.
115
4.2. Pruebas de congruencia
Tiene congruencia entre las operaciones u opciones que deben realizarse,
primeramente se debe cargar una imagen del área que se desee segmentar, en el
formato TIF (Tagged Image File, por sus siglas en inglés) especificado así en el
propio algoritmo. Como ejemplo, se tomó información del sistema Google Earth
donde se muestra una parte de la Bahía de Manzanillo, Colima. La imagen se
encuentra en formato TIF con un peso de 975 Kb, una resolución de 72 dpi y con una
altitud de la toma satelital de 5 KM. Ver Figura 34.
Figura 34. Bahía de Manzanillo, Colima. Formato TIF (Google Earth, 2010)
El algoritmo inicia después, el barrido de la imagen a través de un conjunto de reglas
que descartan aquellos puntos que no cumplan con el patrón especificado, es decir,
debe colorear aquellos pixeles que pertenezcan al grupo de la vegetación y/o
cuerpos de agua. A continuación se muestra el resultado de la segmentación,
recordando que el color amarillo es para resaltar la vegetación, el morado para
116
cuerpos de agua y el rojo cuando se encuentran ambos. El proceso se realizó en 48
segundos. La imagen tiene un peso de 107 Kb y 72 dpi de resolución. Ver Figura 35.
Figura 35. Bahía de Manzanillo, Colima. Formato JPG. Segmentación por patrones
de color. (Google Earth, 2010)
Cabe mencionar que la imagen original se convirtió al formato .JPG (Joint
Photographic Experts Group), y su calidad bajo de forma notoria a 129 Kb, sin
embargo conserva los 72 dpi de resolución. Ver Figura 36.
Figura 36. Bahía de Manzanillo, Colima. Formato JPG. (Google Earth, 2010)
117
Al aplicar el algoritmo el resultado es una imagen prácticamente con el mismo peso
106 Kb y conservó la resolución de 72 dpi. El proceso se realizó en 41 segundos. Ver
Figura 37.
Figura 37. Bahía de Manzanillo, Colima. Formato JPG. Resultado de la aplicación del
algoritmo. (Google Earth, 2010)
4.3. Pruebas de usabilidad
Una de las definiciones más representativas acerca de la usabilidad es planteada por
J. Nielsen proponiendo un modelo donde la usabilidad se ve reflejada principalmente
en la aceptación de un sistema por los usuarios al satisfacer sus necesidades y
requerimientos. El modelo es a su vez dividido en 5 atributos: facilidad de uso,
eficiencia, facilidad para recordar su funcionamiento, baja tasa de errores y
satisfacción del usuario (Usability in the Software Life Cycle, 2000).
118
Para efecto del algoritmo SIDAIS, las pruebas se hicieron bajo el método del
Protocolo de Pensamiento Manifestado (Dumas y Redish, 1999), en el cual los
participantes de manera individual realizaron las tareas del procesamiento y análisis
de imágenes, durante la prueba comentaron verbalmente sus impresiones del
software y después anotaron sus comentarios en un cuestionario, mostrado en el
Anexo I.
4.4. Resultado de la prueba de usabilidad
Para probar la usabilidad del programa desarrollado en esta tesis, se llevaron a cabo
estudios basados en el método "Think Aloud Protocol" (Rubin, 2008), en el cual cada
participante prueba e interactúa con el programa y reporta sus impresiones con
respecto a la efectividad, eficiencia y satisfacción de uso.
Se hizo una invitación abierta, solicitando el apoyo voluntario, de un equipo
multidisciplinario de 4 profesionales -Trabajo Social, Ingeniería en Sistemas, Lenguas
Extranjeras y Cirujano Dentista- cada uno con conocimientos así como un medio de
desenvolvimiento diferentes y cuya edad oscila entre los 23 y 55 años, para evaluar
de manera independiente el algoritmo difuso del sistema SIDAIS, aplicando de
manera informal un formato diseñado con 5 preguntas. Al equipo se le explicó el
objetivo que persigue el algoritmo, así como la forma en qué funciona, se les
proporcionó una imagen satelital como ejemplo para que fuera procesada, se les
pidió prestar atención al tiempo en que se lleva a cabo el proceso y finalmente iniciar
su ejecución.
Cada uno contestó libremente anotando sus comentarios en el formato de
usabilidad (ver Anexo I). El resultado de la evaluación del algoritmo SIDAIS, después
de unificar criterios, es el siguiente:
119
1. Facilidad de uso. Sí cumple, ya que por el momento cuenta solamente con una
pantalla en la interacción con el usuario y no será necesario la búsqueda de opciones
de menú, etc.
2. Eficiencia. Sí cumple, ha demostrado que realiza la segmentación de una imagen
proveniente del sistema Google Earth en menos de 1 minuto (ver Tabla 3).
3. Facilidad para recordar su funcionamiento. Sí cumple, sólo es necesario
especificar el nombre de la imagen a procesar, así como indicar en la última línea, el
nuevo nombre para la imagen procesada. Gracias a que el código de Python es
sencillo, es posible identificar fácilmente dónde se debe hacer dicho cambio.
4. Baja tasa de errores. Sí cumple, se procesaron imágenes en formato TIF y JPG
con eficiencia, sin embargo se recuerda que la segmentación no es perfecta ya que
segmenta áreas que no están consideradas. Existe para este caso un pequeño
margen de error.
5. Satisfacción del usuario. Sí cumple, el algoritmo opera de la forma en que al
principio se les explicó a los participantes satisfaciendo así sus expectativas.
En la tabla 3, se resume el tiempo en que el algoritmo procesa una imagen según las
características del equipo o hardware utilizado por cada participante, para completar
la prueba de usabilidad del algoritmo. De acuerdo a lo anterior, se puede observar
que el algoritmo tarda más tiempo en procesar una imagen dependiendo
primeramente de la velocidad del procesador. Y en segundo plano se encuentra la
cantidad de memoria RAM disponible.
120
TABLA 3
TIEMPO DE PROCESAMIENTO DE UNA IMAGEN POR EL ALGORITMO
DIFUSO SIDAIS.
PARTICIPANTE EQUIPO FORMATO DE IMAGEN
TIEMPO DE PROCESO
Licenciatura en
Trabajo Social
Dell PC Vostro 400,
procesador Intel Core 2 Duo
de 3 GHz, Win Vista, 3Gb
RAM y 688 HDD.
TIF
JPG
8 segundos
Médico Cirujano
Dentista
Laptop Compaq Presario,
procesador Intel Celeron
T3300 de 2Ghz, Win 7, 2Gb
RAM y 320Gb HDD.
TIF
JPG
20 segundos
Licenciatura en
Enseñanza de
Lenguas
Laptop HP Pavilion,
procesador Dual Core AMD
Turion X2 64 de 800 MHz,
Win Vista, 3Gb RAM y 320
Gb HDD.
TIF
JPG
30 segundos
Ingeniería en
Sistemas
Computacionales
Laptop HP, procesador AMD
Sempron (tm) de 1.6 GHz,
Win Vista, 640 MGb RAM y
120 Gb HDD
TIF
JPG
36 segundos
121
4.5. Interpretación de los resultados
El algoritmo utilizado se apega a la Lógica Difusa en la que se basa este documento,
ya que lleva a cabo una segmentación identificando cada pixel por el que se
conforma una imagen para así agrupar por patrones de color, esto es con las reglas
de la Lógica Difusa. Sin embargo, no es un algoritmo perfecto. Al respecto, es
importante aclarar que los cuerpos de agua que se han considerado en este
documento son lagos, lagunas, esteros, ríos y arroyos, que debido a las
precipitaciones algunos de ellos proliferan en áreas urbanas, fungiendo como fuente
probable de reproducción del mosquito Aedes aegypti causante del dengue
hemorrágico. De acuerdo con la tabla 3, la segmentación de una imagen en formato
TIF o JPG se lleva a cabo en menos de 1 minuto y con un pequeño margen de error.
Se realizaron otras pruebas con imágenes de menor altitud de la toma satelital
donde se aprecia que a menor altitud menor eficacia en la segmentación de la
imagen. Los resultados e imágenes se encuentran en el Anexo 2.
El SIDAIS se encuentra en una primera etapa se pueden mejorar y agregar
otras opciones como imprimir el resultado de la segmentación y sus variables
climáticas o graficarlas, por mencionar algunas. El resultado obtenido, es bueno, sin
embargo es de interés particular, seguir perfeccionando el sistema con el fin de
obtener aún mejores resultados.
122
CAPÍTULO 5. Conclusiones y sugerencias
5.1. Discusión
Los resultados de la segmentación de una imagen y su análisis muestran que es
posible determinar el porcentaje de riesgo que tiene alguna zona de interés en el
estado, en cuanto a la reproducción del mosquito causante del dengue. Este
porcentaje de riesgo puede mejorar la toma de decisiones al permitir comparar su
variabilidad a través del tiempo consultando la base de datos que se utilizará de
resguardo.
5.2. Cumplimiento de la hipótesis
La hipótesis se cumplió en un 95% ya que el algoritmo difuso puede identificar zonas
consideradas como probable foco de infección para la reproducción del mosquito
causante del dengue, sin embargo debe hacer una excepción con cuerpos de agua
como la playa o similares.
A continuación se da respuesta a las preguntas de investigación planteadas
en la sección 1.2.1.
¿Es posible desarrollar de manera eficaz un programa en lenguaje Python que
permita analizar con Lógica Difusa una imagen de satélite?
No fue posible desarrollar al 100% un programa en lenguaje Python que
permita analizar con Lógica Difusa una imagen satelital, ya que aún falta delimitar la
123
segmentación a ciertos cuerpos de agua. Se entiende con lo anterior, que la imagen
no debe contener parte de las playas o similares y la altitud de la toma satelital debe
pasar los 800 metros.
¿Es factible aplicar la Lógica Difusa para obtener un eficiente análisis de imágenes
satelitales?
La aplicación de la Lógica Difusa nos permite hacer un eficiente análisis de
imágenes satelitales, ya que el tiempo de proceso es mínimo, y, aunque con un
cierto margen de error (debido a la falta de delimitación del algoritmo) son detectados
los parámetros requeridos (cuerpos de agua y vegetación) de la imagen procesada.
¿Es recomendable segmentar por medio de patrones de falso color, la vegetación y
cuerpos de agua, encontrados en imágenes satelitales para considerar la
probabilidad de que ahí se desarrolle el mosquito causante del dengue?
Sí, se considera recomendable segmentar por medio de patrones de falso
color, aunque de antemano se sabe que no es un algoritmo perfecto, al utilizar
SIDAIS el resultado es proporcionado en segundos lo que permitirá hacer un sondeo
de la zona y planear una estrategia antes de gastar en recursos innecesarios.
5.3. Cumplimiento de los objetivos
Se cumplieron el 80% de los objetivos: al adaptar y aplicar un algoritmo difuso para
realizar la clasificación de una imagen satelital identificando cuerpos de agua (lagos,
lagunas, esteros, ríos y arroyos) y vegetación presentes, resaltando estos hallazgos
por un color predefinido, utilizando una tabla de falso color.
Respecto al 20% se espera realizar como trabajo a futuro para implantar el algoritmo
difuso en el sistema SIDAIS, así como las ventanas de navegación descritas en
124
puntos anteriores y completar el algoritmo para realizar el análisis comparativo entre
las variables del clima y los elementos predominantes (agua y vegetación).
5.4. Importancia de los resultados obtenidos
La importancia de primera instancia radica en dar a conocer con este trabajo la
gravedad que acontece a las múltiples epidemias que por diversos factores
mencionados anteriormente como el crecimiento demográfico o el descuido de sitios
públicos, no es posible detenerlas a tiempo y son causa de muerte de millones de
personas en todo el mundo.
Como segundo punto es importante dar a conocer que se encuentran en
desarrollo proyectos que relacionados con enfermedades epidemiológicas como el
dengue, reúnen información sobre parámetros comunes entre las personas
enfermas, con el fin de anticipar y estimar el tamaño de diversas epidemias. Por otra
parte, sistemas como el Google Earth permiten visualizar los puntos o hotspots,
calificados así cuando dos o más casos de dengue ocurren en un lapso de 14 días y
las casas de las víctimas se encuentran a 150m una de otra.
Este proyecto se centra en detectar las zonas propicias para la reproducción
del responsable de la transmisión del dengue hemorrágico: el mosquito Aedes
aegypti. Al detectarse a tiempo se estima pueda disminuir en un 70% su
reproducción en áreas inhóspitas o aisladas.
125
5.5. Posibles aplicaciones
Aunque el sistema se encuentra en una fase inicial se puede considerar su aplicación
variando los parámetros de entrada para localizar otro tipo de plagas o clima.
Asimismo, posteriormente se puede hacer uso de imágenes de mejor resolución
provenientes de algún satélite como LANDSAT 5 (TM) puesto en órbita en 1984 y
operado por la NASA, dedicado específicamente al monitoreo de vegetación, mapeo
de costas, diferenciación de cuerpos rocosos e incluso determinar la humedad del
suelo; lo que permitiría mayor certeza en la clasificación; o un satélite SPOT (Satellite
Probatoire pour l'Observation de la Terre) en órbita desde 1986.
5.6. Limitaciones de la investigación
Este proyecto se delimita a la detección principalmente de áreas del estado de
Colima donde se muestre un mayor índice de reproducción del mosquito Aedes
aegypti, tomando como referencia las variables de entorno que generen un clima
tropical o subtropical propicio para su reproducción. El uso de imágenes satelitales gratuitas debido a su baja resolución aumenta
el tiempo de segmentación.
126
5.7. Recomendaciones para continuar con la investigación en lo futuro
• Se considera como trabajo futuro la implantación del algoritmo difuso en el
sistema SIDAIS. Adaptando a él, la programación de módulos y componentes;
así como la implementación de Base de datos e Interfaces, descritas con
anterioridad.
• Se menciona con anterioridad que el algoritmo no es perfecto, ya que colorea
cuerpos de agua que no están considerados, se recomienda de igual forma
como trabajo futuro mejorar el algoritmo para que segmente solamente los
cuerpos de agua especificados (lagos, lagunas, esteros, ríos y arroyos).
• Se puede trabajar a futuro para relacionar el procesamiento de imágenes con
bases de datos de temperaturas.
• Se considera de igual forma como trabajo a futuro completar el algoritmo para
que realice el análisis comparativo entre las variables del clima, cuerpos de
agua y vegetación, requerido para obtener un mejor resultado del proceso de
la imagen zonas consideradas de riesgo.
• Se recomienda utilizar imágenes con mejor resolución que permitan una
clasificación o segmentación más eficiente.
• Se pueden programar módulos que grafiquen los porcentajes de riesgo a
través del tiempo.
• Se puede agregar un módulo de impresión de la base de datos que sirve
como almacén.
• Se puede utilizar un Sistema de Información Geográfica comercial por su
facilidad de uso pero primordialmente por la variedad de funciones que
incluye; además de proporcionar información de cualquier parte del mundo.
127
Referencias Ammann, P. y Offutt, J. (2008). Introduction to software testing. Cambridge, Inglaterra: Cambridge
University Press.
Asgharzadeh, A. (1996). Image Analysis and Enhancement Using Fuzzy Rule based Expert System.
Hughes Space and Communications Company. ACM, pp. 529-531.
Botinelli, O.R., Ulon S.N., Marder G. y Cabral O. D. (2006). Uso de Sistemas de Información
Geográfica (SIG) para la vigilancia de enfermedades vectoriales en áreas de fronteras. Universidad
Nacional del Nordeste. Comunicaciones Científicas y Tecnológicas 2006.
CONAGO (2007, 16 de Febrero). Acciones para lucha contra el dengue en México. Conferencia
Nacional de Gobernadores. Obtenido el día 15 de agosto de 2008 desde
[www.conago.org.mx/reuniones/documentos/2007-02-
16/20070216_SALUD_CORDOVA_XXXI_CONAGO.ppt]
CONAVE y SSA (2007). Manual para la Vigilancia, Diagnóstico, Prevención y Control del Dengue.
Consejo Nacional de Vigilancia Epidemiológica (CONAVE) y Secretaría de Salud (SSA). México.
Costabile M. F. (2000). Usability in the Software Life Cycle. En Handbook of Software Engineering and
Knowledge Engineering (pp. 1-13.). World Scientific Publishing Company.
Duque E. J., Muñoz L. A. y Navarro-Silva M. (2004, Ene-Abr). Modelo de simulación para el control del
mosquito Aedes aegypti, transmisor del dengue y la fiebre amarilla, por el crustáceo Mesocyclops spp.
Rev. Salud Pública, vol. 6 Enero-Abril 2004. Obtenido el 15 de agosto de 2008 desde
[http://www.scielosp.org/scielo.php?script=sci_arttext&pid=S0124-
00642004000100005&lng=&nrm=iso&tlng=]
Dumas, J.S. y Redish, J.C., (1993). A Practical Guide to Usability Testing. Norwood, NJ, Ablex
Publishing Corp.
Espinoza G. F. (2002, Junio). Dinámica de transmisión del dengue en la ciudad de Colima, México.
Tesis de Doctorado. Universidad de Colima, Área Biotecnología, pp. 148.
128
Gutiérrez, J. y Jegat, H. (2005, Mayo). Uso de la Teoría de Lógica Difusa en la Clasificación de
Imágenes Satelitales con Coberturas Mixtas: El Caso Urbano de Mérida, Venezuela. Asoc.
Interciencia, vol. 30 pp. 261-266.
INEGI (2008). Instituto Nacional de Estadística, Geografía e Informática. Cuéntame de México,
Información por entidad: Colima Territorio. Obtenido el 9 de mayo de 2008 de
http://cuentame.inegi.gob.mx/monografias/informacion/Col/Territorio/default.aspx?tema=ME&e=06.
Hamerly, G. & Elkan, Ch. (2002). Alternatives to the K–means algorithm that find better clusterings.
ACM, pp. 600-607.
Hay S.I., Randolph S.E. & Rogers D.J. (2002). Advances in parasitology: remote sensing and
geographical information systems in epidemiology, Department of Zoology – University of Oxford.
Oxford, UK. Vol. 47, 2002.
Jähne, B. (2001, November). Digital Image Processing. University of Heidelberg, Germany. Springer-
Verlag Berlín Heidelberg New York. Nov 2001.
Jain, A.K. & Dubes, R.C. (1988). Algorithms for Clustering Data. Michigan State University. Prentice
Hall Advanced Reference Series. Englewood Cliffs, New Jersey.
Mcconnell. S. (1998). Desarrollo y gestión de proyectos informáticos. México, D.F.: McGraw-Hill.
Masao, M. (2001). Fuzzy Logic for Beginners. Meiji University, Japan. World Scientific, pp 1-105.
Nakashima T., Schaefer, G., Yokota Y. & Ishibuchi H. (2007). A weighted fuzzy classifier and its
application to image processing tasks. Rev. ScienceDirect Fuzzy Sets and Systems, vol. 158 pp. 284–
294.
Nielsen, J. (1993). Usability engineering. San Francisco, CA: Morgan Kaufmann.
Ordóñes G. C. & Martínez-Alegría L. R. (2003). Sistemas de Información Geográfica: aplicaciones
prácticas con Idrisi32 al análisis de riesgos naturales y problemáticas medioambientales. México:
Alfaomega Ra-Ma.
Padhy (2005). Artificial Intelligence and Intelligent Systems. Oxford University Press, p 328-383.
Pajares, G., Sanz, M. y Santos P., M. (2005). Inteligencia Artificial e Ingeniería del Conocimiento.
AlfaOmega Ra-Ma, pp. 75-80.
129
Pressman, R. S. (1998). Ingeniería del Software. Un enfoque práctico. España: McGrawHill.
Rich, E. y Knight, K. (1994). Inteligencia Artificial. España: McGrawHill.
Rodríguez Ch., OE. y Arredondo B., HA. (2005). Manual para el manejo y procesamiento de imágenes
satelitales obtenidas del sensor remoto MODIS de la NASA, aplicados en estudios de Ingeniería Civil.
Pontificia Universidad Javeriana Facultad de Ingeniería. Bogotá, DC. 2005.
Rubin, J. (2008). How to plan, design, and conduct effective tests. Handbook of usability testing.
Segunda edición. Hoboken, NJ: John Wiley and Sons, Inc.
Sommerville I. (2005). Ingeniería del Software. Madrid, España. Pearson Educación, S.A.
Tanaka, K. (1997). An Introduction to Fuzzy Logic for Practical Applications, Kanazawa, Japan:
Kanazawa University.
Torres Y. (2008, 25 de Julio). Estrategias de participación comunitaria con enfoque ecosistémico en el
control del Dengue. Experiencia en Cuba. Memorias del Curso-Taller Manejo Integral del Dengue con
Enfoque Ecosistémico. Instituto de Medicina Tropical “Pedro Kourí”. La Habana, Cuba.
CONACYT apoyará proyectos de la UdeC contra el dengue. Universidad de Colima, Dirección General
de Información. Boletín de Prensa obtenido el día 10 de octubre de 2008 desde
http://www.ucol.mx/boletines/noticia.php?id=6531
Yen, J. & Langari, R. (1999). Fuzzy Logic: Intelligence, Control and Information. Prentice Hall.
Zheru C., Hong Y. & Tuan P. (1996). Fuzzy Algorithms: With Applications to Image Processing and
Pattern Recognition. World Scientific. pp 1-225.
130
APÉNDICE A. Glosario
Aedes aegypti: corresponde al género y la especie, respectivamente del mosquito
transmisor del dengue.
Análisis por grupos (Cluster Analysis): método estadístico que agrupa a los
individuos según rasgos comunes. Permite el estudio de grandes grupos.
Artrópodo: tipo de invertebrados con simetría bilateral, el cuerpo segmentado y
recubierto por un tegumento duro y las patas articuladas: los insectos, las arañas y
los crustáceos son las clases más numerosas dentro de los artrópodos.
Banda: región del espectro electromagnético en la cual las longitudes de onda
adyacentes (contiguas) se comportan de forma similar o por mecanismos similares.
Cluster: grupo; racimo; agrupamiento.
Espectro Electromagnético: conjunto de todas las longitudes de onda en que se
presenta la radiación electromagnética, es un espectro continuo.
Fotógramo: de fotogrametría que es una técnica para obtener mapas y planos de
grandes extensiones de terreno por medio de la fotografía aérea.
Geo-referenciar: ubicar la existencia de cosas en el espacio físico, mediante el
establecimiento de relaciones entre imágenes de ráster o vector sobre una
proyección geográfica o sistema de coordenadas.
131
Imagen satelital: información capturada por los sensores localizados en satélites
espaciales.
JPG (Joint Photographic Experts Group, Grupo de Expertos en Fotografía): formato
de imagen más utilizado por cámaras digitales y otros dispositivos de captura de
imagen, así como para almacenar y transmitirlas a través de la WWW.
Percepción activa: ocurre cuando la irradiación utilizada proviene de una fuente
artificial.
Percepción pasiva: se utilizan fuentes de radiación de energía natural como la solar y
la emitida por la interacción de la tierra con la atmósfera.
Radiación Electromagnética: es una forma de transmisión de la energía por medio de
ondas electromagnéticas.
Reflexión: fenómeno por el cual gran cantidad de energía solar se devuelve al
espacio y se observa por los sensores de los satélites.
Similaridad: se entiende como la proximidad entre dos puntos en un espacio de n
dimensiones (que no se puede representar físicamente, si n es mayor que 3). A
mayor disimilitud los puntos se alejan.
Sistema de Información Geográfica (SIG): es un programa informático que permite
gestionar y analizar principalmente datos espaciales.
Teledetección: ciencia y arte de obtener información de un objeto, área o fenómeno a
través del análisis de datos adquiridos por sensores.
132
Tegumento: membrana que cubre el cuerpo de los artrópodos o algunos de sus
órganos internos.
TIF (Tagged Image File Format): formato de imagen, el cual además de sus propios datos contiene una descripción de las características de la imagen, a las que se les denomina etiquetas.
Threshold (Umbral): cantidad mínima de señal que ha de estar presente para ser
registrada por un sistema. Por ejemplo, la mínima cantidad de luz que puede detectar
el ojo humano en la oscuridad. Máximo o mínimo nivel aceptable de uso.
133
APÉNDICE B. Lista de Abreviaturas DPI Dots per inch
ERTS Earth Resources Technology Satellite
FFVP Fuzzy Freeze Video Printer
LANDSAT (TM) Mapeador térmico de Landsat
MODIS Resolución Moderada de Imágenes Espectroradiométricas
OMS Organización Mundial de la Salud
SIG Sistema de Información Geográfica
SPOT Satellite Probatoire pour l'Observation de la Terre
WHO World Health Organization
WWW World Wide Web
134
ANEXO I. Formato de la prueba de usabilidad aplicado y requisitado por un equipo
multidisciplinario, que de forma libre y voluntaria evaluó el
funcionamiento del algoritmo SIDAIS.
135
136
137
138
139
ANEXO 2. Se seleccionaron varias imágenes en las que la altitud de la toma satelital varía de
los 305 a los 822 m. La siguiente tabla muestra la información de cada imagen antes
y después de ser procesadas por el algoritmo difuso SIDAIS. En relación al tamaño,
las de formato JPG aumentaron de 4 a 36 KB al ser procesadas, las de formato TIFF
no tuvieron variación. El tiempo de proceso de la segmentación osciló entre los 40 y
43 segundos para ambos formatos. Cabe señalar que hubo 2 casos en los que las de
menor tamaño tuvieron un tiempo mayor para ser segmentadas.
Desafortunadamente, la segmentación no se realizó de la manera esperada
en las imágenes de la Bahía de Manzanillo, así como en el centro y Miramar.
IMAGEN ORIGINAL
RESULTADO IMAGEN SEGMENTADA
IMAGEN FORMATO TAMAÑO TIEMPO TAMAÑO OBSERVACIONES
Bahía de Santiago, Mzo, Col.
JPG 370 KB 43 segs 374 KB Segmentación pobre
TIFF 3.85 MGb 42.9 segs 3.85 MGb Segmentación pobre
Centro Colima, Col.
JPG 458 KB 40 segs 494 KB Segmentación media
TIFF 3.85 MGb 42 segs 3.85 MGb Segmentación media
Centro de Mzo, Col.
JPG 273 KB 41.5 segs 277 KB Segmentación pobre
TIFF 3.85 MGb 43 segs 3.85 MGb Segmentación pobre
Miramar, Mzo, Col.
JPG 353 KB 41.9 segs 372 KB Segmentación pobre
TIFF 3.85 MGb 41.4 segs 3.85 MGb Segmentación pobre
140
Bahía de Santiago en Mzo, Colima. (JPG) Resultado
Bahía de Santiago en Mzo, Colima. (TIFF) Resultado
141
Imagen del Centro de Colima, Col. (JPG) Resultado
Imagen del Centro de Colima, Col. (TIFF) Resultado
142
Imagen del Centro de Mzo, Colima. (JPG) Resultado
Imagen del Centro de Mzo, Colima. (TIFF) Resultado
143
Miramar en Manzanillo, Colima. (JPG) Resultado
Miramar en Manzanillo, Colima. (TIFF) Resultado