utp pdi_2014-2_sap4 binariz_zoomumbralo_logicas
TRANSCRIPT
Procesamiento de Imágenes
y Visión Artificial
(WEE2)
Sesión: 4
MSc. Ing. José C. Benítez P.
Transformaciones básicas a nivel espacial II
Logros de aprendizaje
1. Binarizar una imagen
2. Determinar el valor umbral de una imagen.
3. Realizar el zoom de una imagen.
4. Aplicar operaciones lógicas entre los diferentes
tipos de imágenes digitales.
2
3
Contenido
Transformaciones básicas a nivel espacial II:
� Binarización de una imagen.
� El Zoom de una imagen.
� Operaciones lógicas entre imágenes.
Binarización de una imagen
Binarizar una imagen consiste en obtener una imagen con dos
valores (binario) en sus pixeles: por lo general son blanco o
negro. Si la imagen es de una profundidad de 8 bits los
posibles valores de sus pixeles será 0 o 255 exclusivamente, y
si la profundidad es de 1 bit los valores posibles serán 1 o 0.
Binarización de una imagen
Para binarizar una imagen a colores, primero se debe convertir
la imagen de colores a escala de grises, y luego convertir la
imagen escala de grises a binaria.
Los métodos para convertir una imagen a color a escala de
grises ya fueron estudiados en la Sesión anterior, por lo que
desarrollaremos la conversión de una imagen escala de grises
a binaria.
Binarización de una imagen
Existen varios métodos para convertir una imagen escala de
grises a binaria, todos ellos se basan en encontrar un valor
umbral de la imagen, de manera que todos los valores de
pixeles mayores o iguales del valor umbral, adquieren el
color blanco, y los menores el color negro.
Binarización de una imagen
Los métodos del valor umbral (MVU) son
un grupo de algoritmos cuya finalidad es
segmentar imágenes rasterizadas, es decir
separar los objetos de una imagen que
nos interesen del resto.
Con la ayuda de los MVU en las
situaciones más sencillas se puede
decidir qué píxeles conforman los
objetos que buscamos y qué píxeles
son sólo el entorno de estos objetos.
Binarización de una imagen
Los MVU son especialmente útiles para separar el texto de
un documento del fondo de la imagen (papel amarillento,
con manchas y arruguitas por ejemplo) y así poder llevar a
cabo el reconocimiento óptico de texto (OCR) con más
garantías de obtener el texto correcto. Esto es muy útil si
queremos digitalizar libros antiguos, en los que el contraste
entre el texto (que ya ha perdido parte de sus pigmentos) y
el papel (oscurecido y manoseado) no es demasiado
elevado.
Los MVU son utilizados en segmentación de imágenes.
Como con todos los métodos de segmentación se trata de
asignar cada píxel a un cierto grupo, llamado comúnmente
"segmento".
Binarización de una imagen
La imagen que se debe segmentar, como cualquier gráfico
rasterizado, está compuesta por valores numéricos (uno o más
valores de color para cada píxel). La pertenencia de un píxel a
un cierto segmento se decide mediante la comparación de su
nivel de gris (u otro valor unidimensional) con un cierto valor
umbral.
El nivel de gris de un píxel equivale a su nivel de luminosidad;
el resto de la información sobre el color no se tiene en cuenta.
Dado que esta comparación de valores se realiza
individualmente para cada píxel, al método del valor umbral
se le considera un método de segmentación orientado a
píxeles.
Binarización de una imagen
Los MVU para binarizar una imagen son:
a. Definir el valor del punto medio de
valores según su nivel de profundidad.
b. Encontrar el valor mínimo y el máximo
de los pixeles de una imagen escala de
grises, y hallar el punto medio entre
estos dos valores.
c. Hallar la frecuencia de ocurrencia de
cada valor (nivel de intensidad) de la
imagen escala de grises. Calcular el
valor intermedio de frecuencia
acumulada.
d. Método de Otsu.
Binarización de una imagen
Método de Otsu:
Una imagen es una función bidimensional de la intensidad del
nivel de gris, y contiene N píxeles cuyos niveles de gris se
encuentran entre 1 y L. El número de píxeles con nivel de gris i se
denota como fi, y la probabilidad de ocurrencia del nivel de gris i
en la imagen está dada por: pi=fi/N
En el caso de la umbralización en dos niveles de una imagen (a
veces llamada binarización), los píxeles son divididos en dos
clases: C1, con niveles de gris [1, ...., t]; y C2, con niveles de gris
[t+1, ...., L].
Binarización de una imagen
Método de Otsu:
Entonces, la distribución de probabilidad de los niveles de gris
para las dos clases son:
Donde:
También, la media para la clase C1 y la clase C2 es:
Sea μT la intensidad media de toda la imagen. Es fácil
demostrar que:
El zoom de una imagen
En el PDI, el escalado de imagen es el proceso de cambiar el
tamaño de una imagen digital. La escala es un proceso no-trivial
que implica un balance entre eficiencia, suavidad y nitidez.
Imágenes de mapas de bits:
El tamaño de la imagen se reduce o amplía, los píxeles que
componen la imagen, se vuelven cada vez más visible, haciendo
que la imagen aparezca "suave" si se promedian píxeles o
irregular si no se promedian.
Imágenes vectoriales:
La compensación puede estar en la capacidad de procesamiento
de re-representación de la imagen, que puede ser notable como
re-rendering lento con gráficos fijos o menor velocidad de cuadro
y el marco de saltar en la animación por computador.
El zoom de una imagen
Aparte de montaje de un área de visualización más pequeño,
tamaño de la imagen se reduce más comúnmente con el fin de
producir imágenes en miniatura.
La ampliación de una imagen es generalmente común para la
toma de imágenes más pequeñas que encajen en una pantalla
más grande en el modo de pantalla completa, por ejemplo.
En el "zoom" de una imagen de mapa de bits, no es posible
conocer más información de la imagen de lo que ya existe, y la
calidad de la imagen sufre inevitablemente.
Sin embargo, hay varios métodos de aumentar el número de
píxeles que contiene una imagen, que iguala la aparición de los
píxeles originales.
El zoom de una imagen
Métodos de escalado
Considere la posibilidad de duplicar el tamaño de una imagen
El tamaño de la imagen se puede cambiar de varias maneras :
a. Interpolación al vecino más cercano
b. La interpolación bilineal
c. Hqx
d. Super muestreo
e. Vectorización
El zoom de una imagen
Métodos de escalado
a. interpolación al vecino más cercano
Una de las maneras más simples de duplicar el tamaño de
imagen es la interpolación del vecino más cercano, en
sustitución de cada píxel con cuatro píxeles del mismo color:
La imagen resultante es más grande que el original, y conserva
todo el detalle original, pero tiene irregularidades indeseables.
Las líneas diagonales de la imagen, muestran la forma de
"escalera" característica.
Otros métodos de escala son mejores para la preservación de
contornos suaves en la imagen: La interpolación bilineal.
El zoom de una imagen
Métodos de escalado
b. La interpolación bilineal
Produce el siguiente resultado: La interpolación lineal es
generalmente bueno para cambiar el tamaño de una imagen,
pero causa un cierto ablandamiento indeseable de detalles y
todavía puede ser un tanto irregular.
Mejores métodos de escala incluyen la interpolación bicúbica y
Lanczos remuestreo.
El zoom de una imagen
Métodos de escalado
c. Hqx
Para magnificar la infografía con baja resolución y/o algunos
colores, mejores resultados se obtendrán por medio de
algoritmos de escalado pixel art hqx u otro. Estos producen
bordes afilados y mantiene un alto nivel de detalle.
d. Súper muestreo
Para fotos de escalado, existen algoritmos de suavizado
llamados super sampling.
El zoom de una imagen
Métodos de escalado
e. Vectorización
Un enfoque totalmente diferente es la extracción de un vector
característico.
La vectorización crea primero una resolución de
representación vectorial independiente del gráfico a ser
escalado. A continuación, la versión independiente de la
resolución se representa como una imagen de mapa de bits a
la resolución deseada. Esta técnica es utilizada por Adobe en
vivo Trace, inkscape, y varios estudios recientes.
El zoom de una imagen
Algoritmos
Dos algoritmos de escala estándar son la interpolación bilineal y
bicúbica.
Estos algoritmos introducen una transición continua en la salida
aun cuando la imagen original tiene transiciones discretas.
Aunque esto es conveniente para las imágenes de tono continuo,
algunos algoritmos reducen el contraste de una manera que
puede ser indeseable para dibujos lineales.
La interpolación al vecino más cercano conserva estos bordes
afilados, pero aumenta aliasing. Varios enfoques han sido
desarrollados para optimizar las zonas de tono continuo, preservar
la nitidez de las líneas horizontales y verticales, y suavizar todas las
demás curvas.
El zoom de una imagen
Interpolaciones:
Las formas más utilizadas son:
• Vecino más próximo
• Bilineal
• Bicúbica
El zoom de una imagen
Interpolaciones:
• Interpolación Vecino Mas Cercano:
El error de posición es a lo sumo medio pıxel; este error es
perceptible en objetos con fronteras rectas en las que aparece
un efecto de salto después de la transformación.
• Interpolación Lineal:
Produce una ligera disminución en la resolución a consecuencia
del emborronado propio del promedio empleado; disminuye el
efecto de salto.
• Interpolación Bicúbica:
No sufre el problema del efecto de salto y proporciona un
menor emborronamiento que la interpolación lineal.
El zoom de una imagen
Interpolaciones:
• Vecino más próximo
• El mas básico.
• Requiere el menor tiempo de procesamiento.
• Considera el pıxel mas cercano al punto (x, y) interpolado.
• Simplemente se agranda cada pıxel.
El zoom de una imagen
Interpolaciones:
• Bilineal
• Considera los 4 pıxeles mas cercanos al pıxel (x,y) a
interpolar.
• Se obtiene un promedio entre estos 4 puntos para llegar a
un valor interpolado.
• La imagen resultante es mas suave que la del vecino mas
cercano.
• Puede causar que la imagen se vea un tanto difusa.
El zoom de una imagen
Interpolaciones:
• Bicúbica
• Es el algoritmo de interpolación más utilizado.
• Considera los 16 pıxeles mas cercanos al pıxel (x,y) a
interpolar.
• Se aproxima localmente el nivel de gris en la imagen original
mediante una superficie polinómica bicúbica.
• El óptimo entre tiempo de procesamiento y calidad de la
salida.
Resumen
36
� Realizar un resumen mediante mapas conceptuales (CMapTools)
de esta diapositiva.
� Serán mejor consideradas los resúmenes que tengan información
extra a esta diapositiva.
� Las fuentes adicionales utilizadas en el resumen se presentarán
en su carpeta personal del Dropbox y deben conservar el nombre
original y agregar al final _S4.
� Las fuentes y los archivos *.cmap deben colocarse dentro de su
carpeta personal del Dropbox, dentro de una carpeta de nombre:
PDI_PaternoM_S4
Las Tareas que no cumplan las
indicaciones no serán considerados
por el profesor.
37
Preguntas
El resumen con mapas conceptuales solicitado de la Sesión, al
menos debe responder las siguientes preguntas:
1. Clasificar las operaciones, transformaciones y conversiones
sobre imágenes digitales.
2. Describir las métodos de binarización de imágenes.
3. Describir las técnicas de zoom de imágenes.
4. Describir las tipos de interpolación y su uso.
5. ¿Cual es la relación entre operaciones lógicas y aritméticas?
6. ¿En que consiste el overflow?.
7. Dar ejemplo con MatLab del overflow.
8. Hacer un listado de 10 aplicaciones de las operaciones,
transformaciones y conversiones.