estudios de tÉcnicas de anÁlisis de imagen...
TRANSCRIPT
FACULTAT DE FISÍCA
Departament d’ Informàtica i Electrònica
ESTUDIOS DE TÉCNICAS DE ANÁLISIS DE
IMAGEN EN UN SISTEMA DE VISIÓN PARA LA
RECOLECCIÓN ROBOTIZADA DE CÍTRICOS
Tesis Doctoral
Filiberto Plá Bañón
València, 1993
A María Jesús ymis Padres
ÍNDICE
LISTA DE SÍMBOLOS
LISTA DE ABREVIATURAS Y ACRÓNIMOS
LISTA DE FIGURAS
LISTA DE TABLAS
INTRODUCCIÓN
1 La recolección robotizada 3
2 El proyecto CITRUS 6
I VISION ARTIFICIAL EN AGRICULTURA
I.1 Visión en ambientes controlados 10
I.2 Revisión de la literatura en sistemas de visión para recolección robotizada 12
II EL PROBLEMA DE LA RECOLECCIÓN ROBOTIZADA. OBJETIVOS
II.1 El sistema de visión y su problemática en la robótica de recolección 25
II.2 Propósito y objetivos de este trabajo 29
Primera Parte ESTUDIOS DE ANÁLISIS DE IMAGEN
Capítulo 1. ILUMINACIÓN Y ADQUISIDICÓN DE IMAGEN
1.1 Adquisición de imágenes mediante flashes 37
1.1.1. Sincronización 40
1.2 Modelo geométrico e irradiancia espectral imagen de los frutos 43
1.3 Experimentos y discusión 50
1.3.1 Toma de imágenes con flashes 50
1.3.2 Elipsoides 52
índice
II
Capítulo 2. CONCAVIDAD E IMÁGENES
2.1 Concavidad de la irradiancia imagen de una esfera 59
2.2 Operadores segunda derivada 62
2.3 La transformación Concavidad 63
2.4 Implementación 66
2.5 Experimentos y discusión 68
Capítulo 3. ELIPSODES E IMÁGENES
3.1 Ajuste de superficies 79
3.2 Elipses 80
3.3 Implementación 85
3.4 Experimentos y discusión 89
Capítulo 4. CONTORNOS CIRCULARES
4.1 Segmentación del contorno 99
4.1.1 Codificación del contorno 100
4.1.2 La función curvatura 101
4.1.3 Criterio de segmentación 105
4.2 Agrupación de segmentos 107
4.3 La función distancia o función disimilitud 109
4.4 Evaluación de contornos parcialmente circulares 114
4.5 Implementación 115
4.6 Experimentos y discusión 117
Capítulo 5. COLOR EN AMBIENTES NATURALES
5.1 Representación del color 131
5.1.1 Reflejos en la superficie de los objetos 131
5.1.2 Zonas de sombra en la superficie de los objetos 132
5.1.3 Iluminante y reflexión superficial. Haz de planos dicromáticos 134
5.1.4 Espacio de representación 136
5.2 Clasificación y segmentación 140
5.2.1 El color del iluminante y reducción de la dimensión 141
5.2.2 Representación y visualización 142
5.2.3 El clasificador y el aprendizaje 147
índice
III
5.4 Implementación 155
5.5 Comprobación del método y discusión 157
5.5.1 Geodésicas en el espacio direccional 158
5.5.2 Segmentación de escenas naturales 163
5.5.3 Comparación con otros clasificadores 164
Capítulo 6. MEDIDAS DE DISTANCIA. ESTEREOSCOPIO
6.1 El sistema estereoscópico. Disposición geométrica 174
6.1.1 Sistema estereoscópico de ejes ópticos paralelos 175
6.1.2 Error en la medida de un sistema estereo de ejes ópticos paralelos 177
6.2 Correspondencia 179
6.2.1 Medida de similitud 181
6.2.2 Método de búsqueda de una región correspondiente 184
6.3 Implementación 190
6.4 Experimentos y resultados 193
6.4.1 Precisión en el cálculo de la distancia 193
6.4.2 La correspondencia en escenas reales 195
Capítulo 7. ÁRBOLES BINARIOS DE CLASIFICACIÓN
7.1 Métodos de selección del árbol correcto 208
7.1.1 Selección por parada en el crecimiento del árbol 211
7.1.2 Selección por poda del árbol total 212
7.2 Construcción de árboles binarios de clasificación mediante un criterio selectivo
de crecimiento 216
7.2.1 El coste computacional en la construcción del árbol 217
7.2.2 Propiedades fundamentales de los árboles binarios de clasificación 217
7.2.3 El criterio de crecimiento 219
7.2.4 Elección del árbol correcto 221
7.2.5 Vuelta atrás y sucesiones alternativas 224
7.2.6 El algoritmo 226
7.3 Experimentos y discusión 228
índice
IV
Segunda Parte SISTEMA DE VISIÓN DEL ROBOT
Capítulo 8. SISTEMAS DE VISIÓN. MATERIALES
8.1 Sistema de adquisición de imágenes 240
8.2 Sistema de almacenamiento de imágenes 241
8.2.1 PIP-1024B 242
8.2.2 DT-2871 243
8.3 Sistema de proceso 244
8.4 Sistema de visualización 245
8.5 Software 246
Capítulo 9. SISTEMA DE VISIÓN. METODOLOGÍA
9.1 Estrategia de visión 249
9.1.1 Barrido de la imagen. Alternancia 249
9.1.2 Solapamiento. La redundancia 254
9.1.3 Gestión de fallos 255
9.1.4 Racimos 259
9.1.5 Procedimientos locales 261
9.2 El reconocimiento de los frutos 263
9.3 Reconocimiento y localización por color 265
9.3.1 La segmentación 266
9.3.2 El etiquetado. Cálculo del área 266
9.3.3 Identificación de frutos en racimos 270
9.3.4 Análisis del contorno. Búsqueda del centro geométrico 271
9.3.5 Localización espacial 272
9.3.6 El algoritmo de reconocimiento y localización por color 274
9.4 Reconocimiento basado en características relativas a la forma 279
9.4.1 Segmentación 281
9.4.2 Extracción de características 282
9.4.3 Clasificación 285
9.4.4 Localización espacial 286
índice
V
Capítulo 10. RESULTADOS Y DISCUSIÓN
10.1 Índices de control 289
10.2 Ensayos del sistema de visión integrado en el robot 292
10.3 Método de reconocimiento por color 298
10.3.1 Naranjas con iluminación natural 298
10.3.2 Naranjas con iluminación artificial 312
10.3.3 Manzanas de la variedad Granny Smith con iluminación artificial 320
10.3.4 Manzanas de la variedad Gala con iluminación artificial 325
10.4 Método de reconocimiento basado en características relativas a la
forma de los frutos 326
CONCLUSIONES
CONCLUSIONES 347
APÉNDICES
Apéndice A. RADIOMETRÍA Y FONOMETRÍA. CONCEPTOS BÁSICOS
A.1 Magnitudes radiométricas 357
A.2 Magnitudes fotométricas 358
Apéndice B. CÁMARAS CCD
Apéndice C. ÁRBOLES BINARIOS DE CLASIFICACIÓN
C.1 Árboles binarios de clasificación. Conceptos y formulación 366
C.2 Construcción de árboles de clasificación 367
C.2.1 El conjunto de cuestiones estándar y la regla de generación
de particiones 370
C.2.2 La asignación de clases y la estimación del error de restitución 372
C.3 Ventajas e inconvenientes de los árboles de clasificación 373
C.4 Estimación del error de clasificación 375
índice
VI
Apéndice D. ÁRBOLES BINARIOS DE CLASIFICACIÓN
D.1 Convolución digital 384
D.2 Filtros de suavizado 385
D.3 Filtros de realce y extracción de bordes 386
D.4 Operadores de Marr o el “sombrero mejicano” 387
Apéndice E. COLOR
E.1 Modelo de reflexión de la luz 391
E.1.1 El fenómeno físico de la reflexión 391
E.1.2 El modelo de reflexión dicromático 394
E.1.2 Integración del espectro y medida de color de la luz 397
E.2 Colorimetría 399
E.2.1 Generalización tricromática 400
E.2.2 Espacios de color 402
E.2.3 El color en las señales de video 403
BIBLIOGRAFÍA BIBLIOGRAFÍA 407
LISTA DE SÍMBOLOS
a radio menor de una elipse;
A coste computacional de un acceso a memoria;
área de una región en la imagen;
Aj subconjunto que forma parte de una partición del espacio χ;
b radio mayor de una elipse;
distancia de base entre los ejes ópticos de un sistema
estereoscópico;
B(λ) proporción de potencia espectral reflejada por el cuerpo de
un objeto;
c(λ) distribución espectral de un flujo radiante;
cs(λ) distribución de la potencia o flujo espectral radiante
procedente de la superficie de un objeto;
cb(λ) distribución de la potencia o flujo espectral radiante
procedente del cuerpo de un objeto;
C coste computacional total;
conjunto de clases posible de una muestra;
C(i,j) coste de clasificar erróneamente un objeto de la clase j
como perteneciente a la clase i;
Cf integración de la luz en una cámara con el filtro f;
C(x,y) vector de color en un punto del plano imagen o del sensor;
Cs color de la distribución de potencia espectral de la
superficie de un objeto;
Cb color de la distribución de potencia espectral del cuerpo de
un objeto;
C(x,y) valor de la transformación concavidad de un punto de la
imagen (x,y);
d diámetro de la pupila de entrada de un sistema óptico;
disparidad de dos puntos correspondientes en sendas
imágenes estéreo;
medida de disimilitud entre dos regiones en la imagen;
de error del emparejamiento de un conjunto de segmentos
circulares con una circunferencia ideal;
dS diferencial de área;
d ⁄ dx diferencial respecto a la variable x;
d(si,sj) distancia o disimilitud entre el segmento si y el sj;
d(x) función de clasificación o clasificador el elemento de
características x;
dB(x) clasificador de Bayes sobre el vector de medidas x;
D distancia máxima permitada durante el agrupamiento de
segmentos;
e error de un ajuste;
E irradiancia;
El iluminancia o iluminación;
Ei irradiancia incidente en un punto;
Eni irradiancia incidente debida a la luz natural;
Eai irradiancia incidente debida a la luz artificial suplementaria;
Ep irradiancia espectral de la imagen;
f focal de una lente;
fr función de distribución de reflectancia bidireccional;
f(ri) nivel de gris de la imagen del punto ri en la dirección r;
F flujo luminoso;
Fλ flujo espectral luminoso;
g(x) polinomio de grado m de la variable x;
G(r) función Gausiana;
G(ω) transformada de Fourier de la función G(r);
Hωj(αi) histograma de los valores αi que toma un conjunto de
muestras de la clase ωj;
Lista de símbolos
X
i(t) medida de impuridad del nodo t;
I(T) impuridad total del árbol T;
I Intensidad radiante;
Il intensidad luminosa de una fuente puntual;
I(x,y) nivel de gris de una imagen en la posición (x,y);
J número de clases posibles dentro de un conjunto C;
k(l) curvatura en un punto del arco de la curva l;
km curvatura mínima;
K constante de proporcionalidad;
l arco de una curva;
lx longitud de un segmento en la dirección x;
ly longitud de un segmento en la dirección y;
lr longitud de un segmento cóncavo en la dirección r;
L radiancia;
coste computacional de una operación lógica;
longitud total de los segmentos de un conjunto SE;
conjunto de clases posible de una muestra;
conjunto de muestras de aprendizaje;
L1 subconjunto del conjunto de aprendizaje L para construir un
clasificador d;
L2 subconjunto del aprendizaje L para estimar el error de un
clasificador d;
Ls radiancia procedente de la superficie de un objeto;
Lb radiancia procedente del cuerpo de un objeto;
Lr radiancia reflejada en un punto;
m pendiente de una recta;
m→ vector en la dirección a la tangente de un punto en una
curva;
ms(θi,ϕi;θr,ϕr) factor de escala debido a la reflexión en la superficie;
mb(θi,ϕi;θr,ϕr) factor de escala debido a la reflexión en el cuerpo de un
objeto;
Lista de símbolos
XI
M coste computacional de una multiplicación;
exitancia radiante;
Ml exitancia luminosa;
ncr(x,y) longitud digital de un segmento cóncavo en la dirección r ;
nj número total de muestras de la clase ωj en el conjunto de
aprendizaje L ;
N número total de puntos de los segmentos de un conjunto SE;
número total de muestras de un conjunto de aprendizaje L ;
Nr número de puntos de una circunferencia digital de radio r;
número de puntos o área de una región en una imagen
digital;
Nm número total de muestras del conjunto de aprendizaje L ;
número de píxels de la región que forma una máscara;
NC número de píxels coincidentes en una intersección de
regiones;
N(t) número de elementos en total dentro de un nodo t;
Nj número total de muestras de la clase j en el conjunto L ;
Nj(t) número de elementos de la clase j dentro del nodo t;
p(j| t) probabilidad de que un caso de una clase j dada, esté en el
nodo t;
p(j,t) probabilidad de que un caso sea de la clase j y esté en el
nodo t;
p(t) probabilidad de que un caso cualquiera se encuentre en el
nodo t;
pi(α) densidad de probabilidad condicional de que un punto tome
el valor de la variable aleatoria α siendo de la clase ωi;
P longitud del perímetro o contorno de una región;
Pi probabilidad a priori de una clase ωi;
P(r) peso asignado a la dirección r;
qi(α) probabilidad a posteriori de que un elemento sea de la
clase ωi teniendo un valor dado de la variable aletaoria α;
Lista de símbolos
XII
Q conjunto de cuestiones en un nodo de un árbol;
r distancia de la fuente de luz a un punto sobre la superficie
del objeto;
dirección en el plano xy;
radio de una circunferencia;
r0 origen de los puntos en la dirección r;
(rx,ry) coordenadas del centro de una circunferencia;
r(α) error condicional debido a una decisión;
r(t) error de restitución del nodo t;
(r,g,b) coordenadas de un vector de color en el espacio RGB;
coordenadas cromáticas del espacio RGB;
R(T) error de restitución del árbol T;
R(d) error de restitución del clasificador d;
Rts(T) error estimado del árbol T por test de muestras;
Rts(d) error estimado del clasificador d por test de muestras;
Rcv(T) error estimado del árbol T por validación cruzada;
Rcv(d) error estimado del clasificador d por validación cruzada;
R̂(T) error estimado del árbol T;
R ∗ (d) error real de un clasificador d;
RB error de Bayes o error del clasificador de Bayes dB(x);
R radio de una esfera;
respuesta de un sensor;
Rk sensibilidad espectral del sensor K;
(R,G,B) coordenadas de un vector de color C en el espacio RGB;
s posible partición de elementos del nodo t;
s∗ partición óptima en un nodo;
s(λ) sensibilidad espectral de una cámara;
si segmento i de un conjunto e segmentos SE;
S coste computacional de una suma;
conjunto de particiones posibles de un nodo t;
S(λ) proporción de potencia espectral reflejada por la superficie
de un objeto;
Lista de símbolos
XIII
Sr conjunto de direcciones r del plano xy;
| Sr| talla o número de elementos del conjunto Sr;
SE conjunto de segmentos de curvas;
error estándar;
t nodo de un árbol T;
tL nodo izquierdo hijo de un nodo t;
tR nodo derecho hijo de un nodo t;
T árbol binario de clasificación;
T~ conjunto de nodos terminales de un árbol T;
Vk respuesta o señal del sensor k;
Vλ eficiencia espectral luminosa;
x vector de características o medidas;
(x,y) coordenadas de un punto en la imagen con origen en el
extremo superior izquierdo;
xi segmento circular i;
x,y,z coordenadas cartesianas;
coordenadas cromáticas CIE triestímulo;
x′ ,y′ coordenadas cartesianas en el plano imagen con origen en
el centro de la imagen;
(xa,ya) coordenadas del extermo anterior de una cuerda sobre una
curva;
(xn,yn) coordenadas del extremo posterior de una cuerda sobre una
curva;
(xL ,yL) coordenadas en el plano imagen de la cámara izquierda;
(xR,yR) coordenadas en el plano imagen de la cámara derecha;
(xN,jN) muestra N de vector de medidas xN y perteneciente a la
clase jN;
α ángulo entre la dirección de observación y el eje óptico;
ángulo del segmento formado entre un punto en el espacio
ϕθ y el punto del iluminante (ϕ0,θ0);
ángulo polar de un punto en el plano RG, RB o GB;
Lista de símbolos
XIV
α1 umbral izquierdo en el parámetro α;
αl umbral izquierdo en el parámetro α;
α2 umbral derecho en el parámetro α;
αr umbral derecho en el parámetro α;
β ángulo entre la dirección incidente y la normal al punto de
la superficie;
δ intervalo de muestreo de la imagen;
δ ⁄ δr derivada parcial respecto a la variable r;
ε número que tiende a cero;
error de Bayes de una decisión;
error de rango relativo;
ϕi coordenada esférica ϕ de la dirección incidente;
ϕr coordenada esférica ϕ de la dirección reflejada;
Φ flujo radiante;
λ longitud de onda;
π número pi, 3,14159;
Π( j) probabilidad a priori de la clase j;
σ desviación típica;
τk transmitancia espectral de un filtro k;
ω frecuencia;
ωi ángulo sólido en la dirección incidente;
clase o etiqueta asignada a una muestra;
ωr ángulo sólido en la dirección reflejada;
χ espacio de medida;
θ,ϕ coordenadas ángulares esféricas;
θi coordenada esférica θ de la dirección incidente;
θr coordenada esférica θ de la dirección reflejada;
θ(l) ángulo de la pendiente de una curva en el punto l;
Lista de símbolos
XV
LISTA DE ABREVIATURAS
Y ACRÓNIMOS
ABREVIATURAS
etc etcétera
et al y colaboradores
& y
% tanto por cien
UNIDADES
dcd candela
hz hercios
Mhz Megahercios
lm lumen
lx lux
m metros
m2 metros cuadrados
mm milímetros
nm nanómetros
rd radianes
s segundos
ms milisegundos
w vatios° grados angulares°K grados Kelvin
ACRÓNIMOS
A/D Analógico/Digital
AID Agricultural Industrial Development
ASCII American Standard Code for Information Interchange
BSRDF Bidirectional Spectral Reflectance Distribution Function
CCD Charge Coupled Device
CEMAGREF Centre National de Machinisme Agricole des Eaux et des Fôrets
CIE Commission International de l’Eclairage
D/A Digital/Analógico
E/S Entrada/Salida
IHS Intensity, Hue, Saturation
IVIA Instituto Valenciano de Investigaciones Agrarias
LUT Look Up Table
NTSC National Television Systems Committees
PAL Phase Alternation Line
PC Personal Computer
RAM Ramdom Acces Memory
RGB Red, Green, Blue
SE Standard Error
Lista de abreviaturas y acrónimos
XVIII
LISTA DE FIGURAS
I.1 Organización de los módulos del robot 25
1.1 Geometría de la imagen 38
1.2 Señal de referencia y tiempos de sincronización del disparo 41
1.3 Iluminación de un objeto esférico 46
1.4 Coordenadas cartesianas y esféricas de un punto sobre la esfera 48
1.5 Imagen de frutos con iluminación natural 51
1.6 Misma escena que la imagen de la figura 1.6 tomada con sistema de
iluminación de flash 51
1.7 Variación de la reflexión superficial y difusa en función del ángulo de
incidencia 53
1.8 Representación 3D de los valores de una imagen de naranjas 54
1.9 Representación de los niveles de gris de una fila de una imagen de
naranjas 55
2.1 Ejes de coordenadas en la imagen 66
2.2 Imagen de una naranja entre objetos comunes 69
2.3 Transformación concavidad de la figura 2.2 69
2.4 Imagen de una escena de naranjas 70
2.5 Trasformación concavidad de la figura 2.4 70
2.6 Puntos de la figura 2.2 cuyo resultado es negativo al aplicar el
"sombrero mejicano" 72
2.7 Puntos de la figura 2.4 cuyo resultado es negativo al aplicar el
"sombrero mejicano" 72
2.8 Segmentación por umbral a partir de la transformación concavidad
de la figura 2.3 74
2.9 Segmentación por umbral a partir de la transformación concavidad
de la figura 2.5 74
3.1 Corte de un elipsoide por un plano perpendicular al plano xy 81
3.2 Imagen de una escena de naranjas tomada con flash 89
3.3 Arriba, puntos resultado del ajuste. Abajo, puntos del ajuste
superpuestos sobre imagen original 90
3.4 Arriba, puntos resultado del ajuste con máscara variable. Abajo,
puntos del ajuste superpuestos sobre imagen original 91
3.6 Representación del ajuste de los puntos ri del entorno del punto r0 92
3.5 Representación de los niveles de gris de una fila de la imagen
que corta a un fruto 93
4.1 Curvatura de una circunferencia ideal en el plano digital 102
4.2 Imagen de distancias al punto central 112
4.3a Imagen binaria de galletas 120
4.3b Reconstrucción de 4.3a utilizando el método de minimización como
función disimilitud 120
4.3c Reconstrucción de 4.3a utilizando la imagen de distancias como
función disimilitud 120
4.4a Imagen binaria de galletas 120
4.4b Reconstrucción de 4.4a utilizando el método de minimización
como función disimilitud 120
4.4c Reconstrucción de 4.4a utilizando la imagen de distancias como
función disimilitud 120
4.5a Imagen binaria de una escena de naranjas 122
4.5b Reconstrucción de 4.5a utilizando el método de minimización
como función disimilitud 122
4.5c Reconstrucción de 4.5a utilizando la imagen de distancias como
función disimilitud 122
4.6a Imagen binaria de una escena de naranjas 123
4.6b Reconstrucción de 4.6a utilizando el método de minimización
como función disimilitud 123
4.6c Reconstrucción de 4.6a utilizando la imagen de distancias como
función disimilitud 123
4.7a Imagen binaria de una escena de naranjas 124
4.7b Reconstrucción de 4.7a utilizando el método de minimización
Lista de figuras
XX
como función disimilitud 124
4.7c Reconstrucción de 4.7a utilizando la imagen de distancias como
función disimilitud 124
5.1 Haz de planos dicromáticos en el espacio RGB 135
5.2 Corte de la esfera direccional por un plano dicromático 138
5.3 Ángulo α de un punto Pi en el plano XY 142
5.4 Espacio direccional ϕθ con un conjunto de curvas dicromaticas
que cruzan el iluminante P0 situado en el color blanco 144
5.5 Representación de colores de puntos sobre dos objetos reales en el
espacio ϕθ 145
5.6a Histograma de la variable & de los colores de una clase 152
5.6b Histograma de la figura 5.6a con origen de la variable α en la
media de la disribución 152
5.6c Histograma auxiliar a partir de la figura 5.6b para calcular el
umbral derecho α2 152
5.7 Partición del espacio ϕθ en tres clases de color 153
5.8 Representación en el espacio ϕθ de los colores de bolas que
aparecen en la figura 5.9 158
5.9 Imagen de bolas de color uniforme iluminadas con luz
fluorescente del laboratorio. Entre ellas aparece un objeto
metálico de superficie cilíndrica 159
5.10a Imagen de una escena de naranjas con iluminación natural 160
5.10b Segmentación de la imagen de la figura 5.10a por el método
desarrollado 160
5.11a Imagen de una escena de naranjas con iluminación natural 161
5.11b Segmentación de la imagen de la figura 5.11a por el
método desarrollado 161
5.12a Imagen de una escena de naranjas con iluminación natural 162
5.12b Segmentación de la imagen de la figura 5.12a por el
método desarrollado 162
5.13 Conjunto de prototipos utilizados en el clasificador por el vecino
más próximo 165
Lista de Figuras
XXI
6.1 Sistema estereoscópico 174
6.2 Rectas epipolares en un sistema estereoscópico de ejes
ópticos paralelos 175
6.3 Sistema de ejes coordenados en un sistema estereoscópico
de ejes ópticos paralelos 176
6.4a Máscara construida a partir de una región en la imagen izquierda 182
6.4b Imagen binaria 183
6.4c Matching con una región 183
6.6 Situación relativa de puntos correspondientes 186
6.7 Franja de búsqueda de región correspondiente 187
6.8 Desplazamiento de la máscara a través de la franja 188
6.9 Representación de los valores experimentales de las distancias
estimadas por el sistema estereoscópico en función de la
distancia real 194
6.10a Imagen izquierda de una escena de naranjas 196
6.10b Imagen derecha de la misma escena de la figura 6.10a 196
6.10c Imagen binaria de la figura 6.10a con sus correspondientes de
la imagen de la figura 6.10d 196
6.10d Imagen binaria de la figura 6.10b con sus correspondientes de
la imagen de la figura 6.10c 196
6.11a Imagen izquierda de una escena de naranjas 197
6.11b Imagen derecha de la misma escena de la figura 6.11a 197
6.11c Imagen binaria de la figura 6.11a con sus correspondientes de
la imagen de la figura 6.11d 197
6.11d Imagen binaria de la figura 6.11b con sus correspondientes de
la imagen de la figura 6.11c 197
6.12a Imagen izquierda de una escena de naranjas 198
6.12b Imagen derecha de la misma escena de la figura 6.12a 198
6.12c Imagen binaria de la figura 6.12a con sus correspondientes de
la imagen de la figura 6.12d 198
6.12d Imagen binaria de la figura 6.12b con sus correspondientes de
la imagen de la figura 6.12c 198
Lista de figuras
XXII
6.13 Caso en que el punto esté situado entre ambos ejes ópticos 200
6.14 Caso en que el punto esté situado a la izquierda del eje
óptico izquierdo 201
6.15 Caso en que el punto esté situado a la derecha del eje
óptico derecho 203
7.1 Variación del error de restitución, R(Tk), y del error estimado
real, R̂(Tk), de los árboles Tk, en función del número de nodos
terminales | T~k| 209
7.2 Evolución del error estimado de la sucesión de árboles por el
método BR y ME 235
8.1 Esquema de la tarjeta PIP-1024B 242
8.2 Esquema de la tarjeta DT-2871 244
8.3 Equipo de análisis de imagen para ensayos en el campo 245
9.1 Sectores y caminos alternos en la imagen 250
9.2 Solapamiento de escenas en dirección vertical 254
9.3 Racimo de naranjas 260
9.4 Geometría de la dirección del punto del espacio objeto en un
sistema óptico 272
9.5 Relación entre los ángulos ϕ y ϕ′ según el cuadrante donde
se encuentren los puntos objeto, P, e imagen P′ 273
9.6 Proyección de un plano dicromático sobre el plano RG 275
9.7 Ángulos α de un punto (r,g) en el plano RG 276
10.1 Sistema de visión instalado en el brazo del prototipo 293
10.2 Muestras en el espacio ϕθ representando al conjunto de
aprendizaje utilizado. Los puntos de la clase 1 son las naranjas,
los de la clase 2 las hojas, y la clase 3 representa al cielo 301
10.3a Imagen de una escena de frutos con iluminación natural 307
10.3b Resultado del algoritmo de reconocimiento sobre la imagen 10.3a 307
10.4a Imagen de una escena de frutos con iluminación natural 308
10.4b Resultado del algoritmo de reconocimiento sobre la imagen 10.4a 308
10.5a Imagen de una escena de frutos con iluminación natural 309
10.5b Resultado del algoritmo de reconocimiento sobre la imagen 10.5a 309
Lista de Figuras
XXIII
10.6a Imagen de una escena de frutos con iluminación natural 310
10.6b Resultado del algoritmo de reconocimiento sobre la imagen 10.6a 310
10.7 Muestras en el espacio ϕθ que representan al conjunto de
aprendizaje utilizado. Los puntos de la clase 1 son las naranjas,
los de la clase 2 las hojas 313
10.8a Imagen de una escena de frutos con iluminación artificial 315
10.8b Resultado del algoritmo de reconocimiento sobre la imagen 10.8a 315
10.9a Imagen de una escena de frutos con iluminación artificial 316
10.9b Resultado del algoritmo de reconociminto sobre la imagen 10.9a 316
10.10a Imagen de una escena de frutos con iluminación artificial 317
10.10b Resultado del algoritmo de reconocimiento sobre la imagen 10.10a 317
10.11a Imagen de una escena de frutos con iluminación artificial 318
10.11b Resultado del algoritmo de reconocimiento sobre la imagen 10.11a 318
10.12 Muestras en el espacio ϕθ representando al conjunto de
aprendizaje utilizado. Los puntos de la clase 1 son las
manzanas Granny Smith, los de la clase 2 las hojas, y la
clase 3 el cielo 321
10.13a Imagen de una escena de frutos con iluminación artificial 323
10.13b Resultado del algoritmo de reconocimiento sobre la imagen 10.13a 323
10.14a Imagen de una escena de frutos con iluminación artificial 324
10.14b Resultado del algoritmo de reconocimiento sobre la imagen 10.14a 324
10.15 Muestra en el espacio ϕθ representando al conjunto de
aprendizaje utilizado. Los puntos de la clase 1 son las
manzanas Gala , y los de la clase 2 las hojas 325
10.16a Imagen de una escena de frutos con iluminación artificial 327
10.16b Resultado del algoritmo de reconocimiento sobre la imagen 10.16a 327
10.17a Imagen de una escena de frutos con iluminación artificial 328
10.17b Resultado del algoritmo de reconocimiento sobre la imagen 10.17a 328
10.18 Partición de los conjuntos de muestras de aprendizaje 331
10.19a Imagen de una escena de naranjas verdes con iluminación artificial 339
10.19 Resultado del algoritmo de reconocimiento sobre la imagen 10.19a 339
10.20 Imagen de una escena de naranjas verdes con iluminación artificial 340
Lista de figuras
XXIV
10.20b Resultado del algoritmo de reconocimiento sobre la imagen 10.20a 340
10.21a Imagen de una escena de naranjas verdes con iluminación artificial 341
10.21b Resultado del algoritmo de reconocimiento sobre la imagen 10.21a 341
10.22a Imagen de una escena de naranjas verdes con iluminación artificial 342
10.22b Resultado del algoritmo de reconocimiento sobre la imagen 10.22a 342
B.1 Sensor de exploración de linea 362
B.2 Sensor matricial 362
C.1 Intervalos de confianza entre para el error estimado 379
D.1 Operador "sombrero mejicano" unidimensional 389
E.1 Reflexión de la luz en un material dieléctrico 391
E.2 Geometría de los rayos incidente y reflejado 395
E.3 Plano dicromático en el espacio RGB 399
Lista de Figuras
XXV
LISTA DE TABLAS
5.1 Resultado de los diferentes clasificadores sobre los conjuntos de
muestras de color en el espacio ϕθ 166
7.1 Resultado de los árboles binarios sobre el conjunto de muestras
de color 232
7.2 Resultado de los árboles binarios sobre el conjunto de muestras
de 7 dimensiones 232
10.1 Resultados del algoritmo de reconocimiento basado en la
utilización de un filtro interferométrico de 650 nm 94
10.2 Resultado de los ensayos con el prototipo 294
10.3 Resultados de la aplicación del método de reconocimiento basado
en color, sobre naranjas, en condiciones de iluminación natural 304
10.4 Resultados de la aplicación del método de reconocimiento basado
en color, sobre naranjas, en condiciones de iluminación artificial 314
10.5 Resultados de la aplicación del método de reconocimiento basado
en color, sobre manzanas Granny Smith, en condiciones de
iluminación artificial 322
10.6 Resultado de la clasificación de las muestras del conjunto Lt 332
AGRADECIMIENTOS
Expresar en primer lugar mi agradecimiento al Instituto Valenciano de
Investigaciones Agrarias, donde se ha realizado este trabajo, por el uso
incondicional de sus equipos e instalaciones.
A los directores de esta tesis, D. Florentino Juste Pérez, por su dedicación,
orientación e inestimable apoyo, y D. Marcelino Vicens Lorente, por sus valiosos
consejos y orientación en la realización de este trabajo.
A Enrique Moltó García, sobre todo por el ánimo y anhelo que ha
infundido en la realización de este trabajo.
A Francesc Ferri Rabasa, por su sincero apoyo y colaboración, sobre todo
en los momentos difíciles.
A José Luís Alventosa García, por sus consejos en la edición de este
trabajo.
A Inmaculada Fornes Chulia, por su ayuda y colaboración, principalmente
en los montajes experimentales.
A mis compañeras y compañeros del IVIA, quienes han aportado su ayuda
cuando era necesaria, y sobre todo por su calor y compañerismo, con los que ha
sido un placer trabajar.
A Industrias Albajar S.A., empresa española titular del proyecto CITRUS,
con la que se ha colaborado en el desarrollo de este trabajo.
Asimismo, a todos los participantes del proyecto EUREKA
"CITRUS-ROBOT".
En fin, a todos cuantos han colaborado, de una forma o de otra, en la
realización de este trabajo, cuyo anonimato no les resta importancia.
INTRODUCCIÓN
Desde la década de los 70, el proceso digital de imágenes comienza a
adquirir un gran auge y a integrarse en diversas facetas de la tecnología. La
visión artificial es una disciplina que surge en robótica con el fin de realizar
tareas en las que se precisa un mayor grado de conocimiento del entorno para
tomar decisiones de una manera mas próxima a como las realizaría un ser
humano.
La visión artificial integra a su vez la electrónica y el análisis digital de
imágenes. La electrónica como soporte físico del sistema, materializado en
cámaras de video como sensores físicos, fuentes de iluminación, sistemas
electrónicos de conversión analógico/digital para transformar la información con
objeto de ser tratada mediante un ordenador, etc. Por otra parte, son tareas
específicas del proceso digital de imágenes la metodología y las técnicas a
utilizar para el proceso de los datos de la escena para un análisis e
interpretación de los mismos.
El campo de aplicación del proceso digital de imágenes no sólo se limita al
análisis de información para máquinas y automatismos, sino también en la
mejora y tratamiento de imágenes para una mejor visualización de éstas de cara
a una interpretación humana, o la codificación de las imágenes para
transferencias de información rápidas y fiables. Como ejemplo de todos estos
campos de aplicación podríamos citar el reconocimiento y localización de objetos
para su manipulación automática, el proceso de imágenes para una mejora de su
visualización en radiografías médicas, u otros tipos de imágenes fuera del
espectro visible, como imágenes de infrarrojos o imágenes en el campo de la
astronomía, imágenes de satélite, codificación y transmisión de imágenes tomadas
por satélites, videoteléfono, mejora y restauración por tratamiento de posibles
ruidos en la imagen a causa de una deficiente iluminación o por ruidos en el
canal de transmisión, etc.
La aplicación que nos ocupa en este trabajo es el desarrollo de técnicas de
análisis digital de imágenes dentro del sistema de visión artificial en un robot,
en este caso un robot recolector de frutos. Aunque la implantación de estas
técnicas ha tenido su mayor exponente hasta el momento en robots o sistemas
automáticos en el sector industrial, comienzan a introducirse en estos momentos
en el sector agrícola.
El agrícola es un sector en crisis en nuestros días. La superproducción
debida al incremento de productividad, unido al aumento de la extensión de
zona cultivable, exige una reconversión de este sector, pasando por una mejor
planificación en la producción agrícola, adaptando las explotaciones para una
automatización de las tareas que allí se desarrollan.
Las nuevas tecnologías se han introducido con fuerza en cierto tipo de
cultivos que se realizan en ambientes artificiales y bajo condiciones controladas
(invernaderos, cultivos en sustratos artificiales, aportación controlada de
nutrientes, etc), pero la mayoría de cultivos se realizan en ambientes naturales
donde la automatización no es tan evidente. Hoy en día, todas las tareas del
proceso de producción de la mayoría de los cultivos están mecanizadas o
automatizadas en mayor o menor medida; sin embargo, dadas las especiales
características de la recolección de frutas y hortalizas para consumo en fresco,
aún no ha sido posible aplicar estas técnicas en estos productos.
En la actualidad se está trabajando con gran intensidad en el desarrollo de
sensores que permitan un cambio en estos sistemas mecanizados hacia una
automatización; así, se están desarrollando sistemas informatizados para el control
de máquinas agrícolas, explotaciones ganaderas, redes de riego, etc. La aplicación
de la robótica, aunque ya empieza a estar presente en algunos sectores agrícolas,
sigue evolucionando con investigaciones y programas de desarrollo muy activos.
La mayoría de estos programas se encuentran en estado experimental y los
primeros resultados apuntan a su imposición en un futuro próximo.
La recolección de frutas y hortalizas es uno de los sectores en que el salto
tecnológico entre la mecanización clásica, a base de maquinaria para una
recolección masiva, y los procesos de automatización pueden estar más próximos.
Desde 1970 han sido muy numerosos los intentos realizados en el mundo para
Introducción
2
tratar de mecanizar esta operación de recolección. Así, se han empleado sistemas
vibratorios, sistemas mecánicos de extracción, neumáticos, etc. Todos estos
sistemas basados en el principio de una recolección masiva tampoco han dado
los resultados esperados debido a los daños producidos en la fruta. Algunos
ensayos basados sobre una recolección selectiva como el sistema de dedos
flexibles o el de cañones extractores, tampoco han dado los resultados esperados.
La recolección mecánica con air blowers o vibradores, con un tratamiento
químico complementario, no han superado el estado experimental incluso en
paises donde la producción no está supeditada principalmente a evitar daños en
los árboles y los frutos.
Como alternativa de investigación, institutos e industrias están llevando a
cabo estudios de viabilidad y desarrollo de prototipos de máquinas recolectoras
robotizadas, con mayor incidencia en el sector hortofrutícola (tomates, manzanas,
etc.) y los cítricos.
1 La recolección robotizada
El reto tecnológico de los robots recolectores comparado con los robots
industriales, los distingue en ciertos problemas específicos:
- Operatividad en ambientes naturales, en condiciones de iluminación y
otros factores incontrolados.
- Búsqueda de objetos en condiciones de visibilidad desfavorables, ocultos
por obstáculos.
- Tiempo de ciclo por fruto muy cortos, alrededor del segundo o dos
segundos por fruto.
- Variedad de frutos (color, tamaño, etc).
- Variedad de estructuras y formas del árbol.
- Necesidad de un vehículo de guiado automático en un entorno
incontrolado.
- Posibilidad de experimentación del prototipo un corto plazo de tiempo al
año, dependiendo de la época de recolección.
Introducción
3
Aunque existe una gran disparidad de conclusiones en estudios económicos
realizados (Harrell, 1987; Moltó, 1991), incluso quienes concluyen la inviabilidad
de un robot recolector de frutos (Spharim & Nakar, 1987), lo cierto es que
desde finales de los años 70, en que se realizaron las primeras investigaciones
sobre la posibilidad de aplicar la robótica a la recolección de frutos (Parrish &
Goksel, 1977), se han sucedido los estudios y los proyectos para el diseño de un
robot recolector de frutos. Algunos de éstos se han quedado en estudios aislados
para la concepción de un prototipo real, como los llevados a cabo en Israel
(Sarig et al, 1988; Ness, 1988; Edan et al, 1990); o en prototipos de laboratorio
(Kawamura, 1983); pero, desde mediados de los 80, se empieza a pensar
decididamente en la posibilidad de realizar una recolección selectiva y dirigida
mediante un sistema robotizado. Así el ’Centre National de Machinisme Agricole
des Eaux et des Forêts’ (CEMAGREF) de Montpelier, la Universidad de Florida
y varios centros de Japón inician proyectos en este sentido.
De 1983 a 1986 se inició una fase de investigación en forma de proyecto
interno en el CEMAGREF, la construcción de un prototipo de robot en
laboratorio para la recolección de manzanas. En 1986, el CEMAGREF se asoció
con una empresa de maquinaria agrícola y con otros dos laboratorios para la
construcción del prototipo, el MAGALI. Este fue el primer robot en el mundo
para la recogida automática de frutos que operó en el campo. Los buenos
resultados de los ensayos realizados en 1988 en todo tipo de plantaciones
representativas de la producción de manzanas en Francia, permitieron una
extensión del programa de mejoras y la construcción de un segundo prototipo.
La idea fundamental de este robot (Grand D’Esnon et al, 1987) consistía
en una cámara situada en la base del brazo, concretamente en el centro
coordenadas de éste, desde donde si el fruto era visible, la trayectoria rectilínea
desde la cámara al fruto estaba libre de obstáculos. Una vez enviado el brazo a
lo largo de esta trayectoria, un sensor situado en la mano del brazo le
informaba de la proximidad del fruto para que el brazo fuera frenado. Este
procedimiento evitaba tener que determinar de antemano la tercera dimensión, o
sea, la distancia entre la cámara y el fruto. Esta estructura permitía trabajar al
robot en coordenadas esféricas, encontrándose la cámara en el centro de la
Introducción
4
esfera de acción descrita por los movimientos del robot. El diseño del brazo era
de tipo pantógrafo, en el que el eje de extensión articulado se gobernaba por un
ángulo. El robot también estaba provisto de un elevador que le pemitía barrer la
superficie de los árboles a todas las alturas. Finalmente, la máquina estaba
colocada sobre un vehículo autónomo guiado automáticamente a través del
cultivo.
En 1986, el ’Agricultural Industrial Development’ (AID) SpA de Catania
(Italia) y la Universidad de Florida (Estados Unidos) iniciaron un proyecto para
desarrollar un robot recolector de cítricos. Fruto de esta cooperación fueron dos
prototipos experimentales similares que llegaron a trabajar en campo
satisfactoriamente. Los prototipos se diferenciaban básicamente en el sistema de
control y la visión del robot. En cuanto a la arquitectura del brazo, ambos eran
similares. El prototipo de AID se basaba en coordenadas cilíndricas (Blandini &
Levi, 1989), y el de la Universidad de Florida en coordenadas esféricas (Harrell
et al, 1990), ambos con tres grados de libertad, provistos de un elemento
deslizante como eje de extensión, en el que al final se situaba el efector final o
mano.
El principio del sistema de visión en ambos casos era diferente. Para el
prototipo desarrollado en Italia la cámara se situaba en la base del eje de
extensión, dirigiéndose al fruto una vez alineado el brazo con el fruto. El
prototipo de la Universidad de Florida tenía situada la cámara al final del eje
de extensión, dentro de la mano, lo que le permitía una realimentación en el
cálculo de la dirección del fruto para ir dirigiendo al brazo a través de la
trayectoria que se iba corrigiendo constantemente.
El proyecto iniciado por el AID y la Universidad de Florida ha tenido una
continuidad en el CRAM, antiguo AID de Catania, donde se trabaja activamente
en el diseño de manos más sofisticadas. El proyecto francés MAGALI dirigió sus
esfuerzos a un desarrollo de los conocimientos y experiencia adquiridos a la
recolección de otros frutos de mayor relevancia cuantitativa en la producción
mundial, como las naranjas.
Introducción
5
2 El proyecto CITRUS
En 1987 se inició un proyecto de colaboración hispano-francés para el diseño y
construcción de un robot recolector de cítricos, el CITRUS. Este proyecto
financiado por los Ministerios de Industria de los respectivos paises, está dentro
del programa de paises que componen el grupo EUREKA. Este grupo se formó
con el propósito de impulsar la investigación en las empresas privadas europeas
de cara a competir en la carrera tecnológica con los paises más desarrollados
como Estados Unidos y Japón.
Tras la aprobación del proyecto se inició una fase de definición de 18
meses entre 1988 y 1989. En esta fase se configuró la filosofía del proyecto y las
líneas de investigación a seguir por parte de los participantes españoles y
franceses. A la fase de definición le siguió la primera fase de investigación y
desarrollo entre 1989 y 1990, durante la cual se realizaron los objetivos
propuestos en la fase anterior. Por parte de los participantes franceses, en esta
fase se destacó la continuación en el desarrollo adquirido durante su experiencia
en el proyecto MAGALI, con mejoras en el control del robot y el desarrollo de
un sistema de visión adaptado a los cítricos.
En cuanto a la parte española, se llegó a lo que sería el primer prototipo
robot español recolector de frutos. Este prototipo se basaba en coordenadas
esféricas con tres grados de libertad y un principio de funcionamiento similar al
desarrollado por italianos y estadounidenses, con un eje de elongación en el que
al final se situaba la mano, y la cámara situada en el centro de coordenadas del
robot, obteniendo la dirección en la que está localizado el fruto. La mano estaba
provista de un sensor de infrarrojos que detectaba la presencia del fruto en el
momento que se aproximaba a su posición.
La filosofía global del proyecto tiene como fin el desarrollo de un
prototipo industrial de las siguientes características: los brazos, en número de
dos, irán montados sobre una plataforma elevadora para acceder a las distintas
alturas del árbol, a su vez esta plataforma va montada sobre un vehículo
autónomo provisto de guiado automático que le conducirá a través de las
Introducción
6
plantaciones, y de un sistema de almacenamiento y manutención de la fruta una
vez sea recogida.
Desde 1991 y hasta 1993 se está llevando a cabo la segunda fase de
investigación y desarrollo a la que le seguirá una ultima fase para el lanzamiento
de un prototipo preindustrial. Durante la fase actual se han concentrado los
esfuerzos de los participantes en la realización de un único prototipo
hispano-francés, así como en el desarrollo definitivo del vehículo portador.
De la situación actual del proyecto, se concluye su viabilidad, aunque para
ello deberá profundizarse en la mejora de algunas partes para obtener los
objetivos de un prototipo industrial útil para el mercado y en las que ya se está
trabajando. Las mejoras deben ir en la dirección de una reducción del tiempo
del ciclo total de recogida por fruto, optimizando el diseño y control del brazo,
reduciendo el peso del mismo y limitando la longitud total de extensión,
perfeccionando el sistema de visión hasta aumentar la tasa de detección a más
del 90 % y la detección de frutos en sus primeros estadios de madurez, y una
modificación de las plantaciones y estructura del árbol que permita una mayor
visibilidad y accesibilidad de los frutos (solo entre el 40− 50 % de los frutos en
el árbol son visibles por un observador estático en plantaciones tradicionales
[Juste et al, 1991]), una mejor distribución de los frutos en el árbol,
favoreciendo la fructificación hacia el exterior, así como la mejora de las manos
que capturan los frutos (las desarrolladas hasta el momento consiguen capturar el
91 % de los intentos efectuados de los que prácticamente ningún fruto sufre
daños [Juste & Sevila, 1991]). Con todo ello y los objetivos logrados en esta
segunda fase de desarrollo hasta el momento, la consecución del proyecto tiene
unos horizontes más claros y definitivos.
Todos los estudios que se van a describir y exponer en este trabajo, han
sido realizados bajo el marco del proyecto CITRUS, más concretamente en el
sistema de visión del robot recolector. La definición del problema, así como los
objetivos marcados por este trabajo, se expondrán tras una revisión de la
situación de la visión artificial en la agricultura y, más concretamente, en los
sistemas de visión para robots de recolección.
Introducción
7
I. VISIÓN ARTIFICIAL
EN AGRICULTURA
Como se indicó al principio de la introducción, los dos sectores dentro de
la agricultura en el que el desarrollo de las técnicas de visión artificial han
tenido más auge son: las industrias agroalimentarias y la recolección robotizada.
Dentro de las industrias agroalimentarias la visión artificial se ha aplicado sobre
todo a sistemas de control de calidad por inspección visual de los frutos, tanto
para su clasificación, como para la detección de defectos. Otro aspecto en el que
la visión artificial ha entrado con fuerza es en el desarrollo de métodos de
reproducción automática de plantas, bien por técnicas in vitro o por técnicas
tradicionales como la reproducción por esquejes. Un último campo de aplicación
de la visión artificial en la agricultura es el guiado automático de vehículos
agrícolas, pero menos importante que los anteriores, ya que existen otros
métodos de guiado automático no basados en visión que están dando buenos
resultados, no obstante, también es una línea de investigación dentro del guiado
automático.
Existe una clara diferencia entre las aplicaciones desarrolladas en las
industrias agroalimentarias y las de robótica de recolección y guiado. Los
sistemas de visión industriales trabajan en ambientes controlados, es decir, la
iluminación, la estructura de la escena, la situación de los objetos, la elección
del fondo, etc, pueden determinarse para la configuración que mejor facilite el
proceso de análisis de imagen. En ambientes naturales o incontrolados los
inconvenientes son mucho mayores, inconvenientes derivados de la falta de
control sobre los objetos y factores que caracterizan la escena.
I.1 Visión en ambientes controlados
Como ya se ha mencionado anteriormente, los trabajos en selección de
productos agrícolas mediante la detección de tamaño, forma, color, defectos, etc,
es uno de los campos de aplicación más importantes del análisis de imagen en
este sector. La visión por computador puede ser una alternativa viable para
detectar ciertos rasgos y propiedades de materiales en los que métodos
mecánicos no han obtenidos buenos resultados. Los bajos costes del hardware y
el desarrollo de software apropiado posibilita la aplicación de esta tecnología a
los problemas de control de calidad de alimentos. A continuación se describe
una relación de los trabajos más significativos en este campo, en el que se viene
trabajando desde finales de los años setenta, coincidiendo con el florecimiento de
las técnicas de análisis de imágenes.
El propósito general de la utilización de estos métodos es la automatización
de procesos en las industrias agroalimentarias durante el manipulado y
almacenamiento de los frutos, intentando suplir actividades que hasta el
momento necesitaban la dedicación de una persona en tareas específicas como la
inspección visual de los productos para clasificación y acondicionamiento en el
embalado principalmente. En este sentido el análisis de imagen se utiliza para
medir ciertos parámetros, localizar defectos o diferenciar ciertas partes de los
frutos.
En un breve repaso a los diferentes trabajos realizados sobre el tema,
podemos mencionar a Wolfe & Sandler (1985) que utilizaban el análilsis de
imagen, concretamente de contornos, para detectar los pezones de cerezas y
arándanos para suprimirlos posteriormente. Sarkar & Wolfe (1986) trabajaron en
la selección de tomates detectando defectos en la piel de estos frutos a partir de
filtros de extracción de bordes.
Uno de los trabajos realizados para la clasificación de manzanas mediante
la detección de defectos por medio de visión artificial fue desarrollado por
Rehkugler et al (1989). El objetivo era detectar daños por golpes sufridos por la
fruta, caracterizados, (en la banda del infrarrojo cercano), por su tono oscuro y
su forma redondeada.
Visión artificial en agricultura
10
En la misma línea que el trabajo anterior Throop et al (1989) ensayaron
métodos para la detección de podredumbre en el interior de manzanas mediante
visión artificial. Uno de los métodos consistía fundamentalmente en la
determinación de la densidad de los frutos, ya que según sus estudios existía una
relación entre las densidades de las manzanas defectuosas y las sanas. La visión
se utilizaba para calcular el volumen del fruto.
Siguiendo en selección de frutos mediante análisis de imagen tenemos el
trabajo realizado por Miller & Delwiche en 1989. En este trabajo se utilizan ya
imágenes en color RGB (Red, Green, Blue), cuya aplicación fue desarrollada para
la selección de melocotones en función del grado de madurez de éstos, muy
dependiente del color que adquieren.
Marchant et al (1990) diseñaron un sistema de visión industrial de
clasificación de patatas. El objetivo era clasificar patatas en tiempo real mientras
pasaban a lo largo de una cinta transportadora constituida por rodillos giratorios.
Más recientemente, Paulsen et al (1992) han aplicado el análisis de imagen
para seleccionar granos de maíz. El propósito de este trabajo consistía en
clasificar los granos a partir de varios aspectos. En primer lugar se analizaba si
los granos presentaban roturas o estaban enteros. Por otra parte se buscaban
daños en el núcleo del grano y otros tipos de daños de menor importancia.
Existen otras aplicaciones en las que la visión artificial está jugando un
papel cada vez mas importante. Este es el caso por ejemplo de la manipulación
de productos agrícolas, tanto en el proceso de reproducción de plantas como el
procesado de productos de cara al mercado. Dentro de este último aspecto
tenemos por ejemplo los trabajos realizados por Guillaume et al (1991) en el
que se describe un sistema de visión para un robot que limpia y corta la parte
sobrante de las lechugas para su empaquetado y envío al mercado. El sistema de
visión localiza e indica al robot donde se encuentra la parte central de la
lechuga para, una vez sujeta, quitarle las partes no aptas para el consumo.
Harrell (1991) utiliza la información que extrae mediante el análisis de
imágenes de embriones de plantas en reproducción in vitro para clasificar estos
embriones en arreglo a características como el color, y diferentes medidas
Visión artificial en agricultura
11
geométricas como el área, diámetros verticales y horizontales de las regiones,
etc., con la aplicación de clasificadores paramétricos bayesianos de tipo lineal.
Por último, uno de los trabajos para clasificar esquejes de begonia, para su
posterior plantación, fue realizado por Dijkstra (1991). Su propósito era clasificar
los esquejes en arreglo al área total del que presentaban las hojas del esqueje.
La identificación de las dos hojas, menor y mayor el esqueje, se realizaba por
medio del contorno del esqueje. La proporción hoja grande a pequeña influía en
el posterior desarrollo de la plántula.
I.2 Revisión de la literatura en sistemas de visión para recolección
robotizada
Dentro de los campos de aplicación de la visión artificial en la agricultura, la
visión en robótica de recolección es el que nos ocupa en este trabajo. Desde los
trabajos pioneros de Parrish & Goksel en 1977, varios investigadores han
realizado estudios y diseñado procedimientos en sistemas de visión para
recolección robotizada en manzanas, tomates, melocotones y naranjas
principalmente. Como veremos, todos ellos utilizaron técnicas de tratamiento
digital de imágenes por ordenador para alcanzar los fines deseados, el
reconocimiento y localización de los frutos en su ambiente natural. A
continuación se expone una relación cronológica de los trabajos realizados en
sistemas de visión para recolección robotizada, en los que se muestra una breve
descripción de la metodología y, en su caso, los materiales relevantes utilizados
por cada uno de ellos.
Parrish & Goksel (1977), como se ha indicado anteriormente, fueron los
pioneros en aplicar estas técnicas de visión artificial a la recolección robotizada
de frutos. Ellos diseñaron un algoritmo para la detección de manzanas en árbol
para su implementación en un robot recolector.
El sistema consistía en una cámara en blanco y negro a la que se le
incorporaban unos filtros, de esta manera se añadía al sistema una propiedad
función del color de los objetos de la escena, ya que con la elección del filtro
Visión artificial en agricultura
12
adecuado se obtenía un realce de los frutos respecto al resto de los
componentes de la imagen. Tras una segmentación por medio de un umbral
arbitrario y un suavizado sobre la imagen binaria para la eliminación de ruido, la
clasificación se realizaba mediante el thinness ratio, calculando éste para cada
región se intentaba parametrizar el grado de redondez que poseía la región
analizada, dado el carácter circular de las regiones pertenecientes a los frutos. Si
el clasificador daba por posible fruto a la región, se calculaba su centroide para
indicarlo al brazo manipulador.
Para la detección de frutos superpuestos no se utilizaba ningún algoritmo
especializado en el tema, como los de Riutala (1968) o Arcilli (1971), ya que
estos algoritmos conllevan un gran coste computacional, en su lugar se
intentaban detectar por medio del tamaño de la región.
Tuttle (1983) propuso el uso de dos filtros situados en las bandas
600− 700 nm y 750− 850 nm . Calculando la proporción entre la luz que llegaba
del objeto a través de estos dos filtros se intentaba compensar el hecho de que,
según Tuttle, la energía reflejada desde la superficie del objeto es inversamente
proporcional a la cuarta potencia de la distancia al objeto. Si se utilizara un solo
filtro, una hoja a un metro de la cámara podría aparecer teóricamente más
brillante que una naranja a 3 metros de distancia. El método sólo era aplicable
durante la noche con apoyo de iluminación artificial, ya que a la luz del día este
principio no funcionaba debido a que una naranja en la sombra no es
necesariamente más brillante que una hoja a la que le incide la luz del sol
directamente.
Con frecuencia, en este tipo de aplicaciones, la visibilidad de los frutos es
parcial. Uno de los intentos en desarrollar algoritmos de detección en estas
condiciones fue realizado por Whittaker et al. en 1987.
Se intentaba diseñar un procedimiento que independientemente del color y
en presencia de interferencias como brillos y zonas de sombra, fuera capaz de
detectar frutos cuyos contornos estuvieran parcialmente ocultos. Para ello se
utilizó la transformada de Hough modificada por Duda & Hart (1973) con el fin
Visión artificial en agricultura
13
de localizar contornos parcialmente ocultos. Antes de la aplicación de la
transformada de Hough se realizaba un preproceso para la extracción de los
bordes en la imagen mediante un operador gradiente; a cada uno de estos
puntos pertenecientes a bordes se les asignaba una orientación, correspondiente a
la dirección de máxima variación, calculada a partir del gradiente de Sobel
(Nevatia, 1982). A través de la transformada de Hough se buscaban
distribuciones circulares de estas direcciones que apuntaran a un centro común.
La determinación de un umbral en el plano de acumuladores se establecía
analizando el histograma de este plano, observando que este histograma se podía
aproximar por una función exponencial decreciente.
El uso de filtros en la zona del rojo en el espectro para la aplicación de
esta técnica a la localización de tomates, aumentaba la eficacia de este
clasificador al realzar los frutos de los demás objetos presentes.
Dentro del los trabajos realizados sobre reconocimiento en color, Slaughter
& Harrel (1987) diseñaron un método rápido de localización para una visión en
tiempo real. Slaughter proponía una segmentación en color fijando un umbral en
el espacio HSI (Hue, Saturation, Intensity).
La idea, según los autores, era sustituir la cámara en blanco y negro
cuando se utilizaban con dos filtros, cuyo método se basaba en las propiedades
espectrales de las naranjas y las hojas, tratando de aplicar ciertos umbrales a la
altura de ciertas longitudes de onda en la curva. Estableciendo la
correspondencia entre la longitud de onda y la componente H (tono), del color,
se pretendía sustituir el sistema en blanco y negro por una cámara color.
De esta manera, implementando en hardware el proceso de binarización por
umbrales en la componente H y la S (saturación), se pretendía optimizar en
rapidez el proceso. Como resultado, el clasificador usado en el plano HS era un
rectángulo.
En 1988, Rabatel diseño un procedimiento basado en la combinación de
tres filtros interferométricos con la utilización de cámaras en blanco y negro,
para localizar frutos en árbol en un robot recolector de manzanas, el MAGALI.
Visión artificial en agricultura
14
El desarrollo de este sistema se basó en un estudio de las propiedades de
reflectancia de los frutos y hojas dentro del espectro visible e infrarrojo cercano,
rango de sensibilidad de las cámaras CCD (Charge Coupled Device) utilizadas, o
sea, entre los 400 y 1110 nm . Del estudio de estas curvas se concluyó la
utilización de tres filtros interferométricos dispuestos en tres puntos del espectro
situados en los 550, 650 y 950 nm . Los filtros se colocaban en tres cámaras
dispuestas de manera convergente para la misma escena, y mediante un estudio
de las proporciones entre los niveles de gris que registraba cada imagen filtrada,
se establecieron los rangos de estas proporciones para los puntos
correspondientes a frutos y demás elementos, o sea, si v1, v2, v3 eran los niveles
correspondientes a cada filtro, se establecían las proporciones
v1 ⁄ v2 = r2 y v3 ⁄ v2 = r3
donde de los resultados para r2 y r3 se seleccionaban mediante dos umbrales
establecidos a partir de las proporciones que cumplían los puntos pertenecientes
a frutos. Este proceso se implemento en un módulo hardware que trataba las
señales de video antes de su grabación, permitiendo así una localización en un
tiempo real máximo de 300 ms.
Levi el al. (1988) dentro del proyecto italo-americano entre el AID y la
Universidad de Florida para el desarrollo de un robot recolector de cítricos,
diseñaron un sistema de visión a este propósito, basándose en el reconocimiento
de formas circulares para detectar cítricos en tiempo real. Mediante cámaras
CCD color se tomaban imágenes previamente realzadas mediante un filtro
analógico electrónico, siendo después registradas con una resolución de 512 x 512
con 64 niveles de gris.
El reconocimiento se realizaba mediante un proceso de emparejamiento o
matching con modelos circulares teóricos creados por software. Para ello, una vez
la imagen era filtrada electrónicamente, digitalizada y almacenada en la memoria,
se le aplicaba un operador de Sobel detector de bordes, calculando la magnitud
y la dirección del gradiente máximo de los puntos de los contornos. Las
Visión artificial en agricultura
15
direcciones se guardaban en forma de matriz, la cual se intentaba emparejar
paso a paso con el modelo previamente establecido moviendo el centro de este
modelo a través de un área rectangular limitada. En cada iteración se establecía
una cota de error hasta llegar a la mínima de ellas. La decisión se tomaba
comparando el error con un error umbral por encima del cual no se consideraba
ese contorno una forma circular.
En 1988 Sites & Delwiche concibieron un sistema de visión monocroma
aplicada la localización de naranjas. Para ello utilizaron una cámara CCD y
diferentes filtros (550, 650 y 670 nm) para evaluar su utilización más óptima.
También se utilizó el apoyo de iluminación artificial mediante tres lámparas de
500 w con temperatura de color de 4800 grados, montadas sobre unos reflectores
paraboloides. Las imágenes obtenidas se almacenaban con una resolución de
128 x 128.
Se realizaron ensayos durante el día y la noche, siendo en ésta última
donde se obtuvieron los mejores resultados con un 89 % de frutos detectados. El
proceso de análisis de las imágenes consistía en el cálculo de un umbral de
binarización que se realizaba sobre cada imagen a partir de su histograma,
asignando como pertenecientes a la clase objeto a los píxels de niveles altos del
histograma, hasta que éstos consiguieran ocupar un cierto tanto por cien del área
total de la imagen, cantidad que se determinó tras un estudio para poder
minimizar el ruido, quedando esta proporción entre el 35 y el 40 % de los
píxels.
Sobre la imagen binaria resultante se realizaba un suavizado, cuyo principio
consistía en que, sobre un vecindario de 8 píxels, si 5 o más eran píxels objeto
se asignaba al píxel en cuestión a la clase objeto, en caso contrario al fondo.
Este filtro es del tipo "sólo adición", que permite pasar píxels de la clase fondo
a la clase objeto pero no en sentido contrario. Este filtro también tiene la
propiedad de ser selectivo, emborronando los objetos circulares (regiones
normalmente pertenecientes a los frutos buscados) y dejar inalterados otras
regiones.
Visión artificial en agricultura
16
Después de un etiquetado por conectividad 8 (Nevatia 1982) se calculaba el
área y el perímetro de cada región, características que se utilizaban para la
clasificación. A partir del área y el perímetro se estimaba la compacidad de la
región definida como Area ⁄ Perímetro2, la cual es máxima para objetos circulares.
También se calculaba la elongación definida como
momento mínimo de inercia / momento máximo de inercia
respecto al eje principal.
Se evaluaron dos clasificadores. El primero fue un clasificador lineal no
paramétrico (Fu et al 1976), esta técnica dividía el espacio de características en
regiones mutuamente excluyentes mediante hiperplanos. Un hiperplano entre dos
clases viene definido por la sustracción de las dos funciones discriminantes
asociadas a cada clase. El segundo tipo de clasificador utilizado fue también no
paramétrico, utilizando la regla del vecino más próximo al centroide de cada
clase mediante una métrica euclídea.
En un intento de aplicar la segmentación basada en color para la
localización de frutos, Slaughter & Harrell en 1988 desarrollaron un método
aplicando un clasificador de Bayes para seleccionar y distinguir las regiones
pertenecientes a frutos en las imágenes analizadas, todo ello por medio del
criterio de color, usando las componentes H (tono) y S (saturación) para
segmentar las imágenes.
La variable aleatoria utilizada en el modelo probabilístico tenía las dos
componentes anteriormente citadas, tono y saturación. En el caso aplicado a la
clasificación en un conjunto de dos clases (objeto y fondo) y asumiendo que la
función distribución de éstas sea normal, el clasificador puede ser definido como
(Duda & Hart, 1973) funciones lineales discriminantes a partir del método
paramétrico.
Las imágenes se tomaron con una resolución de 384 x 485 con 32 niveles de
gris (5 bits) para cada una de las componentes R,G,B, que se transformaban al
sistema IHS. Los parámetros del clasificador (medias, covarianzas y
probabilidades a priori) para cada clase se calculaban mediante una imagen de
entrenamiento o aprendizaje.
Visión artificial en agricultura
17
Hay que señalar que las imágenes utilizadas tenían una gran proporción de
la clase frutos, ya que en cada imagen sólo aparecía, por lo general, un fruto
que ocupaba casi toda ésta, debido a que en el sistema de visión realizado para
este robot, la cámara estaba situada en la parte interior de la mano, por ello la
proximidad de la cámara al objeto, y por lo tanto el tipo de imágenes tratadas.
Ness (1989) también realizó estudios sobre un sistema de visión para
detectar naranjas. Utilizando imágenes color RGB con iluminación natural,
implementó un método de segmentación para reconocer los frutos utilizando las
componentes cromáticas r, g, b, para intentar evitar mediante esta normalización
la influencia de la variación de luminosidad en estos ambientes. La segmentación
consistía en la búsqueda de unos umbrales a partir de los histogramas en las
bandas R, G y B, para construir una imagen binaria final a partir de cada una
de las segmentaciones obtenidas en cada componente. Finalmente, tras varios
estudios concluyó que sólo con la información de las bandas R y B y sus
correspondientes componentes cromáticas podía realizarse el proceso.
Para localizar el centro de los frutos utilizó la transformada de Hough
después de aplicar operadores gradiente de Sobel a la imagen binaria obtenida
de la segmentación, para encontrar distribuciones de gradientes de contornos
circulares.
Ya dentro del proyecto CITRUS, Vicens et al (1990), mediante visión
monocroma, realizaron un primer sistema de detección de cítricos. El sistema
realizaba la toma de imágenes mediante un filtro interferométrico centrado en
los 650 nm, seleccionado a partir de estudios espectrofotométricos, con el fin de
conseguir un mayor contraste entre frutos y fondo.
La segmentación se realizaba a través de un umbral seleccionado
automáticamente a partir de imágenes de entrenamiento por medio de un
algoritmo modificado de tipo iterativo correspondiente a Ridler & Calvard
(1978). A la imagen binaria se le aplicaba un filtro morfológico para la
eliminación de ruido mediante una apertura, para eliminar objetos pequeños y
suavizar contornos, seguida de un cierre cerrando agujeros y golfos (Serra, 1987).
Visión artificial en agricultura
18
Una vez filtrada la imagen se calculaba el perímetro de cada región,
clasificándola como fruto o no si superaba un perímetro mínimo establecido
según la distancia de los objetos a la cámara. El recorrido para el cálculo del
perímetro se aprovechaba para localizar el fruto por medio del rectángulo que
inscribía a la región y calculando su centro geométrico.
Moltó (1991) diseñó, también dentro del proyecto CITRUS, un sistema de
visión para la localización de cítricos. En primer lugar realizó un completo
estudio espectrofotométrico de la piel de los frutos y hojas, en el que se siguió
la evolución del espectro durante el periodo de maduración de los frutos. Con
ello se pretendía encontrar combinaciones de filtros interferométricos en las
longitudes adecuadas, dentro del espectro visible, que obtuvieran una separación
mayor entre las características de las hojas y los frutos, además, situar en que
épocas del periodo de maduración podría ser ésto válido y analizar a partir de
que momento sería posible la detección de frutos mediante este procedimiento.
El sistema diseñado tomaba las imágenes mediante dos filtros, uno en el
rojo y otro en el verde, con el apoyo de iluminación artificial. A partir de una
relación establecida de proporcionalidad entre las dos imágenes filtradas se
obtenía una segmentación, que eliminando las regiones ruidosas de pequeño
tamaño, se calculaba el centroide de las restantes consideradas como frutos.
Sandini et al (1991), dentro de un proyecto ambicioso de automatización de
tareas en cultivos de invernadero, implementaron un sistema de visión para un
robot recolector de tomates. El sistema se basaba en reconocimiento en color,
con una segmentación utilizando las coordenadas relativas a la cromaticidad, tono
y saturación, en el sistema de representación del color IHS. También aplicaron
redes neuronales como clasificadores en el espacio RGB, con el fin de obtener
la facilidad de aprendizaje del sistema clasificador ante la presencia de nuevas
situaciones. Este trabajo es uno de los primeros que se plantearon la necesidad
de la obtención de las tres coordenadas espaciales para localizar los frutos; para
ello implementaron un sistema estereoscópico compuesto por dos cámaras cuyos
ejes ópticos formaban un cierto ángulo de convergencia, con el propósito de
Visión artificial en agricultura
19
aprovechar mejor el campo cubierto de la escena por las cámaras, aunque ello
conllevara una pérdida de precisión.
Hemos visto en esta breve muestra de los trabajos realizados en detección
y localización de frutos que en la mayoría de ellos permanecen unos métodos o
enfoques comunes de solución del problema. En ellos se intenta salvar el
obstáculo que determina una aplicación de este tipo, el tiempo de cálculo; de
esta forma, se buscan procedimientos de bajo coste computacional o, en todo
caso, la posibilidad de implementar el método desarrollado en algoritmos
hardware que permitan franquear la barrera del tiempo necesario para que la
aplicación sea efectiva. Esto se muestra, por ejemplo, en la constante idea de
tratar las imágenes antes de digitalizarlas bien mediante filtros interferométricos
o circuitos electrónicos específicos, incluso analógicos, antes de digitalizar y
almacenar la imagen, con el fin de obtener imágenes con la información ya casi
decodificada y realizar el reconocimiento de una forma rápida.
También se percibe a lo largo de todos los trabajos la importancia de la
iluminación natural en cuanto a los problemas que conlleva, que en muchos de
los casos se llega a la idea de una recolección durante la noche; así como el
resto de circunstancias que concurren en ambientes naturales, como la necesidad
de tratar con objetos parcialmente ocultos.
Existe una voluntad subyacente en todos los trabajos en la aplicación de
técnicas más complejas y precisas que las adoptadas, para la mejora de la
efectividad de estas aplicaciones, ya que en muchos casos, los resultados quedan
aún lejos de poder obtener un sistema fiable. Así en alguno de los casos se pasa
a la visión en color, y que incluso se implementan técnicas de reconocimiento de
formas, como la aplicación de clasificadores, para un reconocimiento del color
más automático y fiable.
Se observa también la necesidad de profundizar en el reconocimiento a
través de la extracción de varias características geométricas (contornos circulares,
compacidad, elongación, área, perímetro, etc.), aplicando sistemas de clasificación
para una interpretación de las mismas.
Visión artificial en agricultura
20
Las deficiencias o problemas de los sistemas de visión desarrollados hasta
el momento en este campo han sido comentadas por sus autores a lo largo de
sus respectivos trabajos, así como las líneas de investigación a seguir para una
mejora de estos sistemas de visión. Básicamente, los puntos débiles en los que
coinciden la mayoría de los autores son los siguientes:
-La iluminación. Este es el primer de los grandes problemas presentes en
esta aplicación. Debido a lo incontrolado de la luz natural y a sus efectos
(brillos, sombras, etc) varios autores optaron por el apoyo de iluminación
artificial durante el día y la noche (Tuttle, 1983; Sites & Delwiche, 1988, Levi et
al, 1988) mediante lámparas de varios tipos. Sus conclusiones fueron que incluso
con el apoyo de iluminación artificial, los mejores resultados se obtenían durante
la noche, sin interferencias de la luz solar. De esto se desprende que el sistema
de iluminación artificial no conseguía evitar en gran parte los efectos de la luz
solar, así incluso Sites & Delwiche (1988) concluyen que es necesario el
desarrollo de sistemas de iluminación artificial más sofisticados para mejorar los
efectos que esta iluminación puede producir.
Dentro del tratamiento en color de escenas naturales sin apoyo de
iluminación artificial, el problema sigue existiendo, de tal forma que casi todos
los autores que trabajaron sobre el tema (Ness, 1989; Sandini, 1991) proponían
trabajar en espacios de representación del color en los que la influencia del
nivel de iluminación fuera la menor posible o se pudieran manejar parámetros
que fueran independientes de la intensidad luminosa de los objetos en la escena.
Otros autores (Slaughter, 1987) concibieron sistemas mecánicos por los que se
regulaba la luminosidad media de la imagen a través del diafragma o iris del
sistema óptico, buscando su apertura óptima a partir de medidas realizadas sobre
cada imagen. Sin embargo, el problema persiste en la identificación completa de
frutos en los que a lo largo de la misma superficie existe un gran cambio en el
nivel de iluminación al que están expuestos.
-Información incompleta. Aunque la mayoría de los trabajos se centran en
técnicas de reconocimiento y localización que pueden derivar en algoritmos de
Visión artificial en agricultura
21
bajo coste computacional (Slaughter, 1987; Rabatel, 1988; Sandini, 1991), algunos
autores se inclinan por procedimientos en los que se alcance un mayor
conocimiento del problema (Sites & Delwiche, 1988). La necesidad de ir mas
allá de un reconocimiento a partir de segmentaciones en color por unos u otros
métodos (color real en espacios RGB, IHS, etc, o imágenes en blanco y negro
filtradas a ciertas longitudes de onda) ya ha sido indicada por algunos autores
(Slaughter, 1987; Rabatel, 1988; Sites & Delwiche, 1988; Sarig, 1990), con el
objeto de resolver problemas como la identificación de frutos individualmente
cuando se encuentran agrupados (Slaughter, 1987; Sites & Delwiche, 1988) o la
determinación del centro real de los frutos a partir de información parcialmente
oculta (Slaughter, 1987), en la que algunos autores ya iniciaron investigaciones
(Wittaker et al, 1987; Levi et al, 1988; Ness, 1989).
-Interpretación. Ante una eventual evolución a un sistema de
reconocimiento más complejo, surge la necesidad de la introducción de técnicas
de reconocimiento de formas para obtener en la mayor proporción posible una
correcta clasificación de los objetos de una forma automática. Tales técnicas se
han ido introduciendo después de los primeros trabajos en los que sólo se
utilizaban en general umbrales en niveles de gris, a los que seguía un filtrado de
algún tipo para eliminar ruido. Así, Slaughter (1987) introdujo análisis
discriminante mediante clasificadores bayesianos para obtener una segmentación
color, tal como posteriormente Sandini et al (1991) utilizaron redes neuronales
para el mismo propósito. Sites y Delwiche (1998) propusieron el uso de
funciones lineales discriminantes y de clasificadores por el vecino más próximo
como sistema de clasificación para decidir si una región de la imagen
segmentada era un fruto o no, a partir de la extracción de ciertas características
a cada región. Estos autores apuntaron la idea de seguir trabajando en
clasificadores más sofisticados y en la determinación de vectores de características
más adecuados para una mejora de los resultados, a fin de obtener un sistema
de visión con rendimientos aceptables de cara la implantación en prototipo
comercial.
Visión artificial en agricultura
22
-Técnicas tridimensionales (3D). Hasta la llegada del proyecto CITRUS,
ningún autor se cuestionaba la necesidad de obtener la medida de la distancia al
fruto antes de dirigir el movimiento de recogida. Solo autores como Sandini et
al (1991) han abordado este problema recientemente. Hasta el momento,
mediante una sola cámara se calculaba la dirección en la que el fruto está
situado, la distancia al fruto sólo se conocía cuando el brazo del robot lo
alcanzaba y detectaba su presencia mediante la ayuda de otros sensores. Esto
conlleva el problema de que el brazo debe alinearse en el eje donde se
encuentra el fruto antes de iniciar el proceso de acercamiento; no obstante, este
último problema no es el que condiciona la necesidad de una solución a la
cuestión de la distancia al fruto. Las últimas estadísticas obtenidas durante el
proyecto CITRUS revelan que el 24 % de los frutos detectados están fuera del
alcance del robot, no conociendo esta circunstancia a priori, con la consiguiente
perdida de tiempo en movimientos para realizar intentos innecesarios.
Visión artificial en agricultura
23
II. EL PROBLEMA DE LA RECOLECCIÓN
ROBOTIZADA. OBJETIVOS
II.1 El sistema de visión y su problemática en la robótica de
recolección
En un robot recolector de cítricos debe existir un sensor capaz de detectar y
localizar los frutos para poder dirigir el brazo a la posición donde se encuentran
y poder recogerlos. El sistema de visión de un robot se encarga de esta
importante tarea, la cual es uno de los procesos dentro del sistema robotizado
que deberá coordinarse junto con las restantes partes por medio de un
planificador de tareas, integrándose en lo que se llama "ciclo de recogida", que
decide la acción a ejecutar en cada momento según el estado del ciclo, definido
Figura I.1. Organización de los módulos del robot.
PlanificadorControl del brazo robot
Control delvehiculo
Manutención de la fruta
Vision:reconocimiento ylocalización
por unos parámetros que en su mayoría vienen indicados por un conjunto de
sensores que aportan información del exterior sobre el estado del sistema.
Las acciones del planificador se codifican en forma de unas primitivas u
órdenes básicas, que son desarrolladas por el módulo a que corresponda tal
tarea, independientemente de los restantes módulos.
Mientras los humanos podemos reconocer objetos familiares desde casi
todos los ángulos, en un amplio rango de distancias y condiciones de
iluminación, incorporando la ayuda del oído u otros sentidos en el proceso de
interpretación, es mucho mas difícil implementar y coordinar esta serie de
complicados procesos en un sistema de visión para una máquina, ante todo por
el desconocimiento que en la actualidad aún existe sobre los principios de
funcionamiento de la visión humana y menos aún de la estructura del intelecto.
En el problema que nos ocupa existen una variedad de factores que
definen y limitan la tarea a resolver. Los frutos son objetos inestables en su
posición, variables en su forma, tamaño y color, situados en posiciones
totalmente aleatorias en el árbol que a su vez éste puede ser de diferentes
tamaños, volúmenes y estructura foliar. Asimismo, están sujetos a varias
condiciones naturales incontroladas como el viento, lluvia, polvo, humedad, rocío
e iluminación; condiciones que no siendo un mayor obstáculo para un humano,
puede ser todo un desafío para un sistema de visión artificial.
Ambientes Naturales
La iluminación es uno de los factores más importantes que condicionan los
métodos a utilizar en el proceso de imágenes y los resultados que se obtienen
de ellos. Cuando una imagen está dispuesta para su tratamiento, debe haber
atravesado, en general, una fase de preproceso adaptándo las características de la
imagen a las particularidades del método a utilizar. Este preproceso consiste
usualmente en un realce, filtrado o reconstrucción (en caso de deterioro de la
imagen) para eliminar ruidos y preparar la imagen.
En ambientes naturales este proceso siempre es necesario debido a la
variabilidad de la iluminación natural, ya que dado su carácter incontrolado
Objetivos
26
provoca reflejos, sombras (variabilidad espacial de la iluminación), efectos que en
su totalidad pueden complicar enormemente el tratamiento de la imagen.
Otros factores ambientales como el viento, por ejemplo, pueden causar que
el fruto se mueva, variando constantemente su posición, con lo que se precisaría
de un sistema de visión muy rápido para poder recalcular la trayectoria de
acercamiento al fruto en cada momento del proceso de acercamiento. A todo
ello se suma la dificultad de que los frutos aparecen normalmente parcialmente
ocultos entre las hojas y las ramas, impidiendo mostrar la superficie de los frutos
en su totalidad, y por lo tanto teniendo una información parcial de los mismos;
o la presencia de obstáculos naturales como es el caso de las ramas, que en
muchas ocasiones impiden que la mano del robot pueda alcanzar al fruto y
atraparlo.
Evolución en la coloración de los frutos
Para realizar un sistema de visión para recolectar naranjas u otros frutos, hay
que tener en cuenta que los frutos tienen un periodo de maduración, periodo
durante el cual varían las propiedades cromáticas de su piel, al contrario de lo
que ocurre con su entorno habitual, que no varía apreciablemente en todo el
periodo. En sus primeros estadios de madurez, las naranjas tienen un color muy
similar a las hojas de los árboles, no siendo significativa la característica del
color para su reconocimiento. En cambio, en su plena madurez, el color de estos
frutos es bastante diferente de todos los objetos que más comúnmente se
presentan en su entorno (hojas, suelo, cielo, nubes, etc).
Las necesidades del mercado de cítricos, y por lo tanto la exigencia de las
habilidades del robot recolector, nos determinan para trabajar en la obtención de
métodos capaces de detectar naranjas en todo el periodo de maduración,
independientemente de su color. De esta manera, aunque la visión en color sea
una metodología adecuada para naranjas que hayan alcanzado su plena
coloración, hay que tener en cuenta la posibilidad y la necesidad de la visión
monocroma para detectar naranjas en cualquier estado de su periodo de
madurez.
Objetivos
27
Tiempo de proceso
Uno de los grandes obstáculos a salvar en el desarrollo del sistema de visión en
un robot recolector es el tiempo de proceso. Dentro de los estudios económicos
y de viabilidad realizados en el proyecto CITRUS, para que el robot sea
rentable, el tiempo correspondiente a un ciclo de recogida (detectar, atrapar y
depositar el fruto en el dispositivo de almacenamiento) debe ser menor que 2,5
segundos. De estos 2,5 segundos, el tiempo de detección que debe emplear el
sistema de visión no puede sobrepasar los 0,7 segundos. Por este motivo, la
búsqueda de algoritmos rápidos debe estar subyacente en la filosofía del diseño
del sistema de visión.
La localización del fruto en el espacio
Además del proceso de reconocimiento o detección de los frutos por el sistema
de visión, existe el problema de la localización espacial del objeto detectado.
Esta localización consiste en el cálculo de las sus tres coordenadas en el espacio
respecto al sistema de coordenadas del robot, que el sistema de visión debe
averiguar para cada fruto detectado.
En los sistemas de visión implementados hasta el momento en robótica de
recolección, el fruto se localiza sólo en la dirección en que se encuentra
respecto a la cámara, no conociendo su distancia hasta que el fruto es alcanzado,
y que por medio de otros sensores de proximidad se detecta la presencia del
fruto. Los sistemas estereoscópicos, con uso de dos cámaras, no se han estudiado
en profundidad hasta el momento en este tipo de aplicaciones, por su dificultad
en el establecimiento de la correspondencia entre las dos imágenes que facilitan
las cámaras, pero sobre todo por no haber encontrado procedimientos en
estereoscopia lo suficientemente rápidos como para poder pensar en su
implementación en un problema de este tipo, en el que como hemos visto, el
factor temporal es una limitación.
Aunque este problema no se ha abordado hasta el momento dentro de este
proyecto, existe la necesidad de su resolución debido a motivos de optimización
en el rendimiento del robot. A lo largo de todas las investigaciones realizadas se
ha visto que no es imprescindible el conocimiento de la distancia al fruto, pero
Objetivos
28
el desconocimiento de ella implica que el sistema no sabe a priori si el fruto
está dentro del campo de acción del brazo robot, por ello, en un alto porcentaje
de frutos detectados, 24 %, el brazo se lanza a recoger frutos que se encuentran
más allá de su alcance, circunstancia que sólo se conoce al llegar el brazo al
final de su recorrido no habiendo alcanzado el fruto. Con el fin de evitar estos
movimientos innecesarios del robot de cara a un mayor aprovechamiento de su
rendimiento, se deben orientar los esfuerzos a estudiar la posibilidad de poder
tener esta información a priori, bien por métodos de estereoscopia u otro
procedimientos, como telemetría, láser, etc.
II.2 Propósito y objetivos de este trabajo
Dentro de la visión artificial, como se apuntó al principio de la introducción,
existe por una parte el soporte físico o electrónico del sistema y el desarrollo de
técnicas y métodos en análisis de imágenes para extraer la información deseada a
partir de los datos que nos proporciona el sistema de adquisición. El ámbito de
este trabajo se centra en esa segunda parte de análisis de imagen, en concreto
en el análisis digital de imágenes.
El objetivo de este trabajo será la realización de estudios para el desarrollo
de técnicas en análisis digital de imágenes que puedan solucionar los problemas
que se presentan en el reconocimiento y localización de frutos en el árbol para
su recolección robotizada. Estos problemas, en su gran mayoría, no son debidos
a deficiencias en los desarrollos del dispositivo físico del sistema de visión, sino
en su parte de análisis, de forma análoga a como ocurre en otros campos de las
ciencias de la computación en la que el soporte físico o hardware ha
evolucionado más rápidamente que el soporte lógico o software.
Con el fin de evitar los problemas de los sistemas de visión en recolección
robotizada de naranjas comentados al final del capítulo anterior, el trabajo
realizado durante el desarrollo de esta tesis fue marcado por los siguientes
objetivos:
Objetivos
29
I. Estudio y desarrollo de una técnica de iluminación artificial para mejorar
la calidad de las imágenes adquiridas con el propósito de facilitar y aumentar la
fiabilidad de los procedimientos de análisis que sobre ellas se realicen.
II. Búsqueda de un modelo geométrico para la representación imagen de
los frutos. Establecido el modelo, el estudio y desarrollo de métodos de análisis
que permitan la extracción de características geométricas de las regiones de la
imagen pertenecientes a los frutos para su posterior reconocimiento, calculando a
la vez parámetros suplementarios para el sistema de visión (centro real y
separación de los frutos de un racimo).
III. Utilización y desarrollo de métodos de clasificación adecuados al
problema que nos permitan una interpretación de las propiedades extraídas
durante el análisis de las imágenes.
IV. Concepción de un método de segmentación en color que permita tratar
con los problemas derivados de una iluminación natural, problemas que se
evitarán con un método que sea independiente del nivel de iluminación sobre
los objetos de la escena y que tenga una estructura que tenga en cuenta el
proceso de formación del color en las superficies de los objetos.
V. Desarrollo de una técnica que permita la localización espacial en tres
dimensiones de los frutos a partir de la información a priori obtenida del análisis
de las imágenes.
VI. Establecimiento de una metodología y desarrollo de algoritmos que
combinen los métodos y técnicas estudiados para una optimización y adaptación
al problema de la recolección robotizada.
Para cumplir con los objetivos anteriormente citados, los estudios y trabajos
realizados a lo largo de esta tesis se expondrán en la manera siguiente: La
primera parte contiene una descripción de los métodos y técnicas de análisis de
Objetivos
30
imagen desarrolladas para su posterior utilización en el sistema de visión. En el
capítulo 1 se describen los fundamentos y el método desarrollado de iluminación
artificial utilizados durante este trabajo. Asimismo, se establece en este mismo
capítulo un modelo de representación de los frutos dentro de la representación
imagen. Los tres capítulos siguientes, capítulos 2, 3 y 4, contienen la descripción
y discusión de los métodos desarrollados para la extracción y cuantificación de
características geométricas a partir del modelo establecido en el capítulo 1, tanto
en lo relativo a la superficie como al contorno de los frutos. Las bases y
metodología de un sistema de segmentación color para evitar los efectos de la
iluminación natural están descritas en el capítulo 5. El capítulo 6 está dedicado
al método desarrollado de localización espacial de los frutos basado en técnicas
de estereoscopia. El capítulo 7, que cierra esta primera parte, describe el
método de clasificación utilizado dado un conjunto de características definidas
sobre cada objeto, en el que se comentarán las modificaciones introducidas en
este trabajo.
La segunda parte se centra en el diseño del sistema de visión del robot,
desarrollando la metodología combinando las técnicas expuestas en la primera
parte. En el capítulo 8 se describen los materiales utilizados para llevar a cabo
este trabajo. Los métodos y algoritmos desarrollados en el sistema de visión para
reconocer y localizar los frutos se describen en el capítulo 9, en dos vertientes
diferentes, el reconocimiento basado en color y el reconocimiento basado en
propiedades relativas a la forma de los frutos. Los resultados obtenidos de la
aplicación al sistema de visión se presentan y discuten en el capítulo 10, donde
se establecerán los indicadores que medirán la eficiencia de los procedimientos
adoptados. Por último se expondrán las conclusiones derivadas de este trabajo.
Objetivos
31
Primera Parte
ESTUDIOS DE
ANÁLISIS DE IMAGEN
Capítulo 1
ILUMINACIÓN Y
ADQUISICIÓN DE IMAGEN
Una iluminación adecuada es esencial en un sistema de visión por
ordenador. La iluminación de la imagen es un factor importante que suele
afectar a la complejidad de los procesos de visión. La luz arbitraria del entorno
no suele ser aceptable ya que se obtienen imágenes con bajo contraste,
reflexiones especulares, sombras y detalles espúreos. Un sistema de luces bien
diseñado ilumina una imagen de forma que la complejidad del gráfico que se
obtiene sea mínima, aumentándose a su vez la información necesaria para la
detección y extracción del objeto, mostrando detalles que nunca se hubieran
percibido sin una correcta iluminación.
La importancia de la iluminación se refleja en la preocupación de varios
autores en el estudio de sistemas de fuentes de luz que permitan facilitar el
realce de ciertas características de la imagen, eliminando a su vez los elementos
espúreos o ruidosos a los que se ha hecho mención. El problema en general
consiste en el diseño de sistemas que produzcan una fuente de luz difusa
(Mundy, 1977), aunque para problemas concretos como reconocimiento de formas
tridimensionales se pueden utilizar métodos de iluminación estructurada (Rocher
& Keissling, 1975; Myers, 1980; van der Stuyft et al, 1991), o en el empleo de
ciertos iluminantes para resaltar características determinadas de la superficie de
los objetos (Paulsen & McClure, 1986). Todas estas técnicas fueron desarrolladas
en condiciones cerradas y controladas, en las que se podía evitar cualquier
interferencia con otra fuente de iluminación natural.
En las escenas que se suceden durante la recolección, la influencia de la
iluminación natural procedente del sol, cielo y por reflexión en otros objetos
cercanos es inevitable, no se puede controlar, causando los problemas ya
descritos, provocados por una variabilidad espacial de la luz, a la que se unen
los inconvenientes de obstáculos naturales y las condiciones meteorológicas
cambiantes en ambientes exteriores. Aunque si se ha intentado la mejora de
adquisición de imágenes diurnas mediante el apoyo de lámparas de varios tipos
(Tuttle, 1983; Sites & Delwiche, 1988; Levi et al, 1988) sus conclusiones fueron
que los mejores resultados se obtenían durante la noche, en ausencia de fuentes
de luz natural que interfirieran con la iluminación controlada con la que se
trabajaba, apuntando la necesidad de la obtención de un sistema mas sofisticado
que pudiera mejorar este aspecto (Sites & Delwiche, 1988). Slaugther (1987)
regulaba el diafragma del sistema óptico por medio de un mecanismo accionado
a las ordenes del sistema de visión, después de realizar una medida del nivel de
iluminación en la imagen, con ello pretendía controlar la variabilidad de la
iluminación natural, aunque en ciertos casos no obtenía los resultados deseados,
sobre todo cuando en la misma superficie del fruto existían zonas de iluminación
directa y zonas de sombra.
En este capítulo se aborda este problema con el fin de obtener un sistema
de iluminación que consiga una iluminación uniforme de la escena, tanto en
condiciones diurnas como nocturnas. Para ello, ya que la iluminación natural es
incontrolable, se intentará atenuar o enmascarar sus efectos lo mas posible con
respecto a la adquisición de la imagen, simulando condiciones similares a las
existentes durante las escenas nocturnas y en la que si es posible la supresión de
esa variabilidad espacial de la iluminación.
Otro enfoque con el que se puede abordar el problema es el desarrollo de
un método de reconocimiento en color que permita identificar y asociar cada
uno de estos fenómenos, como la reflexión especular o las sombras, a la
superficie del objeto correspondiente, que se tratará a fondo en el capítulo 5.
La segunda parte de este capítulo versará sobre, dada una estructura de
iluminación en la escena, la caracterización de la iluminación recibida y reflejada
por la superficie de los frutos considerando estos como objetos esféricos, y que
propiedades tiene la función iluminación que llega a un observador reflejada en
este tipo de superficies.
Estudios de análisis de imagen
36
1.1 Adquisición de imágenes mediante flashes
Como se indicó en el apartado anterior, los mejores resultados obtenidos
mediante el apoyo de iluminación en estos ambientes naturales, se dieron en
condiciones nocturnas. Rabatel (1988b) indicó que ciertamente se podría mejorar
la calidad de las imágenes mediante un aporte de iluminación artificial mediante
flashes, pero en escenas diurnas, para realizar esta aportación, se necesitaba una
potencia lumínica para superar la de la iluminación natural, que descartó en un
principio el método por no existir lámparas o flashes que pudieran suministrar
de tales magnitudes de luz.
El propósito de este apartado es la descripción de un método que permita
simular las condiciones de obscuridad que se dan durante la noche en horas
diurnas. Para ello se intentará enmascarar o minimizar el efecto de las fuentes
de luz natural, quedando como única iluminación la de la fuente de luz
adicional que en este caso será la utilización de flashes fotográficos.
Antes de la descripción del procedimiento de toma de imagen, se expondrá
el fundamento en el que se basa la técnica que aquí se describe. Para ello
utilizaremos un modelo de reflexión en la adquisición de la imagen. Con este
motivo y a lo largo de este trabajo se adoptará la terminología referente a
radiometría y fotometría descrita en el apéndice A. El modelo de reflexión y de
geometría de la imagen que se adoptará es el descrito por Lee et al (1990), el
cual se basa en la función de distribución de reflectancia espectral bidireccional
(BSRDF) fr, que se define como el cociente entre la radiancia reflejada en un
punto de una superficie dLr en la dirección de observación, y la irradiancia
incidente en el punto de la superficie dEi en la dirección de la luz incidente. Es
decir,
fr = dLr(θi,ϕi;θr,ϕr;λ;Ei)
dEi(θi,ϕi;λ)
donde (θi,ϕi) y (θr,ϕr) son los ángulos de las direcciones incidente y reflejada con
respecto a la normal de la superficie. Aplicando la definición de irradiancia y
Iluminación y adquisición de imagen
37
teniendo en cuenta que ωi es el ángulo sólido definido por el cono de luz
incidente, tenemos
Lr = ∫ dLr = ∫ fr dEi = ∫ frωi
Li cosθi dωi (1.1)
Como se demuestra en los trabajos de Horn & Sjoberg (1979), la
irradiancia espectral de la imagen Ep, es decir la irradiancia que se recibe en el
plano imagen desde un punto de la superficie (figura 1.1), es proporcional a la
radiancia espectral de la escena Lr, en la forma
Ep = Lr π4
df
2
cos4α (1.2)
donde d es el diámetro de la pupila de entrada del sistema óptico, f es la focal
de la lente y α es el ángulo que forma la dirección de observación con el eje
óptico.
d
rayoincidente
(θi,ϕ i)
(θr,ϕr)
α
y
x Pf
cámara
Q
N
Figura 1.1. Geometría de la imagen.
Estudios de análisis de imagen
38
Supongamos que la irradiancia sobre un punto P de la superficie observada
es debida, en nuestro caso, sólo a la luz natural. Dado que la radiancia reflejada
en el punto Lr está relacionada con la irradiancia recibida Ei por la ecuación
(1.1), este termino no se puede variar en la ecuación (1.2) ya que no se puede
controlar la fuente de luz natural.
Para conseguir una disminución de la irradiancia espectral de la imagen
debida a la luz natural, fijada la geometría del problema, α, y la focal del
sistema óptico, f, solo queda el diámetro de la pupila de entrada, d, que como
sabemos es la imagen del diafragma de apertura en el espacio objeto. El
diafragma de apertura es el orificio del sistema óptico que limita la extensión
del haz que penetra en él procedente del punto objeto. Disminuyendo el
diafragma de apertura a niveles a los cuales la irradiancia espectral de la imagen
sea cercana al umbral de sensibilidad luminosa, en el que el dispositivo sensor
comienza a dar una señal de respuesta, conseguiremos que el efecto de la luz
natural sea minimizado.
En ese momento, iluminemos la escena con un haz de luz lo
suficientemente potente como para provocar una respuesta apreciable del
dispositivo detector, en este caso una cámara CCD. La irradiancia resultante
sobre el punto de la superficie objeto será debida ahora a la suma de ambas, la
natural y la suministrada artificialmente. La respuesta del sensor será debida casi
y exclusivamente a la iluminación adicional suministrada, ya que como hemos
descrito el efecto de la primera esta enmascarado por un cierre en el diafragma
de apertura.
Hay que hacer notar que el efecto de la iluminación natural no desaparece,
sino que como hemos dicho queda enmascarado ya que, analíticamente, si
llamamos Eni a la irradiancia incidente debida a la luz natural y Eai la debida a
la luz artificial, la radiancia reflejada resultante en la superficie del objeto Lr
será, de (1.1)
Lr = ∫ fr d(Eni+ Eai)
Iluminación y adquisición de imagen
39
por tanto, el aporte de iluminación, Eai, produce que se sobrepase el umbral de
iluminación mínima de sensibilidad de la cámara, para que el sensor produzca
una respuesta significativa, entrando entonces en los niveles de iluminación
donde el sensor produce una respuesta lineal.
Este aporte suplementario de iluminación se realiza a través de un flash
fotográfico, que suministra una gran energía radiante en un instante lo
suficientemente largo como para poder adquirir una imagen. Para aprovechar la
luz del flash en el instante adecuado se debe sincronizar su disparo con la
adquisición de la imagen. Con este propósito se ha diseñado un algoritmo que
realiza esta tarea y que se describe a continuación.
1.1.1 Sincronización
Para realizar la sincronización del disparo del flash con la captura de la imagen
es necesario fijarnos en el funcionamiento de los sensores de imagen utilizados
(cámaras CCD) así como en la codificación de la imagen en señal de video.
Una descripción al efecto se encuentra en el apéndice B, de la que a partir de
ella podemos caracterizar el proceso que a continuación se describe.
Para que la iluminación aportada por el flash coincida con un cuadro
captado por la cámara, el disparo del flash debe efectuarse en el momento que
empieza el cuadro, mas concretamente al inicio del campo impar. Este instante
se puede determinar a partir de la señal de referencia (señal de sincronismo) de
la señal de video. Esta señal nos indica cuando estamos en un campo par o
impar o si estamos en un retorno de vertical.
El punto buscado es el final del retorno de vertical entre el campo par del
cuadro anterior y el campo impar del cuadro que pretendemos iluminar.
Llamemos a este instante el instante t0. Dado que la señal de referencia se
explora en el momento en que la señal de video ya ha sido codificada, la señal
de referencia examinada lleva un desfase de un campo respecto al proceso físico
de integración o captura de la imagen en el dispositivo (figura 1.2), por lo tanto
el instante t0 coincide en el comienzo del campo par del cuadro anterior al que
queremos adquirir, osea en el comienzo de la integración de la información del
campo impar que pretendemos capturar e iluminar.
Estudios de análisis de imagen
40
No obstante, desde que se efectúa la orden de disparo, instante td, y el
disparo real, t0, existe un retraso tr. Por lo tanto, la orden real se debe efectuar
en el instante td. Para encontrar este instante se debe localizar el origen de
tiempos en el comienzo del retorno de vertical anterior a la salida par del
campo anterior (integración del campo impar buscado), a partir del cual esperar
un tiempo td respecto a este origen para efectuar la orden de disparo, que
después del retraso debido al circuito de disparo, se materializará en el punto t0
buscado. Obsérvese que td + tr = t0, y que t0 es la duración de un retorno de
vertical.
El proceso anterior se puede resumir en el siguiente algoritmo1
hacer
esperar mientras no estemos en campo impar;
hasta que no estemos en retorno de vertical;
esperar tiempo td;
orden de disparo;
orden de adquisición;
Figura 1.2. Señal de referencia y tiempos de sincronización del disparo.
Iluminación y adquisición de imagen
41
1 En todos los algoritmos que se describen en este trabajo, el sangrado de sentencias al
mismo nivel indican que forman parte de un mismo bloque de instrucciones, pudiendo
ser un bloque de un bucle o una expresión condicional.
El bucle en el algoritmo anterior nos permite localizar el comienzo del
retorno de vertical anterior a la salida par (integración impar) del cuadro
anterior al que queremos capturar.
Con respecto a la implementación mediante un ordenador, la información
del estado de la señal de video es accesible por el microprocesador mediante
puertos E/S (de Entrada/Salida) que comunican con el sistema de digitalización y
adquisición de imágenes (ver sección 8.2), por tanto, sólo hay que leer
repetidamente los puertos y comprobar si nos encontramos en el momento
deseado.
La espera del tiempo td se implementa por medio de un bucle contador, ya
que es más preciso que, por ejemplo, las funciones de espera disponibles en las
librerías de algunos compiladores, por tanto, la cuenta de espera depende del
reloj del ordenador. De este modo, es obvio que la cuenta que simula el retraso
dependerá de la velocidad de proceso del ordenador utilizado y que deberá
ajustarse para cada uno de ellos.
La orden de disparo se realiza mediante un interfaz entre el ordenador y
el flash, este interfaz consiste en un relé, el cual introduce otro retraso, que se
conecta cuando se introduce en un puerto E/S del ordenador cierto dato. Al
conectarse el relé, se cierra el circuito de disparo del flash provocando el
destello. Este interfaz se ha realizado con tarjeta comercial de relés de las que
se encuentran en el mercado.
Por último la orden de adquisición se efectúa mediante la comunicación
con los puertos E/S del sistema de adquisición, escribiendo en ellos la orden de
captura. Es necesario resaltar que dependiendo del tipo o marca de sistema de
digitalización y adquisición de imágenes, la información que se suministra sobre
el estado de la señal de video puede variar en cada uno. Lo usual es que los
registros de estado del controlador de video del sistema de adquisición informen
si se encuentra en retorno de vertical o no, y si nos encontramos en un campo
par o impar, no obstante existen otros que, por ejemplo, indican si se encuentra
en retorno de vertical o no, y si en esos momentos se encuentra en las n
primeras líneas de un campo impar.
Estudios de análisis de imagen
42
1.2 Modelo geométrico e irradiancia espectral imagen de los frutos
Con el objeto de obtener y caracterizar una representación en la imagen de los
objetos de interés, es necesario adoptar un modelo geométrico para la superficie
de los frutos, para poder analizar y establecer estas características al iluminar la
superficie del objeto y de que forma se recoge este fenómeno en su
representación en la imagen.
Para obtener este propósito es necesario estudiar, dada la superficie de un
objeto, como afecta a la irradiancia espectral de la imagen la iluminación que
recibe un objeto desde una fuente de luz con cierta posición relativa respecto al
sensor.
La superficie geométrica que se va a estudiar en este apartado para ver
como se comporta su correspondiente irradiancia espectral de la imagen, es la
superficie de una esfera. Esta es la superficie geométrica mas simple por la que
la mayoría de la superficie de los frutos se puede aproximar (naranjas,
melocotones, manzanas, tomates, etc), que, aunque éstos no sean exactamente
objetos esféricos, sí se comportan como tales un gran porcentaje de su superficie.
Además, todo lo que aquí se expone puede ser aplicable a cualquier objeto, sea
un fruto o no, que cumpla dentro de los limites aceptables las condiciones que
se impondrán.
El modelo de reflexión y geometría de la imagen que se utilizará para este
estudio, es el mencionado en el apartado anterior. El estudio del
comportamiento de la irradiancia espectral imagen nos conducirá, en última
instancia, a la repuesta del sensor a esta irradiancia que, al fin y al cabo,
contiene la información que verdaderamente se va tratar durante el proceso de
análisis de la imagen.
Supongamos que la superficie del objeto se comporta como una superficie
Lambertiana, es decir, como un difusor perfecto. Mas adelante ya se analizarán
las limitaciones de esta aproximación. Para un difusor perfecto, el factor fr
correspondiente a la función BSRDF de la ecuación (1.1) es igual a la constante
1 ⁄ π, por lo tanto tenemos que
Iluminación y adquisición de imagen
43
Lr = 1⁄π ∫ dEi = Eiπ
es decir, la radiancia reflejada en un punto de la superficie de un difusor
perfecto es igual a la irradiancia recibida por una constante de proporcionalidad.
Introduciendo este resultado en la ecuación (1.2), tenemos que la irradiancia
espectral imagen de un punto perteneciente a una superficie que se comporta
como un difusor perfecto es
Ep = 14
df
2
cos4α Ei (1.3)
Si se define la respuesta o señal de salida del un sensor k, Vk como la
integración en todo el espectro de la irradiancia espectral imagen pesada por la
sensibilidad espectral del sensor Rk y la transmitancia espectral del filtro que
posea τk (por ejemplo, Rojo, Verde o Azul), tenemos
Vk = ∫ Rk(λ) τk(λ) Ep(λ) dλ
Si consideramos que la superficie del objeto es homogénea, y que la
composición espectral de la irradiancia que incide sobre ella es la misma en
toda la superficie del objeto, la irradiancia incidente se puede expresar como
Ei(θi,ϕi;λ) = c(λ) Ei(θi,ϕi)
donde c(λ) solo contiene información sobre la parte espectral del flujo radiante
incidente y Ei(θi,ϕi) es un factor que solo depende de la geometría del rayo de
luz incidente en un punto determinado de la superficie. Esta expresión es válida,
en las condiciones expuestas, para cualquier punto de la superficie del objeto.
Introduciendo la expresión anterior de Ei en la expresión de la irradiancia
espectral imagen encontrada en la ecuación (1.3), obtenemos
Estudios de análisis de imagen
44
Ep = 14
df
2
cos4α c(λ) Ei(θi,ϕi)
e introduciendo ésta en la expresión de la respuesta del sensor Vk, llegamos a la
expresión
Vk = 14
df
2
cos4α Ei(θi,ϕi) ∫ c(λ) Rk(λ) τk(λ) dλ
en la que salen de la integral los términos independientes de la longitud de
onda λ.
Fijadas las características del flujo espectral del iluminante, reflejadas en
c(λ) , y las del sensor, Rk(λ) y τk(λ) , el término correspondiente a la integral es
una constante para todos los puntos de la superficie del objeto, llamémosle
Vp = ∫ c(λ) Rk(λ) τk(λ) dλ. Con ello la respuesta del sensor k queda expresada
como
Vk = 14
df
2
cos4α Vp Ei(θi,ϕi)
Fijados los parámetros del sistema, el diámetro de la pupila de entrada d,
la focal de la lente f y el factor Vp son constantes. El ángulo α entre el eje
óptico y la dirección del punto de la superficie con respecto al punto de
observación, es un factor que viene normalmente corregido en los sistemas
ópticos de las cámaras, ya que de lo contrario la imagen que se obtendría iría
oscureciéndose de una manera significativa cuanto más nos alejáramos al punto
central del plano imagen. Por lo tanto podemos concluir que, la forma analítica
de la función respuesta del sensor Vk es la misma que la forma analítica de la
función irradiancia incidente Ei, independientemente de la composición espectral
que tenga ésta.
Por lo tanto, analizando la forma de la expresión de la irradiancia incidente
de la superficie del objeto que se percibe desde la dirección de observación,
Iluminación y adquisición de imagen
45
conoceremos la forma analítica de la respuesta del sensor a esta irradiancia en
función de la situación de cada punto de la superficie del objeto.
Para ello consideremos un sistema de coordenadas cuyo origen sea el
centro de la esfera correspondiente al objeto observado, y con el eje z que
coincida con el eje óptico de la dirección de observación, de esta forma el plano
xy objeto tiene su correspondiente proyección en el plano imagen a través del
sistema óptico, y el eje z coincide en ambos. Todos los valores de la función
irradiancia incidente sobre cada punto de la superficie del objeto tiene su
correspondiente respuesta del sensor, que como hemos visto es proporcional a
ésta, y localizada espacialmente en el plano imagen según la proyección de sus
correspondientes puntos en la superficie del objeto a través del sistema óptico.
La ley del cuadrado de la distancia entre la irradiancia E que recibe un
elemento de área dS y la intensidad radiante I que llega a ese elemento de área
que sale desde un punto fuente de luz a una distancia r a través del ángulo
sólido dω subtendido por dS respecto del punto fuente de luz, teniendo en
cuenta que dω = dS cosβ ⁄ r2, nos indica que
E = dFdS
= I dωdS
= I cosβ
r2 (1.4)
x
v→i
βdω
β r
y
v→s
n→
z
Figura 1.3. Iluminación de un objeto esférico.
Estudios de análisis de imagen
46
donde β es el ángulo que forman la dirección incidente que comprende dω y la
normal al elemento de superficie dS (figura 1.3).
Si admitimos que la intensidad radiante de la fuente de luz es constante
sobre cada punto de la superficie del objeto observado, es decir, que la
intensidad radiante es la misma al menos en el rango de direcciones
correspondientes a cada ángulo sólido que subtiende cualquier elemento de la
superficie del objeto observado y el punto fuente de luz, este factor será una
constante en la ecuación anterior. Además si consideramos que la fuente de luz
está lo suficientemente lejana respecto al radio de la esfera que se puede
considerar que cualquier punto de la superficie del objeto esta a la misma
distancia r del foco de luz, el único término que nos queda es el termino
angular cosβ, que nos indicará cual es la forma de la función irradiancia E sobre
la superficie del objeto.
Para encontrar la expresión de la función irradiancia sobre la superficie
esférica en función de las coordenadas x e y, veamos cual es la expresión que
tiene el cosβ en función de estas variables. De esta forma encontraremos la
expresión de la respuesta del sensor en función de las coordenadas imagen x′ ,y′ .
Por último supongamos que la fuente de luz sea colimada sobre la
superficie de la esfera, es decir, que todos los rayos de luz que inciden en la
superficie del objeto son paralelos, aproximación aceptable en el caso de
iluminación difusa, o como hemos supuesto antes, que el foco se encuentre a
una distancia considerable del objeto con relación al radio de la esfera.
Consideremos un vector unitario v→i con origen en el sistema de
coordenadas y dirección la dirección de los rayos de luz incidente, y el vector de
posición de un elemento de superficie dS sobre la superficie de la esfera, v→s. El
ángulo β entre la dirección incidente y la normal al elemento de superficie dS
será el mismo ángulo que forman los vectores v→i y v→s.
Si (R,θs,ϕs) son las coordenadas esféricas del elemento de área dS respecto
a este sistema, y (1,θi,ϕi) son las coordenadas del vector unitario en la dirección
del rayo incidente, sus correspondientes coordenadas cartesianas serán:
Iluminación y adquisición de imagen
47
v→s = (R senθs cosϕs,R senθs senϕs,R cosθs)
v→i = (senθi cosϕi,senθi senϕi,cosθi)
Dado que el coseno entre dos vectores se define como
cosβ = cosvivs^ =
v→i v→
s
| v→i| | v→s|
Realizando el producto escalar de los vectores v→i v→
s según la expresión en
cartesianas anterior, y teniendo en cuenta que | v→i| = 1 y que | v→s| = R
obtenemos para la expresión del cosβ
cosβ = senθi cosϕi senθs cosϕs + senθi senϕi senθs senϕs + cosθi cosθs
Expresando las funciones trigonométricas de los ángulos θs y ϕs en función
de las coordenadas x e y del vector v→s = (x,y,√R2 − x2 − y2 ), tenemos que, según
las definiciones de seno y coseno, observando la figura 1.4,
√x 2+ y 2
R
ϕ
z= √ R 2− x 2− y 2
y
x
θ
Figura 1.4. Coordenadas cartesianas y esféricas de un punto sobre la esfera.
Estudios de análisis de imagen
48
cosθs = √R2 − x2− y2
R; senθs =
√x2+ y2
R
cosϕs = x
√x2+ y2 ; senϕs = y
√x2+ y2
que introduciéndolos en la expresión de cosβ anterior, y a su vez en la ecuación
(1.4), obtenemos el resultado
E(x,y,θi,ϕi) = I
r2 senθi cosϕi
xR
+ senθi senϕi yR
+ cosθi √R2− x2− y2
R (1.5)
expresión de la irradiancia que reciben los puntos sobre la superficie de la
esfera en función de la dirección incidente θi,ϕi y de las coordenadas x,y del
punto respecto al sistema de coordenadas elegido. Recordemos que esta
expresión es válida en los siguientes supuestos, que se pueden resumir en:
-Comportamiento lambertiano de la superficie del objeto.
-Fuente de luz suficientemente lejos en relación al radio de la esfera
objeto.
La suposición de una fuente colimada es consecuencia de la segunda
condición, al igual que la condición de que la intensidad radiante del foco sea
constante sobre la superficie de la esfera.
Para interpretar el resultado obtenido, supongamos que el iluminante se
encuentra sobre el eje z, es decir, los rayos inciden en la misma dirección que
la de observación; lo que significa que θi = 0 y ϕi queda indeterminado.
Sustituyendo estos valores en la ecuación (1.5) y teniendo en cuenta que el
producto de un término indeterminado por cero es cero, obtenemos
E(x,y) = I
r2 √R2− x2− y2
R
que representa la ecuación de un elipsoide. Ello significa, según lo expresado a
lo largo de este apartado, que representando el valor de la respuesta del sensor
Iluminación y adquisición de imagen
49
en cada punto del plano imagen Vk(x′ ,y′) respecto a la coordenadas imagen x′ ,y′ ,
la forma de la superficie obtenida es un elipsoide.
Además, en estas condiciones, la proyección de este elipsoide en el plano
imagen es una circunferencia de radio igual a la proyección a través del sistema
óptico del radio real de la esfera R. Es decir, si E(x,y) = 0 en la ecuación
anterior obtenemos que x2 + y2 = R. Por lo tanto el contorno de una región en
la imagen perteneciente a un objeto esférico es circular, tal como ya
pronosticaban las leyes de la óptica geométrica. Lo mismo ocurre en cualquier
posición relativa del iluminante, en la que si proyectamos E(x,y) sobre el plano
xy obtenemos el mismo resultado, teniendo en cuenta que en la ecuación (1.5)
E(x,y) = 0, y que en el plano xy el senθi = 0.
1.3 Experimentos y discusión
1.3.1 Toma de imagen con flashes
El método de toma de imágenes con flashes descrito en el apartado 1.1 fue
implementado y probado adquiriendo imágenes de escenas naturales de naranjas
durante el día. El equipo utilizado es el descrito en el capítulo 8, colocando un
flash junto a la cámara y disparándolo mediante una tarjeta de interfaz de relés.
En la figura 1.5 se muestra una imagen RGB típica de una escena de
frutos en su ambiente natural. En la figura 1.6 se muestra la misma escena
tomada por el procedimiento descrito de sincronización con el disparo de flash,
reduciendo el diafragma de apertura a niveles de respuesta mínima de la cámara
cuando el flash está inactivo. En ellas podemos notar la diferencia en la
iluminación. En la figura 1.5 vemos los efectos de la variabilidad espacial de la
iluminación, con luces y sombras, incluso en la misma superficie de los frutos.
En la figura 1.6 vemos como el efecto es realmente como si se tratase de una
escena nocturna, en la que la iluminación es totalmente uniforme y, en
apariencia, debida exclusivamente a la iluminación procedente del flash.
Obsérvese también que la casi totalidad de las reflexiones especulares en
diversos elementos de la figura 1.5 han desaparecido en la figura 1.6, de esta
forma se obtienen imágenes menos ruidosas y más fáciles de tratar, sobre todo
Estudios de análisis de imagen
50
Figura 1.6. Misma escena que la imagen de la figura 1.6 tomada con sistema de iluminación de flash.
Figura 1.5. Imagen de frutos con iluminación natural.
Iluminación y adquisición de imagen
51
cuando se trata de extraer información acerca de los contornos de los objetos de
la imagen, que, a través de la imagen sin flash, se verían seriamente alterados
debido a los cambios de luminosidad en las superficies de los objetos que no se
corresponden a la presencia de contornos reales de los objetos.
Uno de los efectos que caracteriza las imágenes tomadas con flash es que,
como en condiciones nocturnas, la iluminación decrece con el cuadrado de la
distancia al foco, por ello vemos como los objetos que se encuentran mas
alejados en la figura 1.5 no aparecen en la figura 1.6, así como las zonas
pertenecientes a trozos de cielo, donde la luz del flash no llega. Este efecto es a
la vez beneficioso en dos aspectos, primero que desaparecen de la imagen
posibles frutos que, dado que están alejados, el robot no puede alcanzar, y
segundo, dado que no se encuentran en la imagen, el sistema de visión no
desaprovecha el tiempo de proceso en detectarlos y localizarlos, aumentando el
rendimiento en tiempo.
Estudios comparativos realizados dentro de este mismo proyecto por Moltó
et al (1990), demuestran que la adquisición de imágenes con y sin el apoyo de
flashes en un algoritmo de detección basado en imágenes en blanco y negro
filtradas en rojo y segmentación por umbral, conseguía aumentar la tasa de
detección de un 62 % a un 80 % de los frutos visibles, y disminuir los errores
de detección de un 88 % a un 15 % respecto del total de objetos detectados
como frutos, probando claramente la efectividad del mismo.
1.3.2 Elipsoides
En el caso de la utilización del flash para la adquisición de la imagen, según la
configuración mencionada, podemos considerar las condiciones del supuesto
realizado al final del apartado 1.2 en el que la dirección de iluminación
coincidía con la dirección de observación, que como vemos, situando el flash
junto a la cámara, podemos realizar esta aproximación.
Dado que las distancias a que se encuentra la cámara y el flash de los
frutos, como término medio 1,5 m , es mucho mayor que el radio medio de los
frutos, alrededor de 0,05 m , también podemos aceptar la suposición realizada en
Estudios de análisis de imagen
52
el apartado anterior de que los rayos de luz incidentes en al superficie de objeto
pudieran considerarse paralelos.
En cuanto a la suposición de que la superficie de los frutos se comporte
como una superficie lambertiana, es sabido que no es realmente así, como en la
casi totalidad de superficies reales, sin embargo, como veremos, esta
aproximación no va a interferir significativamente en los métodos y resultados
que se obtienen descritos en los próximos capítulos. Ello es debido a que,
asumiendo que solo existe reflexión difusa y superficial (modelo dicromático) en
la superficie de un objeto, el comportamiento especular de la superficie de la
esfera es casi nulo en la gran totalidad de su superficie y solo es apreciable en
la zona donde el ángulo de incidencia es muy cercano al cero.
Esto es debido a que, asumiendo como modelo de reflexión en la
superficie de un objeto el modelo dicromático propuesto por Shafer (1984) (ver
apéndice E), en el que la luz reflejada por la superficie de un objeto es debida
a la reflexión difusa cuando la luz incidente penetra en el cuerpo y a la
reflejada en la superficie. Gershon (1987) modeló los pesos específicos de cada
una de ellas, fijando para un ángulo entre la dirección de iluminación y el
difusa
ángulo de incidencia (grados)
superficialpeso de lascomponentes
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
1.1
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
Figura 1.7. Variación de la reflexión superficial y difusa en función del ángulo de incidencia.
Iluminación y adquisición de imagen
53
observador de 120 grados. En la figura 1.7 se muestra el resultado que obtuvo
frente al ángulo de incidencia con respecto a la normal en el punto. Vemos en
ella que solo existe una zona estrecha y puntiaguda alrededor del ángulo de 60
grados, es decir, coincidiendo con el ángulo de reflexión en la línea de
observación, teniendo un efecto nulo o casi nulo en los demás ángulos.
Mediante la configuración elegida en la toma de imágenes con flash, la
situación anterior se traduce en que solo alrededor de la zona de ángulo de
incidencia de cero grados existe un efecto apreciable debido a reflexión
superficial. Esto se puede observar en la figura anterior (figura 1.6), en la que el
pequeño punto brillante en el centro de las naranjas representa la zona en la
que afecta la reflexión superficial.
En la figura 1.8 se muestra la representación de la superficie imagen de
una escena de naranjas, es decir, el nivel de gris de la imagen en función de la
columna, x, y la fila, y, de la imagen. Esta imagen ha sido tomada con flash, por
lo que se cumplen las condiciones mencionadas en este apartado. Podemos
observar que realmente las zonas de la superficie donde se encuentran los frutos
se aproximan a semielipsoides, o elipsoides partidos por la zona ecuatorial. En la
figura 1.9 podemos observar la representación de una fila de una imagen la cual
Figura 1.8. Representación 3D de los valores de una imagen de naranjas.
Estudios de análisis de imagen
54
corta a un fruto. Esta representación es un corte de la superficie imagen con un
plano perpendicular al xy en la dirección y a una altura y0 determinada.
Observamos que la zona donde se encuentra la naranja es aproximadamente
igual a una elipse, producto del corte del elipsoide de la manera citada. En el
capítulo 3 se demostrará que realmente estas zonas se ajustan a una elipse con
un grado de error bastante pequeño, no interfiriendo mucho la zona especular
que como vemos, observando la figura 1.9, es muy reducida alrededor del punto
máximo de la elipse, o sea del elipsoide en la figura 1.8, y que incluso esto solo
sucede en las elipses producto de los cortes del elipsoide que pasen muy cerca
de la zona central, como podemos apreciar en la figura 1.8.
Resumiendo, se dispone de un sistema que permite la adquisición de
imágenes de una calidad suficiente para un tratamiento adecuado, consiguiendo
que la iluminación sea uniforme en toda la escena y que no aparezcan la
mayoría de los elementos espúreos o ruidosos que son comunes en este tipo de
escenas en ambientes naturales. Además se dispone de un modelo geométrico y
de representación imagen de los objetos de interés que resulta válido para los
propósitos fijados, siendo la situación real próxima a la ideal desarrollada en este
capítulo. Por lo tanto, estamos en condiciones de desarrollar la metodología
adecuada para extraer las características y los parámetros que determinen un
modelo de este tipo a través de la información disponible en la imagen, con el
estudio de la forma de la superficie imagen y de los contornos de los objetos
que, en este caso, se aproximen a objetos esféricos.
Figura 1.9. Representación de los niveles de gris de una fila de una imagen de naranjas.
Iluminación y adquisición de imagen
55
Capítulo 2
CONCAVIDAD E IMÁGENES
Adoptando el modelo expuesto en el capitulo anterior, considerando que
los frutos tales como las naranjas, se pueden aproximar como objetos esféricos,
hemos obtenido una representación de su irradiancia espectral imagen en función
de las coordenadas espaciales x e y, homólogas a las x′ e y′ de la imagen.
Tomando como punto de partida esta ecuación en su forma mas general
(ecuación 1.5) se intentará buscar la forma de caracterizar las zonas en la
imagen que se ajusten a esta función, a través del cálculo de sus propiedades
analíticas.
Cox et al (1989) realizaron estudios en la misma línea para localizar
objetos esféricos en imágenes aéreas. Su metodología se basaba, primero en la
concepción de un modelo de reflexión en las superficies de los objetos, modelo
que pretendía caracterizar la orientación del gradiente de la intensidad luminosa
en un punto de la superficie, asumiendo que se comportaba como un reflector
lambertiano. Con ello se pretendía localizar zonas de la imagen donde la
variación de luminosidad fuera suave, como corresponde a la superficie de una
esfera. Para ello se utilizaban operadores gradiente para calcular el ángulo de la
dirección del gradiente.
A partir de imágenes muestra de objetos esféricos se determinaba a priori,
a través de la relación encontrada entre variación de la luminosidad y ángulo de
incidencia de la luz, la posición relativa del iluminante al objeto, con el fin de
utilizarla para verificaciones posteriores.
El procedimiento para localizar los objetos esféricos se basaba en la
búsqueda de puntos candidatos por medio de una correlación con una muestra
de objeto esférico tomada a priori. A partir de estos puntos se realizaba una
segmentación por crecimiento de regiones con el criterio de continuidad en los
ángulos gradiente de los puntos vecinos. Por último se realizaba una
comprobación de que esa región era una esfera verificando que el ángulo de
incidencia del iluminante calculado a partir de esta región coincidía con el real,
y además que la proporción del área de la región en relación al perímetro fuera
similar a la de un circulo, y por último que la relación entre los tres tipos en
que se dividía el área de la región (sombra, mate y especular) fuera similar a la
establecida en un proceso de ajuste anterior. Este proceso de calibración de
estas tres zonas se realizaba analizando el histograma de niveles de gris
originales y de la imagen gradiente transformada de la imagen de una esfera
muestra.
La utilización de la información que se recibe a través de una imagen para
averiguar la forma de los objetos ha sido tratada en la literatura en su forma
general a través de lo que se denomina shape from shading, cuyo precursor fue
Horn (1974). La idea consiste en, asumiendo un modelo de reflexión sobre la
superficie de los objetos, averiguar la orientación del vector normal a la
superficie en cada punto de los objetos a través de la luz que procedente de
ellos capta el sensor. Varios autores han seguido los pasos de Horn (Atsuta et
al, 1988; Wenjun & Yuanhua, 1988; Brown & Shvaytser, 1990), introduciendo
modificaciones al método inicial, pero la aplicación práctica de estas técnicas
queda aún lejos de ser efectivas y menos aún en situaciones donde la
iluminación no es apropiada.
En este capitulo se expondrán los principios en que se basa el desarrollo
de un método de segmentación que permite localizar objetos esféricos
independientemente de la posición relativa del iluminante. La segmentación que
se obtiene es producto de una transformación de la imagen a partir de
propiedades analíticas del modelo de irradiancia encontrado para un objeto
esférico. A diferencia de Cox et al (1989) la transformación que aquí se propone
realiza directamente la segmentación y caracteriza cierto tipo de zonas de la
imagen con cierta propiedad, la concavidad, que tiene la forma analítica de la
irradiancia imagen de una superficie esférica. A continuación se describirá la
transformación que permita cuantificar y resaltar esta propiedad por medio de
Estudios de análisis de imagen
58
operadores direccionales segunda derivada. Por último se expone una sección
dedicada a los resultados de los experimentos realizados así como la
comparación de estos con otro operador conocido y la discusión de los
resultados obtenidos.
2.1 Concavidad de la irradiancia imagen de una esfera
El hecho que impone la extracción de información sobre objetos esféricos a
partir de la forma de su irradiancia espectral imagen es que en análisis de
imagen solo se dispone de esta información, la información que capta el sensor
o cámara a partir de la luz que recibe de la superficie del objeto.
Tal como hemos apuntado, partiendo de la ecuación 1.5 que corresponde a
la forma más general de la irradiancia imagen de una superficie esférica en las
condiciones mencionadas en el capítulo 1, podemos, en primer lugar, fijarnos en
una propiedad de esta función que es válida para cualquier tipo de orientación
del iluminante respecto del observador, orientación denotada por los ángulos θi,ϕi
de la dirección de los rayos incidentes respecto al sistema de coordenadas
establecido, tal como se describe en la figura 1.3. Recordando la forma de la
ecuación 1.5, esta tenía la expresión
E(x,y,θi,ϕi) = I
r2 senθi cosϕi
xR
+ senθi senϕi yR
+ cosθi √R2− x2− y2
R (1.5)
Centrémonos sólo en la curva que se obtiene de la intersección de esta
superficie sobre el plano xz, para ello hagamos y = 0 en la ecuación anterior,
con lo que obtenemos
E(x,θi,ϕi) = I
r2 senθi cosϕi
xR
+ cosθi √R2− x2
R
Concavidad e imágenes
59
Dada la posición del iluminante, los valores de los ángulos θi,ϕi, la
distancia del objeto al iluminante r, y el radio de la esfera objeto R, son
constantes en la ecuación anterior, pudiendo re-escribir ésta de la forma
E(x) = k1 x + k2 √1− k3 x2
donde
k1 = I
r2 senθi cosϕi
R
k2 = I
r2 cosθi
k3 = 1 ⁄ R2
Calculando la segunda derivada de E(x) respecto de x, obtenemos la
expresión
d2E(x)dx2
= − k2 k3 √1− k3 x2 + k3 x2 ⁄ √1− k3 x2
1− k3 x2
Analizando esta expresión vemos que, para valores de x comprendidos entre
− R≤ x≤ R, es decir, puntos de la superficie de la esfera, el denominador es
siempre positivo, ya que k3 x2≤ 1 en estos casos. Antes de analizar el numerador
veamos que ocurre con las constantes k2 y k3. La constante k3 es siempre
positiva, ya que el radio de la esfera R es siempre una magnitud positiva. En
cuanto a k2, en primer lugar la intensidad radiante del iluminante, considerada
constante en las condiciones establecidas en el capítulo anterior, es una magnitud
positiva, ya que esta se define como el flujo radiante por unidad de ángulo
sólido en cierta dirección, o sea, en vatios/estereoradián, magnitudes positivas; la
distancia del objeto al foco r, como tal distancia también es una magnitud
positiva; y por último el termino cosθi, considerando que el iluminante, dado los
dos semiespacios que definen el plano xy, se encuentra en el semiespacio donde
el semieje z positivo, es decir, que los rayos incidan en el sentido desde el
Estudios de análisis de imagen
60
observador al objeto, pues si no, en caso contrario, el observador no vería la
superficie del objeto iluminada, entonces el ángulo θi de la dirección de los
rayos iluminantes respecto al sistema de coordenadas establecido varia de la
forma 0≤ θi≤ π ⁄ 2. Por lo tanto la constante k2 es asimismo una constante
positiva. Por último, tomando el signo positivo de las raíces cuadradas, ya que el
negativo no tiene significado físico, dado que no podemos observar esta cara del
objeto desde el otro lado, llegamos a la conclusión de que todos los términos en
la ecuación anterior son positivos, pero como toda la expresión está afectada por
un signo negativo, podemos afirmar que la segunda derivada de la irradiancia
espectral imagen es siempre negativa sobre la superficie de un objeto esférico en
la dirección del eje x.
El resultado anterior se puede generalizar para cualquier dirección sobre el
plano xy, ya que siempre podemos cambiar la orientación de los ejes x e y para
que el eje x coincida con cierta dirección, no perdiendo validez la ecuación (1.5)
de la irradiancia espectral de la imagen.
Según la definición de concavidad de una función f(x→), una función es
cóncava en cierta dirección v→, si la derivada segunda de la función en esa
dirección es menor que cero,
d2f(x→)dx
→2
v→ < 0
Dado que la irradiancia espectral imagen E(x,y;θi,ϕi) en cualquier punto de
la superficie de un objeto esférico posee una segunda derivada negativa en
cualquier dirección, podemos afirmar que la irradiancia espectral imagen
E(x,y;θi,ϕi) en cualquier punto de la superficie de un objeto esférico es una
función cóncava en cualquier dirección.
Ya que esta propiedad se cumple para cualquier orientación del iluminante,
también se cumple en el caso descrito en el capítulo anterior cuando los rayos
de luz inciden en la misma dirección que la dirección del observador, como en
el caso del apoyo de iluminación artificial mediante flashes. A partir de esta
propiedad, en los apartados siguientes se describe un método por el que, a
Concavidad e imágenes
61
partir de la información que facilita la respuesta del sensor, directamente
relacionada con la irradiancia espectral imagen (sección 1.2), podemos resaltar y
cuantificar esta propiedad de los puntos que constituyen la imagen.
2.2 Operadores segunda derivada
Los operadores segunda derivada son tradicionalmente utilizados para la
extracción o realce de bordes (apéndice D). El operador segunda derivada por
excelencia es el Laplaciano, el cual tiene la característica de ser independiente
de dirección, dando como resultado una magnitud escalar. Los bordes, al aplicar
operadores segunda derivada, se caracterizan por anular este operador en los
puntos donde existe una variación acusada del nivel de gris en la imagen.
Otros operadores segunda derivada mas sofisticados y que dan mejores
resultados son los operadores de Marr (Marr, 1982) u operadores "sombrero
mejicano" (ver apéndice D). Se distinguen por ser la conjugación de dos
operaciones al tiempo, un suavizado con un filtro Gausiano pasa baja, y el
operador Laplaciano. Ello permite, variando la desviación típica de la Gausiana,
detectar bordes a diferentes escalas espaciales en la imagen. Por tanto, la ventaja
de este operador reside en poder extraer bordes en sólo cierto rango de
variabilidad espacial, evitando el resto de bordes que no sean de interés para el
problema en concreto.
Los operadores independientes de la dirección, como los Laplacianos o los
"sombrero mejicano", tienen precisamente este inconveniente, que pierden la
información que proporciona cada dirección; en cambio tienen la ventaja de que
la operación se realiza con una sola convolución, con el consiguiente ahorro en
coste computacional.
No obstante, según lo expuesto en el apartado anterior, nos interesa un
operador que nos de información en cierta dirección, para conocer si un punto
de la imagen es cóncavo en esa dirección, es decir, la finalidad con que se va a
aplicar aquí los operadores segunda derivada es distinta a la utilizada para la
detección o realce de bordes. Lo que interesa averiguar en este caso es si la
segunda derivada de la función nivel de gris que representa la imagen es
Estudios de análisis de imagen
62
negativa en una dirección dada. Para ello utilizaremos el "sombrero mejicano"
unidireccional, dado que es el operador segunda derivada más completo, por las
razones antes mencionadas (ver apéndice D). De esta manera, los puntos
cóncavos en una dirección r de la imagen I(x,y) serán los que satisfagan la
condición
δ2G(r)δr2
∗ I(x,y) < 0
donde δ2G(r) ⁄ δr2 es el operador "sombrero mejicano" en la dirección r, y ∗
denota el operador convolución. Si la función Gausiana no normalizada tiene la
forma G(r) = e(− r2⁄2πσ2), donde σ es la desviación típica de la Gausiana, el
operador "sombrero mejicano" en la dirección r tendrá la expresión
δ2G(r)δr2
= − 1
πσ2 1 −
r2
πσ2 e− r
2 ⁄ 2πσ2
(2.1)
Según la conclusión a la que se ha llegado en el apartado anterior, un
punto de la imagen perteneciente a la superficie de un objeto esférico cumplirá
que la segunda derivada del nivel de gris en ese punto es menor que cero para
cualquier dirección, es decir, será cóncavo en cualquier dirección, condición que
se puede expresar de la forma
δ2G(r)δr2
∗ I(x,y) < 0 para todo r∈ Sr
siendo Sr el conjunto de posibles direcciones en el plano xy.
2.3 La transformación Concavidad
El concepto que se acaba de exponer es imposible de manejar en una situación
real ya que, primero, existen infinitas direcciones que pueden atravesar un punto,
con lo que es imposible e irrelevante, desde el punto de vista práctico, evaluar
Concavidad e imágenes
63
la concavidad en un punto en infinitas direcciones. Por otra parte, en una
situación real, con datos obtenidos a través de un sensor físico como es una
cámara CCD, así como todos los procesos intermedios de transporte y muestreo
de la señal, se introduce ruido o efectos espúreos en los datos disponibles, por
ello es usual que existan direcciones en las que un punto imagen perteneciente a
una superficie esférica, aún reflejando la luz de una forma perfectamente difusa,
el resultado de aplicar el operador derivada sea negativo, y menos aún cuando la
superficie no se comporta idealmente como un reflector difuso.
El objetivo perseguido es encontrar una transformación que, a partir de la
imagen original I(x,y) y utilizando operadores segunda derivada, obtengamos una
imagen transformada C(x,y) donde a cada punto (x,y) se le asigne un valor que
cuantifique lo que llamaremos el "grado de concavidad" de la función original
I(x,y) en ese punto. Para ello definamos previamente que características definirán
el "grado de concavidad" en un punto.
El "grado de concavidad" en un punto deberá tener en cuenta que, si ese
punto es cóncavo en cierta dirección, cuanto mayor sea el segmento de puntos
continuos al punto en cuestión en esa dirección, los cuales a su vez sean
cóncavos, es natural que se le debe asignar un índice del "grado de concavidad"
dependiendo de estos puntos. Es decir, si una función es cóncava a lo largo de
dos segmentos, uno de longitud l1 y otro de longitud l2, con l1< l2, el "grado de
concavidad" de los puntos en el segmento l1 será menor que en el de los puntos
que forman el segmento l2.
Por otra parte, se puede considerar que el "grado de concavidad" en un
punto también es función del número de direcciones a lo largo de las cuales ese
punto es cóncavo. Así, un punto tendrá un índice de concavidad mayor cuantas
mas direcciones existan en las que ese punto tenga valor negativo en la segunda
derivada en tales direcciones. Como se ha apuntado anteriormente, el número de
direcciones a través de un punto son infinitas, siendo intratables todas ellas, por
ello se definirá un conjunto finito de direcciones Sr sobre las que se definirá el
"grado de concavidad".
Estudios de análisis de imagen
64
De esta manera, y teniendo en cuenta lo dicho en párrafos anteriores, se
define la transformación concavidad C(x,y), la cual evalúa y asigna el "grado de
concavidad" en un punto de la imagen I(x,y), como
C(x,y) = ∑ P(r)r∈ Sr
lr(x,y)
donde Sr es el conjunto finito de direcciones r definido, lr(x,y) es la longitud del
segmento de puntos continuos en la dirección r cuya segunda derivada en esta
dirección sea negativa y en el cual esta incluido el punto en cuestión (x,y), es
decir, todos los puntos del segmento lr(x,y), incluido el punto (x,y) cumplen la
condición (δ2G(r) ⁄ δr2) ∗ I(x,y) < 0. El término P(r) es un peso que se le asigna a
cada dirección r∈ Sr, el cual es función, sobre todo y, como veremos en el
siguiente apartado, de las escalas relativas entre la coordenada x e y debido a la
especial geometría de la formación de la imagen. La función peso P(r) podría
ser también función del punto (x,y), es decir P(r,x,y), ya que, por ejemplo, se le
podría asignar un mayor peso al punto (x,y) cuanto más cerca del centro del
segmento lr(x,y) se encontrara, lo que significaría dar una mayor importancia o
un mayor índice del "grado de concavidad" a los puntos mas centrados de los
segmentos cóncavos que a los de los extremos.
En el caso digital, la longitud del segmento lr(x,y) no es sino el número de
puntos consecutivos cóncavos en la dirección r que incluyen el punto (x,y), que
denotaremos ncr(x,y), con lo que finalmente la transformación concavidad de la
imagen I(x,y) queda definida como
C(x,y) = ∑ P(r)r∈ Sr
ncr(x,y) (2.2)
Esta transformación tiene dos propiedades. Primero, debido a la
información direccional que contiene, esta transformación asigna valores que
varían suavemente en regiones convexas, topologicamente hablando, de puntos
cóncavos en la imagen I(x,y), ya que, imaginemos una región cuyos puntos sean
Concavidad e imágenes
65
cóncavos y que sea convexa, es decir, que cualquier par de puntos de la región
puede unirse con un segmento de línea recta cuyos puntos están todos
contenidos en la región; por lo tanto, dada una dirección, a los puntos del
segmento de la región en esa dirección se le asigna un mismo valor, que se verá
suavemente modificado respecto de sus contiguos por la diferencia de longitud
de los segmentos que pasen por ellos en las otras direcciones definidas, y debido
a que es un conjunto convexo, la longitud de segmentos paralelos que unen dos
puntos del borde varia continua y suavemente, por lo tanto, variará continua y
suavemente el valor del "grado de concavidad" de los puntos en esa región
convexa.
En segundo lugar, esta transformación incluye a su vez la posibilidad de
detección o extracción de bordes, ya que los bordes de las regiones conexas que
posean un "grado de concavidad" no nulo son los valores cruce por cero de los
operadores de Marr, siendo bordes reales de objetos o variaciones notables de
luminosidad en la imagen original I(x,y).
2.4 Implementación
Para implementar la transformación concavidad se definen en la práctica un
conjunto Sr de cuatro direcciones, direcciones que coinciden con las de los ejes
coordenadas x e y definidos sobre la imagen como muestra la figura 2.1, y los
dos sentidos diagonales con una inclinación
de 45 y 135 grados respectivamente respecto
al eje x. Se eligieron estas cuatro direcciones
por estar homogeneamente repartidas y dado
que coinciden de esta manera con la
representación de la imagen, facilita los
cálculos a la hora de su implementación. El
cálculo de la derivada segunda en más
direcciones no aporta mucha más
información, ya que en imágenes digitales,Figura 2.1. Ejes de coordenadas en laimagen.
Estudios de análisis de imagen
66
dos direcciones próximas, correspondientes a dos líneas rectas muy cercanas,
contienen casi los mismos píxels.
El operador "sombrero mejicano" unidimensional utilizado fue implementado
en una máscara a partir de la expresión de éste según la ecuación (2.1). Los
valores de la máscara se obtuvieron para valores de la variable r con múltiplos
de un entero positivo p y multiplicando el resultado por una constante de
proporcionalidad K, es decir
δ2G(r)δr2
= K − 1
πσ2 1 −
r2
πσ2 e− r
2 ⁄ 2πσ2
; r = ...− 3p,− 2p,− p,0,p,2p,3p,...
La máscara utilizada tomando como desviación típica σ = 27, constante de
proporcionalidad K = 10000 y espaciado en r p = 15, fue
1 , 1 , 1 , 2 , 2 , 1 , 0 , − 2 , − 4 , − 4 , − 4 , − 2 , 0 , 1 , 2 , 2 , 1 , 1 , 1
Para la obtención de los resultados esperados del operador "sombrero
mejicano" a cierta escala o frecuencia espacial en la imagen, es importante
adquirir un compromiso en la elección de los tres factores anteriormente citados,
desviación típica σ, constante de proporcionalidad K y espaciado p.
El algoritmo utilizado que realiza la transformación concavidad definida en
la ecuación (2.2) es el siguiente
Para cada dirección r definida en Sr
Barrer la imagen I(x,y) en la dirección actual; Si δ2G(r) ⁄ δr2 ∗ I(x,y) < 0, entonces guardar la posición (x,y) como (x0,y0); Inicializar el contador ncr(x,y) = 1 Mientras δ2G(r) ⁄ δr2 ∗ I(x,y) < 0 ncr(x,y) = ncr(x,y) + 1; (x,y) = siguiente punto en la dirección r; fin, Mientras; Incrementar los puntos de la imagen transformada C(x,y) desde el punto inicial (x0,y0) hasta el punto actual (x,y) de la forma C(x,y) = C(x,y) + P(r) ncr(x,y); fin, Si;fin, Para;
Concavidad e imágenes
67
Los valores de P(r) utilizados para las direcciones definidas en Sr al
principio de este apartado, fueron cuatro constates que dependen del hecho de
que las cámaras toman las imágenes con una proporción relativa de 2 ⁄ 3 entre la
coordenada y y la x, es decir y = 2 ⁄ 3 x, siendo muestreadas en una proporción 1
a 1, por lo tanto los valores de P(r) elegidos intentan compensar las diferencias
de escala que en longitud real tienen un mismo número de píxels en la
dirección x que en la dirección y; con ello los valores de P(r) utilizados son
P(x) = 1, P(y) = 0,75 y para las direcciones diagonales P(r) = 1,25. Este aspecto
relativo a la relación de escala entre x e y será tenido en cuenta, como veremos,
en otras situaciones, ya que de esta manera se mejoran los resultados esperados.
2.5 Experimentos y discusión
El objeto de las pruebas que aquí se muestran es analizar el efecto que produce
la transformación concavidad en escenas donde se encuentran objetos esféricos
en comparación con el resultado que se obtiene sobre superficies de otros
objetos que no sean esféricos en una misma escena; así mismo veremos el
resultado comparativo que se obtiene mediante la transformación concavidad y la
utilización del operador de Marr adireccional para la caracterización de las zonas
cóncavas en la imagen.
En la figura 2.2 se muestra una escena en el interior de una habitación
donde aparece en medio una naranja y elementos típicos de una habitación con
superficies planas como la puerta y las paredes, u otros objetos con superficies
más irregulares como un perchero, etc. La escena fue tomada con el sistema de
iluminación artificial descrito en el capítulo 1, con el fin de obtener una
iluminación uniforme y evitar falsas discontinuidades que no fueran producto de
bordes reales de los objetos. En la figura 2.3 se representa la transformación
concavidad de la figura 2.2. Como podemos observar, en esta imagen las zonas
correspondiente a superficies cóncavas de la imagen 2.2 quedan notablemente
resaltadas del resto, poseyendo valores más altos en los puntos situados sobre
superficies imagen cóncavas rodeados de una mayor zona en la que los puntos
están también sobre la misma superficie cóncava, por el efecto descrito en el
Estudios de análisis de imagen
68
Figura 2.2. Imagen de una naranja entre objetos comunes.
Figura 2.3. Transformación concavidad de la figura 2.2.
Concavidad e imágenes
69
Figura 2.4. Imagen de una escena de naranjas.
Figura 2.5. Transformación concavidad de la figura 2.4.
Estudios de análisis de imagen
70
apartado 2.3 sobre superficies conexas de este tipo, tal como podemos ver, en
particular, con la naranja.
En la figura 2.4 se muestra una escena de naranjas en su medio natural, y
en la 2.5 su transformación concavidad. Se puede notar el mismo efecto
producido en el ejemplo anterior, resaltando en la imagen transformada las
superficies cóncavas, y por tanto los frutos, del resto de la imagen, que en este
caso el entramado foliar presenta pequeñas zonas de superficies imagen cóncavas
con multitud de discontinuidades, debido a la cantidad de bordes reales que
existen en una distribución de objetos de este tipo.
En las figuras 2.6 y 2.7 se muestra el resultado de aplicar simplemente el
"sombrero mejicano" bidimensional sobre las imágenes 2.2 y 2.4 con una máscara
obtenida con una desviación típica de σ = 3, teniendo también en cuenta la
proporción 2 ⁄ 3 entre la coordenada x e y, una constante de proporcionalidad de
K = 100 y un espaciado de p = 4. La máscara resultante fue
00111111100
01121112110
1120− 4− 6− 40211
111− 2− 8− 11− 8− 2111
1120− 4− 6− 40211
01121112110
00111111100
Las imágenes de las figuras 2.6 y 2.7 se obtuvieron asignando un valor
constante a los puntos de la imagen original en los cuales el resultado de la
aplicación de la máscara anterior fue negativo, asumiendo estos puntos como
puntos cóncavos en la superficie imagen. Como vemos, detectando los puntos
cóncavos por este u otros métodos que sólo se fijen en un punto sin tener en
cuenta su entorno, no proporciona tanta información como la transformación
concavidad descrita, la cual resalta ciertas zonas cóncavas y dentro de ellas,
ciertos puntos mas que otros, de acuerdo a los criterios descritos.
Concavidad e imágenes
71
Figura 2.6. Puntos de la figura 2.2 cuyo resultado es negativo alaplicar el "sombrero mejicano".
Figura 2.7. Puntos de la figura 2.4 cuyo resultado es negativo alaplicar el "sombrero mejicano".
Estudios de análisis de imagen
72
Los bordes de las regiones de las figuras 2.6 y 2.7 son segmentos cruces
por cero, ya que son la transición entre puntos que obtienen un valor negativo
con la aplicación del "sombrero mejicano" y puntos que dan valores positivos.
Por lo tanto estos bordes son bordes reales de la imagen a cierta escala,
caracterizada por la desviación típica elegida del filtro de suavizado gausiano.
Si elegimos un umbral próximo a cero y se lo aplicamos a las imágenes de
las figuras 2.3 y 2.5 binarizandolas, obtenemos el resultado mostrado en las
figuras 2.8 y 2.9 respectivamente. Como podemos observar obtenemos un
resultado muy parecido al mostrado en las figuras 2.6 y 2.7, es decir, que por
medio de la transformación concavidad se pueden también extraer los bordes de
los objetos en la imagen; ello es así por el motivo descrito al final de la sección
2.3, ya que los bordes de las regiones conexas de puntos que posean un grado
de concavidad no nulo son puntos de segmentos cruce por cero, en este caso de
operadores de Marr unidireccionales. Además, eligiendo umbrales mas elevados
podemos obtener regiones que solo posean cierto grado de concavidad, regiones
en las cuales podemos tener mas interés, como una forma de aprovechar la
información que se obtiene de esta transformación.
Como consecuencia del resultado obtenido en las figuras 2.8 y 2.9, podemos
pensar que combinando la transformación concavidad con la aplicación de un
umbral de binarización, se obtiene un procedimiento de segmentación de la
imagen en regiones cóncavas. Este método de segmentación tiene la propiedad
de que si dos objetos en la escena aparecen juntos y poseen una irradiancia
espectral imagen cóncava, como los objetos esféricos, en la imagen segmentada
aparecen como regiones separadas e independientes, ya que entre dos zonas de
la imagen que presenten una concavidad, siempre existe una convexidad entre
ellas, provocada por un borde real entre las superficies de los objetos. Este
efecto se puede constatar observando la imagen original de la figura 2.4, en la
que aparecen frutos muy juntos, incluso alguno ocultando parte del otro; si nos
fijamos en la segmentación obtenida de las regiones cóncavas de esta imagen a
partir de la transformación concavidad (figura 2.9) observamos que realmente las
regiones en ella correspondientes a estos frutos son regiones que aparecen
separadas e independientes. Esta propiedad de la segmentación por concavidades
Concavidad e imágenes
73
Figura 2.8. Segmentación por umbral a partir de la transformaciónconcavidad de la figura 2.3.
Figura 2.9. Segmentación por umbral a partir de la transformaciónconcavidad de la figura 2.5.
Estudios de análisis de imagen
74
puede utilizarse para resolver el problema de separar e identificar
individualmente los frutos que aparecen agrupados en forma de racimos, uno de
los problemas a resolver para un sistema de visión para la recolección de frutos.
En cuanto al coste computacional de esta transformación depende, claro
está, del tamaño de la máscara elegida. Si la máscara unidimensional del
"sombrero mejicano" utilizado en la transformación concavidad tiene dimensión n,
para calcular la segunda derivada en cada punto en una sola dirección se
realizan n multiplicaciones, n adiciones y una comprobación lógica que, teniendo
en cuenta todas las direcciones en la que se realiza la operación, tenemos que
el número de multiplicaciones y sumas es de | Sr| n y el de comprobaciones
lógicas | Sr| , siendo | Sr| el número total de direcciones del conjunto Sr
establecido para la transformación. Dado que según sea la forma de
almacenamiento de los datos de la imagen existe, cierta complejidad de acceso a
los valores de los píxels, para cada elemento y en cada dirección se accede n+ 1
veces a elementos de la imagen para realizar las operaciones, de las que n son
lecturas y una es la escritura de la actualización del valor de la transformación.
Por lo tanto, el coste de la transformación se puede expresar de la forma
C = | Sr| n (M+ S+ A) + | Sr| A + | Sr| L
donde M denota el coste de una multiplicación, S el de una suma, L el de una
operación lógica, y A el de un acceso a un valor de la imagen.
Por otra parte, el coste de aplicar un operador "sombrero mejicano"
bidimensional, como el utilizado anteriormente para el mismo fin, para una
máscara cuadrada de iguales características que la unidimensional respecto a
desviación típica de la Gausiana y por lo tanto de tamaño, tenemos que una
máscara de n x n valores realiza
C = n2 (M+ S+ A) + A + L
Teniendo en cuenta que el número de direcciones que se examinan en la
transformación concavidad es menor que el orden de la máscara tenemos que la
Concavidad e imágenes
75
transformación concavidad realiza | Sr| accesos y operaciones lógicas más que un
operador de Marr, y que, por el contrario, la transformación concavidad realiza
n2 − n| Sr| multiplicaciones, adiciones y accesos menos que un operador de Marr
del mismo orden. Para valores utilizados de n y | Sr| en la implementación
(apartado 2.4) el coste computacional de la transformación concavidad es menor
que la del operador "sombrero mejicano" del mismo orden. No obstante cuando
el tamaño de las máscaras, n, se acerca al número de direcciones a examinar
| Sr| , el coste de la transformación concavidad supera al del operador de Marr.
Por último resaltar que la transformación concavidad es independiente del
nivel de iluminación sobre la escena, o del color de las superficie de los objetos.
La transformación solo precisa una imagen monocroma con una iluminación lo
más uniforme posible sobre la escena. El resultado de la transformación
concavidad solo depende de la forma en que va variando la función irradiancia
espectral imagen de la escena, sin considerar su amplitud, sino más bien el
contraste entre diferentes zonas de la imagen.
Mediante la transformación concavidad se puede caracterizar de una manera
general las regiones pertenecientes a objetos esféricos en la imagen. En los
próximos capítulos se exponen las técnicas y métodos desarrollados para obtener
una información más precisa y particular de imágenes de objetos esféricos, como
son la forma particular de la irradiancia imagen en el caso de que el iluminante
esté alineado con el observador, o la forma circular que presentan los contornos
reales de estos objetos en las imágenes.
Estudios de análisis de imagen
76
Capítulo 3
ELIPSOIDES E IMÁGENES
Como consecuencia del modelo de irradiancia espectral imagen desarrollado
en el capítulo 1, el capítulo 2 se centró en el diseño y desarrollo de un método
para detectar, resaltar o cuantificar una de las propiedades más generales de la
irradiancia espectral imagen de objetos esféricos, la concavidad, conduciéndonos
incluso a un método de segmentación para extraer regiones cóncavas en la
imagen.
En busca de un rasgo más específico que caracterice con más precisión y
nos proporcione una información más exacta para un posible reconocimiento y
localización de objetos esféricos, debemos centrarnos en propiedades más
exclusivas del modelo adoptado. Tal como vimos en el apartado 1.2, la función
irradiancia espectral imagen, y por tanto la respuesta del sensor, tiene cierta
forma característica dependiendo de la dirección relativa de los rayos de
iluminación incidente y la dirección de observación. En el caso cuyas condiciones
cumplen la configuración establecida para el sistema de iluminación en la toma
de imagen con flashes descrita en el apartado 1.1, esta forma tenía como
representación una función característica bien conocida, el elipsoide.
La búsqueda de formas o patrones concretos de zonas a lo largo de la
imagen se realiza comúnmente mediante emparejamiento de plantillas (Rosenfeld
& Kak, 1982; Ballard & Brown, 1982; Gonzalez & Wintz, 1977) previamente
establecidas a partir de muestras ejemplo o elaboradas mediante un modelo
teórico, utilizando correlaciones u otros criterios para la determinación de la
zona que produzca un error menor en una medida de similitud con la
distribución de los valores de estas plantillas. Cox et al (1988) utilizaron la
correlación de los valores de una esfera muestra a lo largo de toda la imagen
para detectar puntos susceptibles de pertenecer a objetos esféricos en imágenes
aéreas. Además de utilizar esta técnica en imágenes de grises originales, también
la aplicaron a la imagen transformada que contenía información de los ángulos
de las direcciones que un operador gradiente obtenía sobre la imagen original,
obteniendo así mejores resultados.
El problema de las técnicas que utilizan emparejamiento de plantillas es
que dependen tanto del valor absoluto de los niveles de gris de la imagen como
del tamaño del objeto. En el caso anterior, Cox et al (1988) eliminaron la
dependencia en el valor de niveles de gris con la utilización de este método en
la imagen transformada de direcciones de gradientes. Sin embargo la
dependencia del tamaño, así como otros inconvenientes tales como dependencia
bajo rotaciones o su carácter inoperante cuando no aparece parte del objeto
buscado en la imagen, como en el caso de frutos parcialmente ocultos, nos
impide la utilización de esta técnica en el problema que aquí nos ocupa.
En este capítulo se muestra un método para caracterizar puntos en la
imagen que reunan las características correspondientes a puntos de una superficie
esférica. Esto se realizará a través de una técnica llamada ajuste de superficies o
surface fitting, mediante la cual podremos buscar zonas de la imagen que se
ajusten mejor a un elipsoide ideal. Debido a la complejidad del cálculo y al
aumento de parámetros a determinar cuando se efectúan operaciones en tres
dimensiones, se realiza una aproximación para caracterizar una superficie, en este
caso la de un elipsoide, mediante curvas. Además, teniendo en cuenta ciertos
factores, como veremos en el apartado 3.2, podremos reducir el número de
parámetros a determinar, así como evitar la dependencia en el valor absoluto del
nivel de gris, y a la vez, mediante esta aproximación podremos también tener
una alta probabilidad de localizar puntos pertenecientes a superficies
parcialmente ocultas. En la implementación del método, apartado 3.3, veremos
una variante del método, combinándolo con la transformación concavidad, que
puede aplicarse en función de un número variable de puntos, evitando la rigidez
que supone el uso de máscaras. Por último, en la sección 3.4, comprobaremos la
validez del método en las pruebas realizadas y su alto grado de exactitud.
Estudios de análisis de imagen
78
3.1 Ajuste de superficies
El ajuste de superficies o surface fitting (Rosenfel & Kak, 1982) es una técnica
utilizada para calcular parámetros de la imagen en cierto punto de ella, a partir
de la superficie ideal que más se ajusta a los valores de un entorno o vecindario
de ese punto. Por ejemplo, para calcular el gradiente de la imagen en un punto
a partir de la ecuación de la superficie a que más se ajusta el entorno de ese
punto. Es decir, sea un polinomio de grado m , g(x,y), el cual pretendemos
ajustar a los niveles de gris de un vecindario n x n de un punto, donde el
número de coeficientes del polinomio g, (m+ 1)(m+ 2) ⁄ 2, es menor que n2,
entonces podemos considerar el gradiente de la función g(x,y) en el punto
centrado en el vecindario establecido, como una aproximación del gradiente que
posee la imagen en ese punto. Para averiguar los valores de los coeficientes del
polinomio en ese punto a partir de los valores de niveles de gris del vecindario,
se adopta un criterio de error, por ejemplo la suma del cuadrado de las
diferencias entre los valores reales de la imagen en los puntos y el valor que le
asigna la función g en ese punto. Diferenciando respecto de cada uno de los
coeficientes e igualando a cero, obtendremos un sistema de ecuaciones donde las
incógnitas son los coeficientes de la función g que minimizan el error establecido
entre los valores reales y los predecidos por el polinomio que pretendemos
ajustar. Este procedimiento general aplicado en el caso de ajuste a una recta no
es sino el conocido ajuste por mínimos cuadrados, que corresponde al caso de
un polinomio de grado uno para una función de una variable, g(x), a la que
corresponden dos coeficientes, la pendiente y la ordenada en el origen.
Notemos que al aumentar la dimensión crece el número de parámetros o
coeficientes a calcular en cada caso; por ejemplo, en el caso de un polinomio de
grado uno (la recta), en un función unidimensional posee dos coeficientes, y en
el caso de una función bidimensional, función que corresponde a un plano, el
número de coeficientes a determinar es tres. El mismo efecto se produce en el
caso de mantener fija la dimensión y variar el grado del polinomio a ajustar; por
ejemplo, en una función bidimensional de grado uno (un plano), el número de
coeficientes a calcular será tres, mientras que tan solo para un polinomio de
Elipsoides e imágenes
79
grado dos, el número de coeficientes a calcular aumenta hasta seis, como es el
caso de un función cuadrática, entre ellas los elipsoides.
Calcular seis parámetros en cada punto de la imagen a partir de cierto
número de vecinos establecido (al menos seis) para encontrar posibles puntos
que se ajusten a la superficie de un elipsoide, puede conllevar un considerable
gasto computacional y complejidad de cálculo.
No obstante, el ajuste de superficies puede ser un buen método para
localizar puntos en la imagen que se ajusten a un elipsoide, ya que esta forma
de cálculo nos permite trabajar a partir de modelos teóricos y no a partir de
máscaras. Además, con el cálculo de los coeficientes en el ajuste, encontramos
para cada punto un conjunto de parámetros que caracterizan ese punto, y que, a
partir de los cuales podemos extraer cierta información que nos ayude a una
selección de los puntos de interés.
El problema del número de coeficientes a calcular se intentará simplificar
tal como se expone en el apartado siguiente, aproximación que además de la
ventaja de un cálculo menos costoso y más sencillo, nos proporcionará cierta
capacidad de localizar puntos de superficies de las cuales solo muestran parte de
su área total.
3.2 Elipses
Existen dos frentes por el que podemos abordar la simplificación del
número de coeficientes a calcular para el ajuste, el grado del polinomio y el
número de variables independientes del mismo. En primer lugar centrémonos en
el aspecto del número de variables independientes o dimensión del polinomio
que pretendemos ajustar a los valores del vecindario de cierto punto.
El propósito que nos ocupa es la búsqueda de puntos en la imagen cuyos
valores del nivel de gris del entorno se ajusten a un elipsoide, puntos a los
cuales corresponderá un objeto esférico en la escena. El elipsoide de este caso
particular, representación en la imagen de un objeto esférico de la escena, es
una figura de simetría de revolución respecto al eje z, ya que según la ecuación
encontrada para la irradiancia espectral imagen de las superficies esféricas, en el
Estudios de análisis de imagen
caso de que los rayos del iluminante
sean paralelos a la dirección de
observación (apartado 1.2), tiene la
expresión
E(x,y) = I
r2 √R2− x2− y2
R
que como vemos el semieje
correspondiente al eje x y al eje y es R,
el radio de la esfera, y el
correspondiente al eje funcional o z es
I ⁄ r2, donde I era la intensidad del
iluminante y r la distancia del objeto al
iluminante. Dado el carácter simétrico respecto al eje z, la figura resultante de
la intersección entre un plano perpendicular al plano xy y la superficie del
elipsoide, corresponde a una elipse cuyo eje de abcisas corresponde a la
dirección r1 que determina la intersección del plano elegido con el plano xy
(figura 3.1).
Denotemos la función de esta elipse a lo largo de la dirección r como
z2
b2 =
f(r)2
b2 = 1 −
r2
a2
correspondiente a una elipse centrada en el origen de coordenadas, con semieje
menor a directamente relacionado con el radio de la esfera en la imagen, y
semieje mayor b directamente relacionado con el término de la ecuación de la
irradiancia espectral imagen I ⁄ r2. Si este proceso lo efectuamos a lo largo de
Figura 3.1. Corte de un elipsoide por unplano perpendicular al plano xy.
Elipsoides e imágenes
81
1 Aunque se denota con el mismo símbolo la dirección r y la distancia del iluminante al
objeto, r, en lo sucesivo r será una dirección definida, mientras no se mencione
especificamente lo contrario.
varias direcciones, utilizando esta aproximación podemos reducir a dos el número
de coeficientes a calcular en el ajuste de elipsoides, aproximándolos por elipses
en un número de direcciones dado. Sin embargo, aún se puede reducir más la
complejidad del cálculo y el número de coeficientes a determinar.
Nótese que el coeficiente b en la ecuación anterior no es sino el valor de
la función f(r) en el origen de coordenadas y que corresponde al máximo valor
de la función elipse. Denotemos por r0 el punto correspondiente al origen de
coordenadas en el eje r, por tanto b = f(r0), con lo que introduciéndolo en la
ecuación anterior, podemos escribirla de la forma
zf(r0)
2
= 1 −
1
a2
r2
y realizando el cambio de variable Y =
zf(r0)
2
y X = r2 obtenemos la expresión
Y = 1 −
1
a2
X (3.1)
correspondiente a la ecuación de una recta con un único parámetro a
determinar, su pendiente − 1 ⁄ a2, ya que la ordenada en el origen es 1.
Analizando detenidamente el cambio de variable realizado podemos decir que
Y = z ⁄ f(r0)2 representa una normalización de los valores del nivel de gris de
los puntos considerados, z = f(r), respecto del nivel de gris del punto central que
coincide con el valor máximo de la elipse f(r0), ello significa que, si
consideramos un punto de la imagen el cual puede ser el punto central de una
elipse a lo largo de una dirección r en el plano xy, normalizando los valores del
nivel de gris de los puntos de un entorno o vecindario del punto respecto del
nivel de gris de ese punto, f(r0), considerado como centro de la elipse, esos
puntos del vecindario con el cambio de variable sugerido se ajustan a una recta
cuya pendiente siempre es negativa y que tiene la expresión − 1 ⁄ a2, y cuya
ordenada en el origen, debido a la normalización, es siempre la unidad.
Estudios de análisis de imagen
82
Resumamos los supuestos en que se cumple o las circunstancias en que es
aplicable lo expuesto hasta el momento:
- Cada punto sobre el que se realiza el proceso de ajuste es considerado a
priori como el punto central de una elipse.
- Dada una dirección r en el plano xy, el ajuste se realiza con los valores
de los puntos situados en el vecindario o entorno alrededor del punto
considerado en la dirección establecida.
- Eligiendo un sistema de coordenadas cuyo origen esté situado en el punto
en cuestión, con abcisa en la dirección r establecida y ordenadas el nivel de gris
de los puntos de la imagen, los valores de los puntos correspondientes a este
entorno se ajustan a la recta de la ecuación (3.1) con el cambio de variable
adoptado.
Dado que el proceso de ajuste se ha convertido en el ajuste de una recta,
la pendiente − 1 ⁄ a2 se calculará según la expresión utilizada en el ajuste de
rectas por mínimos cuadrados, es decir,
m =
N ∑ i= 1
N
xi yi − ∑ i= 1
N
xi ∑ i= 1
N
yi
N ∑ i= 1
N
xi2 −
∑ i= 1
N
xi
2
donde m es la pendiente buscada, m= − 1 ⁄ a2, xi son los valores experimentales
de las abcisas de los puntos del entorno sobre los que se realiza el ajuste, en
este caso xi = ri2, e yi es el valor de la ordenada experimental correspondientes a
la abcisa xi, es decir, yi = (f(ri) ⁄ f(r0))2, donde f(ri) es el nivel de gris del punto
situado en ri, y f(r0) el nivel de gris del punto que queda centrado en el
entorno considerado y sobre el que se esta realizando el ajuste. Por último N es
el número de puntos sobre el que se realiza el ajuste y que forman el entorno
considerado.
Para finalizar el proceso de ajuste y verificar si el entorno de un punto se
ajusta realmente a una elipse en cierta dirección, necesitamos una medida del
Elipsoides e imágenes
83
error en el ajuste. La medida mas lógica, dada la estructura del procedimiento,
es la suma del cuadrado de la diferencia entre los valores experimentales y el
valor correspondiente que se le asigne en el ajuste, es decir,
e = ∑ ri∈ E
Y(ri2) − (f(ri) ⁄ f(r0))2
2
donde E denota el conjunto de puntos del entorno de r0 en la dirección r, y
f(ri) el nivel de gris del punto correspondiente a la coordenada ri en el sistema
de coordenadas establecido en r0. Un ajuste con un error e próximo a cero
denotará que el punto considerado r0 es el centro de una elipse en la dirección
r sobre el plano imagen xy. El procedimiento se puede repetir en varias
direcciones con el fin de aproximar el ajuste de un entorno del punto
considerado a un elipsoide, que en suma es el objetivo perseguido. La forma de
valorar el número de direcciones en que el entorno de un punto se ajusta a un
elipsoide, así como los puntos cercanos que también posean esta propiedad, se
discutirá en el apartado siguiente correspondiente a la implementación del
método.
La metodología aquí descrita posee dos características. En primer lugar
destacar que, además de simplificar el cálculo aproximando de ajuste de una
superficie elipsoidal mediante varias elipses producto de la intersección de la
superficie del elipsoide con planos perpendiculares al plano xy, es posible
encontrar o localizar puntos de la imagen en zonas pertenecientes a elipsoides
que no muestren la totalidad de su superficie, debido a que existe la posibilidad
de que en ciertas direcciones los cortes del elipsoide produzcan elipses
completas, en las que el ajuste será satisfactorio.
En segundo lugar decir que la pendiente del ajuste, − 1 ⁄ a2 tiene un
significado especial, ya que el semieje menor a esta directamente relacionado
con el radio de la esfera en la imagen. En realidad el semieje a, con la
aproximación realizada, es justamente el radio de la esfera en la imagen cuando
el ajuste se realiza sobre el punto central del elipsoide en cualquier dirección,
mientras que en cualquier otro punto de la superficie del elipsoide, el semieje
Estudios de análisis de imagen
84
resultante a es una cuerda de la circunferencia que tiene como base la elipse en
la imagen.
3.3 Implementación
Para poder aplicar el método descrito hay que fijar los siguientes aspectos:
- El número y direcciones a examinar.
- El tamaño de la máscara o entorno a analizar.
- La cota de error máximo en el ajuste.
En cuanto a las direcciones a considerar, se eligieron dos, las que coinciden
con el eje x e y de la imagen. Estas dos direcciones se estimaron suficientes
para poder localizar puntos de zonas en la imagen correspondientes a elipsoides,
dado que, al ser dos direcciones perpendiculares, equidistantes angularmente,
existe una gran probabilidad de que, en imágenes de objetos esféricos
parcialmente ocultos, el corte del elipsoide correspondiente en la imagen en
alguna de estas direcciones sea una elipse.
Originariamente el método de ajuste de superficies utiliza entornos o
vecindarios de un puntos de un tamaño constante y predeterminado. En principio
se seguirá esta norma, a la que mas tarde se intentará evitar por las limitaciones
que ello supone. De todas formas, utilizando el método con un tamaño fijo de
elementos del entorno de un punto para el ajuste, como norma general, el
número de puntos totales a considerar no debe exceder el diámetro medio de
los frutos u objetos esféricos presentes en las escenas.
Esto debe considerarse así porque si existen puntos del vecindario cuyos
valores quedan fuera de la superficie del objeto, estos puntos distorsionan el
ajuste, introduciendo errores que enmascaran los puntos que realmente se ajustan
a la elipse buscada. Es conveniente que el vecindario de un punto, incluido el
mismo, sea un número impar, ya que para la realización del ajuste el valor de la
abcisa de cada punto en la dirección establecida tiene un valor relativo al punto
central, por lo expuesto en el apartado anterior sobre la elección de ejes
Elipsoides e imágenes
85
coordenados. De esta forma, por ejemplo, para un vecindario de 5 puntos, los
valores de la abcisa ri, son [− 2,− 1,0,1,2], siendo ri = 0 para el punto central.
El máximo error permitido en el ajuste es el parámetro que nos indicará si
realmente nos encontramos en un punto de la superficie del elipsoide. Aunque
es un parámetro con poder decisivo, su elección no es complicada ni necesita de
ningún procedimiento especial para determinarlo. El error máximo del ajuste
depende también del criterio del analista, ya que se le puede dar mucha
importancia a la exactitud del ajuste, en cuyo caso se precisa un error máximo
permitido mas pequeño, o que no se le exija tanta exactitud, por ejemplo para
localizar con menos detalle posibles zonas de la imagen susceptibles de
pertenecer a objetos esféricos. En este caso, el error máximo se elige
manualmente examinado los errores resultantes de los ajustes en varios puntos
de la imagen pertenecientes a objetos esféricos o no.
Teniendo en cuenta todo lo expuesto anteriormente, el algoritmo para la
localización de puntos, en una ventana de la imagen, cuyo entorno se ajusta a
una elipse queda como sigue,
Para cada punto de la ventana Para cada dirección establecida r Leer el valor del nivel de gris de los N puntos f(ri) del vecindario en esa dirección; Realizar los cambios de variable para el ajuste
xi = ri2; yi = (f(ri) ⁄ f(r0))2;
Calcular la pendiente del ajuste
m =
N ∑ i= 1
N
xi yi − ∑ i= 1
N
xi ∑ i= 1
N
yi
N ∑ i= 1
N
xi2 −
∑ i= 1
N
xi
2;
Calcular el error e de ajuste
e = ∑ ri∈ E
Y(ri2) − (f(ri) ⁄ f(r0))22
Si la pendiente m es negativa y el error emax, entonces marcar el punto
como ajustado correctamente;
fin, Para;fin, Para;
Estudios de análisis de imagen
86
donde f(r0) es el nivel de gris del punto central, y el valor de Y(ri2) se calcula a
partir de la pendiente m encontrada como Y(ri2) = 1 + m ri
2. Notar que el signo
de la pendiente también es un elemento que interviene en la decisión si el
entorno del punto se ajusta bien o no a una elipse. La razón es que, según lo
expuesto en el apartado anterior, para valores que se ajustan a una elipse, su
pendiente tiene la expresión m = − 1 ⁄ a2 que siempre tiene un valor negativo.
Con la limitación que supone la utilización de un tamaño fijo en el número
de vecinos a considerar en el ajuste, se puede introducir una mejora en el
algoritmo anterior que, aunque supone la necesidad del aporte de una mayor
información, se puede evitar esta limitación. Para ello tengamos en cuenta la
propiedad de que la superficie de un elipsoide, tal como vimos en el capítulo
anterior, es una superficie cóncava, por lo tanto, supongamos que disponemos de
una imagen segmentada producto de la transformación concavidad. Las regiones
conexas presentes en la imagen segmentada las constituyen puntos que
pertenecen a una misma superficie cóncava.
La idea consiste en, primero considerar solo puntos donde realizar el ajuste
que pertenezcan a alguna región cóncava, y segundo, para evitar tener que
trabajar con un vecindario fijo tomaremos como vecindario de un punto en
cierta dirección a todos los puntos pertenecientes a la misma región cóncava que
el punto considerado en la dirección establecida. De esta forma debido a la
propiedad de continuidad de la superficie cóncava, en este caso el elipsoide,
todos los puntos que estén en ella pertenecerán al elipsoide, evitando los errores
que suponía la introducción de puntos exteriores a la superficie del elipsoide
mediante el uso de un vecindario fijo.
Con todo ello, el algoritmo anterior modificado queda, fijándonos en una
sola región cóncava de la imagen segmentada,
Elipsoides e imágenes
87
Para cada punto de la ventana que inscribe la región
Para cada dirección establecida r
Leer el valor del nivel de gris f(ri) de todos los N puntos en esa dirección
que pertenezcan a esa misma región cóncava
Realizar los cambios de variable para el ajuste
xi = ri2; yi = (f(ri) ⁄ f(r0))2;
Calcular la pendiente del ajuste
m =
N ∑ i= 1
N
xi yi − ∑ i= 1
N
xi ∑ i= 1
N
yi
N ∑ i= 1
N
xi2 −
∑ i= 1
N
xi
2;
Calcular el error e de ajuste
e = 1N∑
ri∈ E
Y(ri2) − (f(ri) ⁄ f(r0))22
Si la pendiente m es negativa y el error emax, entonces
marcar el punto como ajustado correctamente.
fin, Para;
fin, Para;
En este algoritmo el número de puntos en el ajuste N es ahora variable, y
se determina cuando se leen los valores de los puntos en la dirección dada que
pertenecen a esa región. Como podemos observar, el error del ajuste también es
función del número de puntos N, ya que ahora es variable y hay que
normalizarlo para su comparación con el error máximo establecido.
Dado que ahora el número de puntos que intervienen en el ajuste es
variable, puede darse el caso de que estos sean demasiado pocos para permitir
un ajuste fiable, aunque den un error dentro de lo permitido. Para evitar este
inconveniente se fija un número de puntos mínimo para poder realizar el ajuste,
de esta manera la medida del error es siempre una medida fiable.
Aunque los puntos que pueden pertenecer al entorno de cierto punto para
realizar el ajuste deben ser puntos de la región cóncava que se esté analizando,
los puntos centrales donde se realiza el ajuste no tienen por que pertenecer a la
región. De esta manera se pretende encontrar puntos que, por el efecto de
posible ruido en zonas de reflexión especular de la superficie del objeto, no han
Estudios de análisis de imagen
88
sido asignados a su correspondiente región cóncava en la segmentación, ya que
precisamente los puntos de la región especular son los que coinciden con el
centro del elipsoide en la imagen. Este ruido presente en la zona especular,
aunque es molesto en ciertas ocasiones para el operador concavidad, no perturba
el procedimiento de ajustes a elipses, tal como veremos.
3.4 Experimentos y discusión
En los ensayos realizados que se describen en este apartado, se pretende
demostrar que este procedimiento de ajuste a elipses en las dos direcciones
indicadas en el apartado anterior, es de gran exactitud y que, en ciertas
circunstancias de visibilidad del fruto es totalmente determinante, con lo que
puede ser un característica muy a tener en cuenta en el proceso de
reconocimiento y localización de frutos u objetos esféricos en las imágenes.
En la figura 3.2 se muestra una imagen monocroma de una escena de
naranjas tomada con el apoyo de flashes. Como ya se vio en el apartado 1.3.2,
la representación del nivel de gris en función de las coordenadas imagen de las
zonas correspondientes a los frutos son aproximadamente superficies elipsoides.
Figura 3.2. Imagen de una escena de narnajas tomada con flash.
Elipsoides e imágenes
89
En la figura 3.3 se muestran los puntos donde sus respectivos entornos se
ajustaban a una elipse en alguna de las dos direcciones analizadas, x e y. El
ajuste para obtener los puntos de la figura 3.3 fue realizado mediante el
algoritmo de la máscara fija, con un vecindario de 15 puntos. En la figura 3.4 se
muestran asimismo los puntos resultantes del ajuste para el procedimiento de
máscara variable, procedimiento en el que previamente se segmenta la imagen
original por medio de la transformación concavidad, tal como se expuso en el
apartado anterior. El error máximo normalizado permitido fue en ambos casos
de emax = 0,03, seleccionado después de visualizar algunos errores de ajustes en
puntos elegidos en una de las imágenes disponibles.
Tal como podemos apreciar
en la figura 3.4, los puntos que
han dado como positivo en el
ajuste aparecen en menor núme-
ro. Ello es debido a que el pro-
cedimiento de ajuste con
máscara variable es más restricti-
vo, ya que se pueden realizar
ajustes sobre un número de pun-
tos mucho mayor que con la
máscara fija, siendo por tanto
mas exigente.
Asimismo, podemos obser-
var en el resultado del ejemplo,
que practicamente todos los pun-
tos que se ajustan a elipses en
la direcciones señaladas, pertene-
cen a la superficie de alguno de
los frutos. Como dato puramente
representativo debemos decir
que, de 8675 puntos localizados
que ajustaban a elipses en algu-
Figura 3-3. Arriba, puntos resultado del ajuste. Abajo,puntos del ajuste superpuestos sobre imagen original.
Estudios de análisis de imagen
90
na de estas direcciones, en una
muestra de 90 imágenes a las
que se le aplicó el algoritmo del
vecindario de máscara fija, el
91,6 %, es decir, 7943 del total
de los puntos pertenecían real-
mente a la superficie de algún
fruto, los restantes, una mínima
proporción, 8,4 %, aunque no
pertenecían a ningún fruto, sí se
ajustaban realmente a una elipse
en alguna de las direcciones.
A partir de este resultado
podemos asegurar que el proce-
dimiento de ajuste utilizado, bien
en el modo en vecindario fijo o
variable, es un buen método pa-
ra caracterizar superficies esféri-
cas mediante la información que
nos proporciona la respuesta del
sensor imagen, claro está, en
ciertas condiciones de ilumina-
ción que permiten adoptar un
modelo en las imágenes objetos esféricos como elipsoides. La principal de estas
condiciones era que los rayos incidentes de iluminación sobre la escena fueran
paralelos a la dirección de observación, tal como se cumple en la utilización de
flashes en la toma de imagen por el procedimiento descrito en el capítulo 1.
Los resultados obtenidos aquí aproximando la búsqueda de elipsoides
mediante el ajuste por elipses apoya el supuesto realizado en capítulo 1 cuando
se asumió que la superficie de los objetos se comportaban como una superficie
Lambertiana. El buen comportamiento en el ajuste es debido a que la superficie
de los frutos no tiene una reflexión especular muy acentuada, localizada
Figura 3-4. Arriba, puntos resultado del ajuste conmáscara variable. Abajo, puntos del ajuste
superpuestos sobre imagen original.
Elipsoides e imágenes
91
principalmente en una pequeña región alrededor del punto de máxima reflexión
especular, tal como se discutió en el apartado 1.3.2. La principal razón de que el
ajuste dé buenos resultados, aún en frutos en los que existe un comportamiento
especular, es que el ruido que introduce la reflexión superficial o especular
coincide con el centro de las elipses (figura 3.5). Este ruido queda bastante
enmascarado mediante la aproximación realizada de ajuste de la elipse a través
del cambio de variable utilizado y el sistema de referencia elegido para el ajuste.
En este sistema de referencia, los puntos cercanos al origen de coordenadas del
vecindario tomada en cierta dirección, poseen valores de la abcisa ri muy
cercanos a cero, coincidiendo estos valores con la región especular. Mediante el
cambio de variable X = ri2, los valores de abcisa menor quedan más agrupados
hacia el origen de la nueva abcisa X, tal como podemos ver en la figura 3.6,
debido a la forma cuadrática del cambio de variable. Este agrupamiento más
acentuado en los valores de la región especular provoca que el ruido que
puedan introducir en el ajuste sea menor que el que producirían los valores mas
alejados del origen que coinciden con la región de reflexión difusa. Por esta
razón la presencia de una pequeña zona especular en la superficie de los
objetos, no supone un gran obstáculo para un buen resultado en el ajuste.
Como última observación hay que resaltar que, debido a la normalización
en niveles de gris f(ri) de los puntos que intervienen en el ajuste respecto al
Figura 3.5. Representación de los niveles de gris de una fila de laimagen que corta a un fruto.
Estudios de análisis de imagen
92
valor del punto central, f(r0), a través del cambio de variable Y(f(ri) ⁄ f(r0))2, este
procedimiento es independiente del valor absoluto del nivel de gris de los
objetos en la imagen. Por lo tanto, el método opera con la misma efectividad
sobre objetos que reciban diferentes grados de iluminación, dentro de ciertos
límites, siempre que la iluminación no sea tan pobre que se produzca un
elipsoide en la imagen de poco contraste, o si la respuesta del sensor sobre la
superficie del objeto no se ha saturado, en cuyo caso se deforma la forma del
elipsoide.
Hasta ahora se ha conseguido caracterizar la superficie de los objetos
esféricos a partir de la información disponible en la imagen. Esto se ha logrado,
primero de una forma general, mediante la transformación concavidad,
cuantificando y resaltando las zonas de la imagen que tuvieran esta propiedad, y
en segundo lugar se ha caracterizado la forma elipsoide de la irradiancia
espectral imagen en ciertas condiciones de iluminación de los objetos esféricos.
Dado que se dispone de una metodología para evaluar propiedades relativas
a la forma de la superficie, el próximo paso es obtener un método para la
caracterización y evaluación de los contornos, con el fin de completar la
extracción de características relativas a la forma geométrica de los frutos, cuyo
modelo adoptado fue la superficie esférica.
0
puntos experimentales
recta ajustada
X= ri2
1
Y= (f(ri) ⁄ f(r0))2
Figura 3-6. Representación del ajuste de los puntos ri del entorno del punto r0.
Elipsoides e imágenes
93
Capítulo 4
CONTORNOS CIRCULARES
Una de las propiedades que caracteriza la representación en las imágenes
de objetos esféricos es su contorno circular, tal como vimos en el modelo de
irradiancia espectral imagen descrito en el capitulo 1; hecho que se cumple
incluso cualquiera que sea el ángulo de incidencia de la luz respecto de la
dirección del observador, por lo tanto, es un rasgo muy interesante y muy a
tener en cuenta de cara a un reconocimiento y localización de regiones en la
imagen que corresponden a estos objetos.
En ambientes naturales, y por tanto durante las escenas que se presentan
en la recolección, el problema que nos ocupa se agrava, ya que los objetos
aparecen muy a menudo parcialmente ocultos, sin mostrar la totalidad de su
superficie y su contorno. De esta forma, en un gran número de ocasiones, solo
se dispone de una información parcial de contorno circular.
Se precisa de una metodología que, a partir de una información incompleta
del contorno, sea capaz de reconocer la parte visible de éste e intuir o predecir
la parte que permanece oculta. La razón de esta exigencia es que no solo se
pretende localizar los centros de tales circunferencias, sino también cual es su
radio y en ultima instancia, que proporción del total de contorno circular
permanece visible.
Toda esta información sobre el contorno de un objeto esférico servirá para,
en primer lugar localizar su centro geométrico exacto para dirigir el movimiento
del brazo hacia este punto, en este aspecto varios autores han mostrado su
preocupación y sus esfuerzos para solucionar este aspecto en la recolección
robotizada utilizando la transformada de Hough para localizar tomates (Wittaker
et al, 1987) y naranjas (Ness, 1989), pero los resultados, además de un elevado
coste computacional, no fueron los deseados en muchos casos. Levi et al (1988)
también trataron el problema para localizar naranjas a partir de su contorno
circular, que después de obtener las distribuciones de las direcciones del
gradiente sobre la imagen, buscaban distribuciones circulares mediante el
emparejamiento con un modelo ideal previamente construido y almacenado.
Slaughter (1987) apuntó la necesidad de resolver este problema, tras comprobar
en su trabajo que la aproximación del centro del fruto mediante el centroide de
la región que representaba la porción visible no era suficiente en muchos casos.
Por otra parte, además de la determinación del centro del fruto, es
importante conocer su radio, con el fin de poseer una información relativa a su
tamaño ya que, si se conociera la distancia real al fruto y conociendo su radio
en la imagen, podría estimarse el calibre del fruto, de cara a una recolección
más selectiva o a una primera clasificación de los frutos durante la recolección.
Por último, conocer la proporción del contorno visible puede ser un
elemento que apoye en gran medida a un reconocimiento del fruto, dado que
cuanto más contorno circular de un objeto esté presente en la imagen, mas
probabilidad tiene de ser realmente un fruto u objeto esférico. Además, en otro
tipo de aplicaciones, como la selección y clasificación de piezas industriales o
productos agroalimentarios, es un factor que puede indicar si falta parte de una
pieza, con su consiguiente rechazo, o si existen piezas solapadas.
Los métodos tradicionales de reconocimiento de contornos circulares se
apoyan comúnmente en la transformada de Hough (Duda & Hart, 1972), o en
alguna de sus variantes de menor coste computacional (Ballard & Brown, 1982;
Li et al, 1986; Davies, 1987; Wang et al, 1988; Ben-Tzvi & Sandler, 1990; Xu et
al, 1990). Estos métodos, aunque son más o menos robustos con respecto a
ruidos y omisión parcial de la información, siendo algunos de mucho menor
coste computacional que la transformada de Hough original (Davies, 1987), su
principal deficiencia es que no localizan y a la vez evalúan la parte del contorno
visible que pertenece a la circunferencia buscada.
No obstante, se puede enfocar el problema de otra manera, siguiendo la
línea de algunos autores en el reconocimiento parcial de contornos. Existen
varios métodos en la literatura para abordar este problema, metodologías cuyas
Estudio de análisis de imagen
96
propiedades y características generales fueron descritas por Fischler & Bolles
(1986) en una visión general del problema. Todos ellos tienen en común que el
proceso a seguir pasa, en primer lugar, por una segmentación de las curvas a
través de la búsqueda de unos puntos de control o de tramos con propiedades
homogéneas. A partir de los segmentos obtenidos se realiza una interpretación
de los mismos buscando una organización que más se ajuste a uno de los
modelos dentro del banco de figuras pre-establecidas. Los procesos de
descripción incluyen métodos que pueden tratar con posible información oculta o
parcial.
En una breve revisión de los métodos mas conocidos en reconocimiento
parcial de contornos, se puede decir que la mayoría de ellos utilizan puntos de
control para segmentar las curvas, tratándose siempre de curvas planas, entre los
que destacan la asociación de puntos de control a valores extremos en la función
curvatura (Liu & Srinath, 1990) o cruces por cero en esta misma función
curvatura (Mokhtarian & Mackworth, 1986). Otros, en cambio, utilizan una
partición poligonal del contorno (Gorman et al, 1988). Otra manera de encontrar
esos puntos de control es la que proponen Katzir et al (1990), a partir de los
puntos de cruce de curvas producto de una transformación de la función
curvatura de la función inicial.
Una vez la curva ha sido segmentada por uno u otro procedimiento, a cada
segmento se le identifica por un conjunto de parámetros para intentar
relacionarlos con los segmentos de las figuras que se tienen en la base de datos.
Así, algunos utilizan descriptores de Fourier para caracterizar estos segmentos
(Gorman et al, 1988), otros utilizan la pendiente y la longitud del segmento
(Turney et al, 1985). Liu & Srinath (1990) utilizan cuatro parámetros, ángulo,
longitud y desplazamientos en x e y, calculados con respecto a cada uno de los
segmentos de la base de datos, y Mokhtarian & Mackworth (1986) caracterizan
cada segmento por los cruces por cero a diferentes grados de escala, utilizando
una representación llamada "la imagen del espacio de escalas".
Las técnicas de búsqueda de la curva que más se ajusta o se parece en la
base de datos a la curva problema son también muy variadas, desde la
utilización de programación dinámica para encontrar caminos de distancias
Contornos circulares
97
mínimas en tablas de distancias entre descriptores de Fourier (Gorman et al,
1988), o la utilización del Algoritmo de Coste Uniforme en su más conocido
caso, el Algoritmo A ∗ , para encontrar secuencias en la "imagen del del espacio
de escalas" mencionado, a partir de secuencias de segmentos de la base de datos
(Mokhtarian & Mackworth, 1986). También se ha utilizado la transformada de
Hough en su vertiente para el emparejamiento de plantillas en el espacio
pendiente-longitud (Turney et al, 1985), algoritmos basados en hipótesis de
índices de características que utilizaba como puntos de partida zonas de las
curvas donde se encontraron segmentos o sub-máscaras que emparejaban con las
de la bases de datos (Knoll & Jain, 1986), o simplemente algoritmos
desarrollados al efecto para encontrar secuencias de segmentos que se emparejen
con secuencias de segmentos en las curvas de la base de datos (Liu & Srinath,
1990).
Respecto al problema que aquí se pretende resolver, alguna de las técnicas
desarrolladas por estos autores se podría aplicar sin necesidad de cambios. Sin
embargo, dadas las características especiales del reconocimiento de contornos
circulares con respecto al problema general del reconocimiento parcial de
contornos de cualquier figura tratado por estos autores, ha sido necesario diseñar
un procedimiento más ajustado a los objetivos buscados, intentando reducir los
costes computacionales.
El problema de reconocimiento parcial de contornos circulares tiene por
primera peculiaridad que solo se pretende encontrar contornos que se ajusten a
la forma de una única figura, la circunferencia. Dado que el objetivo se centra
solo en esta figura, el procedimiento a diseñar debe aprovechar todas sus
características específicas. La búsqueda de propiedades en las que se
fundamenten un método de segmentación de la curva y una caracterización de
los segmentos acorde con los principios que rigen a las circunferencias, así como
un método lo mas natural posible de interpretación, en relación al concepto de
circunferencia, que obtenga como resultado el reconocimiento de los segmentos
propios de una misma circunferencia.
La idea que se va a desarrollar en este capítulo consiste en la puesta en
práctica de un método de segmentación de los contornos obtenidos en la imagen
Estudio de análisis de imagen
98
con el fin de encontrar segmentos que puedan pertenecer a parte de un
contorno circular. A continuación se caracterizará cada segmento por unos
parámetros, propios de una circunferencia, y de un algoritmo que intente
determinar cuales de los segmentos o grupos de segmentos obtenidos en la
segmentación puedan pertenecer a un mismo contorno circular. Por último se
describirán los procedimientos utilizados para medir el grado de ajuste o
similitud de los segmentos o grupos de segmentos a sus correspondientes arcos
de circunferencia. En la sección de experimentos y discusión podremos observar
con que exactitud el método que aquí se expone puede identificar contornos
parcialmente circulares y la medida en que se han cumplido los objetivos
propuestos.
4.1 Segmentación del contorno
Como se comentó en el apartado anterior, existen dos principios generales en los
que se fundamenta la segmentación de curvas: a partir de puntos de control o
mediante un criterio de homogeneidad de los puntos a lo largo del contorno. En
el método que aquí se ha desarrollado se utilizará un criterio de homogeneidad
para partir los contornos extraídos de una imagen. Este criterio se basa en el
valor de la función curvatura del contorno, a diferencia de los fines que
normalmente se le da a la función curvatura de búsqueda de puntos de control
(Liu & Srinath, 1990; Katzir et al, 1990).
La idea es totalmente consistente con las propiedades de una
circunferencia. Cualquier arco de circunferencia tiene la característica de poseer
un radio de curvatura constante, es decir, recorriendo el arco de circunferencia
en cualquier sentido el cambio de dirección es siempre constante. Por lo tanto,
dado un contorno que represente a una curva en el plano imagen, este contorno
se partirá en dos clases de segmentos, aquellos en que sus puntos posean una
curvatura constante y aquellos que no. Es evidente que los segmentos que
posean una curvatura constante son claros candidatos a ser arcos de una
circunferencia. De esta forma no solo se segmenta la curva, sino que también los
segmentos con curvatura constante quedan caracterizados de una forma bien
Contornos circulares
99
definida, el valor de su curvatura; este valor se utilizará, como veremos, para
elegir a estos segmentos debido a la propia estructura del problema que nos
ocupa.
4.1.1 Codificación del contorno
El primer paso a realizar en el tratamiento de contornos, una vez han sido
extraídos, es su codificación. Codificar el contorno, además de reducir
cuantitativamente la información, permite manejarlo más fácilmente cuando se
realizan transformaciones u operaciones sobre él. Uno de los métodos más
conocidos y utilizados en la literatura para este propósito es el código cadena, el
cual, dado las coordenadas de un punto inicial, forma una cadena o lista
ordenada de códigos que a cada punto siguiente al considerado se le asigna uno
de estos números
345
2P6 107
correspondientes a uno de los vecinos 8-adyacentes del punto P, ordenados según
el sentido contrario a las agujas del reloj. Por lo tanto cada movimiento a través
del contorno se codifica por los dígitos 0,1,2,3,4,5,6,7, que forman una lista o
cadena que corresponde al contorno.
Los contornos extraídos de la imagen pueden haber sido calculados a partir
de cualquier procedimiento, bien aplicando un operador de extracción de bordes
o bien realizando un seguimiento de contornos de las regiones de una imagen
binaria o segmentada, o cualquier otro procedimiento. Tanto en los ensayos
realizados en este capítulo, como en su aplicación que se describirá en los
capítulos 9 y 10, los contornos utilizados son cerrados, y se extraen a partir del
seguimiento de éstos en regiones de imágenes segmentadas. Para ello se utilizó
un algoritmo de seguimiento de contornos descrito por Rosenfeld & Kak (1982),
cuyo fundamento es el siguiente: sea un punto no aislado P perteneciente al
contorno de una región, y otro punto Q de sus vecinos 8-conectados que no
pertenezca a la región, entonces
Estudio de análisis de imagen
100
1. Recorrer los vecinos de P a partir desde el punto Q en el sentido de las agujas
del reloj.
2. Cuando se encuentre un punto P′ perteneciente a la región considerada, añadir
este punto a la lista de puntos del contorno.
3. Considerar ahora el punto P′ como el punto actual P y asignar Q al punto anterior
visitado antes de haber encontrado P′ y que no pertenece a la región.
4. Volver al punto 1 y repetir hasta que se llegue de nuevo al punto P inicial
después de haber recorrido el vecino inicial Q por el que se comenzó la búsqueda.
Utilizando este seguimiento de contornos, los contornos exteriores de una
región se recorren en el sentido de las agujas del reloj, y los interiores,
pertenecientes a agujeros de la región se recorren en el sentido contrario de las
agujas del reloj.
4.1.2 La función curvatura
La segmentación de los puntos de una curva se realiza a partir de los valores de
la función curvatura en cada punto del contorno, tal como se apuntó al principio
de esta sección. La noción de curvatura se expresa como la variación instantánea
de la pendiente, es decir, de la dirección, en un punto de la curva respecto a la
longitud de arco de la curva. Formalmente la curvatura k(l) de una curva en el
plano y = f(x), se define como
k(l) = ddl
arctan
dxdy
donde dl es un elemento de arco de la curva, y dy ⁄ dx es la pendiente de la
curva en el punto y = f(x).
Debido a la naturaleza discreta de las imágenes digitales, y más
concretamente a la estructura de malla o trama cuadrada en el muestreo (ver
apéndice D), la longitud de los segmentos de un contorno no corresponde
realmente con el número de puntos de que está compuesto. Otro factor que
Contornos circulares
101
influye en este sentido es que la
escala entre los ejes x e y de la
imagen es de una relación de 2 ⁄ 3, tal
como se ha apuntado en anteriores
capítulo, factor que habrá que tener
en cuenta. Estos hechos unidos a la
naturaleza discreta intrínseca de estas
representaciones producen unos
errores en el cálculo de parámetros,
tal como la derivada en un punto o la
curvatura, a partir de los puntos de
un contorno.
Varios autores han intentado disminuir este efecto re-calculando las
coordenadas de los puntos de un contorno a partir del promediado de las
coordenadas de sus vecinos (Knoll & Jain, 1986; Wallace & Wintz, 1980),
re-muestreando de nuevo la curva a intervalos unitarios de longitud, no siendo
las nuevas coordenadas números enteros necesariamente. Otro enfoque para
atacar el problema como método más simple y común, es el utilizado por Liu &
Srinath (1990) que calcula la curvatura a partir de un suavizado de los valores
de la pendiente de los puntos vecinos.
El efecto de todo lo descrito puede apreciarse en la representación de la
función curvatura de la figura 4.1 calculada a partir de una circunferencia en una
imagen digital generada vía software a partir de su función analítica. En ella
podemos observar las oscilaciones que presenta la curvatura debido al efecto del
muestreo. También podemos notar que estas oscilaciones son periódicas a lo
largo del arco l, coincidiendo el mismo tipo de oscilación en un punto de la
circunferencia y en el punto correspondiente a su lado opuesto, es decir, a
intervalos distantes un ángulo de 180 grados (π radianes). Por ejemplo, obsérvese
que la función curvatura tiene la misma forma a la altura de l= π ⁄ 2 r que a
l= 3π ⁄ 2 r, y así sucesivamente, teniendo en cuenta la naturaleza cíclica de las
abcisas, ya que el arco de longitud l= 0 coincide con el punto del arco l= 2πr al
πr0
l
k(l)
2πr
Figrua 4.1. Curvatura de una circunferenciaideal muestreada en el plano.
Estudio de análisis de imagen
102
dar una vuelta a la circunferencia. Esto demuestra que este ruido presente en la
función curvatura es debido al efecto de muestreo de la curva.
Para calcular los valores de la curvatura en cada punto de la curva, se
efectuará un suavizado de los valores de la pendiente de los puntos vecinos
mediante un filtro Gausiano, filtro pasa baja de suavizado óptimo utilizado en
muchas aplicaciones (ver operadores "sombrero mejicano" en Apéndice D) y en
este punto en concreto por varios autores (Liu & Srinath, 1990; Mokhtarian &
Mackworth, 1986). El filtro gausiano se aplicará a los valores del ángulo de la
pendiente, de la forma
k(l) = ddl
arctan
dxdy
∗ G(l)
donde G(l) es la función Gausiana no normalizada G(l)= e(− l2 ⁄ 2πσ2), y ∗ denota
el operador convolución. Por las propiedades de las convoluciones, la expresión
anterior se convierte en
k(l) = dG(l)
dl ∗ arctan
dxdy
A diferencia de Liu & Srinath (1990), para calcular el ángulo de la
pendiente en cada punto no se utilizará el ángulo del gradiente de los puntos
del contorno extraído con operadores Sobel. El procedimiento para el cálculo del
ángulo de la pendiente se diseñó especialmente para este propósito tras
comprobar que la aplicación de varios métodos, como el de la k-pendiente o
calculando la pendiente a partir del ajuste por mínimos cuadrados de los puntos
del entorno del punto en cuestión, introducían falsas discontinuidades en los
ángulos de las pendientes.
La definición de pendiente utilizada en el entorno de un punto está
inspirada en un método utilizado por Thomas & Jain (1986) y Wallace & Wintz
(1980) para reducir el efecto del muestreo que produce la trama cuadrada de
una imagen digital. El procedimiento desarrollado consiste en el cálculo de la
Contornos circulares
103
pendiente a partir de la cuerda en un punto de la curva definida por dos
puntos, anterior y posterior al punto considerado. Si llamamos lp al punto donde
se va calcular la pendiente, y si consideramos k puntos de su entorno, k ⁄ 2
anteriores a él y k ⁄ 2 posteriores, con k un número impar, las coordenadas del
punto anterior (xa,ya), origen de la cuerda citada, se definen como el centro de
masas de los k ⁄ 2 puntos anteriores a lp del código cadena, denotados por
li= (xi,yi), i= p− (k⁄2),...,p− 1,p, entonces
xa =
∑ xii= p− (k ⁄2)
p
k ⁄ 2+ 1 ya =
∑ yii= p− (k ⁄2)
p
k ⁄ 2+ 1
y las coordenadas del punto posterior (xn,yn), final de la cuerda, se definen
análogamente como
xn =
∑ xii= p
p+ (k ⁄2)
k ⁄ 2+ 1 yn =
∑ yii= p
p+ (k ⁄2)
k ⁄ 2+ 1
donde li= (xi,yi), i= p,p+ 1,...,p+ (k⁄2) son los k ⁄ 2 vecinos posteriores al punto
considerado lp. Una vez obtenidos los extremos inicial, (xa,ya), y final de la
cuerda, (xn,yn), la pendiente asignada al punto lp viene definida por
dydx
lp
= yn− ya
xn− xa
y su correspondiente ángulo, arctan(dy ⁄ dx). De esta forma, promediando las
coordenadas de los puntos anteriores y posteriores al punto considerado, se
consigue atenuar el efecto del muestreo en los puntos de la curva, con un
fundamento similar al utilizado por algunos autores (Thomas & Jain, 1986;
Wallace & Wintz, 1980) para el re-muestreo de contornos con este mismo fin de
evitar los efectos del muestreo.
Estudio de análisis de imagen
104
Puesto que la función arcotangente sólo proporciona valores de ángulos
entre (− π,π), cualquier ángulo fuera de este intervalo se le asigna su
correspondiente a su valor dentro de este intervalo, produciendo de este modo
discontinuidades artificiales en los ángulos de la pendiente a lo largo de los
puntos de la curva. Para evitar estas falsas discontinuidades se realiza un proceso
de normalización (Liu & Srinath, 1990) el cual consiste en desplazar los valores
del ángulo de la pendiente θ = arctan(dy ⁄ dx) al intervalo (0,2π), por razones de
comodidad en el cálculo, mediante la operación
Si θ < 0 entonces θ := 2π + θ
y para evitar las falsas discontinuidades, cuando se produce una diferencia entre
dos ángulos contiguos menor de − π o mayor de π, a cada punto a partir de la
discontinuidad se le suma un desplazamiento de 2π o − 2π respectivamente, a
todos los puntos sucesivos.
Una vez los ángulos de las pendientes θ(l) en cada punto de la curva l han
sido normalizados, la función curvatura k(l) se obtiene, según habíamos visto,
convolucionando la primera derivada de un filtro Gausiano dG(l) ⁄ dl con los
ángulos de las pendientes
k(l) = dG(l)
dl ∗ θ(l)
Obtenida la función curvatura, el siguiente paso es la segmentación de la
curva en función de los valores de la curvatura en cada punto.
4.1.3 Criterio de segmentación
Dado que las circunferencias son curvas que se caracterizan por poseer un radio
de curvatura constante en todos sus puntos, un arco de circunferencia
perteneciente a un contorno cualquiera tendrá esta propiedad. Según la relación
que existe entre la curvatura en un punto de la curva y su radio de curvatura,
tenemos que ρ(l)= 1 ⁄ k(l), donde ρ(l) es el radio de curvatura en el punto l, y
Contornos circulares
105
k(l) su curvatura. Por lo tanto los segmentos de un contorno que tengan un
mismo radio de curvatura tendrán una curvatura constante.
Para separar los segmentos de una curva que puedan ser arcos de
circunferencia de los que no lo son, es obvio que se asignarán como segmentos
circulares aquellos que posean una curvatura constante, y segmentos no circulares
los restantes. Por las propiedades de las diferenciales sabemos que la diferencial
de una función constante es nula, por tanto en los puntos de la curva con
curvatura constante se cumplirá que
dk(l)dl
= 0
En la práctica, y mas aún manejando datos discretos, esta derivada no
posee casi nunca un valor cero en todos los puntos, sino que oscilan alrededor
de este valor, tal como podemos deducir de lo comentado para la figura 4.1. De
esta forma, se considerarán puntos de arcos de circunferencia aquellos que
cumplan
dk(l)dl
≤ ε
con ε un número de valor cercano a cero.
Un segundo criterio a tener en cuenta es el valor y el signo de la
curvatura en los puntos donde ésta es constante. Una línea recta posee una
curvatura constante igual a cero (radio de curvatura infinito), por tanto no todos
los puntos de curvatura constante son candidatos a ser puntos integrantes de un
arco de circunferencia. Para ello, una vez se ha cumplido la condición anterior,
se considerarán puntos pertenecientes a segmentos de circunferencia como los
que posean una curvatura | k(l)| ≥ km , donde km denotará la curvatura mínima
exigida para considerar un punto de curvatura constante como perteneciente a un
arco de circunferencia.
Estudio de análisis de imagen
106
El valor absoluto en la expresión | k(l)| ≥ km , denota que existen puntos
con curvatura positiva o convexos, y puntos con curvatura negativa o cóncavos,
circunstancia ésta que será aprovechada, como veremos, en la aplicación que nos
ocupa.
Resumiendo, se ha llegado a un método de segmentación a partir de la
función curvatura por medio de un criterio de homogeneidad, de los puntos cuya
curvatura es constante, a diferencia de los usos habituales de la función
curvatura en reconocimiento parcial de contornos para encontrar puntos de
control. Mediante la función curvatura además se tienen caracterizados los
segmentos etiquetados como arcos circulares, atribuyéndoles un parámetro que
les identifica: su curvatura, o lo que es lo mismo, su radio de curvatura o radio
de su posible circunferencia.
4.2 Agrupación de segmentos
Después de la segmentación de los contornos en segmentos circulares y los que
no, se dispone de un conjunto de segmentos a lo largo y ancho de toda la
imagen, localizados en lugares concretos. Aunque se dispone de cada uno de
estos segmentos el valor de su curvatura como producto de la segmentación, se
deben definir unos parámetros que los caractericen para una posterior
interpretación que relacione de una manera coherente a estos segmentos entre
ellos.
La forma más natural de dar coherencia a los elementos resultado de la
segmentación es averiguar si existen de entre estos segmentos grupos de ellos
que, dentro de un mismo grupo, sean parte de una misma circunferencia. Esta
noción de agrupamiento de segmentos o elementos nos conduce a considerar,
para abordar este problema, la utilización de técnicas de agrupamiento o
clustering utilizadas en reconocimiento de formas.
La idea consiste en partir del grupo inicial de elementos producto de la
segmentación de los contornos y comprobar si pares de segmentos o de grupos
de segmentos relativamente cercanos, son parte de una misma circunferencia; si
lo son, calcular el centro y el radio de la circunferencia a que pertenecen, así
Contornos circulares
107
como una medida del error cometido al estimar que esos dos segmentos o
grupos de segmentos son parte de una misma circunferencia.
De esta forma a cada segmento o grupo de segmentos de una misma
circunferencia, se les asignará dos parámetros característicos, el centro y el radio
de la circunferencia a que pertenecen. El procedimiento para ir buscando entre
los segmentos o grupos de segmentos formados para verificar si se pueden
agrupar para formar un conjunto más grande en los que todos sus elementos son
arcos de una misma circunferencia, sugiere la utilización de la técnica de
agrupamiento jerárquico aglomerativo (agglomerative hierarchical clustering) (Duda
& Hart, 1973), técnica dentro de las llamadas de aprendizaje no supervisado
cuyo principio consiste en: dado un conjunto de elementos iniciales, ir
agrupándolos entre ellos a partir de cierto criterio de similitud hasta llegar a
cierta situación o condiciones en las que se detiene el proceso de agrupamiento.
En cada paso del proceso se unen dos conjuntos de elementos para formar un
solo conjunto, los conjuntos que se unen en cada paso son los que se consideran
mas próximos según el criterio de similitud establecido.
Este procedimiento aplicado al problema en cuestión partirá de un espacio
inicial en el que cada conjunto poseerá un solo elemento, un segmento circular
producto de la segmentación, e irá buscando y agrupando conjuntos de
segmentos que pertenezcan a una misma circunferencia, asignándoles su centro y
su radio. Como resultado final se obtendrá un conjunto de conjuntos de
segmentos, de los cuales cada uno de ellos representará a una circunferencia,
pudiendo contener cada conjunto uno o varios segmentos de circunferencia,
incluso con la posibilidad de que estos segmentos pudieran pertenecer a
contornos conexos diferentes en la imagen. Por lo tanto, el resultado cumplirá
los objetivos buscados, dando una interpretación y una coherencia a las
relaciones entres los segmentos circulares presentes en la imagen.
Todo lo descrito en el párrafo anterior se traduce en el siguiente algoritmo
cuya estructura es de agrupamiento jerárquico aglomerativo,
Estudio de análisis de imagen
108
Datos: xi, i= 1,..N segmentos circulares encontrados.
Resultado: SE = si , i= 1,..K , SE es el conjunto de K subconjunto de segmentos finales.
Función disimilitud d(si,sj) entre dos subconjuntos si,sj∈ SE.
Parámetros: D, distancia o disimilitud máxima entre dos subconjuntos de segmentos.
Algoritmo:
1. Inicialización: SE = si = xi , i= 1,..N
2. Buscar par si,sj ∈ SE ⁄ d(si,sj) = mínimo Para todo si,sj∈ SE, i≠ j
3. Si d(si,sj) < D, unir si,sj, entonces eliminarlos del conjunto SE y añadir a SE el
resultado de la unión. Volver a paso 2.
4. Sino, fin.
La función distancia o criterio de disimilitud entre dos subconjuntos de
segmentos, d(si,sj), estimará el error si se unen estos subconjuntos para
representar una misma circunferencia, este error dependerá de los parámetros
asignados, centro y radio de la circunferencia, al subconjunto resultante. Esta
función similitud tiene un papel importante en el proceso de agrupamiento,
además, podrá proporcionar una medida del centro y radio de la circunferencia a
que más se aproximan a los arcos definidos por los segmentos pertenecientes a
cada subconjunto.
4.3 La función distancia o función disimilitud
Para evaluar el error que se produce al considerar dos subconjuntos de
segmentos como pertenecientes a una misma circunferencia, supongamos que
conocemos el centro y el radio de la circunferencia que más se ajusta o que
mejor describe al conjunto de segmentos resultado de la unión. Una medida del
error cometido al asumir el centro de coordenadas (rx,ry), y un radio r, es la
varianza de las distancias definidas desde cada punto de que constan todos los
segmentos que integran un subconjunto al punto considerado como centro de la
circunferencia, respecto del radio de la circunferencia considerado, ya que en una
circunferencia ideal todas esta distancias serían igual al radio de la circunferencia
y por tanto la varianza definida sería cero.
Contornos circulares
109
Si existen un total de N puntos en los segmentos de la unión cuyas
coordenadas en la imagen son (xi,yi), i= 1,..N, el error cometido o medida de
disimilitud de al considerar la unión de dos subconjuntos de segmentos será
de = 1N
∑ i= 1
N [(xi− rx)2 + (yi− ry)2]
1⁄2 − r
2 (4.1)
Para calcular o estimar el radio r y las coordenadas del centro de la
circunferencia, (rx,ry), asignado a un conjunto de segmentos, se han desarrollado
y probado dos métodos.
El primero consiste en calcular las coordenadas del centro que más se
ajusta a las distribución de puntos que forman todos los segmentos del conjunto,
considerando que esa distribución forma el lugar geométrico correspondiente a
una circunferencia. El criterio de ajuste se basa en la propiedad de que la
tangente en cualquier punto de una circunferencia es siempre perpendicular al
radio de ésta (Ros, 1991), por lo tanto, si m→= (mx,my) el un vector que denota
la dirección de la tangente en un punto de la circunferencia, (x,y) el punto de la
misma, y (rx,ry) las coordenadas de su centro, se cumple
m→ ° (x− rx,y− ry) = 0
donde ° denota el producto escalar.
Si disponemos de N puntos en total correspondientes a todos los segmentos
de un conjunto dado, tendremos N ecuaciones como la anterior si los
consideramos como puntos de una misma circunferencia. En la práctica, aún
teniendo una circunferencia generada a partir de su ecuación analítica en el
plano digital, ese producto escalar no es siempre nulo, sino que oscila alrededor
de cero, por lo tanto, en general tendrá un valor próximo a cero. De esta
forma, podemos escribir la expresión anterior como
m→i ° (xi− rx,yi− ry) = εi i = 1,..N
Estudio de análisis de imagen
110
donde εi es un valor cercano a cero en cada caso.
El punto que más se ajuste como centro de la circunferencia que forman
estos N puntos, es el punto (rx,ry) tal que minimice, por ejemplo, la expresión
del error cuadrático medio
E = 1N
∑ i= 1
N
(εi)2
Sustituyendo εi por su expresión y aplicando derivadas parciales respecto de
rx y ry a la expresión E e igualándolas a cero, obtendremos dos ecuaciones en
las que figuran las incógnitas rx y ry, que resolviéndolas encontramos las
expresiones del valor de las coordenadas del centro (rx,ry) que minimizan la
expresión E anterior. Resolviendo, el resultado es
rx =
∑ i
mxi Ai ∑ i
myi2 − ∑
i
mxi myi ∑ i
myi Ai
∑ i
mxi2 ∑
i
myi2 −
∑
i
mxi myi
2
ry =
∑ i
myi Ai ∑ i
mxi2 − ∑
i
mxi myi ∑ i
mxi Ai
∑ i
mxi2 ∑
i
myi2 −
∑
i
mxi myi
2
donde Ai = xi mxi + yi myi, siendo (mxi,myi) el vector en la dirección de la
tangente al punto (xi,yi) de los i= 1,..N puntos de todos los segmentos que
forman un conjunto dado.
Una vez estimado el centro más ajustado de la circunferencia (rx,ry), se
asigna como radio r más representativo de ella la distancia media de los N
puntos (xi,yi), i= 1,..N, al punto calculado como centro de la circunferencia, de
este modo tenemos
Contornos circulares
111
r = 1N
∑ i= 1
N (xi− rx)2 + (yi− ry)2
1⁄2
Estimados el radio r y el centro (rx,ry) a que mejor se ajustan, con el
criterio descrito, los puntos que forman el conjunto de segmentos en cuestión, el
error cometido, o medida de disimilitud de al considerar este radio y este punto
como centro de la circunferencia que caracteriza estos segmentos, viene dado por
la expresión (4.1) descrita al principio de esta sección. De esta manera se
obtienen los parámetros buscados para caracterizar un conjunto de segmentos, el
centro y radio de la circunferencia a que mejor se ajustan, y una evaluación del
error al considerar estos parámetros. Este error, de, se utiliza como el valor de
la función distancia o disimilitud durante el proceso de agrupamiento para
evaluar el error de la unión de dos conjuntos de segmentos de contornos.
El segundo procedimiento utilizado opera en un modo inverso al anterior,
es decir, una vez determinada la medida del error a que se hacía referencia en
la ecuación (4.1), se determina a posteriori el valor de las coordenadas del cen-
tro y radio de la circunferencia correspondiente a ese error. El método consiste
en el emparejamiento de una máscara construida con los puntos que forman un
agrupamiento de segmentos, con lo que se denomina una imagen de distancias
que consiste en una imagen o máscara
de n x n elementos donde cada uno de
los cuales contiene el valor de la dis-
tancia al punto central de esa imagen
(figura 4.2). A continuación, dado un
agrupamiento de segmentos, se constru-
ye una máscara binaria conservando la
posición relativa original de cada uno
de los puntos de los segmentos que
constituyen el agrupamiento, colocando
el valor 1 donde estén situados cada
uno de los puntos de los segmentos, y
0 en el resto de puntos de la máscara.Figura 4.2. Imagen de distancias al punto
central.
Estudio de análisis de imagen
112
Con esta máscara se realiza un proceso de emparejamiento o matching sobre la
imagen de distancias, buscando la posición donde la máscara minimiza una medi-
da de error del emparejamiento, totalmente equivalente a la medida expresada
en la ecuación (4.1), que consiste en minimizar la varianza de los valores de la
distancias en la imagen de distancias a que corresponden los puntos de la más-
cara con valor 1, con respecto al valor medio de estas distancias. Por ejemplo,
supongamos que en la máscara de un agrupamiento existen N puntos con valor
igual a 1, correspondientes a los puntos de los segmentos. Si situamos la máscara
en cierta posición de la imagen de distancias, y denotamos los valores de esta
imagen que correspondan en ese momento a los puntos con valor 1 en la más-
cara como d1,d2,...,dN, el valor medio de estas distancias denotará el posible va-
lor promedio del radio del arco de circunferencia dm que constituyen esos
puntos, es decir,
dm =
∑ i= 1
N
di
N
y el error de emparejamiento de de la máscara en ese lugar será
de =
∑ i= 1
N
(dm− di)2
N
Como medida de disimilitud de un agrupamiento producto de la unión de
dos subconjuntos de segmentos diferentes se define como el error de
emparejamiento mínimo del resultado del emparejamiento de su correspondiente
máscara a lo largo de la imagen de distancias. Si durante el proceso de
agrupamiento se decide unir dos agrupaciones o conjuntos de segmentos, a la
circunferencia que representa al total de los segmentos de la agrupación
resultante, se le atribuirá como radio r el radio medio dm obtenido en el punto
del emparejamiento donde se obtuvo el error mínimo. Las coordenadas del
centro de esa circunferencia, (rx,ry), se obtienen calculando la posición real del
Contornos circulares
113
centro en la imagen original, conservando la posición relativa de los puntos de la
máscara en la imagen de distancias en el lugar del emparejamiento, respecto al
centro de la imagen de distancias. Por ejemplo, si un punto de la máscara,
correspondiente a un punto de los segmentos, tiene en el lugar de
emparejamiento unas coordenadas absolutas en la imagen original de (xi,yi), y
unas coordenadas relativas respecto al centro de la imagen de distancias de
(x0,y0), las coordenadas del centro de la circunferencia a que representan en la
imagen original (rx,ry), serán
rx = xi − x0; ry = yi − y0
De esta manera obtenemos para un agrupamiento, el error o medida de
disimilitud definida y las coordenadas del centro y radio asignados según lo
expuesto.
4.4 Evaluación de contornos parcialmente circulares
Como se indicó al principio de este capítulo, en algunas aplicaciones se debería
conocer la proporción del contorno circular de un objeto para evaluar que tanto
por cien de ese contorno no está presente en la imagen. Tal es el caso de
aplicaciones en las que se pretende desechar piezas u objetos defectuosos a los
que les falte una parte de ellas. Mediante las técnicas de reconocimiento de
contornos parcialmente circulares descritas aquí es posible esta evaluación, dado
que estos métodos proporcionan la información necesaria para realizarla.
Obtenidos para cada agrupamiento al final del proceso, el correspondiente
radio r de la circunferencia a que representan, se puede estimar mediante un
sencillo procedimiento qué parte del contorno circular se ha podido reconocer,
es decir, si 2πr es longitud total de la circunferencia y el total de arcos de la
circunferencia que representan los segmentos del agrupamiento tiene una
longitud L , la proporción del contorno que se ha encontrado será L ⁄ 2πr.
Estudio de análisis de imagen
114
No obstante, para obtener una mejor estimación de esta proporción y
debido al hecho de que solo se dispone de contornos muestreados o discretos, la
longitud total de los arcos del agrupamiento se definirá como el número total de
puntos N de los segmentos del agrupamiento, es decir N= L ; y la longitud de la
circunferencia de radio r que les representa se definirá como el número de
puntos en una imagen digital que tienen el contorno de la representación de esa
circunferencia en la imagen generada a partir de su función analítica. De esta
forma, si denotamos Nr como el número de puntos que constituyen una
circunferencia de radio r, y N el número de puntos total de un agrupamiento, la
proporción de contorno encontrado o reconocido se define como N ⁄ Nr,
obteniendo de esta manera una estimación de la proporción del contorno
presente en un contorno parcialmente circular en una imagen digital.
4.5 Implementación
Dada una imagen a la que se le han extraído los contornos, el proceso de
reconocimiento de contornos parcialmente circulares desarrollado aquí consta de
los siguientes pasos:
1. Codificar los contornos mediante el código cadena.
2. Segmentar los contornos calculando la curvatura en cada punto del contorno y
agrupando puntos contiguos de un mismo valor de la curvatura en un mismo
segmento.
3. Realizar el agrupamiento de los segmentos circulares encontrados, buscando los
segmentos que pertenecen a una misma circunferencia, calculando su centro y su
radio.
4. Calcular la proporción del contorno circular encontrado en cada agrupamiento.
En la implementación de estas técnicas descritas para realizar cada uno de
los pasos anteriores, se han tenido en cuenta una serie de consideraciones
prácticas que se relacionan a continuación.
Para el cálculo de la curvatura de los puntos del contorno se ha utilizado
un valor de k= 11 para el cálculo de la pendiente en cada punto por el método
Contornos circulares
115
de la cuerda descrito en el apartado 4.1.2, siendo la longitud de los contornos
en las imágenes utilizadas en su mayoría entre 100 y 200 píxels. El valor de
k= 11 fue elegido tras comprobar que daba buenos resultados en un amplio
rango de radios de contornos circulares ideales analizados.
El efecto de escala entre el eje x e y de la imagen de 2 ⁄ 3 también fue
considerado en el cálculo de la pendiente por el método de la cuerda, con lo
que la pendiente en un punto se calculaba de la forma
dydx
lp
= 23
yn− ya
xn− xa
La convolución con la derivada del filtro Gausiano de los valores del
ángulo de la pendiente para calcular la curvatura en cada punto se realizo con
una máscara extraída a partir de un función Gausiana con una desviación típica
de σ= 3, siendo la máscara utilizada
132
[ − 1 , − 3 , − 8 , − 11 , − 9 , 0 , 9 , 11 , 8 , 3 , 1 ]
En la segmentación se tuvo en cuenta no solo los puntos donde la
curvatura era constante sino también el signo del valor de la curvatura en los
puntos. Se desecharon los segmentos de curvatura constante con curvatura
positiva para trabajar solo con contornos cóncavos respecto al interior de la
región, dado que en los contornos de las imágenes utilizadas extraídos a partir
del seguimiento de contornos de regiones en estas imágenes segmentadas
utilizadas, las regiones que representan objetos circulares, sólo los segmentos
cóncavos forman parte de la circunferencia en que la región quedaría inscrita.
Para evitar la ruptura de segmentos de arcos circulares por algún punto
ruidoso y para compensar de algún modo el efecto del suavizado que a veces
consigue enmascarar puntos de arcos de circunferencia cercanos a una ruptura
del contorno de forma angulosa, se realizaba una prolongación de los extremos
de los segmentos circulares encontrados en un número de puntos dado del
contorno, habiendo utilizado en este caso un píxel como prolongación.
Estudio de análisis de imagen
116
En el proceso de agrupamiento jerárquico para obtener los grupos o
conjuntos de segmentos que pertenecían a una misma circunferencia, se ha
adoptado el error o medida de disimilitud máxima, considerada como la varianza
máxima permitida de las distancias de cada punto de los segmentos al centro de
la circunferencia respecto a su radio, de D= 0,5, lo que puede dar idea de la
exactitud en la que se calculan el centro y el radio, para radios comprendidos
usualmente entre 15 y 30 píxels.
Para generar la imagen de distancias utilizada en el método del
emparejamiento para la función disimilitud, se ha tenido también en cuenta el
efecto de escala 2 ⁄ 3 entre los ejes coordenadas de la imagen, y utilizando una
imagen de 100 x 100 píxels, lo que significa que se reconocían contornos
circulares cuya circunferencia fuera de 50 píxels de radio como máximo, longitud
suficiente para el tamaño de los objetos circulares en las imágenes utilizadas. El
efecto del tamaño de la imagen de distancias influye en el tiempo de proceso,
siendo cuatro veces mayor, por ejemplo, en una imagen de 100 x 100 que en una
de 50 x 50 píxels, debido a la naturaleza del proceso de emparejamiento con una
máscara.
Para agilitar el proceso de agrupamiento no se consideraban los pares de
subconjuntos de segmentos que tuvieran asignados centros de circunferencias
demasiado alejados, considerando solo los pares cuyos centros estuvieran más
próximos que cierta distancia, que en general se consideró de 20 píxels.
Basándose en este principio de localización espacial se consigue ahorrar en
tiempo de cálculo del proceso de agrupamiento, ya que se evitan una gran
cantidad de cálculos de la función disimilitud.
Por último, una vez encontrados los agrupamientos con sus respectivos
radios y centros de las circunferencias a que más se ajustan, se calcula la
proporción de contorno circular encontrado. En una primera aproximación, y
para decidir con cierta seguridad si el agrupamiento pertenece realmente a parte
de un contorno circular, se desechaban los agrupamientos con una proporción
del contorno encontrado de menos del 20%. Otro parámetro a tener en cuenta
en esta decisión es el radio mínimo para el cual un agrupamiento se pueda
considerar como un parte de un contorno circular, ya que no es lo mismo, por
Contornos circulares
117
ejemplo, un 20 % de un contorno de radio r= 20 que uno de radio r= 2, por ello
se adoptó como radio mínimo r= 4. Para ciertos casos se realiza un selección
considerando un radio mínimo, aunque podría considerarse un valor variable de
la proporción en función del radio, que sería lo mas lógico.
4.6 Experimentos y discusión
Para comprobar la validez del método desarrollado con las consideraciones en su
implementación descritas en el apartado anterior, se utilizaron dos tipos de
imágenes, unas imágenes de galletas adquiridas en laboratorio en condiciones e
iluminación controladas para comprobar o detectar la falta de trozos de las
galletas en diferentes proporciones, así como el comportamiento del método en
casos de solapamiento y diferentes grados de parte del contorno presente. El
otro conjunto de imágenes pertenecían a escenas de naranjas en su medio
natural, adquiridas con apoyo de iluminación artificial, y que en muchos casos
aparecían parcialmente ocultas por obstáculos naturales o solapadas unas con
otras formando pequeños racimos.
Se utilizaron imágenes de 256 x 256 píxels de resolución, que tras una
simple segmentación de cada imagen por medio del umbral en el nivel de gris,
se realizó un seguimiento y codificación de los contornos de las regiones
resultantes. Una vez segmentados los contornos, se les aplicó el método en sus
dos variantes: utilizando como medida de disimilitud el emparejamiento con una
imagen de distancias, y la función disimilitud basada en el criterio de
minimización. Al final del proceso se desecharon los agrupamientos que no
tuvieran mas de un 20% de la longitud total de la circunferencia que se les
asignó, así como aquellos que no tuvieran un radio mayor de 4 píxels.
En las figuras 4.3a y 4.4a se muestran dos imágenes segmentadas de
galletas, adquiridas en la forma descrita. En las figuras 4.5a, 4.6a y 4.7a se
muestran tres imágenes segmentadas de naranjas en su medio natural adquiridas
con el apoyo de iluminación artificial, la segmentación se realizó en la banda
roja de las imágenes. En las figuras 4.3a y 4.4a se puede apreciar que los
contornos de las regiones son claramente circulares, y en ella podemos observar
Estudio de análisis de imagen
118
diferentes situaciones en las que existen regiones a las que les falta parte de su
contorno circular en diferentes proporciones, asimismo se observan casos de
solapamiento entre contornos circulares. En las imágenes pertenecientes a
naranjas (figuras 4.5a, 4.6a y 4.7a) se observa que las regiones pertenecientes a
los frutos son aproximadamente circulares, siendo, por lo general, más achatadas
en los polos. En estas figuras podemos apreciar situaciones de diferentes tipos,
donde los contornos son más ruidosos, solapamientos, y en general falta de parte
del contorno en varios grados.
En las figuras 4.3b a 4.7b se muestran así mismo, con trazo mas intenso,
los segmentos de contornos considerados como posibles arcos de circunferencia
producto de la segmentación de los contornos por el método de la curvatura
descrito. En las figuras 4.3b y 4.4b se puede apreciar más el efecto del
suavizado o filtrado de la función curvatura en los extremos de los segmentos
cercanos a un punto anguloso. Se observa que el segmento finaliza antes de
llegar al punto que debería ser el final de éste, pero por efecto del filtrado los
puntos vecinos al punto de cambio brusco de la curvatura están afectados de
variaciones apreciables en la curvatura por su proximidad a ese punto. También
se puede apreciar que los tramos del contorno que podrían ser arcos de
circunferencia, en el caso en que son cóncavos respecto al interior de la región,
no han sido considerados en la segmentación, tal como se indicó en el apartado
anterior, ya que se busca la circunferencia que inscribe a la hipotética región
circular, cumpliendo sólo esta condición los tramos de contorno que puedan ser
arcos de circunferencia convexos respecto al interior de la región.
En las figuras 4.3c a 4.7c se muestra el resultado del agrupamiento de los
segmentos, mostrando para cada grupo resultante la circunferencia con centro y
radio encontrados por el método del emparejamiento con una imagen de
distancias. De forma análoga, en las figuras 4.3b a 4.7b se muestra el resultado
del agrupamiento con sus respectivas circunferencias calculadas con el método
del criterio de minimización descrito en el apartado 4.3. Observando las figuras
4.3c a 4.7c se puede notar la exactitud con que los parámetros de la
circunferencia a que se ajusta cada grupo de segmentos han sido calculados. En
estas figuras solo se muestran los agrupamientos que, una vez estimada la
Contornos circulares
119
Figura 4.3a. Imagen binaria de galletas. Figura 4.4a. Imagen binaria de galletas.
Figura 4.3b. Reconstrucción de 4.3autilizando el método de minimización como
Figura 4.4b. Reconstrucción de 4.4a utilizandoel método de minimización como función
Figura 4.3c. Reconstrucción de 4.3a utilizandola imagen de distancias como función disimilitud.
Figura 4.4c. Reconstrucción de 4.4a utilizandola imagen de distancias como función disimilitud.
Estudio de análisis de imagen
120
proporción de contorno circular que se obtuvo, superan el 20% de la
circunferencia total. De esta forma, como se puede apreciar a lo largo de los
ejemplos, se pueden localizar y reconstruir contornos circulares que muestren a
partir de un 20% del total, a diferencia por ejemplo de la técnica desarrollada
por Davies (1987) que no conseguía localizar contornos que mostraran menos de
un 50% del total de la circunferencia, en pruebas realizadas en imágenes de
galletas.
Una de las principales características del método es la posibilidad de,
además de calcular el radio y el centro de la circunferencia, estimar las
proporciones a partir de las que se ha reconstruido el contorno total de la
circunferencia, a diferencia de los métodos clásicos de la transformada de Hough
o el de Davies (1987). La medida de esta proporción, además de la localización
de la circunferencia, puede ser un rasgo más a tener en cuenta en los procesos
de clasificación de los objetos, como por ejemplo en el caso de las galletas, para
localizar defectos de éstas antes del envasado, al igual que en muchos otros
objetos circulares relacionados con la industria.
También podemos apreciar el buen comportamiento ante contornos
circulares solapados, no teniendo ninguna dificultad en localizarlos e identificarlos
por separado, tal como se aprecia sobre todo en la figuras 4.3b y 4.3c. En estos
casos de solapamiento, y en algunos presentes en las figuras pertenecientes a los
ejemplos de las naranjas, se puede apreciar como segmentos que pertenecen a
una misma región de la imagen segmentada han sido asignados a grupos
representando una circunferencia diferente, así como el caso contrario de que
segmentos pertenecientes a contornos de regiones diferentes han sido agrupados
en un mismo conjunto, asignándoles como parte de una misma circunferencia,
este caso se presenta cuando un obstáculo está frente a una naranja y divide la
parte visible de su superficie en dos. El potencial de poder distinguir los
contornos circulares por separado en el caso de solapamiento, puede ser uno de
los métodos que permita distinguir las naranjas individualmente cuando se
encuentren formando racimos, uno de los objetivos de este trabajo.
En cuanto a la robustez del método ante contornos ruidosos, se ha podido
apreciar su buen comportamiento en sus dos sentidos, primero en la falta a
Contornos circulares
121
Figura 4.5a. Imagen binaria de una escena de naranjas.
Figura 4.5b. Reconstrucción de 4.5a utilizando elmétodo de minimización como función disimilitud.
Figura 4.5c. Reconstrucción de 4.5a utilizando laimagen de distancias como función disimilitud.
Estudio de análisis de imagen
122
Figura 4.6a. Imagen binaria de una escena de naranjas.
Figura 4.6b. Reconstrucción de 4.6a utilizando elmétodo de minimización como función disimilitud.
Figura 4.6c. Reconstrucción de 4.6a utilizando laimagen de distancias como función disimilitud.
Contornos circulares
123
Figura 4.7a. Imagen binaria de una escena de naranjas.
Figura 4.7b. Reconstrucción de 4.7a utilizando elmétodo de minimización como función disimilitud.
Figura 4.7c. Reconstrucción de 4.7a utilizando laimagen de distancias como función disimilitud.
Estudio de análisis de imagen
124
diferentes proporciones de parte del contorno, y segundo ante trazos de arcos
circulares con presencia de ruido en el contornos, apreciándose más en los
ejemplos de las figuras 4.5, 4.6 y 4.7 pertenecientes a naranjas en que los
contornos presentan muchas oscilaciones y elementos espúreos, pudiendo localizar
los tramos claramente circulares.
Respecto al coste computacional, el tiempo medio utilizado en todo el
proceso a partir de la codificación de los contornos inclusive, es decir, sin incluir
la segmentación de la imagen o extracción de los contornos por el procedimiento
elegido, es de 121 segundos utilizando como función disimilitud el
emparejamiento con una imagen de distancias, y de 2,3 segundos utilizando el
criterio de minimización como función distancia, todo esto para imágenes de
256 x 256 y con un número total de puntos de contornos examinados para cada
imagen, en termino medio, de 700 píxels. Estos tiempos se obtuvieron utilizando
un 80386 a 33 Mhz, almacenando las imágenes en la tarjeta monocroma descrita
en el capítulo 8. Aunque utilizando como función disimilitud el criterio de
minimización se obtienen tiempos de ejecución mucho menores, el procedimiento
del emparejamiento con una imagen de distancias es algo más exacto, tal como
se puede observar comparando las correspondientes figuras b y c de cada
ejemplo, notando a veces ligeras desviaciones en la posición de las
circunferencias ideales encontradas en las figuras b respecto a las encontradas en
las c correspondientes.
El tiempo de cálculo utilizado es lo suficientemente reducido como para su
aplicación en tiempo real, ya que por término medio se precisan 0,1 segundo
para procesar el contorno de una región de tamaño medio perteneciente a un
fruto. Este resultado junto con los ejemplos aquí mostrados, deja suficientemente
probada la eficacia del procedimiento expuesto, tanto en su coste computacional
como en sus prestaciones, pudiendo calcular el centro, radio y proporción
presente de contornos circulares en el reconocimiento de éstos a partir de
contornos parcialmente ocultos.
Respecto a la posible extensión del método de reconocimiento de contornos
parcialmente circulares propuesto, se puede utilizar, por ejemplo, para localizar
líneas rectas parcialmente ocultas en la imagen. Para ello, el principio básico del
Contornos circulares
125
proceso no se modificaría, solo habría que cambiar el criterio de segmentación
del contorno, que en este caso varia muy poco respecto al aquí establecido,
considerando que la curvatura de una recta es constante, al igual que una
circunferencia, pero igual a cero; y el cambio de la función disimilitud o
distancia en el proceso de agrupamiento de segmentos, ya que este proceso no
cambiaría su filosofía. La función distancia debería estimar si dos segmentos o
subconjuntos de segmentos de rectas podrían pertenecer a una misma recta y
calcular los parámetros de ásta, su pendiente y su ordenada en el origen.
Estudio de análisis de imagen
126
Capítulo 5
COLOR EN
AMBIENTES NATURALES
El color que se percibe de la superficie de un objeto depende de las
condiciones en que se realiza la observación. El color de un determinado cuerpo
depende, fijado el observador, de la composición espectral de la luz con que se
ilumine, lo que significa que un mismo material presenta colores diferentes si se
ilumina con una luz de color diferente.
De igual forma, la cantidad de luz que incide sobre un objeto también es
causa de una variación en su color, más concretamente en su atributo
denominado claridad. Un mismo objeto en el que inciden directamente los rayos
del iluminante o iluminado indirectamente a través de la sombra que le ofrece
algún obstáculo, sólo se diferencia en su claridad. Un disco blanco que a una
mitad le da el sol y la otra está a la sombra, diremos al compararlas que esta
última mitad es gris. El gris es el color de los cuerpos que no presentan otro
atributo que la claridad y fácilmente se puede imaginar que es posible hacer una
escala de colores grises que tendrá como límites el blanco y el negro.
El tono y la saturación son los otros dos atributos que constituyen la
cromaticidad del color, el primero relacionado con la longitud de onda
dominante y el segundo con la pureza. Los colores grises son acromáticos, y los
correspondientes a luces monocromáticas (de una misma longitud de onda) se
llaman saturados.
En ambientes naturales el principal iluminante es el sol, aunque en algunos
casos y en puntos localizados de escenas con cierta disposición y composición de
los objetos, la luz reflejada en la superficie de objetos cercanos constituye la
llamada luz ambiente que puede ser a veces de magnitud apreciable respecto al
iluminante principal.
Debido a lo incontrolado de la iluminación natural, ésta produce sobre las
escenas una exposición variable sobre diferentes puntos de la escena, provocando
zonas de iluminación directa y zonas de sombra debidas a obstáculos naturales.
Esta variabilidad produce que sobre la misma superficie de un objeto aparezcan
efectos espúreos o ruidosos como las reflexiones especulares producto de una
iluminación directa, o zonas pobremente iluminadas situadas a la sombra de
algún objeto.
Todos estos problemas se han visto minimizados mediante la utilización de
la iluminación artificial en la toma de las imágenes de escenas naturales, tal
como se describió en el capítulo 1. No obstante, generalizando el problema de
la iluminación, sería interesante encontrar un método de reconocimiento de color
que pudiera tratar escenas en condiciones de iluminación incontroladas.
El problema consiste en, fijadas los atributos de cromaticidad del
iluminante, variando espacialmente a lo largo de la escena la claridad o
intensidad de la luz incidente, reconocer el color de los puntos integrantes de la
superficie de un mismo objeto independientemente de los efectos que provoca
esta variabilidad espacial en la claridad de los objetos iluminados en la escena,
evitando de esta forma los efectos de las reflexiones especulares o las sombras,
omitiendo estos efectos en el proceso de reconocimiento. Un reconocimiento del
color en estas condiciones podría permitir una segmentación en color de la
escena atribuyendo a cada región los puntos de la superficie de un mismo objeto
independientemente si sobre ella existen zonas de sombra o brillos provocados
por reflexiones especulares.
El problema del reconocimiento y segmentación en color en análisis de
imágenes digitales ha sido ampliamente tratado en la literatura. La mayoría de
los trabajos en segmentación en color se han basado en la aplicación de técnicas
de clasificación de varios tipos sobre espacios de color triestímulo (ver apéndice
E) ampliamente utilizados. Por citar algunos ejemplos de los autores que
siguieron esta línea, Tominaga (1990) utilizó análisis de componentes principales
para determinar los clusters o regiones de colores de objetos diferentes en el
Estudios de análisis de imagen
128
espacio L ∗ a∗ b∗ , espacio que consideró más adecuado pues la elección del
espacio de color era determinante para un buen resultado; este procedimiento se
utilizó sobre imágenes de figuras simples en laboratorio. Xie & Berni (1991)
aplicaron fuzzy c-means clustering (agrupamiento c-medias difuso) en el espacio
RGB con el mismo propósito. Otros, como Celenk (1988), buscaban
agrupamientos de puntos de cierta forma predeterminada en el espacio L ∗ a∗ b∗ ,
después de la elección de éste por ciertas relaciones entre sus coordenadas y los
atributos del color (brillo, matiz y saturación). El espacio IHS fue utilizado por
Domingo et al (1990) aplicando algoritmos genéticos para la búsqueda de zonas
pertenecientes a clases de colores diferentes sobre imágenes de ambientes
naturales; o clasificadores por distancia mínima a representantes de las clases
elegidos después de un multiedit-condensing (multieditado-condensado) utilizados
por Ferri & Vidal (1992) sobre imágenes, también, de ambientes naturales.
Otros autores han dirigido sus esfuerzos en la búsqueda de características
de color a partir de espacios triestímulos, tal como el RGB, para encontrar un
conjunto de ellas que facilitara la discriminación entre colores para segmentación
en color (Ohta et al, 1980); o la búsqueda de estas características pero
orientadas a la detección de bordes de color (Nevatia, 1977). La segmentación a
través de espacios de color triestímulo conocidos, también ha sido utilizada en
sistemas de visión para la recolección robotizada, siendo Slaughter (1987) el
primero que utilizó estas técnicas para el reconocimiento de naranjas, utilizando
clasificadores lineales discriminantes bayesianos en los espacios RGB e IHS;
Sandini et al (1991) también utilizaron el espacio IHS y el RGB aplicando redes
neuronales par localizar tomates.
Existen otros trabajos orientados a determinar el color o incluso estimar la
distribución de energía espectral del iluminante a partir de las medidas realizadas
por los sensores para medir el color (Lee, 1986; Wandell, 1987; Gershon, 1987;
Ho et al, 1990), así como el calculo del espectro de reflexión característico del
material, es decir, aquello que se llama color constancy que pretende determinar
el color de un objeto independientemente del iluminante que se utilice. Todos
estos trabajos se basan en la caracterización del fenómeno físico de la reflexión
de la radiación electromagnética al incidir sobre la superficie de los objetos.
Color en ambientes naturales
129
Asimismo, basándose en los fenómenos de reflexión de la luz en los objetos,
autores como Klinder et al (1988) y Gershon (1987) estudiaron los reflejos y las
sombras que se producen sobre las superficies de los objetos a través de visión
por ordenador, reconociendo y detectando los reflejos sobre los objetos, o los
bordes entre la parte de sombra y de luz directamente incidente sobre la misma
superficie de un objeto.
Dado que los efectos más representativos sobre la superficie de los objetos
en escenas bajo la iluminación natural son los reflejos y las sombras, un método
de reconocimiento o segmentación por color en este tipo de escenas debe tener
en cuenta el proceso físico de reflexión de la luz en la superficie de los objetos
para estudiar las características que poseen en común la luz que llega de los
diferentes puntos de una misma superficie al sensor que realiza las medidas de
color.
El objeto de este estudio no es reconocer y localizar los reflejos y sombras,
sino asociarlos a la superficie hipotéticamente de color homogéneo a la que
corresponden, permitiendo una segmentación de la imagen por color en la que
cada región incluya una misma superficie del objeto con sus reflejos y sombras
asociados, con el fin de evitar los efectos espúreos que estos fenómenos
provocan cuando se pretende realizar un reconocimiento de colores bajo las
condiciones existentes en ambientes naturales.
Para ello, a partir del modelo de reflexión descrito en el apéndice E, así
como de la interpretación que algunos autores hacen del mismo, se desarrollará
el método que se describe en este capítulo, comenzando por el espacio de
representación del color adoptado, espacio que facilite la tarea de reconocer y
clasificar colores asociándoles sus respectivos reflejos y sombras (sección 5.1). A
continuación (sección 5.2) se tratará el tema del procedimiento por el cual se
realiza la segmentación en color a través de una clasificación en el espacio de
representación descrito en la sección 5.2. En la sección 5.3 se exponen las
consideraciones prácticas tomadas para la implementación del método, así como
el algoritmo de segmentación utilizado. Por último los resultados obtenidos y su
discusión en comparación con otros clasificadores aplicados a este mismo espacio,
Estudios de análisis de imagen
130
mostrarán la efectividad del método de clasificación utilizado para la
segmentación, así como lo acertado del espacio de representación obtenido.
5.1 Representación del color
Tal como se apuntó al principio de este capítulo, el primer objetivo es encontrar
una representación del color que facilite la tarea de reconocer el color de los
objetos presentes en la escena teniendo en cuenta los fenómenos que perturban
tal reconocimiento como los relativos a reflejos en una misma superficie y la
variabilidad de la iluminación, con su principal consecuencia traducida en zonas
de sombra o pobremente iluminadas sobre algunos objetos de la escena.
5.1.1 Reflejos en la superficie de los objetos
A través del modelo de reflexión dicromático expuesto en el apéndice E, quedan
completamente definidas las características que poseen los llamados reflejos en el
modelo de reflexión dicromático. En apartado E.1 se definen los puntos reflejo
de una superficie como aquellos que poseen una componente apreciable de la
reflexión superficial del material de que está compuesto el objeto.
Trasladando un punto reflejo a su representación en el espacio de color, se
puede observar que los colores pertenecientes a reflejos de la superficie del
objeto son los vectores dentro del plano dicromático (ver figura E.3) que definen
esa superficie los cuales están mas próximos al vector correspondiente al color
de la reflexión superficial del objeto Cs, ya que los colores mate están,
aproximadamente, situados en la dirección del color perteneciente a la reflexión
del cuerpo Cb, puesto que su componente de reflexión superficial es casi nula.
Por lo tanto, a medida que nos acercamos a la región en la superficie donde se
encuentra el punto correspondiente al reflejo de componente de reflexión
superficial máxima, más se aleja la dirección del vector de color correspondiente
a esos puntos del color de la reflexión del cuerpo Cb, y más se acercan a la
dirección del vector del color de la reflexión superficial Cs.
Color en ambientes naturales
131
5.1.2 Zonas de sombra en la superficie de los objetos
En el caso más sencillo, la iluminación que llega a las zonas de sombra posee
las mismas características espectrales que la iluminación que incide directamente
sobre la superficie de los objetos procedente del iluminante, es decir, existe solo
una diferencia en la magnitud de la distribución de potencia espectral de la luz
que incide directamente desde el iluminante y la luz que llega a las zonas de
sombra de la superficie de objetos presentes en la escena, de manera que la
distribución de potencia espectral de ambas luces difieren en un factor de
proporcionalidad α (Gershon, 1987).
La aproximación que se realiza en el modelo dicromático sobre la
consideración del iluminante, asumiendo que la única iluminación es debida solo
a la luz procedente desde la fuente de iluminación y no de lo que se denomina
luz ambiental o luz que incide en la superficie de objetos procedente de la
reflexión en otras superficies de objetos cercanos, es una buena aproximación en
el caso de ambientes naturales ya que según observaciones realizadas por
Henderson (1977) resultaron que en promedio en un día claro alrededor del
mediodía, el 90% de la iluminación que se recogía sobre los objetos venía
directamente del sol, mientras que el 8% era procedente del cielo presente en
los alrededores y el resto, un 2% era debida a la reflexión sobre otros objetos.
Esta aproximación sigue siendo mucho más valida en el caso de que se realice
la adquisición de la imagen con el sistema de apoyo de iluminación artificial,
necesario por lo menos durante la noche o en las horas del día o días de una
deficiente iluminación.
La iluminación sobre zonas de sombra y de incidencia directa en este caso,
cumple la condición establecida para el modelo de reflexión dicromático
(apartado E.1.2), que asume que la luz que incide sobre la superficie de los
objetos es exclusivamente debida a la luz que procede del iluminante y no a las
reflexiones en la superficie de otros objetos cercanos, con lo que podemos
considerar la luz que ilumina las zonas de sombra debida única y exclusivamente
al efecto de difracción de la luz de iluminante en los bordes de los objetos que
forman un obstáculo entre el iluminante y las zonas de sombra de las escenas.
Estudios de análisis de imagen
132
Siguiendo el modelo utilizado por algunos autores en el problema de
determinación del color constante de los objetos independientemente del
iluminante (Maloney & Wandell, 1986; Wandell, 1987; Gershon, 1987; Ho et al,
1990), la distribución de potencia espectral de la luz que sale de un punto de la
superficie de un objeto de la escena C(λ) es la proporción de la distribución de
la potencia espectral de la luz procedente del iluminante E(λ) que incide en ese
punto, posición que determina las características espectrales del material. Según
el modelo dicromático, las características espectrales de la superficie del objeto
son constantes a lo largo de todo el material, igual para el espectro de reflexión
superficial como para el espectro de reflexión debido al cuerpo del material. Si
denotamos la proporción relativa de la radiación incidente que refleja la
componente superficial de la superficie del objeto en función de la longitud de
onda como S(λ) , y la del cuerpo del objeto por B(λ) , tenemos que la
componente espectral de reflexión superficial que llega al sensor cs(λ) , y la
componente de reflexión procedente del cuerpo del material cb(λ) , se pueden
expresar en función del iluminante como
cs(λ) = E(λ) S(λ) ; cb(λ) = E(λ) B(λ)
Todo esto se puede interpretar, suponiendo que dos puntos de una misma
superficie estén muy cercanos, uno situado en una zona de incidencia directa de
iluminante E(λ) , y otro situado en una zona de sombra a la que llega la luz con
una distribución de potencia espectral α E(λ) , entonces estos puntos reflejan una
luz cuya distribución de potencia espectral difiere en un el factor de
proporcionalidad α. Es decir, si L1 es la luz que refleja el punto en la región de
incidencia directa, y L2 es la del punto de la sombra, considerando que los
factores de escala geométricos de la ecuación del modelo dicromático (E.1), ms y
mb, son los mismos para los dos puntos, dada la proximidad de éstos, la
radiancia de los rayos de luz que proceden del punto sobre el que se ilumina
directamente, L1, y la radiancia del punto en la sombra, L2, son iguales excepto
una constante de proporcionalidad, L1 = α L2.
Color en ambientes naturales
133
Al realizar el proceso de integración del espectro en la cámara o sensor de
color, las componentes del color, en el caso de estas dos luces, se diferenciarán
en la constante de proporcionalidad α, debido a las propiedades de linealidad de
la integración del espectro, por lo tanto, los colores C1 = (R1,G1,B1) y
C2 = (R2,G2,B2) correspondientes a las luces L1 y L2, se relacionan de la forma
(R1,G1,B1) = α (R2,G2,B2). Esto significa que, dos puntos situados en una misma
superficie en condiciones geométricas análogas, uno iluminado directamente y
otro en una zona de sombra, poseen vectores de representación de su color que
están situados en la misma dirección en el espacio de color, diferenciándose
únicamente en un factor de proporcionalidad, lo que significa que poseen
características similares de la distribución de potencia espectral de las que
difieren en una constante de proporcionalidad, es decir, en una cantidad de
energía diferente pero distribuida de la misma forma a lo largo del espectro.
5.1.3 Iluminante y reflexión superficial. Haz de planos dicromáticos
El índice de refracción de un material es función de la longitud de onda, y el
coeficiente de Fresnel varía a lo largo del espectro de la luz. No obstante, el
coeficiente de Fresnel del medio se puede aproximar normalmente por una
constante a lo largo de las longitudes de onda que cubren del espectro visible,
ya que el índice de refracción de la mayoría de los medios materiales cambia
muy poco en las longitudes de onda que abarca el espectro visible. En estas
condiciones, la componente superficial de la luz reflejada en la superficie de los
objetos tiene el mismo color que la luz incidente que procede del iluminante.
Esta aproximación es válida también para la superficie de los frutos, ya que
en particular se ha comprobado experimentalmente que los materiales que
poseen como envoltura o capa superficial algún tipo de aceites o ceras, poseen
un valor muy constante del índice de refracción para las longitudes de onda del
espectro visible (Kanthack, 1921), por lo que el color de la componente de la
reflexión superficial tiende al color del iluminante.
Si suponemos que los objetos situados en una escena poseen superficies con
índices de refracción que puedan considerarse constantes a lo largo del espectro
visible, las componentes de reflexión superficial de la luz reflejada en la
Estudios de análisis de imagen
134
superficie de estos objetos tendrán todas el mismo color, igual al color del
iluminante. Dado que cada objeto compuesto de un material dieléctrico no
homogéneo se caracteriza por un plano dicromático en el espacio de color
formado por los colores del espectro de la componente superficial y por el
espectro de la componente del cuerpo del material, todos los planos
correspondientes a los objetos de la escena intersectarán en una línea recta en
el espacio de color correspondiente al color de la reflexión superficial de los
objetos que es igual para todos y a su vez igual al color del iluminante (figura
5.1).
Con todo ello se puede decir que los planos dicromáticos posibles en una
escena, una vez fijado el iluminante, son aquellos que corresponden al haz de
planos que puede generar la recta en la que se sitúa el color del iluminante en
el espacio de color, corrrespondiendo cada plano al plano dicromático que
caracteriza los colores que se pueden generar en la reflexión de la luz sobre
cualquier punto de la superficie del objeto correspondiente a ese plano.
R
G
B
C
C C
C
i
b1
b2
b3
Figura 5.1. Haz de planos dicromáticos en el espacio RGB.
Color en ambientes naturales
135
5.1.4 Espacio de representación
De lo tratado en los apartados anteriores se puede resumir las propiedades para
caracterizar los puntos reflejo y los puntos situados en zonas de sombra en las
siguientes consideraciones:
- De las dos direcciones de los vectores color que forman el plano
dicromático correspondiente a la superficie de un mismo objeto en el espacio de
color, los puntos mate están prácticamente en la dirección del vector de color
correspondiente al color del espectro de la reflexión procedente del cuerpo del
material del objeto, mientras que los vectores de color correspondientes a los
puntos reflejo de la misma superficie se desplanzan dentro del plano dicromático
acercándose a la dirección del color del espectro de la reflexión superficial del
objeto, la cual coincide con el color del iluminante.
- Un mismo punto de la superficie de un objeto en el que incide de forma
directa la luz procedente del iluminante o, en otro caso, el mismo punto situado
en una zona de sombra donde la luz que lo ilumina no incide directamente
sobre él desde el iluminante, el color de la luz que reflejan en estos dos casos
este punto poseen la misma dirección en el espacio de color, y la distribución
de potencia espectral de la luz reflejada en el punto en ambos casos sólo difiere
en un factor de proporcionalidad, lo que significa que en ambos casos la luz que
se refleja posee una potencia total diferente pero distribuida de igual forma a lo
largo del espectro.
Puesto que el interés en el tratamiento de escenas naturales es evitar u
omitir los efectos de la variabilidad de la potencia espectral de la iluminación
incidente a lo largo de la escena, reconociendo los colores de los objetos
independientemente de si los objetos están situados en una zona de sombra o de
iluminación directa, y como consecuencia de lo expuesto en el último punto
anterior, se puede obviar la magnitud o módulo de los vectores de
representación del color ya que esta magnitud esta directamente relacionada con
la potencia total de la luz que se refleja en la superficie de un objeto, y que,
tal como se ha visto en el apartado 5.1.2, las diferencias en esta potencia para
Estudios de análisis de imagen
136
zonas de sombra o de iluminación directa es causa únicamente de la potencia
total diferente que poseen la luz que incide en la superficie de los objetos en
cada caso.
Por otra parte, en referencia a los puntos mate y los puntos reflejo de una
misma superficie se observa que la característica que los distingue estrictamente
es la posición relativa de los vectores de color respecto a las direcciones de los
colores del espectro de reflexión del cuerpo y de la reflexión superficial, dentro
del plano dicromático que éstos definen.
Todos estos factores inducen a pensar en un espacio direccional de los
vectores de color como representación de éstos, puesto que la dirección relativa
entre los vectores de color es la que contiene la información de interés para
caracterizar los puntos mate respecto a los puntos reflejo de una misma
superficie y a su vez poder omitir el efecto de la variabilidad en la iluminación,
enmascarando este problema considerando que todos los puntos están iluminados
por un mismo iluminante independientemente de la potencia total que recibe
cada punto de la superficie de los objetos en la escena, circunstancia que se
consigue considerando sólo la dirección de los vectores de color.
Uno de los espacios direccionales mas utilizados es la superficie de una
esfera con propósitos muy diferentes, como representaciones de las orientaciones
de vectores de puntos en la superficie de objetos (Horn, 1984), o como espacio
de representación para la búsqueda de la triangulación de Delaunay de un
conjunto de puntos (Watson, 1988). Este espacio direccional consiste en una
superficie esférica de radio determinado, por comodidad la unidad, sobre la cual
a cada uno de sus puntos le corresponde una dirección en el espacio
determinada por las coordenadas esféricas angulares θ y ϕ de ese punto con
respecto al origen de coordenadas situado en el centro de la esfera.
Consideremos en este trabajo la representación del color como las
correspondientes coordenadas θ y ϕ de los vectores de color en el espacio de
color, en este caso el RGB. A cada vector de color le corresponderá un punto
en el espacio direccional representando el punto sobre la superficie esférica a
que corresponde la dirección de tal vector. Mediante esta representación todos
los vectores que en el espacio de color estén en una misma dirección le
Color en ambientes naturales
137
corresponderá el mismo punto en la
superficie de la esfera, con lo que
todos los vectores de color que
representen a distribuciones de
potencia espectral que tengan una
potencia total diferente pero
distribuida de igual manera a lo
largo del espectro, se representarán
por un único punto en la esfera
direccional, por lo tanto en esta
representación no hay distinción
entre puntos de la superficie de los
objetos iluminados directamente o
puntos en zonas de sombra.
Geométricamente hablando, si imaginamos una esfera de radio unitario en
el espacio RGB, la representación en la superficie de la esfera de todos los
vectores de color en una misma dirección, será el punto intersección con la
superficie de la esfera de la recta que pasa por el origen de coordenadas y que
tiene la dirección de estos vectores. Análogamente, todos los puntos contenidos
en un plano dicromático correspondiente a un objeto, formado por los vectores
de color del espectro de reflexión superficial y el color del espectro de reflexión
del cuerpo del objeto, se representarán en la superficie de la esfera por medio
de la curva resultante de la intersección del plano dicromático con la superficie
de la esfera direccional (figura 5.2). Todos los rayos de luz procedentes de la
superficie del objeto a que corresponde este plano dicromático estarán
comprendidos entre el segmento de esa curva sobre la superficie de la esfera
entre los puntos correspondientes a la dirección del color del espectro de
reflexión superficial Cs, y el color del espectro de reflexión del cuerpo del
objeto Cb.
La curva intersección de un plano que contiene al origen de coordenadas,
de ecuación general a x + b y + z = 0, con una esfera de radio R centrada en el
sistema de coordenadas, no es sino una curva geodésica sobre la superficie de la
Figura 5.2. Corte de la esfera direccional por unplano dicromático.
Estudios de análisis de imagen
138
esfera, es decir, la curva de longitud mínima entre dos puntos sobre la superficie
de la esfera, que es el equivalente a una línea recta en el espacio euclideo. Por
lo tanto la representación de un plano dicromático en la superficie de la esfera
direccional será una geodésica, cuya ecuación general es
a cosϕ senθ + b senϕ senθ + cosθ = 0 (5.1)
donde a y b son los parámetros que definen cada geodésica cuyos puntos tienen
coordenadas que vienen especificadas por los valores de θ y ϕ para cada punto
de la curva.
Dado que cada plano dicromático tiene su correspondiente curva geodésica
en la superficie de la esfera direccional, las geodésicas correspondientes al haz
de planos que pueden generar los objetos situados en una escena, tal como los
de la figura 5.1, se cruzarán en un punto de intersección correspondiente a la
dirección del vector de color del iluminante, tal como se vio en el apartado
5.1.3. Esto significa que los colores de los puntos sobre la superficie de cada
objeto se situarán a lo largo de sus correspondientes geodésicas, estando más
cerca del punto intersección de todas las curvas cuanto mayor sea la componente
de reflexión superficial de los puntos del objeto, es decir, los reflejos en la
superficie de un objeto se sitúan sobre la geodésica cerca del punto intersección
con las demás curvas, punto que corresponde al iluminante. Por lo tanto, los
reflejos sobre la superficie de los objetos se agrupan alrededor del punto
correspondiente al color de iluminante en la esfera direccional, y los puntos
mate se alejan de tal punto a lo largo de la geodésica que representa a su
correspondiente objeto.
Una clasificación o segmentación por color de los puntos de una imagen
para definir las regiones en la imagen que correspondan a un mismo objeto en
la escena de un color determinado, tendrá que encontrar en el espacio de
representación descrito las geodésicas en la superficie de la esfera direccional
correspondientes a cada objeto en la escena, asignando los píxels en la imagen
correspondientes a los puntos sobre una mima geodésica al mismo objeto en la
escena.
Color en ambientes naturales
139
La noción de curva geodésica sobre la superficie de una esfera induce a su
análoga idea de linealidad en un espacio euclideo, con el propósito de utilizar
métodos de clasificación basados en clasificadores lineales. La obtención de un
espacio de representación en el que los conjuntos de puntos correspondientes a
las diferentes clases (en este caso colores de objetos en la escena) sean
linealmente separables, puede, además de facilitar el proceso de clasificación,
aumentar la precisión de tal clasificación.
Con la representación en este espacio direccional, además de comprimir la
información relativa al color, se consigue la reducción de la dimensión del
espacio sobre el que realizar los cálculos, ya que la superficie de una esfera es
de dimensión dos y la representación en el espacio RGB posee tres dimensiones.
Una forma de ver la linealidad de la representación elegida puede
apreciarse transformando la ecuación de la geodésica (5.1) expresándola como
cosϕ tanθ = − ba
senϕ tanθ − 1a
(5.2)
que realizando el cambio de variable Y = cosϕ tanθ y X = senϕ tanθ, obtenemos
la ecuación correspondiente a una recta Y = m X + n.
5.2 Clasificación y segmentación
La segmentación de una imagen se puede realizar a través de una clasificación
de los puntos o píxels que la constituyen, en la que el clasificador asigna a cada
punto de la imagen una clase de un conjunto de clases que haya sido
previamente definido. A cada punto de la imagen se le atribuye un conjunto de
características, en este caso su representación en el espacio de color adoptado, y
el clasificador, en una fase previa de aprendizaje, determina los parámetros que
definen cada clase a partir de un conjunto de puntos muestra a los que
previamente se les ha asignado una de las clases posibles. Los clasificadores
tienen la función de encontrar las fronteras entre las distribuciones de puntos de
Estudios de análisis de imagen
140
las diferentes clases en el espacio de representación del vector de características
que maneja el clasificador.
Puesto que lo lógico sería asignar una clase a cada objeto con su respectivo
color, los puntos pertenecientes a una misma clase u objeto se distribuyen a lo
largo de una curva geodésica en la esfera direccional, tal como se ha visto en el
apartado anterior. En realidad, los colores de la luz reflejada por los puntos de
una misma superficie se dispersan alrededor de su curva geodésica media o más
representativa, formando una región de puntos en la esfera direccional situada
entre dos geodésicas aproximadamente, tal como se verificará mas adelante.
La función de un clasificador en este espacio de representación será
encontrar las geodésicas que separan las regiones de puntos pertenecientes a
diferentes clases u objetos. Orientando el problema de la manera propuesta en
la ecuación 5.2, se podría aplicar algún tipo de clasificador lineal en el espacio
de representación resultante después del cambio de variable Y = cosϕ tanθ y
X = senϕ tanθ, donde aquí las geodésicas se transforman en rectas.
5.2.1 El color del iluminante y reducción de la dimensión
En el apartado 5.1.4 se describió como el conjunto de geodésicas sobre la esfera
direccional correspondientes al haz de planos dicromáticos de los objetos en la
escena se cruzaban en un único punto correspondiente al color del iluminante,
debido a las consideraciones expuestas sobre el color del espectro de reflexión
superficial en los materiales dieléctricos de índice de refracción constante.
Dado que al considerar el cambio de variable Y = cosϕ tanθ y X = senϕ tanθ
las geodésicas se transforman en rectas, todas estas rectas se cruzan en un
punto, el punto correspondiente al color del iluminante. Si se conociese a priori
el color del iluminante como parámetro del sistema, cualquier línea recta que
cruzara este punto se podría caracterizar con un solo parámetro, su ángulo de
inclinación α.
Dado que los puntos correspondientes a una misma clase u objeto estarán
situados entre dos de las rectas de ángulos α1 y α2 que crucen el punto del
iluminante, para averiguar si un punto está situado en la región que limitan estas
rectas bastará saber si el ángulo del segmento αi que une el punto Pi con el
Color en ambientes naturales
141
punto correspondiente al color del iluminante P0 está comprendido entre los
ángulos correspondientes a las rectas que delimitan la región de la clase, es
decir, α1 ≤ αi ≤ α2 (figura 5.3).
Por lo tanto, conociendo a priori el valor del color del iluminante, se
puede reducir la clasificación de los colores de los puntos sobre la superficie de
los objetos mediante un único parámetro, el ángulo α que forma el segmento
que une cada punto en el espacio XY descrito.
5.2.2 Representación y visualización
El plano que representan las coordenadas X e Y no es un espacio muy adecuado
para representar gráficamente y visualizar como se distribuyen los puntos
correspondientes a los colores registrados en una imagen RGB procedentes de
los objetos de una escena.
En primer lugar, debido a la naturaleza de la obtención de los valores de
las coordenadas Y = cosϕ tanθ y X = senϕ tanθ, estas coordenadas poseen valores
X
Y
α1α
α2
0
Pi
P0
Figura 5.3. Angulo α de un punto Pi en el plano XY
Estudios de análisis de imagen
142
cuyo rango puede ir desde el cero hasta el + ∞, considerando que en el espacio
RGB los valores que pueden adoptar los ángulos θ y ϕ solo pueden variar entre
cero y π ⁄ 2, debido a que los valores de la coordenadas R, G y B solo pueden
tomar valores positivos. En segundo lugar, y como consecuencia del amplio rango
que pueden tomar estos valores, los puntos correspondientes a los colores de la
superficie de un objeto se encuentran muy dispersos a lo largo de la región que
ocupan en este plano limitada entre dos rectas, siendo más disperso cuanto más
se alejan de la posición del iluminante, y por el contrario muy concentrados para
los puntos reflejo, que como ya se ha descrito se encuentran cerca del punto
correspondiente al color del iluminante.
Una forma ideal de visualizar esta representación sería representar la
superficie de la esfera direccional utilizada, en la que se vería como los puntos
se agrupan alrededor de geodésicas, siendo el rango de los valores de los
posibles colores este espacio de representación finito, variando los ángulos entre
los valores [0,π ⁄ 2] tal como ya se ha dicho. No obstante la representación de los
puntos sobre la superficie de una esfera es bastante incomoda en los dispositivos
de visualización corrientes, tales como una pantalla de ordenador o su impresión
en el papel, debido a que una representación tridimensional en estos dispositivos
siempre depende del punto de observación, teniendo que utilizar técnicas de
perspectiva para poder representarlos, no pudiendo apreciar a veces las
verdaderas características de las distribuciones de puntos debido a un ángulo de
perspectiva inadecuado.
De todas maneras existen formas de representación en un plano de los
puntos de la superficie de una esfera, tal como sucede en la confección de
mapas de la superficie terrestre. Una de las maneras de conseguir ésto es tomar
unos ejes coordenados en el que el eje de abcisas represente al ángulo ϕ de un
punto en la superficie de la esfera, y el eje de ordenadas al ángulo θ de tal
punto. Las líneas verticales correspondientes a un ángulo ϕ = cte corresponderían
a los meridianos en la superficie de la esfera, y las líneas rectas de valor θ = cte
a los paralelos, considerando los polos en los puntos de corte de la superficie de
la esfera con el eje z.
Color en ambientes naturales
143
Cualquier geodésica sobre la esfera cuya ecuación vendrá dada por la
expresión (5.1), se representará en este espacio direccional ϕθ por medio de una
curva cuya expresión analítica será, despejando la variable θ de la ecuación (5.1),
θ = arctan
− 1a senϕ + b cosϕ
En la figura 5.4 se muestran un grupo de geodésicas correspondientes a un
haz de planos considerando como color del iluminante el color blanco, es decir,
la recta en el espacio RGB que representa a la escala de grises, habiendo
tomado las coordenadas cartesianas (x,y,z) como las (R,G,B) respectivamente.
Cada curva de estas representa idealmente a los colores de la superficie de un
objeto en la escena iluminada con un iluminante de color blanco,
aproximadamente la luz solar. En la práctica los colores de la luz que reflejan
los puntos de la superficie de un mismo objeto están comprendidos entre dos de
ésta geodésicas, tal como muestra la figura 5.5 que representa los puntos de una
imagen real en este espacio correspondientes a la superficie de dos objetos cuyo
Figura 5.4. Espacio direccional ϕθ con un conjunto de curvas dicromaticas que cruzan eliluminante P0 situado en el color blanco.
Estudios de análisis de imagen
144
color era homogéneo a lo largo de
cada una de ellas. Como se puede
observar, y comparando con la figura
5.4, cada una de las regiones donde
se encuentran los puntos de un
mismo objeto se encuentran situados
entre dos geodésicas que se cruzarán
el en punto correspondiente al
iluminante aproximadamente.
Observando la figura 5.4 se
puede notar que, en general, las
geodésicas allí representadas se
pueden aproximar por líneas rectas en
el plano ϕθ, siendo las curvas más alejadas de esta aproximación los tramos de
las geodésicas que se encuentran en las esquinas inferiores del diagrama ϕθ.
Aunque la representación en la figura 5.4 corresponde a las geodésicas del haz
de planos dicromáticos considerando como color del iluminante el color blanco,
se puede comprobar experimentalmente que, de una manera general, las curvas
geodésicas correspondientes a haces de planos cuyo iluminante este situado en
un punto de la amplia región central del diagrama ϕθ, se pueden aproximar por
líneas rectas en tal plano con excepción de algunos tramos de curvas situados en
los vértices del cuadrado que representa los posibles valores de estas
coordenadas angulares. Por lo tanto, todo lo dicho al respecto de la coordenada
angular α en la sección 5.3.1 para caracterizar un punto en el plano XY
anteriormente descrito, es extensible al diagrama ϕθ.
La interpretación del diagrama ϕθ se puede resumir en los siguientes
puntos:
- Fijado el color del iluminante, el haz de planos dicromáticos
correspondientes a los colores de cada objeto en la escena queda representado
por un conjunto de geodésicas en el diagrama ϕθ que se cruzan en un punto, el
color del iluminante, pudiéndose aproximar estas curvas en el diagrama ϕθ por
rectas.
Figura 5.5. Representación de colores depuntos sobre dos objetos reales en el
espacio ϕθ.
Color en ambientes naturales
145
- En la práctica los colores de las luces procedentes de la reflexión en la
superficie de un objeto no se disponen a lo largo de una sola geodésica, sino
que se distribuyen aproximadamente en una región alrededor de lo que sería la
geodésica media o mas representativa del objeto, quedando delimitada tal región
por dos geodésicas aproximadamente.
- Aproximando las geodésicas por rectas en el diagrama θϕ, cada punto del
plano se puede caracterizar por el ángulo α del segmento que une tal punto con
el punto correspondiente al color del iluminante. Para averiguar a que clase u
objeto de la escena pertenece tal punto bastará comprobar entre que dos curvas
que caracterizan a su correspondiente región se encuentra, asignando a la recta
que aproxima cada curva delimitadora de la región los ángulos α1 y α2, si
α1 ≤ α ≤ α2.
- Dentro de una misma región comprendida entre dos curvas
correspondientes a un objeto de la escena, los colores de los puntos mate sobre
la superficie del objeto son los mas alejados del punto correspondiente al color
del iluminante, que tal como se apuntó coincide con el espectro de reflexión
superficial del objeto. Los puntos correspondientes a reflejos sobre la superficie
del objeto son los puntos que se encuentran más cerca del color del iluminante
dentro de esta región, por poseer una gran componente del color de la reflexión
superficial del objeto.
Es necesario recordar que la representación del color en este espacio
direccional implica la omisión de la influencia que tiene la potencia total de
radiación recibida desde el iluminante sobre la superficie de los objetos de la
escena, evitando los efectos de la variabilidad espacial de la luz cuyos efectos
son zonas de luces y sombras, tan comunes en las escenas con iluminación
natural e incontrolada.
El tratar con las coordenadas ϕ y θ directamente tiene ciertas ventajas con
respecto al manejo de la información durante el proceso de análisis de imagen.
Esto es debido a que el rango de valores posible de cada una de ellas varia en
el intervalo [0,π ⁄ 2], al contrario que en el espacio XY donde las geodésicas eran
exactamente representadas por rectas, cuyos valores en este espacio podían caer
Estudios de análisis de imagen
146
dentro de un rango infinito. Aunque los ángulos en el intervalo [0,π ⁄ 2] toman
valores reales, éstos se pueden muestrear y representar en números enteros en el
intervalo [0,255], que corresponden a los valores posibles que puede tener un
píxel de una imagen codificado en ocho bits, que es lo mas usual, sin una gran
pérdida en la precisión de los datos. Esto permite guardar la información de las
coordenadas ϕ y θ de cada punto de valores (R,G,B) en dos imágenes, la imagen
ϕ y la imagen θ, teniendo la información almacenada de una manera sencilla y
accesible que no permitirían los valores del espacio XY mencionado.
5.2.3 El clasificador y el aprendizaje
El clasificador, tal como se apunto al principio de este apartado, clasificará cada
píxel de la imagen en una de las clases del conjunto previamente establecido en
donde cada clase representará un tipo y color de objetos en la imagen. El
clasificador aprenderá a asignar las clases a cada píxel de una imagen test a
partir de un conjunto de puntos previamente suministrados para un proceso de
aprendizaje y que a cada punto le acompañará, además de los valores del vector
de características que los definirá, una etiqueta perteneciente a la clase que el
analista le haya asignado de acuerdo a su criterio.
En este caso, cada punto de la imagen estará representado por un único
parámetro, el ángulo α correspondiente definido en el apartado 5.2.1, bien
considerando el espacio de representación XY allí descrito o el ϕθ asumiendo la
aproximación de las curvas geodésicas por líneas rectas. Utilizando un solo
parámetro para realizar la clasificación, el clasificador trabaja solo en un espacio
unidimensional, en donde las distribuciones de probabilidad de las clases serán
unidimensionales y las fronteras entre clases serán umbrales en la coordenada α.
Teniendo en cuenta que el parámetro α toma valores en un rango finito,
α∈ [0,2π), sería posible una búsqueda exhaustiva de los umbrales o fronteras de
las distribuciones de probabilidad de las diferentes clases definidas en este rango,
bien por un método de búsqueda por aproximación al umbral o bien
muestreando el intervalo [0,2π) para realizar esta búsqueda entre los valores
finitos posibles que tomaría el ángulo α.
Color en ambientes naturales
147
Teorema de Bayes y error de Bayes de una decisión
Utilizando la notación de Fukunaga (1990), se denotará por ωi, i= 1,..L el
conjunto de L clases definidas, la variable aleatoria en este caso será el
parámetro α, las probabilidades a priori de cada clase se denotarán por Pi y las
densidades de probabilidad condicional pi(α) , como la probabilidad de que un
punto tome el valor α siendo de la clase ωi. Con esta notación el teorema de
Bayes que define la probabilidad a posteriori qi(α) de que un elemento sea de
la clase ωi dado un valor α se expresa como
qi(α) = Pi pi(α)
∑ i= 1
L
Pi pi(α)
La regla de decisión de Bayes basada en la probabilidad a posteriori asigna
una clase ω; a un elemento a aquella clase en la que la probabilidad a
posteriori qi(α) del elemento dado con valor α sea mayor, es decir
ω(α) = ωj ; qi(α)= max qj(α)
, j= 1,..,L
Toda regla de decisión comporta un error. Para evaluar el error de una
decisión se debe calcular la probabilidad de error o probabilidad de que una
muestra se asigne a una clase errónea. El error total de la regla de decisión
anterior o error de Bayes ε se calcula como la esperanza del error condicional
debido a la decisión. El error condicional r(α) dado un valor α, en el caso de
que se tengan dos clases, ω1 y ω2, es el valor mínimo de la probabilidad a
posteriori de estas dos clases, es decir
r(α) = min [q1(α) ,q2(α)]
y su valor esperado
Estudios de análisis de imagen
148
ε = E[r(α)] = ∫ r(α) p(α) dα = P1 ∫ L2
p1(α) dα + P2 ∫ L1
p2(α) dα
donde p(α) = ∑ i= 1
L
Pi pi(α) ,y las regiones L1 y L2 sobre las que se extienden las
integrales son las regiones donde α se ha clasificado como ω1 o ω2
respectivamente por la regla de decisión.
En el caso de que se definan costes de decisión errónea, es decir, el coste
de que un elemento de valor α haya sido clasificado como perteneciente a la
clase ωi siendo realmente de la clase ωj, se puede comprobar que es equivalente
a cambiar adecuadamente las probabilidades a priori de cada clase, Pi, según una
regla descrita por Fukunaga (1990).
Muestreo del parámetro α
Para muestrear los valores del ángulo α definido para un píxel en la imagen, se
dividirá el intervalo [0,2π) en un número finito de puntos equidistantes N,
asignándole el valor discreto α de un píxel al valor más cercano αi i= 1,..N, de
los que se ha dividido el intervalo anterior.
Dado el conjunto de muestras para el entrenamiento o aprendizaje, cada
una de las muestras tendrá asociada un par de valores (αi,ωj), correspondientes
al valor de su ángulo αi de los definidos en el intervalo [0,2π) y la clase ωj a
que pertenece.
Fijadas o calculadas unas probabilidades a priori para cada clase Pj, las
densidades de probabilidad condicional pj(αi) de que, dada una clase ωj tome un
valor αi, i= 1,..N, se pueden estimar a través de las frecuencias de aparición de
las muestras de cada clase para un valor αi, es decir, a partir de los histogramas
de cada clase ωj sobre la variable αi, Hωj(αi). Una vez calculados los histogramas
de todas las clases, Hωj(αi) a partir del conjunto de muestras, la densidad de
probabilidad condicional de cada clase pj se puede estimar de la forma
Color en ambientes naturales
149
pj(αi) = Hj(αi)
∑ i= 1
N
Hj(αi)
La forma más usual de estimar las probabilidades a priori de cada clase Pj
es asignando la proporción de elementos que aparecen de esa clase, nj, respecto
al total de muestras en el conjunto de aprendizaje Nm , es decir,
Pi = nj
Nm
No obstante, el analista puede variar los valores de la probabilidades a
priori para conseguir los efectos deseados en relación a lo dicho sobre la
consideración de costes variables respecto a las decisiones erróneas.
Aprendizaje. Búsqueda del umbral óptimo
Dado que la variable sobre la que están definidas las densidades de probabilidad
descritas en la sección anterior es una variable discreta que puede tomar valores
finitos, sería posible la búsqueda exhaustiva de una partición del dominio del
rango en el que toma los valores esta variable que minimice el error de Bayes
asignando una clase a cada región producto de esta partición.
El problema es encontrar los umbrales α1j y α2j para cada clase ωj, los
cuales definan una región dentro del intervalo [0,2π) en la que se asigne a los
píxels cuyo valor del ángulo α sea tal que α1j< α< α2j, la clase ωj. Para
simplificar el problema, reduciremos el número de clases a dos, para evaluar los
umbrales que definen la región asignada a una clase en el intervalo [0,2π) y que
separan esta región del resto de las regiones en que se partirá el intervalo.
Dada una clase ωj, considérese el resto de clases ωk k= 1,..L , k≠ j, como
una sola clase, la complementaria ω__
j. La densidad de probabilidad condicional de
la clase ω__
j se estimará a partir de los histogramas de las clases ωk k≠ j, de la
forma
Estudios de análisis de imagen
150
pj_(αi) =
∑ k= 1
L
Hk(αi)
∑ k= 1
L
∑ i= 1
N
Hj(αi)
; k≠ j
Los umbrales izquierdo α1j y derecho α2j que delimitan la región Lj
perteneciente a la clase ωj del resto de regiones en el intervalo [0,2π) y que se
denotará como Lj_, son umbrales cuya partición
Lj,Lj
_ , minimizan el error de
Bayes.
Para encontrar estos umbrales se construye una densidad de probabilidad
condicional auxiliar para el cálculo de cada umbral por separado, con el fin de
realizar la búsqueda en un tiempo de cálculo lineal respecto a los N valores
posibles que pueden tomar estos umbrales α1j y α2j, ya que una búsqueda
exhaustiva de los dos umbrales por clase sería del orden de N2− N, es decir,
combinaciones de N elementos tomados de dos en dos evaluando en cada caso
dos posibles particiones.
Así, para definir la densidad de probabilidad condicional auxiliar del umbral
derecho pj2(α) , por ejemplo, se calcula previamente la media del histograma αmj
(figura 5.6a) perteneciente a la clase ωj de la forma
αmj =
∑ i= 1
N
αi Hj(αi)
∑ i= 1
N
Hj(αi)
Dado que la variable α es un ángulo y definido en el intervalo [0,2π), esta
variable es cíclica, es decir, un ángulo de valor α = 0 es equivalente a uno
α = 2π, con lo que tal intervalo no tiene unos límites definidos. Si tomamos
como nuevo origen de ángulos la media del histograma αmj, y considerando que
tales histogramas son unimodales, obtendremos un histograma que tendrá sus
valores principales cercanos a los dos extremos del intervalo (figura 5.6b).
Color en ambientes naturales
151
El considerar los histogramas
pertenecientes a una clase como uni-
modales es una aproximación factible
ya que, cada clase, que corresponde
a un tipo de objeto en la escena,
posee unos valores del color que en
la práctica se distribuyen alrededor
de una geodésica, la geodésica más
representativa del color de la superfi-
cie del objeto, geodésica a la cual le
corresponde un ángulo α en el espa-
cio direccional y por lo tanto los va-
lores de los colores de la luz refleja-
da desde la superficie del objeto se
distribuirán alrededor de este valor
medio, formando una distribución
aproximadamente unimodal.
Una vez se ha realizado el
cambio en el origen de ángulos, que
también habrá afectado a las densi-
dades de probabilidad condicional de
las diferentes clases, se define la
densidad de probabilidad condicional
p2j de la clase ωj para el cálculo del
umbral derecho α2j como
p2j(αi) =
pj(αi), i= 1,..N⁄20, i=N⁄2+ 1,..N
con lo que se obtiene una función
en la que todos los elementos de la
Figura 5.6b. Histograma de la figura 5.6a conorigen de la variable α en la media de la
distribución.
Figura 5.6a. Histograma de la variable α de loscolores de una clase.
Figura 5.6c. Histograma auxiliar a partir de lafigura 5.6b para calcular el umbral derecho α2.
α
H(α)
H(α)
H(α)
α 0 2π
0 2π
0 2πα
Estudios de análisis de imagen
152
clase ωj tendrán valores cercanos al origen (figura 5.6c).
El umbral derecho α2j de la clase ωj será aquel valor αi, i= 1,..N, tal que
minimice el error de Bayes de la partición que se define como
αk, k= 1,..,i a la clase ωj
αk, k= i+ 1,..,N a la clase ωj_
y cuyo error de Bayes, considerando αi como el umbral, tiene la expresión en
forma discreta
ε = Pj_ ∑ k= 1
i
pj_(αk) + Pj ∑
k= i+ 1
N
pj(αk)
donde Pj y Pj_, son respectivamente las probabilidades a priori de la clase ωj y su
complementaria ωj_.
Para calcular el umbral izquierdo α1j, se procede de forma similar pero
utilizando como densidad de probabilidad condicional auxiliar del umbral
izquierdo p1j la función definida como
p1j(αi) =
0, i= 1,..N⁄2 pj(αi), i=N⁄2+ 1,..N
y las particiones para cada αi, i= 1,..N,
como
αk, k= 1,..,i a la clase ωj
_
αk, k= i+ 1,..,N a la clase ωj
eligiendo como umbral izquierdo α1j,
aquel valor αi cuya partición minimice el
error de Bayes cuya expresión en este
caso esFigura 5.7. Partición del espacio ϕθ en tres
clases de color.
Color en ambientes naturales
153
ε = Pj ∑ k= 1
i
pj(αk) + Pj_ ∑
k= i+ 1
N
pj_(αk)
Finalizado el cálculo de los umbrales α1j y α2j que delimitan la región
asignada a la clase ωj, se realiza el mismo procedimiento para el cálculo de las
regiones dentro del intervalo [0,2π) para las L− 1 clases restantes. Al final del
proceso se obtiene una partición del intervalo dominio del ángulo α, que
corresponde, por ejemplo en el caso de tres clases, a una partición en el espacio
direccional con un aspecto como el que ofrece la figura 5.7, siendo el punto
intersección de las rectas separadoras de las regiones el punto correspondiente al
color de iluminante, y las rectas separadoras entre regiones a sus
correspondientes ángulos umbrales encontrados en el proceso de aprendizaje.
En resumen, el proceso de entrenamiento del clasificador dado un conjunto
de muestras de aprendizaje es el siguiente:
1- Muestrear los valores de α∈ [0,2π) en un número N de puntos equidistantes αi,
i= 1,..,N. Asignar a cada muestra el valor αi más cercano a su correspondiente valor
del ángulo α original.
2- Calcular los histogramas Hj(αi) para cada una de las L clases presentes en el
conjunto de aprendizaje.
3- Definir las densidades de probabilidad condicional de cada clase pj(αi) a partir de
sus correspondientes histogramas.
4- Para cada clase ωj, j= 1,..L calcular los umbrales izquierdo α1j y derecho α2j
utilizando sus correspondientes densidades de probabilidad condicional auxiliares p1j y
p2j.
Realizado el proceso de aprendizaje, la clasificación de un píxel al que
corresponda un ángulo α en el espacio direccional, se efectuará asignándole la
clase ωj tal que α esté comprendido entre los umbrales asignados a tal clase, es
decir
ω(α) = ωj ⁄ α1j≤ α< α2j, j= 1,..L
Estudios de análisis de imagen
154
5.4 Implementación
En el proceso de segmentación en color se ha utilizado el espacio ϕθ y no el
espacio XY por las consideraciones ya descritas en el apartado 5.2.2 sobre los
rangos de las coordenadas y sobre todo por que en el espacio ϕθ la distribución
de los puntos dentro de un mismo plano dicromático, es decir, de su
correspondiente geodésica, es mucho mas uniforme, comportándose mucho mejor
el clasificador en el proceso de aprendizaje, ya que en el espacio XY la mayor
parte de la información sobre la superficie de un mismo objeto se encuentra
muy concentrada cerca del punto correspondiente al iluminante, confundiéndose y
solapándose con la de los otros objetos de la escena.
Previamente al cálculo del valor del ángulo α de un punto en el diagrama
ϕθ respecto del color del iluminante, se calculan los valores ϕ y θ de cada píxel
de una imagen en color convirtiéndolos de su valor original en el intervalo
[0,π ⁄ 2] a su correspondiente valor en un rango [0,255] almacenándolos en dos
imágenes, la imagen ϕ y la imagen θ. Posteriormente se calcula el
correspondiente valor α de cada píxel respecto a las coordenadas (ϕ0,θ0) del
color del iluminante mediante la operación
α = arctan θ − θ0
ϕ − ϕ0
El color del iluminante es un parámetro que se supone calculado a priori y
que entra dentro de la calibración del sistema, ya que, además de depender de
la distribución de potencia espectral de la luz que emite el iluminante, sea el sol
o una lámpara de flash, depende de los filtros que lleve la cámara de video
utilizada y de la calibración de ésta respecto a la amplitud relativa de las señales
RGB que genere, ya que estas señales se pueden ajustar electrónicamente. Por
todos estos motivos la representación del color del iluminante en el espacio de
representación es un parámetro a precisar como parte de la calibración del
sistema.
Color en ambientes naturales
155
No es objetivo de este trabajo desarrollar una metodología de cálculo
automático del color del iluminante a partir de imágenes de escenas dadas, tal
como en trabajos realizados por diversos autores (Lee, 1986; Maloney &
Wandell, 1986; Gershon, 1987; Ho et al, 1990) , sino calcularlo e introducirlo
directamente como simple dato en la calibración del sistema. Para ello el
procedimiento utilizado se basa en que el espectro de la reflexión superficial en
materiales de índice de refracción aproximadamente constante coincide con el de
la iluminación incidente.
Dado que los metales sólo poseen, en buena aproximación, reflexión
superficial, el color del iluminante se calcula situando en la escena un objeto
cilíndrico o esférico de metal, adquiriendo una imagen en la que quedan
registrados los valores de los vectores de color correspondientes a la luz
reflejada por los puntos de la superficie del metal. Se utiliza un objeto cilíndrico
o esférico para asegurar que la luz incidente sobre la superficie del metal lo
haga en todos los ángulos de incidencia posibles, obteniendo así una información
más completa. Una vez adquirida la imagen, suponiendo que el sensor de la
cámara no se haya saturado en ninguna de las bandas R, G o B, el color del
iluminante se escoge como el valor medio de los puntos en cada una de las
bandas RGB de la región en la imagen perteneciente a la superficie del objeto
metálico y que se selecciona manualmente.
Para las muestras en el proceso de aprendizaje, una vez los valores del
ángulo α de cada píxel muestra ha sido calculado, se les hacía corresponder uno
de los 360 valores en que el intervalo [0,2π) se dividió para el proceso de
entrenamiento, obteniendo así un precisión de un grado, que como veremos es
suficiente. Los píxels que sirvieron como muestras de color para el aprendizaje
del clasificador se obtienen segmentando manualmente, de imágenes en color,
regiones a las que se les atribuye un determinado color asignándoles su
correspondiente etiqueta a los píxels de esa región. Los datos se trasladan a
ficheros ASCII en los que en cada línea figuran las coordenadas ϕ y θ de un
píxel muestra acompañado de su correspondiente etiqueta de color asignada por
el analista en el proceso de extracción de muestras.
Estudios de análisis de imagen
156
Después del proceso de aprendizaje donde se determinan para cada clase
ωj, j= 1,...,L , los umbrales izquierdo, α1j, y derecho, α2j, el algoritmo de
segmentación de una imagen tiene la siguiente forma
Para cada píxel (R,G,B) de la imagen
ϕ = arctan
GR
θ = arctan√R2+ B2
B
;
α = arctanθ− θ0ϕ− ϕ0
;
Asignar clase ωj al píxel cuyo valor α cumple
α1j ≤ α ≤ α2j;
fin, Para;
Al final del proceso se obtiene una imagen segmentada por medio de la
clasificación de sus píxels a través de una sola coordenada, α, donde las regiones
en la imagen segmentada las constituyen los píxels conexos que poseen la misma
etiqueta o clase asignada.
5.4 Comprobación del método y discusión
Las pruebas sobre la segmentación en color desarrollada y aquí descrita, fueron
realizadas con tres propósitos. Además de evaluar el método, en primer lugar se
comprobará experimentalmente que el modelo de reflexión de la luz adoptado
que condujo a la interpretación del espacio direccional a partir de los planos
dicromáticos, corresponde a lo que ocurre en un problema real. En segundo
lugar evaluar el método de segmentación sobre escenas naturales relacionadas
con el tema que motivó la realización de este trabajo. Por último comparar los
resultados que obtiene el clasificador utilizado en este trabajo con alguno de los
Color en ambientes naturales
157
clasificadores más comunes utilizados en reconocimiento de formas aplicándolos
al espacio de representación en color definido.
5.5.1 Geodésicas en el espacio direccional
Con el fin de comprobar como se distribuyen los colores de un mismo objeto en
el espacio direccional ϕθ definido, así como las características de estas
distribuciones a partir de la interpretación del modelo de reflexión dicromático
en este espacio direccional, se han representado los valores de los píxels de un
imagen de bolas de diferentes colores en el espacio ϕθ. Se han elegido este tipo
de objetos porque al ser esféricos, se asegura que el ángulo de incidencia sobre
los puntos de su superficie, cubren todos los valores posibles, ya que una
superficie esférica tiene vectores normales a puntos de su superficie en todas las
direcciones, pudiendo encontrar puntos de la superficie de un mismo objeto con
diferentes valores de las componentes de reflexión superficial y del cuerpo, para
apreciar bien como se distribuyen estos puntos en el espacio de representación.
En la figura 5.8 se muestra la representación en el diagrama ϕθ de los va-
lores correspondientes a los colores RGB registrados de una escena de varias bo-
las de diferentes colores y de
color uniforme en toda su su-
perficie (figura 5.9). Aquí se
puede observar como los pun-
tos correspondientes a una mis-
ma superficie se distribuyen
aproximadamente alrededor de
su correspondiente geodésica
más representativa y que se
distribuyen formando unas cur-
vas de la forma representada
en la figura 5.5, correspondien-
te a las curvas resultante de la
representación de las geodésicas
en el espacio direccional, geo-
Figura 5.8. Representación en el espacio ϕθ de loscolores de bolas que aparecen en la figura 5.9.
Estudios de análisis de imagen
158
désicas que representan sus correspondientes planos dicromáticos en el espacio
RGB.
Se puede observar como en realidad los colores de una misma superficie
no se distribuyen a lo largo de una sola de estas curvas, puesto que esto
representaría el caso ideal, sino que se dispersan alrededor de una de ellas
formando una región cuyos limites se pueden obtener mediante dos de estas
geodésicas. Nótese que, tal como se había previsto, todas las distribuciones
apuntan a un punto, el color del iluminante, donde se cruzan las geodésicas en
el diagrama ϕθ. Los puntos mas cercanos al color del iluminante son los
correspondientes a los puntos reflejo en la zona en que la reflexión superficial
es manifiesta, los demás puntos más alejados son los puntos mate.
Tal como se ha visto, la interpretación del color realizada a partir del
modelo reflexión dicromático en el espacio de color definido, se ajusta con
bastante exactitud a los fenómenos de reflexión en objetos reales.
Figura 5.9. Imagen de bolas de color uniforme iluminadas con luz fluorescentedel laboratorio. Entre ellas aparece un objeto metálico de superficie cilíndrica.
Color en ambientes naturales
159
Figura 5.10b. Segmentación de la imagen de la figura 5.10a por el métododesarrollado.
Figura 5.10a. Imagen de una escena de naranjas con iluminación natural.
Estudios de análisis de imagen
160
Figura 5.11a. Imagen de una escena de naranjas con iluminación natural.
Figura 5.11b. Segmentación de la imagen de la figura 5.11a por el métododesarrollado.
Color en ambientes naturales
161
Figura 5.12a. Imagen de una escena de naranjas con iluminación natural.
Figura 5.12b. Segmentación de la imagen de la figura 5.12a por el métododesarrollado.
Estudios de análisis de imagen
162
5.5.2 Segmentación de escenas naturales
Para verificar la validez del método en ambientes naturales se utilizaron 15
imágenes en color RGB de escenas de naranjas en su ambiente natural con luz
diurna y cielo despejado, con una resolución de 256 x 256. De estas 15 imágenes,
4 se utilizaron para extraer muestras mediante el procedimiento descrito en el
apartado 5.3, para realizar el aprendizaje del clasificador. Las muestras se
dividieron en tres clases, la clase naranjas, hojas y cielo.
Durante el proceso de aprendizaje se tomó como color del iluminante el
color blanco perteneciente a la recta de grises en el espacio RGB, ya que las
mediciones realizadas por el procedimiento descrito en el apartado 5.3 se
aproximaban mucho a este valor (ϕ0= 45°,θ0= 54,7°). Tras el aprendizaje del
clasificador, calculando la partición del dominio de los valores del ángulo α de
cada punto en el diagrama ϕθ, se asignaron los siguientes valores de α para las
diferentes clases
90° ≤ α < 123°, clase naranjas
0° ≤ α < 90°ó
349° ≤ α < 360°
, clase hojas
123° ≤ α < 349°, clase cielo
Con estos valores para el clasificador, las restantes 11 imágenes fueron
segmentadas clasificando cada uno de sus píxels de acuerdo a estos parámetros.
El resultado obtenido se puede observar a lo largo de las figuras 5.10 a 5.12, en
las que se muestran en las 5.10a a 5.12a las imágenes originales en color de
entre las 11 utilizadas como test, imágenes en las que se puede observar los
efectos de la iluminación natural de aparición de reflejos en la superficie de los
objetos, zonas de sombra y variabilidad de la intensidad de la iluminación en
diferentes lugares de la escena; y en las 5.10b a 5.12b la segmentación obtenida.
En las imágenes segmentadas, los píxels pertenecientes a la clase naranjas
se muestran en color rojo, los de la clase hojas en verde y los de la clase cielo
en azul. En estas imágenes podemos observar, además de una segmentación
Color en ambientes naturales
163
bastante exacta de sus respectiva imágenes originales, como los puntos reflejo
correspondientes a la superficie de un mismo objeto que sus puntos mate han
sido asignados al mismo color, tal como se pretendía; esto se puede apreciar
mejor en algunas naranjas que poseen una marcada región con reflejos, como las
de la imagen de la figura 5.11. Con esto se viene a demostrar como el método
de segmentación empleado consigue tratar los reflejos asignándolos correctamente
a su correspondiente objeto, evitando los efectos espúreos que estos reflejos
provocan en el tratamiento de imágenes con iluminación natural e incontrolada.
El otro efecto que se puede observar es que tanto objetos con iluminación
directa como objetos en zonas de sombra han sido segmentados correctamente,
asignándoles el mismo color, tal como se puede apreciar en las figuras 5.10 y
5.12. Mas concretamente en la figura 5.10 se encuentran varios frutos en los que
parte de su superficie se encuentra iluminada directamente y parte se encuentra
en una zona de sombra. En su correspondiente segmentación se puede observar
como tanto los puntos de la zona de sombra como la de iluminación incidente
han sido asignados correctamente y al mismo color, con lo que queda de
manifiesto la cualidad del método de poder segmentar las imágenes
independientemente de la potencia total de la luz que ilumina los objetos,
evitando el problema de variabilidad espacial en la iluminación tan característica
en escenas naturales.
5.5.3 Comparación con otros clasificadores
Para poder comparar el error de clasificación del clasificador empleado en el
espacio de representación definido, se han utilizado tres tipos de clasificadores
basados en principios totalmente diferentes para evaluar el comportamiento de
estos clasificadores utilizando el mismo espacio de representación, el diagrama
ϕθ, y el mismo conjunto de muestras de aprendizaje y muestras test.
Las muestras de aprendizaje fueron las utilizadas en el apartado anterior
para encontrar los parámetros del clasificador para segmentar las imágenes test,
cuyo número total fue de 19164, de las cuales 7838 pertenecían a la clase
naranja, 7407 a la clase hojas y 3839 a la clase cielo. Las muestras test para
Estudios de análisis de imagen
164
evaluar los errores de clasificación cometidos por los respectivos clasificadores se
extrajeron del mismo modo que las muestras de aprendizaje pero a partir de la
11 imágenes test restantes.
Los clasificadores utilizados fueron: una red neuronal, un conjunto de
prototipos utilizando la regla del vecino mas próximo y un árbol de clasificación
binario. La red neuronal utilizada (Moltó & Harrell, 1992) se entrenó con el
algoritmo de retro-propagación de Rumelhard & MacClelland (1986) y constaba
de una capa oculta de un nodo, además de la capa de entrada (2 nodos) y la de
salida (3 nodos). El coeficiente de aprendizaje η fue de 0,075, y el aprendizaje
se realizo en 1000 iteraciones.
El clasificador por el vecino más próximo (VP) se implementó sobre un
conjunto de prototipos reducido extraído a partir del conjunto de aprendizaje
inicial por medio de la técnica del multieditado-condensado (Ferri & Vidal,
1992), y cuyos prototipos finales fueron los representados en la figura 5.13.
Por último se utilizó un árbol de clasificación binario como el que se
describe en el capítulo 7 de este trabajo. El árbol se construyó con el método
del crecimiento por mínimo error que allí se expone, utilizando 1 ⁄ 3 de las
Figura 5.13. Conjunto de prototipos utilizados en elclasificador por el vecino mas próximo.
Color en ambientes naturales
165
muestras del conjunto de aprendizaje para generar las particiones y los 2 ⁄ 3
restante para conducir el crecimiento del árbol. La partición de este conjunto se
realizó de manera aleatoria, dando como resultado un árbol de 47 nodos
terminales.
En la tabla 5.1 se muestran los resultados de los errores de clasificación
obtenidos sobre el mismo conjunto test para todos los clasificadores empleados.
El conjunto test constaba de 77928 elementos, de los cuales 14118 pertenecían a
la clase naranja, 54585 a la clase hojas y 9225 a la clase cielo. El error total de
clasificación se estimó como el número total de muestras mal clasificadas
respecto del total de muestras de conjunto test. Los diferentes errores de cada
clase se estimaron como el número de muestras mal clasificadas de cada clase
respecto al número total de muestras presentes en el conjunto test de la clase
en cuestión.
A partir de la tabla 5.1 podemos observar, en primer lugar, como en
general todos los clasificadores han obtenido resultados muy buenos, con errores
totales menores del 4 %. Esto viene a demostrar lo acertado del espacio de
representación de color definido, en el que las distribuciones de los colores de
diferentes objetos se encuentran poco solapadas, facilitando la clasificación y
produciendo buenos resultados.
En segundo lugar, podemos observar como el clasificador por umbral en el
ángulo α, desarrollado en este trabajo, es el que da mejores resultados, cuyo
error del orden del 1 %. Recordemos que este clasificador utiliza una sola
coordenada, pudiendo realizar segmentación en color calculando un sólo
Clasificador naranjas (%) hojas (%) cielo (%) Total (%)
Umbral en α 3,6 0,37 0,16 0,92
Red neuronal 4,3 3,7 0,13 3,5
VP 2,0 2,7 0,16 2,3
Árbol binario 3,7 3,2 0,15 2,9
Tabla 5.1. Resultado de los diferentes clasificadores sobre los conjuntos de muestras de color enel espacio ϕθ.
Estudios de análisis de imagen
166
parámetro de cada píxel de la imagen, todo ello previa calibración del sistema
midiendo el color del iluminante. Este clasificador da mejores resultados porque
ha sido diseñado de forma especifica para este problema de color, aprovechando
todas las particularidades del espacio de representación de acuerdo a los
objetivos buscados, segmentación independiente de la variabilidad de iluminación
y asignación de reflejos a su correspondiente objeto.
Con la caracterización del color de los objetos presentes en las escenas se
finaliza el estudio de las propiedades relativas a los objetos de interés, los frutos,
cuyo modelo utilizado en la extracción de sus propiedades geométricas fue la
superficie de una esfera. Junto con las propiedades de concavidad, forma
elipsoide de la representación imagen de las esferas, y los contornos circulares
que las caracterizan, el color es el elemento que completa el conjunto de
características para poder realizar una interpretación de las escenas que se
presentan durante la recolección, para el reconocimiento y localización de los
frutos como objetivo final de un sistema de visión en un robot recolector. En
los próximos capítulos se abordarán los aspectos relativos al cálculo de la
distancia al fruto y el de la utilización de un método de interpretación de la
imagen una vez extraídos de sus correspondientes regiones los parámetros a los
que se ha hecho mención, completando con ello la parte dedicada de este
trabajo al estudio de técnicas de análisis de imagen.
Color en ambientes naturales
167
Capítulo 6
MEDIDAS DE DISTANCIA.
ESTEREOSCOPIA
La información de rango o distancia es uno de los problemas en robótica,
sobre todo en robótica móvil, bien para el seguimiento de trayectorias en guiado
o para la detección de obstáculos con el fin de sortearlos. En otras aplicaciones
en el campo de la robótica la información de la distancia se utiliza para la
localización espacial de los objetos que el robot pretende manipular, aunque en
algunas aplicaciones esta información no es necesaria debido a que los objetos
están situados en ambientes controlados y se conoce su posición exacta a priori,
sobre todo en aplicaciones industriales de montaje de piezas asistido por robots.
Existen varios métodos y tipos de sensores para averiguar la distancia a un
objeto, como la triangulación por láser, sensores infrarrojos, sensores de
ultrasonidos, etc. Todos estos procedimientos, o bien precisan de un entorno
controlado para su implementación, o bien solo son aplicables para ciertos
rangos de distancias, normalmente cortos (ultrasonidos, infrarrojos), perdiendo su
exactitud fuera de estos rangos. La estereoscopia o visión binocular es otro de
los métodos posibles para el cálculo de la distancia a un objeto, utilizando el
principio de triangulación entre dos imágenes adquiridas por sendas cámaras
desde ángulos diferentes y cuya única condición es tener establecida una
correspondencia entre los puntos u objetos de las dos imágenes.
El problema de la localización de objetos para su manipulación por un
robot en ambientes naturales e incontrolados exige la utilización de un sistema
del cálculo de la distancia que precise las menores restricciones posibles para su
realización con respecto a la dependencia de factores externos al propio sistema.
La estereoscopia es un método de determinación del rango o distancia de
naturaleza estática, se limita a recoger las señales que proceden de los objetos
de la escena sin ninguna aportación por parte del sistema en si, no como ocurre
con los láseres o cualquier sensor cuyo principio se basa en la emisión de una
señal para que, al volver a recibirla, sea comparada con la emitida, extrayendo
de aquí la información buscada. Por estas razones la estereoscopia es una
metodología apropiada para estimación de distancias en aplicaciones de robótica
en un amplio rango de distancias, sobre todo en entornos en los que la
interacción con el medio es difícil o imposible.
En un robot recolector de frutos, la distancia a los frutos no es un
parámetro imprescindible para poder llegar hasta ellos, tal como se ha venido
mostrando a lo largo de los trabajos realizados en robótica de recolección por
los diferentes autores (Harrell et al, 1990; Blandini & Levi, 1989; Grand d’Esnon
et al, 1987; Juste et al, 1991). No obstante, el conocimiento de ella evitaría
varios problemas presentes en la recolección robotizada. El principal problema
reside en que desconociendo la distancia a un fruto no se sabe a priori si el
fruto esta dentro del campo de acción del brazo o por el contrario si el brazo
no puede alcanzarlo. A lo largo de los ensayos realizados en este proyecto, las
estadísticas nos revelan que el 29 % de los frutos detectados por el sistema de
visión están fuera del alcance del robot. Dado que el coordinador de tareas del
robot no conoce esta circunstancia, a cada fruto detectado le sigue un intento
para atraparlo, que en el caso de frutos lejanos o fuera de alcance se produce
una pérdida de tiempo y rendimiento en la operatividad del robot. Por otra
parte, en los prototipos implementados dentro de este proyecto, para atrapar el
fruto se lanza el brazo en la dirección calculada a través de la imagen captada
por una cámara, averiguando la proximidad del fruto por medio de un sensor de
infrarrojos situado al final del brazo.
El conocimiento de la distancia al fruto podría también facilitar la
estimación del tamaño real del fruto, pudiendo realizar una recolección más
selectiva, y también permitiría una colocación diferente de las cámaras, ya que
con una sola cámara es imprescindible que ésta esté situada en el centro de
coordenadas del robot. El conocimiento de la localización espacial del fruto
permitiría asimismo el cálculo de trayectorias del movimiento del robot así como
Estudios de análisis de imagen
170
sus perfiles de aceleración con más exactitud, ya que conociendo solo la
dirección del fruto, la trayectoria posible para alcanzarlo es única y el perfil de
aceleración del brazo comienza pero no se sabe de antemano cuando termina.
Dentro de recolección robotizada Sandini et al (1991) fueron unos de los
primeros en abordar el problema de la distancia en este campo. Su método se
basaba en un sistema estereoscópico en la visión de un robot para desarrollar
tareas en cultivos de invernadero. Sandini et al (1991) utilizaron dos cámaras
cuyos ejes ópticos formaban cierto ángulo, convergiendo a una distancia
alrededor de la distancia media a la que operaba el robot. La elección de esta
disposición pretendía utilizar al máximo la zona de la imagen aprovechable para
el cálculo de la distancia en el rango de distancias en que se trabajaba, aunque
de esta forma se perdiera un poco de precisión en comparación con la
disposición de cámara con ejes ópticos paralelos.
La elección de la configuración geométrica del sistema estereoscópico no es
un problema importante, cada una tiene sus ventajas e inconvenientes respecto a
la complejidad del cálculo y sobre todo para la tarea de la correspondencia
entre las dos imágenes obtenidas de una misma escena. La identificación de los
puntos u objetos de la escena en una de las imágenes buscando su
correspondencia en la imagen que proporciona la otra cámara es el principal
problema a resolver en un sistema estereoscópico. Calculado el correspondiente
punto de una imagen en la otra, la determinación de la distancia o coordenadas
espaciales es un simple problema de geometría.
Tradicionalmente los métodos de búsqueda de la correspondencia entre
puntos se realiza para cada punto de la imagen independientemente, marcando
una ventana o vecindario alrededor del punto y buscando su correspondiente por
medio de una correlación en la otra imagen (Pratt, 1974) o por medio de un
algoritmo de detección de similitud secuencial (Barnea & Silverman, 1972). Este
tipo de técnicas, llamadas de estereoscopia basada en áreas, producen gran
cantidad de imprecisión en la correspondencia.
La utilización de las relaciones entre puntos de una imagen en la búsqueda
de sus correspondientes aporta un mayor grado de exactitud en la determinación
de la correspondencia que cada punto independientemente. Los contornos de las
Medidas de distancia. Estereoscopia
171
imágenes, comúnmente extraídos a partir de cambios notables en los niveles de
gris de un vecindario, contienen mucha mas información y mas relevante con el
fin de llegar a una correspondencia eficaz. A partir de los trabajos de Marr &
Poggio (1979), esta idea ha sido utilizada de forma generalizada por varios
autores, utilizando operadores de extracción de bordes como el "sombrero
mejicano", asignado luego una serie de características a cada punto.
Para realizar la correspondencia partiendo de puntos pertenecientes a
contornos, existe una gran variedad de algoritmos los cuales se encuentran
recopilados en el trabajo de Dhond & Aggarwal (1989), diferenciándose, en
primer lugar, en el conjunto de restricciones que se asumen para resolver
ambigüedades. Así Grimson (1986) impone la continuidad de regiones para
comprobar disparidades; o Mayhew & Frisby (1981) utilizan la restricción de la
continuidad de superficies, utilizando la información de varios canales de
información de la extracción de bordes en paralelo, a diferencia de Marr &
Poggio que lo hacían de forma secuencial.
Existen otras técnicas de correspondencia que utilizan procesos de
relajación, realizando la correspondencia de forma iterativa a partir de la
asignación de una probabilidad de correspondencia entre dos puntos candidatos,
la cual evoluciona iterativamente a partir de la probabilidad que tienen asignada
sus vecinos (Barnard & Thompson, 1980; Kim & Aggarwal, 1987). Los puntos
nodo o puntos donde se determinan la correspondencia también se determinaban
a partir de la extracción de contornos.
Ayache (1989) trabajó algoritmos de visión binocular basados en la
aproximación de contornos mediante poligonales, utilizando relaciones y
propiedades de ligadura entre los segmentos para encontrar una correspondencia.
Últimamente, Takeo & Hachiyama (1991), utilizan métodos de
correspondencia más aplicados al problema de la robótica, buscando su posible
utilización en tiempo real. Estos autores utilizan la diferencia de los valores del
nivel de gris de los píxels entre las líneas de ambas imágenes, desplazando cada
vez la posiciones relativas de los puntos de una línea respecto a la otra para
encontrar los puntos correspondientes.
Estudios de análisis de imagen
172
Existe también lo que se llama correspondencia basada en regiones, es
decir, a partir de una segmentación o división en regiones de ambas imágenes se
realiza una correspondencia entre regiones. Dentro de esta línea, Marapane &
Trivedi (1989), a partir de una segmentación por crecimiento de regiones,
asignaban a cada región un conjunto de características. A estas regiones se les
asignaba su correspondiente tras evaluar una medida de similitud consistente en
el cálculo de la distancia euclídea entre los vectores de características de cada
región. El método que se desarrolla en este trabajo sigue la filosofía de este
tipo de técnicas.
En este capítulo se describen las características del sistema estereoscópico
empleado para calcular la distancia a los frutos, así como el método desarrollado
para realizar la correspondencia. En el apartado 6.1 se expone la disposición de
las cámaras y los motivos de su elección. Seguidamente (apartado 6.2) se
muestra la metodología desarrollada para realizar la correspondencia entre
objetos presentes en ambas imágenes. En el apartado 6.3 se describe la
implementación del método y el algoritmo utilizado, y por último se muestran
los resultados obtenidos en los experimentos realizados en la medida de
distancias y el proceso de correspondencia en ensayos de laboratorio y en
escenas de frutos en condiciones naturales.
6.1 El sistema estereoscópico. Disposición geométrica
En general un sistema estereoscópico binocular (figura 6.1) consta de dos
sistemas ópticos con sus correspondientes ejes ópticos orientados relativamente
de forma general. Un punto P del espacio objeto tiene su punto imagen P1 en
el sistema 1 situado en el plano imagen en el punto intersección de la recta que
pasa por el punto P y el centro óptico del sistema, C1, con el plano imagen.
Análogamente ocurre con la imagen del punto P en el sistema 2, P2, con su
correspondiente centro óptico C2. El punto correspondiente a P1 en la imagen 2
es el punto P2 y viceversa. Ambos puntos se encuentran situados en unas rectas,
DE1 y DE2 dentro del plano imagen correspondiente llamadas rectas epipolares,
Medidas de distancia. Estereoscopia
173
definidas como la intersección entre el plano que forman las rectas PC1____
y PC2____
con los planos imagen. A las rectas epipolares DE1 y DE2 se les denomina rectas
epipolares conjugadas.
Al punto imagen a través del sistema óptico 2 del centro óptico C1 se le
denomina epipolo de la imagen 2, E2; y de manera análoga el epipolo de la
imagen 1, E1. En el caso general, todas las rectas epipolares posibles en el plano
imagen 1 cruzan el epipolo E1 formando un haz de rectas en el plano imagen 1;
análogamente ocurre con el plano 2.
En el caso particular de que los ejes ópticos de los dos sistemas sean
paralelos, la recta que forman los centros ópticos C1C2 es paralela a los planos
imagen y por lo tanto los epipolos E1 y E2 se encuentran en el infinito, con lo
que los haces de rectas epipolares en los planos imagen son líneas paralelas
(figura 6.2), y dos rectas epipolares conjugadas poseen la misma dirección en
ambos planos imagen.
6.1.1 Sistema estereoscópico de ejes ópticos paralelos
Un sistema estereoscópico no convergente consiste en dos cámaras fijas en una
base separadas una cierta distancia y cuyos ejes ópticos son paralelos. Estos
Figura 6.1. Sistema estereoscópico.
Estudios de análisis de imagen
174
sistemas tienen la ventaja respecto a los sistemas estereoscópicos con ejes ópticos
convergentes de que poseen ciertas propiedades específicas que simplifican el
cálculo de las coordenadas espaciales del punto objeto y la búsqueda de la
correspondencia entre los puntos de las imágenes que proporcionan ambas
cámaras. Un inconveniente de estos sistemas reside en que, para ciertas
configuraciones en que las escenas se encuentran a una distancia demasiado
próxima a las cámaras, se pierde ángulo de visión, pudiendo solo realizar la
correspondencia en una zona reducida de las imágenes. No obstante, eligiendo la
configuración adecuada (distancia entre bases, focal de las lentes, etc) para
ciertos problemas en particular, este efecto se minimiza.
En la figura 6.3 se muestra el modelo de un sistema estereoscópico de ejes
ópticos paralelos, en los que el plano imagen ha sido reflejado a través de su
focal, consiguiendo una imagen no invertida de la escena, tal como ocurre en los
sistemas ópticos de las cámaras.
En esta representación un punto cualquiera en el espacio P está
representado por las coordenadas (x,y,z) respecto al sistema de coordenadas
principal situado en el centro óptico de la cámara izquierda, con el eje z en la
dirección del eje óptico y el plano xy coincidiendo con el plano imagen. El
centro óptico de la cámara derecha está situado en la posición (b,0,0), siendo b
la distancia de base entre los ejes ópticos de las dos cámaras. El sistema de
coordenadas de la imagen izquierda (xL ,yL), tiene su origen situado en el punto
Figura 6.2. Rectas epipolares en un sistema estereoscópico de ejesópticos paralelos.
Medidas de distancia. Estereoscopia
175
(0,0,f) respecto al sistema de coordenadas principal, donde f es la focal del
sistema óptico, focal igual a la del sistema óptico derecho (xR,yR) cuyo origen de
coordenadas se encuentra situado en el punto (b,0,f).
Cada punto P del espacio objeto se proyecta sobre los planos imagen
izquierdo y derecho definidos por la intersección de las líneas que unen el punto
P y los centros ópticos de ambas cámaras con los planos imagen situados en las
posiciones anteriormente mencionadas. Si un punto P de coordenadas espaciales
(x,y,z) le corresponde, respectivamente, en el plano imagen izquierdo y derecho
los puntos (xL ,yL) y (xR,yR), por las propiedades geométricas de triángulos
semejantes, la expresión de las coordenadas de los puntos en los planos imagen
tiene la forma
xL = f xz
xR = f (x − b)
z
yR = yL = f yz
Figura 6.3. Sistema de ejes coordenados en un sistema estereoscópico de ejesópticos paralelos.
Estudios de análisis de imagen
176
Definiendo la disparidad d entre dos puntos correspondientes en los dos
planos imagen como la diferencia entre el valor de sus abcisas respecto de sus
correspondientes sistemas de coordenadas en sus planos imagen, d = xL − xR, Las
ecuaciones de perspectiva inversa que nos definen la posición del punto en el
espacio objeto, (x,y,z), a partir de sus coordenadas en ambos planos imagen,
resultan de las ecuaciones anteriores
x = b xL
d
y = b yL
d
z = b fd
Estas ecuaciones son la base para derivar la información de la estructura
tridimensional de la escena a partir de un sistema estéreo de estas
características.
6.1.2 Error en la medida de un sistema estéreo de ejes ópticos
paralelos
Para el diseño de la configuración de un sistema estéreo es necesario la elección
de varios parámetros: la focal de la lente de las cámaras, el intervalo de
muestreo en la imagen, la distancia de base entre ejes ópticos y la distancia o
rango de distancias de las escenas a tratar respecto de las cámaras. Todos estos
parámetros no se pueden elegir independientemente, ya que es necesario llegar a
un compromiso para resolver el conflicto que existe entre la exactitud en la
correspondencia y la exactitud en la estimación de la distancia. Para realizar una
correspondencia lo más exacta posible evitando la oclusión de parte de los
objetos de una imagen respecto a la otra, el producto distancia de base por la
focal de la lente debe ser pequeño. Por el contrario, una estimación de la
distancia más exacta precisa que ese producto sea grande. Por otra parte, la
mejora en la estimación de la distancia puede conseguirse a través de un
intervalo de muestreo menor en las imágenes, pero esto es normalmente una
limitación impuesta por las características físicas del elemento sensor.
Medidas de distancia. Estereoscopia
177
La predicción del error de un sistema estereoscópico es un tema que ya ha
sido abordado por diversos autores (Verri & Torre, 1986; Blostein & Huang,
1987). Uno de los últimos trabajos al respecto (Rodriguez & Aggarwal, 1990)
utiliza análisis estocástico para formular una expresión del valor esperado del
error en el cálculo del rango en sistemas estereoscópicos. Su formulación y las
expresiones que allí se derivan se describen a continuación.
En muchos problemas en que las profundidades de la escena están dentro
de un rango estrecho de distancias, la cantidad más útil para evaluar la exactitud
del sistema estéreo es el error de rango relativo, definido como
ε = | ∆z|
zmax − zmin
donde zmax y zmin son las profundidades máxima y mínima en las que va a
trabajar el sistema y | ∆z| el error absoluto del sistema. Este error describe la
resolución del rango mejor que el error en tanto por cien (| ∆z| ⁄ z), sobre todo
cuando las profundidades en que se encuentran los objetos en la escena se
encuentran en un estrecho margen. Para la mayoría de aplicaciones, tal como el
reconocimiento de objetos, el error de rango relativo es la cantidad mas
descriptiva porque los objetos normalmente se encuentran en una pequeña
porción del rango total, por ejemplo, consideremos un sistema que pretende
localizar objetos entre un rango de 950 y 1050 cm , por tanto, con un error
absoluto de 10 cm le correspondería un error relativo de rango del 10%,
mientras que por el contrario el tanto por cien del error de rango sería del 1%.
Considerando que el error en la disparidad ∆d es debido al intervalo de
muestreo de la imagen δ, y que este error se distribuye uniformemente,
Rodriguez & Aggarwal (1990) llegan a la conclusión de que el valor esperado
del error absoluto de rango E[| ∆z| ] de un sistema estereoscópico de ejes ópticos
paralelos tiene la expresión, despreciando los términos de orden superior,
E[| ∆z| ] = δ
9bf zmin
2 + zmin zmax + zmax2
Estudios de análisis de imagen
178
y que el valor esperado del error de rango relativo, E[ε], se expresa como
E[ε] = δ (zmin
2 + zmin zmax + zmax2)
9 b f (zmax − zmin)
Examinando las dos ecuaciones anteriores se puede notar que, en general,
los valores esperados de los errores absoluto y relativo de rango son función
solo de los parámetros de diseño del sistema estereoscópico: la distancia de base
b, la focal del sistema óptico f, y los rangos máximo zmax y mínimo zmin en los
que se encuentran los objetos de la escena. Por otra parte, estos errores son
proporcionales al intervalo de muestreo δ, e inversamente proporcionales al
producto entre la distancia de base b y la focal del sistema f. Por último resaltar
que tanto el valor esperado del error de rango absoluto como el del relativo
aumentan cuando la magnitud del rango aumenta, es decir, la estimación del
rango o profundidad en un sistema estereoscópico es más precisa para objetos
más cercanos que para objetos mas lejanos.
6.2 Correspondencia
La mayoría de los procesos de visión estereoscópica consisten en tres pasos:
1- Una extracción de características.
2- Establecimiento de una correspondencia de puntos entre las
características encontradas en ambas imágenes.
3- Una reconstrucción tridimensional.
En el propósito que nos ocupa, no es necesaria una reconstrucción
tridimensional total de la escena, sino simplemente localizar en el espacio ciertos
objetos que sean reconocidos como frutos y de los que se desea saber sus
coordenadas espaciales.
Dado que el objetivo del sistema de visión estereoscópico en este robot de
recolección necesita localizar en el espacio un solo objeto, el que en esos
momentos centraliza la atención del robot, parece lógico y aconsejable utilizar un
Medidas de distancia. Estereoscopia
179
método de correspondencia que simplifique este procedimiento orientándolo a
este propósito, con el fin de obtener una mayor rapidez en este cálculo para su
adaptación a sistemas en tiempo real. Esta idea ya ha sido utilizada por algunos
autores, desarrollando métodos de correspondencia para problemas concretos, por
ejemplo la detección de obstáculos en robótica móvil (Takeo & Hachiyama,
1991) o en este mismo campo de la robótica de recolección (Sandini et al,
1991), procedimientos susceptibles de su implementación en sistemas hardware
en paralelo para una mayor rapidez de cálculo, o centrando la aplicación de la
correspondencia en zonas reducidas de la imagen.
El método que aquí se ha desarrollado, es un método de correspondencia
local, es decir, que no intenta realizar la correspondencia de todos los elementos
de la imagen, sino de un sólo objeto; además la búsqueda se limita a cierta
zona de la imagen definida a partir de las restricciones que caracterizan el
sistema estereoscópico. El fundamento del método consiste en utilizar la
información que se obtiene, además de los contornos, de todas las características
utilizadas en la segmentación de las imágenes y el reconocimiento de los objetos,
con el fin de poseer la mayor información posible que relacionan todos los
píxels en una región de la imagen que corresponden a un solo ente u objeto,
que en su imagen conjugada se encontrarán relacionados de la misma manera.
De esta forma se pretende unificar el proceso de localización con el proceso de
reconocimiento, siendo la localización espacial una prolongación del proceso de
reconocimiento y basada en los mismos principios que llevaron a identificar el
objeto que se pretende localizar.
La manera de unificar y a la vez optimizar este procedimiento consiste en
la siguiente propuesta:
1- Realizar el proceso de análisis y reconocimiento en una de las imágenes
que proporciona el sistema, por ejemplo la izquierda.
2- Centrar la atención uno de los objetos reconocidos para determinar su
localización.
3- Realizar el mismo proceso de reconocimiento en una zona determinada
en la imagen derecha en función de la posición del objeto en la imagen
izquierda.
Estudios de análisis de imagen
180
4- De todos los objetos encontrados en la imagen derecha que pertenezcan
a la misma clase que el objeto de interés en la imagen izquierda, determinar su
correspondiente realizando una medida de emparejamiento o similitud entre el
objeto localizado en la imagen izquierda y los posibles correspondientes en la
imagen derecha.
Nótese que por este procedimiento se pretende encontrar el
correspondiente a un objeto ya identificado en la escena a partir del proceso de
análisis y reconocimiento realizado en una de las imágenes, de esta forma se
centra la atención solo en la región de la imagen donde se encuentra el objeto
y no en su totalidad. El proceso de reconocimiento otorga ciertas características
a este objeto, producto de la extracción de características que se realizó para su
clasificación o reconocimiento. Estas características que definen una relación
entre todos los píxels pertenecientes al objeto serán utilizadas en el proceso de
correspondencia, al intentar realizar esta correspondencia solo en objetos
encontrados en la otra imagen que poseen las mismas características, por tanto,
se integra el proceso de reconocimiento en el de correspondencia.
La optimización en la búsqueda del objeto correspondiente se realiza
definiendo la zona en la imagen donde tiene la posibilidad de encontrarse el
objeto, por ciertas restricciones que serán descritas más adelante. La medida de
similitud final que identifica al objeto que le corresponde integra la información
de la forma del contorno, tamaño o área del objeto, y orientación, en un mismo
procedimiento de emparejamiento de plantillas.
6.2.1 Medida de similitud
Durante el proceso de reconocimiento, un objeto al que se le ha atribuido la
clase que se pretende manipular, queda definido durante el proceso de análisis
por una región en la imagen segmentada extraída a partir de la imagen original.
Los puntos de esta región quedan relacionados entre si por las propiedades que
han inducido al proceso de segmentación a considerarlos pertenecientes a una
misma región a la que se le han atribuido otras características calculadas para
identificarla.
Medidas de distancia. Estereoscopia
181
El objetivo es encontrar su región
correspondiente en la otra imagen que
identifique al mismo objeto en la escena.
Dado que las regiones candidato a ser su
correspondiente poseen las mismas propiedades
extraídas durante el proceso de segmentación y
clasificación, una posibilidad de identificar su
correspondiente consiste en elegir de entre las
posibles regiones encontradas en la imagen de
correspondencia, aquella que tenga la misma
forma y tamaño que la región de la imagen
de partida de la que queremos hallar su
correspondiente.
Para ello se construye una máscara binaria de tamaño el rectángulo que
inscribe la región de interés, con valores distinto de cero en aquellos puntos que
correspondan a un punto de la región (figura 6.4a), con esta máscara se realiza
en la otra imagen, la cual habrá sido ya segmentada e identificadas sus regiones,
un proceso de emparejamiento o búsqueda de la región que más se ajuste a la
forma de la máscara construida. Esta máscara contiene información explícita de
la forma del contorno de la región, su tamaño y orientación, e implícitamente se
sabe que los puntos de esta región están relacionados por todos los criterios que
indujeron a su segmentación y clasificación.
Para realizar el proceso de emparejamiento, se construye una imagen
etiquetada de la imagen donde se va realizar la correspondencia (figura 6.4b).
Las regiones presentes en esta imagen serán aquellas que fueron asignadas por
el proceso de reconocimiento como pertenecientes a la misma clase que la que
se pretende encontrar su correspondiente.
De una manera global, aunque después se verá como se optimiza esta
búsqueda, con la máscara construida se barre la imagen binaria donde se realiza
el emparejamiento, localizando las regiones presentes con su respectiva etiqueta,
calculando para cada una de ellas una medida de similitud de la máscara o
plantilla cuyo centro coincidirá con el centro del rectángulo que inscribe la
Figura 6.4a. Máscara construida apartir de una región en la imagen
izquierda.
Estudios de análisis de imagen
182
región donde se va a realizar la medida (figura 6.4c). La medida de similitud d
se calculará de la manera siguiente
d = NC2
Nm Nr
donde NC es el número de puntos que coinciden de ambas regiones al
superponer las máscaras, es decir, el área de la intersección de ambas regiones
al superponerlas, y Nm y Nr son respectivamente el número de puntos totales de
Figura 6.4c. Matching con una región.
Figura 6.4b. Imagen binaria.
Medidas de distancia. Estereoscopia
183
la región de la máscara o área total de ésta, y el número de puntos o área de
la región a medir su similitud.
Esta medida realizada mediante la superposición de plantillas nos permite
evaluar a la vez la forma, el tamaño y la orientación de la similitud entre dos
regiones, todo ello mediante un sencillo cálculo de áreas y área intersección de
ambas que permite realizar el proceso en un tiempo reducido. La evaluación de
la orientación viene determinada porque la misma orientación tiene una región
en la imagen izquierda que en su correspondiente imagen derecha, por lo tanto
la máscara construida a partir de la región de la imagen izquierda debe ser
evaluada en el proceso de medida de similitud conservando la orientación
original de ésta. El tamaño ayuda a diferenciar entre regiones que posean una
forma similar pero diferente área. Este aspecto se evalúa a través del área de la
intersección, que sólo coincidirá con el área total de ambas en el caso que sean
de igual forma y tamaño. La forma de la región viene medida intrínsecamente
por la técnica de superposición de plantillas, ya que dos regiones con tamaño
similar pero forma diferente tendrán un área intersección diferente del área total
de las regiones.
El valor de la medida de similitud d posee valores en un rango entre [0,1],
siendo dos regiones más similares en forma y tamaño cuanto su medida de
similitud d sea más cercana a 1. La razón de esto reside en que el área
intersección de dos áreas, NC, es siempre menor que el área menor de las dos
regiones que intervienen en la medida, siendo 1 solo en el caso de que el área
de las dos regiones sean iguales Nm = Nr y el área intersección de ellas sea
igual a ellas Nm = Nr = NC, lo que significaría que ambas regiones tendrían la
misma forma, tamaño y orientación.
6.2.2 Método de búsqueda de una región correspondiente
De todas las restricciones y propiedades que posee un sistema estereoscópico
como el utilizado, existen dos de ellas en las que se apoya el método de
correspondencia desarrollado en este trabajo. Estas propiedades restringen la
localización del correspondiente de un punto o una región en la imagen
conjugada, limitando los posibles lugares donde se encuentra el punto
Estudios de análisis de imagen
184
correspondiente y por lo tanto participando de forma decisiva en la resolución
de ambigüedades en la correspondencia.
Las restricciones en que se fundamenta la resolución de conflictos y una
búsqueda reducida en la correspondencia, se apoyan en las siguientes
propiedades de un sistema estereoscópico de ejes ópticos paralelos e idéntica
focal en ambos sistemas ópticos (figura 6.3):
1- La imagen de un punto en el espacio objeto posee dos puntos en los
respectivos planos imagen cuyos valores de la ordenada en los respectivos ejes
coincide. Es decir, para un punto en el espacio P de coordenadas (x,y,z), y sus
correspondientes coordenadas en el plano imagen izquierdo, (xL ,yL), y derecho,
(xR,yR), se cumple la condición
yL = yR
2- La imagen de un punto en el espacio objeto posee dos puntos en los
respectivos planos imagen cuyos valor de la abcisa en el plano derecho es
siempre menor o igual que la abcisa de su correspondiente punto en el plano
izquierdo. Es decir,1
xR ≤ xL
La primera de estas propiedades es consecuencia directa del hecho de que
en este tipo de sistema estereoscópico, las rectas epipolares son paralelas, y a su
vez, paralelas a los ejes de abcisas de los sistemas coordenados (ver figuras 6.2 y
6.3).
Medidas de distancia. Estereoscopia
185
1 La demostración de esta propiedad relativa a la relación entre las abcisas de dos
puntos correspondientes, se ha desarrollado en el anejo de este capítulo
(páginas 199-204).
Considerando las dos propiedades anteriores, se puede decir que las
coordenadas de dos puntos conjugados, (xL ,yL) y (xR,yR), en sus respectivos
planos imagen izquierdo y derecho, correspondientes a la imagen de un mismo
punto en el espacio objeto, vienen relacionadas de la forma
yL = yR y xR ≤ xL
Por lo tanto, dado un punto en la imagen izquierda, su correspondiente en
la imagen derecha solo puede encontrarse en la misma fila de la imagen en que
se encontraba en la imagen izquierda, y en una columna anterior a la columna
donde se encuentra en la imagen izquierda (figura 6.6). Estas restricciones en la
localización de los puntos conjugados o correspondientes, tienen como
consecuencia dos circunstancias, primero que se reduce la zona de búsqueda en
la imagen conjugada para realizar la correspondencia, y segundo, de esta forma
se consigue reducir en gran medida la posible ambigüedad o imprecisión en la
correspondencia, ya que, por el método descrito aquí, la posibilidad de que dos
regiones sean de similar forma a la región que se pretende corresponder en esta
zona tan localizada de la imagen donde se realiza la correspondencia, es mucho
menor que si se intentara encontrar una región similar a lo largo de todas las
regiones presentes en la imagen donde se efectúe la correspondencia.
x xL R
xL
imagen izquierda imagen derecha
Figura 6.6. Situación relativa de puntos correspondientes.
Estudios de análisis de imagen
186
Debido a las restricciones en la localización en los planos imagen entre
puntos correspondientes, el proceso para hallar la correspondencia de una región
determinada de la imagen izquierda en la imagen derecha por medio de la
medida de similitud descrita en el apartado 6.2.1, se realizará de la forma que
se expone a continuación.
Considerando el rectángulo que inscribe a la región de la que se pretende
calcular su correspondiente, de lados lx y ly a lo largo del eje x e y
respectivamente, y cuyo centro se halle en las coordenadas (x0L ,y0L), todos los
punto de esta región estarán comprendidos entre las filas y0L− ly ⁄ 2 y y0L+ ly ⁄ 2
tanto en la imagen izquierda como en la imagen derecha. Además, todos los
puntos de la región correspondiente en la imagen derecha se encontrarán en
valores de las columnas o abcisas inferiores a la abcisa del lado derecho del
rectángulo que inscribe la región en la imagen izquierda, x0L+ lx ⁄ 2. Por lo tanto,
la región correspondiente en la imagen derecha se encuentra en una franja
(figura 6.7) definida por los puntos (xR,yR) que cumplen
y0L − ly ⁄ 2 ≤ yR ≤ y0L + ly ⁄ 2
0 ≤ xR ≤ x0L + lx ⁄ 2
Dado que la región correspondiente se encuentra dentro de esta franja en
la imagen derecha, totalmente definida a partir de la región en cuestión de la
x0L + lx ⁄ 2 x0L + lx ⁄ 2
franja debúsqueda
y0L + ly ⁄ 2
Imagen izquierda Imagen derecha
y0L − ly ⁄ 2
Figura 6.7. Franja de búsqueda de región correspondiente.
Medidas de distancia. Estereoscopia
187
imagen izquierda, el análisis de imagen y proceso de reconocimiento sobre la
imagen derecha solo se realizará en esta franja, con el correspondiente ahorro
en el tiempo.
Para cada región que se encuentre en esta franja, que se haya clasificado
como de la misma clase del objeto de la región en la imagen izquierda de la
que se busca su correspondiente, se realizará la medida de similitud descrita en
el apartado 6.2.1. El centro de la región en la imagen derecha calculado a partir
del rectángulo que inscribe a la región, se encontrará en la misma fila de la
imagen derecha. Por tanto, la máscara construida de esta región para realizar la
medida de similitud, se colocará sobre cada región presente en la franja de la
imagen derecha haciendo coincidir la coordenada y0L o fila del centro de la
región en la imagen izquierda, con la misma coordenada y en la imagen derecha,
y la coordenada x0L del centro de la máscara, con la coordenada x0R del
rectángulo que inscriba la región a comprobar en la imagen derecha, es decir, la
máscara se desplazará a través de la franja en la imagen derecha, sin salirse de
ella, y en los puntos cuyas columnas coincidan con la columna o coordenada x0R
del centro del rectángulo que inscriban las regiones que se encuentran en la
franja (figura 6.8).
Con todo este procedimiento se evitan, en primer lugar, posibles
ambigüedades en la correspondencia, ya que la región correspondiente tiene que
hallarse completamente dentro de la franja definida, y conservando las mismas
x0L + lx ⁄ 2 x0L + lx ⁄ 2
Imagen izquierda Imagen derecha
máscara
y0L − ly ⁄ 2
y0L + ly ⁄ 2
Figura 6.8. Desplazamiento de la máscara a través de la franja.
Estudios de análisis de imagen
188
ordenadas de sus correspondientes puntos en ambas imágenes, de tal forma que
regiones similares desplazadas levemente hacia arriba o abajo en la imagen darán
valores menores de la función similitud calculada sobre ellas.
Otro aspecto de este proceso es su rapidez de ejecución, ya que solo se
realiza el matching o medida de similitud en puntos muy concretos de la franja,
los puntos centrales de las regiones allí presentes, es decir, se realizarán tantas
medidas de similitud por región encontrada en la imagen izquierda, como
regiones presentes en su correspondiente franja en la imagen derecha. Esto
puede dar una idea del reducido número de cálculos a realizar. Al final del
proceso de medida de similitudes sobre las regiones de la franja, se asignará su
región correspondiente a aquella que haya dado el valor más elevado en el
matching .
En estas condiciones, las posibles ambigüedades son mínimas, y es poco
probable que se produzcan, tal como se comprobará. En caso de aparecer dos o
mas regiones dentro de una misma franja con una similitud muy parecida, una
forma de poder resolver esta controversia es encontrar las regiones similares en
la misma franja pero ahora también en la imagen derecha y asignar cada una de
ellas a sus correspondientes en la imagen derecha conservando el orden de
aparición en la franja en sentido horizontal. Operando de esta manera se supone
que los objetos se encuentran en la escena en un rango de distancias pequeño,
ya que de otra forma este principio de orden no se cumpliría en casos extremos
para dos objetos de la misma forma y tamaños diferentes colocados a distancias
separadas tales que su proyección en la imagen tengan un tamaño similar y que
inviertan su orden de colocación en una imagen respecto a la otra, debido a la
proximidad de uno de ellos y estar situado en zonas muy concretas de la escena.
Tal como se puede observar al describir los casos anteriormente citados, la
posibilidad de que ocurran en bastante remota, y en todo caso su proporción es
ínfima respecto al total de situaciones reales, por lo que no es aconsejable la
complicación del método para resolver estos casos en menosprecio de la rapidez
del proceso sin tener en cuenta estos casos.
Medidas de distancia. Estereoscopia
189
6.3 Implementación
El método desarrollado precisa en primer lugar de imágenes binarias que, en
general, pueden haber sido producto en cualquier tipo de segmentación (color,
concavidades, etc). En los ensayos que aquí se describen, se realizaron sobre
imágenes segmentadas a partir de un umbral en el nivel de gris sobre imágenes
en blanco y negro tomadas con un filtro rojo y apoyo de iluminación artificial,
ya que, en primer lugar, se disponía de dos cámara idénticas monocromas y,
además, fue el sistema de visión utilizado durante los ensayos sobre el robot,
aunque durante los ensayos en el robot no se utilizó el sistema estereoscópico
(sección 10.2). Con ello se pretende a la vez comprobar, que resultados hubieran
sido los esperados en el caso de utilizar el sistema estereoscópico en el mismo
sistema utilizado en el robot.
En las pruebas realizadas, la única selección de las regiones en las
imágenes segmentadas fue su área, con el fin de evitar ruidos. El proceso de
segmentación y selección, aunque sencillo, solo pretende ser un soporte para
comprobar la validez del método de correspondencia y medida de coordenadas
espaciales con estereoscopia. De forma general, el proceso de clasificación o
reconocimiento de las regiones pude ser cualquier método, siendo la única
condición que sea aplicado siempre con los mismos criterios en ambas imágenes.
Respecto a la configuración utilizada, ésta se eligió de acuerdo a la
precisión que se exigía de antemano, de acuerdo con los expuesto en la sección
6.1.3. En principio, para obtener una precisión teórica cercana al centímetro, se
eligió la configuración en función de lo siguiente:
- En recolección robotizada, los frutos se encuentran en distancias que
oscilan entre los 0,5 y los 3 metros.
- Las cámaras utilizadas (ver apartado 8.1) tenían un área sensible de
8,8 x 6,6 mm , a su vez dividida en una matriz de 582 x 500 elementos, pero las
imágenes fueron digitalizadas en imágenes de 512 x 512 de resolución.
Con estas restricciones respecto a la configuración de la escena y el
material utilizado, para obtener una precisión teórica de un error absoluto,
Estudios de análisis de imagen
190
| ∆z| = 0,64 cm , se precisa un lente cuya focal sea de f = 16 mm y una
separación entre los ejes ópticos de las cámaras de b = 20 cm . Este error
absoluto, en el rango de zmin = 50 cm y zmax = 300 cm , tiene asociado un error
relativo de rango del 0,26 %. Tal como se verá en el siguiente apartado, estos
errores teóricos, con esta configuración, se ven incrementados debido a la
calibración del sistema, es decir, a la imprecisión en la colocación de las
cámaras, en primer lugar, que coincidan sus planos imagen, y en segundo lugar
que sean sus ejes ópticos completamente paralelos, además de la imprecisión que
supone el que realmente las dos cámaras y las dos ópticas, ni la lente ni el
CCD, obviamente no son completamente idénticas.
La calibración o disposición de las cámaras en la configuración elegida se
realizó de la siguiente manera: Colocando un plano en el que se encontraba
dibujado un rectángulo y un punto en su centro geométrico, se dispone la
primera cámara, la izquierda, sobre el soporte de forma que la imagen del
centro del rectángulo coincida con el centro de la imagen que proporciona la
cámara, y los lados del rectángulo con sendas filas y columnas, simétricamente
separadas del centro de la imagen. Con ello se consigue que el plano donde se
encuentra el rectángulo sea aproximadamente paralelo con el plano imagen de la
cámara, y que el eje óptico de la lente de la cámara atraviese el centro del
rectángulo, todo ello suponiendo que el eje óptico del plano imagen coincida
con el centro de la imagen después de digitalizarla.
Una vez colocada la cámara izquierda, se procede análogamente con la
derecha, colocándola sobre el soporte a la distancia de base señalada y haciendo
coincidir la imagen del rectángulo de la misma manera que para la cámara
izquierda, pero ahora teniendo en cuenta que por efecto del desplazamiento,
solo se realiza el ajuste haciendo coincidir los lados superior e inferior del
rectángulo con las mismas filas de la imagen que las filas donde se encuentra el
rectángulo en la imagen izquierda, así como la fila que se encontraba el centro
del rectángulo. Las columnas ahora estarán desplazadas a la izquierda, pero los
dos lados del rectángulo correspondientes a esta columnas, estarán desplazados la
misma distancia en píxels que en su correspondiente imagen izquierda. Con ello
se consigue que el plano imagen de la cámara derecha sea coplanario con el de
Medidas de distancia. Estereoscopia
191
la cámara izquierda y que ambos ejes ópticos sean aproximadamente paralelos
(ver figura 6.3).
En el montaje realizado para los ensayos, las dos cámaras se situaron en
una superficie plana a partir de la cual se realizó su calibración. Las imágenes
resultantes de ambas cámaras tienen la particularidad de estar levemente
desplazadas en sentido vertical la una respecto a la otra, estando la imagen
derecha desplazada mas abajo siempre una distancia en píxels fija. Esto es
debido a que, aunque las cámaras están colocadas sobre una misma plataforma
plana, el CCD de una respecto a la otra se encuentra ligeramente desplazado en
el sentido descrito. Este efecto no tiene ninguna repercusión en los resultados de
los ensayos, ya que la cantidad fija desplazada en píxels se compensa por
software en el algoritmo.
Dispuesto el sistema de cámaras para realizar los ensayos, los pasos del
algoritmo seguido para calcular la región correspondiente en la imagen derecha
de su conjugada en la imagen izquierda, consta de
Segmentar imagen izquierda;
Para cada región de imagen izquierda con área mayor que área mínima
Construir máscara;
Definir franja asociada en imagen derecha;
Segmentar contenido de la franja;
Para cada región en la franja con área mayor que área mínima
calcular medida de similitud;
fin, Para;
Si la región con medida de similitud máxima es mayor que la similitud mínima,
entonces
asignar como región correspondiente a esa región;
calcular las coordenadas espaciales del centro de la región;
fin, Si;
Sino, estimar que la región se salió de plano;
fin, Para;
La cota en la medida de similitud o similitud mínima aceptada se impone
por el hecho de que es posible que el objeto se encuentre demasiado cerca y
Estudios de análisis de imagen
192
demasiado desplazado a la izquierda, pudiendo darse el caso de aparecer dentro
de la imagen de la cámara izquierda y salirse de plano en la imagen derecha,
con la consiguiente pérdida de la información. Esto se deriva en que las medidas
de similitud de las regiones restantes no alcanzarán los valores que alcanza
normalmente la región correspondiente. Esta cota mínima se fijó en 0,4, tras
observar diversas medidas de similitud correctas.
6.4 Experimentos y resultados
Estos ensayos previos del método desarrollado que aquí se exponen, pretenden
realizar una comprobación de la validez del método en dos aspectos, primero en
la medida de la precisión del cálculo de la distancia, es decir, de las
coordenadas espaciales del objeto. En segundo lugar, comprobar la eficacia del
proceso de correspondencia en escenas reales de frutos en árbol en su medio
natural.
6.4.1 Precisión en cálculo de la distancia
Con el sistema calibrado y dispuesto, tal como se describió en el apartado
anterior, el algoritmo descrito se utilizó en el laboratorio sobre una escena de
objetos geométricos planos de diferentes formas y tamaños y colocados a
distancias entre 0,5 y 2,5 metros aproximadamente.
En la figura 6.9 se muestran el ajuste de un total de 118 medidas
realizadas por el sistema con respecto a la distancia real medida con una
precisión de ± 0,5 cm . La recta de regresión obtuvo un coeficiente de correlación
de 0,998. De estas 118 medidas, la correspondencia entre los objetos que
aparecían en ambas imágenes fue correcta y solo se obtuvieron 2 errores en la
correspondencia, de un total de 120 correspondencias contabilizadas, lo que
supone en este caso una fiabilidad el 98,3 %. Además hay que apuntar que los
errores en estas correspondencias no se debieron al método en si, sino a la
luminosidad recibida por ambas cámaras, ya que habiendo utilizado los mismos
umbrales para segmentar las imágenes izquierda y derecha, ocasionalmente
variaba un poco el nivel de iluminación que ambas percibían en alguno de los
Medidas de distancia. Estereoscopia
193
objetos, cuya consecuencia era que ambas regiones pertenecientes al mismo
objeto variaban en su forma en la segmentación por un efecto distorsionador de
la iluminación distinta que percibían ambas cámaras, dado que en estos ensayos
de laboratiorio se utilizó la luz normal del recinto sin controlarla como en el
caso del sistema de adquisión con flash.
También se pudo observar el efecto que se señalaba en la sección 6.1.2,
por el cual el error en la medida en el sistema estereoscópico aumenta
conforme la distancia del objeto es mayor, observando que para objetos entre 50
y 90 cm de distancia, el error medio cometido es de 0,5 cm , mientras que para
las distancias más alejadas, mayores de 2,5 metros, el error medio está entorno a
2,4 cm .
Respecto al tiempo de proceso con un equipo como el descrito en el
capítulo 8, como media, sobre las 118 medidas realizadas, se utilizaron 0,39
segundos en realizar la correspondencia de un objeto, tiempo bastante reducido
que permite su utilización en sistemas en tiempo real, tal como requiere la
robótica aplicada. Este tiempo se podría reducir, obviamente, con la utilización
de equipo más potente o en sistemas en los que el soporte físico o hardware
estuviera más adaptado al problema, tal como se hace normalmente en estos
casos.
0 0.4 0.8 1.2 1.6 2 2.4 2.8(Miles)
(Mile
s)
2.8
2.6
2.4
2.2
2
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0
(Miles)
Distancia real (mm )
Distanciaestimada (mm )
Figura 6.9. Representación de los valores experimentales de las distanciasestimadas por el sistema estereoscópico en función de la distancia real.
Estudios de análisis de imagen
194
De los errores cometidos en la medida de las distancias por este método se
puede concluir su validez respecto a su precisión con respecto a la localización
de los frutos en la recolección robotizada, ya que la exactitud media conseguida,
± 1,1 cm (media del valor absoluto de las diferencias entre distancia real y
estimada), es suficientemente fiable para programar los movimientos y acciones
del robot, y decidir si un fruto se encuentra o no fuera del alcance de éste,
dentro de los objetivos buscados.
6.4.2 La correspondencia en escenas reales
En escenas reales los inconvenientes que pueden influir en el error en el
procedimiento de correspondencia son la posible oclusión relativa de un objeto
por un obstáculo que provoque que en una imagen se vea cierta parte del
objeto que su correspondiente en la otra no aparezca, y en el caso particular
que nos ocupa, dado que todos los frutos tienen una forma similar, éstos podrían
llevar a confusiones en la búsqueda de su correspondiente.
Este segundo aspecto se ve muy atenuado en primer lugar por poseer los
frutos tamaños diferentes, además del tamaño relativo distinto con que aparecen
dos frutos de igual tamaño situados a distancias diferentes. En segundo lugar, el
efecto atenuante más importante es que los frutos se encuentran normalmente
con parte de su superficie parcialmente oculta, sobre todo por hojas, ramas u
otros frutos, variando la forma de la región de su superficie visible de forma
irregular y totalmente aleatoria que facilita su identificación.
Con el mismo método utilizado para medir la precisión en el cálculo de la
distancia, se realizaron ensayos con 14 escenas de naranjas en árbol, con sus
correspondientes imagen izquierda y derecha, en su ambiente natural, utilizando
en este caso el apoyo de iluminación artificial para la obtención de las imágenes.
Sobre estas 14 escenas se contabilizaron un total de 66 correspondencias,
de las cuales 64 fueron correctas, con lo que sólo un 3 % fueron erróneamente
asignadas. En las figuras 6.10, 6.11 y 6.12 se muestran tres de las escenas donde
se realizó la comprobación, en las respectivas imágenes a y b se muestran las
correspondientes imágenes originales izquierda y derecha, y en la c y d sus
Medidas de distancia. Estereoscopia
195
respectivas segmentaciones y la correspondencia obtenida entre las respectivas
imágenes izquierda y derecha.
Se puede observar como la mayoría de los frutos tiene parte de su
superficie parcialmente oculta en mayor o menor grado, obteniendo sus
respectivas regiones en la segmentación con formas irregulares, aunque se ve que
parte del contorno es circular, tal como se apuntó anteriormente. En estas
escenas se puede apreciar la exactitud en la correspondencia realizada, con lo
que se demuestra la validez del método en condiciones de la aplicación real.
Figura 6.10a. Imagen izquierda de una escenade naranjas.
Figura 6.10b. Imagen derecha de la mismaescena de la figura 6.10a.
Figura 6.10c. Imagen binaria de la figura6.10a con sus correspondientes de la imagen
de la figura 6.10d.
Figura 6.10d. Imagen binaria de la figura 6.10bcon sus correspondientes de la imagen de la
figura 6.10c.
Estudios de análisis de imagen
196
A lo largo de las tres escenas se puede apreciar el efecto descrito en el
apartado anterior sobre el leve desplazamiento hacia abajo de la imagen derecha
respecto a la izquierda por la posición relativa de los CCDs comentada.
Las regiones de las imágenes binarias obtenidas en las que no se realizo la
correspondencia, se descartaron bien por poseer un pequeño tamaño o bien por
obtener medidas de similitud inferiores a la cota mínima fijada. Este es el caso
de ciertas regiones pertenecientes a naranjas ocultas en más de un 70 % de su
superficie, aproximadamente, en las que en su imagen correspondiente varia
mucho la forma de la región visible de los frutos, no puediento establecer una
Figura 6.11c. Imagen binaria de la figura6.11a con sus correspondientes de la imagen
de la figura 6.11d.
Figura 6.11d. Imagen binaria de la figura 6.11bcon sus correspondientes de la imagen de la
figura 6.11c.
Figura 6.11a. Imagen izquierda de una escenade naranjas.
Figura 6.11b. Imagen derecha de la mismaescena de la figura 6.11a.
Medidas de distancia. Estereoscopia
197
correspondenica correcta, tal como muestran en algunos frutos de las figuras 6.10
y 6.11.
No obstante, en frutos parcialmente ocultos en los que en su imagen
correspondiente difieren levemente de su forma debido a alguna hoja que los
obstaculiza por el cambio del ángulo de observación, se puede apreciar como se
ha podido realizar la correspondencia en el caso de que una parte significativa
de su superfice es visible, con lo que se comprueba la robustez del método
respecto a oclusiones parciales de una imagen a la otra siempre que no
desaparezca de manera significativa la forma de su región correspondiente.
Figura 6.12a. Imagen izquierda de una escenade naranjas.
Figura 6.12b. Imagen derecha de la mismaescena de la figura 6.12a.
Figura 6.12c. Imagen binaria de la figura6.12a con sus correspondientes de la imagen
de la figura 6.12d.
Figura 6.12d. Imagen binaria de la figura 6.12bcon sus correspondientes de la imagen de la
figura 6.12c.
Estudios de análisis de imagen
198
Con el reducido número de errores obtenidos en la correspondencia se
puede concluir su robustez frente a los problemas reales de la oclusión relativa
descritos anteriormente, ya que el método asigna como correspondiente aquella
región cuya similitud es máxima, por tanto si se presenta el fenómeno de
oclusión parcial, el algoritmo resuelve esta situación asignando la región cuya
forma y tamaño son más aproximados, situación que en general coincide con la
región que realmente corresponde, tal como se ha podido apreciar.
Señalar que con la configuración utilizada, se puede apreciar como parte de
la escena visible por la cámara se pierde de una imagen respecto a la otra,
aproximadamente 1/4 de la escena. Este efecto es el único inconveniente de
disponer las cámaras con ejes ópticos paralelos, aunque, por otro lado, se gana
en precisión en el cálculo de la distancia.
Concluir por tanto que la correspondencia en imágenes estereoscópicas
integrando la información utilizada en el análisis y el reconocimiento de los
objetos con el propósito de su localización espacial para una manipulación
automática o robotizada, es una técnica rápida y fiable para su implementación
en sistemas de tiempo real, siendo una posible solución al problema de la
determinación de la posición y distancia a los frutos en un robot recolector. La
medida de similitud utilizada permite una cierta flexibilidad ante el problema de
la oclusión parcial, siendo tolerante a pequeñas distorsiones en la forma y
tamaño de la parte visible de los objetos.
Anejo
Dentro de las propiedades derivadas de un sistema estereoscópico de ejes ópticos
paralelos e idéntica focal en ambos sistemas ópticos, se puede constatar que la
imagen de un punto en el espacio objeto P de coordenadas (x,y,z), posee dos
puntos en los respectivos planos imagen izquierdo y derecho, (xL ,yL) y (xR,yR),
cuyos valores de las abcisas en los respectivos ejes cumplen que la abcisa del
punto en el plano imagen derecho es siempre menor o igual que la abcisa del
punto en el plano imagen izquierdo, es decir,
Medidas de distancia. Estereoscopia
199
xR ≤ xL
Para demostrar ésto, consideremos las coordenadas en los planos imagen de
un mismo punto en el espacio objeto como (xL ,yL) y (xR,yR), en el sistema
estereoscópico tal como se describió en el apartado 6.1.1.
Sea el plano que contiene a los centros ópticos de los dos sistemas, CL y
CR, a los puntos en los dos planos imagen, PL y PR, y el punto objeto P. Este
plano es el que definen las dos rectas epipolares DEL y DER que en este caso
definen una misma línea recta en los planos imagen, y que es paralela al eje de
abcisas.
El problema se va a dividir en tres partes:
a) Punto en el espacio objeto situado entre los dos ejes ópticos. En este
caso (figura 6.13) la línea que une el punto con el centro óptico de sistema
izquierdo CL (imagen en el plano imagen izquierdo) siempre corta al eje de
abcisas en su semieje positivo, es decir xL ≥ 0; mientras que la que une el punto
con el centro óptico de sistema derecho CR (imagen en el plano imagen
derecho) siempre corta al eje de abcisas en su semieje negativo, es decir xR ≤ 0.
Figura 6.13. Caso en que el punto esté situado entre ambos ejes ópticos.
Estudios de análisis de imagen
200
Por lo tanto, si la imagen de un punto situado entre ambos ejes ópticos
posee siempre una abcisa positiva en el plano izquierdo, xL ≥ 0, y una abcisa
negativa en el plano derecho, xR ≤ 0, se cumplirá que
xR ≤ 0 ≤ xL
por lo que xR ≤ 0 ≤ xL en este caso.
b) Punto en el espacio objeto situado a la izquierda del eje óptico
izquierdo. En estas condiciones las abcisas del punto en el plano imagen
izquierdo y derecho son siempre negativas, xL ≤ 0 y xR ≤ 0, pero, observando la
figura 6.14, se puede ver que, considerando como triángulos semejantes los
determinados por los puntos PCLP′ y PLCLP′ L ,
tanαL = PP′____
P′ CL_____ =
PLP′ L______
P′ LCL______
y teniendo en cuenta que PP′____
= z la coordenada z del punto P, P′ CL_____
= | x| el
valor absoluto de la coordenada x del punto P, PLP′ L______
= f la focal de la lente, y
Figura 6.14. Caso en que el punto esté situado a la izquierda del eje ópticoizquierdo.
Medidas de distancia. Estereoscopia
201
que P′ LCL______
= | xL | el valor absoluto de la coordenada xL en el plano imagen
izquierdo, se puede re-escribir la relación anterior como
tanαL = z
| x| =
f| xL |
De la misma forma, considerando como triángulos semejantes los formados
por los puntos PP′ CR y PRP′ RCR, se obtiene para el ángulo αR que
tanαR = PP′____
P′ CR_____ =
PRP′ R______
P′ RCR______
y dado que PP′____
= z la coordenada z del punto P, P′ CR_____
= | x| + b el valor
absoluto de la coordenada x del punto P mas la distancia de base entre los dos
ejes ópticos b, PRP′ R______
= f la focal de la lente, y que P′ RCR______
= | xR| el valor
absoluto de la coordenada xR en el plano imagen derecho, se puede expresar la
relación anterior como
tanαR = z
| x| + b =
f| xR|
donde en las expresiones de tanαL y tanαR se están considerando los valores
absolutos de todas las magnitudes definidas para obtener una medida de los
ángulos en el primer cuadrante.
Considerando por parte de los ángulos αL y αR las expresiones
tanαL = z
| x| , y tanαR =
z| x| + b
como | x| + b > | x| , es obvio que
tanαL > tanαR
Estudios de análisis de imagen
202
Por otro lado, considerando las otras expresiones de estas tangentes se
obtiene que
f| xL |
= tanαL > tanαR = f
| xR|
por lo tanto | xL | < | xR| , y teniendo en cuenta que, tal como se indicó al
principio de esta demostración, las coordenadas xL y xR poseen siempre valores
negativos en el caso de que el punto objeto este a la izquierda del eje óptico
izquierdo, se obtiene el resultado buscado de que
xR < xL
c) Punto en el espacio objeto situado a la derecha del eje óptico derecho.
En este caso las abcisas del punto en el plano imagen izquierdo y derecho son
siempre positivas, xL ≥ 0 y xR ≥ 0. Pero en estas condiciones, y operando de
manera análoga al apartado b) de esta demostración, observando la figura 6.15, y
considerando como triángulos semejantes los determinados por los puntos PCRP′
Figura 6.15. Caso en que el punto esté situado a la derecha del eje ópticoderecho.
Medidas de distancia. Estereoscopia
203
y PRCRP′ R, y los definidos por los puntos PCLP′ y PLCLP′ L , se tiene que para
los ángulos αL y αR se cumple que
tanαL = zx =
fxL
tanαR = z
x− b =
fxR
donde aquí todas las magnitudes son positivas.
Puesto que x− b < x es obvio que
tanαL < tanαR
por lo tanto, teniendo en cuenta las otras expresiones de estas tangentes
xR < xL
tal como se había previsto.
Estudios de análisis de imagen
204
Capítulo 7
ÁRBOLES BINARIOS
DE CLASIFICACIÓN
El proceso de análisis de imagen encaja perfectamente dentro del esquema
general del proceso de reconocimientos de formas clásico. Este proceso consta
fundamentalmente de tres partes, un pre-proceso del dominio sobre el que se
actúa, una extracción de propiedades, y una interpretación de la estructura de
descriptores construida a partir de las propiedades encontradas.
La interpretación trata de averiguar las relaciones de interés existentes
entre las estructuras de descriptores obtenidas con el fin de formular un mensaje
semántico, es decir, un mensaje con cierto significado sobre la interpretación
realizada, que facilite una toma de decisión sobre el dominio analizado. En el
caso de que los mensajes semánticos producto de la interpretación sean la
simple asignación de etiquetas o clases a cada descriptor, el proceso de
interpretación se denomina clasificación. Un mecanismo de aprendizaje basado en
propiedades extraídas a elementos del dominio y en conocimiento a priori
aportado por el analista, define los parámetros y mecanismos utilizados en la
interpretación.
En un proceso de análisis de imagen el dominio es la imagen representada,
en el caso digital, por una matriz o matrices de enteros, a la que normalmente
se le realiza un pre-proceso consistente en filtrados para eliminar ruido, realces,
etc. La extracción de propiedades se realiza comúnmente a partir de una
segmentación de la imagen en regiones a través de algún tipo de criterio que
relaciona los puntos de una misma región. Estas propiedades se introducen en
estructuras de descriptores que en el caso de una clasificación forman los
llamados vectores de características o vector de medidas, los cuales describen un
elemento al que la interpretación, en su forma simple, clasifica y asigna una
etiqueta perteneciente a una de las clases posibles contempladas por el
clasificador.
Existen multitud de tipos de técnicas de reconocimiento de formas que
lejos de existir una única y forma general de resolver los problemas, cada una
de ellas ofrece soluciones más o menos precisas a diferentes tipos de problemas
en función de su estructura y naturaleza. En el caso que nos ocupa, el
reconocimiento de frutos en imágenes de escenas naturales, las propiedades o
características que se extraen para describir los elementos o regiones que
componen las imágenes, tienen la particularidad que cada una de ellas procede
de conceptos totalmente dispares y que, en principio, no poseen ninguna
relación, así como la forma de cuantificarlas que puede ser de manera
totalmente diferente, por medio de variables enteras, reales o lógicas.
Por ejemplo, para caracterizar un fruto, en acuerdo a todo lo expuesto en
capítulos anteriores, se podría describir mediante la forma de su superficie
(cóncava en la imagen y en ciertos casos elipsoidal), la forma de su contorno
(circular) y el color que posee en cada caso. Formando un descriptor a partir de
un conjunto de propiedades como las mencionadas, el principal inconveniente es
su relación entre ellas, ya que desde un punto de vista geométrico,
representando los vectores de características formados de esta manera, sería
difícil modelar o interpretar las distribuciones de probabilidad u ocurrencia de
los componentes pertenecientes a cada clase de elementos con sus respectivas
propiedades.
Los árboles binarios de clasificación poseen la ventaja de poder tratar y
manejar estructuras de datos compuestas por propiedades de naturaleza muy
dispar, facilitando el mecanismo de interpretación con solo formular
apropiadamente el problema en función de un conjunto de preguntas o
cuestiones sobre estas estructuras descriptivas del problema, cuestiones que
definen como se formará el árbol de decisión y que se describirán más adelante.
A lo largo de los trabajos realizados en visión artificial para el
reconocimientos de frutos, se puede observar que se han ido incorporando
técnicas de reconocimiento de formas con el fin de resolver el problema de una
Estudios de análisis de imagen
206
manera más versátil y fiable, intentando incorporar un elemento que, de una
manera automática, pudiera realizar una decisión o clasificación a partir de unas
muestras iniciales que le sirven para aprender o determinar los parámetros que
ajustan el clasificador. Así por ejemplo los primeros trabajos utilizaban como
método de decisión la determinación de umbrales en ciertas características que
se consideraban decisivas, como la redondez de las regiones en la imagen
pertenecientes a frutos (Parrish & Goksel, 1977; Wittaker et al, 1987; Levi et al,
1988), o la utilización de umbrales para segmentar las imágenes con el fin de
encontrar las regiones pertenecientes a los frutos combinando el efecto de varios
filtros (Rabatel, 1988) o en espacios de color conocidos (Slaughter & Harrell,
1987). Después se introdujeron clasificadores basados en funciones lineales
discriminantes o incluso clasificadores basados en el vecino más próximo (Sites &
Delwiche, 1988) para decidir en acuerdo a ciertas características consideradas
como relevantes. También se han utilizado clasificadores paramétricos basados en
el clasificador de Bayes para realizar segmentaciones en color (Slaughter &
Harrell, 1988), y últimamente se han utilizado con el mismo propósito redes
neuronales (Sandini, 1991).
Dentro de este campo de visión artificial en la agricultura también se han
utilizado los árboles de decisión, en este caso en control de calidad para
clasificar granos de maíz en función de los daños que presentan (Paulsen et al,
1992). Los árboles de clasificación se han utilizado en varias aplicaciones en la
literatura, además del reconocimiento de formas (Breiman et al, 1984), han sido
aplicados en cuantización de vectores (Chou et al, 1989), sistemas expertos
(Quinlan, 1986) y otros campos como diseño lógico o diagnosis. Una variante de
los árboles de clasificación son los árboles de regresión (Breiman et al, 1984) los
cuales pretenden aproximar o predecir el valor de una función a partir de un
conjunto de valores previos con el que se construye el árbol de regresión.
En este capítulo se realiza una descripción de la técnica de aprendizaje de
árboles binarios de clasificación desarrollada, utilizando estos árboles de
clasificación como método de decisión en ciertas situaciones dentro del sistema
de visión artificial del robot, tal como se analizará en la segunda parte de este
Árboles binarios de clasificación
207
trabajo. Una descripción del fundamento y formulación de los árboles de
decisión se encuentra en el apéndice C.
En la sección 7.1 se exponen las propuestas principales de diferentes
autores para construir árboles de clasificación a partir de un conjunto de
muestras iniciales. A continuación (sección 7.2) se describirá el método
desarrollado en este trabajo para construir árboles de decisión binarios, el cual
pretende introducir una nueva aproximación al problema, generando el árbol
durante una búsqueda de arriba a abajo, al contrario de las técnicas que
generalmente se adoptan de poda del árbol máximo, a la vez que disminuir de
cierta forma el coste computacional en el aprendizaje. Le seguirá una sección
dedicada a las particularidades adoptadas para la implementación del método
(sección 7.3), y por último, una sección que incluye los experimentos realizados y
su comparación con árboles generados por sistemas diferentes.
7.1 Métodos de selección del árbol correcto
La nomenclatura y simbología utilizada aquí, está descrita en el apéndice C, en
el que se describen los fundamentos y características principales de los árboles
binarios de clasificación.
Una de las propiedades de los árboles de clasificación es que el error de
restitución total del árbol R(T) decrece siempre cada vez que generamos la
partición de un nodo, por tanto, este parámetro no proporciona ninguna
información para determinar en que momento debe detenerse el proceso de
crecimiento del árbol o la elección de cierto árbol de entre un cierto conjunto
de árboles generados a partir del mismo conjunto de aprendizaje.
En general, el árbol puede seguir creciendo hasta que en sus nodos
terminales solo se encuentren muestras pertenecientes a la misma clase, o hasta
que se llegue a un nodo terminal con una única muestra, o en el caso más
general hasta que contenga un número mínimo de muestras Nmin.
Existen diferentes metodologías para determinar el árbol óptimo que puede
realizar la clasificación con un error mínimo, pero sin asegurar que es el mejor
árbol posible construido a partir del conjunto de aprendizaje, ya que encontrar el
Estudios de análisis de imagen
208
mejor árbol puede llevar a una búsqueda exhaustiva con un coste computacional
insostenible. Todos estos criterios propuestos por diferentes autores se exponen
en este apartado, criterios sobre los cuales se fundamentará la discusión de la
propuesta que se realiza en este trabajo.
No obstante, aunque la búsqueda del árbol óptimo global es
contraproducente, el comportamiento del árbol a medida que va creciendo el
número de nodos terminales ha sido bien estudiado experimentalmente y
justificado de forma heurística (Breiman et al, 1984). Este comportamiento
describe como varia el error o coste de clasificación errónea real estimado R̂(T)
de un árbol T en función del número de nodos terminales | T~| que posee. Una
forma de estimar este error es calculando el error por el método del test de
muestras Rts(T) o el error por validación cruzada Rcv(T) (ver apéndice C).
Dada una sucesión de sub-árboles extraídos a partir del árbol total
generado hasta que no sean posibles más particiones (llegando a las condiciones
expuestas en los párrafos anteriores), tal que cada árbol de la secuencia Tk
posea un cierto número de nodos terminales que puede estar comprendido entre
el número total de nodos terminales en el árbol máximo | T~n| , y | T~1| = 1, en el
caso de que el árbol T1 sea únicamente el nodo raíz, la variación del riesgo o
coste de clasificación errónea estimada R̂(Tk) respecto al número de nodos
terminales | T~k| esta representado por una curva típica como la mostrada en la
0.2
0.19
0.18
0.17
0.16
0.15
0.14
0.13
0.12
0.11
0.1
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
Figura 7.1. Variación del error de restitución, R(Tk), y del errorestimado real, R̂(Tk), de los árboles Tk , en función del número
de nodos terminales, | T~k | (Breiman et al, 1984).
1
R̂(Tk)
R(Tk)
| T~k|
Árboles binarios de clasificación
209
figura 7.1, a la que acompaña también el comportamiento del error de
restitución R(Tk) en función del número de nodos terminales.
El gráfico de R̂(Tk) comienza por el árbol cuyo único nodo terminal es
| T~k| = 1 que es el árbol con un solo nodo, luego decrece tal como el número
de nodos terminales | T~k| va creciendo, alcanzando una zona llana donde se
encuentra el mínimo de R̂(Tk), comenzando entonces a incrementarse suavemente
el coste de clasificación errónea a mediada que sigue aumentando el número de
nodos terminales del árbol, continuando ascendiendo hasta el punto donde el
número de nodos terminales | T~n| corresponde al árbol de tamaño máximo Tn.
En este gráfico también se puede observar como el error de restitución
R(Tk) es siempre menor en todo momento al coste real aproximado R̂(Tk), y
siendo siempre decreciente con el número de nodos terminales. Esto viene a
decir que el error de restitución proporciona siempre mediadas del error
demasiado optimistas, alejándose cada vez más del posible error real a medida
que el árbol aumenta de tamaño.
Otra propiedad del coste real estimado R̂(Tk) es que el coste real estimado
del árbol máximo R̂(Tn) es invariablemente menor que dos veces el error
estimado del árbol de mínimo error, es decir
R̂(Tn) < 2 mink
R̂(Tk)
A la vista del comportamiento en un árbol generado a partir de un
conjunto de muestras de entrenamiento en función del tamaño del árbol, y dado
que el error de restitución es un indicador desorientativo sobre la elección del
árbol más correcto, se puede definir el mejor árbol Tk0 de una secuencia de
sub-árboles extraídos del árbol máximo generado a partir de un conjunto de
muestras de aprendizaje, como aquel que minimice el coste real estimado del
error de clasificación R̂(Tk)
k0; R̂(Tk0) = mink
R̂(Tk)
Estudios de análisis de imagen
210
Existen dos formas fundamentales de seleccionar el árbol correcto. La
primera consiste en ir generando particiones hasta que el valor de cierto criterio
alcance el límite máximo permitido, llegando en esos momentos a un árbol
considerado como correcto, y en segundo lugar, generar en primer lugar el árbol
máximo posible, del que después se extaerá un árbol mediante poda,
seleccionando las ramas a podar por medio de cierto criterio selectivo. Aunque
claramente la primera forma es menos costosa computacionalmente, los criterios
propuestos por los diferentes autores no han conseguido alcanzar los resultados
obtenidos utilizando el segundo principio, siendo la opinión generalizada que los
árboles generados por poda posterior del árbol total son los más efectivos.
7.1.1 Selección por parada en el crecimiento del árbol
Como ejemplos de criterios de parada en la construcción del árbol existe, por
ejemplo, el mencionado por Breiman et al (1984), consistente en ir generando
particiones declarando un nodo t terminal cuando el decrecimiento en la
impuridad total del árbol ∆I(s,t) de todas las particiones posibles, s∈ S, en el
nodo t sea mayor que cierto límite establecido β, es decir
maxs∈ S
∆I(s,t) < β
definiendo la impuridad total del árbol I(T) como
I(T) = ∑
t∈ T~I(t) = ∑
t∈ T~i(t) p(t)
donde I(t) = i(t) p(t) es la impuridad del nodo t. Este criterio, tal como señalan
estos autores, no da resultados muy satisfactorios.
Otro ejemplo en este sentido es el utilizado por Boswell (1990), el cual
considera un nodo t al que correspondan N(t) muestras del conjunto total de
aprendizaje L , al que cumpla la relación
Árboles binarios de clasificación
211
σ(N(t)) ≤ 1k
σ(N)
donde σ(N(t)) es la desviación estándar de las muestras en el nodo t, σ(N) la
desviación estándar de las N muestras en el conjunto total de aprendizaje, y k es
un parámetro ajustable. Con este criterio se pretende medir lo agrupadas que se
encuentran las muestras entorno a una sola clase en el nodo, declarándolo como
terminal cuando su desviación sea lo suficientemente pequeña de acuerdo con
los parámetros fijados.
7.1.2 Selección por poda del árbol total
La otra tendencia en la selección del árbol correcto es la que comúnmente se
acepta como forma de selección más adecuada, dando los mejores resultados en
la construcción de árboles de clasificación. Todos los métodos de selección
desarrollados hasta el momento por medio de criterios de parada en el
crecimiento del árbol, no han conseguido igualar los resultados obtenidos por los
métodos de poda.
Fueron Breiman et al (1984) los que propusieron por primera vez este
cambio de enfoque en la elección del árbol correcto, construyendo primero el
árbol máximo con cierto criterio para generar particiones y extraer una sucesión
de sub-árboles a partir del árbol máximo mediante poda, eligiendo más tarde
uno de estos sub-árboles como el árbol correcto.
Para ver el fundamento de este método definir, en primer lugar, una rama
Tt del árbol T cuyo nodo raíz es t∈ T, consistente en el nodo t y todos sus
nodos descendientes. Por tanto, la acción de podar una rama Tt del árbol T
consiste en eliminar de T todos los descendientes del nodo t excepto el nodo
raíz de la rama t; el árbol podado T ′ puede ser denotado como T ′ = T − Tt.
Si T ′ es un árbol extraído a partir de podar sucesivamente ramas de T
entonces se dice que T ′ < T.
Ya que existe una relación entre el número de nodos terminales de un
árbol T~, y el coste de clasificación errónea, Breiman et al definen la complejidad
del coste Rα(T) del árbol T para un cierto parámetro α≥ 0 como
Estudios de análisis de imagen
212
Rα(T) = R(T) + α| T~|
con R(T) el error de restitución del árbol. De esta forma se incluye un termino
adicional al error de restitución que penaliza la complejidad del árbol en función
del número de nodos terminales.
Aunque para cada valor del parámetro α existirá un árbol T(α) con
T(α)< T que minimice Rα(T), encontrar este árbol requiere una búsqueda
exhaustiva a través de la poda de T que es costosa y totalmente
contraproducente. Sin embargo a partir de este criterio se puede definir un
criterio de poda que conduzca a la obtención de árboles más correctos. La
filosofía de este criterio se basa en ir podando sucesivamente aquellas ramas del
árbol cuyos enlaces al árbol total se puedan definir como los más débiles.
Par poder medir la debilidad del enlace que une a una rama Tt con el
árbol total T, este enlace está relacionado con el valor del parámetro α asociado
al nodo t considerando que, para cualquier nodo no terminal del árbol t se
cumple
R(t) > R(Tt)
es decir, el error de restitución del nodo t siempre es mayor que el error de
restitución de la rama que define este nodo Tt, pero a partir de un cierto valor
crítico del parámetro α, el coste de complejidad del nodo t será menor que el
de su rama asociado Tt, es decir,
Rα(t) < Rα(Tt)
A partir del árbol máximo, Tn, se calculan los valores de α para cada nodo
no terminal del árbol, valor α a partir del cual el coste de complejidad de la
rama, R(Tt), es mayor que el coste de complejidad del nodo sólo, R(t).
Árboles binarios de clasificación
213
El proceso de poda consiste en eliminar la rama del nodo cuyo valor de α
sea el menor de todos los de los demás nodos, ya que esto quiere decir que el
enlace que une esta rama al árbol es el más débil, pues si partimos de un valor
α = 0 para todo el árbol y lo aumentamos sucesivamente, esta rama es la
primera en la que el coste de complejidad de la rama Rα(Tt) superará al coste
de complejidad Rα(t) del nodo por si sólo, siendo entonces el nodo solo más
preferible que su rama.
Repitiendo el mismo proceso para el árbol resultado Tn− 1 = Tn − Ttn de
podar la rama del nodo tn para el que α fue mínimo, se obtiene una sucesión
de sub-árboles del árbol máximo Tn que cumple
Tn > Tn− 1 > … > T1
siendo T1 el árbol más pequeño formado por un solo nodo, el nodo raíz del
árbol total Tn.
Para determinar de entre los árboles de esta sucesión el árbol correcto Tk0
se escoge aquél que minimice el coste real estimado de clasificación errónea
R̂(Tk), es decir
Tk0 = mink
R̂(Tk)
Este coste real se puede estimar por medio del método del test de
muestras Rts(T) o el error por validación cruzada Rcv(T) (ver apéndice C). No
obstante estas estimaciones tienen una desviación respecto del error real. Esta
desviación en el error R̂(Tk) estimado puede producir que el valor del error
oscile de una manera inestable en la zona llana del valle donde se encuentra el
mínimo. Para evitar o reducir esta inestabilidad se utiliza la regla llamada 1 SE,
que consiste en elegir el árbol Tk1 de esta sucesión que cumpla
R̂(Tk1) ≤ R̂(Tk0) + SE(R̂(Tk0))
Estudios de análisis de imagen
214
siendo Tk0 el árbol de la sucesión cuyo error estimado R̂(Tk0) sea mínimo, y
SE(R̂(Tk0)) el error estándar de esta estimación. De esta forma se evita la
inestabilidad en la zona que rodea al mínimo y se elige como árbol más
correcto aquel que su error es comparable al que posee el error mínimo
estimado y que posee un número de terminales más pequeño de los que se
encuentran en la zona del error estándar del árbol Tk0.
En el caso de que la estimación del coste de clasificación errónea se
realice por el método del test de muestras (apéndice C), este error para un
árbol T tiene la expresión
SE(Rts(T)) =
Rts(T) (1 − Rts(T))N2
1 ⁄ 2
siendo N2 el número total de muestras del conjunto utilizado como test.
A partir de la idea introducida por Breiman et al (1984) para seleccionar
el árbol correcto a partir de una poda del árbol máximo, se han realizado
posteriormente propuestas similares en este sentido, aunque estos métodos
comportan una menor complejidad en el proceso de poda y selección del árbol
correcto.
Quinlan (1987) utilizaba un método de poda del árbol total o máximo
consistente en analizar recursivamente cada nodo t del árbol T estimando el
error de su rama correspondiente R̂(Tt) y el error del nodo únicamente R̂(t). Si
se cumple que el error estimado introducido por la rama es mayor que el del
nodo sólo, es decir,
R̂(Tt) ≥ R̂(t)
y esta rama no contiene ningún otro nodo que cumpla estas características,
entonces la rama Tt se elimina del árbol, dejando únicamente el nodo raíz t de
esa rama. Una vez podadas todas las ramas que cumplen esta condición se
repite el proceso para el árbol resultante de la poda hasta llegar al árbol
correcto del cual no se pueden eliminar más ramas.
Árboles binarios de clasificación
215
Boswell (1990) introdujo una pequeña variante a éste método modificando
la condición de poda de una rama Tt correspondiente al nodo t en la forma
R̂(Tt) ≥ k R̂(t)
donde k es un factor en tanto por cien, es decir, podar la rama Tt
correspondiente a un nodo t si el error estimado de la rama R̂(Tt) supera el k
por cien del error estimado para el nodo R̂(t). En este caso la estimación del
error se hacía siempre mediante el método del test de muestras Rts(T).
7.2 Construcción de árboles binarios de clasificación mediante un
criterio selectivo de crecimiento
Tal como se describe en el apéndice C, el método de construcción de un árbol
binario de clasificación realiza una selección óptima paso a paso de las variables
para producir las particiones en cada nodo, buscando de una manera exhaustiva
sobre las muestras que se encuentran en el nodo, utilizando el conjunto de
cuestiones definido.
Sin embargo, la búsqueda del árbol óptimo dentro del árbol total o máximo
que puede generarse a partir de un conjunto de muestras de aprendizaje y los
criterios de impuridad elegidos, requeriría una búsqueda exhaustiva a través de
todos los posibles sub-árboles que pudieran derivarse de él, siendo esta tarea
extremadamente costosa y difícil de abordar. Por este motivo, los métodos de
selección y búsqueda de un árbol, aunque no se pueda verificar que sea el árbol
óptimo, si sea un árbol correcto con un error de clasificación mínimo de entre
un grupo de sub-árboles extraídos o generados por medio de ciertos criterios
coherentes con las propiedades de los árboles de decisión, es decir encontrar un
mínimo local de entre todos los sub-árboles posibles.
Estudios de análisis de imagen
216
7.2.1 El coste computacional en la construcción del árbol
Existen tres factores o aspectos en la construcción de un árbol de clasificación
que intervienen de una manera directa en el coste computacional necesario para
construir y elegir un árbol correcto:
1- La búsqueda exhaustiva en cada nodo de la partición óptima para
generar los dos nodos descendientes.
2- El coste adicional que supone el tener que utilizar un método de
estimación del error como base, en la mayoría de los métodos, para la elección
de un árbol correcto.
3- En procedimientos del tipo generación del árbol total y selección por
poda, el coste necesario, en primer lugar, para generar el árbol máximo posible,
y en segundo lugar, para la extracción de sub-árboles mediante poda.
Respecto al coste computacional derivado de una búsqueda exhaustiva de
las posibles particiones para que el árbol siga creciendo, varios autores han
abordado este problema para reducir el coste, en principio de naturaleza
exponencial, a un coste lineal en la búsqueda de particiones en cada coordenada
con el número de muestras de cada nodo, y el posible conjunto de valores que
pueden tomar dentro del conjunto de muestras de aprendizaje (Breiman et al,
1984; Chou, 1991). También se han introducido técnicas de simplificación en el
caso que el número de muestras de aprendizaje sea muy elevado en ciertos
nodos (Breiman et al, 1984).
En cuanto al coste adicional que supone un método de estimación del
coste de clasificación errónea del árbol, es en si un mal menor, ya que aunque
precise de cierto cálculo para poder elegir el árbol correcto, se obtiene siempre
a la vez una estimación del error del clasificador, tarea que se debe realizar
aparte en otros tipos de clasificadores si se desea conocer este error estimado.
El último aspecto referente al coste computacional es el que va a
centralizar la atención en el resto del capítulo. Para tener una idea estimada del
montante del coste de selección de un árbol por poda del árbol máximo,
analicemos el problema por partes.
Árboles binarios de clasificación
217
En primer lugar el coste computacional que comporta la generación del
árbol máximo o total. Cada vez que se genera un nuevo nivel en el árbol se
duplica el número de nodos, duplicando por tanto la tarea de la búsqueda
exhaustiva en cada nodo de la partición óptima a que hacía referencia el primer
punto. El número de niveles de un árbol máximo dependerá sobre todo del
número de muestras del conjunto de aprendizaje, obteniendo para conjunto
grandes de muestras de aprendizaje, árboles de tamaños considerables, es decir,
para un árbol de nv niveles, el número de total de nodos es de 2nv, sobre los
que en cada uno de ellos se ha realizado el proceso de búsqueda de la partición
óptima.
Por otra parte, la extracción de sub-árboles a partir del árbol total para
obtener el árbol correcto precisa de cierto coste, analizando sucesivamente cada
árbol obtenido por poda de una rama del árbol precedente. A todo ello se suma
el tener que evaluar la estimación del error de clasificación de cada sub-árbol
conseguido para poder elegir el árbol correcto. Este proceso incluye un número
de sub-árboles que depende del tamaño del árbol total, pudiendo llegar a tener
que analizar un número elevado de árboles en ciertos casos, sobre todo para
conjuntos de muestras de aprendizaje de considerable tamaño.
No obstante, ha quedado demostrado a lo largo de la literatura que los
procedimientos de elección del árbol correcto extraído por medio de poda del
árbol total son los que producen los mejores resultados, sin embargo, el atractivo
que supone el poder generar un árbol por medio de un único crecimiento inicial
sin tener que construir el árbol total, no deja de ser una de las posibilidades a
tener en cuenta para reducir el coste de la construcción del árbol intentando
conseguir resultados al menos del mismo orden que los conseguidos por los
métodos de poda a posteriori, siendo éste el propósito de la propuesta que se
realiza en este trabajo.
7.2.2 Propiedades fundamentales de los árboles binarios de clasificación
Para encontrar un método que nos permita construir un árbol correcto mediante
un único crecimiento inicial, se deben analizar en primer lugar cuales son las
Estudios de análisis de imagen
218
propiedades fundamentales que poseen los árboles de clasificación y la evolución
de sus parámetros indicadores durante el crecimiento del árbol.
Analizando detenidamente los resultados teóricos y experimentales
realizados al respecto, podemos generalizar las propiedades del comportamiento
de un árbol de clasificación de la manera siguiente:
1- Para un amplio rango de criterios de impuridad, las propiedades del
árbol final seleccionado no depende de la regla de selección de particiones. El
criterio de selección del árbol correcto es mucho más importante y es el que
verdaderamente fija las propiedades finales del árbol.
2- El error de restitución del árbol decrece siempre cada vez que se genera
una nueva partición, siendo menor cuanto mayor es el árbol.
3- Sin embargo, el error real estimado decrece a medida que aumenta el
número de nodos terminales hasta llegar a una zona más bien llana, alcanzando
el mínimo, aumentando a partir de entonces a medida que el árbol sigue
creciendo y por tanto su número de nodos terminales, hasta llegar al árbol
máximo o total que puede ser construido a partir de un conjunto de muestras
de aprendizaje.
La obtención de árboles, o sucesiones de árboles, por medio de la poda
del árbol total, se realiza de acuerdo a ciertos criterios coherentes con las
propiedades que caracterizan el comportamiento de los árboles, podando ramas
que clasifican peor que el nodo de la que fue inducida (Quinlan, 1987; Boswell,
1990) utilizando directamente la estimación del error, o en el caso de Breiman
et al (1984) que la poda se realiza utilizando únicamente la información que
proporciona el conjunto de muestras con que se construyó el árbol a partir de el
concepto de la complejidad del coste, que no deja de estar íntimamente
relacionado con el coste real de clasificación errónea.
7.2.3 El criterio de crecimiento
Puesto que cualquier sucesión de árboles derivados a partir del árbol máximo,
construido con cierto criterio de generación de particiones, tiene el mismo
comportamiento frente al error de clasificación, una sucesión de estos árboles
Árboles binarios de clasificación
219
construidos de una manera descendiente tendrá el mismo comportamiento que si
hubieran extraídos mediante poda a partir del árbol total de una forma
ascendiente.
Por otro lado, si se tiene en cuenta que cada paso de este crecimiento
corresponde a uno de los árboles de una sucesión de árboles crecientes
T1 < T2 < … Tn, donde Tn es el árbol total, este crecimiento debe ser realizado
mediante un criterio coherente con la evolución del error de clasificación
característico de una sucesión de árboles de estas propiedades.
Este criterio de crecimiento coherente con el comportamiento del árbol,
creará una sucesión de árboles de entre los cuales se puede elegir un árbol
correcto que tendrá la característica de ser un árbol con error de clasificación
mínimo, aunque al igual que en los métodos desarrollados hasta el momento,
este árbol será un mínimo local.
La idea consiste en elegir el nodo terminal t de todos los nodos terminales
T~k del árbol Tk dado, el cual, mediante su división a partir de su
correspondiente partición óptima, genere un árbol Tk+ 1 cuyo error estimado
R̂(Tk+ 1) sea el mínimo del que se generaría dividiendo cualquiera de los
restantes nodos terminales del árbol de partida Tk, es decir, si Tk+ 1t es el árbol
resultante de dividir el nodo t∈ T~k en sus dos descendientes tL y tR, entonces se
toma Tk+ 1 como
Tk+ 1; R̂(Tk+ 1) = mint∈ T~k
R̂(Tk+ 1t) (7.1)
siendo obvio que Tk < Tk+ 1.
Es decir, el árbol crecerá por el nodo que haga decrecer el error estimado
hasta llegar a la zona del mínimo, puesto que en un principio la división de
estos nodos siempre conllevará una disminución del error, y a partir de entonces
el árbol crecerá por el nodo que aumente el error lo menor posible, ya que a
partir de ese momento no habrá divisiones que generen árboles de error menor.
Este es un criterio de construcción de una sucesión de árboles T1,T2,...,Tn,
totalmente coherente con el comportamiento del árbol frente al error de
Estudios de análisis de imagen
220
clasificación, sucesión que mostrará una variación de este error como el descrito
en el apartado anterior. Esta sucesión de árboles tiene la particularidad de que
el número de terminales del árbol siguiente T~k+ 1 siempre se incrementa en la
unidad respecto al anterior T~k, es decir, | T~k+ 1| = | T~k| + 1.
Existe cierta situación particular al generar la partición de un nodo, la cual
ni aumenta ni disminuye el error del árbol al dividir esos nodos. Ello ocurre
cuando la clase que se asigna a los dos nuevos nodos terminales es la misma
para ambos y, a su vez, igual a la clase que tenía asignada su nodo padre
cuando era terminal. Este tipo de particiones, a las que llamaremos particiones
invariables, se tratan de una manera especial.
Si al dividir un nodo t se obtienen dos nodos, tL y tR, a los que se les ha
asignado la misma clase que tenía el padre, se generan a su vez nuevas
particiones de estos nodos hijos hasta encontrar algún nodo terminal de la rama
que cuelga del nodo original, Tt, que tenga asignada una clase diferente de los
demás nodos terminales de la rama, o en caso contrario, se desarrolle toda la
rama sin aportar variación, con lo cual se poda definitivamente la rama Tt,
declarando el nodo t como nodo terminal permanente.
De esta forma se consigue llegar a zonas del árbol que pueden disminuir el
error de clasificación y que quedan enmascaradas por nodos en niveles
superiores debido a la evolución de las muestras por las particiones más
profundas, y que de otra forma no podrían ser contempladas.
Durante la selección de los nodos a considerar para el crecimiento del
árbol, los nodos invariantes se tratan como los demás, pero al considerar la
variación del error del árbol si se toma su correspondiente partición, se toma
como partición la rama encontrada, según el proceso mencionado, que consigue
una variación en el error del árbol, incorporando esta rama al árbol en el caso
de que se cumpla la condición de la expresión (7.1).
7.2.4 Elección del árbol correcto
El siguiente paso, al igual que en la metodología general, es elegir el árbol
correcto de entre los que componen la sucesión de árboles encontrada. Esta
sucesión de árboles tiene las mismas propiedades que la sucesión que se obtiene
Árboles binarios de clasificación
221
mediante el método propuesto por Breiman et al (1984), pero en este caso no
se realiza ningún proceso de poda a partir del árbol total; además, la sucesión
encontrada ya tiene asignada para cada uno de los árboles que la forman su
correspondiente error estimado. En esta situación es oportuna la elección del
árbol por la llamada regla 1 SE, regla que selecciona el árbol de error mínimo
teniendo en cuenta las variaciones en el posible error estándar cometido de la
estimación del error de clasificación.
No obstante, la utilización de la regla 1 SE permite la elección del árbol
correcto sin tener que generar la sucesión de árboles completa debido a que
ésta se construye en forma descendente, es decir, desde el árbol compuesto de
un solo nodo al árbol total. En realidad se puede incorporar la regla 1 SE al
criterio de crecimiento del árbol, transformándola en un criterio para detener ese
crecimiento sin necesidad de construir el árbol total, reduciendo, en parte, el
gasto computacional que ello supone.
Si se tiene en cuenta que en una primera parte del crecimiento del árbol,
el error de clasificación estimado siempre va decreciendo, llegando a una zona
llana donde oscila y en la que se encuentra el mínimo, se puede tomar como
criterio de parada cuando se llega a un árbol Tk tal que
R̂(Tk) > Rmax
siendo la cota Rmax definida como
Rmax = R̂(T0) + SE(R̂(T0)); R̂(T0) = minj
R̂(Tj), j= 1,..,n− 1,n
La cota Rmax es una cota variable a medida que el árbol sigue creciendo,
pero con la propiedad de que esta cota siempre varia hacia un valor menor,
alcanzando un mínimo cuando se alcance el árbol Tk cuyo error estimado R̂(Tk)
sea el mínimo de la sucesión, a partir del cual la cota Rmax no varia su valor.
Este criterio permite seguir en el crecimiento del árbol asegurando que se ha
alcanzado la zona llana donde se encuentra el mínimo del error estimado, ya
Estudios de análisis de imagen
222
que tiene en cuenta en cada momento sus posibles variaciones, deteniéndose
cuando comienza la zona ascendente de los árboles con un número de nodos
terminales mayor que el árbol de error mínimo de la sucesión.
En ciertas ocasiones, la variación del error estimado, R̂(Tk), en función del
número de terminales del árbol, | T~k| , sufre fuertes oscilaciones de amplitud
mayor que el error estándar del árbol de error mínimo, R̂(T0), incluso fuera de
la región del mínimo. Ello ocurre en el caso de conjuntos de muestras que
tengan una inestabilidad manifiesta, como por ejemplo, cuando se dispone de
pocas muestras o exista cierto grado de solapamiento de las distribuciones de
cada clase, siguiendo las muestras caminos con cambios bruscos de dirección a
medida que se van generando las particiones, sobre todo en los primeros niveles
del árbol.
Este problema puede desorientar el criterio de parada en el crecimiento
del árbol, ya que si en cierto momento no existe ninguna partición cuyo error
estimado al incorporarla al árbol esté por debajo de la cota Rmax establecida,
puede detenerse el proceso de crecimiento, pudiendo encontrase en una zona de
fuerte oscilación.
Con el fin de evitar este problema, se introduce una nueva condición que
complementa a la cota Rmax, apoyándose en la propiedad que poseen este tipo
de sucesiones de árboles que asegura que el error estimado del árbol total
R̂(Tn), es siempre menor que del doble del error estimado, R̂(T0), del árbol de
error mínimo T0.
Por tanto, si durante el proceso de crecimiento, el siguiente árbol Tk+ 1 de
la sucesión posee un error estimado, R̂(Tk+ 1) mayor que dos veces el error del
árbol mínimo, R̂(Tk0), encontrado hasta el momento, el proceso de crecimiento
sigue adelante aunque el error estimado del nuevo árbol, R̂(Tk+ 1), sea mayor
que la cota Rmax.
Es decir, conjugando las dos condiciones de parada en el crecimiento del
árbol, este crecimiento se detendrá, cuando el siguiente árbol de la sucesión,
Tk+ 1, cumpla las dos condiciones a la vez
Árboles binarios de clasificación
223
R̂(Tk+ 1) > Rmax y R̂(Tk+ 1) < 2 R̂(Tk0)
siendo R̂(Tk0) = min (R̂(Tj)); j= 1,..,k; el error mínimo estimado de los árboles de
la sucesión generados hasta el momento.
Con esta condición se consigue detener el árbol cuando se ha llegado a
una zona donde el error estimado se encuentra en la zona ascendente libre de
oscilaciones fuertes, asegurando que nos encontramos en la zona correcta del
árbol.
Hay que notar que, como en el caso de la cota Rmax, la cota inferior
2 R̂(Tk0) es también variable y no precisa de ningún ajuste, ya que va variando
según se desarrolle el proceso de crecimiento automáticamente.
Por lo tanto, sin necesidad de generar el árbol total ni de realizar podas
posteriores, se consigue construir una sucesión de árboles entre la que se
encuentra el árbol correcto, de acuerdo con el criterio del error estimado
mínimo de clasificación del árbol.
Para realizar la selección del árbol correcto, se aplica la regla 1 SE a la
sucesión encontrada hasta el momento de la parada en el crecimiento, ya que en
esta sucesión están incluidos todos los árboles de la zona del mínimo con sus
respectivas oscilaciones en el error, siendo conveniente, estadísticamente
hablando, elegir aquél que tenga el menor número de terminales de la zona del
mínimo, teniendo en cuenta el error estándar del error estimado del árbol que
sea mínimo, tal como se ha descrito anteriormente.
7.2.5 Vuelta atrás y sucesiones alternativas
El árbol que proporciona la selección del árbol correcto de los integrantes de la
sucesión encontrada, no es el árbol óptimo que sería posible extraer del árbol
total que genera cierto conjunto muestras de aprendizaje con el correspondiente
criterio de selección de particiones.
Una forma de aproximarse más al árbol óptimo consiste en considerar
sucesiones de árboles alternativas a las encontradas, conservando los mismos
criterios de crecimiento, parada y selección del árbol correcto. Para ello se
utiliza un criterio de formación de sucesiones mediante una vuelta atrás en el
Estudios de análisis de imagen
224
crecimiento del árbol, considerando de esta forma vías alternativas por medio de
la división de nodos que no fueron elegidos anteriormente para seguir
expandiendo el árbol.
El fundamento de esta búsqueda de sucesiones alternativas se basa en,
terminada una sucesión de árboles, podar la rama que se generó en la última
división realizada, re-considerando los nodos que estaban disponibles en aquél
momento para seguir el crecimiento pero descartando definitivamente el
crecimiento por el nodo que se dividió esa última vez. Es decir, si Tk fue el
último árbol de la sucesión anterior, T1,T2,...,Tk− 1,Tk, construido a partir del
árbol Tk− 1 dividiendo el nodo t∈ T~k− 1, entonces, re-considerar el proceso de
crecimiento sobre el árbol Tk− 1 pero descartando como alternativa la división
del nodo t∈ T~k− 1 por el que se generó el árbol Tk de la anterior sucesión,
bloqueando la posible división de este nodo para la búsqueda de sucesiones de
árboles posteriores.
Realizando este proceso iterativamente hasta que no se pueda considerar
ningún nodo para seguir el proceso de crecimiento, se extraen una serie de
sucesiones diferentes T1n , T2n
,..., Tmn
, de las que de cada una de ellas se
seleccionará un árbol correcto Tk0, k= 1,...,m por el procedimiento ya descrito. La
elección final del árbol de clasificación T0 se realizará entre los árboles correctos
extraídos de estas sucesiones Tk0, k= 1,...,m , escogiendo el árbol cuyo coste
estimado de clasificación errónea R̂(T0) sea menor, es decir,
T0; R̂(T0) = mink
R̂(Tk0), k= 1,...,m
Esta formación de sucesiones alternativas permite una búsqueda más
completa del árbol correcto, que no siendo exhaustiva, si ofrece más garantías de
estar más cerca del árbol óptimo, aumentando la fiabilidad el árbol encontrado,
ya que hay que tener en cuenta que esta búsqueda se realiza en la parte del
árbol total cuyos posibles sub-árboles siempre se encuentran en la zona
decreciente del valor del error estimado de clasificación, como consecuencia del
proceso de crecimiento utilizado. Por tanto, los árboles correctos seleccionados
Árboles binarios de clasificación
225
de cada sucesión siempre se encuentran en esa zona acotada, sin considerar el
resto del árbol, lo que aumenta las posibilidades de encontrar el árbol óptimo,
ya que éste debe encontrarse en esa zona.
Se podría considerar una búsqueda exhaustiva en esta zona del árbol, con
lo que se tendría la seguridad de encontrar el árbol óptimo, si se demostrara
rigurosamente el comportamiento del error de clasificación de los árboles
respecto del número de nodos terminales, aunque si se dispone de una
demostración heurística (Breiman et al, 1984). No obstante, esta búsqueda
exhaustiva seguiría siendo demasiado costosa computacionalmente hablando, aún
habiendo reducido la búsqueda a esa parte del árbol.
7.2.6 El algoritmo
De acuerdo con el método sobre el proceso de crecimiento selectivo y criterio
de parada en la construcción de árboles descrito a lo largo de esta sección, el
algoritmo diseñado para generar todas las sucesiones alternativas posibles que
contempla la estrategia de vuelta atrás expuesta y de las que se extraerá el árbol
correcto seleccionado, consta de los siguientes pasos
DATOS
L, conjunto de muestras de aprendizaje.
RESULTADO
T0, árbol correcto seleccionado.
/* Inicializar */
Construir el nodo raíz incluyendo en él todas las muestras de L1;
Definir T1 = T~1 como el primer árbol, constituido por un solo nodo, el nodo raíz;
Cota:= infinito;
Error_mínimo:= infinito;
k:= 1; /* número de árbol * /
j:= 1; /* número de sucesión * /
Estudios de análisis de imagen
226
/* Búsqueda de sucesiones de árboles * /
Hacer
/* Búsqueda del nodo a dividir. Crecimiento * /
Hacer
Para todos los nodos t∈ T~k
Encontrar nodo disponible t tal que dividiéndolo por su partición óptima,
genere un nuevo árbol Tk+ 1 que cumpla
Tk+ 1; R̂(Tk+ 1) := mint∈ T~k
R̂(Tk+ 1t);
fin, Para;
Si R̂(Tk+ 1) > Cota y R̂(Tk+ 1) < 2 error_mínimo entonces detener el crecimiento;
sino
Si R̂(Tk+ 1) < Error_mínimo
error_mínimo := R̂(Tk+ 1)
Cota := R̂(Tk+ 1) + SE(R̂(Tk+ 1))
fin, Si;
Almacenar el árbol Tk+ 1;
fin, sino;
k:= k+ 1;
hasta no más nodos disponibles o crecimiento detenido;
Seleccionar el árbol correcto Tj0 de la sucesión Tjk mediante la regla 1SE;
Marcar el último nodo dividido como nodo no disponible;
j := j + 1;
Borrar último árbol Tk de la sucesión anterior;
Incluir los restantes en la nueva sucesión j;
Re-inicializar
Error_mínimo := mink
R̂(Tk);
Cota := Error_mínimo + SE(Error_mínimo);
hasta no más nodos disponibles;
/* Selección del árbol correcto * /
Seleccionar árbol T0 de entre T10,…Tj0 que cumpla
Árboles binarios de clasificación
227
T0; R̂(T0) = mink
R̂(Tk0), k= 1,...,j
donde en el algoritmo Tk+ 1t denota el árbol producto de dividir el nodo t∈ T~k
del árbol anterior Tk. También hay que considerar que la partición que genera
un nodo t∈ T~k puede ser de un nodo normal o de un nodo de los llamados
invariable, en cuyo caso el nuevo árbol Tk+ 1 posee una rama, Tt, en el lugar del
nodo t, tal como se explicó en el apartado 7.2.4. En el caso de nodos terminales
normales, la partición de un nodo t para generar el nuevo árbol, Tk+ 1, consiste
en incorporar al árbol anterior, Tk, los dos nodos hijos, tL y tR, del nodo elegido
t.
El conjunto de muestras de aprendizaje L1 utilizado para generar las
particiones, se extrae aleatoriamente del conjunto total L , y el resto constituye el
conjunto para estimar los errores de clasificación, L2, durante el aprendizaje
(apéndice C).
Es interesante observar que el algoritmo no precisa de ningún parámetro
ajustable por el analista para encontrar el árbol correcto elegido a partir del
conjunto de muestras de aprendizaje suministrado. Los parámetros que guían el
crecimiento y deciden la parada del árbol son variables, y función de la
estructura interna del método, siéndolo asimismo la regla de selección del árbol
correcto.
Como aspectos subyacentes en este algoritmo se encuentran el criterio de
impuridad i(t) utilizado para seleccionar la partición óptima de un nodo, criterio
que como se sabe, no influye en la validez del árbol resultado; así como el
conjunto de cuestiones Q utilizado para realizar el conjunto de particiones
posibles. No obstante, siempre se utiliza el cuestionario estándar si el vector de
medidas del problema posee una estructura estándar.
7.3 Experimentos y discusión
En esta sección se realiza la comprobación general del método desarrollado para
la obtención de un árbol de clasificación, así como su comparación con dos
Estudios de análisis de imagen
228
métodos, los propuestos por Breiman et al (1984) y Quinlan (1987), cuyo
fundamento ya ha sido expuesto. Se han elegido estos dos métodos por ser dos
de los que mejores resultados obtienen, según la opinión generalizada encontrada
en la literatura. Estos dos métodos coinciden en que se basan en una poda del
árbol total para encontrar el árbol correcto.
El algoritmo propuesto en este trabajo fue implementado para vectores de
medidas con variables de tipo ordenado, es decir, números enteros o reales, y
variables lógicas, aunque su extensión a variables enumeradas es inmediata,
siempre que el vector de medidas conserve una estructura estándar.
El criterio de impuridad i(t) empleado para seleccionar la partición óptima
en el nodo t fue el criterio Gini definido como
i(t) = ∑ j≠ i
p(j| t) p(i| t)
el cual significa que, si se utiliza como regla de asignación de clase a la clase i
correspondiente a un elemento extraído aleatoriamente del nodo t, con
probabilidad p(i| t), y la probabilidad de que ese elemento fuera de la clase j
sería p(j| t). Por tanto, la probabilidad estimada de clasificación errónea
utilizando esta regla de asignación sería el índice Gini anteriormente expresado.
Este índice tiende a realizar particiones con uno de los nodos descendientes
normalmente más pequeño y más puro y el otro más grande y más impuro.
Respecto a las probabilidades a priori, siempre se escogieron iguales para
todas las clases presentes en el conjunto de muestras. Esta estrategia se escogió
como un compromiso neutro entre la estimación de las probabilidades a priori a
partir del conjunto de aprendizaje o la posibilidad de modificarlas el analista, ya
que realmente no se tenía la certitud de que la frecuencia de aparición de cada
clase en el conjunto de muestras de aprendizaje reflejara la realidad. No
obstante, existe la posibilidad de modificar estas probabilidades en cualquier
momento por el analista, como forma de introducir costes en la clasificación
errónea. No se introdujeron costes diferentes de clasificación errónea entre
clases, contabilizando todos los errores con el mismo coste.
Árboles binarios de clasificación
229
En cuanto a la estimación del error o coste de clasificación errónea R̂(T)
empleado, se ha utilizado el método del test de muestras Rts(T) (ver apéndice
C) para estimar el error de un árbol T. Una de sus características fundamentales
es que la desviación o desplazamiento (bias) de la estimación del error realizada
respecto la probabilidad asintótica de clasificación errónea del clasificador con un
número infinito de muestras es nula, ya que la distribución de probabilidad del
error por estimación de test de muestras corresponde a una distribución
binomial.
Aunque la estimación del error por validación cruzada Rcv(T) puede dar
mejores resultados, ésta sólo es aconsejable para conjuntos de muestras de
aprendizaje de número más bien reducido, ya que este tipo de estimación es
extremadamente costoso. Otros métodos como el llamado bootstrap no funcionan
bien para el caso de los árboles binarios de clasificación.
Por tanto, utilizando el método de test de muestras Rts(T), el conjunto de
muestras de aprendizaje se divide en dos L1 y L2, utilizando el conjunto L1 para
realizar el proceso de crecimiento o generación de la sucesión de árboles, y el
L2 para estimar el error de los árboles encontrados.
Hay que tener en cuenta la proporción de ambos conjuntos, L1 y L2,
respecto del total L , ya que tomando demasiadas muestras para construir el
árbol, no se obtendrá una buena fiabilidad en la estimación del error, mientras
que por el contrario, utilizando pocas muestras en la construcción del clasificador
se realizará una buena estimación pero no se obtendrán garantías de un buen
diseño del clasificador. Aunque no existen muchos estudios al respecto, puede
utilizarse como orientativo la función de pérdida propuesta por Raudys & Jain
(1991), pero no hay nada definitivo al respecto. Una proporción comúnmente
utilizada por otros autores, aunque sin justificación, es tomar L2 como 1 ⁄ 3 de las
muestras totales en L , y por tanto L1 como 2 ⁄ 3 del total.
Respecto al número de muestras del conjunto utilizado como test L2,
existen estudios determinantes en este caso para conocer la fiabilidad del error
de clasificación obtenido, midiendo su intervalo de confianza respecto al error
real y cuyas variaciones se pueden encontrar representadas en el gráfico C.1 del
Estudios de análisis de imagen
230
apéndice C. Más adelante se discutirán los intervalos de confianza de los errores
estimados para los clasificadores aquí obtenidos.
Otra cuestión secundaria es el número de muestras mínimo por nodo, Nmin,
a que se limita el proceso de construcción del árbol para poder dividir ese
nodo. Es conveniente que este número sea pequeño, para poder tener opción al
árbol de mayor tamaño posible que se pueda construir a partir del conjunto de
aprendizaje, que este caso sería coger Nmin = 1. No obstante este parámetro se
utiliza en este caso para impedir posibles árboles de grandes dimensiones que la
memoria de un ordenador personal (PC) no pueda manejar, ya que los árboles,
utilizando el método aquí propuesto, el de Quinlan (1987) y el de Breiman et al
(1984), fueron construidos con programas realizados sobre PC. Si se dispone de
bastantes recursos no existe duda en la elección de Nmin.
Los tres clasificadores ensayados, el del criterio de crecimiento por mínimo
error (ME) aquí propuesto, el de Breiman et al (BR), y el de Quinlan (QN),
fueron utilizados para construir dos árboles de clasificación, uno sobre un
conjunto de muestras perteneciente a un espacio bidimensional de color, el
espacio constituido por las variables ϕ y θ descrito en el capítulo 5; y otro sobre
un conjunto de muestras de 7 dimensiones, cuyo vector de medidas está
constituido por variables de diferentes tipos ordenados, enteras, reales y lógicas,
y cuyas medidas proceden de conceptos totalmente dispares sin relación analítica
aparente. Este vector de medidas se describe en el capítulo 9, cuya función es la
descripción de las características relevantes de regiones segmentadas en la
imagen para poder reconocer la clase perteneciente a los frutos. Cada muestra
de este espacio tiene la posibilidad de ser asignada a 3 clases.
Las muestras correspondientes al espacio de color fueron extraídas a partir
de imágenes en color de escenas naturales de naranjas sin el apoyo de
iluminación artificial. A cada píxel de las zonas de las imágenes tomadas como
muestra se les asigna sus respectivos valores en el espacio ϕθ y se les atribuye
una de las tres clases: naranja, hoja o cielo. El conjunto total de muestras de
aprendizaje L constaba de 19164 muestras, las cuales se dividieron en dos
conjuntos, L1 y L2, tal que L1 ⁄ 2 = L2 ⁄ 2, extrayendo aleatoriamente las muestras
integrantes del conjunto L1 a partir del conjunto total L y asignando a L2 las
Árboles binarios de clasificación
231
restantes de L no utilizadas por L1. Aunque por medio de L2 ya se obtiene una
estimación del error de los árboles encontrados, un segundo conjunto de
muestras test Lt con 77829 muestras, extraído independientemente de imágenes
diferentes a las utilizadas para formar el conjunto L , fue utilizado para obtener
una estimación más fiable del error y comparar con los errores estimados
obtenidos a partir del conjunto L2.
Los resultados obtenidos por los tres árboles de clasificación encontrados
por sendos métodos a partir del mismo conjunto de muestras de aprendizaje y
evaluados con el mismo conjunto test definidos, se muestran en la tabla 7.1.
Análogamente se realizó el mismo procedimiento para el otro ejemplo, que
en este caso el conjunto de muestras de aprendizaje L constaba de 4538
muestras, dividido a partes iguales en los conjuntos L1 y L2. El conjunto de test
posterior Lt estaba formado por 9082 muestras, extraídas independientemente del
Método Nodosterminales
% errorestimadocon L2
% errorestimado
con Lt
% errorclase 1con Lt
% errorclase 2con Lt
% errorclase 3con Lt
tiempodel
aprendizaje(seg.)
ME 37 1,32 1,77 16,27 63,35 0,68 6990
BR 45 1,32 1,92 18,98 62,35 0,75 7002
QN 36 1,28 1,83 15,25 62,35 0,72 7006
Tabla 7.2. Resultado de los árboles binarios sobre el conjunto de muestras de 7 dimensiones.
Método Nodosterminales
% errorestimadocon L2
% errorestimado
con Lt
% errorclase 1con Lt
% errorclase 2con Lt
% errorclase 3con Lt
tiempodel
aprendizaje(seg.)
ME 40 1,92 2,87 3,5 3,17 0,15 1069
BR 39 1,97 2,95 3,36 3,31 0,15 1125
QN 34 1,92 2,9 3,63 3,17 0,15 1152
Tabla 7.1. Resultado de los árboles binarios sobre el conjunto de muestras de color.
Estudios de análisis de imagen
232
conjunto L de muestras obtenidas de las imágenes utilizadas. El resultado de
comprobar el conjunto test en los árboles obtenidos se muestra en la tabla 7.2.
Observando las dos tablas podemos apreciar que, los árboles ME ofrecen
errores de clasificación (estimación por el conjunto Lt) ligeramente inferiores a
los obtenidos por el método QN y BR. Aunque, tal como podemos observar, los
errores estimados para el método ME durante el proceso de aprendizaje con el
conjunto L2, fueron similares a los demás métodos, el número de nodos
terminales varia, por lo que es natural que varie la estimación del error con un
conjunto de muestras diferentes como el Lt.
Respecto a la mejora en los resultados del método ME, se pueden
interpretar como debidos al hecho de que el proceso de aprendizaje desarrollado
trata a las muestras en su sentido natural, es decir, por el mismo proceso que
siguen cuando más tarde se intenta clasificar una nueva muestra, dejandola caer
en el nodo raíz del árbol y siguiendo su camino descendente hasta alcanzar un
nodo terminal. Los métodos por poda del árbol total pierden esta perspectiva
del problema, eligiendo el árbol de abajo a arriba sin tener en cuenta que las
muestras en realidad recorren el camino inverso.
En cuanto al número de terminales de los árboles elegidos, podemos
observar como el árbol ME tienen un número de nodos terminales del mismo
orden que los árboles obtenidos por los demás métodos, por tanto la
complejidad de los mismos sigue siendo similar, pero tal como hemos visto,
mejoran los resultados de clasificación.
Respecto al coste computacional durante el proceso de aprendizaje,
podemos observar como el método ME siempre invierte menos tiempo que los
demás métodos, dependiendo de la estructura del problema, es decir, del número
de muestras, dimensión, etc. En referencia a este aspecto, se ha podido observar
como a medida que el número de muestras del conjunto de aprendizaje, L ,
disminuye, el tiempo utilizado por el método ME se aproxima al de los demás
métodos, hasta llegar cierto número de muestras en el que los tiempos de los
tres métodos son del mismo orden.
El hecho de que la reducción del tiempo en el aprendizaje no sea muy
notable se debe a que la mayor parte del coste computacional en el aprendizaje
Árboles binarios de clasificación
233
corresponde a la búsqueda de la partición óptima de cada nodo, siendo a su vez
más importante en los nodos de los primeros niveles del árbol. El método aquí
propuesto sólo consigue evitar la búsqueda de particiones en los nodos de los
niveles más profundos del árbol, los cuales ya no influyen de una manera tan
decisiva en el coste computacional total.
A pesar de todo, se ha podido demostrar de esta manera que puede
reducirse este coste por medio de técnicas de elección del árbol correcto por un
criterio de parada en el crecimiento, aumentando incluso el porcentaje de
clasificación correcta.
Como conclusión, con estos resultados se demuestra que los métodos de
aprendizaje de árboles binarios por poda del árbol total no son la única
alternativa que puede dar los mejores resultados, quedando patente que el
método de elección del árbol correcto por el criterio de parada en el
crecimiento desarrollado en este trabajo, ofrece tan buenos resultados como los
métodos por poda, incluso ligeramente mejores, considerados como los
procemientos más acertados, reduciendo además el coste computacional en el
aprendizaje, en mayor o menor medida.
En referencia al comportamiento del método aquí desarrollado, se puede
observar en la figura 7.2 la evolución del error estimado, R̂(Tk), de la sucesión
de árboles obtenidos, Tk, por el método ME y el BR en función del número de
terminales, | T~k| , sobre un conjunto más reducido de muestras de color en el
espacio ϕθ. Ello viene a mostrar que realmente se obtienen sucesiones de
árboles a partir del árbol total (BR), o por crecimiento desde el nodo raíz
(ME), que cumplen la propiedad de los árboles binarios a que se hizo mención
en el apartado 7.1, con lo que se corroboran los argumentos adoptados en el
método desarrollado.
Asimismo se pueden observar las oscilaciones a que se hizo referencia en
la zona llana del mínimo. Se puede también observar como el método
desarrollado, ME, consigue encontrar árboles cuyo error queda por debajo de los
encontrados por el método BR, teniendo la particularidad que la sucesión se
corta antes del tramo ascendente suave, propio de un criterio de parada en el
Estudios de análisis de imagen
234
crecimiento, al contrario que el método BR, que obtiene árboles durante el
aprendizaje cuyo número de terminales alcanza hasta el del árbol total.
En cuanto a las sucesiones alternativas, las experiencias realizadas revelan
que no aportan cambios significativos a la sucesión que se genera en primer
lugar, ya que se ha podido comprobar que, por regla general, los nodos de un
mismo nivel del árbol siempre introducen menos error que los nodos de un
nivel inferior, provocando un crecimiento del árbol a lo ancho, ya que se van
generando nodos de un mismo nivel hasta casi completarlo antes de pasar al
siguiente, con lo que en las experiencias aquí realizadas, las sucesiones
alternativas no ofrecieron nunca un mejor resultado que la sucesión generada
inicialmente.
Por tanto, las experiencias del método ME con sucesiones alternativas
vienen a formular la cuestión de si el comportamiento, en general, para todos
los árboles de decisión, pasa por un crecimiento del árbol a niveles, rellenando,
aproximadamente, cada nivel antes de contemplar el siguiente.
0 20 40 60 80
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
BR
| T~k|
R̂(Tk)
ME
Figura 7.2. Evolución del error estimado de la sucesión deárboles por el método BR y ME.
Árboles binarios de clasificación
235
Segunda Parte
SISTEMA DE VISIÓN
DEL ROBOT
Capítulo 8
SISTEMA DE VISIÓN.
MATERIALES
A lo largo de la primera parte se han descrito los estudios realizados para
desarrollar las técnicas de análisis de imagen que permitirán diseñar los
procedimientos o algoritmos de análisis de imagen que puedan lograr los
objetivos perseguidos en la implementación de un sistema de visión para la
recolección robotizada de naranjas, u otros tipos de frutas.
Como todo sistema de visión artificial, éste consta de una parte física o
electrónica, y otra de soporte lógico, constituida por los procesos de análisis de
imagen. Dentro de la parte física, todo sistema de visión consta de:
- Un sistema de adquisición de imágenes.
- Un sistema de almacenamiento de las imágenes.
- Un sistema de proceso de la información.
- Un sistema de visualización.
En cuanto a la parte lógica, está formada por un conjunto de algoritmos
cuya implementación refleja las técnicas y métodos que se pretende aplicar a las
imágenes en cuestión, para extraer de ellas la información de interés y que será
utilizada en este caso para detectar, reconocer y localizar los frutos.
A continuación se realiza una descripción del material utilizado que forma
parte del sistema de visión. La elección de sistemas de almacenamiento y
proceso basados en entornos PC (Personal Computer) obedece a una de las ideas
generales o directrices dentro del proyecto, cuyo fin es utilizar estos sistemas
que, debido a su bajo coste económico, su flexibilidad debido a su
estandarización, su simplicidad y su robustez frente factores agresores en
ambientes poco acondicionados (PC industriales) como es el trabajo con
máquinas y ambientes exteriores, reunen los requisitos principales de cara al
objetivo final del proyecto de obtener un producto que sea totalmente operativo,
de bajo coste y comercializable.
8.1 Sistema de adquisición de imágenes
El sistema de adquisición se compone de un sensor, una cámara de video, que
permite recoger la información visual de la escena que se quiere analizar,
codificándola en señales de video para ser transportadas a otros dispositivos para
su almacenamiento y proceso. Este sistema de adquisición, además del sensor
puede incluir dispositivos de apoyo, tal como fuentes de iluminación artificial u
otras estructuras de diversa naturaleza (sistemas mecánicos de sujeción, filtros
interferométricos, etc) que faciliten el proceso de adquisición de la imagen.
Como sensor se han utilizado dos tipos de cámaras diferentes:
- Dos cámaras de video CCD (Charge Coupled Device) monocromas de
idénticas características, con una área sensible de 8.8 x 6.6 milímetros que
contienen 500 x 582 píxels o elementos sensibles y cuya iluminación mínima es de
3 lux con F1.4, sin el filtro de corte infrarrojo que poseen. El sistema de barrido
y codificación de la señal es el PAL (ver Apéndice B), y las cámaras tienen
unas dimensiones aproximadas de 50 x 50 x 119 milímetros.
- La cámara color utilizada es también del tipo CCD, con un área sensible
de 8.8 x 6.6 milímetros, conteniendo 756 x 581 elementos sensibles y cuya
iluminación mínima es de 25 lux con F1.4. Posee una salida de video separada
RGB y una de video PAL compuesto; tendiendo la posibilidad, en el caso de la
señal de video separada, de llevar el sincronismo entrelazado con el verde o por
separado. Sus dimensiones aproximadas son de 50 x 56 x 149 milímetros.
En ambos tipos de cámaras se utilizaron indistintamente dos objetivos de
montura estándar tipo C con focales 8 y 16 milímetros respectivamente, los
cuales tenían un control de enfoque y diafragma manual. En el caso de las
experiencias de estereoscopia, tanto el diafragma como el enfoque en ambas
cámaras se fijaba en la misma posición, el enfoque siempre al infinito y el
Sistema de visión del robot
240
diafragma se fijaba en una posición que depende de la iluminación de las
escenas.
Los filtros interferométricos que se utilizaron sobre las cámaras en blanco y
negro, estaban centrados en los 650 nm , con un ancho de banda de 10 nm , y una
transmitancia del 67 %. Estos filtros se colocan delante del objetivo de la cámara
mediante un dispositivo de rosca que impide el paso de la luz por otro lugar
que no sea a través del filtro.
Como fuente de iluminación artificial se utilizó un flash fotográfico de
número guía de 32 metros para una película de 100 ASA de sensibilidad, cuya
lámpara produce una luz con temperatura de color de 5600 °K.
Una tarjeta de E/S (Entrada/Salida) comercial realiza el disparo del flash a
través de uno de los ocho relés que contiene la tarjeta y que son accionados o
desconectados por medio de los datos dispuestos en un puerto de E/S del
ordenador. Los relés de esta tarjeta tiene como características, un tiempo de
puesta en marcha o conexión típico de 3 milisegundos, y un tiempo de
desconexión típico de 2 milisegundos, llegando a soportar como máximo una
diferencia de potencial de 500 voltios.
8.2 Sistema de almacenamiento de imágenes
Como sistema de muestreo y almacenamiento de imágenes, se han utilizado dos
tarjetas, una para imágenes monocromas y otra para imágenes color. Estas
tarjetas son instalables en las ranuras de expansión del ordenador, pudiendo
intercambiar información con el procesador central. Las tarjetas muestrean las
señales de video de entrada, monocroma o RGB respectivamente, con una
resolución de 512 x 512 píxels, y se almacenan en una memoria de tipo RAM
(random access memory) accesible desde el procesador. Un conversor D/A
permite ver el contenido de la memoria enviando la señal a un monitor de
visualización.
Sistema de visión. Materiales
241
8.2.1 PIP-1024B1
Esta tarjeta digitalizadora adquiere imágenes monocromas. Tiene la particularidad
de poder trabajar sobre el bus del PC, por medio del cual existe una
comunicación con la tarjeta a través de unos registros de E/S (Entrada/Salida).
Consta de 3 canales de entrada de video (figura 8.1) y uno interno que codifica
lo que en esos momento hubiera en la memoria imagen. Tras muestrear y
digitalizar la señal de entrada, ésta atraviesa una tabla de consulta o LUT (Look
Up Table), por medio de la cual se pueden realizar ciertas operaciones en
tiempo real antes de almacenar la información en el banco de memoria de la
tarjeta o frame buffer, que puede llegar a contener 4 imágenes monocromas de
512 x 512 píxels y con 256 niveles de gris.
A través de un codificador o keyer se puede superponer la imagen de
entrada con lo que está en esos momentos almacenado en el cuadrante activo
del banco de memoria. Los datos, bien procedentes del banco de memoria, o
bien directamente de la entrada en modo de grabación no continua, atraviesa a
Figura 8.1. Esquema de la tarjeta PIP-1024B.
Sistema de visión del robot
242
1 PIP-1024B es una marca registrada de MATROX Electronics Systems Limited, Canada
la vez tres LUTs correspondientes a lo que serán las bandas R, G y B de la
señal de video de salida, permitiendo visualizar las imágenes en pseudocolor.
Por medio del bus del PC (Personal Computer) se pueden modificar los
contenidos de todas las LUTs a través de los registros al efecto. El acceso a los
datos del banco de memoria imagen se realiza a través de unos registros de
lectura y escritura de píxels que apuntan a la dirección dentro del banco de
memoria marcada por otros registros que realizan la función de punteros y que
pueden ser modificados a través del bus.
Unos registros de control y estado dan información del estado de la tarjeta,
así como la posibilidad de modificar alguna de sus modalidades de
funcionamiento.
8.2.2 DT-28712
La DT-2871 es una tarjeta de adquisición y digitalización de imágenes en color.
A diferencia de la PIP-1024 solo funciona acoplada en buses extendidos del PC,
que le permite ciertas peculiaridades de funcionamiento.
Tienen un único canal de entrada de señal de video analógica RGB
descompuesta (figura 8.2), estas señales pasan a través de un conversor analógico
digital y seguidamente a un conversor RGB/IHS, que se activa según el modo de
funcionamiento activo. Cada banda de la imagen se almacena en un banco de
memoria con una resolución de 512 x 512 píxels en un rango de 256 valores,
además posee un banco auxiliar de las mismas dimensiones para realizar
operaciones intermedias. El contenido del banco de memoria pasa a través de un
conversor IHS/RGB y a continuación por otro D/A (Digital/Analógico) para
construir la señal de video de salida en RGB.
Esta tarjeta tiene la particularidad, además de poder trabajar con imágenes
IHS en tiempo real, de tener la memoria imagen accesible directamente por el
microprocesador del ordenador, ya que se encuentra mapeada directamente en la
memoria ampliada del PC. Además posee un bus específico llamado bus DT, el
Sistema de visión. Materiales
243
2 DT-2871 es una marca registrada de Data Translation, Estados Unidos.
cual permite la transferencia de información entre el banco de memoria de la
tarjeta y otras tarjetas de proceso específico compatibles con este bus. Por
último, un registro de control y estado informa del estado de la tarjeta y
posibilita la programación de los diferentes modos de funcionamiento de que
dispone.
8.3 Sistema de proceso
El procesado de la información referente a una imagen se realiza mediante un
ordenador convencional o mediante procesadores de imagen cuyo hardware ha
sido diseñado de forma especifica para los procesos usuales realizados en análisis
de imagen para obtener tiempos de proceso menores.
Como sistema de proceso se ha utilizado un ordenador personal con un
microprocesador INTEL 80386 y un coprocesador matemático 80387, a una
frecuencia de reloj de 33 Mhz. Un ordenador portátil adicional con un
microprocesador INTEL 80286 a una frecuencia de 12 Mhz se utilizaba para
ensayos en el exterior y tomar muestras de imágenes de frutos en su ambiente
Figura 8.2. Esquema de la tarjeta DT-2871.
Sistema de visión del robot
244
natural; este ordenador portátil posee dos ranuras de expansión para poder
instalar las tarjetas de adquisición y almacenamiento de imágenes.
Para la tarjeta de adquisición y almacenamiento en color se disponía de un
procesador específico para análisis de imagen, que contiene una memoria
adicional para realizar operaciones, conectada con la memoria de la tarjeta de
almacenamiento por un bus específico que transmite información a una velocidad
de 10 Mhz. Este procesador posee una unidad aritmético-lógica que permite
realizar operaciones elementales con gran rapidez (el tiempo que tarda en
transmitir la información de una imagen de un banco de memoria a otro).
8.4 Sistema de visualización
Las imágenes almacenadas o el contenido de la memoria de la tarjeta, se
pueden visualizar a través de un monitor que recoge la señal analógica que
Figura 8.3. Equipo de análisis de imagen para ensayos en el campo.
Sistema de visión. Materiales
245
codifica el conversor D/A de la tarjeta. Esta señal es de video separada en sus
tres componentes RGB.
Se han utilizado dos tipos de monitores, uno con una pantalla de 16
pulgadas para uso en el laboratorio, y otro portátil de 6 pulgadas como parte
del equipo de toma de muestras y ensayos en el campo citado anteriormente.
8.5 Software
Todos los programas de análisis de imagen han sido desarrollados en lenguaje C,
concretamente en el compilador TURBOC3, por motivos de coherencia con el
resto del equipo de trabajo del CITRUS.
Estas funciones se han construido utilizando un módulo de rutinas u
operaciones básicas que precisan un desarrollo de software específico a bajo nivel
según el tipo de tarjeta. Estas funciones base interaccionan directamente con la
estructura hardware de la tarjeta y realizan el papel de interfaz entre los
programas de análisis de imagen y el sistema hardware, con lo cual, los mismos
programas desarrollados para una tarjeta son aplicables a la otra utilizando el
módulo de funciones específicas correspondiente.
Sistema de visión del robot
246
3 TURBOC es una marca registrada de Borland International Inc., Estados Unidos.
Capítulo 9
SISTEMA DE VISIÓN.
METODOLOGÍA
Antes de entrar en una descripción de los métodos de análisis de imagen
utilizados y que están basados en las técnicas expuestas en la primera parte de
este trabajo, analicemos los aspectos del problema en particular que condicionan
o motivan la utilización de la metodología que aquí se presenta.
La aplicación que nos ocupa tiene como fin detectar y localizar las naranjas
o frutos durante la tarea de la recolección realizada por un robot. Durante este
proceso el robot se sitúa en cierta posición frente al árbol, en la que el sistema
de visión tiene que localizar los frutos que aparecen en la escena y que pueden
ser alcanzados por el robot. Cuando se han recolectado todos los frutos
detectados en una posición, el robot cambia de posición repitiendo el proceso.
Estos cambios de posición se realizan de manera que el campo de visión y de
alcance del robot realizan un barrido exhaustivo por la superficie del árbol.
Para realizar este barrido exhaustivo se realizan dos tipos de movimientos,
uno vertical y otro horizontal. El movimiento horizontal consiste en un
desplazamiento del robot a lo largo de la calle entre dos hileras de naranjos.
Este movimiento se realiza a saltos fijos de una distancia relacionada con el
cuadro que abarca el sistema de visión sobre la superficie del árbol, es decir, si
el sistema de visión contempla en cada escena un cuadro de 100 x 100 cm ,
entonces el robot se desplazará por la calle a saltos de 60 o 70 cm , es decir,
aproximadamente 2 ⁄ 3, con el fin de realizar un cierto grado de solapamiento. En
cada una de estas posiciones el vehículo que transporta el robot se detiene y
realiza un movimiento en vertical para barrer la tira que define la anchura del
cuadro del sistema de visión por la altura del árbol. El movimiento en vertical
es análogo al horizontal, que considerando las medidas anteriormente citadas,
este movimiento consistirá en desplazamientos de longitud 60 o 70 cm desde la
parte inferior del árbol hasta su parte más alta. Esto se realiza mediante un
sistema elevador que levanta el brazo robot junto con la cámara que le es
solidaria.
En cada una de las posiciones durante el desplazamiento en vertical, el
sistema de visión analiza la escena buscando los frutos que allí se encuentran
para que el brazo los pueda atrapar. Una vez el robot ha recogido todos los
frutos que el sistema de visión ha detectado en la escena correspondiente a esa
posición, el elevador coloca el brazo en la siguiente posición continuando el
barrido. Cuando se ha barrido una tira de abajo a arriba, el elevador desciende
el brazo a su punto inferior de partida y el vehículo avanza según el movimiento
en horizontal descrito, comenzando de nuevo el movimiento de barrido vertical.
Para recoger todos los frutos que se encuentran en una escena
correspondiente a una de las posiciones del robot durante el barrido, el sistema
de visión toma una imagen y la analiza buscando un fruto. Una vez se ha
encontrado y localizado un fruto, el brazo del robot se dirige a su posición e
intenta atraparlo. Para continuar con el proceso, el sistema de visión toma de
nuevo otra imagen de la escena para buscar otro fruto, ya que al eliminar un
fruto de la escena, ésta varia, pudiendo incluso variar apreciablemente la
posición de frutos cercanos al fruto que se acaba de recolectar por efecto del
movimiento ascendente de las ramas al aligerarlas del peso de los frutos
recogidos. Este proceso continua hasta que el sistema de visión toma una imagen
de la escena y no encuentra más frutos, pasando a la escena siguiente para
seguir el barrido.
Todo este proceso dinámico como es la tarea de la recolección, comporta
una problemática a la hora de realizar la aplicación, ajena al fundamento de
análisis de imagen en si, pero que es necesario resolver para alcanzar con éxito
el objetivo de implementación de un sistema de visión del robot. Todas las
técnicas desarrolladas como parte adicional al proceso de análisis de imagen para
resolver estos problemas forman la llamada estrategia de visión, que consta de
una serie de procedimientos para gestionar toda la problemática que surge
Sistema de visión del robot
248
durante la inspección de las escenas durante una tarea dinámica como es la
recolección.
9.1 Estrategia de visión
El hecho de que durante el análisis de una imagen de cierta escena, se detecte
y localice la posición de un sólo fruto para que el brazo se dirija a él para su
recolección, supone que no es necesario analizar la totalidad de la imagen para
poder encontrar un fruto, ya que tras detectar el fruto y realizar el movimiento
de recogida, se vuelve a tomar otra imagen de la misma escena iniciando de
nuevo la búsqueda para recolectar un nuevo fruto.
Se toma una nueva imagen cada vez que se inicia el proceso de análisis de
imagen porque el robot presumiblemente habrá atrapado el fruto, variando la
configuración de la escena, y en algunos casos hasta la posición de algunos
frutos cercanos al recolectado, por el motivo descrito de la ascensión de las
ramas por disminución de peso, o simplemente por el movimiento que imprima
la mano o algún elemento del brazo al colisionar en su movimiento de
acercamiento al fruto, dejando oscilando alguna rama o frutos.
Dado que el objetivo al analizar una imagen es encontrar un primer fruto,
lo adecuado sería realizar un análisis en forma de barrido por la imagen de tal
forma que, al encontrar el primer fruto el proceso de análisis se detuviera sin
tener que invertir tiempo adicional en el procesado del resto de la imagen, por
razones de optimización en el tiempo que utiliza el sistema de visión. Esto nos
lleva en primer lugar a adoptar una estrategia de análisis de la imagen a través
de procedimientos locales, es decir, por medio del estudio de píxels individuales
o grupos de píxels vecinos; y en segundo lugar a una estrategia de barrido de
los píxels de la imagen, de manera que se realice un recubrimiento de toda la
imagen pero de la forma más adecuada a las características de este problema.
9.1.1 Barrido de la imagen. Alternancia
Los posibles efectos que condicionan la forma de barrer la imagen en busca de
un fruto vienen condicionados por dos motivos, en primer lugar hay que tener
Sistema de visión. Metodología
249
en cuenta que, tras una de las acciones del brazo realizada sobre la escena para
atrapar un fruto, el efecto habitual es que la rama y frutos cercanos al fruto que
acaba de atrapar o intentar atrapar, quedan en movimiento oscilante durante
cierto periodo de tiempo. Al tomar de forma inmediata la siguiente imagen, ésta
representa una escena estática, pero la zona donde se encontraba el fruto
anteriormente atrapado se encontrará normalmente en movimiento, aunque ello
no se refleje en la imagen que en forma de instantánea se tiene de la escena.
Por tanto, es lógico que el inicio del siguiente proceso de búsqueda de un
fruto se realice en otra parte de la imagen, con el fin de evitar localizar un
fruto cercano a la zona descrita que se encuentra en posible movimiento. Este
proceso de búsqueda en zonas distintas de la imagen de forma alternante en
imágenes sucesivas de una misma escena puede evitar que se detecte un fruto
que se encuentre en movimiento, ya que si esto ocurriera, se tendría una
imprecisión en su posición, y por lo tanto, la probabilidad de que el robot falle
en el intento de atraparlo, ya que este se dirige de una manera ciega a la
posición que le indica el sistema de visión.
En segundo lugar hay que tener en cuenta el hecho ya mencionado de que,
al aligerar de peso, debido a la condición elástica de las ramas, provoca una
ascensión de las mismas, y por lo tanto la ascensión de los frutos restantes que
les son solidarios, apareciendo en la
siguiente toma de una misma escena
en una posición más alta, nunca más
hacia abajo.
Considerando estos dos
factores, la alternancia y la ascensión
de los frutos, el barrido de las
imágenes de una única escena se
realiza, en primer lugar, dividiendo
la imagen en 16 sectores o ventanas
de igual tamaño (figura 9.1), de
forma que se analizan los píxels de
cada sector barriéndolos de
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 15
Figura 9.1. Sectores y caminos alternos en laimagen.
Sistema de visión del robot
250
izquierda a derecha y de abajo a arriba, es decir, si los píxels (x,y) de un sector
son tales que cumplen que x1 ≤ x ≤ x2 y y1 ≤ y ≤ y2, se barren de la forma
Para y = y2 hasta llegar a y = y1
Para x = x1 hasta llegar a x = x2
Analizar píxel;
x := x + 1;
fin, Para;
y := y − 1;
fin, Para;
donde y se decrementa porque los píxels de filas superiores en la imagen poseen
ordenadas menores (ver figura 2.1).
Para asegurar la alternancia en la búsqueda de los frutos en imágenes
sucesivas de una misma escena, si en la imagen anterior se buscó en un sector
determinado, en la siguiente imagen se reanudará la búsqueda en un sector
diferente. Esta búsqueda alternante entre sectores en imágenes sucesivas se
realiza en el orden que se muestra en la figura 9.1, en la que se pueden
observar dos caminos diferentes de barrido de los sectores. Cada uno de estos
caminos se recorre a través de tomas alternas, es decir, si en la imagen que se
esta analizando primero se empieza por el camino derecho, la siguiente
empezará por el camino izquierdo, y la que le siga volverá a seguir el camino
derecho y así sucesivamente, asegurando la alternancia en la búsqueda en zonas
diferentes de la imagen en imágenes sucesivas.
El hecho de que el orden de búsqueda en cada camino es de forma
ascendente asegura que será posible encontrar todos los frutos de una escena, ya
que si los frutos ascienden en la escena por el efecto mencionado, llegará un
momento que serán visitados durante el análisis de una escena o, a lo sumo, en
la escena siguiente, cuando el robot ascienda en el barrido vertical en el caso de
que el movimiento de ascensión sacara a los frutos fuera de plano, los cuales
quedarían siempre en la escena superior.
El proceso en forma de algoritmo se puede describir como sigue
Sistema de visión. Metodología
251
fin_impar := falso;
fin_par := falso;
imagen := par;
Hacer para cada escena
Tomar imagen;
Si imagen es impar entonces imagen := par;
sino imagen := impar;
Si imagen impar o fin_par entonces
Tomar camino izquierdo;
Hacer
Búsqueda en sector actual;
Si no se encontró nada entonces sector actual := sector siguiente;
hasta fruto encontrado o final de camino;
Si final de camino entonces final_impar := verdadero;
fin, Si;
Si imagen par o (fin_impar y no se encontró nada) entonces
Tomar camino derecho;
Hacer
Búsqueda en sector actual;
Si no se encontró nada entonces sector actual := sector siguiente;
hasta fruto encontrado o final de camino;
Si final de camino entonces fin_par := verdadero;
Si fin_par y no se encontró nada entonces
Si no fin_impar entonces
Tomar camino izquierdo;
Hacer
Búsqueda en sector actual;
Si no se encontró nada entonces sector actual := sector siguiente;
hasta fruto encontrado o final de camino;
Si final de camino entonces final_impar := verdadero;
fin, Si;
fin, Si;
fin, Si;
hasta fin de los dos caminos;
Sistema de visión del robot
252
Es necesario apuntar que cada vez que se toma una imagen, sea par o
impar, de una misma escena, el sector actual de búsqueda del camino
correspondiente por el que se inicia el análisis es el último sector que se visitó
en la imagen anterior correspondiente al mismo camino, con lo que se evita
tener que analizar de nuevo la imagen desde el sector más inferior del camino,
ya que por los principios de comportamiento descritos, cuando se va avanzando
en la detección y recolección de sectores de la imagen en forma ascendente, en
los sectores inferiores no existirán frutos, por lo que no es necesario reanudar la
búsqueda por allí. Por tanto, esta estrategia permite un ahorro de coste
computacional, eliminando sectores de búsqueda ya inspeccionados en tomas
anteriores.
En cuanto a la alternancia, ésta permite que, por ejemplo, para tiempos de
ciclo de 2 o 2,5 segundos, una misma zona no se analice hasta dos tiempos de
ciclo después, unos 4 a 5 segundos, ya que en la imagen siguiente
correspondiente al ciclo posterior, la zona de búsqueda vendrá determinada por
el sector actual del otro camino. Estas dos zonas de búsqueda están separadas
en el espacio, al menos, sobre el plano de la escena, la distancia que
corresponde a la anchura de un sector en la imagen, es decir, si, por ejemplo, la
imagen cubre en la escena un metro cuadrado de superficie sobre el árbol, la
alternancia supone que la siguiente búsqueda se realizará al menos a 25 cm de
la posición del último fruto detectado, si el cuadro de la escena es de un metro
por un metro.
Por otra parte, la estructura de los caminos en la alternancia no tiene por
que ser la misma en todo tipo de frutos. Los caminos señalados en la figura 9.1
son los utilizados para naranjas. En el caso de manzanas, el efecto pendular de
muchas ramas, debido a la estructura del árbol, provoca movimientos de las
ramas más prolongados, siendo en algunas variedades un problema que se
presenta muy a menudo; estos tiempos de movimiento más prolongados obliga a
buscar caminos alternos, donde los sectores se alejen más en el espacio y en el
tiempo, para tratamientos de dos imágenes sucesivas de una misma escena. En el
caso de naranjas estos movimientos son más cortos y menos frecuentes, ya que
Sistema de visión. Metodología
253
la estructura de las ramas de los naranjos son más rígidas y no provocan
movimientos oscilantes tan largos.
Hay que resaltar que esta estrategia ha sido la adoptada en este momento
y con el equipo mencionado, de acuerdo a la filosofía del proyecto. Existen
varias maneras de abordar este problema, incluso se han realizado trabajos
específicos en este sentido (Edan et al, 1990), pero sobre todo en función de las
características del enfoque del problema (Harrell et al, 1990). No obstante,
tampoco se descarta en un futuro la posibilidad de procesar completamente toda
la imagen, con la ayuda de equipos más potentes en los que el coste
computacional no sea un condicionante, centrándose entonces la estrategia de
visión en elegir el fruto adecuado de todos los frutos detectados en la escena de
acuerdo a ciertos criterios.
9.1.2 Solapamiento de escenas. La redundancia
El solapamiento de escenas contiguas en cierto grado (figura 9.2), tanto en
dirección vertical como horizontal, es una técnica que tiene dos efectos positivos.
En primer lugar el solapamiento permite visualizar zonas de la escena
precedente por segunda vez, pero desde
un ángulo ligeramente diferente, lo que
permite en algunos casos visualizar frutos
que en la escena anterior permanecían
ocultos. Además permite volver a intentar
de nuevo el poder atrapar ciertos frutos
que el sistema de visión detectó en la
escena anterior pero que el brazo robot
falló en su recogida, contemplándose una
segunda oportunidad.
En segundo lugar, y como efecto más
importante, un ligero solape de las escenas
permite visualizar correctamente frutos que
en escenas anteriores se encontraran en el
borde de la imagen dificultando su
escena 3
zonas desolapamiento
escena 1
escena 2
Figura 9.2. Solapamiento de escenas endirección vertical.
Sistema de visión del robot
254
reconocimiento, pudiéndolos observar completamente en escenas posteriores. En
cualquier caso el solape de las escenas tiene un efecto redundante en el análisis
de ciertas zonas de las escenas, para evitar la pérdida de frutos por deficiencias
en la estructura del campo visual. Como contrapartida, este efecto redundante
tiene el inconveniente del coste en tiempo, ya que para el barrido de la
superficie del árbol se tardará más tiempo cuanto mayor sea el grado de
solapamiento.
Con el fin de buscar grados de solapamiento que lleguen a un compromiso
entre el efecto de redundancia y el factor incremental de la visibilidad de los
frutos, se han realizado estudios de los efectos del solapamiento en el aumento
de la visibilidad de los frutos (Juste et al, 1991). Las conclusiones de estos
trabajos son que para escenas solapadas en un 33 % a lo largo de los dos
movimientos, vertical y horizontal, la mejora en la visibilidad de los frutos en
plantaciones tradicionales pasa de un 50 % a un 70 % de los frutos presentes en
el árbol aproximadamente.
9.1.3 Gestión de fallos
En un proceso de análisis virtual de una imagen, el hecho de fallar en el
reconocimiento de un objeto, en este caso los frutos, no tiene tanta
trascendencia como en un proceso real. Mientras que en el proceso virtual ese
fallo en la detección se queda en un mero dato estadístico, en un proceso real
supone dos inconvenientes importantes.
El primer inconveniente es que de producirse un fallo en la detección se
desencadena un movimiento innecesario del robot para intentar atrapar un fruto
inexistente. En segundo lugar, dado que se produjo un fallo en la detección, éste
volverá a ocurrir si se analiza de nuevo la misma zona de la imagen, ya que no
siendo un fruto, ese objeto no desaparecerá de la escena en imágenes sucesivas.
Además, esto produce un efecto psicológico negativo cuando se observa el robot
en funcionamiento durante la recogida.
Un segundo tipo de fallos producen el mismo efecto que el fallo del
sistema de visión, los fallos producidos por el robot en el intento de atrapar el
fruto detectado, aún siendo realmente un fruto. Estos tipos de fallos deben
Sistema de visión. Metodología
255
gestionarse de la misma forma que los fallos del sistema de visión ya que tanto
el planificador de tareas del robot como el sistema de visión, nunca sabrán
verdaderamente por cual de los dos motivos se produjo el error, si por fallo del
sistema de visión o por fallo en el intento.
Los fallos en los intentos de atrapar los frutos son debidos principalmente
a tres causas:
1- Alcance del fruto.
2- Dirección del brazo hacia un punto erróneo.
3- Presencia de obstáculos.
Los fallos debidos a que los frutos se encuentran fuera del alcance del
robot son uno de los principales motivos de error. Este tipo de fallos se puede
minimizar conociendo la distancia a los frutos, como por ejemplo mediante una
técnica de estereoscopia como la descrita en este trabajo. Conociendo la
distancia a priori a que se encuentra el fruto detectado por el sistema de visión,
el planificador del robot podría decidir si intenta atraparlo o no, conociendo si
se encuentra dentro o fuera del alcance del brazo. Esto evitaría todos los
movimientos innecesarios que suponen este tipo de fallos, que en los primeros
ensayos con el robot supusieron un 37 % de los fallos del robot, sin un sistema
de cálculo de la distancia al fruto.
En cuanto a los errores por dirigirse el brazo a un punto erróneo, éstos
son debidos a que la mano se dirige a un punto ligeramente desplazado del
centro el fruto, efecto que se produce cuando no se apunta a su centro. Esto es
debido principalmente por dos causas, en primer lugar a que el sistema de
visión no determina el centro geométrico del fruto, proporcionando normalmente
el centroide de la región visible, que en el caso de frutos parcialmente ocultos
cuya superficie visible sea menos de un 50 %, o en el caso de racimos cuando
no se diferencian los frutos individualmente, siempre se encuentra desplazado de
su centro geométrico. En segundo lugar estos fallos son debidos a que el diseño
de la mano, que tal como esta concebida actualmente, únicamente permite un
margen de error en el desplazamiento respecto al centro geométrico del fruto de
unos 3 o 4 centímetros.
Sistema de visión del robot
256
Para solucionar este problema, por la parte que le corresponde al sistema
de visión, la cantidad de fallos de este tipo queda reducido por medio de la
determinación del centro geométrico del fruto a través del cálculo de la
circunferencia que representa el contorno del fruto y que puede ser reconstruida
a partir de frutos parcialmente ocultos mediante las técnicas descritas en la
primera parte de este trabajo.
La presencia de obstáculos es el último de los principales motivos de esta
serie de fallos, obstáculos que deberían ser detectados por el sistema de visión,
que en el caso de naranjas sólo se reducen a la presencia de ramas que,
permitiendo la visión parcial del fruto sean lo suficientemente rígidas como para
poder obstaculizar el movimiento de acercamiento de la mano al fruto. En este
tipo de fallos surge una controversia que depende para el caso particular de
cada tipo de frutos.
En todo caso, por cualquiera de los motivos que se produce un fallo en la
recolección de un fruto, estos fallos deben tratarse mediante cierta estrategia
para poder seguir en el proceso de análisis de la escena que se está tratando, ya
que de lo contrario, al tropezar con un fallo, se incurriría sucesivamente en el
mismo si no se decidiera algo al respecto. Por otra parte, debe ser uno de los
principales objetivos de un sistema de visión cometer la menor proporción de
errores posibles de los que de alguna manera dependan del buen funcionamiento
de este sistema, como una tasa errores reducida en el reconocimiento, el cálculo
de la distancia, el calculo del centro geométrico del fruto, y en última instancia
la detección visual de obstáculos.
En cuanto a los métodos de gestión de los fallos, todos éstos se consideran
como tales, sean de la naturaleza que sean, debido a que no se puede averiguar
por que motivo exacto se produjeron desde el punto de vista de una aplicación
en tiempo real.
El procedimiento más simple, considerando la estructura de sectores en que
se divide la imagen para la búsqueda, es que se pase al sector siguiente cuando
se ha producido un fallo. Mediante esta técnica se consigue no caer
repetidamente en el mismo fallo, pero tiene el inconveniente de perder
Sistema de visión. Metodología
257
definitivamente los posibles frutos que se encuentren exclusivamente en ese
sector.
Un segundo procedimiento más elaborado consiste en marcar la zona donde
se encontraba la región del objeto en que se produjo el fallo, para omitirla
durante el análisis sucesivo de la escena. Esto se puede conseguir de manera
relativamente sencilla mediante el siguiente proceso:
Se toma una imagen y se analiza;
Cuando se detecta el posible fruto se borra su región correspondiente en la imagen
mediante un etiquetado o borrando con un parche rectangular que inscriba la región;
Si se cometió un fallo en el intento entonces
Sin tomar una nueva imagen, se sigue analizando la misma imagen anterior en la
que el objeto que produjo el fallo estará borrado;
sino se vuelve a tomar una nueva imagen y se repite el proceso normal;
Obsérvese que en el caso que ocurra un fallo, la imagen que se sigue
analizando ya tiene borrada la información relativa a la zona donde se
encontraba el objeto que produjo el fallo, con lo que no se volverá a detectar,
al menos hasta que se produzca un nuevo acierto o se cambie de sector por no
encontrarse más frutos. Esta estrategia asegura que, aunque se repita dentro de
un mismo sector la detección de un mismo objeto que provoque un fallo
reiteradamente, éste fallo no se producirá indefinidamente ya que cuando se
hayan recolectado todos los frutos del sector y sólo se produzcan fallos en tal
sector, se pasará al siguiente abandonando definitivamente el sector anterior.
Otro aspecto que contempla esta estrategia es lo que se podría llamar la
segunda oportunidad. Dado que no se conoce la naturaleza de los fallos, es muy
probable que el error haya sido producido por un fallo en el intento de la mano
en coger el fruto (según datos experimentales del robot en situaciones reales, el
30 % de los fallos son debidos a un error en la mano, por fallos mecánicos,
obstrucción, etc). Por tanto, la contemplación de una segunda oportunidad para
poder recoger frutos detectados correctamente y en los que se produjo un fallo
al atraparlos, es un elemento para poder aumentar la tasa de recogida.
Sistema de visión del robot
258
En particular la estrategia descrita de gestión de fallos permite en la
mayoría de los casos una segunda o incluso un número mayor de oportunidades
si se da el caso, menos para el último fallo realizado en cada sector. Para poder
entender esto, supongamos por un momento un caso extremo, en un sector
determinado donde sólo se detectan objetos que producen fallos, por ejemplo
tres. Cuando se produzca el primer fallo, en la siguiente búsqueda se encontrará
el siguiente y como éste último también producirá un error, sin tomar una nueva
imagen se encontrará el último del sector, el cual, al producirse un nuevo error
y no encontrar nuevos objetos en tal sector, se pasará al siguiente sector sin
posibilidad de volver a detectar los mismos errores en el sector anterior.
Por otro lado, supongamos que en un sector se van a detectar dos objetos
uno que producirá un fallo y el siguiente que producirá un acierto. Si se
produce primero el fallo, sin tomar una nueva imagen se encontrará el siguiente
objeto, que al producirse con éxito su recogida se tomará una nueva imagen y se
analizará de nuevo todo el sector, detectando de nuevo el fruto que produjo un
fallo, dándole una segunda oportunidad, que en el caso de un nuevo fallo se
terminará de explorar el sector y, al no encontrar nada más, se pasará al
siguiente sector.
Lo ideal sería llevar un contador de los intentos realizados para cada
objeto de la imagen detectado, pero ello precisaría de un seguimiento de la
posición del objeto en el caso de que se mueva, ya que en general, tras cada
fruto recolectado los objetos en la imagen se desplazan ligeramente por los
efectos descritos en este apartado, pues sería necesario asociar el objeto a cierta
posición en la imagen. Por estos motivos, este procedimiento no es apropiado
por la complejidad en el seguimiento de objetos móviles en imágenes sucesivas.
9.1.4 Racimos
A menudo los frutos se presentan agrupados en forma de racimos, sobre todo en
algunas variedades de naranjas y mucho más frecuentemente en mandarinas.
Cuando el sistema de visión detecta uno de estos racimos, es necesario tratarlos
de una manera especial. El problema consiste en que los frutos en un racimo se
encuentran juntos y se ocultan los unos a los otros, sin embargo siempre existe
Sistema de visión. Metodología
259
un fruto según la dirección de observación que
aparece más visible y por lo tanto más exterior
(figura 9.3).
En primer lugar existe el problema de poder
diferenciar cada uno de los frutos del racimo, ya
que al estar juntos, el sistema de visión los puede
confundir como uno solo, pero este problema se
abordará más adelante. Suponiendo que se sabe
diferenciar entre cada uno de los frutos del racimo,
para poder dirigirse al más exterior, se debe elegir de entre los frutos del
racimo aquél que tenga, en primer lugar, un área visible mayor, y en segundo
lugar, posea visible la mayor parte de su contorno real. Calculando el área y la
parte visible del contorno circular de cada fruto se podrá realizar esta
determinación.
Con la elección del fruto más visible o exterior se pretende que el robot
se dirija en primer lugar al fruto que presenta menos problemas para ser
atrapado por la mano del robot, con el fin de evitar este tipo de fallos, los
cuales se producen si el brazo robot se dirige a los frutos más ocultos o a
puntos alejados del centro geométrico de los frutos más visibles.
Por otro lado, hay que tener en cuenta como el sistema de visión puede
determinar que en cierto lugar existe un racimo. Esto no supone ningún
problema adicional en el caso de que la segmentación de la imagen se realice
por color, ya que en este caso los frutos que se encuentran juntos o agrupados
aparecen en la región segmentada como una única región que representa al
racimo. Una vez detectado el racimo, se realiza el proceso de división del
racimo en sus diferentes frutos mediante la transformación concavidad y el
cálculo de contornos circulares que se describirá más adelante.
Por tanto, el procedimiento para el tratamiento de racimos se puede
resumir en el siguiente algoritmo
Figura 9.3. Racimo de naranjas.
Sistema de visión del robot
260
Dividir la región de la imagen que representa el racimo en las regiones
correspondientes a sus frutos;
Para cada región del racimo
Calcular el área;
Calcular su centro geométrico y parte del contorno circular visible;
fin, Para;
Si existen regiones que exhiben más de un 75 % de su contorno entonces
Escoger la de mayor proporción de contorno visible;
sino
Escoger la de mayor área visible;
Con este procedimiento se prima más a las regiones que presentan una
mayor parte del contorno visible en el caso de que se puede apreciar más de
3 ⁄ 4 de su contorno circular, ya que en ese caso significa que el fruto es
prácticamente visible en su totalidad. En caso contrario se prima el área visible
si no se puede distinguir el contorno en esa proporción.
9.1.5 Procedimientos locales
Tal como se ha mencionado, como consecuencia del hecho de la estructura de la
dinámica del problema, y que sólo es imprescindible detectar o reconocer un
único fruto en la imagen, se han adoptado una serie de puntos concernientes a
la llamada estrategia de visión para poder barrer la imagen en busca de ese
primer fruto cada vez que se inicia un ciclo de recogida.
El procedimiento de barrido en la búsqueda de ese primer fruto nos lleva
a la utilización de procedimientos locales de análisis. Se entiende por estos
procedimientos locales a la concentración de todo el esfuerzo de cálculo para
reconocer o detectar los frutos en ciertas zonas reducidas y acotadas de la
imagen que se han seleccionado durante el procedimiento de barrido por medio
de un test o prueba con el que se sondea si existe la posibilidad de que se
encuentre un fruto en esa zona, de esta manera no se utiliza todo el esfuerzo
computacional en un proceso global de análisis de toda la imagen sino en ciertas
zonas reducidas de interés, reduciendo de esta forma el coste computacional y
adaptándose así al problema real de la localización de un único fruto.
Sistema de visión. Metodología
261
Este proceso se realiza barriendo los píxels de la imagen según la manera
descrita en apartados anteriores, verificando si cada uno de los píxels cumple
cierta propiedad que realiza el papel de una sonda. Las medidas realizadas para
determinar esta prueba son generalmente basadas en operaciones simples y de
gran rapidez, para agilitar el tratamiento.
Cuando se encuentra un punto donde el test resulta positivo, entonces se
determina una zona a partir de ese punto en la que se estima que puede estar
incluido el posible fruto. Delimitada la zona, por ejemplo en forma de ventana
en la imagen, se realiza el proceso de análisis exhaustivo en busca del fruto
dentro de esa zona. En caso de que no se encuentre nada en la zona de
interés, se sigue el sondeo siguiendo con el barrido desde el punto donde se
detuvo hasta encontrar otro punto de interés o llegar al final de la imagen.
El proceso se puede resumir en los siguientes pasos
Para cada píxel observado durante el barrido de la imagen
Si cumple cierta condición inicia entonces
Delimitar zona de posible ubicación del fruto;
Realizar análisis exhaustivo de reconocimiento y localización;
Si se encontró un fruto entonces
Detener la búsqueda y facilitar posición del fruto;
sino, seguir;
fin, Si;
sino, seguir hasta encontrar un fruto o final de la imagen;
fin, Para;
En última instancia señalar que, la técnica de barrido y el uso de
procedimientos locales viene determinada por el uso de equipos de relativamente
menor potencia computacional, como son los ordenadores personales respecto a
ordenadores más potentes o sistemas de arquitectura especifica de proceso de
imágenes, en los que, desligándose en cierto modo del posible coste en procesar
imágenes en su globalidad, se podrían aplicar del mismo modo los criterios de
alternancia, gestión de fallos y tratamiento de racimos.
Sistema de visión del robot
262
Una vez fijada la estrategia de visión y como se va a proceder en el
análisis de las imágenes tomadas de escenas durante el periodo de recolección,
el siguiente paso es la descripción de los algoritmos de análisis de imágenes para
realizar el reconocimiento y localización de los frutos en los diferentes casos que
se van a contemplar.
9.2 El reconocimiento de los frutos
En todo proceso de reconocimiento es necesario elegir un conjunto de
propiedades por medio de las cuales caracterizar cada uno de los objetos para
decidir o realizar una interpretación en función de los valores que adquieren
estas propiedades para cada objeto.
Desde el punto de vista del análisis de imágenes los objetos se definen en
la imagen a partir de una segmentación en regiones cuyos puntos poseen cierta
propiedad o propiedades en común. A cada región de la imagen segmentada se
le asocia una entidad objeto y se le extraen el conjunto de propiedades que se
proponga para, en este caso, realizar una clasificación de estas regiones,
asociándolas a una de las clases pertenecientes al conjunto de clases que se
defina.
En el caso que nos ocupa, las imágenes a tratar son escenas de frutos en
su entorno natural, en las que se pretende reconocer y localizar estos frutos. La
manera de conseguir este objetivo será realizando una clasificación de las
regiones resultado de cierto proceso de segmentación en una de las dos clases
establecidas a priori: fruto o fondo . A las regiones clasificadas como fruto se
considera que en la zona que definen tales regiones existe un fruto, calculando
posteriormente su localización o situación en la escena a partir de los
parámetros que definen esas regiones en la imagen.
En cuanto al conjunto de propiedades que se extraen de cada región para
su posterior clasificación, se pueden definir teniendo en cuenta las características
visuales que pueden diferenciar los distintos objetos de una escena, las cuales se
refieren en general a la forma del objeto (contorno y superficie), tamaño y
color.
Sistema de visión. Metodología
263
En el caso de los frutos la primera propiedad que resulta evidente es el
color. Para una gran mayoría de frutos (naranjas, manzanas, tomates, etc.), el
color que poseen en su estado de madurez es una característica que se distingue
en gran medida de los colores presentes en el resto del árbol o en el entorno,
por tanto, el color es una de las principales propiedades por las que se puede
reconocer y localizar los frutos.
Junto con el color de la superficie de los frutos existen otras propiedades
relativas a su morfología que son posibles de extraer a partir del análisis de
imagen. De acuerdo con el modelo geométrico adoptado para los frutos en el
capítulo 1, los frutos se pueden aproximar mediante una superficie esférica la
cual posee un contorno circular, por tanto serán dos propiedades distintivas más
la forma circular del contorno y la forma esférica de la superficie de los frutos.
Cuando los frutos poseen un color marcadamente diferente respecto a su
entorno, el color es la propiedad básica en el proceso de reconocimiento, tal
como sucede simulando el comportamiento humano. Cuando se observa un árbol
en busca de frutos, un humano busca a través de la masa foliar algún objeto o
mancha de color diferente al de las hojas o ramas. Si en esta búsqueda se
encuentra alguna mancha u objeto de color diferente y cercano al color de los
frutos que se pretende encontrar, entonces se fija más detenidamente en el
objeto encontrado e intenta comprobar si tal objeto es realmente el fruto
buscado, sobre todo mediante el análisis de la forma del objeto en cuestión, el
tamaño, etc.
En el caso de una observación estática de la escena, a menudo los frutos
se encuentran parcialmente ocultos, no pudiendo distinguir claramente la forma
de los frutos. Un humano, cuando localiza un objeto de color aproximado al de
los frutos, si no ve con claridad la forma del objeto, se acerca, cambia de
ángulo o aparta las hojas o ramas que obstaculizan la visión para comprobar en
mejores condiciones si realmente se trata de un fruto. En el caso de una
observación estática, tal como ocurre en la toma de una imagen por una cámara
situada a cierta distancia de la escena, todo este proceso de mejora de las
condiciones de visibilidad, realimentando la información extraída al sistema en
cada situación cambiante, no es posible, por tanto el color de los objetos,
Sistema de visión del robot
264
cuando se asume a priori que es frecuente que permanezcan parcialmente
ocultos, tiene aún mucho más peso en el reconocimiento que las otras
propiedades morfológicas.
Por tanto, una buena segmentación por color puede resolver casi
definitivamente el reconocimiento de los frutos en estos casos, dejando la
extracción de características morfológicas para otros fines de interpretación de la
escena, tal como la determinación del centro geométrico del fruto o identificar
por separado cada fruto de un racimo.
En el caso de que el color no sea una propiedad claramente distintiva de
los frutos que se pretende localizar, se debe recurrir a las propiedades relativas
a la forma del contorno y de la superficie, cuya extracción o medición se ve
dificultada debido a que los frutos se encuentran frecuentemente parcialmente
ocultos. En estos casos el color es una propiedad complementaria que puede
ayudar a estimar el grado de madurez del fruto, en el caso de que éste sea
reconocido y localizado.
A continuación se expondrán los dos métodos desarrollados de
reconocimiento y localización de frutos. Estos métodos asumen el modelo
esférico como aproximación a la forma de los frutos. El primer procedimiento se
basa en el color de los frutos para su reconocimiento y localización, en el caso
de que esta propiedad sea lo bastante diferenciadora respecto del resto del
entorno. El segundo procedimiento es una primera aproximación para abordar el
problema del reconocimiento independientemente del color, tratando con escenas
en que los objetos muestran solo parte de su superficie, disponiendo por tanto
de una información parcial de ellos.
9.3 Reconocimiento y localización por color
Asumiendo que los frutos que se pretende localizar poseen un color
marcadamente diferente del de su entorno, el reconocimiento se basará en la
búsqueda de objetos que poseen el color de los frutos. Para ello en primer lugar
se realiza una segmentación por color de la imagen; seguidamente se barre la
imagen en busca de regiones cuyo color asociado sea el mismo que el atribuido
Sistema de visión. Metodología
265
a los frutos. Una vez localizadas estas regiones, se les aplica un análisis de
superficies cóncavas para separar los frutos en caso de racimos o agrupaciones.
Obtenidas las regiones correspondientes a cada uno de los frutos, un análisis de
sus respectivos contornos intentará localizar el centro geométrico de cada fruto.
Por último se determina la posición real del fruto, bien mediante un sistema
estereoscópico o en su defecto se determina la dirección en que se encuentra el
fruto a través de una sola cámara.
9.3.1 La segmentación
La segmentación por color se realiza por el método descrito en el capítulo 5,
tanto en condiciones de iluminación natural de exteriores o mediante el apoyo
de iluminación artificial por el procedimiento desarrollado en el capítulo 1. La
segmentación se realiza calculando las coordenadas ϕ y θ correspondientes a
cada píxel de una imagen RGB, y posteriormente el ángulo α del punto en estas
coordenadas en el diagrama ϕθ respecto al color del iluminante. Para evitar
posible ruido o efectos espúreos en píxels aislados, las imágenes correspondientes
a las coordenadas ϕ y θ se filtran mediante un filtro pasa baja, tal como el filtro
media o el mediana.
Previa calibración del sistema, es decir, el cálculo del color de iluminante,
(ϕ0,θ0), por el procedimiento descrito en la sección 5.4, a partir de un conjunto
de imágenes muestras, se etiquetan sus píxels en dos clases, fruto y fondo .
Mediante el sistema de aprendizaje descrito en la sección 5.3.3 se determinan los
ángulos α1 y α2 correspondientes a las dos rectas que separan la clase frutos del
resto en el diagrama ϕθ.
Obtenidos los parámetros del clasificador color, α1 y α2, la segmentación de
una nueva imagen se realiza atribuyendo cada píxel a la clase fruto si su
correspondiente ángulo α cumple que
α1 ≤ α ≤ α2
Sistema de visión del robot
266
9.3.2 El etiquetado. Calculo del área
Mediante un algoritmo de etiquetado, se asocia una etiqueta a cada región de
puntos 8-conectados de la clase fruto. Este mismo algoritmo proporciona el área
de la región, desestimando regiones de pequeño tamaño, las cuales corresponden
en una gran mayoría a efectos ruidosos aislados que no pudo eliminar el filtrado
en las coordenadas ϕ y θ.
El algoritmo de etiquetado utilizado ha sido desarrollado específicamente
para poder etiquetar una región en la imagen independientemente de las
posibles regiones que contenga la imagen, con el fin de encontrar la primera
región reconocida satisfactoriamente como fruto sin tener que analizar las
restantes, ya que la orientación de la aplicación se basa en el análisis de una
región cada vez. Este algoritmo difiere del método clásico de etiquetado
(Rosenfeld & Kak, 1982) buscando píxels conexos y equivalencia de etiquetas en
dos barridos por todos los píxels de la imagen, método que en el caso de que
existan dos o más regiones en la imagen o región a analizar, también examinará
esas regiones para poder averiguar que píxels están conectados en una sola
región.
El método desarrollado se fija solo en los píxels correspondientes a una
sola región sin tener que analizar las restantes. Para ello utiliza la información
relativa al contorno de la región con el fin de etiquetar los píxels del interior de
la región a partir de los píxels frontera y la relación de conectividad que existe
entre los puntos del interior de la región y los puntos frontera.
Para describir el funcionamiento de este algoritmo, supóngase que se tiene
una imagen binaria, la cual incluye una serie de regiones que se pretende
etiquetar. Si se efectúa un barrido por la imagen hasta encontrar un píxel
perteneciente a una región, este primer píxel se asegura que es de la frontera
de la región ya que el píxel anterior era un píxel perteneciente al fondo. A las
regiones que limitan con los bordes de la imagen, se considera como frontera
los píxels junto a los bordes. A partir de ese primer píxel encontrado de la
región y perteneciente a su frontera externa, se llama a la siguiente función
recursiva de etiquetado
Sistema de visión. Metodología
267
Funcion: Etiquetado;Datos: Punto inicial (x0,y0), ETIQUETA_REGION, valor de la etiqueta con que se quiere marcar a lospuntos de la región;
Constantes: BINARIA, valor de un píxel de una región en la imagen binaria; FRONTERA, valor de la etiqueta con que se marca inicialmente la(s) frontera(s) dela región; FONDO, valor de un píxel perteneciente al fondo;
Algoritmo:
Recorrer, codificar y marcar los puntos de la frontera con la etiqueta FRONTERA;
Para cada punto de la frontera
Si etiqueta igual a FRONTERA entonces
marcar punto como ETIQUETA_REGION;
/* recorrer fila hacia la izquierda * /
punto_actual := vecino izquierda;
Mientras punto_actual sea igual a BINARIA
marcar punto con ETIQUETA_REGION;
punto_actual := vecino izquierda;
fin, Mientras;
Si punto_actual es FONDO entonces
/* es una frontera interior, la región tiene un agujero * /
llamar a función Etiquetado con punto inicial igual a punto anterior al actual;
sino /* era un punto FRONTERA * /
marcar punto_actual con ETIQUETA_REGION;
/* recorrer fila hacia la derecha * /
punto_actual := vecino derecha;
Mientras punto_actual sea igual a BINARIA
marcar punto con ETIQUETA_REGION;
punto_actual := vecino derecha;
fin, Mientras;
Si punto_actual es FONDO entonces
/* es una frontera interior, la región tiene un agujero * /
llamar a función Etiquetado con punto inicial igual a punto anterior al actual;
sino /* era un punto FRONTERA * /
marcar punto_actual con ETIQUETA_REGION;
fin, Si;fin, Para;
Sistema de visión del robot
268
Tal como se puede apreciar en el algoritmo, los puntos frontera (interiores
o exteriores), se recorren dos veces, una para marcarlos y otra para realizar el
etiquetado. Los puntos de la región que no sean frontera se recorren una sola
vez. El tipo de conectividad que se utiliza para etiquetar los puntos de la región
viene dado por el tipo de conectividad utilizado en el seguimiento de la
frontera, seguimiento que se realiza a través del algoritmo descrito en la sección
4.1.
Volviendo al algoritmo, el principio básico en el que se apoya es en el
hecho de que cualquier punto del interior de una región de tamaño finito está
conectado con un punto frontera (externa o interna) a través de puntos
pertenecientes a la región dentro de una misma fila de la imagen y en general a
lo largo de una recta en cualquier dirección que contenga al punto en cuestión,
ya que el conjunto de fronteras internas y externa envuelven todos los puntos de
la región.
En cuanto a las fronteras internas y externas, se denomina frontera interna
a la frontera entre la región y el fondo que se produce por la existencia de
agujeros en la región. La frontera externa es la que envuelve a todos los puntos
de la región, incluidos los agujeros. El algoritmo parte de la frontera exterior y
si existen fronteras interiores las va localizando durante el proceso de etiquetado,
tratando todas las frontera del mismo modo, de ahí el modo recursivo de la
función de etiquetado. Este carácter recursivo denota que, mientras se esta
etiquetando recorriendo una frontera y se encuentra otra que no ha sido
recorrida aún, se deja temporalmente el etiquetado a partir de la frontera actual
y se realiza el etiquetado que se genera a partir de la encontrada, volviendo al
punto de la frontera anterior donde se dejo temporalmente el proceso cuando se
termine el proceso en la nueva frontera. De esta manera se asegura un barrido
exhaustivo por todas las fronteras de la región y por tanto por todos los puntos
de ella.
Este algoritmo permite etiquetar los puntos de una única región sin tener
que barrer toda la imagen. Esta técnica es totalmente compatible con la
estrategia de visión a seguir en la aplicación para encontrar una primera región
perteneciente a la clase fruto sin tener que analizar el resto de la imagen, en la
Sistema de visión. Metodología
269
línea de evitar cálculo innecesario en una aplicación real. Por otro lado, este
algoritmo es más eficiente computacionalmente que el algoritmo clásico de
etiquetado en dos barridos, claro está, por el simple hecho de que los puntos de
una misma región sólo se recorren una vez para su etiquetado menos los puntos
frontera, que se recorren dos veces. En general, durante el etiquetado de una
imagen binaria completa por el algoritmo aquí desarrollado, los puntos de las
regiones binarias se recorren dos veces, una durante el barrido de la imagen en
busca de puntos pertenecientes a regiones y otra para su etiquetado, pero por
otro lado los puntos pertenecientes al fondo sólo se recorren una vez, a
diferencia del algoritmo clásico que todos los puntos de la imagen se recorren
dos veces. A todo ello, si tenemos en cuenta que, en general, en una imagen
binaria los píxels pertenecientes al fondo son mayoría, la eficiencia del algoritmo
queda más patente.
Es evidente que, tomando como definición de área de una región el
número de puntos de que consta tal región, el área de la región etiquetada por
la función se calcula durante el proceso de etiquetado por simple conteo de los
puntos que se van etiquetando con la etiqueta asignada a la región.
A cada región resultante del etiquetado se la considera un fruto o
agrupación de frutos, asociando de esta manera la segmentación en color con el
reconocimiento en color. En realidad para realizar la segmentación por color se
utiliza un clasificador, en este caso basado en la minimización del error de
Bayes en muestras caracterizadas por una sola coordenada (capítulo 5).
9.3.3 Identificación de frutos en racimos
Para separar los frutos en sus respectivas regiones individuales en la imagen, se
realiza una transformación concavidad en una de las bandas R, G o B; la banda
que ofrezca un mayor contraste entre frutos y fondo, de manera que utilizando
un umbral sobre la imagen resultado, tal como se describe en la sección 2.5, se
obtiene una región por cada zona cóncava de la imagen por separado. Por
último realizando una operación lógica ’y’, o intersección, entre la imagen
segmentada en color y la imagen segmentada por concavidades, se obtiene una
imagen cuyas regiones corresponden a regiones cóncavas y de color el de la
Sistema de visión del robot
270
clase fruto, es decir, se obtendrán cada uno de los frutos en cada región por
separado, ya que la transformación concavidad los habrá separado.
9.3.4 Análisis del contorno. Búsqueda del centro geométrico
A cada región de la imagen resultante se le aplica un análisis del contorno para
reconstruir la circunferencia que más se ajuste al posible contorno circular de
estas regiones. Este análisis se realiza mediante el método descrito en el capítulo
4 de reconocimiento de contornos parcialmente circulares, ya que a menudo al
estar los frutos parcialmente ocultos no se aprecia la totalidad de su contorno.
En caso de encontrar tramos circulares en el contorno y reconstruir su
correspondiente circunferencia, el centro de esa circunferencia se asocia con el
centro geométrico del fruto.
Para las regiones consideradas como frutos sobre las cuales no se hallen
tramos circulares en su contorno, se les asocia un centroide definido como el
centro del rectángulo mínimo que inscribe a la región de manera que, si el
rectángulo que inscribe la región queda caracterizado por el vértice superior
izquierdo de coordenadas (x1,y1) y el vértice inferior derecho de coordenadas
(x2,y2), el centroide (xc,yc) queda definido como
xc = x1 + x2 − x1
2 yc = y1 +
y2 − y1
2
Otro aspecto en que se utiliza el análisis de contornos circulares, consiste
en identificar los frutos de un racimo por separado, cuando no es posible la
aplicación de la transformación concavidad, por motivos debidos a una
inadecuada iluminación. El análisis del contorno permite identificar, al menos, los
frutos más visibles y cuya parte del contorno queda más descubierta dentro de
los frutos del racimo, pudiendo centrar, en un principio, la atención sobre ellos,
de manera que a medida que se recogen los frutos más visibles del racimo, éste
se va aclarando y mostrando los frutos que estaban más solapados.
Sistema de visión. Metodología
271
9.3.5 Localización espacial
Una vez un fruto ha sido reconocido y localizado en la imagen, el último paso
consiste en calcular su posición en el espacio a partir de la posición en la
imagen. Para una localización tridimensional se puede emplear el sistema
estereoscópico descrito en el capítulo 6, utilizando para realizar la
correspondencia las imágenes izquierda y derecha segmentadas en color, ya que
el método trabaja sobre imágenes binarias.
Mediante una sola cámara, tal como se ha venido utilizando hasta el
momento en el prototipo de robot recolector, se puede averiguar la dirección en
que se encuentra el fruto respecto al centro óptico del sistema. Por tanto,
situando la cámara tal que coincida el centro óptico con el centro de
coordenadas del robot, el robot puede lanzar el brazo en la dirección
especificada hasta encontrar el fruto. Este procedimiento tiene como
inconveniente, además de no conocer la distancia al fruto, que fuerza la situación
de la cámara en la posición descrita.
El cálculo de la dirección en que se encuentra el fruto mediante una sola
cámara se realiza a través de los principios geométricos que rigen el sistema
O′
x′y′ϕ′
θ′
fO
x
y
θ
ϕz
P
P′
Figura 9.4. Geometría de la dirección de un punto del espacio objeto en un sistema óptico.
Sistema de visión del robot
272
óptico. Tal como se muestra en la figura 9.4, consideremos un sistema de
coordenadas con centro O en el centro óptico del sistema, el eje z coincidente
con el eje óptico del sistema, y un sistema de coordenadas x′ y′ z′ situado en el
centro del plano imagen O′ con ejes x′ = x y y′ = y con el eje z′ en la misma
dirección del eje z. Si el plano imagen se encuentra a la distancia focal f del
centro óptico, un punto en el espacio (x,y,z) tiene su proyección en el plano
imagen en un punto (x′ ,y′) cuyas coordenadas respecto al sistema O son
(x′ ,y′ ,− f). La dirección de un punto en el espacio (x,y,z) viene dada por sus
coordenadas angulares esféricas (θ,ϕ) , que tiene una relación con las coordenadas
angulares esféricas (θ′ ,ϕ′) de su punto proyección en el plano imagen para la
coordenada ϕ, observando la figura 9.4, de la forma
ϕ = ϕ′
y para la coordenada θ, observando la figura 9.5, de la forma
θ′
θ θ
θ
θ
θ′
θ′
θ′ = π + θ
θ′
y
θ = π + θ′
θ′ = π + θ
y
y
P
y
xx
xx
P
PP′
P
P′
P′
P′
θ = π + θ′
Figura 9.5. Relación entre los ángulos θ y θ′ según el cuadrantedonde se encuentren los puntos objeto, P, e imagen P′ .
Sistema de visión. Metodología
273
θ′ = π + θ, si y < 0
θ = π + θ′ , si y > 0
Para un punto en la imagen de coordenadas (x′ ,y′) respecto al sistema de
ejes descrito, los ángulos θ′ y ϕ′ se pueden calcular de la forma
ϕ′ = arc cos
f
(x′ 2 + y′ 2 + f2)1⁄2
, θ′ = arc cos
x′(x′ 2 + y′ 2)
1⁄2
Y a partir de aquí se obtienen los ángulos buscados θ y ϕ, que indican la
dirección en espacio del punto (x,y,z), utilizando la relación anterior entre los
ángulos θ con θ′ , y ϕ con ϕ′ .
9.3.6 El algoritmo de reconocimiento y localización por color
En resumen, el proceso de análisis de una imagen o zona de la imagen para
reconocer y localizar los frutos en imágenes en color se puede expresar mediante
el siguiente algoritmo:
Calcular la segmentación en color;
Calcular la segmentación por concavidades;
Calcular imagen intersección de segmentación en color y concavidades;
Para cada región resultante de la zona de atención en la imagen
Analizar contorno de la región;
Si es parte de un contorno circular entonces
Asignar centro geométrico el centro de la circunferencia encontrada;
sino
Asignar centroide de la región como centro del rectángulo que la inscribe;
Calcular región correspondiente en imagen derecha; /* en caso de estereoscopia * /
Calcular coordenadas espaciales del fruto;
Si hay más de una región en la zona de interés entonces
elegir según criterio de racimos;
fin, Para;
Es necesario recordar que todo este proceso de reconocimiento y
localización no se realiza sobre toda la imagen, sino en cierta zona definida por
Sistema de visión del robot
274
un test de sondeo de la imagen en la que se estima que existe la posibilidad de
que allí se encuentre un fruto.
La forma de realizar este test de sondeo consiste, tal como se apuntó en la
sección 9.1.5, en la medida de cierta propiedad de fácil cálculo o
implementación. En este caso de reconocimiento basado en el color, es natural
que esa medida esté directamente relacionada con una estimación del color de
un píxel respecto al valor que por el mismo procedimiento se estime del color
de los frutos.
Para obtener una medida orientativa del color de los píxels se utilizan dos
de las tres bandas de una imagen RGB. La idea básica es utilizar las
proyecciones de los puntos del espacio RGB en uno de los posibles planos RG,
RB o GB, aquél en el cual los colores de las clases establecidas tengan un
menor grado de solapamiento.
Para interpretar como se distribuyen los píxels correspondientes a puntos
sobre la superficie de un mismo objeto en la imagen en uno de estos planos,
particularicemos aquí las consideraciones que sobre el color se hicieron en el
capítulo 5 basadas en el modelo dicromático. Tal como allí se apuntó, los puntos
en el espacio RGB correspondientes a los colores de una misma superficie de
B
R
G
C s
C b
C’s
C’ b
Figura 9.6. Proyección de un plano dicromático sobre el plano RG.
Sistema de visión. Metodología
275
color homogéneo se distribuyen a lo largo de un plano dicromático formado por
el color de la componente de reflexión superficial del objeto, cs, y por el color
de la componente de la reflexión del cuerpo del objeto, cb.
Los valores de un plano dicromático proyectados sobre uno de los planos
coordenados citados (figura 9.6), quedan comprendidos entre dos rectas, c′ b y c′ s,
correspondientes a la proyección de los vectores cb y cs sobre tal plano. Si este
plano dicromático corresponde al plano de la superficie de un objeto cuyos
colores se atribuyeron a la clase fruto, la medida o estimación que se realiza
sobre el color de un píxel en la imagen para ver si puede pertenecer a la clase
fruto consiste en comprobar si los valores del píxel en las dos bandas que
definen el plano de proyección, por ejemplo el plano RG, están comprendidos
entre esas dos rectas de proyección, c′ b y c′ s.
La forma de encontrar estas dos rectas se realiza por el mismo
procedimiento de aprendizaje descrito en la sección 5.3.3, pero en este caso las
muestras tienen como componentes (r,g) y el ángulo α se define como el ángulo
que forma el punto (r,g) respecto al origen de coordenadas, teniendo en cuenta
que ahora el ángulo α variará en el rango [0,π ⁄ 2] (figura 9.7).
Figura 9.7. ángulos α de un punto (r,g) en el plano RG.
Sistema de visión del robot
276
Una vez calculados los valores α1 y α2,1 para comprobar si un píxel cuyos
valores en las bandas R y G, (r,g), están comprendidos entre las rectas que
definen esos ángulos, se pueden utilizar simplemente dos LUTs (Look Up Table)
que representen a las respectivas rectas. Estas rectas quedan definidas a partir
de los ángulos α1 y α2 de la forma
g = r tanα1, g = r tanα2
Teniendo en cuenta que los valores de r y g son discretos y que varían en
un rango [0,255], estas rectas se pueden representar por las dos LUTs
mencionadas de la forma
L1[r] = g = r tanα1; r = 1,..,255; g∈ [0,255]
L2[r] = g = r tanα2; r = 1,..,255; g∈ [0,255]
Para comprobar si un píxel de valores (r,g) queda comprendido entre esas
dos rectas, basta con comprobar cumple la dos condiciones siguientes a la vez
g ≤ L1[r] y g ≥ L2[r]
Mediante esta sencilla operación, y con un reducido coste computacional, se
localizan los píxels que pueden pertenecer a la clase fruto buscada. Una vez
encontrado un píxel susceptible de pertenecer a una región en la imagen
representando a un fruto, el siguiente paso es acotar o definir una zona de la
imagen en la que se encuentre tal región, para realizar posteriormente el análisis
exhaustivo de reconocimiento y localización definitivo.
Sistema de visión. Metodología
277
1 Aquí se denota de la misma forma el parámetro α que en el espacio ϕθ, por analogía
en el proceso de aprendizaje, pero representan umbrales de parámetros α definidos de
forma diferente en un espacio diferente.
La forma de acotar la zona de la imagen donde presumiblemente se
encuentra la región perteneciente al fruto, se basa en el hecho de que, si se ha
encontrado un píxel que cumpla tal condición significa que, si ese píxel
corresponde a una región que represente la superficie de un fruto en la imagen,
ese píxel formará parte de una región de píxels conectados con el que cumplan
la misma condición. Por tanto delimitando la zona donde se encuentre la región
a que pertenece el píxel encontrado, tendremos acotada la zona donde se
encuentra el posible fruto.
La región de puntos (r,g) que cumple la condición anteriormente descrita,
se puede averiguar recorriendo la frontera que limita tal región a partir del
primer píxel encontrado, suponiendo que este píxel pertenece a la frontera de la
región. La condición que limita la región del fondo es simple, sin tener que
realizar una segmentación, operando directamente sobre los valores originales de
la imagen. Esta condición se resume en:
Si el píxel (r,g) cumple que g ≤ L1[r] y g ≥ L2[r], entonces es de la región;
sino, pertenece al fondo;
Recorrida la frontera de la región, la zona sobre la que se realiza el
análisis exhaustivo se define como el rectángulo mínimo que inscribe la región
definida por la frontera recorrida.
En resumen, el test de sondeo durante el barrido queda definido mediante
el siguiente algoritmo, en el caso de utilizar el plano RG,
Para cada píxel, (r,g), de la imagen Si g ≤ L1[r] y g ≥ L2[r] entonces Si (r,g) es punto frontera entonces Recorrer frontera y hallar rectángulo que la inscribe; Si longitud de frontera > longitud mínima entonces Realizar análisis de reconocimiento y localización en rectángulo definido; Si se encontró fruto entonces Detener el proceso; fin, Si; fin, Si; fin, Si;fin, Para;
Sistema de visión del robot
278
Para comprobar si un píxel pertenece a la frontera de una región se
comprueba si, utilizando conectividad 4 para los puntos de la región, uno de sus
4-vecinos pertenece al fondo, sino el píxel en cuestión es un punto del interior
de la región. El definir conectividad 4 para la región se debe al hecho de que si
se utiliza conectividad 8 para definir los puntos del fondo se tiene que definir la
conectividad 4 para los puntos de la región y viceversa.
La condición impuesta a la longitud de la frontera para que pueda
realizarse el análisis exhaustivo, actúa como un filtro ante las posibles regiones
espúreas de pequeño tamaño que entorpecen el proceso de análisis, evitando
cálculos innecesarios en puntos aislados o agrupaciones reducidas de puntos de
naturaleza ruidosa.
Mediante esta aproximación, el análisis para el reconocimiento y
localización de los frutos se realiza en regiones muy reducidas de la imagen,
usualmente en ventanas del orden de 30 x 30 píxels en imágenes de 512 x 512, tal
como se verá en el siguiente capítulo. Ya que en la aplicación se detiene el
proceso al encontrar un primer fruto, normalmente en cada ciclo sólo se analiza
una de estas ventanas, con lo que se consiguen costes computacionales para
localizar un fruto muy reducidos sin un hardware específico.
9.4 Reconocimiento basado en características relativas a la forma
Cuando los objetos que pretendemos reconocer y localizar, en este caso los
frutos, no son distinguibles por color, se debe recurrir a métodos de
reconocimiento basados en otra serie de características visuales, tal como las
relativas a la forma del objeto. Las propiedades de textura en la imagen quedan
descartadas ya que los objetos en este caso tienen una forma definida que no se
repite la lo largo del espacio con cierta cadencia, sino que se trata de objetos
que de alguna manera se encuentran aislados en ciertos puntos o zonas de la
imagen. En cuanto a las propiedades relativas a la forma, la forma de la
superficie del objeto y de su contorno son los dos elementos fundamentales en
los que se apoya el proceso de reconocimiento en este sentido.
Sistema de visión. Metodología
279
El método que aquí se describe es una aproximación global al
reconocimiento de los frutos independientemente del color, es decir, el objetivo
contemplado en este trabajo en este aspecto ha sido el desarrollo de un método
de reconocimiento sin tener en cuenta el aspecto de los procedimientos locales
apuntado en la sección 9.1.5 como estrategia de visión.
Dado que a priori no se conoce, como en el caso de reconocimiento en
color, una propiedad definida que pueda asegurar un reconocimiento por ella
misma, se va a seguir el proceso tradicional de segmentación, extracción de
características y clasificación. Para ello se debe contemplar un método de
segmentación que permita agrupar los píxels de la imagen en regiones que
posean una propiedad común relativa a la forma de los objetos, segmentación
que debe agrupar en una misma región a los puntos en la imagen pertenecientes
en este caso a un mismo fruto.
A partir de las regiones definidas en el proceso de segmentación se
evaluarán una serie de propiedades de cada región que la caractericen. Cada
región se la considera como un elemento al que va asociado un vector de
características o propiedades y a partir de las cuales un clasificador decidirá si la
región en cuestión pertenece a un fruto o no. El procedimiento de localización
espacial del fruto, una vez reconocido en la imagen, es el mismo que el
utilizado en el reconocimiento basado en color.
Para la aplicación de este método se utilizan imágenes monocromas
adquiridas mediante el apoyo de iluminación artificial por el método desarrollado
en este trabajo. El apoyo de iluminación en este método de reconocimiento es
esencial dado que el procedimiento se apoya en la extracción de características
relativas a la forma de la superficie y del contorno en imágenes monocromas, a
partir de la información del nivel de gris de los píxels, siendo de esencial
importancia la eliminación de cambios bruscos de iluminación que puedan
generar contornos no pertenecientes a los de los objetos reales, y efectos
espúreos como reflexiones especulares.
El apoyo de iluminación artificial permite, además, adoptar las
consideraciones establecidas en el capitulo 3 relativas a la forma elipsoide de la
representación en la imagen de la superficie de objetos esféricos iluminadas en
Sistema de visión del robot
280
ciertas condiciones, siendo una manera de extraer propiedades relativas a la
forma real de la superficie de los objetos a partir de la información de la
imagen.
9.4.1 Segmentación
La transformación concavidad, descrita en el capítulo 2, es una herramienta
adecuada para realizar una segmentación en el problema que nos ocupa. Los
frutos, cuyo modelo adoptado es un objeto esférico, están representados en la
irradiancia espectral imagen, o superficie imagen, por una zona cóncava,
independientemente de la dirección del iluminante respecto al observador. Los
puntos en la imagen pertenecientes a la región que representa a la superficie del
fruto tendrán esta característica, es decir, que serán puntos cóncavos en la
superficie imagen y además estos puntos formarán una región conexa.
Para calcular la imagen segmentada se aplica un umbral a la imagen
resultado de la transformación concavidad, produciendo como resultado una serie
de regiones conexas en la imagen binaria cuyos puntos de una misma región son
a su vez cóncavos en la imagen original. Este método de segmentación tiene a
su vez la característica de que los contornos de las regiones producto de la
segmentación son, a su vez, una aproximación a los contornos reales de los
objetos en la escena, por los motivos descritos en la sección 2.3 relativos a los
puntos cruce por cero.
El umbral utilizado para la segmentación viene fijado por el analista a
partir del análisis de las imágenes muestra tomadas, y que depende de las
condiciones en que fueron tomadas las imágenes, sobre todo del tamaño relativo
de los frutos respecto de la resolución de la imagen, ya que a mayor tamaño
relativo de los frutos, el índice o grado de concavidad que asigna la
transformación a los puntos de la superficie de los frutos será mayor cuanto
mayor sea su tamaño. No obstante, este umbral varía muy poco de un tipo de
imágenes a otras ya que es independiente del nivel de iluminación en la imagen
y, en todo caso, debe ser un valor próximo a cero para que los contornos de las
regiones se aproximen a los segmentos cruce por cero que definen los contornos
reales de los objetos en la imagen.
Sistema de visión. Metodología
281
9.4.2 Extracción de características
Una vez la imagen ha sido divida en regiones de interés, a cada una de estas
regiones se les extrae una serie de características relativas a la forma de los
objetos esféricos en la imagen, y que constituyen el vector de medidas o vector
de características sobre el que después se decidirá si tal región se considera
como un fruto o no.
Dado que las imágenes se adquieren con apoyo de iluminación artificial, la
irradiancia espectral imagen de la superficie de los frutos es, además de cóncava,
de forma elipsoidal, en las condiciones descritas en el capítulo de 3. Por tanto,
el método de caracterización de elipsoides, por medio de elipses en dos
direcciones ortogonales en el plano xy desarrollado en este trabajo, es una de las
herramientas para extraer propiedades relativas a la forma de la superficie de los
frutos.
En cuanto al contorno, se extraerán propiedades a partir de la forma
circular que poseen los frutos, teniendo en cuenta el carácter parcial de la
información del contorno por el hecho de que se encuentran a menudo
parcialmente ocultos. Estas propiedades se definen a partir de la posible
reconstrucción del contorno circular por el método desarrollado en el capítulo 4.
Las propiedades que se han elegido para caracterizar una región constituyen
un conjunto de siete parámetros definidos como:
- Concavidad . Se define la concavidad de una región R como el valor
máximo que la transformación concavidad, C(x,y), asignó a los puntos de la
región, es decir
Concavidad = max(x,y)∈ R
C(x,y)
- Circularidad. Una vez se ha analizado el contorno de la región en busca
de posibles tramos de contorno circular, si el resultado ha sido positivo, se
define como circularidad a la proporción del contorno circular hallado respecto
del la longitud total de la circunferencia a la cual se ajustan los tramos
circulares encontrados, es decir,
Sistema de visión del robot
282
circularidad =
∑ i= 1
N
li
2πr
siendo li la longitud en píxels de cada uno de los i= 1,..N segmentos circulares
encontrados pertenecientes a la circunferencia de radio r, siendo r el número de
píxels del radio.
El valor de la circularidad será mayor cuanto más proporción de la
circunferencia total esté presente en el contorno de la región, por tanto en estos
casos mayor será la probabilidad de que esa región pertenezca a un fruto. Para
valores de la circularidad poco significativos, es más probable que la región no
pertenezca a un fruto.
- Radio. En el caso de que se detecten tramos circulares en el contorno de
la región, el radio se define como el radio de la circunferencia a que se ajustan
los tramos circulares encontrados del contorno. Con ello se pretende
complementar la propiedad relativa a la circularidad, ya que no se puede
considerar de la misma forma que se encuentre el 90 % de una circunferencia
de radio 4, que el 90 % de una circunferencia de radio 15, ya que, a menor
tamaño, la información relativa al contorno decrece pues decrece el número de
puntos del contorno y la medida de circularidad se convierte en menos fiable.
- Compacidad. Se define la compacidad de una región como la relación
entre el perímetro y el área de la región a través del thinness ratio, el cual se
expresa como
Compacidad = 4π A
P2
siendo A el área de la región y P la longitud de su perímetro. Esta cantidad
tiene un valor para cualquier figura menor o igual a 1, siendo éste su valor
máximo para círculos.
- Área. El área de la región se incluye en el vector de medidas con el fin
de distinguir, similarmente a como ocurre con la circularidad y el radio, entre
regiones de compacidad cercana a la unidad y que posean un área pequeña y las
Sistema de visión. Metodología
283
que posean un área más significativa, ya que cualquier región de pequeño
tamaño puede tener una compacidad elevada.
- Elipticidad. El método para caracterizar elipsoides al que se aludió
anteriormente, comprueba si en un punto de la imagen es el centro de una
elipse en una de las dos direcciones, x o y, tal como se describe en el capítulo
3. Del error del ajuste se decide si el punto en cuestión es el centro de una
elipse o no. Se denomina elipticidad al número de puntos sobre la región R que
se ajustan a una elipse en una de las dos direcciones establecidas, es decir, si un
punto se ajusta en dos de las direcciones, este punto se cuenta dos veces, por
tanto
elipticidad = ∑ (x,y)∈ R
Tx(x,y) + ∑ (x,y)∈ R
Ty(x,y)
siendo Tx(x,y) = 1 si el punto (x,y) se ajusta al centro de una elipse en la
dirección x, o igual a cero en caso contrario, y de forma análoga para Ty(x,y) = 1
en la dirección y.
En el método de ajuste se puede utilizar bien la variante de máscara fija o
bien la de máscara variable, descritas en el apartado 3.3, ya que en este caso la
región definida es producto de la segmentación por concavidades, tal como
precisa el método de la máscara variable.
- Indicador Rxy. Este indicador es una variable lógica que complementa la
propiedad definida como elipticidad para caracterizar una región de la imagen
como superficie que se ajuste realmente a un elipsoide. El indicador Rxy es igual
a 1 si hubo puntos en la región R que se ajustaron a elipses en las dos
direcciones, x e y , es decir, si
∑ (x,y)∈ R
Tx(x,y) > 0 y ∑ (x,y)∈ R
Ty(x,y) > 0
en caso contrario Rxy = 0. Esto significa que si dos puntos de la región R,
aunque sean distintos, se ajustan a elipses en direcciones diferentes, Rxy valdrá la
Sistema de visión del robot
284
unidad. Con esto se pretende caracterizar que si una región contiene puntos que
se ajusten a elipses en las dos direcciones establecidas, la región en cuestión
tiene una gran probabilidad de representar a un elipsoide en la imagen, y por lo
tanto a un fruto.
Con este conjunto de propiedades se pretende caracterizar la forma de una
región orientada al reconocimiento de objetos esféricos, a los que la forma de
los frutos pueden tomar como modelo.
9.4.3 Clasificación
El proceso de clasificación de una región de la imagen segmentada decide si esa
región pertenece a una de las dos clases establecidas, la clase fruto o la clase
fondo . El clasificador debe decidir en acuerdo a las medidas sobre el conjunto
de propiedades o vector de medidas definidas en la sección anterior para cada
región.
En principio la naturaleza de las propiedades definidas son bastante
diferentes entre si. Así, por ejemplo, se tienen características de tipo entero
como la concavidad , la elipticidad, el radio o el área; o de tipo real como la
circularidad o la compacidad ; y también de tipo lógico como el indicador Rxy.
Además, puede existir cierta relación entre la circularidad y el radio, o entre la
compacidad y el área, pero aparentemente no tienen ninguna relación estructural
la elipticidad y la circularidad o la concavidad y el indicador Rxy por poner
algunos ejemplos.
Ante esta situación, una decisión basada en árboles binarios de clasificación
es una solución adecuada a este problema, dadas las propiedades de los árboles
de clasificación, los cuales fueron tratados en el capítulo 7. El árbol de
clasificación resultado del proceso de aprendizaje nos puede dar a la vez
información sobre la estructura del problema en base al conjunto de propiedades
que componen el vector de medidas. El árbol de clasificación se construirá a
partir del método del mínimo error desarrollado en este trabajo y descrito en el
capítulo 7.
Sistema de visión. Metodología
285
A aquellas regiones que el árbol de clasificación atribuya a la clase fruto,
se considera que tal región pertenece a la imagen de un fruto. En tal caso el
fruto queda reconocido y se pasa a localizar espacialmente a partir de la
situación de la región en la imagen.
9.4.4 Localización espacial
Al igual que en el proceso de reconocimiento basado en el color, la localización
en este caso se realiza de la misma forma, a partir del punto asignado a cada
región como centro geométrico, en el caso de que se le reconozca un contorno
parcial o totalmente circular, y en caso contrario el centroide de la región
definido por el centro del rectángulo que inscribe la región.
De forma análoga, la situación del fruto se puede calcular a partir de la
determinación de sus tres coordenadas en el espacio por el método
estereoscópico, o el cálculo de la dirección en la que se encuentra el fruto
mediante una sola cámara y que fue descrito en la sección 9.3.5. En el caso de
la utilización del método estereoscópico, las imágenes binarias que se utilizan
son producto de sendas segmentaciones por el método de la transformación
concavidad, siguiendo el procedimiento desarrollado.
En un principio, el método aquí descrito basado en propiedades relativas a
la forma, sólo se aplica de manera global a la imagen, con el único objetivo de
desarrollar y verificar un método de reconocimiento de los frutos en situaciones
donde el color no es una característica determinante. Respecto a los conceptos
de estrategia de visión descritos al principio de este capítulo, todos ellos podrían
ser aplicables utilizando este método de reconocimiento, aunque en esta primera
etapa del desarrollo del método no se haya trabajado en la forma de integrarlo
dentro de la estrategia de visión de cara a la aplicación real.
Establecida la metodología con la que se ha abordado el problema de un
sistema de visión para la recolección robotizada de frutos, a partir de los
estudios de análisis de imagen realizados dentro de los objetivos propuestos, los
resultados de las experiencias realizadas en la verificación de ambos métodos en
escenas reales de frutos en su medio natural, se describen en el siguiente
capítulo.
Sistema de visión del robot
286
Capítulo 10
RESULTADOS Y DISCUSIÓN
A lo largo de la primera parte de este trabajo se discutieron
específicamente cada una de las técnicas y métodos desarrollados para su
utilización en el sistema de visión del robot recolector. Asimismo, a la vez que
se expusieron, se comprobó y verificó cada método independientemente en el
laboratorio con imágenes de escenas naturales y artificiales, tanto en eficacia
como en tiempo de proceso, para su posterior incorporación a los métodos
desarrollados para el sistema de visión en el capítulo anterior. En concreto estas
técnicas fueron: la adquisición de imágenes con apoyo de flash, la transformación
concavidad, la caracterización de objetos esféricos mediante el ajuste de
elipsoides, el reconocimiento de contornos parcialmente circulares, la
segmentación color de escenas en ambientes naturales, el sistema de
estereoscopia para calcular las posición de un objeto en tres dimensiones y el
aprendizaje de árboles binarios de clasificación.
En este capítulo se describen los resultados de las experiencias realizadas
para la comprobación de los métodos de reconocimiento y localización en
imágenes de frutos correspondientes a escenas de su ambiente natural, tal como
aparecen durante el periodo de recolección.
Los ensayos se realizaron sobre imágenes tomadas en el campo tal como se
haría si el sistema estuviera integrado en el conjunto del robot. Las imágenes
muestra se almacenaban y se analizaban en el laboratorio para realizar todas las
comprobaciones oportunas. Por lo tanto, los métodos comprobados aquí sobre
este tipo de imágenes, son los referentes a la parte de reconocimiento y
localización del fruto en la imagen, sin calcular su situación espacial respecto a
la cámara.
En las imágenes tratadas en laboratorio se omitió también la parte del
procedimiento relativa a la estrategia de visión, es decir, las estrategias de
barrido por la imagen basadas en la alternancia y la gestión de fallos, aunque si
se trató el problema de los racimos desde el punto de vista de poder reconocer
cada fruto por separado del racimo, y una simulación de la alternancia para
realizar mediadas relacionadas con el coste computacional. El método de la
alternancia y la gestión de fallos fueron utilizados durante los ensayos con el
prototipo de robot y que se describirán más adelante.
El motivo de suprimir la partes del sistema anteriormente mencionadas,
obedece al hecho de que en imágenes previamente almacenadas y tratadas en el
laboratorio no existe la dinámica a que se hizo referencia en el capítulo anterior,
ya que cada vez que se dectecta un fruto, éste no se suprime y se vuelve a
tomar otra imagen de la escena. Por tanto, las imágenes se trataron aplicando
los métodos de reconocimiento y localización detectando todos los frutos de la
escena, sin perder por ello generalidad en el tratamiento que se realizaría
durante una sesión de recolección real, que simplemente se detendría el proceso
al encontrar el primer fruto.
Tanto los ensayos con el prototipo de robot como en las imágenes tomadas
para su análisis en el laboratorio, fueron realizados en una plantación de
naranjas de la variedad salustiana, específicamente acondicionada por medio de
técnicas agronómicas de marcos de plantación y poda adaptadas al problema de
la recolección robotizada. Por medio de estas técnicas se pretende conseguir una
configuración en el árbol que permita la fructificación lo más exterior posible
para que el mayor porcentaje de frutos puedan ser visibles desde el exterior
(Castillo, 1992). En plantaciones tradicionales sólo entre el 50 y el 60 % de los
frutos son visibles desde el exterior. En la plantación experimental citada
anteriormente se han conseguido niveles de visibilidad del 70 %. Esta plantación
tiene como características principales que los árboles se distribuyen en forma de
barreras con una poda de tipo seto, la cual consigue que la superficie exterior
del árbol, en la cual se sitúan los frutos, sea plana.
Para comprobar el grado de buen funcionamiento de los algoritmos, se han
establecido una serie de indicadores en términos relativos a la naturaleza de la
Sistema de visión del robot
288
aplicación, que serán descritos en la próxima sección. Los resultados de los
ensayos realizados sobre el prototipo real se exponen en la sección 10.2, en los
que se centrará más la atención en los aspectos derivados de la estrategia de
visión y el cálculo de las coordenadas espaciales. La comprobación del método
de reconocimiento basado en color se discute en la sección 10.3, a partir de los
resultados obtenidos principalmente en ensayos sobre naranjas en plena madurez
y dos variedades de manzanas de distinto color. El método de reconocimiento de
frutos basado en propiedades relativas a la forma esférica de los frutos se aplicó
sobre naranjas en sus primeros estadios de madurez (sección 10.4).
10.1 índices de control
El objetivo de un sistema de visión en un robot recolector es reconocer y
localizar la mayor cantidad de frutos posibles presentes en la escena. Ante este
punto de vista es necesario definir ciertos parámetros que nos indiquen la
efectividad de los procedimientos y nos permitan una interpretación de acuerdo a
los resultados que se obtengan.
En primer lugar hay que tratar el punto referente a los frutos presentes en
la escena. Se consideran como frutos presentes en la escena a aquellos que son
visibles por un observador estático desde el punto donde se sitúa la cámara para
contemplar la escena. La cámara capta imágenes que son reproducidas en un
monitor, siendo lo que se observa a través del monitor la escena a que se está
haciendo referencia. Un fruto visible en la escena es aquél que una persona
puede reconocer y distinguir observando el monitor, cuya imagen es producto de
una observación estática desde el punto donde está situada la cámara respecto a
la escena.
Cuando el sistema de visión detecta un objeto en la imagen al que
considera un fruto, si este objeto es realmente un fruto se le considera un
acierto. En caso contrario, cuando el sistema de visión detecta un objeto en la
imagen al que considera como fruto pero en realidad no lo es, se considera que
se ha producido un fallo.
Resultados y discusión
289
Un caso particular en la asignación aciertos se da cuando el sistema de
visión no ha conseguido discernir entre dos o más frutos agrupados,
considerándolos como un solo fruto. En este caso, si el algoritmo señala a estos
frutos como un solo fruto, se considera un acierto, así como un único fruto en
el número de frutos visibles. Ello se considera así puesto que durante una sesión
de recolección, al realizar el robot el movimiento de recogida, se atrapará uno
de estos frutos, y en la imagen siguiente aparecerán de nuevo los que estaban a
su lado, pudiéndolos detectar de nuevo en la siguiente toma.
El índice de aciertos del sistema de visión se expresa como el número de
aciertos conseguido respecto al número total de frutos visibles que existían en las
escenas analizadas. Este índice se expresa en tanto por cien, por tanto, podemos
expresar
aciertos = num . aciertos
num . frutos visibles 100
Este índice expresa la cantidad de frutos que realmente ha detectado el
sistema de visión respecto a los frutos que estaban presentes en las escenas.
El índice de fallos del sistema de visión se expresa como el número de
fallos producidos respecto a la suma de aciertos y fallos del sistema de visión, es
decir, respecto al número total de objetos detectados, sean frutos o no. Este
índice también se expresa en tanto por cien de la forma
fallos = num . fallos
num . fallos + num . aciertos 100
Este índice nos indica la fiabilidad del sistema de visión, es decir, la
proporción de veces que el sistema se equivoca respecto al número decisiones
adoptadas. Este indicador es importante a la hora de considerar la aplicación
real sobre el robot, puesto que cuanto mayor es la cantidad de fallos del sistema
de visión, menor es el rendimiento del robot, ya que el robot realiza un
movimiento de recogida innecesario intentando alcanzar un fruto inexistente, con
la consiguiente perdida de tiempo y productividad de un posible prototipo
Sistema de visión del robot
290
comercial. En la literatura existen menciones al problema de los errores que
comete el sistema de visión (Rabatel, 1988; Levi et al, 1988; ), pero ninguno de
ellos evalúa de alguna forma cuantitativa este problema. Sólo Sites & Delwiche
(1988) citan como indicador de error del sistema de visión el error del
clasificador utilizado para determinar si una región en la imagen era un fruto o
no.
Por otra parte, para evaluar la capacidad del sistema para determinar el
centro real del fruto, se calcula la proporción de frutos detectados de los cuales
se obtuvo su centro geométrico por reconstrucción de su contorno parcialmente
circular, así el índice centro real se define como el porcentaje
centro real = num . centros reales
num . aciertos 100
Slaughter (1987) utilizó un indicador en este sentido pero con
connotaciones diferentes para evaluar el error en tanto por cien de que los
diámetros horizontal y vertical del fruto, definidos a partir del centroide
calculado, se desviaran del diámetro real del fruto. En el caso que aquí nos
ocupa, el indicador utilizado ofrece una mayor claridad en la interpretación ya
que simplemente proporciona la proporción de frutos detectados de los cuales se
conoce el centro real del fruto.
Otro parámetro a evaluar fue el separador, el cual indica la proporción de
racimos o agrupaciones de frutos que fueron desglosados en cada uno de sus
componentes respecto al número total de agrupaciones que se detectaron por el
sistema de visión, tanto si se desglosaron como si no, es decir
separador = num . agrupaciones desglosadasnum . agrupaciones detectadas
100
Este indicador nos dará la medida de la fiabilidad del procedimiento de
identificación de los frutos de un racimo mediante la combinación de la
aplicación de la transformación concavidad y de la reconstrucción de contornos
circulares.
Resultados y discusión
291
El último dato a calcular es el coste computacional medio que se invierte
en reconocer y localizar el primer fruto mediante los algoritmos desarrollados de
estrategia de visión en alternancia y procedimientos locales. Este dato es
importante de cara a la aplicación en tiempo real.
10.2 Ensayos del sistema de visión integrado en el robot
Durante Marzo de 1991 se realizaron ensayos de recolección de naranjas con el
prototipo español en la plantación experimental citada al principio de este
capítulo, con naranjas en pleno estado de madurez. En el prototipo se integró el
sistema de visión disponible en aquellos momentos, el cual tenía las siguientes
características:
- Como sistema de adquisición de imágenes se utilizó el descrito en
capítulo 1 utilizando apoyo de iluminación artificial mediante un flash fotográfico
y una cámara monocroma.
- En la estrategia de visión se incorporaron las técnicas de alternancia en
la búsqueda de los frutos, la gestión de fallos y el solapamiento de escenas.
- Como método de reconocimiento de los frutos se utilizó un algoritmo
desarrollado en los primero trabajos, el cual consiste en la adquisición de una
imagen monocroma mediante un filtro interferométrico centrado en los 650 nm ,
elegido tras estudios de espectrofotometría realizados dentro de este proyecto, y
cuyo efecto consiste en realzar el contraste entre los frutos y el resto de la
imagen. Mediante la aplicación de un umbral se consigue una imagen binaria en
tiempo real aprovechando las características de la tarjeta de adquisición. En la
imagen binaria se consideraban frutos a aquellas regiones que superan cierta
área mínima establecida a priori para evitar el efecto ruidoso de la aparición de
puntos aislados y regiones de pequeño tamaño. Como centro del fruto se asigna
el centro del cuadrado que inscribe a la región detectada.
- Para su instalación en el robot, el sistema de visión formaba un módulo
del programa de control general del robot, el cual gestionaba el funcionamiento
de la visión de acuerdo a la planificación de tareas del sistema. El sistema de
visión consistía en una única cámara que se instaló en el centro de coordenadas
Sistema de visión del robot
292
del robot (figura 10.1), condición indispensable para poder utilizar este método.
Una vez calculada la dirección en que se encuentra el fruto, el brazo se lanza
en la dirección indicada para atrapar el fruto detectado. Un sensor de infrarrojos
situado en el extremo del brazo indicaba cuando se llegaba a una distancia
cercana al fruto, alrededor de los 15 cm .
El método de reconocimiento utilizado en el sistema de visión del robot se
verificó y fiabilizó en el laboratorio sobre imágenes adquiridas con el mismo
método con anterioridad a los ensayos con el prototipo. Con el fin de poder
comparar los resultados obtenidos de este método respecto de los métodos de
reconocimiento que después se analizarán, estos resultados (Tabla 10.1) fueron
de un 77 % de frutos detectados respecto a los frutos visibles, y de un 15 % de
fallos del sistema de visión respecto al número total de aciertos y fallos. Estos
datos se extrajeron del análisis de 20 imágenes de frutos de las diferentes partes
posibles del árbol (superior, central e inferior).
Figura 10.1. Sistema de visión instalado en el brazo del prototipo.
Resultados y discusión
293
Aunque estos resultados no fueron demasiado satisfactorios, se prefirió
instalar este sistema de visión para estos ensayos, por que estaba comprobado y
verificado su funcionamiento en todo sus aspectos, estrategia, reconocimiento y
localización; con el fin de evitar problemas, ya que no sólo era la visión lo que
se tenía que ensayar, sino que ésta debía funcionar adecuadamente para
comprobar otros aspectos del prototipo.
Durante los ensayos, el robot barrió la superficie de los árboles de la
manera indicada al principio del capítulo anterior, con un grado de solapamiento
entre escenas de 2/3. Durante el proceso de recolección, en tiempo real, los
únicos datos que se pueden tomar son el número de intentos que realiza el
robot para atrapar un fruto, que coincide por el número de objetos detectados
Frutos visibles Aciertos Fallos
Num. de frutos 252 195 35
Índice (%) - 77,4 15,2
Tabla 10.1. Resultados del algoritmo de reconocimiento basado en la utilización de un filtrointerferométrico de 650 nm .
Fallos
Intentos Frutosrecogidos
Visión Alcance Obstáculos Centrodesplazado
Fallomecánico
Número 1212 435 225 291 174 27 60
%respecto
a intentos
- 35,89 18,56 24,00 14,36 2,23 4,95
%respectoa total
de fallos
- - 28,96 37,45 22,39 3,47 7,72
Tabla 10.2. Resultado de los ensayos con el prototipo.
Sistema de visión del robot
294
por el sistema de visión, los frutos recogidos y el número de fallos que se
generan de los intentos realizados, así como la naturaleza de estos fallos.
En la Tabla 10.2 se muestran los resultados obtenidos durante los ensayos
realizados. En ella podemos observar que la tasa de recolección o frutos
recogidos fueron tan solo un 35,89 % de los intentos que realizó el robot, el
resto fueron fallos debidos a varios motivos, tanto de tipo mecánico (brazo,
mano, aspiración, etc), como del sistema de visión.
En primer lugar el sistema de visión tuvo un porcentaje de fallos del
18,56 %, es decir, de cada 100 objetos detectados, alrededor de 18 % no fueron
realmente frutos. Este porcentaje es demasiado alto para una aplicación de este
tipo, lo que puso de manifiesto las deficiencias del método de reconocimiento
utilizado y que era necesario mejorar.
Se comprobó que los fallos debidos al sistema de visión, 18 %, fueron
similares a los obtenidos en los ensayos del métodos realizados en el laboratorio,
un 15 %, lo que indica que el tanto el número de imágenes utilizadas como los
criterios para su elección son representativos del comportamiento posterior
durante una sesión real de recolección.
Aunque estos ensayos no revelan ningún dato acerca de los procesos de
reconocimiento basados en color y en características relativas a la forma, si se
podrán extraer conclusiones de ciertos aspectos relacionados con la estrategia de
visión y la gestión y naturaleza de los fallos, así como datos relativos al sistema
de reconocimiento utilizado para su comparación con los métodos propuestos en
este trabajo cuyos resultados serán analizados en secciones posteriores.
Por otra parte, se produjeron una serie de fallos que incluso fueron más
cuantiosos que los producidos por error del sistema de visión. En particular los
fallos debidos a que los frutos detectados estaban fuera del alcance del robot,
fueron de un 24 % de los intentos realizados. Este dato pone de manifiesto la
importancia de conocer a priori la distancia que existe al fruto que se detecta,
dado que si el sistema sabe que el fruto queda fuera del alcance del robot, no
se inicia el intento de atrapar el fruto, buscando un nuevo fruto que sí se pueda
atrapar, de esta forma el robot no realiza movimientos innecesarios que provocan
una pérdida de tiempo con el consiguiente descenso del rendimiento y la tasa de
Resultados y discusión
295
recolección del robot. Este problema se intenta resolver con la utilización del
sistema estereoscópico desarrollado, para calcular las tres coordenadas espaciales
del fruto, y por tanto la distancia a que se encuentra el fruto detectado, no
como en el procedimiento utilizado durante estos ensayos con una sola cámara y
un sensor de infrarrojos.
Otro tipo de fallos de importancia fueron los debidos a la presencia de
obstáculos que impidieron atrapar el fruto, los cuales fueron de un 14,36 % de
los intentos realizados. Todos estos fallos fueron debidos principalmente a la
presencia de ramas delante del fruto que al acercarse el brazo del robot
tropezaba con ellas y éstas a su vez desplazaban el fruto de su posición inicial,
por lo que la mano no encontraba el fruto al llegar a la posición inicial que
tenía el fruto.
El otro factor que produjo esta serie de fallos fue debido a que el sistema
de aspiración, que posee la mano para sujetar el fruto, se obstruía con las hojas
que normalmente se encuentran alrededor del fruto. La solución de este
problema puede venir por medio de la detección de hojas delante de los frutos,
o más convenientemente, modificando de una manera más efectiva el sistema de
la mano para sujetar el fruto.
La detección de obstáculos es un problema que queda fuera del alcance de
este trabajo, no obstante esta cuestión no sólo se soluciona detectando si existe
un hoja o rama en la trayectoria que conduce al fruto, sino también existe el
problema de como valorar hasta que punto el obstáculo detectado influirá en el
éxito o fracaso del intento de atrapar el fruto, ya que se ha observado que es
muy frecuente que aunque existen frutos con hojas o ramas que puedan
obstaculizarlo, estos frutos se han podido atrapar sin tener en cuenta los posibles
obstáculos. Este problema de la detección de obstáculos esta siendo abordado
por otros participantes dentro del proyecto.
Otro de los motivos por los que se cometieron fallos fue cuando el brazo
se dirigía a un punto que quedaba notablemente desplazado del centro del fruto
y en cuyo caso la mano no conseguía situarlo correctamente en su sistema de
agarre. Aunque estos fallos debido a su cuantía, un 2,23 %, suponen un
problema mucho menor que por ejemplo el producido por los fallos de alcance,
Sistema de visión del robot
296
es un problema que se puede evitar y cuya solución ha sido tratada en este
trabajo mediante el método de reconocimiento de contornos circulares.
El desplazamiento en la indicación del centro del fruto fue debida
principalmente a dos factores. En primer lugar, la confusión que realiza el
sistema de visión, con el método de reconocimiento empleado, cuando dos o
más frutos se encuentran juntos, en cuyo caso los reconoce como un mismo
fruto, al calcular el centroide de la región que representan en la imagen, este
punto tiene gran probabilidad de caer entre dos frutos o incluso fuera de la
superficie de algún fruto. En segundo lugar, en algunos frutos que se
encontraban parcialmente ocultos, el centroide calculado dirigiría al brazo hacia
un punto demasiado alejado del centro del fruto. Estos problemas se resuelven
utilizando las técnicas de identificación de cada fruto dentro de un racimo o
grupo de frutos, y por medio del cálculo del centro geométrico del fruto a partir
de la reconstrucción de su contorno circular, las cuales se discutirán, respecto a
resultados obtenidos, en las secciones posteriores.
Un último grupo de fallos, un 4,95 %, fueron debidos a fallos mecánicos
del robot cuando intentaba atrapar el fruto. Este grupo de fallos no atañe
directamente al sistema de visión, por tanto es motivo de análisis para otras
tareas dentro de las partes que integran y hacen posible el funcionamiento del
robot.
En cuanto a los aspectos relativos a la estrategia de visión, los resultados
fueron muy satisfactorios, comportándose muy bien la alternancia y la gestión de
fallos. La alternancia permitía realizar intentos de recolección cada vez en
lugares separados en la escena, con lo que se consiguió no cometer ningún fallo
durante los ensayos por causa de un movimiento pendular del fruto cuando se
intentaba atraparlo, ya que la alternancia permite la estabilización en el
movimiento de los frutos restantes de una zona en la que se realizó un intento
antes de volver a dirigir el brazo a esa zona para atrapar otro fruto.
Con respecto a la gestión de fallos, aunque no existe ningún indicador de
su funcionamiento, se observó su buen comportamiento, tratando los fallos
indistintamente de su naturaleza. La gestión de fallos permitió analizar todas las
escenas completamente sin que se produjeran bloqueos en el sistema de gestión,
Resultados y discusión
297
pudiendo resolver cada una de las situaciones previstas por el algoritmo descrito
en la sección 9.1.3.
10.3 Método de reconocimiento por color
Los ensayos para comprobar el método de detección por reconocimiento basado
en color se realizaron sobre naranjas maduras de la variedad salustiana de la
plantación experimental a que se aludió al principio de este capítulo, tanto en
condiciones de iluminación natural como en imágenes adquiridas con el apoyo de
iluminación artificial.
Para comprobar las posibles extensiones del método para su utilización
sobre otro tipo de frutos, se han realizado unos ensayos sobre manzanas de dos
variedades, la Granny-Smith y la Gala , las cuales poseen un color diferente entre
si y a la vez diferente a las naranjas.
Las imágenes obtenidas con iluminación natural, fueron adquiridas en
condiciones análogas a las que se obtienen durante el periodo de recolección
con el robot. Los restantes bancos de imágenes se obtuvieron durante ensayos de
recolección con el robot y que fueron almacenadas para su posterior análisis. En
todo caso, las imágenes se analizaban completamente, reconociendo y detectando
todos los frutos posibles, por los motivos mencionados al comienzo de este
capítulo. Paralelamente al proceso de reconocimiento completo de la imagen, se
simulaba la aplicación en tiempo real de recogida de los frutos, tachando en la
imagen los frutos detectados, para comprobar el coste computacional en
encontrar un primer fruto en la imagen utilizando la estrategia de la alternancia
en la búsqueda y los procedimientos locales relativos al sondeo de puntos y
delimitación de regiones en la imagen susceptibles de encontrar un fruto.
10.3.1 Naranjas con iluminación natural
Las imágenes de este grupo fueron adquiridas con la cámara color y
almacenadas en formato RGB. Aunque la tarjeta de digitalización y adquisición
color capta imágenes de 512 x 512 de resolución con 256 niveles en cada banda,
Sistema de visión del robot
298
las imágenes se reducieron a 256 x 256, ya que se consideró como suficiente para
el problema tratar la información contenida en las imágenes reducidas.
Se utilizó un objetivo de 8 mm de focal, con apertura de diafragma manual,
que se ajustaba al comienzo de la toma de imágenes y quedaba en la misma
posición para todas las imágenes adquiridas. La distancia al plano promedio de
la escena fue de alrededor de 1,5 m .
Se recogieron escenas de 4 árboles de la plantación elegidos al azar. Esta
cantidad se considera representativa de toda la plantación ya que es evidente
que el mismo tipo de escenas se repiten de un árbol a otro en similares
condiciones.
Las escenas tomadas de cada árbol se tomaron de forma que representaran
el conjunto de diversas situaciones posibles que se pueden dar en un árbol,
tanto en condiciones de configuración de la escena, como del tipo de
iluminación de la misma. Concretamente se tomaron imágenes de todas las zonas
del árbol, superiores, en las que comúnmente aparece el cielo en la imagen,
centrales, en las que sólo aparecen naranjas y masa foliar, laterales, en cuyas
escenas podían surgir zonas de cielo o panorámicas generales de árboles situados
por detrás, e inferiores, en las cuales pueden surgir zonas de suelo o malas
hierbas. Asimismo, en cuanto a las condiciones de iluminación, se tomaron
escenas con luces y sombras, a contraluz y con sol situado detrás de la cámara.
En este caso, las imágenes fueron tomadas en un día claro, con presencia de
algunas nubes y luciendo el sol a media mañana.
De un total de 27 imágenes, 4 de ellas se escogieron al azar, las cuales se
utilizaron para tomar muestras con el fin de realizar el aprendizaje de los
parámetros de color utilizados en el proceso de segmentación en el algoritmo de
búsqueda y reconocimiento descrito en el apartado 9.3. Las restantes 23
imágenes se utilizaron para comprobar el funcionamiento del procedimiento.
El número de imágenes tomadas se considera como suficientemente
representativo ya que incluyen cada una de los posibles tipos de escenas
anteriormente citado y con cierto grado de repetición, puesto que en cada árbol
se repiten condiciones similares, además, tal como se comprobó durante los
ensayos con el prototipo, con este número de imágenes, los datos que se
Resultados y discusión
299
obtienen en el laboratorio son representativos de lo que ocurre durante la
recolección.
Este conjunto de imágenes para realizar los ensayos de comprobación es
además superior al utilizado por otros autores. Concretamente en naranjas,
Slaughter (1987) utilizó 13 imágenes que abarcaban todos los posibles tipos de
escenas que trató. Por otra parte, Whittaker et al (1987) dispuso de un conjunto
de 20 imágenes de tomates. Sites (1988) utilizó un conjunto de 16 imágenes de
melocotones adquiridas durante la noche; en pruebas realizadas durante el día
utilizó 4 imágenes, y trabajando sobre manzanas durante la noche utilizó 6
imágenes. Otros autores no señalan en la literatura disponible el número de
imágenes con que se trabajó o el criterio con que se eligieron tal conjunto.
Las muestras para el proceso de aprendizaje se obtuvieron, tal como se
indicó en el apartado 5.4, etiquetando regiones de una imagen manualmente y
asignándoles la clase naranja, hoja o cielo. A los píxels que componían cada
región etiquetada se les calculaba sus correspondientes coordenadas ϕ y θ a
partir de sus valores (r,g,b), y posteriormente el ángulo α del punto de
coordenadas (ϕ,θ) respecto del punto (ϕ0,θ0) correspondiente al color del
iluminante calculado previamente.
La coordenadas del color del iluminante en el diagrama ϕθ se obtuvieron
según el proceso de calibrado descrito en el apartado 5.4, tomando la imagen de
un objeto cilíndrico metálico de superficie pulida, segmentando manualmente la
región especular de la superficie del objeto y calculando el valor promedio de
las coordenadas r, g y b de los puntos de tal región. Al valor de obtenido de
coordenadas (r0,g0,b0), se le calculó posteriormente sus correspondientes
coordenadas (ϕ0,θ0) buscadas. El valor de las coordenadas obtenidas para la luz
solar con la cámara y la tarjeta de adquisición utilizadas fue de (45°,55°), valor
que corresponde a la dirección en el cubo RGB correspondiente a la recta
donde están representada la escala de grises acromática, es decir, el color
blanco.
Con un conjunto de 19164 muestras extraídas de las 4 imágenes citadas
(figura 10.2), se realizó el proceso de aprendizaje para calcular los umbrales
Sistema de visión del robot
300
izquierdo y derecho, α1 y α2, de cada clase establecida. Los umbrales
encontrados fueron para la clase fruto
fruto = α; 90° < α ≤ 123°
donde recordemos que α se define como
α = arctan
θ − θ0
ϕ − ϕ0
Obviamente, durante el algoritmo de reconocimiento, únicamente se utilizan
los parámetros relativos a la clase fruto para segmentar las imágenes, con el fin
de disminuir el coste computacional, ya que en la aplicación sólo se pretende
encontrar los frutos.
De forma análoga y a partir del mismo conjunto de muestras, se obtuvieron
el valor de los parámetros utilizados para el proceso de sondeo o test de los
píxels descrito en la sección 9.3.6. Para ello se utilizarón los valores de los píxels
Figura 10.2. Muestras en el espacio ϕθ representando alconjunto de aprendizaje utilizado. Los puntos de la clase 1
son las naranjas, los de la clase 2 las hojas, y la clase 3representa al cielo.
Resultados y discusión
301
pertenecientes a las bandas R y G, por ser el plano RG de entre los planos
coordenados donde existe un menor solapamiento entre la clase fruto y las
demás clases de colores establecidas en este problema. Los ángulos, α1 y α2, en
el plano RG de las rectas umbrales encontradas entre las cuales se sitúan los
puntos de la clase frutos fueron α1 = 0° y α2 = 44°, es decir
fruto = α; 0° < α ≤ 44°
donde aquí α se define como
α = arctan (g ⁄ r)
siendo (r,g) los valores del píxel en las bandas R y G. Este parámetro sólo se
utiliza cuando se aplica la parte del barrido de la imagen utilizando métodos
locales incluidos en la estrategia de visión referente a la alternancia, la cual se
utilizará para calcular el tiempo medio que tarda el algoritmo en encontrar un
primer fruto en la imagen.
La transformación concavidad no se utilizó en este caso porque la
variabilidad de la iluminación provoca discontinuidades que la transformación
concavidad detecta y que no se corresponden a contornos reales de los frutos u
otros objetos. Para poder identificar naranjas por separado en un grupo o racimo
sólo se utilizo la información relativa al contorno, la cual, si conseguía identificar
más de una circunferencia en una misma región, se considera como que estaba
compuesta por varios frutos.
El análisis de los contornos de cada región para averiguar el centro
geométrico del fruto a partir de la reconstrucción de su contorno circular, se
implementó de la forma descrita y utilizada en los experimentos del capítulo 4.
Sólo se consideraron los contornos circulares que cumplieron las siguientes
condiciones:
- Que tuvieran un radio mínimo de 5 píxels.
- Que la proporción de contorno circular mínima a partir del cual se hizo
la reconstrucción fuera del 20 %.
Sistema de visión del robot
302
En caso de no encontrar una circunferencia que se pueda ajustar al
contorno de la región dentro de las restricciones indicadas, se calcula como
centroide de la región el centro del rectángulo mínimo que inscribe la región.
Las restricciones anteriores se consideraron porque la mayor parte de las
circunferencias de pequeño tamaño corresponden a pequeñas regiones en la
imagen a frutos que exhiben una porción muy reducida de su superficie, por
tanto, como para regiones pequeñas muy compactas, el número de píxels del
contorno es reducido, inducen a errores en la reconstrucción de la circunferencia
real que envuelve al fruto por falta de información. Este mismo criterio de falta
de información queda plasmado en la segunda exigencia que pretende desestimar
contornos reconocidos como circulares reconstruidos a partir de una pequeña
porción de la circunferencia total y que puede conducir a errores.
Las conclusiones que condujeron a las restricciones anteriores se obtuvieron
a partir del análisis de imágenes diferentes del grupo utilizado para los ensayos
que aquí se describen, y que fueron utilizadas durante las pruebas y
experimentos mientras se desarrolló el método aquí descrito. Los limites fijados
para estas restricciones se tomaron después de la observación del
comportamiento de estos parámetros al aplicar el método a las imágenes
muestra.
Asimismo, tanto el área mínima como el perímetro mínimo fijados para el
algoritmo con el fin de evitar puntos aislados y pequeñas regiones espúreas, se
obtuvieron después de observar el comportamiento de estos parámetros en el
conjunto de imágenes muestras utilizado.
Fijados los parámetros necesarios para el funcionamiento del método de
reconocimiento y localización basado en color, se aplicó el procedimiento a las
restantes 23 imágenes de forma global, es decir, intentando detectar todos los
frutos posibles de la imagen, sin tener en cuenta la dinámica del procedimiento
durante la aplicación de forma real. Con los datos recopilados de todo este
conjunto de imágenes se calcularon los índices descritos en la sección 10.1 y
cuyos resultados se muestran en la Tabla 10.3. En esta tabla podemos observar
que el índice de aciertos fue del 96,3 %, porcentaje muy satisfactorio por encima
de los conseguidos por otros autores mencionados en la literatura sobre naranjas
Resultados y discusión
303
(70 % por Levi et al (1988)), y especialmente sobre el sistema implementado en
los primeros ensayos del prototipo (un 77 %). Asimismo, este porcentaje de
aciertos es superior al obtenido sobre otros frutos por otros autores, como por
ejemplo en manzanas el 90 % durante escenas nocturnas por Sites & Delwiche
(1988), o este mismo autor sobre melocotones en escenas nocturnas, un 90%, y
en escenas diurnas, un 84 %. Es necesario recordar que este porcentaje de
aciertos ha sido obtenido sobre escenas diurnas con iluminación natural
totalmente incontrolada, lo que supone un verdadero avance en la detección de
naranjas en recolección robotizada.
El 3,7 % de naranjas visibles que el algoritmo no pudo detectar fueron
claramente frutos que exhibían una parte realmente pequeña de su superficie,
que quedaban eliminadas por el filtro relativo al área mínima de una región
para considerarla como fruto.
La nivel de fallos fue de un 5,2 %, porcentaje bastante reducido y por
debajo los límites aceptados (un 7 %) para su aplicación en el prototipo real.
Hay que hacer notar que los fallos o falsas detecciones producidas fueron
debidas a la presencia de objetos en la imagen que a veces presentan zonas de
color similar al de los frutos, como es el caso de algunas imágenes en las que
aparecía el suelo del terreno que a veces presentaba un color rojizo. En
ocasiones muy aisladas, los fallos fueron debidos a una especie de aberración
cromática de la cámara en los bordes de algunos objetos, como troncos o ramas
de considerable diámetro, o en bordes de hojas junto con zonas muy iluminadas
de cielo. En todo caso, estos errores no suponen ningún problema serio para la
aplicación en la proporción que se producen.
Visibles Detectados Fallos Centro real Racimos Separador
Num. defrutos
323 311 17 122 29 19
Índice (%) - 96,3 5,2 39,2 - 65,5
Tabla 10.3. Resultados de la aplicación del método de reconocimiento basado en color, sobrenaranjas, en condiciones de iluminación natural.
Sistema de visión del robot
304
Es importante señalar que virtualmente ningún no se produjo error por
causa de la presencia de brillos especulares o debidos a la variabilidad espacial
de la luz, o incluso sobre la superficie de un mismo fruto, en las que aparecían
zonas de sombra y de luz que incidía directamente. Esto es debido al buen
funcionamiento del proceso de segmentación, cuyas particularidades fueron
abordadas en el capítulo 5.
Del total de frutos reconocidos, se pudo localizar su centro geométrico, a
partir de la reconstrucción de su contorno, a un 39,2 % (índice centro real) de
los frutos detectados. El mayor inconveniente para poder aplicar el
reconocimiento de contornos parcialmente circulares no fue precisamente el
hecho de que fueran parciales, sino que en un gran porcentaje de frutos, aunque
estos presentaran gran proporción del contorno visible, tenían un tamaño
relativamente pequeño respecto a la resolución de la imagen, estando
representados por regiones de pequeño tamaño donde los contornos no poseen
el suficiente número de píxels para ser relevantes. Esto ocurre con los frutos
que se encuentran a partir de cierta distancia de la cámara.
En cuanto al índice separador, se consiguió identificar, al menos un fruto
por separado de un racimo, en el 65,5 % de los racimos encontrados.
Recordemos que, en este caso, para reconocer independientemente los frutos de
un racimo, se utilizó el reconocimiento de contornos circulares, ya que la
transformación concavidad no puede ser aplicada en este caso debido a la
variabilidad de la iluminación natural. Por tanto, este método puede ser una
alternativa para este problema en el caso de iluminación natural.
En las figuras 10.3a a 10.6a se muestran 4 imágenes originales de las
utilizadas para los ensayos de este método. En las figuras 10.3b a 10.6b se
muestran sus correspondientes regiones de la imagen segmentada consideradas
como frutos, sobre las que se muestra la circunferencia encontrada que más se
ajustaba a su contorno, cuyo centro se toma como el centro geométrico del
fruto, y en su defecto el centroide de la región se marca con una cruz.
En la figura 10.3a se puede observar la variabilidad de la iluminación, y en
su correspondiente imagen segmentada (figura 10.3b) se puede apreciar como la
segmentación en color ha podido resolver este problema, encontrando de igual
Resultados y discusión
305
forma las naranjas que estaban a la sombra como las que estaban al sol, así
como asignar correctamente las zonas brillantes de cada fruto al igual que sus
zonas más mates. De la mima forma se pueden observar estos efectos sobre el
fruto que aparece en la figura 10.4a, cuya superficie se encuentra parcialmente al
sol y parcialmente a la sombra, pudiendo omitir este efecto en su segmentación
asignándolos correctamente a la misma región correspondiente a ese fruto (figura
10.4b).
El método de segmentación utilizado soluciona el problema de la
iluminación variable sin incorporar al sistema de visión instrumentos o tecnología
adicional, como el caso del diafragma motorizado implementado por Slaughter
(1987), sistema que incluso no consiguió resolver el problema en los casos donde
los frutos quedaban pobremente iluminados, siendo el fondo el que tenía la
mayor parte de la iluminación de la escena, confundiendo al sistema de
regulación del diafragma.
Respecto a la determinación del centro geométrico de los frutos a partir de
la reconstrucción de su contorno, se puede observar a lo largo de las imágenes
ejemplo como a partir de frutos que exhibían parte de su contorno circular se
pudo calcular la circunferencia que más se le ajustaba. Así por ejemplo, se
puede observar como en la figura 10.4a aparece un fruto parcialmente oculto
con aproximadamente menos de un 50 % de su contorno visible y como se ha
podido determinar su contorno circular total con bastante exactitud (figura
10.4b). Otros ejemplos similares se pueden encontrar en las figuras 10.3, 10.4 y
10.5 con distintos grados de oclusión del contorno.
En la figura 10.3a podemos observar el caso de dos frutos juntos, cuyos
contornos se encuentran solapados. En su correspondiente imagen 10.3b podemos
observar como se consiguió identificar el contorno de cada fruto aún estando
representados por una misma región en la segmentación.
El cálculo de la circunferencia que más se ajusta al contorno del fruto
puede servir en aplicaciones futuras para determinar el tamaño y calibre
aproximado del fruto sabiendo la distancia a que se encuentra, de cara a una
recolección selectiva.
Sistema de visión del robot
306
Figura 10.3a. Imagen de una escena de frutos con iluminaciónnatural.
Figura 10.3b. Resultado del algoritmo de reconocimiento sobre laimagen 10.3a.
Resultados y discusión
307
Figura 10.4a. Imagen de una escena de frutos con iluminaciónnatural.
Figura 10.4b. Resultado del algoritmo de reconocimiento sobre laimagen 10.4a.
Sistema de visión del robot
308
Figura 10.5a. Imagen de una escena de frutos con iluminaciónnatural.
Figura 10.5b. Resultado del algoritmo de reconocimiento sobre laimagen 10.5a.
Resultados y discusión
309
Figura 10.6a. Imagen de una escena de frutos con iluminaciónnatural.
Figura 10.6b. Resultado del algoritmo de reconocimiento sobre laimagen 10.6a.
Sistema de visión del robot
310
También se puede observar en estas imágenes ejemplo, concretamente en
las representadas en las figuras 10.4 y 10.6, como las naranjas que aparecen en
grupos de dos o más frutos, al menos alguna de ellas ha sido identificada
individualmente, gracias a la reconstrucción de su contorno. De esta forma se da
una solución satisfactoria a este problema para dirigir el brazo más precisamente
al centro de cada fruto, evitando de esta forma los errores que por este motivo
se producen durante el proceso de recolección real.
Para determinar el coste computacional medio en encontrar cada vez el
primer fruto en la imagen, se simuló el proceso de recolección real para utilizar
las técnicas de estrategia de visión de la alternancia y los procedimientos locales,
a través de el sondeo o test de los píxels durante el barrido y la determinación
de zonas de interés para aplicar el método de reconocimiento exhaustivo en
ellas.
Para poder simular este efecto, se iniciaba el tratamiento de la imagen
hasta encontrar un fruto, el tiempo en encontrarlo pasa a formar parte de la
estadística, y el fruto detectado se tacha en la imagen borrando la información
del rectángulo mínimo que contiene al fruto encontrado. A continuación se sigue
con el procedimiento como si se el robot hubiera recogido el fruto, y así
sucesivamente hasta que se detecten todos los frutos posibles de la imagen.
Obviamente la gestión de fallos no se incluyó en esta prueba, ya que todos los
objetos detectados, fueran frutos o no, se consideraban como que el robot los
hubiera atrapado.
El tiempo medio utilizado en detectar un fruto fue de 0,58 segundos,
tiempo por debajo del limite establecido, 0,7 segundos, en el pliego de
características dentro de los estudios realizados en este proyecto para el tiempo
asignado al proceso detección por el sistema de visión artificial. Hay que
recordar que este tiempo ha sido conseguido mediante procedimientos software
de estrategias de visión utilizando equipos sin hardware de proceso de imágenes
específico y en ordenadores de tipo PC, tal como dictaba la filosofía del
proyecto.
Resultados y discusión
311
10.3.2 Naranjas con iluminación artificial
El conjunto de imágenes utilizado en este grupo fueron tomadas con el método
de adquisición con apoyo de flash descrito en el capítulo 1. Las condiciones
relativas a la distancia promedio de la cámara a los objetos de la escena, la
focal del objetivo y demás componentes del sistema de visión fueron los mismos
que los utilizados durante los ensayos descritos en la sección anterior.
En esta ocasión sí se utilizó la transformación concavidad, puesto que las
condiciones de iluminación eran adecuadas. Se utilizó de la forma implementada
en el capítulo 2, fijando como umbral un valor de 63, con el que se consigue la
imagen binaria en que cada región corresponde a un fruto por separado. La
intersección de las regiones resultantes de la transformación concavidad con la
región producto de la segmentación color que focalice la atención del algoritmo,
da como resultante la obtención de una región por cada fruto por separado en
el caso de que se trate de una agrupación o racimo.
Las imágenes fueron tomadas con criterios similares a los expuestos en los
anteriores ensayos, aunque en este caso estos criterios no influyen
significativamente, puesto que con el sistema de adquisición con iluminación
artificial, los punto relativos a la variabilidad en las condiciones de iluminación
posibles son nulos, dado que siempre se obtienen escenas con el mismo tipo y
grado de iluminación. En cuanto a los criterios relativos a las partes del árbol,
gracias al método de adquisición tampoco son distinguibles escenas centrales,
laterales, superiores o inferiores, ya que todos los objetos que podían interferir
en el proceso de reconocimiento en el caso de la iluminación natural, no
aparecen en este tipo de adquisición, puesto que, tanto el cielo como el suelo
del terreno no aparecen en la imagen por no llegar a ser iluminados por el
flash.
El conjunto utilizado estaba formado por 32 imágenes, de las cuales 5
fueron utilizadas para extraer las muestras y determinar los parámetros del
método (figura 10.7). Las coordenadas del color del iluminante encontradas
fueron de (ϕ0,θ0) = (38,8°,68,8°), claramente diferentes a la iluminación natural.
Los umbrales α1 y α2 para la clase fruto en el diagrama ϕθ fueron
Sistema de visión del robot
312
fruto = α; 141° < α ≤ 171°
y los umbrales α1 y α2 en el plano RG para el test de sondeo de píxels fueron
fruto = α; 0° < α ≤ 31,3°
Con respecto al reconocimiento de contornos parcialmente circulares se
utilizó en las mismas condiciones descritas en el apartado anterior. El área
mínima y perímetro mínimo se fijaron en acuerdo al mismo criterio establecido.
El resultado de aplicar el método a las 27 imágenes restantes en forma
global se muestra en la Tabla 10.4. Como datos significativos resaltar el alto
porcentaje de aciertos, un 97 %, así como la proporción de fallos, el 0,3 %, datos
altamente satisfactorios. Estos porcentajes son debidos a la mejora en las
condiciones de iluminación introducidas por el sistema de adquisición, ya que,
como se ha comentado anteriormente, el suelo que en el caso de la iluminación
natural podía producir algún fallo del sistema, no aparece suficientemente
iluminado en este tipo de adquisición, quedando fuera del alcance del flash.
Figura 10.7. Muestras en el espacio ϕθ representando alconjunto de aprendizaje utilizado. Los puntos de la clase 1
son las naranjas, los de la clase 2 las hojas.
Resultados y discusión
313
Otro tipo de problemas como la aparición de aberraciones cromáticas en
contornos de hojas con fondo muy iluminado no se dan en este tipo de escenas
ya que aquí el fondo siempre es obscuro, no apareciendo el cielo ni ningún
objeto al que no llegue la iluminación del flash.
Aunque estas tasas de detección son elevadas, 97 %, no difieren
sustancialmente de las conseguidas con iluminación natural, 96 %, siendo más
conveniente utilizar el método anterior durante horas diurnas puesto que los
flashes tienen una vida media en cuanto al número de disparos que pueden
efectuar, siendo un elemento que encarece un futuro prototipo comercial. No
obstante el sistema de apoyo de iluminación artificial permite la recolección
durante la noche o en horas de pobre iluminación, siendo imprescindible
entonces este sistema de adquisición.
Al igual que en el caso anterior, los frutos que no se detectaron fue
debido a que exhibían sólo una pequeña parte de su superficie, siendo sus
correspondientes regiones eliminadas durante la segmentación por el filtro
impuesto al área mínima de una región.
Respecto al índice de fallos, se puede observar que es virtualmente nulo.
Este dato refleja el excelente funcionamiento del método de segmentación en
color cuando se utiliza una iluminación adecuada. Puesto que el método ha sido
desarrollado teniendo en cuenta las condiciones de una iluminación variable e
incontrolada, es natural que se obtengan mejores resultados con iluminación
controlada. No obstante la tasa de fallos en el caso de iluminación natural no
esta lejos del cero, sobre todo teniendo en cuenta que aquellos fallos fueron
debidos a la presencia de zonas de la imagen de color similar a los frutos y que
Visibles Detectados Fallos Centro real Racimos Separador
Num. defrutos
305 296 1 165 23 22
Índice (%) - 97,0 0,3 55,7 - 95,7
Tabla 10.4. Resultados de la aplicación del método de reconocimiento basado en color, sobrenaranjas, en condiciones de iluminación artificial.
Sistema de visión del robot
314
Figura 10.8a. Imagen de una escena de frutos con iluminaciónartificial.
Figura 10.8b. Resultado del algoritmo de reconocimiento sobre laimagen 10.8a.
Resultados y discusión
315
Figura 10.9a. Imagen de una escena de frutos con iluminaciónartificial.
Figura 10.9b. Resultado del algoritmo de reconocimiento sobre laimagen 10.9a.
Sistema de visión del robot
316
Figura 10.10a. Imagen de una escena de frutos con iluminaciónartificial.
Figura 10.10b. Resultado del algoritmo de reconocimiento sobre laimagen 10.10a.
Resultados y discusión
317
Figura 10.11a. Imagen de una escena de frutos con iluminaciónartificial.
Figura 10.11b. Resultado del algoritmo de reconocimiento sobre laimagen 10.11a.
Sistema de visión del robot
318
en el caso de la iluminación artificial estos objetos generalmente no se iluminan
suficientemente, no apareciendo en la imagen.
A lo largo de las figuras 10.8 a 10.11 podemos observar los efectos de la
iluminación artificial sobre la escena, en las que podemos notar como las
superficies de los frutos han sido iluminadas homogéneamente y como el fondo
de la imagen aparece bastante obscuro debido al efecto del flash, que no alcanza
a iluminar suficientemente objetos a partir de cierta distancia, hecho que no
limita las posibilidades de recolección del robot ya que se ha comprobado que el
alcance del robot esta dentro de esta distancia, no pudiendo incluso alcanzar
frutos que aparecen iluminados en la escena, tal como vimos en la sección 10.2.
En cuanto al índice centro real nos encontramos en el mismo caso que en
el apartado anterior. Los contornos circulares que pudieron ser reconstruidos
fueron de frutos que, además de que mostraban como mínimo un 20 % del
contorno, estaban más cercanos a la cámara, con lo que su tamaño relativo en la
imagen ofrecía bastante información en número de píxels para poderlos
reconocer. En total, se pudo reconocer el contorno del 55,7 % de los frutos
detectados. Los frutos más alejados, cuyas regiones son de tamaño muy pequeño,
comparables con frutos que, aunque situados más cerca y sólo mostraban una
pequeña parte de su superficie, no fue posible la detección de su contorno
circular real.
En la figura 10.8a y su correspondiente 10.8b se pueden observar los
efectos descritos anteriormente, pudiendo reconocer los contornos de objetos
parcialmente ocultos por hojas pero cuya información de presente en la imagen
es relevante. En cambio vemos como a partir de las regiones de muy pequeño
tamaño no es posible intuir el contorno real del fruto.
Respecto al método de separación de los frutos cuando se encuentran
juntos o formando racimos, se puede observar claramente en el índice separador
que fue totalmente efectivo, prácticamente el 100 % de los grupos de frutos
fueron desglosados en sus componentes. Esto indica el buen comportamiento de
la transformación concavidad para solucionar este problema, separando las
superficies de cada fruto en una región independientemente. A lo largo de las
figuras 10.8 a 10.11 podemos observar el caso de varias agrupaciones en las
Resultados y discusión
319
cuales han sido perfectamente separados los frutos, reconstruyendo además su
contorno real.
El coste computacional medio en encontrar el primer fruto en la imagen
simulando la estrategia de visión utilizada en el caso de naranjas con iluminación
natural fue algo mayor que en el caso anterior, de 0,62 segundos, ya que en este
caso también se utilizó la transformación concavidad en el proceso de análisis
exhaustivo de las regiones de interés. No obstante este tiempo sigue estando
dentro de los límites establecidos para que su aplicación en un prototipo real
sea posible, es decir, por debajo de los 0,7 segundos.
10.3.3 Manzanas de la variedad Granny Smith con iluminación artificial
Para comprobar las posibles extensiones del método de reconocimiento y
localización basado en color desarrollado sobre otro tipo de frutos de diferentes
colores al de las naranjas, se han realizado unos ensayos sobre manzanas de dos
variedades. Las manzanas son un campo de aplicación de la robótica de
recolección, en el que desde los comienzos de las investigaciones en este campo
se ha estado trabajando con gran intensidad.
Las manzanas de la variedad Granny Smith tienen un color verdoso, muy
similar a las hojas de los árboles pero, tal como veremos, con la suficiente
diferencia de color como para poder distinguirlas por esta característica.
Las imágenes utilizadas se adquirieron en las mismas condiciones que las
de naranjas del apartado anterior con apoyo de iluminación artificial mediante
flash, focal de la lente de la cámara, distancia media al plano de la escena, etc.
Sólo se tuvo que calcular los umbrales α1 y α2 para la clase fruto en el
diagrama ϕθ, ya que el color del iluminante fue el mismo puesto que se utilizó,
al igual que en caso anterior, el mismo flash.
En este caso se dispuso de 7 imágenes de manzanas, de las cuales 2 se
utilizaron para extraer las muestras para calcular los umbrales α1 y α2 para la
clase fruto (figura 10.12), los cuales fueron
fruto = α; 91° < α ≤ 342°
Sistema de visión del robot
320
y los umbrales α1 y α2 para el test de sondeo de píxels, que en este caso se
eligió el plano RB por encontrar en él un menor solape de las clases, fueron
fruto = α; 70,6° < α ≤ 90°
Al igual que en el caso anterior se utilizó la transformación concavidad
para separar los frutos y el reconocimiento de contornos circulares para detectar
el centro de los frutos.
Tras aplicar el método de forma global a las 5 imágenes restantes, los
resultados obtenidos se muestran en la Tabla 10.5. En ella podemos observar
que el índice de aciertos es del 92,3 %, porcentaje altamente satisfactorio
teniendo en cuenta la similitud de color entre los frutos y el resto del árbol, lo
que viene a corroborar una vez más el buen comportamiento del método de
segmentación, en este caso su capacidad de discernir entre colores muy próximos
visualmente hablando.
Figura 10.12. Muestras en el espacio ϕθ representando alconjunto de aprendizaje utilizado. Los puntos de la clase 1
son las manzanas Granny Smith , los de la clase 2 lashojas, y la clase 3 el cielo.
Resultados y discusión
321
El índice de fallos fue, virtualmente, del 0 %, aunque, claro está, con un
conjunto de imágenes más representativo el índice de fallos sería distinto de cero
pero próximo a él. No obstante, los resultados sobre este reducido conjunto de
imágenes disponible dan una idea bastante orientativa de lo que ocurre en
realidad.
En cuanto al proceso de separación de los frutos pertenecientes a un
racimo, su comportamiento es totalmente análogo al caso anterior de naranjas
(Figuras 10.13 y 10.14), pudiendo conseguir este objetivo en prácticamente todos
los casos, tal como indica el valor 90 % del índice separador. Una vez más la
aplicación de la transformación concavidad es posible debido a las condiciones
de iluminación en la escena, así como su excelente resultado para resolver este
problema.
Lo mismo se puede decir del índice centro real, pudiendo reconocer este en
el 25,2 % de los frutos visibles, en los casos en condiciones similares a las
descritas para las naranjas, donde la información del contorno, por el tamaño de
la región correspondiente, era suficiente para poder determinarlo con fiabilidad.
Además, en manzanas existe el agravante de que se alejan más que la naranjas
de la forma circular ideal.
Respecto al coste computacional medio para localizar el primer fruto en la
imagen utilizando una simulación la estrategia de barrido, se obtuvieron tiempos
similares al caso de naranjas maduras con flash, del orden de 0,6 segundos, ya
que se utilizó exactamente el mismo método pero con sus correspondientes
parámetros de ajuste del algoritmo.
Visibles Detectados Fallos Centro real Racimos Separador
Num. defrutos
235 218 0 55 53 48
Índice (%) - 92,3 0 25,2 - 90,6
Tabla 10.5. Resultados de la aplicación del método de reconocimiento basado en color, sobremanzanas granny smith, en condiciones de iluminación artificial.
Sistema de visión del robot
322
Figura 10.13a. Imagen de una escena de frutos con iluminaciónartificial.
Figura 10.13b. Resultado del algoritmo de reconocimiento sobre laimagen 10.13a.
Resultados y discusión
323
Figura 10.14a. Imagen de una escena de frutos con iluminaciónartificial.
Figura 10.14b. Resultado del algoritmo de reconocimiento sobre laimagen 10.14a.
Sistema de visión del robot
324
10.3.4 Manzanas de la variedad Gala con iluminación artificial
Como segunda muestra de la extensión de estas técnicas, se aplicó el mismo
método a un conjunto de 3 imágenes de manzanas de la variedad Gala , las
cuales poseen un color rojo muy diferente de la variedad Granny Smith y a su
vez, diferente del de las naranjas.
De las 3 imágenes disponibles, una se utilizó para extraer las muestras para
calcular los umbrales α1 y α2 para la clase fruto (figura 10.15), los cuales fueron
fruto =
α; 0° < α ≤ 211°
α; 325° < α ≤ 0°
En este caso no se comprobó el método con la estrategia de búsqueda por
procedimientos locales, por lo tanto no se calcularon los umbrales para este
propósito, aunque claramente el plano a elegir en este caso es el RG.
Evidentemente el color del iluminante fue el mismo que en los casos anteriores
al utilizar el mismo método de adquisición con flash y los mismos componentes.
Figura 10.15. Muestras en el espacio ϕθ representando alconjunto de aprendizaje utilizado. Los puntos de la clase 1
son las manzanas Gala, y los de la clase 2 las hojas.
Resultados y discusión
325
Los resultados obtenidos en este caso sobre las dos imágenes restantes se
pueden observar en las figuras 10.16 y 10.17, en las que se han reconocido sin
problemas los frutos que en ellas se encuentran. El comportamiento de la
transformación concavidad para separar los frutos de los racimos y del
reconocimiento de círculos para detectar el centro geométrico de los frutos tiene
las mismas características que en el caso anterior de las manzanas granny smith.
A partir de los resultados obtenidos sobre estas dos variedades de
manzanas se puede decir que el método es totalmente válido para otros frutos
diferentes a las naranjas, en este caso manzanas y que presumiblemente, por el
comportamiento observado, es totalmente extensible a otros muchos tipos de
frutos.
10.4 Método de reconocimiento basado en características relativas
a la forma de los frutos
Existen situaciones, tal como ya se ha comentado, en que el color no es una
característica relevante de los frutos con respecto al entorno que le rodea. En
estos casos el método de reconocimiento basado en color no es factible, por lo
que es necesario recurrir al reconocimiento a partir de características relativas a
la forma de los objetos que se pretende detectar, en este caso los frutos.
En el mercado de cítricos, es práctica habitual recolectar las mandarinas y
naranjas cuando aún no han alcanzado su estado completo de madurez, sin haber
alcanzado el color que las caracteriza, pasando posteriormente a un proceso de
desverdización para cambiar el color de la piel.
En estos casos, aunque el fruto ya alcanzado su tamaño final y un nivel de
azúcar/ácido permitido para su comercialización, los frutos son recogidos en el
campo con un color verde, totalmente análogo al color de las hojas de los
árboles.
Un problema similar es el que ocurre con los tomates, los cuales se
recogen para su consumo en fresco habitualmente totalmente verdes, para que
lleguen con su estado de madurez habitual al consumidor, madurando de forma
natural durante el periodo de comercialización.
Sistema de visión del robot
326
Figura 10.16a. Imagen de una escena de frutos con iluminaciónartificial.
Figura 10.16b. Resultado del algoritmo de reconocimiento sobre laimagen 10.16a.
Resultados y discusión
327
Figura 10.17a. Imagen de una escena de frutos con iluminaciónartificial.
Figura 10.17b. Resultado del algoritmo de reconocimiento sobre laimagen 10.17a.
Sistema de visión del robot
328
Centrándonos en el problema de los cítricos, se han realizado ensayos sobre
imágenes tomadas de escenas de naranjas de la variedad salustiana en los meses
de Septiembre-Octubre, de la plantación experimental utilizada a lo largo de este
trabajo, y que presentaban un color totalmente verde, similar al de las hojas.
Sobre estas imágenes se ha aplicado el método de reconocimiento basado en
características relativas a la forma descrito en la sección 9.4.
Tal como se apuntó en la descripción del método, el problema se ha
abordado de una forma diferente al de las naranjas diferenciables por color. En
este caso se ha realizado una primera aproximación al problema la cual
pretende, además de conseguir los mejores resultados posibles, realizar un
análisis de la estructura del problema a partir de los resultados obtenidos, de
cara a su posible utilización en el robot recolector para ampliar el ámbito de
aplicación de la máquina y abarcar todas las posibilidades de recolección sobre
cítricos que se dan en la actualidad, por lo menos en lo que respecta al papel
del sistema de visión.
Para ello, el proceso seguido en los ensayos realizados sobre el conjunto de
imágenes disponibles consiste en:
- Una segmentación en bruto.
- La extracción de las características y la toma de muestras.
- El aprendizaje del clasificador.
- La comprobación de la validez del clasificador encontrado.
- Análisis de la estructura del problema.
Con este planteamiento, todas las imágenes se analizarán de forma global,
sin tener en cuenta las estrategias de visión utilizadas en casos anteriores de
cara a su aplicación en tiempo real.
Sobre cada imagen se realiza una segmentación en bruto por medio de la
transformación concavidad, tal como se describió en la descripción del método.
A cada región producto de la segmentación se la considera la entidad u objeto a
clasificar. A estas regiones se le extraen cada una de las características que se
eligieron para realizar su clasificación.
Resultados y discusión
329
Del análisis de todas las imágenes del conjunto tratado, se formó un
conjunto de muestras consistente cada una de ellas en una región con los valores
de las características extraídos sobre ellas, y una etiqueta asignada por el analista
que identifica a esa región como una de las clases del conjunto que se
establezca a priori.
El conjunto de clases establecido, ha sido elegido con el fin de poder
analizar de una forma más clara el problema con respecto al mayor
inconveniente que se presenta en este caso, la oclusión parcial de la superficie
de los frutos. En función de ello se han establecido 3 clases diferentes de
objetos o regiones presentes en la imagen segmentada,
-clase 1, frutos que muestran aproximadamente más de un 50 % de su
superficie;
-clase 2, frutos que muestran menos de un 50 % de su superficie;
-clase 3, a cualquier otro objeto, rama u hoja.
Una vez extraídas todas las muestras pertenecientes a cada una de las
imágenes utilizadas, el conjunto total de muestras L se dividió en dos, uno
utilizado para realizar el proceso de aprendizaje del clasificador, La, y otro, Lt,
utilizado para comprobar el error del clasificador. El conjunto de aprendizaje
representaba un tercio del conjunto total, es decir, La = 1 ⁄ 3 L , el cual fue
formado extrayendo aleatoriamente las muestras del conjunto total L . El resto,
Lt = 2 ⁄ 3 L , integraba el conjunto test.
Para realizar el aprendizaje del árbol binario de clasificación, el conjunto
La se dividió a su vez en dos subconjuntos, L1 y L2. L1 fue el conjunto de
muestras utilizado para generar las particiones del árbol y L2 se utilizó para
realizar las estimaciones de error durante el crecimiento o elección del árbol.
Recordemos que el conjunto test Lt, nunca fue visto por el árbol durante el
proceso de aprendizaje, ni durante su crecimiento ni para la estimación del error
en la elección del árbol.
Sistema de visión del robot
330
De la misma forma, L1 se formó a partir de extraer aleatoriamente las
muestras de La, el resto de muestras en La constituyeron el conjunto L2. La
proporción elegida de L1 y L2 respecto al total fue L1 = L2 = 1 ⁄ 2 La.
El conjunto de imágenes utilizadas, en un total de 90, fueron adquiridas
con el apoyo de iluminación mediante flash por el método descrito en el
capítulo 1. La distancia media de la cámara al plano imagen fue de un metro
aproximadamente, y se utilizó un objetivo de 16 milímetros con apertura manual
de diafragma, la cual fue regulada según se indicó en la descripción del método
de adquisición. Las imágenes fueron reducidas a una resolución de 256 x 256.
Al igual que en el caso de reconocimiento basado en color, se tomaron
escenas de ocho árboles de la plantación intentando abarcar todas las situaciones
posibles que se pueden presentar, es decir, imágenes de escenas superiores,
inferiores, centrales, laterales, etc. En este caso, al igual que en los ensayos con
imágenes de naranjas en plena madurez utilizando iluminación artificial, las zonas
de cielo, suelo y todos los objetos a los cuales el flash no iluminaba, quedaban
Figura 10.18. Partición de los conjuntos de muestras de aprendizaje.
Resultados y discusión
331
suprimidos de la imagen, consiguiendo condiciones en pleno día similares a las
nocturnas.
Del las 90 imágenes utilizadas, se extrajeron un total de 13620 muestras, de
las cuales 441 pertenecían a la clase 1, 127 a la clase 2 y 13052 a la clase 3. En
la Figura 10.18 se muestra como este conjunto total de muestras L fue divido
para formar los conjuntos Lt, La, L1 y L2 a los que se hizo referencia
anteriormente.
Tras el proceso aprendizaje con el conjunto La por el método del
crecimiento por mínimo error desarrollado en el capítulo 7, el árbol de
clasificación resultado tiene 37 nodos terminales, cuyo error estimado durante el
proceso de aprendizaje por el subconjunto L2 fue del 1,32 %. Posteriormente,
cada muestra del conjunto reservado para el test final fue introducida en el
árbol para su clasificación.
El resultado de introducir el conjunto test, Lt, en el árbol encontrado se
muestra en la tabla 10.6. En las filas de la tabla se indican el número de
elementos de la clase correspondiente a la columna que fueron clasificados como
la clase indicada en la entrada de la fila correspondiente. La columna Total (nº
muestras), indica el número total de muestras presentes en el conjunto Lt de la
clase indicada en la entrada de su fila correspondiente. La columna Error (nº
muestras), indica el número de muestras mal clasificadas que fueron asignadas a
la clase indicada en la entrada de su fila correspondiente. La columna Error (%),
indica el tanto por cien de error producido en cada clase, es decir, el tanto por
Clase 1 2 3 Total (nºmuestras)
Error (nºmuestras)
Error (%)
1 247 19 29 295 48 16,27
2 11 31 43 85 54 63,35
3 24 35 8643 8702 59 0,68
Total 282 85 8715 9082 161 1,77
Tabla 10.6. Resultado de la clasificación de las muestras del conjunto Lt.
Sistema de visión del robot
332
cien de muestras mal clasificadas respecto del número total de muestras de la
clase indicada presentes en el conjunto Lt. La fila Total indica el número total
de muestras asignadas a cada clase indicada en su correspondiente columna.
Observando la tabla vemos que el error total cometido con las muestras del
conjunto test fue del 1,77 %, el cual no difiere sustancialmente del estimado
durante el aprendizaje con el conjunto L2, 1,32 %, el cual tenía un número total
de 2269 muestras; el conjunto Lt cuenta con un total de 9082 muestras,
aproximadamente cuatro veces superior al conjunto L2, lo que indica que el
número de muestras utilizado durante el aprendizaje fue lo suficientemente
representativo del conjunto total L .
Por otra parte, analizando los intervalos de confianza del error total
encontrado, recurriendo a los argumentos expuestos en el apéndice C, se puede
decir que con un error estimado del 1,77 % y con un conjunto de 9082
muestras, el verdadero error del clasificador tiene un 95 % de probabilidad de
encontrarse entre un 1,0 % y un 2,5 % aproximadamente, lo que indica un buen
resultado respecto al error global del clasificador obtenido.
En cuanto a los errores cometidos por clases, el error de la clase 3 del
0,7 % indica que el clasificador puede discernir con muy buena exactitud los
objetos considerados como fondo de la imagen respecto a los frutos
representados por las restantes clases. En los errores de las clases pertenecientes
a los frutos podemos observar como el clasificador confunde un 13 % de los
frutos de la clase 2 como si fueran de la clase 1. Esta confusión entre frutos de
la clase 2, frutos cuya superficie es visible menos de un 50 %, como
perteneciente a la clase 1 se produce cuando los frutos de la clase 2 están en
las posiciones más cercanas a la cámara y se tiene una mayor información en la
imagen con respecto a la resolución que se obtiene del fruto, pudiendo evaluar
las características con mayor fiabilidad, llegando a niveles considerados como
frutos con superficie visible en mayores proporciones.
Unificando las clases 1 y 2 como la clase fruto, se puede ver como el
81,1 % de los frutos pudieron ser detectados, es decir, esta cifra corresponde al
índice de aciertos utilizado en los casos anteriores, resultado bastante
satisfactorio.
Resultados y discusión
333
Otro aspecto significativo de los resultados obtenidos es que, considerando
como detectados todos los frutos de la clase 1 reconocidos como una de las dos
clases que componen la clase fruto, se obtiene que el 90,2 % de los frutos
visibles en más de un 50 % de su superficie han podido ser detectados. Este
resultado viene a indicar que el método puede detectar frutos que sean lo
suficientemente visibles con un alto grado de confianza.
Para calcular el índice de fallos en el caso que se implementara en el
sistema de visión, podemos observar que se han reconocido en total 308 frutos, y
que 59 objetos de la clase 3 o fondo, han sido considerados como frutos. Estas
cifras indican un nivel de fallos del 16,1 % de los objetos reconocidos como
frutos, nivel que se considera demasiado alto de cara a la aplicación real.
Aunque el clasificador en su globalidad funcione satisfactoriamente, analizando
los datos desde la perspectiva de los intereses de la aplicación hemos visto que
el índice de fallos queda alejado de los niveles considerados como aceptables,
menores de un 7 % aproximadamente. Por otra parte, y también desde el punto
de vista de la aplicación, el porcentaje de frutos detectados ha sido satisfactorio,
con el 81,1 % de frutos detectados y un 90,2 % de frutos que eran visibles en
más de un 50 % de su superficie.
Otro enfoque con el que se pueden ver los resultados obtenidos consiste en
considerar como frutos sólo los objetos asignados a la clase 1. Aunque el
clasificador asigne un objeto de la clase 2 como perteneciente a la clase 1, en
realidad es un fruto, con lo que estos objetos pasan a engrosar el número de
frutos realmente detectados. El número de fallos en este caso serán los objetos
de la clase 3 clasificados como pertenecientes a la clase 1. Por tanto en este
caso se detectan 258 frutos y se cometen 24 fallos. Esto significa que el método
puede reconocer satisfactoriamente un 67,9 % de los frutos visibles con una tasa
de fallos del 8,5 %, considerada como en el entorno de lo aceptable de cara a la
aplicación. Es decir, hay que encontrar un compromiso entre la proporción de
frutos visibles a detectar y los fallos que puede producir el sistema de visión.
Estos resultados nos indican que, aunque en esta primera aproximación
realizada al problema no se ha conseguido la solución completamente
Sistema de visión del robot
334
satisfactoria, estamos en vías de conseguirla, solución que pasa por completar el
método para la reducción del índice de fallos a los niveles considerados.
Por otra parte, los objetivos fijados para el robot recolector, en el caso de
naranjas en sus primeros estadios de madurez, no es recolectar el 100 % de la
fruta, ya que en esta situación la práctica habitual es recolectar una plantación
en varios pases, recogiendo las naranjas con un grado de color más avanzado.
Por tanto, el sistema de reconocimiento basado en la forma de los frutos, tal
como se encuentra en estos momentos, podría utilizarse para este propósito,
adaptando el tiempo de proceso requerido para su aplicación en tiempo real.
Para analizar por qué se produjeron los fallos y poder completar futuros
clasificadores que eviten estas confusiones, hay que ver las causas de por qué el
clasificador asignó elementos de las clases fruto como elementos de la clase 3.
Si analizamos el árbol de clasificación obtenido podemos constatar que la
característica de mayor peso en la decisión fue la elipticidad, es decir, la
característica que evalúa si una región pertenece a la superficie de un objeto
esférico mediante su representación en la imagen por un elipsoide según el
modelo de irradiancia espectral imagen adoptado. La primera partición generada
en el árbol que dividió el nodo raíz en dos, utilizó esta característica y consiguió
descender el error del árbol bruscamente a un 1,8 %, de ahí la importancia de
esta característica.
Por otra parte analizando las muestras que se clasificaron como clase 1
perteneciendo a la clase 3 se pudo constatar que estas muestras tenían valores
elevados de la elipticidad y correspondían a hojas cuya posición respecto al plano
imagen presentaban una superficie cóncava lo bastante suave y ajustable a elipses
en alguna de las dos direcciones analizadas o incluso en ambas.
Todas las demás características cuya elección pretendió que se
complementaran las unas a las otras, sólo consiguieron levemente aumentar la
exactitud de la decisión. Por ejemplo la circularidad que en principio podría
parecer más determinante no lo es tanto, por el hecho de que queda bastante
enmascarada por la elipticidad, ya que es natural que un objeto esférico que en
la imagen posea una superficie elipsoide tenga un nivel de circularidad elevado,
con lo que solo con la elipticidad podría caracterizarse. La circularidad sólo
Resultados y discusión
335
consigue ser determinante en los casos en que la iluminación sobre frutos más
lejanos ya es pobre y no existe buen contraste, teniendo entonces que decidir el
clasificador a partir de los datos del contorno. Las otras características presentes
en el vector de medidas de cada muestra, como el área o el radio, se comportan
en gran parte como filtros, es decir, como elementos de decisión para descartar
elementos más ruidosos.
La medida Rxy que indicaba si se produjeron ajustes a elipses en las dos
direcciones en una misma región, no ha aparecido en ningún nodo del árbol
encontrado, lo que significa que está directamente relacionada, o ha sido
enmascarada, por otras características, principalmente debido a la dependencia
entre la elipticidad y la circularidad, las cuales pueden suplir el papel del
indicador Rxy.
La compacidad queda enmascarada por otros parámetros como la
circularidad, ya que es evidente que un objeto bastante redondo es muy
compacto, y actúa principalmente como filtro, como en el caso del área.
En los frutos visibles en menos de un 50 % de su superficie, clase 2, la
decisión se produce normalmente a partir de la información del contorno
circular, es decir, de la medida llamada circularidad, ya que en estos casos,
cuando aparecían niveles considerables de elipticidad, el clasificador los
consideraba como bastante visibles y los asignaba a la clase 1. Ante este
elemento de juicio, para identificar un fruto visible en menos de un 50 %,
existen siempre elementos en la imagen, correspondientes a hojas del árbol, que
presentan tramos de su contorno que son circulares, confundiendo entonces un
elemento de la clase 3 como un elemento de la clase 2, de ahí los errores en
este aspecto. Con esto se puede decir que la presencia de contornos
parcialmente circulares por ellos mismos no es una característica determinante
para decidir si el objeto en cuestión pertenece a un fruto. Observando la Tabla
10.6 podemos comprobar como de el total de elementos asignados como clase 2
el 41 % fueron de la clase 3, es decir errores. Las conclusiones en este aspecto
vienen también corroboradas por las experiencias de otros autores que utilizando
sólo la transformada de Hough para detectar tomates en la imagen a través de
Sistema de visión del robot
336
su contorno (Whittaker et al, 1987) alcanzaron niveles de fallos del 69 % para
detectar un 76 % de los frutos.
En resumen, los fallos o errores de clasificación de un objeto de la clase 3
como un objeto de cualquiera de las clases fruto son debidos a ciertas hojas del
árbol que aparecen dobladas en la escena, con una superficie visible apreciable y
cuya irradiancia espectral imagen es cóncava, ajustándose a una elipse en una o
ambas de las direcciones establecidas. Por otra parte, siempre existen hojas que
presentan porciones de su contorno que son circulares en mayor o menor
proporción, pudiendo ser reconocidas como frutos.
En cuanto a los motivos por los que fueron clasificados los frutos como
elementos del fondo, son principalmente dos. En primer lugar los frutos más
alejados en la escena, aunque su proporción de superficie visible es considerable,
quedan pobremente iluminados y presentan además un tamaño pequeño en la
imagen; la falta de contraste en la imagen y su relativa insuficiente resolución
producen que no puedan extraerse debidamente las características utilizadas. Por
otra parte, la extracción de características se ve dificultada en los frutos cuya
superficie visible era muy pequeña, menos del 25 % aproximadamente,
asignándolos el clasificador como fondo por falta de información.
La mejora de los resultados obtenidos no depende del tipo de clasificador
empleado, habiéndose probado su eficacia y validez en este tipo de problema,
más bien el problema depende de la elección de un conjunto de características
más relevante o completar el conjunto propuesto. Aunque por el momento
parece difícil incrementar significativamente el índice de aciertos en este
problema, se podría disminuir la tasa de fallos complementando el conjunto de
características con alguna medida que llene el hueco de información que parece
que el conjunto definido no cubre. En este sentido se podría definir algún
parámetro cuya medida cuantificará la relación entre una región que se ajusta a
un elipsoide y su contorno, determinando si los puntos que se ajustan a la elipse
caen dentro de la circunferencia a que se ajustan las posibles porciones de su
contorno circular, asegurando de esta forma que el elipsoide tenía realmente un
contorno circular.
Resultados y discusión
337
En las figuras 10.19 a 10.22 se pueden observar algunos de los ejemplos
más representativos del resultado obtenido sobre las imágenes utilizadas. En ellas
se indican los frutos encontrados de la misma forma que en los otros tipos de
ensayos, un círculo para frutos en los cuales se reconoció su contorno circular y
una cruz en caso contrario.
En estas figuras podemos observar el tipo de regiones en las imágenes
segmentadas que produce la transformación concavidad, asignando un único fruto
a cada región. Ocasionalmente alguna hoja contigua a un fruto se asignaba como
parte de una misma región, debido a la suavidad de los contornos que la
separaban en la imagen.
En la figura 10.19 se muestra como frutos parcialmente visibles ha podido
ser detectados y su contorno reconstruido, siempre que tuvieran el tamaño
adecuado en la imagen, con información suficiente para realizar el análisis. En
ocasiones (figura 10.19), vemos como ciertas hojas presentan parte de su
contorno aproximadamente circular, confundiéndolas con los frutos.
Asimismo se puede notar como casi todos los frutos detectados se les pudo
reconocer parte de su contorno circular, pudiendo reconstruir aproximadamente
su circunferencia. En la figura 10.20 se pueden ver como frutos que aparecen
bastante lejanos o parcialmente ocultos pero con un contorno muy reducido en
longitud, con lo que no se pudo reconocer ningún tramo circular. En total el
índice de centro real alcanzado fue del 85,4 %, superior al alcanzado en el caso
de naranjas maduras con apoyo de iluminación artificial porque en las imágenes
tratadas en este caso, el tamaño relativo de los frutos en la imagen era mayor,
debido a la utilización de un objetivo de 16 milímetros de focal, disponiendo por
tanto de mayor información o resolución relativa.
Respecto al tratamiento de los racimos, el comportamiento del índice
separador fue similar al de los frutos maduros con iluminación artificial, llegando
prácticamente al 100 % de éxito. El buen resultado en este aspecto corrobora la
excelente eficacia de la transformación concavidad para tratar este problema, que
con el uso de una iluminación adecuada se presenta como una potente
herramienta. A lo largo de las figuras 10.19 a 10.22 podemos observar como se
pudo identificar cada fruto por separado sin ningún problema.
Sistema de visión del robot
338
Figura 10.19a. Imagen de una escena de naranjas verdes coniluminación artificial.
Figura 10.19b. Resultado del algoritmo de reconocimiento sobre laimagen 10.19a.
Resultados y discusión
339
Figura 10.20b. Resultado del algoritmo de reconocimiento sobre laimagen 10.20a.
Figura 10.20a. Imagen de una escena de naranjas verdes coniluminación artificial.
Sistema de visión del robot
340
Figura 10.21a. Imagen de una escena de naranjas verdes coniluminación artificial.
Figura 10.21b. Resultado del algoritmo de reconocimiento sobre laimagen 10.21a.
Resultados y discusión
341
Figura 10.22b. Resultado del algoritmo de reconocimiento sobre laimagen 10.22a.
Figura 10.22a. Imagen de una escena de naranjas verdes coniluminación artificial.
Sistema de visión del robot
342
Aunque ya se ha dicho que en este caso no se abordó el problema desde
el punto de vista de proceso en tiempo real, sino desde una perspectiva
orientada a la solución del reconocimiento de los frutos, el coste computacional
medio empleado para el proceso de una imagen completa con el equipo
utilizado fue en promedio de 341 segundos. Aunque estos tiempos no son
adecuados para su utilización en un problema en tiempo real como es la
robótica, es necesario recurrir a este tipo de técnicas de elevado coste
computacional para procesar información relativa a la forma de los objetos, ya
que la solución del problema pasa por un análisis más profundo en la extracción
de características y la utilización de técnicas de reconocimiento de formas para
resolver decisiones complejas de una manera automática.
Resultados y discusión
343
CONCLUSIONES
CONCLUSIONES
Las aportaciones de este trabajo se pueden resumir en los siguientes
puntos:
- Un estudio para evitar la influencia de las condiciones de variabilidad de la
iluminación natural en estas escenas de ambientes exteriores, mediante el apoyo
de iluminación artificial en la toma de imagen. Como consecuencia, a partir de
ciertas condiciones y configuración de la iluminación en la escena, un modelo de
irradiancia espectral imagen para caracterizar las propiedades geométricas de
objetos esféricos en imágenes.
- Una transformación de la imagen para extraer las zonas cóncavas de la
irradiancia espectral imagen a partir de operadores segunda derivada,
proporcionando a su vez en un método de segmentación con este mismo
propósito, aproximando los contornos de las regiones por contornos de objetos
en la imagen.
- Una caracterización de la irradiancia espectral imagen de los objetos esféricos
cuando el observador se encuentra en la misma dirección de la iluminación,
modelando las esferas en el mundo real por elipsoides en la irradiancia imagen,
y aproximando estos elipsoides mediante ajustes por elipses en varias direcciones.
- Un método de reconocimiento y evaluación de contornos parcialmente
circulares, reconstruyendo la circunferencia a partir de los segmentos circulares
presentes en el contorno visible de los objetos.
- Un espacio de representación del color, adoptado a partir de consideraciones
sobre la reflexión de la luz en la superficie de los objetos, para caracterizar los
puntos correspondientes a reflejos y puntos mate de un mismo objeto,
independientemente del nivel de iluminación total que reciba cada zona de la
escena.
- Un clasificador de color, en el espacio de color anteriormente citado, de bajo
coste computacional, tanto en aprendizaje como en ejecución, utilizando un
umbral óptimo en una sola coordenada.
- Un método de correspondencia para imágenes estéreo basado en un criterio de
semejanza entre regiones correspondientes en imágenes estéreo binarias.
- Un procedimiento de aprendizaje de árboles de clasificación binarios,
realizando un aprendizaje del tipo basado en crecimiento y criterio de parada,
sin poda posterior.
- Dentro del sistema de visión del robot, una estrategia de visión capaz de
gestionar los problemas derivados de la aplicación en tiempo real, consistente en
la búsqueda alternante de los frutos en la imagen, la gestión de fallos para
orientar el proceso de análisis posterior, y la identificación y elección de los
frutos en un racimo.
- Un método de reconocimiento y localización de los frutos basado en
procedimientos locales sobre zonas de interés en la imagen, utilizando
conjugadamente las técnicas anteriormente citadas de reconocimiento en color,
tratamiento de racimos y detección del centro geométrico del fruto. En
particular, dentro de los procedimientos locales, un algoritmo de etiquetado a
partir de la información del contorno de las regiones.
- Un método de reconocimiento de los frutos, a partir de su forma geométrica,
basado en una clasificación por árboles binarios sobre características geométricas
extraídas al contorno y la superficie de los frutos.
Conclusiones
348
En cuanto a los resultados obtenidos de la comprobación de cada una de
las técnicas de análisis de imagen desarrolladas, se puede concluir que:
- El método de iluminación y adquisición de imagen desarrollado permite omitir
la variabilidad de la iluminación natural, pudiendo controlar el nivel de
iluminación sobre la escena en entornos naturales.
- La segmentación para extraer zonas cóncavas de las imágenes a partir de la
transformación concavidad, permite caracterizar cada fruto por separado
individualmente, aproximando a la vez el contorno de las regiones en la imagen
segmentada por los contornos reales de los objetos.
- La caracterización de objetos esféricos mediante elipsoides en la irradiancia
imagen es un método de notable relevancia para identificar esta clase de objetos,
ya que con la aproximación realizada mediante el ajuste por elipses en dos
direcciones, el 93 % de los puntos reconocidos como parte de un elipsoide,
pertenecen a puntos sobre la superficie de los frutos.
- El reconocimiento de contornos parcialmente circulares por el método
desarrollado, permite reconstruir contornos incluso con menos del 50 % del
contorno circular presente, en tiempos de proceso adecuados para su aplicación
en tiempo real. Este método, además de calcular el centro y el radio de las
circunferencias con buena exactitud, puede evaluar la parte presente del contorno
total a partir de la cual se realiza el reconocimiento.
- El espacio de representación en color utilizado, a partir de consideraciones
sobre el modelo de reflexión dicromático, permite caracterizar los efectos
producidos por una iluminación incontrolada como la de ambientes exteriores, de
forma que se pueden omitir los efectos de la variabilidad de la iluminación en
la representación del color adoptada. Los colores de la superficie de los objetos
en la escena se distribuyen en este espacio con un solapamiento ínfimo que
permite su reconocimiento con nitidez, pudiéndose incluso caracterizar zonas de
colores mate y reflejos en la distribución de colores de un mismo objeto.
Conclusiones
349
- El clasificador en color desarrollado sobre el espacio anteriormente citado,
permite segmentar imágenes en color de ambientes naturales a partir de una
única variable para caracterizar los colores, pudiendo asociar zonas mate y de
reflejos sobre la superficie de un mismo objeto. Los resultados obtenidos del
clasificador implementado superan incluso a otros tipos de clasificadores de
propósito general sobre el mismo espacio de representación de color. El bajo
porcentaje de errores producido por todos los clasificadores en general, menos
de un 3 %, corrobora la buena representación del color adoptada.
- El método de correspondencia sobre imágenes estereoscópicas consigue asignar
correctamente un 97 % de las regiones con sus correspondientes, en imágenes de
escenas en ambientes naturales. La robustez del procedimiento permite realizar
la correspondencia de regiones cuya forma se ve parcialmente alterada de una
imagen a su correspondiente por efecto de los obstáculos, siempre que no sufran
un cambio notable en su forma, tal como puede ocurrir en frutos cuya superficie
visible sea menor de un 30 %, aproximadamente. El tiempo medio utilizado en
realizar la correspondencia de una fruto, 0,39 segundos con el equipo utilizado, y
el error en el cálculo de la distancia, ± 1,1 centímetros, permiten su
implementación en una aplicación de este tipo.
- El aprendizaje de árboles binarios de clasificación por el método desarrollado
de crecimiento por mínimo error, consigue resultados ligeramente mejores que
los métodos por poda del árbol total, más ampliamente aceptados por sus
buenos resultados. Así mismo, el método siempre utiliza menos tiempo en el
aprendizaje respecto a los métodos comparados. Con este resultado se rompe
con la idea generalizada de que los métodos por poda del árbol total superan en
buenos resultados a los de crecimiento del árbol con criterio de parada.
Conclusiones
350
Los principales resultados de la metodología desarrollada como sistema de
visión del robot, se pueden sintetizar en los siguientes puntos:
1- Respecto al sistema de visión integrado en el robot, durante los ensayos del
prototipo en plantaciones de naranjas se pudo observar la importancia del
cálculo de la distancia al fruto para aumentar la tasa de recolección del robot.
En estos mismos ensayos se comprobó la eficacia de la estrategia de visión en lo
que respecta a la alternancia en la búsqueda de los frutos y la gestión de fallos,
así como la efectividad del sistema de localización del fruto señalando la
dirección en que se encuentra a través de una sola cámara.
2- El sistema de reconocimiento de los frutos basado en el color con
iluminación natural totalmente incontrolada, se revela como una solución
altamente satisfactoria a este problema, pudiendo detectar el 96 % de los frutos,
debido a la efectividad del método de segmentación desarrollado. La tasa de
fallos, un 5 %, queda por debajo del límite previsto para un prototipo operativo,
siendo por tanto totalmente aceptable.
La utilización del reconocimiento de contornos circulares para identificar
frutos en un racimo, consigue identificar frutos por separado en un 65 % de los
casos, siendo por tanto una alternativa a la transformación concavidad en
situaciones de iluminación incontrolada.
El cálculo del centro geométrico del fruto a partir de la reconstrucción de
su contorno circular fue posible, en este caso, para un 39 % de los frutos
detectados, probando ser efectivo para frutos parcialmente ocultos, siendo el
principal inconveniente el que los frutos presenten un contorno demasiado
pequeño en la imagen para poder realizar el reconocimiento con fiabilidad.
3- El mismo método de reconocimiento por color aplicado en imágenes
adquiridas con iluminación artificial, permite reducir drásticamente los posibles
fallos que se producen en imágenes con iluminación natural, llegando a ser
virtualmente nulos. Aunque el uso de iluminación artificial no compense de una
manera notable los resultados obtenidos con iluminación natural, sí que supone
Conclusiones
351
una solución idónea para poder realizar la recolección durante la noche o en
horas de pobre iluminación, aumentando el tiempo de operatividad del robot.
En estas condiciones, el método consigue localizar el 97 % de las naranjas
visibles, pudiendo identificar por separado cada fruto de un racimo en el 96 %
de los racimos detectados, con lo que se prueba la efectividad de la
transformación concavidad para este propósito, siendo una excelente solución a
este problema. Por otra parte, se consiguió reconocer el contorno circular del
56 % de los frutos detectados, no pudiendo reconstruir los restantes por las
mismas razones que en el caso de iluminación natural.
4- Los ensayos de la posible extensión del método para otros frutos, en concreto
manzanas, resultaron altamente satisfactorios, alcanzando un 92 % de frutos
detectados sobre manzanas Granny Smith, siendo esta variedad la más dificultosa
por su color semejante a las hojas. En esta variedad de manzanas disminuyó el
porcentaje de frutos a los que se consiguió calcular su centro geométrico, un
25 %, debido a que la forma de las manzanas se alejan más de un contorno
circular ideal. No obstante, el porcentaje de racimos cuyos frutos fueron
identificados individualmente alcanzó un 91 %, afirmando la transformación
concavidad como una excelente herramienta en este sentido.
Los resultados sobre manzanas de la variedad Gala indican que el método
de reconocimiento por color no tendrá ninguna dificultad en su aplicación a este
tipo de frutos, y hacen entrever la posibilidad, casi con seguridad, de su
extensión a otros tipos de frutos.
5- El método de reconocimiento basado en la forma de los frutos aplicado a
naranjas en su periodo inicial de maduración, obtiene resultados prometedores
para su utilización en el robot recolector, con lo que permitirá ampliar el campo
de aplicación del prototipo a estas situaciones o a frutos de similar forma que se
ajusten a las exigencias del método. En los ensayos realizados, el porcentaje de
frutos visibles detectados fue del 81 %, cometiendo un 16 % de fallos respecto al
número de objetos reconocido como frutos. Aunque el porcentaje de fallos está
por encima de los límites previstos para un prototipo operativo, adoptando el
compromiso de detectar sólo los frutos visibles en mas de un 50 % de su
Conclusiones
352
superficie, se detectan el 90 % de estos frutos y un 68 % del total de frutos
visibles, reduciendo el número de fallos a un 8 %, en el entorno aceptable para
un su aplicación en el robot, siempre que se pueda adaptar el coste
computacional a las exigencias del proceso en tiempo real.
Aunque los resultados de este método no alcanzan los excelentes
porcentajes del método de color sobre frutos maduros, suponen un notable
avance en los sistema de visión para la recolección de cítricos, superando a los
conseguidos hasta ahora en otros trabajos con fundamentos en la misma línea.
En conclusión, los métodos desarrollados han podido demostrar que el
reconocimiento y localización de los frutos mediante un sistema de visión
artificial es un hecho totalmente factible, con un alto grado de fiabilidad que
permite considerar, en lo que respecta al sistema de visión, la recolección
robotizada como una realidad muy próxima.
Las perspectivas más cercanas de las implicaciones de este trabajo se
orientan en estos momentos a una ampliación de las habilidades del sistema de
visión del robot que, además de reconocer y localizar los frutos, se está
considerando la posibilidad de aplicar parte de las técnicas aquí desarrolladas
(radio del fruto, distancia, índice de color) a una recolección mas selectiva de
los frutos, que, más que detectar, se propone seleccionar los frutos a base de
ciertos criterios de calidad antes de desprenderlos del árbol, tales como tamaño
del fruto e índices de color, conjugando los métodos de reconocimiento por
color y por forma de los frutos.
Asimismo, se van a aplicar el reconocimiento y localización de los frutos en
proyectos orientados a la aplicación selectiva de productos fitosanitarios, con el
fin de tratar solo en los puntos o zonas donde se precise, sobre todo orientado
a hortícolas y cereales.
Por último, otra de las próximas perspectivas es la aplicación de estos
métodos al conteo de frutos en muestreos de plantaciones, con el fin de realizar
estimaciones o previsiones de cosechas de cítricos de una forma objetiva y
automática.
Conclusiones
353
APÉNDICES
Apéndice A
RADIOMETRÍA Y FOTOMETRÍA.
CONCEPTOS BÁSICOS
La terminología aquí descrita sobre radiometría y fotometría es la adoptada
por la CIE (Commission International de l’Eclairage). Este vocabulario es el más
ampliamente utilizado, por lo cual es el que se adopta y se utiliza a lo largo de
este trabajo.
A.1 Magnitudes radiométricas
La energía que emiten los cuerpos cuando sus átomos o grupos de átomos pasan
de unos estados energéticos a otros, se puede interpretar como transportada por
ondas electromagnéticas o como fotones. Cualquiera que sea el modelo que se
elija para la interpretación de los fenómenos, lo cierto es que esta energía se
propaga por el espacio constituyendo la llamada energía radiante. Los cuerpos
que emiten energía radiante se llaman radiadores.
La energía emitida por un radiador en la unidad de tiempo recibe el
nombre de flujo radiante, Φ, y como tal potencia se mide en vatios (w). Puede
considerarse el flujo total, es decir la potencia radiada en todas las direcciones y
correspondiente a todas las longitudes de onda.
Se llama Intensidad radiante I de un punto emisor que en un ángulo sólido
dω emite un flujo radiante Φ, como el cociente I = dΦ ⁄ dω y se mide en
vatios/esterorradián.
Se denomina Exitancia radiante M al cociente entre el flujo radiante
emitido en todas las direcciones por un elemento de área dS, es decir,
M = dΦ ⁄ dS, y se mide en vatios por metro cuadrado (w ⁄ m2).
La Radiancia L de un punto de una superficie, emisor o receptor, en una
dirección dada, es el cociente del flujo radiante que sale o llega a un elemento
de superficie en ese punto y propagada en direcciones definidas por un cono
elemental conteniendo la dirección dada, y el área de proyección ortogonal del
elemento de superficie sobre un plano perpendicular a la dirección dada. O sea,
L = d2Φ
dω dA cosθ
donde dω es el ángulo sólido que subtiende la dirección dada y θ el ángulo que
forma esta dirección con la normal al elemento de la superficie dA . Se mide en
vatios por estereoradián y por metro cuadrado (w ⁄ estereoradián m2).
La irradiancia E se define como la razón del flujo radiante o energético
que recibe en total y en todas las direcciones un área dS, al área receptora, es
decir, E = dΦ ⁄ dS, y sus unidades son el vatio por metro cuadrado (w ⁄ m2).
La respuesta de un detector R, se define más generalmente como la
proporción de señal de salida respecto a la potencia de entrada. Sus unidades
dependen de la forma de la respuesta eléctrica que proporciona cada detector.
Si todas las magnitudes mencionadas se especifican como función de la
longitud de onda, entonces se le añade el adjetivo espectral, y a sus unidades hay
que añadirn, además, por unidad de intervalo de longitud de onda (nanómetro,
nm).
A.2 Magnitudes fotométricas
Al igual que la radiometría tiene a su cargo la evaluación de la radiación desde
el punto de vista energético exclusivamente, la fotometría tiene por objeto la
evaluación de la energía radiante como estímulo productor de una sensación
visual.
La sensación visual que resulta cuando el flujo radiante incide sobre la
retina tiene tres características: matiz, saturación y brillo. El término matiz o
tono se refiere a aquella característica que permite clasificar un color como rojo,
Apéndices
358
verde, azul, etc. Un gris neutro no tiene matiz, o mejor, su matiz es
indeterminado. En el aspecto físico, el tono se relaciona con la longitud de onda
de una luz del espectro continuo (longitud de onda dominante). La saturación
describe el grado en el cual un color se separa del gris neutro y se aproxima a
un color puro del espectro. Un gris neutro es totalmente insaturado y un color
espectral puro es completamente saturado. Tomadas en conjunto, las
características de matiz y saturación constituyen la cromaticidad de la sensación.
Un gris neutro no tiene ni matiz ni saturación, y se denomina acromático.
El brillo o claridad es la característica de cualquier sensación de color que
permite clasificarla como equivalente a la sensación producida por algún
elemento de una escala de grises neutros. En el aspecto físico, el brillo o
claridad se puede asociar a la exitancia de la fuente de luz o la luminancia del
objeto de que se trate.
Cantidades iguales de flujo radiante de distintas longitudes de onda no
producen sensaciones visuales de igual brillo. No se obtiene sensación de brillo
si la longitud de onda es mayor que 700 nm (comienzo de la región infrarroja) o
menor de 400 nm (comienzo de la utltravioleta). Por otra parte, cada observador
tienen diferente sensibilidad espectral, por lo que incluso en el aspecto
psicofísico es necesario establecer un observador patrón teórico. A fines de
normalización y comparación de datos fotométricos entre los laboratorios, se ha
adoptado por la Comisión Internacional de la Iluminación una curva patrón de
luminosidad. La curva de sensibilidad con buenas condiciones de iluminación se
denomina curva patrón de luminosidad.
Se define Flujo luminoso F de un radiador como el flujo energético
afectado por su eficiencia luminosa. Osea, si una fuente de energía radiante
emite un flujo energético Φλ en la longitud de onda λ, al que corresponde una
eficiencia luminosa Vλ, se define el flujo luminoso de dicho radiador como
Fλ = Φλ Vλ. Si la emisión es en el espectro continuo, en cada intervalo de
longitud de onda dλ tenemos
F = K∫ Φλ0
∞ Vλ dλ
Radiometría y fotometría. Conceptos básicos
359
donde la constante K depende del sistema de unidades elegido.
Como unidad del flujo luminoso se toma el lumen (lm). El lumen se
relaciona con el flujo energético, por definición, admitiendo que un vatio de
energía radiante correspondiente a la longitud de onda de 555 nm de máxima
eficiencia luminosa, V555, equivale a 680 lúmenes. Es decir, 1w555 = 680 lm .
Evidentemente un lumen no corresponde a un número de vatios fijo, depende
de la luminosidad relativa para cada longitud de onda marcada por la curva de
luminosidad patrón.
La Intensidad luminosa de una fuente puntual Il es el equivalente a la
Intensidad radiante pero sustituyendo el flujo radiante por el flujo luminoso,
Il = dF ⁄ dω. Su unidad es la candela (1 cd = 1 lm ⁄ 1 estereoradián).
De igual manera se define el equivalente de exitancia radiante como la
Exitancia luminosa Ml = dF ⁄ dS, y sus unidades son el lumen por metro cuadrado
(lm ⁄ m2).
La iluminancia o iluminación El es el concepto análogo en radiometría a la
irradiancia, utilizando el flujo luminoso, El = dF ⁄ dS. La unidad es el lux
(1 lx = 1 lm ⁄ 1 m2). La iluminancia en punto de una superficie se define como la
iluminancia en un entorno de superficie que contiene al punto.
Apéndices
360
Apéndice B
CÁMARAS CCD
La información visual se convierte en señales eléctricas por los sensores
visuales. Cuando estas señales eléctricas se muestrean espacialmente, y se
cuantifican en amplitud, se obtiene de ellas una imagen digital.
Los principales dispositivos utilizados para la visión artificial son las cámaras
de televisión, que están compuestas por un sensor basado en un dispositivo de
estado sólido o, en el pasado, más frecuentemente, por válvulas electrónicas. Los
sensores de imagen de estado sólido son los llamados dispositivos de
acoplamiento de carga (CCD, Charge Coupled Device), éstos nos ofrecen gran
número de ventajas respecto a las cámaras de tubo, como son su menor peso,
menor tamaño, una vida más larga y un menor consumo en potencia.
Los dispositivos CCD se pueden dividir, según los sensores, en dos
categorías: sensores de exploración de línea y sensores de área. El componente
básico de un sensor CCD de exploración de línea es una hilera de elementos de
silicio llamados photosites. Los fotones de la imagen pasan a través de una
estructura transparente policristalina de silicio y son absorbidos en el cristal de
silicio, creando así pares electrón-hueco. Los fotoelectrones que así se obtienen
son recogidos en los photosites, siendo la cantidad de carga acumulada en cada
photosite proporcional a la intensidad de la luz recibida en ese punto. Según se
muestra en la figura B.1, un sensor de exploración de línea típico está
compuesto por una fila de elementos de imagen de los ya descritos, dos puertas
de transferencia para registrar los contenidos de los elementos de imagen en los
así llamados registros de transporte, y una puerta de salida para transferir los
contenidos de los registros de transporte a un amplificador cuya salida es una
señal de tensión proporcional a los contenidos de la hilera de photosites.
Figura B.1. Sensor de exploración de línea.
Figura B.2. Sensor matricial.
Apéndices
362
Los sensores de área son similares a los de exploración de línea, con la
diferencia de que los photosites están reunidos en forma de matriz y existe un
conjunto de registros de transporte y puertas para cada columna de photosites
(figura B.2). Los contenidos de los photosites impares son secuencialmente
transferidos a los registros verticales de transporte y posteriormente al registro
horizontal de transporte. El contenido de este registro es enviado a un
amplificador cuya salida es una línea de video. Repitiendo este procedimiento
para las líneas pares completamos el segundo campo de un cuadro de televisión.
En el sistema PAL se codifican 25 cuadros en un segundo, y en el sistema
NTSC 30 por segundo.
Como hemos podido notar, primero se codifican en la señal de vídeo las
filas impares de un campo de la imagen y después las pares, completando un
cuadro imagen completo. Esto es lo que se denomina campos entrelazados y su
origen viene de la exploración que realiza el haz de electrones en las cámaras
de tubo. La razón de ello es porque si se realizara la exploración
secuencialmente y el resultado fuera mostrado en un monitor de televisión, la
imagen podría parpadear perceptiblemente, de esta manera, dividiendo cada
cuadro en dos campos entrelazados se evita este fenómeno visual.
Cámaras CCD
363
Apéndice C
ÁRBOLES BINARIOS
DE CLASIFICACIÓN.
CONCEPTOS Y FORMULACIÓN
La notación y conceptos que se exponen en este apartado y que se utilizan
en el capítulo 7, es la seguida por Breiman et al (1984), cuya labor ha servido
de referencia en posteriores trabajos de diversos autores (Quinlan, 1987; Chou et
al, 1989; Boswell, 1990; Chou, 1991).
En primer lugar definir el vector de medidas o vector de características x
correspondiente a un conjunto de medidas (x1,x2,...) realizadas sobre un elemento.
El conjunto de los vectores de medidas tal que puedan contener todos los
posibles valores sobre los elementos sobre las que se realizan, es el espacio de
medida χ.
Las variables xn que constituyen el vector de medidas x pueden ser de dos
tipos, ordenadas o numéricas, si sus valores son números reales, y categóricas, si
toman valores en un conjunto finito sin tener ningún orden natural, es decir los
llamados conjuntos enumerados.
Si un vector x tiene una dimensión fija, entonces se dice que los datos
relativos al problema tienen una estructura estándar. Hay que señalar que los
árboles de clasificación pueden tratar vectores de medidas de estructura variable,
la cual puede cambiar la dimensión en cada momento.
Supongamos que cada objeto o elemento definido por un vector de
medidas x puede pertenecer a una de las J clases posibles dentro del conjunto
de clases definido por C = 1,2,...,J
.
Con todo ello, un clasificador se puede definir como una función d(x), x∈ χ,
tal que d(x) es igual a una de los números 1,..,J, es decir, la función d asigna
una clase al vector x.
Por otra parte, si definimos Aj como el subconjunto de χ donde d(x) = j, es
decir, Aj = x; d(x) = j
, los conjuntos A1,A2,...,Aj son disjuntos y χ = ∪
jAj, de
manera que los subconjuntos Aj, j= 1,..,J forman una partición de χ. Por tanto se
puede definir un clasificador como una partición del espacio χ en J subconjuntos
disjuntos A1,..,AJ tal que χ = ∪ j
Aj, siendo para cada elemento x∈ Aj la clase j
como su clase predecida.
Lo que hace que un conjunto de datos sea interesante no es sólo la
cantidad de elementos que contenga, sino también su complejidad, entendiendo
que la complejidad puede incluir consideraciones como que tenga una dimensión
alta, la mezcla de tipos de datos y las estructuras de datos que no sea estándar.
Los clasificadores se construyen a partir de lo que se podría llamar
experiencias pasadas, mediante las cuales el clasificador aprende a asignar la
clase correcta a un nuevo objeto. En la construcción sistemática de clasificadores
esta experiencia pasada se sintetiza en forma de muestras de aprendizaje.
Un conjunto de N muestras de aprendizaje consiste en datos de la forma
(x1,j1), (x2,j2),..., (xN,jN), donde xn∈ χ y jn∈ C = 1,2,..,J
, y n = 1,..,N. El conjunto
de muestras de aprendizaje se denota por L , es decir,
L = (x1,j1),(x2,j2),...,(xN,jN)
C.1 Árboles binarios de clasificación
Los árboles binarios de clasificación consisten en un árbol cuyo nodo raíz
representa al espacio total χ, el cual se divide en dos nodos descendientes χL y
χR, que constituyen una partición binaria del espacio inicial, y ellos a su vez se
dividen en otros dos nodos hijos que constituyen una partición del subconjunto a
que representa el nodo padre. Las particiones en cada nodo para generar los
Apéndices
366
nodos hijos se generan por medio de condiciones sobre las coordenadas del
vector de medidas x = (x1,x2,...).
Los nodos terminales forman una partición del espacio χ. Cada subconjunto
al que representa un nodo terminal se le asigna una etiqueta. Pueden existir más
de un nodo terminal cuya etiqueta o clase correspondiente sea la misma. La
partición del espacio χ correspondiente al árbol viene dada colocando en el
mismo subconjunto Aj a todos aquellos nodos terminales que tienen asignados la
clase j.
Un árbol de clasificación predice la clase para un nuevo vector de medidas
x recorriendo el camino que seguirá este vector desde el nodo raíz,
determinando a que partición pertenece representada por sus dos nodos
descendientes, y así sucesivamente hasta alcanzar un nodo terminal, asignándole
la clase prevista como la clase o etiqueta que tiene asociado ese nodo terminal.
Por lo tanto, la construcción de un árbol de clasificación se fundamenta en
tres puntos:
1- La selección de las particiones en cada nodo.
2- La decisión de cuando declarar un nodo como terminal o continuar el
proceso de partición.
3- La asignación de una clase a cada nodo terminal.
C.2 Construcción de árboles de clasificación
La idea fundamental es seleccionar en cada nodo una partición tal que los datos
en cada uno de los subconjuntos descendientes sean más "puros" que los datos
en el subconjunto padre. Un subconjunto posee datos que son más "puros"
cuanto mayor es la proporción de los elementos de ese subconjunto que forman
parte de una misma clase.
La idea de encontrar las particiones para producir nodos descendientes más
"puros" se lleva a cabo de la siguiente forma:
Árboles binarios de clasificación
367
1- Definir las proporciones p(j| t), j = 1,..,J del nodo t para cada clase j,
como las proporciones de los casos o elementos xn∈ t pertenecientes a la clase j,
por tanto
p(1| t) + … + p(J| t) = 1
es decir, si en el nodo t existen N(t) elementos en total, de los cuales Nj(t) son
los que pertenecen a la clase j, la proporción de elementos de la clase j será
p(j| t) = Nj(t) ⁄ N(t).
2- Definir una medida de impuridad i(t) del nodo t como una función no
negativa Φ de las proporciones del nodo p(j| t), j = 1,..,J tal que
a) Φ(1 ⁄ J,...,1 ⁄ J) = máximo
b) Φ(1,0,..,0) = Φ(0,1,0,..,0) = .. = Φ(0,..,0,1) = 0
c) Φ sea una función simétrica de las proporciones
Es decir, la impuridad de un nodo es más grande cuando todas las clases
están presentes en la misma proporción en el nodo, y más pequeña cuando el
nodo contenga sólo elementos de una misma clase.
Si s es una posible partición del nodo t en sus dos hijos tL y tR, tal que la
proporción pL de casos en t va a parar a tL , y la proporción pR de casos en t
va a parar a tR, entonces la bondad de la partición s se define como el
decrecimiento de la impuridad
∆ i(s,t) = i(t) − pL i(tL) − pR i(tR)
3- Por último, se define un conjunto S de posibles particiones s para cada
nodo, que generalmente se construyen a partir de un conjunto de cuestiones Q
de la forma
¿x∈ A?, A ⊂ χ
Apéndices
368
entonces la partición asociada s envía todos los xn del nodo t al nodo tL si
cumple la condición y al nodo tR en caso contrario. En realidad, si la cuestión
es de la forma anterior, entonces tL = t∩ A y tR = t∩ Ac, donde Ac es el
complementario de A en χ.
Antes de seguir con el método general de construcción de un árbol de
clasificación, es necesario formular algunos conceptos que permitan formalizar
este método.
En lo relativo al conjunto de muestras de aprendizaje L a partir del cual
se construye el árbol, a menudo se toman como probabilidad a priori π(j) de la
clase j como las proporciones de los casos presentes de la clase j en el conjunto
total de muestras L , es decir, π(j) = Nj ⁄ N donde N es el número total de
muestras del conjunto de aprendizaje y Nj el número de muestras de la clase j
presentes en el conjunto total.
No obstante, el conjunto de muestras de aprendizaje puede no reflejar las
proporciones esperadas en posibles casos futuros. De cualquier modo, el conjunto
de probabilidades a priori π(j)
puede ser estimado o fijado por el analista a su
propio criterio.
Sea N(t) el número total de casos en el nodo t del conjunto total de
muestras de aprendizaje L , y Nj(t) el número de casos de la clase j en el nodo
t. Para un conjunto de probabilidades a priori, π(j) se interpreta como la
probabilidad de que una clase j esté presente en el árbol. Por lo tanto, se toma
p(j,t) = π(j) Nj(t)
Nj
como la estimación de restitución para la probabilidad de que un caso sea de la
clase j y esté en el nodo t.
La estimación de la probabilidad p(t) de que cualquier caso se halle en el
nodo t se define por
Árboles binarios de clasificación
369
p(t) = ∑ j
p(j,t)
y la estimación de la probabilidad de que un caso de una clase j dada esté en
el nodo t se define como
p(j| t) = p(j,t)p(t)
que satisface que ∑ j
p(j| t) = 1
Cuando π(j) = Nj ⁄ N
, entonces p(j| t) = Nj(t) ⁄ N(t), es decir, las
proporciones relativas de la clase j en el nodo t.
C.2.1 El conjunto de cuestiones estándar y la regla de generación de
particiones
Si los datos poseen una estructura estándar, el conjunto de cuestiones sobre los
elementos x puede ser formulado de una manera estándar. Esta estandarización
se puede definir sobre elementos del tipo x = (x1,...,xM) donde M es la dimensión
fija de las variables x1,...,xM que pueden ser mezclas de variables ordenadas o
enumeradas.
El conjunto Q de cuestiones estándar se define en acuerdo a estos criterios:
1- Cada partición depende del valor de una única variable.
2- Para cada variable ordenada xm , Q incluye todas las cuestiones de la
forma
¿xm ≤ c ? c∈ (− ∞ ,∞)
3- Si xm es enumerada, tomando valores en el conjunto b1,b2,...,bL
,
entonces el conjunto de cuestiones Q son todas aquellas de la forma
¿xm ∈ S ?
Apéndices
370
con S cualquiera de los subconjuntos posibles formados a partir de b1,b2,...,bL
.
Existe un número finito de particiones diferentes para cada coordenada en
ambos casos. Para variables ordenadas, si el conjunto de muestras de aprendizaje
L tiene N elementos, existe como máximo N particiones diferentes posibles de
una coordenada ordenada xm , tomando los valores intermedios entre dos valores
diferentes de la variable xm en dos puntos consecutivos de L ordenados de
menor a mayor en esa coordenada.
Para variables enumeradas, puesto que xm ∈ S, es decir, un elemento sólo es
uno de sus subconjuntos, eliminando esta posibilidad, existen 2L− 1 particiones
definidas sobre la variable enumerada xm .
En cada nodo se busca la partición s sobre cada coordenada que maximice
el decrecimiento de la impuridad ∆ i(s,t), y a su vez, la partición s∗ de la
coordenada que maximice este decrecimiento de la impuridad.
Desde un punto de vista geométrico, el árbol parte recursivamente el
espacio χ en rectángulos o hiper-rectángulos tal que las poblaciones de los
elementos dentro de ellos tiendan a ser de una clase más homogénea.
Otra manera de interpretar el proceso de generar particiones es la
siguiente. Si llamamos al conjunto de nodos terminales de un árbol T~, sea
I(t) = i(t) p(t), y definase la impuridad total del árbol I(T) como
I(T) = ∑
t∈ T~I(t) = ∑
t∈ T~i(t) p(t)
es fácil ver que la partición s∗ que maximiza ∆ i(s,t) es la misma que
considerando el proceso equivalente de minimizar la impuridad total del árbol
I(T).
Existen varios criterios que pueden llevar a utilizar una definición de la
función impuridad para seleccionar la mejor partición en cada nodo, sin
embargo, la conclusión alcanzada por Breiman et al (1984) es que dentro de un
amplio rango de criterios de particiones, las propiedades del árbol final
Árboles binarios de clasificación
371
seleccionado no dependían de la elección de la regla para generar las
particiones. Los criterios para seleccionar el árbol correcto eran mucho más
importantes.
C.2.2 La asignación de clases y la estimación del error de restitución
Supongamos que se ha construido un árbol T que posee T~ nodos terminales. Se
denotará la regla de asignación a una clase j∈ 1,...,J
para cada nodo terminal
t∈ T~ como j(t).
Si se define C(i| j) como el coste de clasificar erróneamente un objeto de
la clase j como un objeto perteneciente a la clase i, estos costes tienen que
satisfacer
C(i| j) ≥ 0, i ≠ jC(i| j) = 0, i = j
Dado un nodo t con probabilidades estimadas p(j| t) para cada clase j = 1,..J
en tal nodo, si se selecciona aleatoriamente un objeto de clase desconocida y el
árbol de clasificación lo envía al nodo terminal t y es clasificado como clase i,
entonces el error de clasificación esperado será
∑ j
C(i| j) p(j| t)
Por tanto, la regla de asignación a una clase j(t) = i0 de un nodo t se toma
como aquella clase i0 que minimice la expresión anterior.
En el caso particular de que los costes en la clasificación errónea sean
todos unitarios, C(i| j) = 1, i≠ j, se tiene que
∑ j
C(i| j) p(j| t) = 1 − p(i| t)
Apéndices
372
con lo que la regla de asignación de clases se convierte en j(t) = i0 a aquella
clase i0 tal que la probabilidad p(j| t) de la clase j, j= 1,...,J en el nodo t sea
máxima.
Se define la estimación del error de restitución esperado r(t) del nodo t
(ver sección C.4) como
r(t) = mini
∑ j
C(i| j) p(j| t)
y se define la estimación del error total de restitución R(T) del árbol T como
R(T) = ∑
t∈ T~r(t) p(t) = ∑
t∈ T~R(t)
donde R(t) = r(t) p(t).
Una importante propiedad del error de restitución de un árbol es que
cuanto más particiones se realizan y más grande es el árbol, el error de
restitución R(T) siempre decrece. Esto se deriva de una proposición que afirma
que para cualquier partición de un nodo t en tL y tR, se cumple
R(t) ≥ R(tL) + R(tR)
lo que significa, que si un árbol T ′ ha sido formado generando particiones a
partir de otro árbol T, entonces
R(T ′) ≤ R(T)
C.3 Ventajas e inconvenientes de los árboles de clasificación
Los árboles binarios de clasificación son un procedimiento recursivo e iterativo
que requiere la especificación de tres elementos para su utilización:
Árboles binarios de clasificación
373
a) Un conjunto de cuestiones Q.
b) Una regla de selección de la mejor partición en cada nodo.
c) Un criterio para elegir el árbol correcto.
Las principales ventajas por las que es atractivo este tipo de clasificador
pueden resumirse en estos puntos:
1- Puede utilizar cualquier tipo de estructura de datos, formulando el
conjunto de cuestiones Q apropiado.
2- El proceso de clasificación una vez construido el árbol es simple,
facilitando la clasificación de un nuevo elemento en tiempos reducidos.
3- Realiza una selección de particiones de forma óptima y automática paso
a paso, reduciendo por este método paso a paso la complejidad de su
construcción.
4- Es muy robusto frente a la presencia de muestras ruidosas (outliers) en
el conjunto de aprendizaje, que podrían conducir a la elaboración de un
clasificador erróneo.
Otras de sus ventajas van dirigidas a variantes de la metodología de árboles
de clasificación, como el tratamiento de muestras cuya información es incompleta
o la obtención de una interpretación de la estructura del problema, estimando la
importancia de cada variable.
Las principales desventajas pueden ser :
1- Aunque la reducción de la complejidad en su elaboración pasa por un
procedimiento óptimo paso a paso por la elección de la mejor partición, este
viene en menosprecio de no ser un método de búsqueda de un subconjunto
óptimo global.
2- La búsqueda exhaustiva de la mejor partición en cada nodo, puede llevar
a elevados tiempos de proceso en los casos de dimensión elevada del vector de
medidas, o conjunto de muestras de aprendizaje muy grande, sumandose a ello
el elevado coste que requieren ciertos procedimientos para seleccionar el árbol
correcto.
Apéndices
374
C.4 Estimación del error de clasificación
Dado un clasificador d(x) definido sobre el espacio χ, este clasificador tendrá
una probabilidad de error en la clasificación. Denótese la probabilidad real de
error de clasificación del clasificador d como R ∗ (d). A R ∗ (d) también se le llama
probabilidad asintótica de clasificación errónea, cuyo significado se expresa en los
siguientes términos: si se ha utilizado un conjunto de muestras de aprendizaje
para construir d, comprobando luego el clasificador con un número de muestras
que tienda a infinito, la proporción de muestras mal clasificadas tiende al valor
R ∗ (d).
Si se define el espacio χ x C como el conjunto de parejas (x,j) con x∈ χ y
j∈ C, donde C = 1,..,J
el conjunto de clases posibles, P(A ,j) se puede interpretar
como la probabilidad de que un vector de medidas x esté en A y su clase sea j.
Asumiendo que el conjunto de muestras de aprendizaje L se ha extraído
aleatoriamente de la distribución de probabilidad P(A ,j) para construir el
clasificador d, se define R ∗ (d) como la probabilidad de que d clasifique
erróneamente un nuevo caso extraído de la misma distribución de probabilidad
P(A ,j) de la que fue extraído L . Por tanto si (x,y), x∈ χ, y∈ C, es un nuevo caso
extraído de la distribución de probabilidad P(A ,j), es decir, P(x∈ A ,y= j) = P(A ,j),
siendo (x,y) independiente de L , se define R ∗ (d) como
R ∗ (d) = P(d(x) ≠ y)
La regla o el clasificador más preciso que puede realizar la clasificación de
muestras extraídas de una distribución de probabilidad P(A ,j) es el clasificador
de Bayes, dB(x). Es decir, se puede definir el clasificador de Bayes como el
clasificador dB el cual, dado otro clasificador d que actúe sobre la misma
distribución de probabilidad P(A ,j), se cumple siempre que
RB = P(dB(x) ≠ y) ≤ P(d(x) ≠ y) = R ∗ (d)
Árboles binarios de clasificación
375
La regla de clasificación de Bayes dB se puede definir a partir de las
densidades de probabilidad condicionales de cada clase pj(x), tal como se definió
en el capítulo 5, así como el cálculo del error del clasificador de Bayes RB. Sin
embargo, en la práctica ni las probabilidades a priori π(j) ni las densidades de
probabilidad condicional pj(x) son conocidas. Aunque las probabilidades a priori
pueden ser estimadas, el conocimiento o estimación de la densidad de
probabilidad condicional es imposible o extremadamente complejo en la mayoría
de los casos reales, aunque a veces se pueden realizar estimaciones adoptando
modelos teóricos de densidad de probabilidades condicionales.
Dada la imposibilidad práctica de utilizar siempre el clasificador de Bayes o
de estimar el error de Bayes para una distribución de probabilidad dada, lo que
se hace en la práctica es estimar la probabilidad real de un clasificador R ∗ (d)
por medio de otros métodos.
En un problema real no se dispone de un número infinito de muestras
extraídas de la distribución de probabilidad P(A ,j), sino que se dispone del un
conjunto finito de muestras de aprendizaje L . La utilización de este mismo
conjunto L para construir el clasificador y estimar su error, da paso a los
métodos de estimación interna. Los tres tipos fundamentales son:
1- El error de restitución R(d), el cual utiliza todas las muestras de L para
construir el clasificador d, y esas misma muestras para estimar su error. La
proporción de casos mal clasificador será el error de restitución, es decir,
R(d) = 1N
∑ n= 1
N
(d(xn) ≠ jn)
donde (x1,j1),..,(xN,jN) es el conjunto de muestras L , y el paréntesis (d(xn) ≠ jn)
tiene valor unidad si se cumple la condición representada en su interior, o cero
si no se cumple.
2- La estimación por test de muestras Rts(d), donde el conjunto de
aprendizaje se divide en dos, L1 y L2. Sólo los casos en L1 se utilizan para
construir el clasificador, y los de L2 para realizar la estimación Rts(d) del error
real R ∗ . Por tanto Rts(d) viene dado por
Apéndices
376
Rts(d) = 1
N2 ∑
(xn,jn)∈ L2
(d(xn)≠ jn)
En este método las muestras pertenecientes al conjunto test L2 se
consideran independientes de las muestras del conjunto L1 y extraidas de la
misma distribución de probabilidad. El procedimiento más común utilizado para
cumplir esta condición, es extraer L2 aleatoriamente a partir de las muestras en
L .
3- La validación cruzada Rcv(d), donde el conjunto L se divide en V
subconjuntos, L1,L2,..,LV, de tamaño lo más similar posible. Para cada v, v= 1,..,V,
se aplica el procedimiento de aprendizaje y estimación del error del clasificador
d(v)(x), utilizando como conjunto de aprendizaje L− Lv, y como conjunto test los
casos en el subconjunto Lv. Para estimar el error R ∗ (d(v)) del clasificador
encontrado, se utiliza el método del test de muestras con el conjunto test Lv,
Rts(d(v)) = 1
Nv ∑
(xn,jn)∈ Lv
(d(xn)≠ jn)
donde Nv ≈ N ⁄ V es el número de casos en Lv. Este proceso se repite para todos
los subconjuntos v, v= 1,..,V.
El fundamento básico del método de validación cruzada es que se asume
que para un número de divisiones V del conjunto L lo suficientemente grande,
los clasificadores d(v), v= 1,..,V, construidos utilizando casi todo el conjunto L ,
tienen una probabilidad de error real R ∗ (d(v)) cercana a la clasificador d, R ∗ (d),
construido con todo el conjunto L . Mediante esta suposición, se define la
estimación del error por validación cruzada Rcv(d) del clasificador d dado el
conjunto de aprendizaje L como
Rcv(d) = 1V
∑ v= 1
V
Rts(d(v))
Árboles binarios de clasificación
377
Dividiendo el conjunto L en N subconjuntos, es decir, cada elemento de L
un subconjunto, se obtiene el método del leaving-one-out (dejando uno fuera).
Las estimaciones por validación cruzada tienen un elevado coste computacional,
por lo que no son aconsejables cuando se dispone de suficiente número de
muestras. No obstante es preferible cuando el número de muestras disponible
para el aprendizaje es reducido.
Cada uno de estos métodos de estimación del error (restitución R(d), test
de muestras Rts(d), validación cruzada Rcv(d)) del clasificador d(x) tiene su bias
(desviación o alejamiento) respecto de la probabilidad de error real o asintótica
R ∗ (d).
El método de restitución R(d) siempre produce estimaciones sesgadas que
se desplazan de manera optimista de la probabilidad de error real R ∗ (d). De
todas formas, este tipo de estimación se podría utilizar para conjuntos de
muestras de aprendizaje lo suficientemente extensos, cosa que no ocurre
normalmente en la práctica.
El método de validación cruzada Rcv(d) tiende siempre a producir
estimaciones que se desvían en forma pesimista de la probabilidad de error real
R ∗ (d), por lo que en cierta manera puede ser preferible. El estudio de las
propiedades estadísticas de la validación cruzada es extremadamente complicado
debido a lo complejo de su formulación. En su lugar existen estudios basados en
consideraciones heurísticas para aproximar la desviación de esta estimación
respecto de la probabilidad de error real o de la probabilidad de error esperado
dado cierto conjunto de muestras de aprendizaje, por ejemplo, el error de
restitución junto con el error estimado mediante el método del leaving-one-out,
se pueden utilizar para estimar el valor de la probabilidad de error real o
asintótico (Raudys & Jain, 1991), o el error estándar de la estimación por
validación cruzada (Breiman et al, 1984).
La estimación por medio del test de muestras, Rts(d), es un método que ha
sido bien estudiado. La distribución de probabilidad de la estimación del error
por test de muestras obedece a una distribución binomial (Duda & Hart, 1973),
si se considera que k de las N2 muestras extraídas independientemente de L han
Apéndices
378
sido erróneamente clasificadas. Estimando la probabilidad de error p∗ = k ⁄ N2
como la proporción de casos mal clasificados del conjunto de muestras L2, la
distribución de probabilidad binomial P en función de p∗ , se expresa como
P =
N2k
p∗ k
(1− p∗ )N2− k
y su error estándar, teniendo en cuenta que por la definición de estimación por
test de muestras p∗ = Rts(d),
SE(Rts(d)) =
Rts(d) (1− Rts(d))N2
1 ⁄ 2
Aunque claramente la probabilidad de error por el método de test de
muestras tiene un desplazamiento o bias nulo respecto de la probabilidad
esperada, el intervalo de confianza de la estimación del error real es función del
número de muestras utilizado N2. Este comportamiento también ha sido bien
Figura C.1. Intervalos de confianza entre para el error estimado(Duda & Hart, 1973).
20
errorreal
1,0
00,5
15
10
50
100
250
1000
30
0,5
error estimado
1,0
Árboles binarios de clasificación
379
estudiado, en concreto la figura C.1 muestra los intervalos de confianza de que,
para cierto número de muestras, la probabilidad de error real para cada error
estimado se encuentre con un 95 % de probabilidad (Duda & Hart, 1974) entre
los valores de la región comprendida entre las dos curvas para cierto número de
muestras.
Por otra parte, tal como propone Raudys & Jain (1991), el comportamiento
en general de los estimadores de error en función del número de muestras se
puede expresar a partir del error estándar de la estimación, que considerando
que el error estimado no se desvíe más de un k % del error real R ∗ (d), se
encuentra la relación entre el número de muestras para el test N2, la
probabilidad de error real R ∗ (d) y el tanto por cien de desviación de la
estimación, k, respecto a la probabilidad de error real
N2 = 4 (1− R ∗ (d))
R ∗ (d) (k ⁄ 100)2
por medio de la cual se puede estimar el número de muestras necesarias N2
para estimar un cierto valor real esperado R ∗ (d) con una variación de un k %
respecto de éste.
En el caso de la estimación por test de muestras, el hecho de dividir el
conjunto inicial de aprendizaje L en dos, L1 y L2, para construir el clasificador y
verificar su error respectivamente, plantea el dilema de la proporción de
muestras del conjunto inicial que va a cada uno de estos conjuntos. La
desventaja de este método es que no todas las muestras de L se utilizan para
construir el clasificador, y por tanto, si L1 es grande, entonces se obtiene un
error estimado con una varianza mayor y por consiguiente una estimación más
pobre. Por el contrario, si L2 es mucho más grande que L1, el error estimado es
mejor, pero no se obtiene un buen diseño del clasificador.
La búsqueda de una división óptima del conjunto inicial L en estos dos
conjuntos no ha sido muy estudiada, aunque es costumbre por parte de los
analistas utilizar reglas relativas a ciertas proporciones fijas, sin ninguna
justificación teórica. Raudys & Jain (1991) propusieron para ello una función de
Apéndices
380
pérdidas que evaluara la pérdida conjunta en la estimación del error y el diseño
del clasificador, mediante la cual, buscando los mínimos de esta expresión para
cada caso en concreto (número de muestras, error esperado, etc), se puede
aproximar la elección de una división del conjunto inicial de aprendizaje. No
obstante sigue siendo un criterio propuesto por estos autores sobre el que no
hay ninguna prueba fehaciente.
Árboles binarios de clasificación
381
Apéndice D
OPERADORES LINEALES
Y FILTROS
El término imagen monocroma se refiere a una función bidimensional de la
intensidad luminosa I(x,y), donde x e y denotan las coordenadas espaciales y el
valor o amplitud I en el punto (x,y) es proporcional al brillo o nivel de gris de
la imagen en tal punto. Puesto que la luz es una forma de energía, el valor de
I(x,y) debe ser positivo y finito.
Para obtener una imagen en la forma adecuada para su proceso por
ordenador, una imagen I(x,y) se debe digitalizar tanto espacialmente como en
amplitud. La digitalización de las coordenadas espaciales (x,y) se denomina
muestreo de la imagen, mientras que la digitalización en amplitud se llama
cuantización del nivel de gris.
Las imágenes digitales se ordenan en forma de matrices de n x m
elementos, los cuales han sido muestreados a partir de una imagen continua a
iguales intervalos espaciales y cada uno de ellos a su vez en amplitud. A cada
elemento de esta matriz o imagen digital se le denomina píxel o elemento
imagen.
Si el muestreo de los valores de la imagen se realiza en lo que serían los
puntos de una malla cuadrada o rectangular, obtenemos lo que se denomina
representación digital de una imagen en trama cuadrada. En esta representación
un punto (x,y) de la imagen tiene cuatro vecinos, dos horizontales y dos
verticales, que corresponden a los puntos de coordenadas
(x− 1, y) (x, y− 1) (x, y+ 1) (x+ 1, y)
A estos puntos se les llama los 4-vecinos de un punto (x,y), y se dice que
un punto es 4-adyacente a (x,y) si es alguno de sus 4-vecinos. Además el punto
(x,y) tiene 4 vecinos diagonales,
(x− 1, y− 1) (x− 1, y+ 1) (x+ 1, y− 1) (x+ 1, y+ 1)
A estos vecinos, junto con los 4-vecinos anteriores, se les denomina
8-vecinos del punto (x,y), y cada uno de ellos es 8-adyacente a tal punto. Cuando
se define la conectividad en imágenes digitales se habla de conectividad-4 si se
consideran sólo los vecinos 4-adyacentes a un punto para definir la conectividad,
o conectividad-8 si se consideran los vecinos 8-adyacentes definidos
anteriormente.
D.1 Convolución digital
La teoría de sistemas lineales es una rama de las matemáticas utilizada para
describir, por ejemplo, sistemas ópticos o circuitos eléctricos, y que proporciona
una base matemática para ciertos filtros en proceso digital de imágenes.
Sea la transformación G(x,y) = T(I(x,y)) donde I(x,y) es la imagen original y
G(x,y) es el resultado o imagen filtrada por la operación del filtro T. T es una
operación que se puede representar por un sistema lineal si cumple ciertas
condiciones, lineal e invariante frente a desplazamientos, entonces la salida del
filtro se puede expresar matemáticamente por
G(x,y) = ∫ I(t,s) h(x− t,y− s) dt ds
donde h(s,t) es la llamada respuesta impulso del filtro y es una función que
caracteriza completamente al filtro. Esta expresión integral se denomina
comúnmente una integral de convolución y se escribe de manera abreviada como
G = h ∗ I.
Apéndices
384
En el caso digital, las integrales se convierten en sumatorios, por lo tanto
tenemos para imágenes digitales la expresión de un filtro lineal como
G(i,j) = ∑ k= − ∞
k= + ∞ ∑
l= − ∞
l= + ∞I(k,l) h(i− k,j− l)
Aunque los limites de los sumatorios son infinitos, la función h es
normalmente igual a cero fuera de cierto rango. Si el rango en el cual h es no
nula es (− w,+ w) a lo largo de la variable k, y (− v,+ v) en la variable l, tenemos
G(i,j) = ∑ k= − w
k= + w
∑ l= − v
l= + v
I(k,l) h(i− k,j− l)
lo que significa que la salida G(i,j) en el punto (i,j) viene dada por la
suma pesada por la función del filtro h(k,l) de los valores de los píxels que
rodean el punto (i,j), es decir, la imagen filtrada G(i,j) se crea a partir de una
serie operaciones desplazamiento-multiplicación-suma en una especie de barrido
por la imagen I(i,j) de los valores de h que forman el llamado núcleo o kernel
del filtro, o más comúnmente la máscara del filtro. Por razones de simetría,
h(k,l) se toma casi siempre de tamaño m x n donde ambos, m y n, son números
impares.
D.2 Filtros de suavizado
Las operaciones de suavizado de la imagen se utilizan generalmente como
pre-procesos para reducir efectos espúreos en forma de ruido o demasiado
detalle de una imagen. Los filtros de suavizado se pueden realizar en los dos
dominios de la imagen, el espacial y el de frecuencias. Los filtros en el espacio
de frecuencias son simples de aplicar pero lo costoso de la transformación
espacio-frecuencias por medio de la transformada de Fourier hace que los filtros
espaciales, mas rápidos en su aplicación, se utilicen más comúnmente.
Operadores lineales y filtros
385
Suavizar una imagen es relativamente sencillo, la dificultad reside en que al
suavizar desaparecen ciertas características de la imagen junto con la eliminación
del ruido u otros efectos molestos. Por esta razón existe una familia de filtros
llamados de preservación de bordes, ya que los bordes en las operaciones de
suavizado quedan difuminados.
En la literatura podemos encontrar varios filtros de suavizado, lineales y no
lineales. El filtro de suavizado lineal más común es el filtro media, que consiste
en convolucionar una máscara de cierto tamaño y forma donde todos los
elementos de la mascara son la unidad. Por cuestión de escalas, el resultado se
divide por el número de elementos en el que la máscara está definida.
El filtro de preservación de bordes más conocido es el filtro mediana. La
mediana de un conjunto de números es el valor tal que, ordenando de menor a
mayor los elementos del conjunto, corresponde al valor que queda en medio, es
decir, el que tiene por encima y por debajo de él la mitad de los elementos del
conjunto. El filtro mediana se define sobre los elementos que comprenden la
región de la máscara establecida.
D.3 Filtros de realce y extracción de bordes
Los filtros de realce de bordes son lo contrario de los filtros de suavizado.
Mientras los filtros de suavizado son filtros pasa baja, los filtros de realce de
bordes son filtros pasa alta, y su efecto es potenciar o realzar los bordes
respecto al resto de los puntos de la imagen. El termino detector de bordes
también se utiliza. Un simple filtro pasa alta puede utilizarse como filtro de
extracción de bordes, pero mas generalmente, incluyen umbrales para dividir los
puntos en dos categorías, bordes y no bordes, incluso con procedimientos de
enlace de píxels de los bordes que estén conectados.
Los filtros de extracciòn de bordes se dividen, de forma general, en dos
grupos, los operadores gradiente y los Laplacianos. Una forma simple de utilizar
los operadores gradiente como filtro de extracción de bordes es coger sólo la
magnitud del gradiente en un punto de la imagen. Moviéndose en dirección
perpendicular al borde, el gradiente comienza desde el valor cero pasando por
Apéndices
386
un máximo y volviendo de nuevo a cero, ello provoca la obtención de anchos
bordes a los que después se les realiza una operación de refinamiento. Los
filtros Laplacianos sólo dan información sobre la magnitud, es decir, el resultado
es un escalar, mientras que los operadores gradiente dan magnitud y dirección.
D.4 Operadores de Marr o el "sombrero mejicano"
Los cambios de intensidad en una imagen surgen de discontinuidades en la
superficie, de reflexiones o bordes de iluminación, teniendo todos ellos la
propiedad de estar espacialmente localizados. La mayor dificultad en la detección
de cambios de intensidad en una imagen es que éstos ocurren en un amplio
rango de escalas. Un filtro simple no puede ser óptimo para detectar estos
cambios en todas las escalas, por lo tanto se debe tratar separadamente los
cambios que surgen a diferentes escalas.
El propósito de un filtro de suavizado es reducir el rango de escalas sobre
las cuales los cambios de intensidad tienen lugar. El espectro del filtro deberá
ser suave y de banda limitada en el dominio de las frecuencias. Se puede
expresar esta condición exigiendo que su variación en las frecuencias ∆ω sea
pequeña. Una segunda restricción se puede expresar mejor como una restricción
en el dominio espacial y se llama la restricción de la localización espacial.
Los fenómenos que pueden dar lugar a cambios de intensidad en una
imagen son:
- Cambios de iluminación debidos a sombras, fuentes de luz y gradientes
de iluminación.
- Cambios en la orientación o distancia de el observador a las superficies
visibles.
- Cambios en la reflexión de las superficies.
Lo que debemos observar en esto es que, en la escala en que es posible
concebir todas estas cosas como localizadas espacialmente, ya que, excepto el
patrón de difracción, no se puede considerar el mundo visual como superposición
de frentes y paquetes de onda. Puesto que el filtro que se busca también debe
ser suave y localizado en el dominio espacial, su variación ∆x debe ser pequeña.
Operadores lineales y filtros
387
Estas dos restricciones en la localización, ∆ω y ∆x, están relacionadas por
el principio de incertidumbre que establece la relación entre ambas como
∆ω ∆x ≥ π ⁄ 4. Existe una sola distribución que optimiza esta relación, la
Gausiana,
G(x) = 1 ⁄ σ(2π)1⁄2 e(− x2 ⁄ 2πσ2)
y su transformada de Fourier
F(ω) = e(− πω2σ2 ⁄ 2)
Si eligiéramos un filtro muy localizado en el dominio de la frecuencia, por
ejemplo un pasa-banda ideal, cumpliría la restricción de la localización en
frecuencias pero no la espacial, pues aparecerían lóbulos en el filtro espacial con
lo que surgirían ecos en el cálculo de los cruces por cero, ecos que no tendrían
correlación física con la imagen real, obteniendo ruido no deseable en el proceso
visual.
De la misma manera ocurriría con un filtro espacial muy localizado con el
cual aparecerían lóbulos en el espacio de la frecuencia, el efecto sobre la
detección de cruces por cero sería el inverso al anterior, se detectarían menos
de los que realmente correspondería a ese canal, debido al promediado que
efectuaría el filtro con el amplio rango de frecuencias incluidas en los lóbulos.
Cuando se produce un cambio de intensidad, a su lugar le corresponde un
pico en la primera derivada y un cruce por cero en la segunda derivada, por lo
tanto la tarea de detectar estos cambios es la búsqueda de cruces por cero en la
segunda derivada de la función intensidad que define la imagen, en la dirección
r apropiada
f(x,y) = D2 G(r) ∗ I(x,y)
donde I(x,y) es la imagen original y ∗ el operador convolución. Por la regla de
derivadas para convoluciones
Apéndices
388
f(x,y) = D2G(r) ∗ I(x,y)
En una dimensión D2G, es decir G ′ ′ tiene la expresión
G ′ ′ = − 1
σ2(2π)1⁄2 1 − x2
σ2 e(− x
2 ⁄ 2πσ2)
G ′ ′ es un operador cuya forma es similar a un sombrero mejicano (figura
D.1), es muy parecido a la función diferencia entre dos Gausianas (DOG) y, en
realidad, G ′ ′ es el limite de la función DOG cuando el tamaño de las dos
Gausianas tiende el uno al otro. Es, aproximadamente, un operador pasa-banda,
con un ancho de banda de 1,2 octavas.
Las convoluciones son costosas computacionalmente y para reducir el
número de ellas se debe utilizar un operador independiente de la orientación. El
único operador diferencial isotrópico de segundo orden es el Laplaciano, que
puede ser empleado para detectar cambios de intensidad en la imagen siempre
que ésta satisfaga algunas condiciones bastante débiles.
G ′ ′
Figura D.1. Operador "sombrero mejicano" unidimensional.
x
Operadores lineales y filtros
389
La detección de los cambios de intensidad puede estar basada en el
operador ∇ 2G, sin embargo, en principio, si la intensidad varia a lo largo de un
segmento de una manera no lineal, el Laplaciano, y por lo tanto el operador
∇ 2G verá el cruce por cero desplazado a un lado.
La expresión del operador ∇ 2G, u operador "sombrero mejicano", en dos
dimensiones en coordenadas esféricas es
∇ 2G(r) = − 1
πσ4 1−
r2
2σ2
e(− r2 ⁄ 2πσ2)
con simetría circular, donde σ es la desviación típica de la Gausiana.
Apéndices
390
Apéndice E
COLOR
E.1 Modelo de reflexión de la luz
E.1.1 El fenómeno físico de la reflexión
Cuando la luz ilumina la superficie de un material dieléctrico, debido al cambio
del índice de refracción entre los dos medios que separa tal superficie
(usualmente el aire y el material en cuestión), parte de ella se refleja volviendo
al medio de donde procede, y parte de ella se refracta, introduciéndose en el
medio material (figura E.1).
Los materiales dieléctricos, materiales que no conducen la electricidad, son
materiales generalmente no homogéneos, es decir, consisten en un medio que
constituyen la masa del material que es aproximadamente transparente, y en el
cual se encuentran inmersos partículas o pigmentos que absorben selectivamente
Figura E.1. Reflexión de la luz en un material dieléctrico.
la luz y la dispersan dentro del material por reflexión y refracción al chocar la
luz con ellos.
Al hecho de que parte de la luz al alcanzar un material dieléctrico se
refleje por efecto del cambio de índices de refracción se le denomina reflexión
superficial, de acuerdo a la nomenclatura de Shafer (1985). Este proceso también
se denomina en la literatura como reflexión de Fresnel. Si la superficie de
separación entre ambos medios es completamente suave, la luz se refleja en una
sola dirección, la dirección de reflexión o también llamada dirección especular.
Sin embargo, las superficies de muchos materiales presentan rugosidades o
texturas. Dado que la dirección de la reflexión de la luz depende de la
orientación de la normal, la cual puede variar dentro de un pequeño elemento
de área de una superficie de este tipo, la luz reflejada en estos casos se dispersa
en cierto grado alrededor de la dirección de reflexión especular.
Las propiedades ópticas del material también determinan la cantidad y
color de la luz que se refleja en la superficie. Las leyes de Fresnel describen la
dependencia de la luz reflejada con respecto a los índices de refracción de los
medios en la superficie de separación, el ángulo incidente y de la polarización
de la luz. En general, el índice de refracción de un material es función de la
longitud de onda, y el coeficiente de Fresnel varia a lo largo del espectro de la
luz. No obstante, se aproxima normalmente el coeficiente de Fresnel del medio
por una constante a lo largo de las longitudes de onda que cubren del espectro
visible; esta aproximación es razonable puesto que el índice de refracción de la
mayoría de los medios cambia muy poco en el espectro visible. En estas
condiciones, la luz reflejada en la superficie de separación de los medios tienen
el mismo color que la luz incidente que viene del iluminante.
Por otra parte, la luz que se refracta en la superficie del material y se
introduce en él, se traslada a través del medio que forma la masa de un
material dieléctrico no homogéneo hasta que choca con los pigmentos que se
encuentran inmersos en él. Al incidir esta luz sobre los pigmentos, los rayos se
reflejan y refractan en la superficie de separación entre los pigmentos y el medio
material. Este mismo proceso se repite indefinidas veces, llegando parte de la
luz que se refleja y refracta en los pigmentos a la superficie de separación del
Apéndices
392
material con el medio original desde donde se introdujo, usualmente el aire.
Todo este proceso por el que la luz que penetra en el material vuelve a
reflejarse al medio original se denomina reflexión del cuerpo (Shafer, 1985). Si
se asume que los pigmentos se distribuyen aleatoriamente en el interior del
material, la luz producto de la reflexión del cuerpo sale en direcciones aleatorias
desde el cuerpo del material. Además, si la luz que sale del cuerpo del material
está uniformemente distribuida, esta distribución puede describirse mediante la
ley de Lambert de un difusor perfecto. La distribución de los pigmentos también
influye en la cantidad y el color de la luz reflejada. Si los pigmentos se
distribuyen aleatoriamente en el cuerpo del material, se puede esperar en
promedio que la misma cantidad y color se absorberá en todo el material antes
de que la luz salga, en tal caso, la luz que se refleje desde el cuerpo del
material tienen el mismo color sobre toda la superficie del material.
Klinder et al (1988) diferencian claramente entre los términos de reflexión
especular y difusa, y los de reflexión superficial y del cuerpo. La reflexión
especular se refiere a la reflexión de la luz en la dirección ideal de reflexión,
mientras que la reflexión difusa implica la reflexión con dispersión. Mientras que
los términos reflexión del cuerpo y superficial se refieren a procesos físicos
diferentes. Para una superficie muy suave, la reflexión superficial será especular,
y la reflexión del cuerpo será difusa. Sin embargo, para objetos con superficies
rugosas, la reflexión superficial será, por ejemplo, difusa alrededor de la
dirección de reflexión especular. Los metales, por ejemplo, tienen solo reflexión
superficial, la cual puede ser especular o difusa, dependiendo de la rugosidad de
su superficie.
Color
393
E.1.2 El modelo de reflexión dicromático
En el caso de materiales dieléctricos, se puede describir matemáticamente el
proceso de reflexión en la superficie del material por medio del modelo de
reflexión dicromático1 (Shafer, 1985). Para ello se asumen una serie de
condiciones (Klinder et al, 1988):
-Se considera que los pigmentos se distribuyen aleatoriamente en el cuerpo
del material, y que están completamente inmersos en él, es decir, no se
encuentran pigmentos en la superficie de separación entre el material y el medio
exterior.
- Asimismo, se considera que la iluminación de la escena es únicamente
debida a la fuente de iluminación y no a la luz ambiente procedente de
reflexiones en la superficie de otros objetos.
Asumiendo estas condiciones, el modelo de reflexión dicromático (Shafer,
1985) describe la radiancia de la luz reflejada en un punto de la superficie en
cierta dirección L , como la mezcla de las radiancias de la luz reflejada desde la
superficie del material Ls, y desde el cuerpo del material Lb. Esto se puede
expresar de la forma
L (θi,ϕi;θr,ϕr;λ) = Ls(θi,ϕi;θr,ϕr;λ) + Lb(θi,ϕi;θr,ϕr;λ)
donde, en general, estas magnitudes dependen de la longitud de onda λ, y
θi,ϕi;θr,ϕr, que son los ángulos del rayo incidente y reflejado respectivamente,
respecto de un sistema de referencia situado en el elemento de superficie dA
donde se produce la reflexión con el eje z en la dirección de la normal n→ al
elemento de superficie y el plano xy conteniendo al elemento de superficie dA
Apéndices
394
1 El modelo de reflexión dicromático es un modelo general del que se pueden derivar
otros modelos de reflexión utilizados por varios autores, tales como Torrance & Sparrow
(1967), Phong (1975), Horn (1977), y más recientemente Lee et al (1990).
tal como se muestra en la figura E.2, siguiendo la notación utilizada por Lee et
al (1990).
Puesto que se asume que la superficie de un dieléctrico no homogéneo
posee el mismo espectro de reflexión superficial característico en cualquier punto
de la superficie del objeto, debido a la condición asumida relativa a los
pigmentos, se pueden separar las propiedades espectrales de la reflexión
superficial de sus propiedades geométricas. De esta modo, se puede expresar la
radiancia de la reflexión superficial Ls como producto de su distribución de
potencia espectral, cs(λ) , y un factor geométrico de escala, ms(θi,ϕi;θr,ϕr) (Klinder
et al, 1988). Del mismo modo se puede separar la reflexión debida al cuerpo
del objeto Lb como producto de la distribución de la potencia espectral de la
luz reflejada desde el cuerpo a través de cualquier punto de la superficie, cb(λ) ,
y un factor geométrico de escala, mb(θi,ϕi;θr,ϕr). Con todo ello se puede expresar
la ecuación del modelo de reflexión dicromático como
L (θi,ϕi;θr,ϕr;λ) = ms(θi,ϕi;θr,ϕr) cs(λ) + mb(θi,ϕi;θr,ϕr) cb(λ) (E.1)
dωi
dA
θi
θr
ϕr
ϕi
x
z
y
dωr
Figura E.2 Geometría de los rayos incidente y reflejado.
Color
395
De esta forma se describe la luz reflejada desde un punto de la superficie
del objeto como una mezcla de dos distribuciones de potencia espectral
diferentes, cs(λ) y cb(λ) , cada una de las cuales pesada según un factor
dependiente de las propiedades geométricas de la reflexión en los puntos de la
superficie del objeto, ms(θi,ϕi;θr,ϕr) y mb(θi,ϕi;θr,ϕr).
Dado que el modelo de reflexión dicromático asume que el espectro de
reflexión de la luz reflejado en la superficie, cs(λ) , y el reflejado desde el cuerpo
del material, cb(λ) , son constantes a lo largo de toda la superficie del objeto,
cambiando en cada punto de la superficie los factores de escala geométricos,
ms(θi,ϕi;θr,ϕr) y mb(θi,ϕi;θr,ϕr), se puede interpretar que, considerando el espacio
vectorial de dimensión infinita de las distribuciones de potencia espectral de la
luz, los vectores cs(λ) y cb(λ) forman un plano denominado plano dicromático, y
cualquier punto de la superficie del objeto a que representan cuya luz reflejada
sea L (θi,ϕi;θr,ϕr;λ) esta situada en este plano, por ser una combinación lineal de
esos vectores según el modelo dicromático, combinación lineal que tiene como
coeficientes los factores geométricos de escala ms(θi,ϕi;θr,ϕr) y mb(θi,ϕi;θr,ϕr).
La experiencia demuestra que en materiales dieléctricos no homogéneos el
factor geométrico de reflexión superficial ms(θi,ϕi;θr,ϕr) decrece bruscamente
alrededor del punto de la superficie que posee el valor máximo de este
coeficiente, efecto que también se puede observar entre la relación de la
reflexión superficial y la procedente del cuerpo modelado por Gershon (1987) y
que se representó en la figura 1.7. A los puntos de la pequeña zona de la
superficie del objeto que presentan un valor apreciable del coeficiente
geométrico de reflexión superficial se les denomina puntos reflejo. A los puntos
restantes de la superficie en los que la reflexión procedente del cuerpo del
material es aproximadamente la única existente se les denomina puntos mate
(Klinder et al, 1988). De una manera general los puntos mate sólo tienen,
aproximadamente, componente de reflexión procedente del cuerpo, por lo que
estarán alineados en la dirección del vector cb(λ) según el valor del coeficiente
geométrico de reflexión del cuerpo mb(θi,ϕi;θr,ϕr); en cambio los puntos reflejo
poseen ambas componentes, la superficial y la del cuerpo.
Apéndices
396
E.1.3 Integración del espectro y medida del color de la luz
La radiación en forma de luz que llega a un sensor o cámara para que el
receptor codifique la distribución de potencia espectral de esta radiación en
medidas que cuantifiquen la propiedad de la luz llamada color (sección E.2), se
realiza a través de una integración del espectro continuo de luz para obtener las
componentes de un vector que representa el color de la luz y que generalmente
estas componentes son tres, en acuerdo a la generalización tricromática en la
que se basan muchos sensores de color, entre ellos el ojo humano.
Las medidas del valor de las componentes del vector de color de una
radiación o estímulo dado, se obtienen por medio de un filtrado de la luz que
alcanza el sensor mediante los filtros que representan cada uno de los colores
primarios en la representación triestímulo del color. La luz que pasa a través de
estos filtros se integra después a lo largo de todo el espectro para obtener las
medidas de color. Cada filtro que componen el sensor integra la radiancia
espectral de la luz que llega al sensor, L (θi,ϕi;θr,ϕr;λ) , pesada con la
transmitancia espectral característica del filtro, τf(λ) , y por la respuesta de
sensibilidad espectral de la cámara s(λ) , sobre todas las longitudes de onda λ,
para obtener una de las componentes del vector de color Cf que caracteriza esa
luz, esto se puede expresar
Cf = ∫ L (θi,ϕi;θr,ϕr;λ) τf(λ) s(λ) dλ
Si se utilizan los filtros rojo, verde y azul, que normalmente se encuentran
en las cámaras, con transmitancias τr, τg y τb, la distribución de potencia
espectral de la luz que llega al sensor se convierte en un vector de tres
dimensiones, C(x,y) = (R,G,B), en cada posición del plano sensor (x,y),
correspondiente a un píxel cuya medida de color corresponde a la luz que
refleja un punto o elemento de área sobre la superficie de un objeto de la
escena.
La integración del espectro desde el espacio de dimensión infinita de la
distribución de potencia espectral de los espectros continuos en un espacio de
Color
397
color tridimensional tal como el espacio RGB2, es una transformación lineal
(Shafer, 1982). Como tal transformación lineal, si un rayo de luz L (λ) es una
mezcla de dos luces, L1(λ) y L2(λ) , en el espacio de dimensión infinita de las
distribuciones de potencia espectral, el vector de color C resultado de la
integración del espectro en el sensor, es, asimismo, una combinación lineal de
los vectores de color C1 y C2 correspondientes a las luces L1(λ) y L2(λ) .
Si aplicamos esta propiedad de la integración del espectro en el sensor al
modelo de reflexión dicromático expresado en la ecuación (E.1), teniendo en
cuenta que los coeficientes geométricos dependen de la posición (x,y) y la
relación lineal que existe entre la luz que se refleja en la superficie del objeto
respecto a las componentes superficial y la que sale del cuerpo del material,
podemos expresar la ecuación del modelo de reflexión dicromático en el espacio
de color como
C(x,y) = ms(θi,ϕi;θr,ϕr) Cs + mb(θi,ϕi;θr,ϕr) Cb
que expresa que el valor del vector de color de un píxel C(x,y) en la posición
(x,y) como combinación lineal de los dos vectores de color Cs = (Rs,Gs,Bs) y
Cb = (Rb,Gb,Bb), correspondientes al color de la reflexión superficial y del cuerpo
de un objeto de la escena. Estos dos colores forman, en el espacio
tridimensional de representación del color, un plano llamado plano dicromático
(figura E.3), dentro del cual se encuentran todos los valores correspondientes a
los colores de las luces reflejadas desde puntos de la superficie de un mismo
objeto cuyos colores representativos son Cs y Cb.
Apéndices
398
2 La integración del espectro introduce una relación entre los puntos del espacio de color
y las distribuciones de potencia espectral de las radiaciones por el cual un punto en el
espacio de color puede representar a infinitas distribuciones de potencia espectral,
partiendo el espacio de dimensión infinita de las distribuciones de potencia espectral en
clases de equivalencia representadas en el espacio de color por un solo punto. A este
fenómeno se le denomina metamerismo (Wyszecky & Stiles, 1967)
E.2 Colorimetría
La palabra color se usa, comúnmente, en diferentes sentidos. El psicólogo utiliza
esta palabra al referirse a la sensación producida en el observador humano
cuando su retina se estimula por la energía radiante. En un sentido diferente,
este término se utiliza para especificar una propiedad de un objeto, por ejemplo,
cuando se dice que el color de un libro es azul. La ciencia que trata de la
medida del color se denomina colorimetría. El comité de Colorimetría de la
Optical Society of America recomienda la siguiente definición: "El color se
compone de aquellas características de la luz distintas de las de espacio y
tiempo; siendo la luz aquel aspecto de la energía radiante que el hombre
percibe a través de las sensaciones visuales que se producen por el estímulo de
la retina".
Las características aludidas en esta definición son tres. La primera es el
flujo luminoso, el cual es una medida de la efectividad de la luz para provocar
la sensación de brillo. Las otras dos características, relacionadas con la
cromaticidad de la luz son, la longitud de onda dominante y la pureza. La
primera corresponde a la característica de la sensación de color llamada matiz, y
la última, a la característica llamada saturación.
R
G
B
C
C
s
b
Figura E.3. Plano dicromático en el espacio RGB.
Color
399
E.2.1 Generalización tricromática
Las leyes experimentales sobre la definición de colores se resumen en la
generalización tricromática, que afirma que sobre un amplio rango de
condiciones, muchos colores pueden definirse completamente por medio de
mezclas aditivas en cantidades apropiadas de tres colores primarios fijos. La
elección de los tres colores primarios, aunque es muy amplia, no es
completamente arbitraria. No se puede utilizar los conjuntos de colores tal que
ninguno de los primarios pueda definirse como mezcla de los otros dos.
En un sentido más estricto de la generalización tricromática, ésta afirma
que la proporcionalidad y aditividad de colores permanecen estrictamente sobre
un considerable rango de condiciones de observación. Estas leyes de linealidad
requieren que dos colores permanezcan iguales si su correspondiente estimulo se
incrementa o reduce en una cantidad por el mismo factor constante, sus
respectivas distribuciones de energía espectral relativas permanecen inalteradas; y
además, que si dos colores A y B son iguales, y que dos colores C y D también
lo son, asimismo son iguales las mezclas de color A+ C y B+ D.
Considerando la validez de estas propiedades, es posible y conveniente
representar los colores por medio de vectores tridimensionales, y representar
igualdades entre colores por medio de ecuaciones lineales entre tales vectores. Si
C es un vector que representa un color dado y R, G y B son los vectores que
representan cantidades unitarias de los tres colores primarios, entonces la
ecuación
C = rR + gG + bB
afirma que el color C queda definido por una mezcla aditiva de cantidades r, g
y b de los respectivos colores primarios. Los multiplicadores escalares r, g, b son
los llamados valores triestímulo del color dado respecto del conjunto de
primarios R, G, B en particular.
En ocasiones un color no puede conseguirse por mezclas aditivas directas
de los tres primarios, entonces es necesario mezclar el color en cuestión con
Apéndices
400
cantidades de uno o dos de los primarios para poder conseguir un color igual a
una mezcla de los primarios restantes. En este caso, los coeficientes de los tres
colores primarios para conseguir un cierto color se consideran negativos.
Es costumbre elegir las unidades de los primarios tal que el color de una
mezcla de iguales cantidades de los primarios coincide con un color acromático
especificado, que normalmente tiene un espectro de energía uniforme o igual
para todas las longitudes de onda.
Cualquier color C cuyo correspondiente estímulo tenga una distribución de
energía espectral C(λ) dλ, puede quedar definido por sus valores triestímulo a
partir de unas curvas triestímulo o filtros asociados r_(λ) , g
_(λ) , b
_(λ)
correspondientes a los tres colores primarios R, G, B, de la forma
r = ∫ C(λ
λ) r_(λ) dλ g = ∫ C(
λλ) g
_(λ) dλ b = ∫ C(
λλ) b
_(λ) dλ
Para evitar coeficientes negativos, la CIE definió un conjunto de primarios
que permiten que cualquier color sea especificado por un triplete de números
que sean siempre no negativos. Estos primarios se definieron especificando un
conjunto de curvas triestímulo, denotadas como x(λ) , y(λ) , z(λ) .
Cuando dos colores tiene los mismos valores triestímulo pero poseen
diferentes distribuciones de energía espectral se denominan colores metametros.
Los colores con idéntica distribución de energía espectral e iguales valores
triestímulos se denominan colores isometros.
La generalización tricromática se fundamenta en tres leyes, llamadas las
leyes de Grassmmann de la mezcla aditiva de colores, de las que una de sus
formulaciones consiste en:
1. Cuatro colores son siempre linealmente dependientes.
2. Dos colores son iguales si provienen de la misma mezcla, aunque
aquéllos procedan de distribuciones de energía espectral diferentes.
3. Un cambio continuo en la distribución de energía espectral del estímulo
de un color, resulta en un cambio continuo en los valores triestímulo del color,
Color
401
considerando como continuo la posibilidad de que cambiando la distribución de
energía espectral los valores triestímulo del color permanezcan constantes.
E.3 Espacios de color
Un espacio de color es un sistema de coordenadas que permite que los colores
sean expresados cuantitativamente. Desde el punto de vista de la teoría del color
triestímulo, se precisa un espacio tridimensional, pero varias elecciones de estas
tres coordenadas son posibles. Se pueden resumir los espacios de color en tres
formas generales de coordenadas:
1. Coordenadas triestímulo. Un espacio rectangular en el que las tres
coordenadas, llamadas valores triestímulo, dan la cantidad de cada uno de los
tres colores primarios.
2. Coordenadas cromáticas. Es un sistema de coordenadas bidimensional
derivado del sistema triestímulo, proyectando los valores de cada punto del
sistema triestímulo, por ejemplo el CIE xyz, en el plano x+ y+ z= 1, definiendo x,
y y z como
x = X
X+ Y+ Z ; y =
YX+ Y+ Z
; z = Z
X+ Y+ Z
donde en este caso X, Y y Z son los valores de las coordenadas triestímulo.
Dado que entre las coordenadas cromáticas existe la relación x+ y+ z= 1, éstas
quedan completamente definidas utilizando sólo dos, por ejemplo (x,y). Para
especificar completamente el color es necesario especificar el valor de una de las
coordenadas triestímulo.
3. Espacios de percepción del color. Son espacios de color que se basan en
parámetros de percepción visual, tal como el matiz, el brillo y la saturación.
Algunos de estos espacios se definen tal que la diferencia de la percepción entre
dos colores se da, aproximadamente, por la distancia euclidea entre estos dos
Apéndices
402
colores; en este caso los espacios de color se llaman espacios de color
uniformes.
Se pueden encontrar más de 20 espacios de color en la literatura sobre
color y colorimetría. Algunos de los mas conocidos son: el sistema triestímulo
CIE XYZ y sus coordenadas cromáticas asociadas (x,y); el sistema de primarios
receptores NTSC (National Televison Systems Committees), correspondientes a la
emisión característica de los tres fósforos de las pantallas de televisión definidos
como Rn, Gn y Bn, cuyas coordenadas forman el conocido sistema RGB; el
sistema cromático extendido L ∗ u∗ v∗ , que es un espacio CIE estándar que se
aproxima a un espacio de percepción uniforme donde L ∗ es la luminosidad, u∗
es el grado de rojo-verde, y v∗ es aproximadamente el grado de azul-amarillo;
entre otros.
E.2.3 El color en las señales de video
Las señales de video en color se transmiten generalmente en dos formatos, video
compuesto o señales de video separadas RGB. Ambos de estos sistemas son
tridimensionales, siguiendo la generalización tricromática para representar colores.
La señal de video compuesto permite que tanto los monitores color como los de
blanco y negro puedan recibir la misma señal. La señal Y, que contiene la
información del nivel de gris, se combina con dos señales de cromaticidad
moduladas en amplitud, I y Q, para formar la señal de video compuesta.
La información de intensidad y cromaticidad que proporciona una cámara
color de estado sólido, por ejemplo, se deriva de la información RGB medida
utilizando los filtros ópticos interferométricos apropiados. Esta información se
transforma en una señal de video compuesto YIQ, transformación que puede
representarse mediante una matriz cuyos coeficientes varían según la definición
de los filtros RGB, ya que no existe una única definición disponible de estos
filtros.
Color
403
BIBLIOGRAFÍA
BIBLIOGRAFÍA
ARCELLI, C. & LEVIALDI, S.; (1971), "Picture Processing and Overlapping Blobs",
IEEE Trans. on Compt., C-20:1111-1115. Sept.
ATSUTA, K.; SANGWORASIL, M.; KONDO, S.; (1988), "A New Method of Estimating
Shape from Shading by Using a Constraint at Zero-crossings of Image
Brightness", IEEE Conference on Computer Vision and Patter Recognition,
CVPR’88, pp. 666-668.
AYACHE, N.; (1989), Vision Stéréoscopique et Perception Multisensorielle.
Applications à la Robotique Mobile, Intereditions, Paris.
BALLARD, D.H.; BROWN, C.M. (1982), Computer Vision, Prentice Hall. Inc.
Englewood Cliffs, NJ.
BARNARD, S.T.; & THOMPSON, W.B.; (1980), "Disparity Analysis of Images", IEEE
Transactions on Pattern Analysis and Machine Intelligence, Vol. PAMI-2,
No. 4, pp. 333-340.
BARNEA, D..I.; & SILVERMAN, H.F.; (1972), "A Class of Algorithms for Fast
Digital Image Registration", IEEE Trans., C-21, 2.
BEN-TZVI, D.; & SANDLER, M.B.; (1972), "A Combinatorial Hough Transform",
Pattern Recognition Letters, 11, pp. 167-174.
BLANDINI, G.; LEVI, P.; (1989), "First Approaches to Robot utilisation for
Automatic Citrus Harvesting", Land and Water Use, Dodd & Grace (eds),
Balkema, Rotterdam, ISBN 90 6191 980 0.
BLOSTEIN, S.D.; & HUANG, T.S.; (1987), "Error Analysis in Stereo Determination
of 3-D Point Positions", IEEE Trans. Pattern Anal. Machine Intell., Vol.
PAMI-9, pp. 752-765;
BOSWELL, R.; (1990), Manual for NewID, version 5.1, The Turing Institute, Ref.
TI/P2154/RAB/4/2.4.
BREIMAN, L.; FRIEDMAN, J.H.; OLSHEN, R.A.; STONE, C.J.; (1984), Classification and
Regression Trees, Wadsworth & Brooks Inc., Pacific Grove, California.
BROWN, L.G.; & SHVAYTSER, H.; (1990), "Surface Orientation from Projective
Foreshortening of Isotropic Texture Autocorrelation", IEEE Transactions on
Pattern Analysis and Machine Intelligence, Vol. 12(6): 584-588.
CASAS, J. (1985), Optica, Ed. Justiniano Casas Peláez.
CASTILLO, S.; (1992), Estudio de la Distribución, Visibilidad y Propiedades Físicas
de los Frutos Cítricos en el Árbol y su Influencia en el Diseño de Sistemas
Robotizados , Tesis Doctoral, Dpto. de Mecanización Agraria, Universidad
Politécnica de Valencia.
CELENK, M.; (1988), "A Recursive Clustering Technique for Color Picture
Segmentation", IEEE Conference on Computer Vision and Patter
Recognition, CVPR’88, pp. 437-444.
CHOU, P.A.; (1991), "Optimal Partitioning for Classification and Regression Trees",
IEEE Trans. Pattern Anal. Machine Intell., Vol. 13, No. 4, pp. 340-354.
CHOU, P.A.; LOOKABAUGH, T.; GRAY, R.M.; (1989), "Optimal Prunning with
Applications to Tree Structured Source Coding and Modeling", IEEE
Transactions on Information Theory, Vol. 35, No. 2, pp. 299-315.
COPPOCK, G.E.; (1983), "Robotic Principles in the Selection Harvest of Valencia
Oranges", Proc. Ist Int. Conf. on Robotics and Intelligent Machines in
Agric., pp. 138-145. ASAE, St joseph, MI.
COX, K.C.; ROMAN, G.C.; BALL, W.E.; LAINE, A.F.; (1988), "Rapid Search for
Spherical Objects in Aerial Photographs", IEEE Conference on Computer
Vision and Pattern Recognition, Vol I, pp. 905-909.
DAVIES, E.R.; (1987), "A High Speed Algorithm for Circular Object Location",
Pattern Recognition Letters, 6, pp. 323-333.
Bibliografía
408
DHOND, U.R.; & AGGARWAL, J.K.; (1989), "Structure from Stereo. A Review",
IEEE Transactions on Systems, Man and Cybernetics, Vol. 19, No. 6, pp.
1489-1510.
DIJKSTRA, J. (1991), "Grading Unrooted Begonia Cuttings by Estimating the Leaf
Area and Analyzing the Structure Using Digital Image Processing", I
International Seminar on Use of On-Machine Vision Systems for the
Agricultural and Bio-Industries, September 3-6, Montpellier, pp. 123-132.
DOMINGO, J.; ALBERT, J.; FERRI, F.; CERVERON, V.; (1990), "A Learning Method
Based on Genetic Algorithm Applied to Colour Image Segmentation", IV
International Symposium on Knoledge Engineering, Barcelona, Paper 3.25.
DUDA, R.O.; HART, P.E. (1972), "Use of the Hough Transformation to Detect
Lines and Curves in Pictures", Graphics and Image Processing, W. Newman
(ed), Communications of the ACM, Vol. 15(1): 204-208.
DUDA, R.O.; HART, P.E. (1973), Pattern Classification and Scene Analysis, John
Wiley, NY.
EDAN, Y.; FLASH, T.; SHMULEVICH, I.; SARIG, I.; PEIPER, U.M.; (1990), "An
Algorithm Defining the Motions of a Citrus Picking Robot", J. Agric. Engng
Res., 46, pp. 259-273.
FERRI, F.; & VIDAL, E.; (1992), "Colour Image Segmentation and Labeling through
Multiedit-Condensing", Pattern Recognition Letters, 13, pp. 561-558.
FISHLER, M.A.; & BOLLES, R.C.; (1986), "Perceptual Organization and Curve
Partitioning", IEEE Transactions on Pattern Analysis and Machine
Intelligence, Vol. PAMI-8, No. 1, pp. 100-105.
FU, K.S.; (1982), Applications of Pattern Recognition, CRC Press, pp. 38-61.
FU, K.S.; GONZALEZ, R.C.; LEE, C.S.G. (1988), Robotics: Control, Sensing, Vision
and Intelligence, McGraw-Hill Inc.
FUKANANGA, K.; (1990), Introduction to Satistical Pattern Recognition. Academic
Press. New York.
Bibliografía
409
FREEMAN, H.; (1970), Boundary Encoding and Processing. Picture Processing and
Psycopictories, (B.S. Lipkin and A. Rosenfeld editors), Academic Press. New
York, pp. 241-246.
GAFFNEY, J.J.; (1969), "Reflectance Properties of Citrus Fruit", Transactions of the
ASAE, 16(2):310-314.
GERSHON, R. (1987), The Use of Color in Computational Vision, Ph D
Dissertation, Department of Computer Science, University of Toronto.
GONZALEZ, R. C.; WINTZ, P. (1977), Digital Image Processing, Addison-Wesley
Publishing Company.
GORMAN, J.W.; MITCHELL, O.R.; KUHL, F.P.; (1988), "Partial Shape Recognition
Using Dynamic Programming", IEEE Transactions on Pattern Analysis and
Machine Intelligence, Vol. PAMI-10, No. 2, pp. 257-266.
GRAND D’ESNON, A.; (1985), "Robotic Harvesting of Apples", In Proc. of
Agrimation I. Published by the ASAE and SME. ASAE, St Joseph, MI. pp.
210-214.
GRAND D’ESNON, A.; PELLENC, R.; RABATEL, G.; JOURNEAU, A.; ALDON, M.;
(1987), "Magali: a Self Propelled Robot to Pick Apples", ASAE Paper No
87-037. ASAE, St Joseph, MI.
GRIMSON, W.E.L.; (1986), "Computing Stereopsis Using Feature Point Contour
Matching", Techniques for 3-D Machine Perception, A. Rosenfeld (ed.),
Elsevier, pp. 75-111.
GUILLAUME, S.; BALERIN, S.; BOURELY, A. (1991), "An Application of On-Line
Vision in Food Industry: Robotic Trimming of Salads", I International
Seminar on Use of On-Machine Vision Systems for the Agricultural and
Bio-Industries, September 3-6, Montpellier, pp. 61-68.
GUNASEKARAN, S.; COOPER, T.M.; BERLAGE, A.G.; KRISHNAN, P.; (1987), "Image
Processing for Stress Cracks", Transactions of the ASAE, Vol. 30(1):
266-271.
Bibliografía
410
HARRELL, R.C. (1987), "Economic Analysis of Robotic Citrus Harvesting in
Florida", Transactions of the ASAE, 30(2): 298-304.
HARRELL, R.C. (1991), "Processing of Color Images with Bayesian Discriminate
Analysis", I International Seminar on Use of On-Machine Vision Systems
for the Agricultural and Bio-Industries, September 3-6, Montpellier, pp.
11-20.
HARRELL, R.C.; ADSIT, P.D.; SLAUGHTER, D.C.; (1985), "Real Time Vision-surving
of a Robotic Fruit Harvester", ASAE, Paper No 85- 3550, St Joseph. MI
49085.
HARRELL, R.C.; ADIST, P.D.; POOL, T.; HOFFMAN, R.; (1990), "The Florida Robotic
Grove-Lab", Transactions fo the ASAE, Vol. 33(2): 391-399.
HARRELL, R.C.; ADIST, P.D.; SLAUGHTER, D.C.; POOL, T.; (1986), "Image
Enanchement in Robotic Fruit Harvesting", ASAE, Paper 86-3041.
HENDERSON, S.T.; (1977), Daylight and its Spectrum, John Wiley and Sons, New
York.
HO, J.; FUNT, B.V.; DREW, M.S.; (1990), "Separating a Color Signal into
Illumination and Surface Reflectance Components: Theory and Applications",
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 12,
No. 10, pp. 966-977.
HORN, B.K.P.; (1974), "Determining Lightness from an Image", Computer Graphics
and Image Processing, 3, pp. 277-299.
HORN, B.K.P.; (1977), "Understanding Image Intensities", Artificial Intelligence,
8(11):201-231.
HORN, B.K.P.; (1984), "Extended Gaussian Images", Proceedings of the IEEE, No.
12, pp. 1671-1686.
HORN, B.K.P.; & SJOBERG, R.W.; (1979), "Calculating the Reflectance Map", Appl.
Opt., Vol. 18(11): 1770-1779.
Bibliografía
411
HUNTER, R.S. & HAROLD, R.W. (1987), The Mesurement of Appearance, New
York. John Wiley & Sons, Inc.
JAIN, A.K.; (1989), Fundamentals of Digital Image Processing, Englewood Cliffs,
NJ. Prentice-Hall Inc.
JOHNSON, M.; (1985), "Automation in Citrus Sorting and Packing", In Proc. of
Agrimation. I Conference and Exposition, pp. 63-68. Chicago IL.
JUDD, D.B.; (1933), "The 1931 CIE Standard observer and Coordinate System for
Colorimetry", J. Opt. Soc. Am. 23:359-374.
JUSTE, F. (1990), "Estado Actual y Tendencias de la Tecnología Agraria en
España y en los Paises Desarrollados", Curso Automatización y Robotización
en la Agricultura, Universidad Internacional Menendez y Pelayo, Valencia
4-8 Junio.
JUSTE, F.; FORNES, I; PLÁ, F; MOLTÓ, E.; BLAY, F. (1991), "Primeros Resultados
en Campo de un Prototipo de Brazo Robotizado para la recolección de
Cítricos", XXIII Conferéncia Internacional de Maquinaria Agrícola, CIMA91,
pp. 433-440.
JUSTE, F.; SEVILA, F.; (1991), "CITRUS: An European Project to Study the
Robotic Harvesting of Oranges", IARP Workshop on Robotics in
Agriculture and Food Industry, Genova, Juny 17-18.
KANTHACK, R.; (1921), Tables of Refractive Indices, Hilger, London, Vol. II, App.
III.
KATZIR, N.; LINDENBAUM, M.; PORAT, M.; (1990), "Planar Curve Segmentation for
Recognition of Partially Occluded Shapes", IEEE Conference on Computer
Vision and Patter Recognition, CVPR’90, pp. 842-846.
KAWAMURA, N.; (1983), "Japan’s Technology Farm", Proc. 1st Int. Symp. on
Robotics and Intelligent Machines in Agriculture, ASAE Publ., 4-84: 52-62,
St. Joseph, MI.
Bibliografía
412
KELLEY, R.B. & FAEDO, W.; (1985), A First Look into Color Vision, Proc. of the
SPIE Conference, Sept. 16-20 1985, Cambridge. Massachusets. Intelligent
Robots and Computer Vision, 579:96-103.
KIM, Y.C.; & AGGARWAL, J.K.; (1987), "Positioning 3-D Objects Using Stereo
Images", IEEE J. Robotics and Automation, Vol. RA-3, No. 4, pp. 361-373.
KLINDER, G.J.; SHAFER, S.A.; KANADE, T.; (1988), "The Measurement of Highlights
in Color Images", International Journal of Computer Vision, 2, pp. 7-32.
KNOLL, T.F.; & JAIN, R.C.; (1986), "Recognizing Partially Visible Objects Using
Feature Indexed Hypotheses", IEEE Journal of Robotics and Automation,
Vol. RA-2, No. 1, pp. 3-13.
LAUD, E.H.; (1977), "The Retinex Thoery of Color Vision", Scientific American,
237:108-128.
LEE, H.; (1986), "Method for Computing the Scene-Illuminant Chromaticity from
Specular Highlight", J. Opt. Am. A., Vol. 3, No. 10, pp. 1694-1699.
LEE, H; BRENEAMAN, E.J.; SCHULTE, C.P.; (1990), "Modeling Light Reflection for
Computer Vision", IEEE Transactions on Pattern Analysis and Machine
Intelligende, Vol. 12, num. 4, pp. 402-409.
LEVI, P.; FALLA, R.; PAPPALARDO, R.; (1988), "Image Controlled Robotics Applied
to Citrus Fruit Harvesting", Procedures Rovisec-7, Ginebra.
LI, H.; LAVIN, M.A.; LE MASTER, R.J.; (1986), "Fast Hough Transform: A
Hierarchical Approach", CVGIP36, pp. 139-161.
LIU, H.; & SRINATH, M.D.; (1990), "Partial Shape Classification Using Contour
Matching in Distance Transformation", IEEE Transactions on Pattern
Analysis and Machine Intelligence, Vol. PAMI-12, No. 11, pp. 1072-1079.
MALONEY, L.T.; & WANDELL, B.A.; (1986), "Color Constancy: A Method for
Recovering Surface Spectral Reflectance", J. Opt. Soc. Am. A, Vol. 3, No.
1, pp. 29-33.
Bibliografía
413
MARAPANE, S.B.; & TRIVEDI, M.M.; (1989). "Region-Based Stereo Analysis for
Robotic Applications", IEEE Transactions on Systems, Man and Cybernetics,
Vol. 19, No. 6, pp. 1447-1464.
MARCHANT, J.A.; ONYANGO, C.M.; ELIPE, E.; (1990), "Computer Vision for Potato
Inspection Without Singulation", Computers and Electronics in Agriculture,
4, pp. 235-244.
MARR, D.; (1982), A Computational Investigation into the Human Representation
and Processing on Visual Information, W. H. Freeman and Company.
MARR, D.; & POGGIO, T.; (1979), "A Computational Theory of Human Stereo
Vision", Proc. Royal Soc., London, Vol. B204, pp. 301-328.
MAYHEW, J.E.W.; & FRISBY, J.P.; (1981), "Psychophysical and Computational
Studies towards a Theory of Human Stereopsis", Artificial Intelligence, Vol.
17, pp. 349-385.
MILLER, B.K.; DELWICHE, M.J. (1989), "A Color Vision System for Peach
Grading", Transactions of the ASAE. 32(4), 1484-1490.
MOLTÓ, E; (1991), Estudios Sobre Sistemas de Aprehensión y Detección de Frutos
para un Robot Recolector de Cítricos, Tesis Doctoral, Dpto. de Mecanización
Agraria, Universidad Politécnica de Valencia.
MOLTÓ, E; & HARRELL, R.C.; (1992), "Neural Network Classification of Sweet
Potato Embryos", Proceedings of the International Society for Optical
Engineering, Vol. 1836, In press.
MOLTÓ, E.; PLÁ, F.; JUSTE, F.; (1990), "Detection of Citrus Fruits by Vision
System in Robotic Harvesting", International Conference on Agricultural
Engineering, AGENG90, pp. 337-338.
MOKHTARIAN, F.; & MACKWORTH, A.; (1986), "Sclase-Based Description and
Recognition of Planar Curves and Two-Dimensional Shapes", IEEE
Transactions on Pattern Analysis and Machine Intelligence, Vol. PAMI-8,
No. 1, pp. 34-43.
Bibliografía
414
MUNDY, J.L.; (1977), "Automatic Visual Inspection", Proc. 1977 Conf. Decision
and Control, pp. 705-710.
MYERS, W.; (1980), "Industry Begins to Use Visual Pattern Recognition",
Computer, Vol. 13, num. 5, pp. 21-31.
NESS, Y.; (1989), A Computer Vision System for an Orange Harvesting Robot,
Unpublished M. Sc. Thesis, Department of Mechanical Engineering,
Technion-Israel Institute of Technology, Haifa, Israel.
NEVATIA, R.; (1977), "A Color Edge Detector and Its Use in Scene
Segmentation", IEEE Transactions on Systems Man and Cybernetics, Vol.
SMC-7, No. 11, pp. 820-826.
NEVATIA, R.; (1982), Machine Perception, Prentice-Hall, Inc., Englewood Cliffs, NJ
07632.
NIBLACK, W.; (1985), An Introduction to Digital Image Processing, Prentice Hall
International.
OHTA, Y.; KANADE, T.; SAKAI, T. (1980), "Color Information for Region
Segmentation", Computer Graphics and Image Processing, 13, pp. 222-241.
OVERHEIM, R.D. & WAGNER, D.L.; (1982), Light and Color, John Wiley & Sons.
New York.
PARRISH, E.A. & GOKSEL, A.K.; (1977), "Pictorial Pattern Recognition Applied to
Fruit Harvesting", Transactions of the ASAE, pp. 822-827.
PAULSEN, M.R.; LIAO, K.; REID, J.F.; (1992), "Real-Time Detection of Colour and
Surface Defects of Maize Kernels Using Machine Vision", International
Conference on Agricultural Engineering, AGENG92, Paper num. 9206 17.
PAULSEN, M.R. & MCCLURE, W.F.; (1986), "Ilumination for Computer Vision
Systems", ASAE. Paper No 85-3546. ASAE St Joseph. MI 49085.
PAVLIDIS, T.; (1978), "A View of Algorithms for Shape Analysis", Computer
Graphics and Image Processing. 7:243-258.
Bibliografía
415
PHONG, B.T.; (1975), "Illumination for Computer Generated Pictures",
Communications of the ACM, 18:311-317.
PRATT, W.K.; (1974), "Correlation Techniques of Image Registration", IEEE
Trans., AES-10,3.
PRATT, W.K.; (1991), Digital Image Processing, John Wiley and Sons, Inc., United
States of America.
QUINLAN, J.R.; (1986), "Induction of Decision Trees", Machine Learning, 1:81-108.
QUINLAN, J.R.; (1987), "Simplifying Decision Trees", Int. J. Man-Machine Studies,
27, pp. 221-234.
RABATEL, G.; (1988a), "A Vision System for Magali, the Fruit Picking Robot", Int
Conf on Agricultural Engineering, AGENG88, Paper 88293.
RABATEL, G.; (1988b), Localisation de Fruits en Environnment Naturel par
Segmentation d’Images Polychromes, Tesis doctoral, Université Bordeaux I.
RAUDYS, S.J.; & JAIN, A.K.; (1991), "Small Sample Size Effects in Statistical
Pattern Recognition: Recommendations for Practitioners", IEEE Trans.
Pattern Machine Intell., Vol. 13, No. 3, pp. 252-264.
REHKLUGER, G.E. & THROOP, J.A.; (1986), "Apple Sorting With Machine Vision",
Transactions of the ASAE. 29(5):1388-1397.
REHKUGLER, G.E.; THROOP, J.A. (1989), "Image Processing Algorithm for Apple
Defect Detection", Transactions of the ASAE. 32(1), 267-272.
RIDLER, T.W.; CALVARD, S.; (1978), "Picture Thresholding Using an Iterative
Selection Method", IEEE Trans. Sys. Man Cyber., Vol. SMC-8, pp. 630-632.
RIUTALA, M.W. & HSU, C.C.; (1968), "A Feature Detection Program for Patterns
with Overlapping Cells", IEEE Trans. on Sys. Su. and Cyb., SSC-4, Mar.
ROBERSTON, A.R. & FISHER, J.F.; (1986), Color Vision, Representation and
Reproduction , In Television Engineering Handbook, ed. K.B. Benson, New
York. McGraw-Hill Book Company.
Bibliografía
416
ROCHER, F. & KEISSLING, A. (1975), "Methods for Analyzing Three-Dimensional
Scenes", Proc. 4th Intl. Joint Conf. Artificial Intelligence, pp. 669-673.
RODRIGUEZ, J.J.; & AGGARWAL, J.K.; (1990), "Stochastic Analysis of Stereo
Quantization Error", IEEE Trans. Pattern Anal. Machine Intell., Vol. 12,
No. 5, pp. 467-470.
ROS, F.; (1991), La Detection des Fruits dans de Circonstances Naturelles, Diplôme
d’Etudes Aprofondies, Université de Montpellier II Sciences et Techniques
du Languedoc.
ROSENFELD, A.; KAK, A.C.; (1982), Digital Pictura Processing, Academic Press.
RUMELHART, D.E.; & McCLELLAND, J.L.; (eds.) (1982), Parallel Distributed
Processing: Exploration in the Microstructures of Cognition, Vol. I, MIT Press.
SANDINI, G.; FERRARI, F.; GROSSO, E.; MAGRASSI, M.; MASSA, M.; (1991), "Vision
Based Operations in Green Houses", II Workshop on Robotics in
Agriculture and Food Industry, Genova, June 17-18, pp. 95-103.
SARIG, Y.; (1990), "Robomation of Fruit Harvesting. Myths and Misconceptions",
Curso Automatización y Robotización en la Agricultura, Universidad
Internacional Menendez y Pelayo, Valencia 4-8 Junio.
SARIG, Y.; EDAN, Y.; KATZ, N.; FLASH, T.; (1988),"Some aspects of Robotics for
Fruit Picking", French-Israel Bi-National Symposium on Advanced Robotics,
Theory and Practice, Tel-Aviv, May 30-31.
SARKAR, N.; WOLFE, R.R.; (1985), "Feature Extraction Techniques for Sorting
Tomatoes by Computer Vision", Transactions of the ASAE, Vol. 28(3):
970-979.
SCHERTZ, C.E. & BROWN, G.K.; (1968), "Basic Considerations in Mecanizing Citrus
Harvest", Transactions of the ASAE. 11(2):343-346.
SEARS, F.W.; (1978),Fundamentos de Física. Vol. III Óptica, Ed. Aguilar.
Bibliografía
417
SERRA, J.; (1982), Image Analysis and Mathematical Morphology, Academic Press
Inc.
SEVILA, F.; (1990), "Elementos de Robótica Móvil", Curso Automatización y
Robotización en la Agricultura, Universidad Internacional Menendez y
Pelayo, Valencia 4-8 Junio.
SHAFER, S.A.; (1985), "Using Color to Separate Reflection Components", COLOR
Res. Appl., 10(4): 210-218.
SHIRAI, Y.; (1987), Three-Dimensional Computer Vision, Springer-Verlag Ed.
SITES, P.W.; DELWICHE, M.J.; (1988), "Computer Vision to Locate Fruit on a
Tree", Transactions of the ASAE. 31(1), 257-262.
SLAUGHTER, D.C.; (1987), Color Vision for Robotic Orange Harvesting, Ph. D.
Dissertation, Department of Agricultural Engineering, University of Florida.
SLAUGHTER, D.C.; HARRELL, R.C.; (1987), "Color Vision in Robotic Fruit
Harvesting", Transactions of the ASAE, Vol. 30(4): 1144-1148.
SLAUGHTER, D.C.; HARRELL, R.C.; (1989), "Discriminating Fruit for Robotic
Harvest Using Color in Natural Outdoor Scenes", Transactions of the
ASAE, Vol. 32(2): 757-763.
SPHARIM, I.; NAKAR, R.; (1987), "A Robot for Picking Oranges. A
Techno-economic Simulator", ARO, Bet Dagan, Israel (mimeo),
TAKEO, J.; & HACHIYAMA, S.; (1991), "New Technology on Stereo Vision for
Mobile Robots", Proceedings of the IEEE, pp. 1383-1391.
TAYLOR, R.W., REHKLUGER, G. E.; THROOP, J.A.; (1984), "Apple Bruise Detection
Using a Digital Line Scan Cammera System", Proc. of National Conference
on Agricultural Electronics Applications. ASAE. St Joseph. MI 49085.
THROOP, J.A.; REHKUGLER, G.E.; UPCHURCH, B.L.; (1989), "Application of
Computer Vision for Detecting Watercore in Apples", Transactions of the
ASAE, Vol. 32(6): 2087-2092.
Bibliografía
418
TOMINAGA, S.; (1990), "A Color Classification Method for Color Images Using a
Uniform Color Space", IEEE Conference on Computer Vision and Patter
Recognition, CVPR’90, pp. 803-807.
TORRANCE, K.E.; & SPARROW, E.M.; (1967), "Theory of off-Specular Reflection
from Roughned Surfaces", J. Opt. Soc. Amer., 57:1105-1114.
TURNEY, J.L.; MUDGE, T.N.; VOLZ, R.A.; (1985), "Recognizing Partially Occluded
Parts", IEEE Transactions on Pattern Analysis and Machine Intelligence,
Vol. PAMI-7, No. 4, pp. 410-421.
TUTTLE, E.G.; (1983), "Image Controlled Robotics in Agricultural Environments",
Proc. of the First International Conference on Robotics and Intelligent
Machines in Agriculture, Oct. 2-4, ASAE. St. Joseph, MI. pp. 84-95.
VAN DER STUYFT, E.; VAN BAEL, J.; GOEDSEELS, V.; BOSSCHAERTS, L.; (1991),
"Design of a Procedure Yielding a Standard Posture in Live Pigs for
Computer Vision-Based Exterior Shape Measurement", I International
Seminar on Use of On-Machine Vision Systems for the Agricultural and
Bio-Industries, September 3-6, Montpellier, pp. 91-102.
VERRI, A.; & TORRE, V.; (1986), "Absolute Depth Estimate in Stereopsis", J. Opt.
Soc. Amer., Vol. 3, pp. 297-299.
VICENS, M.; PELECHANO, J.; ARNAU, V.; CERVERON, V.; ALBERT, J.; FERRI, F.;
DOMINGO, J.; (1990), "Una Aproximación a la Localización de Frutos para
Recolección Automática", Actas del IV Simposium Nacional de
Reconcocimientos de Formas y Análisis de Imagen, Granada, 24-28
Septiembre, pp. 66-73.
WALLACE, T.P.; & WINTZ, P.A.; (1980), "An Efficient Three-Dimensional Aircraft
Recognition Algorithm Using Normalized Fourier Descriptors", Computers
Graphics Image Processing, Vol. 13, pp. 99-126.
WANDELL, B.A.; (1987), "The Synthesis and Analysis of Color Images", IEEE
Transactions on Pattern Analysis and Machine Intelligence, Vol. PAMI-8,
No. 1, pp. 2-13.
Bibliografía
419
WANG, R.; HANSON, A.R.; RISEMAN, E.M.; (1988), "Fast Extraction of Ellipses",
IEEE Conference on Computer Vision and Patter Recognition, CVPR’88,
pp. 508-510.
WATSON, D.F.; (1988), "Natural Neighbor Sorting on the n-Dimensional Sphere",
Pattern Recognition, Vol. 21, No. 1, pp. 63-67.
WECHSLER, H.; (1981), "A New and Fast Algorithm for Estimating Perimeter of
Object for Industrial Vision Tasks", Computer Graphics and Image
Processing. 17:375-385.
WENJUN, Z.; & YUANHUA, Z.; (1988), "An Improved Method for Shape from
Shading", IEEE Conference on Computer Vision and Patter Recognition,
CVPR’88, pp. 1106-1108.
WHITTAKER, A.D.; MILES, G.E.; MITCHELL, O.R.; GAULTNEY, L.D.; (1987), "Fruit
Location in a Partially Occluded Image", Transactions of the ASAE, Vol.
30(3), pp. 591-596.
WOLFE, R.R.; SANDLER, W.E.; (1985), "An Algorithm for Stem Detection Using
Digital Image Analysis", Transactions of the ASAE, pp. 641-644.
WYSZECKI, G.; & STILES, W.S.; (1967), Color Science, John Wiley & Sons, Inc.,
New York.
XIE, X.L.; & BERNI, G.; (1991), "Clustering Validity Based Image Segmentation for
IC Wafer Defects Recognition", IEEE Conference on Computer Vision and
Patter Recognition, CVPR’91, pp. 1404-1409.
XU, L.; OJA, E.; KULTAKEN, P.; (1990), "A New Curve Detection Method:
Randomized Hough Transform (RHT)", Pattern Recognition Letters, 11, pp.
331-338.
ZAHN, C.T. & ROSKIES, R.Z.; (1972), "Fourier descriptors plane closed curves",
IEEE Transactions on Computers. C-21, pp. 269-281.
Bibliografía
420
Lista de referencias derivadas de esta tesis
PLÁ, F.; MOLTÓ, F.; JUSTE, F.; (1990), "La Visión Artificial en la Recolección
Robotizada de Frutos", Fruticultura Profesional, Num. 32, pp. 56-64.
MOLTÓ, E., JUSTE, F.; PLÁ, F.; (1990), "Aplicación de las Técnicas de Análisis de
Imagen a la Recolección Robotizada de Cítricos", XXII Conferencia
International de Maquinaria Agrícola, CIMA90, Vol. I, pp. 289-297.
MOLTÓ, E.; PLÁ, F.; JUSTE, F.; (1990), "Detection of Citrus Fruits by Visión
Systems in Robotic Harvesting", International Conference on Agricultural
Engineering, AGENG90, Paper num. P.13.
PLÁ,F.; MOLTÓ, E.; JUSTE F.; (1991), "Vision en Color en Ambientes Naturales
para la Robótica Agrícola", XXIII Conferencia Internacional de Maquinaria
Agricola, CIMA91, Zaragoza, pp. 473-480.
PLÁ, F.; JUSTE, F.; MOLTÓ, E.; (1991), "An Approach to Citrus Vision Systems in
Robotic Harvesting", Proceedings of the Ist International Seminar of
On-Machine Vision Systems for Agricultural and Bio-Industries, Ed. G.
Rabatel, ISBN 2-85362-297-7, Montpellier, pp. 47-59.
MOLTÓ, E.; PLÁ, F.; JUSTE, F.; (1992), "Vision Systems for the Location of Citrus
Fruit in a Tree Canopy", J. Agric. Engng Res., Num. 52, pp. 101-110.
PLÁ, F.; FORNES, I.; JUSTE, F.; (1992), "Posibilidades de Detección de Frutos
Verdes en el Sistema de Visión del Robot ’Citrus’", Fruticultura Profesional,
Num. 50, pp. 21-28.
PLÁ, F.; JUSTE, F.; (1992), "Reconocimiento de Contornos Parcialmente Circulares
Utilizando Agrupamiento Jerárquico Aglomerativo", V Simposium Nacional
de Reconocimiento de Formas y Analisis de Imagen, Valencia, pp. 412-419.
PLÁ, F.; JUSTE, F.; FERRI, F.; VICENS, M.; (1992), "Colour Segmentation Based
on a Light Reflection Model to Locate Citrus Fruits for Robotic
Bibliografía
421
Harvesting", Computers and Electronics in Agriculture, Special Issue on
Machine Vision, Elsevier, In press.
PLÁ, F.; JUSTE, F.; FORNES, I.; (1992), "Visión del robot CITRUS en variedades
tempranas", XXIV Conferencia Internacional de Maquinaria Agricola,
CIMA92, Zaragoza, pp. 469-478.
PLÁ, F.; JUSTE, F.; FERRI, F.; (1992), "Feature Extraction of Spherical Objects in
Image Analysis. An application to Citrus Robotic Harvesting", Computers
and Electronics in Agriculture, Elsevier, In press.
PLÁ, F.; VICENS, M.; JUSTE, F.; (1992), "Color Segmentation to Locate Citrus
Fruits in Outdoor Scenes for Robotic Harvesting", IV Portuguese
Conference on Pattern Recongnition, Ed. H. Araujo y L. Viera de Sá,
ISBN 972-95745-0-2, Coimbra (Portugal), pp. 141-148.
JUSTE, F.; FORNES, I.; PLÁ, F.; SEVILA, F.; (1992), "An Approach to Robotic
Harvestign of Citrus in Spain", VII International Citrus Congres, Arcireale,
Paper num. 727.
Bibliografía
422