estudios de tÉcnicas de anÁlisis de imagen...

FACULTAT DE FISÍCA

Departament d’ Informàtica i Electrònica

ESTUDIOS DE TÉCNICAS DE ANÁLISIS DE

IMAGEN EN UN SISTEMA DE VISIÓN PARA LA

RECOLECCIÓN ROBOTIZADA DE CÍTRICOS

Tesis Doctoral

Filiberto Plá Bañón

València, 1993

A María Jesús ymis Padres

ÍNDICE

LISTA DE SÍMBOLOS

LISTA DE ABREVIATURAS Y ACRÓNIMOS

LISTA DE FIGURAS

LISTA DE TABLAS

INTRODUCCIÓN

1 La recolección robotizada 3

2 El proyecto CITRUS 6

I VISION ARTIFICIAL EN AGRICULTURA

I.1 Visión en ambientes controlados 10

I.2 Revisión de la literatura en sistemas de visión para recolección robotizada 12

II EL PROBLEMA DE LA RECOLECCIÓN ROBOTIZADA. OBJETIVOS

II.1 El sistema de visión y su problemática en la robótica de recolección 25

II.2 Propósito y objetivos de este trabajo 29

Primera Parte ESTUDIOS DE ANÁLISIS DE IMAGEN

Capítulo 1. ILUMINACIÓN Y ADQUISIDICÓN DE IMAGEN

1.1 Adquisición de imágenes mediante flashes 37

1.1.1. Sincronización 40

1.2 Modelo geométrico e irradiancia espectral imagen de los frutos 43

1.3 Experimentos y discusión 50

1.3.1 Toma de imágenes con flashes 50

1.3.2 Elipsoides 52

índice

II

Capítulo 2. CONCAVIDAD E IMÁGENES

2.1 Concavidad de la irradiancia imagen de una esfera 59

2.2 Operadores segunda derivada 62

2.3 La transformación Concavidad 63

2.4 Implementación 66


Capítulo 3. ELIPSODES E IMÁGENES

3.1 Ajuste de superficies 79

3.2 Elipses 80



Capítulo 4. CONTORNOS CIRCULARES

4.1 Segmentación del contorno 99

4.1.1 Codificación del contorno 100

4.1.2 La función curvatura 101

4.1.3 Criterio de segmentación 105

4.2 Agrupación de segmentos 107

4.3 La función distancia o función disimilitud 109

4.4 Evaluación de contornos parcialmente circulares 114



Capítulo 5. COLOR EN AMBIENTES NATURALES

5.1 Representación del color 131

5.1.1 Reflejos en la superficie de los objetos 131

5.1.2 Zonas de sombra en la superficie de los objetos 132

5.1.3 Iluminante y reflexión superficial. Haz de planos dicromáticos 134

5.1.4 Espacio de representación 136

5.2 Clasificación y segmentación 140

5.2.1 El color del iluminante y reducción de la dimensión 141

5.2.2 Representación y visualización 142

5.2.3 El clasificador y el aprendizaje 147

índice

III


5.5 Comprobación del método y discusión 157

5.5.1 Geodésicas en el espacio direccional 158

5.5.2 Segmentación de escenas naturales 163

5.5.3 Comparación con otros clasificadores 164

Capítulo 6. MEDIDAS DE DISTANCIA. ESTEREOSCOPIO

6.1 El sistema estereoscópico. Disposición geométrica 174

6.1.1 Sistema estereoscópico de ejes ópticos paralelos 175

6.1.2 Error en la medida de un sistema estereo de ejes ópticos paralelos 177

6.2 Correspondencia 179

6.2.1 Medida de similitud 181

6.2.2 Método de búsqueda de una región correspondiente 184


6.4 Experimentos y resultados 193

6.4.1 Precisión en el cálculo de la distancia 193

6.4.2 La correspondencia en escenas reales 195

Capítulo 7. ÁRBOLES BINARIOS DE CLASIFICACIÓN

7.1 Métodos de selección del árbol correcto 208

7.1.1 Selección por parada en el crecimiento del árbol 211

7.1.2 Selección por poda del árbol total 212

7.2 Construcción de árboles binarios de clasificación mediante un criterio selectivo

de crecimiento 216

7.2.1 El coste computacional en la construcción del árbol 217

7.2.2 Propiedades fundamentales de los árboles binarios de clasificación 217

7.2.3 El criterio de crecimiento 219

7.2.4 Elección del árbol correcto 221

7.2.5 Vuelta atrás y sucesiones alternativas 224

7.2.6 El algoritmo 226


índice

IV

Segunda Parte SISTEMA DE VISIÓN DEL ROBOT

Capítulo 8. SISTEMAS DE VISIÓN. MATERIALES

8.1 Sistema de adquisición de imágenes 240

8.2 Sistema de almacenamiento de imágenes 241

8.2.1 PIP-1024B 242

8.2.2 DT-2871 243

8.3 Sistema de proceso 244

8.4 Sistema de visualización 245

8.5 Software 246

Capítulo 9. SISTEMA DE VISIÓN. METODOLOGÍA

9.1 Estrategia de visión 249

9.1.1 Barrido de la imagen. Alternancia 249

9.1.2 Solapamiento. La redundancia 254

9.1.3 Gestión de fallos 255

9.1.4 Racimos 259

9.1.5 Procedimientos locales 261

9.2 El reconocimiento de los frutos 263

9.3 Reconocimiento y localización por color 265

9.3.1 La segmentación 266

9.3.2 El etiquetado. Cálculo del área 266

9.3.3 Identificación de frutos en racimos 270

9.3.4 Análisis del contorno. Búsqueda del centro geométrico 271

9.3.5 Localización espacial 272

9.3.6 El algoritmo de reconocimiento y localización por color 274

9.4 Reconocimiento basado en características relativas a la forma 279

9.4.1 Segmentación 281

9.4.2 Extracción de características 282

9.4.3 Clasificación 285

9.4.4 Localización espacial 286

índice

V

Capítulo 10. RESULTADOS Y DISCUSIÓN

10.1 Índices de control 289

10.2 Ensayos del sistema de visión integrado en el robot 292

10.3 Método de reconocimiento por color 298

10.3.1 Naranjas con iluminación natural 298

10.3.2 Naranjas con iluminación artificial 312

10.3.3 Manzanas de la variedad Granny Smith con iluminación artificial 320

10.3.4 Manzanas de la variedad Gala con iluminación artificial 325

10.4 Método de reconocimiento basado en características relativas a la

forma de los frutos 326

CONCLUSIONES

CONCLUSIONES 347

APÉNDICES

Apéndice A. RADIOMETRÍA Y FONOMETRÍA. CONCEPTOS BÁSICOS

A.1 Magnitudes radiométricas 357

A.2 Magnitudes fotométricas 358

Apéndice B. CÁMARAS CCD

Apéndice C. ÁRBOLES BINARIOS DE CLASIFICACIÓN

C.1 Árboles binarios de clasificación. Conceptos y formulación 366

C.2 Construcción de árboles de clasificación 367

C.2.1 El conjunto de cuestiones estándar y la regla de generación

de particiones 370

C.2.2 La asignación de clases y la estimación del error de restitución 372

C.3 Ventajas e inconvenientes de los árboles de clasificación 373

C.4 Estimación del error de clasificación 375

índice

VI

Apéndice D. ÁRBOLES BINARIOS DE CLASIFICACIÓN

D.1 Convolución digital 384

D.2 Filtros de suavizado 385

D.3 Filtros de realce y extracción de bordes 386

D.4 Operadores de Marr o el “sombrero mejicano” 387

Apéndice E. COLOR

E.1 Modelo de reflexión de la luz 391

E.1.1 El fenómeno físico de la reflexión 391

E.1.2 El modelo de reflexión dicromático 394

E.1.2 Integración del espectro y medida de color de la luz 397

E.2 Colorimetría 399

E.2.1 Generalización tricromática 400

E.2.2 Espacios de color 402

E.2.3 El color en las señales de video 403

BIBLIOGRAFÍA BIBLIOGRAFÍA 407

LISTA DE SÍMBOLOS

a radio menor de una elipse;

A coste computacional de un acceso a memoria;

área de una región en la imagen;

Aj subconjunto que forma parte de una partición del espacio χ;

b radio mayor de una elipse;

distancia de base entre los ejes ópticos de un sistema

estereoscópico;

B(λ) proporción de potencia espectral reflejada por el cuerpo de

un objeto;

c(λ) distribución espectral de un flujo radiante;

cs(λ) distribución de la potencia o flujo espectral radiante

procedente de la superficie de un objeto;

cb(λ) distribución de la potencia o flujo espectral radiante

procedente del cuerpo de un objeto;

C coste computacional total;

conjunto de clases posible de una muestra;

C(i,j) coste de clasificar erróneamente un objeto de la clase j

como perteneciente a la clase i;

Cf integración de la luz en una cámara con el filtro f;

C(x,y) vector de color en un punto del plano imagen o del sensor;

Cs color de la distribución de potencia espectral de la

superficie de un objeto;

Cb color de la distribución de potencia espectral del cuerpo de

un objeto;

C(x,y) valor de la transformación concavidad de un punto de la

imagen (x,y);

d diámetro de la pupila de entrada de un sistema óptico;

disparidad de dos puntos correspondientes en sendas

imágenes estéreo;

medida de disimilitud entre dos regiones en la imagen;

de error del emparejamiento de un conjunto de segmentos

circulares con una circunferencia ideal;

dS diferencial de área;

d ⁄ dx diferencial respecto a la variable x;

d(si,sj) distancia o disimilitud entre el segmento si y el sj;

d(x) función de clasificación o clasificador el elemento de

características x;

dB(x) clasificador de Bayes sobre el vector de medidas x;

D distancia máxima permitada durante el agrupamiento de

segmentos;

e error de un ajuste;

E irradiancia;

El iluminancia o iluminación;

Ei irradiancia incidente en un punto;

Eni irradiancia incidente debida a la luz natural;

Eai irradiancia incidente debida a la luz artificial suplementaria;

Ep irradiancia espectral de la imagen;

f focal de una lente;

fr función de distribución de reflectancia bidireccional;

f(ri) nivel de gris de la imagen del punto ri en la dirección r;

F flujo luminoso;

Fλ flujo espectral luminoso;

g(x) polinomio de grado m de la variable x;

G(r) función Gausiana;

G(ω) transformada de Fourier de la función G(r);

Hωj(αi) histograma de los valores αi que toma un conjunto de

muestras de la clase ωj;

Lista de símbolos

X

i(t) medida de impuridad del nodo t;

I(T) impuridad total del árbol T;

I Intensidad radiante;

Il intensidad luminosa de una fuente puntual;

I(x,y) nivel de gris de una imagen en la posición (x,y);

J número de clases posibles dentro de un conjunto C;

k(l) curvatura en un punto del arco de la curva l;

km curvatura mínima;

K constante de proporcionalidad;

l arco de una curva;

lx longitud de un segmento en la dirección x;

ly longitud de un segmento en la dirección y;

lr longitud de un segmento cóncavo en la dirección r;

L radiancia;

coste computacional de una operación lógica;

longitud total de los segmentos de un conjunto SE;

conjunto de clases posible de una muestra;

conjunto de muestras de aprendizaje;

L1 subconjunto del conjunto de aprendizaje L para construir un

clasificador d;

L2 subconjunto del aprendizaje L para estimar el error de un

clasificador d;

Ls radiancia procedente de la superficie de un objeto;

Lb radiancia procedente del cuerpo de un objeto;

Lr radiancia reflejada en un punto;

m pendiente de una recta;

m→ vector en la dirección a la tangente de un punto en una

curva;

ms(θi,ϕi;θr,ϕr) factor de escala debido a la reflexión en la superficie;

mb(θi,ϕi;θr,ϕr) factor de escala debido a la reflexión en el cuerpo de un

objeto;

Lista de símbolos

XI

M coste computacional de una multiplicación;

exitancia radiante;

Ml exitancia luminosa;

ncr(x,y) longitud digital de un segmento cóncavo en la dirección r ;

nj número total de muestras de la clase ωj en el conjunto de

aprendizaje L ;

N número total de puntos de los segmentos de un conjunto SE;

número total de muestras de un conjunto de aprendizaje L ;

Nr número de puntos de una circunferencia digital de radio r;

número de puntos o área de una región en una imagen

digital;

Nm número total de muestras del conjunto de aprendizaje L ;

número de píxels de la región que forma una máscara;

NC número de píxels coincidentes en una intersección de

regiones;

N(t) número de elementos en total dentro de un nodo t;

Nj número total de muestras de la clase j en el conjunto L ;

Nj(t) número de elementos de la clase j dentro del nodo t;

p(j| t) probabilidad de que un caso de una clase j dada, esté en el

nodo t;

p(j,t) probabilidad de que un caso sea de la clase j y esté en el

nodo t;

p(t) probabilidad de que un caso cualquiera se encuentre en el

nodo t;

pi(α) densidad de probabilidad condicional de que un punto tome

el valor de la variable aleatoria α siendo de la clase ωi;

P longitud del perímetro o contorno de una región;

Pi probabilidad a priori de una clase ωi;

P(r) peso asignado a la dirección r;

qi(α) probabilidad a posteriori de que un elemento sea de la

clase ωi teniendo un valor dado de la variable aletaoria α;

Lista de símbolos

XII

Q conjunto de cuestiones en un nodo de un árbol;

r distancia de la fuente de luz a un punto sobre la superficie

del objeto;

dirección en el plano xy;

radio de una circunferencia;

r0 origen de los puntos en la dirección r;

(rx,ry) coordenadas del centro de una circunferencia;

r(α) error condicional debido a una decisión;

r(t) error de restitución del nodo t;

(r,g,b) coordenadas de un vector de color en el espacio RGB;

coordenadas cromáticas del espacio RGB;

R(T) error de restitución del árbol T;

R(d) error de restitución del clasificador d;

Rts(T) error estimado del árbol T por test de muestras;

Rts(d) error estimado del clasificador d por test de muestras;

Rcv(T) error estimado del árbol T por validación cruzada;

Rcv(d) error estimado del clasificador d por validación cruzada;

R̂(T) error estimado del árbol T;

R ∗ (d) error real de un clasificador d;

RB error de Bayes o error del clasificador de Bayes dB(x);

R radio de una esfera;

respuesta de un sensor;

Rk sensibilidad espectral del sensor K;

(R,G,B) coordenadas de un vector de color C en el espacio RGB;

s posible partición de elementos del nodo t;

s∗ partición óptima en un nodo;

s(λ) sensibilidad espectral de una cámara;

si segmento i de un conjunto e segmentos SE;

S coste computacional de una suma;

conjunto de particiones posibles de un nodo t;

S(λ) proporción de potencia espectral reflejada por la superficie

de un objeto;

Lista de símbolos

XIII

Sr conjunto de direcciones r del plano xy;

| Sr| talla o número de elementos del conjunto Sr;

SE conjunto de segmentos de curvas;

error estándar;

t nodo de un árbol T;

tL nodo izquierdo hijo de un nodo t;

tR nodo derecho hijo de un nodo t;

T árbol binario de clasificación;

T~ conjunto de nodos terminales de un árbol T;

Vk respuesta o señal del sensor k;

Vλ eficiencia espectral luminosa;

x vector de características o medidas;

(x,y) coordenadas de un punto en la imagen con origen en el

extremo superior izquierdo;

xi segmento circular i;

x,y,z coordenadas cartesianas;

coordenadas cromáticas CIE triestímulo;

x′ ,y′ coordenadas cartesianas en el plano imagen con origen en

el centro de la imagen;

(xa,ya) coordenadas del extermo anterior de una cuerda sobre una

curva;

(xn,yn) coordenadas del extremo posterior de una cuerda sobre una

curva;

(xL ,yL) coordenadas en el plano imagen de la cámara izquierda;

(xR,yR) coordenadas en el plano imagen de la cámara derecha;

(xN,jN) muestra N de vector de medidas xN y perteneciente a la

clase jN;

α ángulo entre la dirección de observación y el eje óptico;

ángulo del segmento formado entre un punto en el espacio

ϕθ y el punto del iluminante (ϕ0,θ0);

ángulo polar de un punto en el plano RG, RB o GB;

Lista de símbolos

XIV

α1 umbral izquierdo en el parámetro α;

αl umbral izquierdo en el parámetro α;

α2 umbral derecho en el parámetro α;

αr umbral derecho en el parámetro α;

β ángulo entre la dirección incidente y la normal al punto de

la superficie;

δ intervalo de muestreo de la imagen;

δ ⁄ δr derivada parcial respecto a la variable r;

ε número que tiende a cero;

error de Bayes de una decisión;

error de rango relativo;

ϕi coordenada esférica ϕ de la dirección incidente;

ϕr coordenada esférica ϕ de la dirección reflejada;

Φ flujo radiante;

λ longitud de onda;

π número pi, 3,14159;

Π( j) probabilidad a priori de la clase j;

σ desviación típica;

τk transmitancia espectral de un filtro k;

ω frecuencia;

ωi ángulo sólido en la dirección incidente;

clase o etiqueta asignada a una muestra;

ωr ángulo sólido en la dirección reflejada;

χ espacio de medida;

θ,ϕ coordenadas ángulares esféricas;

θi coordenada esférica θ de la dirección incidente;

θr coordenada esférica θ de la dirección reflejada;

θ(l) ángulo de la pendiente de una curva en el punto l;

Lista de símbolos

XV

LISTA DE ABREVIATURAS

Y ACRÓNIMOS

ABREVIATURAS

etc etcétera

et al y colaboradores

& y

% tanto por cien

UNIDADES

dcd candela

hz hercios

Mhz Megahercios

lm lumen

lx lux

m metros

m2 metros cuadrados

mm milímetros

nm nanómetros

rd radianes

s segundos

ms milisegundos

w vatios° grados angulares°K grados Kelvin

ACRÓNIMOS

A/D Analógico/Digital

AID Agricultural Industrial Development

ASCII American Standard Code for Information Interchange

BSRDF Bidirectional Spectral Reflectance Distribution Function

CCD Charge Coupled Device

CEMAGREF Centre National de Machinisme Agricole des Eaux et des Fôrets

CIE Commission International de l’Eclairage

D/A Digital/Analógico

E/S Entrada/Salida

IHS Intensity, Hue, Saturation

IVIA Instituto Valenciano de Investigaciones Agrarias

LUT Look Up Table

NTSC National Television Systems Committees

PAL Phase Alternation Line

PC Personal Computer

RAM Ramdom Acces Memory

RGB Red, Green, Blue

SE Standard Error

Lista de abreviaturas y acrónimos

XVIII

LISTA DE FIGURAS

I.1 Organización de los módulos del robot 25

1.1 Geometría de la imagen 38

1.2 Señal de referencia y tiempos de sincronización del disparo 41

1.3 Iluminación de un objeto esférico 46

1.4 Coordenadas cartesianas y esféricas de un punto sobre la esfera 48

1.5 Imagen de frutos con iluminación natural 51

1.6 Misma escena que la imagen de la figura 1.6 tomada con sistema de

iluminación de flash 51

1.7 Variación de la reflexión superficial y difusa en función del ángulo de

incidencia 53

1.8 Representación 3D de los valores de una imagen de naranjas 54

1.9 Representación de los niveles de gris de una fila de una imagen de

naranjas 55

2.1 Ejes de coordenadas en la imagen 66

2.2 Imagen de una naranja entre objetos comunes 69

2.3 Transformación concavidad de la figura 2.2 69

2.4 Imagen de una escena de naranjas 70

2.5 Trasformación concavidad de la figura 2.4 70

2.6 Puntos de la figura 2.2 cuyo resultado es negativo al aplicar el

"sombrero mejicano" 72

2.7 Puntos de la figura 2.4 cuyo resultado es negativo al aplicar el

"sombrero mejicano" 72

2.8 Segmentación por umbral a partir de la transformación concavidad

de la figura 2.3 74

2.9 Segmentación por umbral a partir de la transformación concavidad

de la figura 2.5 74

3.1 Corte de un elipsoide por un plano perpendicular al plano xy 81

3.2 Imagen de una escena de naranjas tomada con flash 89

3.3 Arriba, puntos resultado del ajuste. Abajo, puntos del ajuste

superpuestos sobre imagen original 90

3.4 Arriba, puntos resultado del ajuste con máscara variable. Abajo,

puntos del ajuste superpuestos sobre imagen original 91

3.6 Representación del ajuste de los puntos ri del entorno del punto r0 92

3.5 Representación de los niveles de gris de una fila de la imagen

que corta a un fruto 93

4.1 Curvatura de una circunferencia ideal en el plano digital 102

4.2 Imagen de distancias al punto central 112

4.3a Imagen binaria de galletas 120

4.3b Reconstrucción de 4.3a utilizando el método de minimización como

función disimilitud 120

4.3c Reconstrucción de 4.3a utilizando la imagen de distancias como


4.4a Imagen binaria de galletas 120

4.4b Reconstrucción de 4.4a utilizando el método de minimización

como función disimilitud 120



4.5a Imagen binaria de una escena de naranjas 122












Lista de figuras

XX




5.1 Haz de planos dicromáticos en el espacio RGB 135

5.2 Corte de la esfera direccional por un plano dicromático 138

5.3 Ángulo α de un punto Pi en el plano XY 142

5.4 Espacio direccional ϕθ con un conjunto de curvas dicromaticas

que cruzan el iluminante P0 situado en el color blanco 144

5.5 Representación de colores de puntos sobre dos objetos reales en el

espacio ϕθ 145

5.6a Histograma de la variable & de los colores de una clase 152

5.6b Histograma de la figura 5.6a con origen de la variable α en la

media de la disribución 152

5.6c Histograma auxiliar a partir de la figura 5.6b para calcular el

umbral derecho α2 152

5.7 Partición del espacio ϕθ en tres clases de color 153

5.8 Representación en el espacio ϕθ de los colores de bolas que

aparecen en la figura 5.9 158

5.9 Imagen de bolas de color uniforme iluminadas con luz

fluorescente del laboratorio. Entre ellas aparece un objeto

metálico de superficie cilíndrica 159

5.10a Imagen de una escena de naranjas con iluminación natural 160

5.10b Segmentación de la imagen de la figura 5.10a por el método

desarrollado 160


5.11b Segmentación de la imagen de la figura 5.11a por el

método desarrollado 161


5.12b Segmentación de la imagen de la figura 5.12a por el

método desarrollado 162

5.13 Conjunto de prototipos utilizados en el clasificador por el vecino

más próximo 165

Lista de Figuras

XXI

6.1 Sistema estereoscópico 174

6.2 Rectas epipolares en un sistema estereoscópico de ejes

ópticos paralelos 175

6.3 Sistema de ejes coordenados en un sistema estereoscópico

de ejes ópticos paralelos 176

6.4a Máscara construida a partir de una región en la imagen izquierda 182

6.4b Imagen binaria 183

6.4c Matching con una región 183

6.6 Situación relativa de puntos correspondientes 186

6.7 Franja de búsqueda de región correspondiente 187

6.8 Desplazamiento de la máscara a través de la franja 188

6.9 Representación de los valores experimentales de las distancias

estimadas por el sistema estereoscópico en función de la

distancia real 194

6.10a Imagen izquierda de una escena de naranjas 196

6.10b Imagen derecha de la misma escena de la figura 6.10a 196

6.10c Imagen binaria de la figura 6.10a con sus correspondientes de

la imagen de la figura 6.10d 196

6.10d Imagen binaria de la figura 6.10b con sus correspondientes de

la imagen de la figura 6.10c 196













Lista de figuras

XXII

6.13 Caso en que el punto esté situado entre ambos ejes ópticos 200

6.14 Caso en que el punto esté situado a la izquierda del eje

óptico izquierdo 201

6.15 Caso en que el punto esté situado a la derecha del eje

óptico derecho 203

7.1 Variación del error de restitución, R(Tk), y del error estimado

real, R̂(Tk), de los árboles Tk, en función del número de nodos

terminales | T~k| 209

7.2 Evolución del error estimado de la sucesión de árboles por el

método BR y ME 235

8.1 Esquema de la tarjeta PIP-1024B 242

8.2 Esquema de la tarjeta DT-2871 244

8.3 Equipo de análisis de imagen para ensayos en el campo 245

9.1 Sectores y caminos alternos en la imagen 250

9.2 Solapamiento de escenas en dirección vertical 254

9.3 Racimo de naranjas 260

9.4 Geometría de la dirección del punto del espacio objeto en un

sistema óptico 272

9.5 Relación entre los ángulos ϕ y ϕ′ según el cuadrante donde

se encuentren los puntos objeto, P, e imagen P′ 273

9.6 Proyección de un plano dicromático sobre el plano RG 275

9.7 Ángulos α de un punto (r,g) en el plano RG 276

10.1 Sistema de visión instalado en el brazo del prototipo 293

10.2 Muestras en el espacio ϕθ representando al conjunto de

aprendizaje utilizado. Los puntos de la clase 1 son las naranjas,

los de la clase 2 las hojas, y la clase 3 representa al cielo 301

10.3a Imagen de una escena de frutos con iluminación natural 307

10.3b Resultado del algoritmo de reconocimiento sobre la imagen 10.3a 307





Lista de Figuras

XXIII



10.7 Muestras en el espacio ϕθ que representan al conjunto de

aprendizaje utilizado. Los puntos de la clase 1 son las naranjas,

los de la clase 2 las hojas 313

10.8a Imagen de una escena de frutos con iluminación artificial 315



10.9b Resultado del algoritmo de reconociminto sobre la imagen 10.9a 316





10.12 Muestras en el espacio ϕθ representando al conjunto de

aprendizaje utilizado. Los puntos de la clase 1 son las

manzanas Granny Smith, los de la clase 2 las hojas, y la

clase 3 el cielo 321





10.15 Muestra en el espacio ϕθ representando al conjunto de

aprendizaje utilizado. Los puntos de la clase 1 son las

manzanas Gala , y los de la clase 2 las hojas 325





10.18 Partición de los conjuntos de muestras de aprendizaje 331

10.19a Imagen de una escena de naranjas verdes con iluminación artificial 339

10.19 Resultado del algoritmo de reconocimiento sobre la imagen 10.19a 339

10.20 Imagen de una escena de naranjas verdes con iluminación artificial 340

Lista de figuras

XXIV






B.1 Sensor de exploración de linea 362

B.2 Sensor matricial 362

C.1 Intervalos de confianza entre para el error estimado 379

D.1 Operador "sombrero mejicano" unidimensional 389

E.1 Reflexión de la luz en un material dieléctrico 391

E.2 Geometría de los rayos incidente y reflejado 395

E.3 Plano dicromático en el espacio RGB 399

Lista de Figuras

XXV

LISTA DE TABLAS

5.1 Resultado de los diferentes clasificadores sobre los conjuntos de

muestras de color en el espacio ϕθ 166

7.1 Resultado de los árboles binarios sobre el conjunto de muestras

de color 232

7.2 Resultado de los árboles binarios sobre el conjunto de muestras

de 7 dimensiones 232

10.1 Resultados del algoritmo de reconocimiento basado en la

utilización de un filtro interferométrico de 650 nm 94

10.2 Resultado de los ensayos con el prototipo 294

10.3 Resultados de la aplicación del método de reconocimiento basado

en color, sobre naranjas, en condiciones de iluminación natural 304


en color, sobre naranjas, en condiciones de iluminación artificial 314


en color, sobre manzanas Granny Smith, en condiciones de

iluminación artificial 322

10.6 Resultado de la clasificación de las muestras del conjunto Lt 332

AGRADECIMIENTOS

Expresar en primer lugar mi agradecimiento al Instituto Valenciano de

Investigaciones Agrarias, donde se ha realizado este trabajo, por el uso

incondicional de sus equipos e instalaciones.

A los directores de esta tesis, D. Florentino Juste Pérez, por su dedicación,

orientación e inestimable apoyo, y D. Marcelino Vicens Lorente, por sus valiosos

consejos y orientación en la realización de este trabajo.

A Enrique Moltó García, sobre todo por el ánimo y anhelo que ha

infundido en la realización de este trabajo.

A Francesc Ferri Rabasa, por su sincero apoyo y colaboración, sobre todo

en los momentos difíciles.

A José Luís Alventosa García, por sus consejos en la edición de este

trabajo.

A Inmaculada Fornes Chulia, por su ayuda y colaboración, principalmente

en los montajes experimentales.

A mis compañeras y compañeros del IVIA, quienes han aportado su ayuda

cuando era necesaria, y sobre todo por su calor y compañerismo, con los que ha

sido un placer trabajar.

A Industrias Albajar S.A., empresa española titular del proyecto CITRUS,

con la que se ha colaborado en el desarrollo de este trabajo.

Asimismo, a todos los participantes del proyecto EUREKA

"CITRUS-ROBOT".

En fin, a todos cuantos han colaborado, de una forma o de otra, en la

realización de este trabajo, cuyo anonimato no les resta importancia.

INTRODUCCIÓN

Desde la década de los 70, el proceso digital de imágenes comienza a

adquirir un gran auge y a integrarse en diversas facetas de la tecnología. La

visión artificial es una disciplina que surge en robótica con el fin de realizar

tareas en las que se precisa un mayor grado de conocimiento del entorno para

tomar decisiones de una manera mas próxima a como las realizaría un ser

humano.

La visión artificial integra a su vez la electrónica y el análisis digital de

imágenes. La electrónica como soporte físico del sistema, materializado en

cámaras de video como sensores físicos, fuentes de iluminación, sistemas

electrónicos de conversión analógico/digital para transformar la información con

objeto de ser tratada mediante un ordenador, etc. Por otra parte, son tareas

específicas del proceso digital de imágenes la metodología y las técnicas a

utilizar para el proceso de los datos de la escena para un análisis e

interpretación de los mismos.

El campo de aplicación del proceso digital de imágenes no sólo se limita al

análisis de información para máquinas y automatismos, sino también en la

mejora y tratamiento de imágenes para una mejor visualización de éstas de cara

a una interpretación humana, o la codificación de las imágenes para

transferencias de información rápidas y fiables. Como ejemplo de todos estos

campos de aplicación podríamos citar el reconocimiento y localización de objetos

para su manipulación automática, el proceso de imágenes para una mejora de su

visualización en radiografías médicas, u otros tipos de imágenes fuera del

espectro visible, como imágenes de infrarrojos o imágenes en el campo de la

astronomía, imágenes de satélite, codificación y transmisión de imágenes tomadas

por satélites, videoteléfono, mejora y restauración por tratamiento de posibles

ruidos en la imagen a causa de una deficiente iluminación o por ruidos en el

canal de transmisión, etc.

La aplicación que nos ocupa en este trabajo es el desarrollo de técnicas de

análisis digital de imágenes dentro del sistema de visión artificial en un robot,

en este caso un robot recolector de frutos. Aunque la implantación de estas

técnicas ha tenido su mayor exponente hasta el momento en robots o sistemas

automáticos en el sector industrial, comienzan a introducirse en estos momentos

en el sector agrícola.

El agrícola es un sector en crisis en nuestros días. La superproducción

debida al incremento de productividad, unido al aumento de la extensión de

zona cultivable, exige una reconversión de este sector, pasando por una mejor

planificación en la producción agrícola, adaptando las explotaciones para una

automatización de las tareas que allí se desarrollan.

Las nuevas tecnologías se han introducido con fuerza en cierto tipo de

cultivos que se realizan en ambientes artificiales y bajo condiciones controladas

(invernaderos, cultivos en sustratos artificiales, aportación controlada de

nutrientes, etc), pero la mayoría de cultivos se realizan en ambientes naturales

donde la automatización no es tan evidente. Hoy en día, todas las tareas del

proceso de producción de la mayoría de los cultivos están mecanizadas o

automatizadas en mayor o menor medida; sin embargo, dadas las especiales

características de la recolección de frutas y hortalizas para consumo en fresco,

aún no ha sido posible aplicar estas técnicas en estos productos.

En la actualidad se está trabajando con gran intensidad en el desarrollo de

sensores que permitan un cambio en estos sistemas mecanizados hacia una

automatización; así, se están desarrollando sistemas informatizados para el control

de máquinas agrícolas, explotaciones ganaderas, redes de riego, etc. La aplicación

de la robótica, aunque ya empieza a estar presente en algunos sectores agrícolas,

sigue evolucionando con investigaciones y programas de desarrollo muy activos.

La mayoría de estos programas se encuentran en estado experimental y los

primeros resultados apuntan a su imposición en un futuro próximo.

La recolección de frutas y hortalizas es uno de los sectores en que el salto

tecnológico entre la mecanización clásica, a base de maquinaria para una

recolección masiva, y los procesos de automatización pueden estar más próximos.

Desde 1970 han sido muy numerosos los intentos realizados en el mundo para

Introducción

2

tratar de mecanizar esta operación de recolección. Así, se han empleado sistemas

vibratorios, sistemas mecánicos de extracción, neumáticos, etc. Todos estos

sistemas basados en el principio de una recolección masiva tampoco han dado

los resultados esperados debido a los daños producidos en la fruta. Algunos

ensayos basados sobre una recolección selectiva como el sistema de dedos

flexibles o el de cañones extractores, tampoco han dado los resultados esperados.

La recolección mecánica con air blowers o vibradores, con un tratamiento

químico complementario, no han superado el estado experimental incluso en

paises donde la producción no está supeditada principalmente a evitar daños en

los árboles y los frutos.

Como alternativa de investigación, institutos e industrias están llevando a

cabo estudios de viabilidad y desarrollo de prototipos de máquinas recolectoras

robotizadas, con mayor incidencia en el sector hortofrutícola (tomates, manzanas,

etc.) y los cítricos.

1 La recolección robotizada

El reto tecnológico de los robots recolectores comparado con los robots

industriales, los distingue en ciertos problemas específicos:

- Operatividad en ambientes naturales, en condiciones de iluminación y

otros factores incontrolados.

- Búsqueda de objetos en condiciones de visibilidad desfavorables, ocultos

por obstáculos.

- Tiempo de ciclo por fruto muy cortos, alrededor del segundo o dos

segundos por fruto.

- Variedad de frutos (color, tamaño, etc).

- Variedad de estructuras y formas del árbol.

- Necesidad de un vehículo de guiado automático en un entorno

incontrolado.

- Posibilidad de experimentación del prototipo un corto plazo de tiempo al

año, dependiendo de la época de recolección.

Introducción

3

Aunque existe una gran disparidad de conclusiones en estudios económicos

realizados (Harrell, 1987; Moltó, 1991), incluso quienes concluyen la inviabilidad

de un robot recolector de frutos (Spharim & Nakar, 1987), lo cierto es que

desde finales de los años 70, en que se realizaron las primeras investigaciones

sobre la posibilidad de aplicar la robótica a la recolección de frutos (Parrish &

Goksel, 1977), se han sucedido los estudios y los proyectos para el diseño de un

robot recolector de frutos. Algunos de éstos se han quedado en estudios aislados

para la concepción de un prototipo real, como los llevados a cabo en Israel

(Sarig et al, 1988; Ness, 1988; Edan et al, 1990); o en prototipos de laboratorio

(Kawamura, 1983); pero, desde mediados de los 80, se empieza a pensar

decididamente en la posibilidad de realizar una recolección selectiva y dirigida

mediante un sistema robotizado. Así el ’Centre National de Machinisme Agricole

des Eaux et des Forêts’ (CEMAGREF) de Montpelier, la Universidad de Florida

y varios centros de Japón inician proyectos en este sentido.

De 1983 a 1986 se inició una fase de investigación en forma de proyecto

interno en el CEMAGREF, la construcción de un prototipo de robot en

laboratorio para la recolección de manzanas. En 1986, el CEMAGREF se asoció

con una empresa de maquinaria agrícola y con otros dos laboratorios para la

construcción del prototipo, el MAGALI. Este fue el primer robot en el mundo

para la recogida automática de frutos que operó en el campo. Los buenos

resultados de los ensayos realizados en 1988 en todo tipo de plantaciones

representativas de la producción de manzanas en Francia, permitieron una

extensión del programa de mejoras y la construcción de un segundo prototipo.

La idea fundamental de este robot (Grand D’Esnon et al, 1987) consistía

en una cámara situada en la base del brazo, concretamente en el centro

coordenadas de éste, desde donde si el fruto era visible, la trayectoria rectilínea

desde la cámara al fruto estaba libre de obstáculos. Una vez enviado el brazo a

lo largo de esta trayectoria, un sensor situado en la mano del brazo le

informaba de la proximidad del fruto para que el brazo fuera frenado. Este

procedimiento evitaba tener que determinar de antemano la tercera dimensión, o

sea, la distancia entre la cámara y el fruto. Esta estructura permitía trabajar al

robot en coordenadas esféricas, encontrándose la cámara en el centro de la

Introducción

4

esfera de acción descrita por los movimientos del robot. El diseño del brazo era

de tipo pantógrafo, en el que el eje de extensión articulado se gobernaba por un

ángulo. El robot también estaba provisto de un elevador que le pemitía barrer la

superficie de los árboles a todas las alturas. Finalmente, la máquina estaba

colocada sobre un vehículo autónomo guiado automáticamente a través del

cultivo.

En 1986, el ’Agricultural Industrial Development’ (AID) SpA de Catania

(Italia) y la Universidad de Florida (Estados Unidos) iniciaron un proyecto para

desarrollar un robot recolector de cítricos. Fruto de esta cooperación fueron dos

prototipos experimentales similares que llegaron a trabajar en campo

satisfactoriamente. Los prototipos se diferenciaban básicamente en el sistema de

control y la visión del robot. En cuanto a la arquitectura del brazo, ambos eran

similares. El prototipo de AID se basaba en coordenadas cilíndricas (Blandini &

Levi, 1989), y el de la Universidad de Florida en coordenadas esféricas (Harrell

et al, 1990), ambos con tres grados de libertad, provistos de un elemento

deslizante como eje de extensión, en el que al final se situaba el efector final o

mano.

El principio del sistema de visión en ambos casos era diferente. Para el

prototipo desarrollado en Italia la cámara se situaba en la base del eje de

extensión, dirigiéndose al fruto una vez alineado el brazo con el fruto. El

prototipo de la Universidad de Florida tenía situada la cámara al final del eje

de extensión, dentro de la mano, lo que le permitía una realimentación en el

cálculo de la dirección del fruto para ir dirigiendo al brazo a través de la

trayectoria que se iba corrigiendo constantemente.

El proyecto iniciado por el AID y la Universidad de Florida ha tenido una

continuidad en el CRAM, antiguo AID de Catania, donde se trabaja activamente

en el diseño de manos más sofisticadas. El proyecto francés MAGALI dirigió sus

esfuerzos a un desarrollo de los conocimientos y experiencia adquiridos a la

recolección de otros frutos de mayor relevancia cuantitativa en la producción

mundial, como las naranjas.

Introducción

5

2 El proyecto CITRUS

En 1987 se inició un proyecto de colaboración hispano-francés para el diseño y

construcción de un robot recolector de cítricos, el CITRUS. Este proyecto

financiado por los Ministerios de Industria de los respectivos paises, está dentro

del programa de paises que componen el grupo EUREKA. Este grupo se formó

con el propósito de impulsar la investigación en las empresas privadas europeas

de cara a competir en la carrera tecnológica con los paises más desarrollados

como Estados Unidos y Japón.

Tras la aprobación del proyecto se inició una fase de definición de 18

meses entre 1988 y 1989. En esta fase se configuró la filosofía del proyecto y las

líneas de investigación a seguir por parte de los participantes españoles y

franceses. A la fase de definición le siguió la primera fase de investigación y

desarrollo entre 1989 y 1990, durante la cual se realizaron los objetivos

propuestos en la fase anterior. Por parte de los participantes franceses, en esta

fase se destacó la continuación en el desarrollo adquirido durante su experiencia

en el proyecto MAGALI, con mejoras en el control del robot y el desarrollo de

un sistema de visión adaptado a los cítricos.

En cuanto a la parte española, se llegó a lo que sería el primer prototipo

robot español recolector de frutos. Este prototipo se basaba en coordenadas

esféricas con tres grados de libertad y un principio de funcionamiento similar al

desarrollado por italianos y estadounidenses, con un eje de elongación en el que

al final se situaba la mano, y la cámara situada en el centro de coordenadas del

robot, obteniendo la dirección en la que está localizado el fruto. La mano estaba

provista de un sensor de infrarrojos que detectaba la presencia del fruto en el

momento que se aproximaba a su posición.

La filosofía global del proyecto tiene como fin el desarrollo de un

prototipo industrial de las siguientes características: los brazos, en número de

dos, irán montados sobre una plataforma elevadora para acceder a las distintas

alturas del árbol, a su vez esta plataforma va montada sobre un vehículo

autónomo provisto de guiado automático que le conducirá a través de las

Introducción

6

plantaciones, y de un sistema de almacenamiento y manutención de la fruta una

vez sea recogida.

Desde 1991 y hasta 1993 se está llevando a cabo la segunda fase de

investigación y desarrollo a la que le seguirá una ultima fase para el lanzamiento

de un prototipo preindustrial. Durante la fase actual se han concentrado los

esfuerzos de los participantes en la realización de un único prototipo

hispano-francés, así como en el desarrollo definitivo del vehículo portador.

De la situación actual del proyecto, se concluye su viabilidad, aunque para

ello deberá profundizarse en la mejora de algunas partes para obtener los

objetivos de un prototipo industrial útil para el mercado y en las que ya se está

trabajando. Las mejoras deben ir en la dirección de una reducción del tiempo

del ciclo total de recogida por fruto, optimizando el diseño y control del brazo,

reduciendo el peso del mismo y limitando la longitud total de extensión,

perfeccionando el sistema de visión hasta aumentar la tasa de detección a más

del 90 % y la detección de frutos en sus primeros estadios de madurez, y una

modificación de las plantaciones y estructura del árbol que permita una mayor

visibilidad y accesibilidad de los frutos (solo entre el 40− 50 % de los frutos en

el árbol son visibles por un observador estático en plantaciones tradicionales

[Juste et al, 1991]), una mejor distribución de los frutos en el árbol,

favoreciendo la fructificación hacia el exterior, así como la mejora de las manos

que capturan los frutos (las desarrolladas hasta el momento consiguen capturar el

91 % de los intentos efectuados de los que prácticamente ningún fruto sufre

daños [Juste & Sevila, 1991]). Con todo ello y los objetivos logrados en esta

segunda fase de desarrollo hasta el momento, la consecución del proyecto tiene

unos horizontes más claros y definitivos.

Todos los estudios que se van a describir y exponer en este trabajo, han

sido realizados bajo el marco del proyecto CITRUS, más concretamente en el

sistema de visión del robot recolector. La definición del problema, así como los

objetivos marcados por este trabajo, se expondrán tras una revisión de la

situación de la visión artificial en la agricultura y, más concretamente, en los

sistemas de visión para robots de recolección.

Introducción

7

I. VISIÓN ARTIFICIAL

EN AGRICULTURA

Como se indicó al principio de la introducción, los dos sectores dentro de

la agricultura en el que el desarrollo de las técnicas de visión artificial han

tenido más auge son: las industrias agroalimentarias y la recolección robotizada.

Dentro de las industrias agroalimentarias la visión artificial se ha aplicado sobre

todo a sistemas de control de calidad por inspección visual de los frutos, tanto

para su clasificación, como para la detección de defectos. Otro aspecto en el que

la visión artificial ha entrado con fuerza es en el desarrollo de métodos de

reproducción automática de plantas, bien por técnicas in vitro o por técnicas

tradicionales como la reproducción por esquejes. Un último campo de aplicación

de la visión artificial en la agricultura es el guiado automático de vehículos

agrícolas, pero menos importante que los anteriores, ya que existen otros

métodos de guiado automático no basados en visión que están dando buenos

resultados, no obstante, también es una línea de investigación dentro del guiado

automático.

Existe una clara diferencia entre las aplicaciones desarrolladas en las

industrias agroalimentarias y las de robótica de recolección y guiado. Los

sistemas de visión industriales trabajan en ambientes controlados, es decir, la

iluminación, la estructura de la escena, la situación de los objetos, la elección

del fondo, etc, pueden determinarse para la configuración que mejor facilite el

proceso de análisis de imagen. En ambientes naturales o incontrolados los

inconvenientes son mucho mayores, inconvenientes derivados de la falta de

control sobre los objetos y factores que caracterizan la escena.

I.1 Visión en ambientes controlados

Como ya se ha mencionado anteriormente, los trabajos en selección de

productos agrícolas mediante la detección de tamaño, forma, color, defectos, etc,

es uno de los campos de aplicación más importantes del análisis de imagen en

este sector. La visión por computador puede ser una alternativa viable para

detectar ciertos rasgos y propiedades de materiales en los que métodos

mecánicos no han obtenidos buenos resultados. Los bajos costes del hardware y

el desarrollo de software apropiado posibilita la aplicación de esta tecnología a

los problemas de control de calidad de alimentos. A continuación se describe

una relación de los trabajos más significativos en este campo, en el que se viene

trabajando desde finales de los años setenta, coincidiendo con el florecimiento de

las técnicas de análisis de imágenes.

El propósito general de la utilización de estos métodos es la automatización

de procesos en las industrias agroalimentarias durante el manipulado y

almacenamiento de los frutos, intentando suplir actividades que hasta el

momento necesitaban la dedicación de una persona en tareas específicas como la

inspección visual de los productos para clasificación y acondicionamiento en el

embalado principalmente. En este sentido el análisis de imagen se utiliza para

medir ciertos parámetros, localizar defectos o diferenciar ciertas partes de los

frutos.

En un breve repaso a los diferentes trabajos realizados sobre el tema,

podemos mencionar a Wolfe & Sandler (1985) que utilizaban el análilsis de

imagen, concretamente de contornos, para detectar los pezones de cerezas y

arándanos para suprimirlos posteriormente. Sarkar & Wolfe (1986) trabajaron en

la selección de tomates detectando defectos en la piel de estos frutos a partir de

filtros de extracción de bordes.

Uno de los trabajos realizados para la clasificación de manzanas mediante

la detección de defectos por medio de visión artificial fue desarrollado por

Rehkugler et al (1989). El objetivo era detectar daños por golpes sufridos por la

fruta, caracterizados, (en la banda del infrarrojo cercano), por su tono oscuro y

su forma redondeada.

Visión artificial en agricultura

10

En la misma línea que el trabajo anterior Throop et al (1989) ensayaron

métodos para la detección de podredumbre en el interior de manzanas mediante

visión artificial. Uno de los métodos consistía fundamentalmente en la

determinación de la densidad de los frutos, ya que según sus estudios existía una

relación entre las densidades de las manzanas defectuosas y las sanas. La visión

se utilizaba para calcular el volumen del fruto.

Siguiendo en selección de frutos mediante análisis de imagen tenemos el

trabajo realizado por Miller & Delwiche en 1989. En este trabajo se utilizan ya

imágenes en color RGB (Red, Green, Blue), cuya aplicación fue desarrollada para

la selección de melocotones en función del grado de madurez de éstos, muy

dependiente del color que adquieren.

Marchant et al (1990) diseñaron un sistema de visión industrial de

clasificación de patatas. El objetivo era clasificar patatas en tiempo real mientras

pasaban a lo largo de una cinta transportadora constituida por rodillos giratorios.

Más recientemente, Paulsen et al (1992) han aplicado el análisis de imagen

para seleccionar granos de maíz. El propósito de este trabajo consistía en

clasificar los granos a partir de varios aspectos. En primer lugar se analizaba si

los granos presentaban roturas o estaban enteros. Por otra parte se buscaban

daños en el núcleo del grano y otros tipos de daños de menor importancia.

Existen otras aplicaciones en las que la visión artificial está jugando un

papel cada vez mas importante. Este es el caso por ejemplo de la manipulación

de productos agrícolas, tanto en el proceso de reproducción de plantas como el

procesado de productos de cara al mercado. Dentro de este último aspecto

tenemos por ejemplo los trabajos realizados por Guillaume et al (1991) en el

que se describe un sistema de visión para un robot que limpia y corta la parte

sobrante de las lechugas para su empaquetado y envío al mercado. El sistema de

visión localiza e indica al robot donde se encuentra la parte central de la

lechuga para, una vez sujeta, quitarle las partes no aptas para el consumo.

Harrell (1991) utiliza la información que extrae mediante el análisis de

imágenes de embriones de plantas en reproducción in vitro para clasificar estos

embriones en arreglo a características como el color, y diferentes medidas


11

geométricas como el área, diámetros verticales y horizontales de las regiones,

etc., con la aplicación de clasificadores paramétricos bayesianos de tipo lineal.

Por último, uno de los trabajos para clasificar esquejes de begonia, para su

posterior plantación, fue realizado por Dijkstra (1991). Su propósito era clasificar

los esquejes en arreglo al área total del que presentaban las hojas del esqueje.

La identificación de las dos hojas, menor y mayor el esqueje, se realizaba por

medio del contorno del esqueje. La proporción hoja grande a pequeña influía en

el posterior desarrollo de la plántula.

I.2 Revisión de la literatura en sistemas de visión para recolección

robotizada

Dentro de los campos de aplicación de la visión artificial en la agricultura, la

visión en robótica de recolección es el que nos ocupa en este trabajo. Desde los

trabajos pioneros de Parrish & Goksel en 1977, varios investigadores han

realizado estudios y diseñado procedimientos en sistemas de visión para

recolección robotizada en manzanas, tomates, melocotones y naranjas

principalmente. Como veremos, todos ellos utilizaron técnicas de tratamiento

digital de imágenes por ordenador para alcanzar los fines deseados, el

reconocimiento y localización de los frutos en su ambiente natural. A

continuación se expone una relación cronológica de los trabajos realizados en

sistemas de visión para recolección robotizada, en los que se muestra una breve

descripción de la metodología y, en su caso, los materiales relevantes utilizados

por cada uno de ellos.

Parrish & Goksel (1977), como se ha indicado anteriormente, fueron los

pioneros en aplicar estas técnicas de visión artificial a la recolección robotizada

de frutos. Ellos diseñaron un algoritmo para la detección de manzanas en árbol

para su implementación en un robot recolector.

El sistema consistía en una cámara en blanco y negro a la que se le

incorporaban unos filtros, de esta manera se añadía al sistema una propiedad

función del color de los objetos de la escena, ya que con la elección del filtro


12

adecuado se obtenía un realce de los frutos respecto al resto de los

componentes de la imagen. Tras una segmentación por medio de un umbral

arbitrario y un suavizado sobre la imagen binaria para la eliminación de ruido, la

clasificación se realizaba mediante el thinness ratio, calculando éste para cada

región se intentaba parametrizar el grado de redondez que poseía la región

analizada, dado el carácter circular de las regiones pertenecientes a los frutos. Si

el clasificador daba por posible fruto a la región, se calculaba su centroide para

indicarlo al brazo manipulador.

Para la detección de frutos superpuestos no se utilizaba ningún algoritmo

especializado en el tema, como los de Riutala (1968) o Arcilli (1971), ya que

estos algoritmos conllevan un gran coste computacional, en su lugar se

intentaban detectar por medio del tamaño de la región.

Tuttle (1983) propuso el uso de dos filtros situados en las bandas

600− 700 nm y 750− 850 nm . Calculando la proporción entre la luz que llegaba

del objeto a través de estos dos filtros se intentaba compensar el hecho de que,

según Tuttle, la energía reflejada desde la superficie del objeto es inversamente

proporcional a la cuarta potencia de la distancia al objeto. Si se utilizara un solo

filtro, una hoja a un metro de la cámara podría aparecer teóricamente más

brillante que una naranja a 3 metros de distancia. El método sólo era aplicable

durante la noche con apoyo de iluminación artificial, ya que a la luz del día este

principio no funcionaba debido a que una naranja en la sombra no es

necesariamente más brillante que una hoja a la que le incide la luz del sol

directamente.

Con frecuencia, en este tipo de aplicaciones, la visibilidad de los frutos es

parcial. Uno de los intentos en desarrollar algoritmos de detección en estas

condiciones fue realizado por Whittaker et al. en 1987.

Se intentaba diseñar un procedimiento que independientemente del color y

en presencia de interferencias como brillos y zonas de sombra, fuera capaz de

detectar frutos cuyos contornos estuvieran parcialmente ocultos. Para ello se

utilizó la transformada de Hough modificada por Duda & Hart (1973) con el fin


13

de localizar contornos parcialmente ocultos. Antes de la aplicación de la

transformada de Hough se realizaba un preproceso para la extracción de los

bordes en la imagen mediante un operador gradiente; a cada uno de estos

puntos pertenecientes a bordes se les asignaba una orientación, correspondiente a

la dirección de máxima variación, calculada a partir del gradiente de Sobel

(Nevatia, 1982). A través de la transformada de Hough se buscaban

distribuciones circulares de estas direcciones que apuntaran a un centro común.

La determinación de un umbral en el plano de acumuladores se establecía

analizando el histograma de este plano, observando que este histograma se podía

aproximar por una función exponencial decreciente.

El uso de filtros en la zona del rojo en el espectro para la aplicación de

esta técnica a la localización de tomates, aumentaba la eficacia de este

clasificador al realzar los frutos de los demás objetos presentes.

Dentro del los trabajos realizados sobre reconocimiento en color, Slaughter

& Harrel (1987) diseñaron un método rápido de localización para una visión en

tiempo real. Slaughter proponía una segmentación en color fijando un umbral en

el espacio HSI (Hue, Saturation, Intensity).

La idea, según los autores, era sustituir la cámara en blanco y negro

cuando se utilizaban con dos filtros, cuyo método se basaba en las propiedades

espectrales de las naranjas y las hojas, tratando de aplicar ciertos umbrales a la

altura de ciertas longitudes de onda en la curva. Estableciendo la

correspondencia entre la longitud de onda y la componente H (tono), del color,

se pretendía sustituir el sistema en blanco y negro por una cámara color.

De esta manera, implementando en hardware el proceso de binarización por

umbrales en la componente H y la S (saturación), se pretendía optimizar en

rapidez el proceso. Como resultado, el clasificador usado en el plano HS era un

rectángulo.

En 1988, Rabatel diseño un procedimiento basado en la combinación de

tres filtros interferométricos con la utilización de cámaras en blanco y negro,

para localizar frutos en árbol en un robot recolector de manzanas, el MAGALI.


14

El desarrollo de este sistema se basó en un estudio de las propiedades de

reflectancia de los frutos y hojas dentro del espectro visible e infrarrojo cercano,

rango de sensibilidad de las cámaras CCD (Charge Coupled Device) utilizadas, o

sea, entre los 400 y 1110 nm . Del estudio de estas curvas se concluyó la

utilización de tres filtros interferométricos dispuestos en tres puntos del espectro

situados en los 550, 650 y 950 nm . Los filtros se colocaban en tres cámaras

dispuestas de manera convergente para la misma escena, y mediante un estudio

de las proporciones entre los niveles de gris que registraba cada imagen filtrada,

se establecieron los rangos de estas proporciones para los puntos

correspondientes a frutos y demás elementos, o sea, si v1, v2, v3 eran los niveles

correspondientes a cada filtro, se establecían las proporciones

v1 ⁄ v2 = r2 y v3 ⁄ v2 = r3

donde de los resultados para r2 y r3 se seleccionaban mediante dos umbrales

establecidos a partir de las proporciones que cumplían los puntos pertenecientes

a frutos. Este proceso se implemento en un módulo hardware que trataba las

señales de video antes de su grabación, permitiendo así una localización en un

tiempo real máximo de 300 ms.

Levi el al. (1988) dentro del proyecto italo-americano entre el AID y la

Universidad de Florida para el desarrollo de un robot recolector de cítricos,

diseñaron un sistema de visión a este propósito, basándose en el reconocimiento

de formas circulares para detectar cítricos en tiempo real. Mediante cámaras

CCD color se tomaban imágenes previamente realzadas mediante un filtro

analógico electrónico, siendo después registradas con una resolución de 512 x 512

con 64 niveles de gris.

El reconocimiento se realizaba mediante un proceso de emparejamiento o

matching con modelos circulares teóricos creados por software. Para ello, una vez

la imagen era filtrada electrónicamente, digitalizada y almacenada en la memoria,

se le aplicaba un operador de Sobel detector de bordes, calculando la magnitud

y la dirección del gradiente máximo de los puntos de los contornos. Las


15

direcciones se guardaban en forma de matriz, la cual se intentaba emparejar

paso a paso con el modelo previamente establecido moviendo el centro de este

modelo a través de un área rectangular limitada. En cada iteración se establecía

una cota de error hasta llegar a la mínima de ellas. La decisión se tomaba

comparando el error con un error umbral por encima del cual no se consideraba

ese contorno una forma circular.

En 1988 Sites & Delwiche concibieron un sistema de visión monocroma

aplicada la localización de naranjas. Para ello utilizaron una cámara CCD y

diferentes filtros (550, 650 y 670 nm) para evaluar su utilización más óptima.

También se utilizó el apoyo de iluminación artificial mediante tres lámparas de

500 w con temperatura de color de 4800 grados, montadas sobre unos reflectores

paraboloides. Las imágenes obtenidas se almacenaban con una resolución de

128 x 128.

Se realizaron ensayos durante el día y la noche, siendo en ésta última

donde se obtuvieron los mejores resultados con un 89 % de frutos detectados. El

proceso de análisis de las imágenes consistía en el cálculo de un umbral de

binarización que se realizaba sobre cada imagen a partir de su histograma,

asignando como pertenecientes a la clase objeto a los píxels de niveles altos del

histograma, hasta que éstos consiguieran ocupar un cierto tanto por cien del área

total de la imagen, cantidad que se determinó tras un estudio para poder

minimizar el ruido, quedando esta proporción entre el 35 y el 40 % de los

píxels.

Sobre la imagen binaria resultante se realizaba un suavizado, cuyo principio

consistía en que, sobre un vecindario de 8 píxels, si 5 o más eran píxels objeto

se asignaba al píxel en cuestión a la clase objeto, en caso contrario al fondo.

Este filtro es del tipo "sólo adición", que permite pasar píxels de la clase fondo

a la clase objeto pero no en sentido contrario. Este filtro también tiene la

propiedad de ser selectivo, emborronando los objetos circulares (regiones

normalmente pertenecientes a los frutos buscados) y dejar inalterados otras

regiones.


16

Después de un etiquetado por conectividad 8 (Nevatia 1982) se calculaba el

área y el perímetro de cada región, características que se utilizaban para la

clasificación. A partir del área y el perímetro se estimaba la compacidad de la

región definida como Area ⁄ Perímetro2, la cual es máxima para objetos circulares.

También se calculaba la elongación definida como

momento mínimo de inercia / momento máximo de inercia

respecto al eje principal.

Se evaluaron dos clasificadores. El primero fue un clasificador lineal no

paramétrico (Fu et al 1976), esta técnica dividía el espacio de características en

regiones mutuamente excluyentes mediante hiperplanos. Un hiperplano entre dos

clases viene definido por la sustracción de las dos funciones discriminantes

asociadas a cada clase. El segundo tipo de clasificador utilizado fue también no

paramétrico, utilizando la regla del vecino más próximo al centroide de cada

clase mediante una métrica euclídea.

En un intento de aplicar la segmentación basada en color para la

localización de frutos, Slaughter & Harrell en 1988 desarrollaron un método

aplicando un clasificador de Bayes para seleccionar y distinguir las regiones

pertenecientes a frutos en las imágenes analizadas, todo ello por medio del

criterio de color, usando las componentes H (tono) y S (saturación) para

segmentar las imágenes.

La variable aleatoria utilizada en el modelo probabilístico tenía las dos

componentes anteriormente citadas, tono y saturación. En el caso aplicado a la

clasificación en un conjunto de dos clases (objeto y fondo) y asumiendo que la

función distribución de éstas sea normal, el clasificador puede ser definido como

(Duda & Hart, 1973) funciones lineales discriminantes a partir del método

paramétrico.

Las imágenes se tomaron con una resolución de 384 x 485 con 32 niveles de

gris (5 bits) para cada una de las componentes R,G,B, que se transformaban al

sistema IHS. Los parámetros del clasificador (medias, covarianzas y

probabilidades a priori) para cada clase se calculaban mediante una imagen de

entrenamiento o aprendizaje.


17

Hay que señalar que las imágenes utilizadas tenían una gran proporción de

la clase frutos, ya que en cada imagen sólo aparecía, por lo general, un fruto

que ocupaba casi toda ésta, debido a que en el sistema de visión realizado para

este robot, la cámara estaba situada en la parte interior de la mano, por ello la

proximidad de la cámara al objeto, y por lo tanto el tipo de imágenes tratadas.

Ness (1989) también realizó estudios sobre un sistema de visión para

detectar naranjas. Utilizando imágenes color RGB con iluminación natural,

implementó un método de segmentación para reconocer los frutos utilizando las

componentes cromáticas r, g, b, para intentar evitar mediante esta normalización

la influencia de la variación de luminosidad en estos ambientes. La segmentación

consistía en la búsqueda de unos umbrales a partir de los histogramas en las

bandas R, G y B, para construir una imagen binaria final a partir de cada una

de las segmentaciones obtenidas en cada componente. Finalmente, tras varios

estudios concluyó que sólo con la información de las bandas R y B y sus

correspondientes componentes cromáticas podía realizarse el proceso.

Para localizar el centro de los frutos utilizó la transformada de Hough

después de aplicar operadores gradiente de Sobel a la imagen binaria obtenida

de la segmentación, para encontrar distribuciones de gradientes de contornos

circulares.

Ya dentro del proyecto CITRUS, Vicens et al (1990), mediante visión

monocroma, realizaron un primer sistema de detección de cítricos. El sistema

realizaba la toma de imágenes mediante un filtro interferométrico centrado en

los 650 nm, seleccionado a partir de estudios espectrofotométricos, con el fin de

conseguir un mayor contraste entre frutos y fondo.

La segmentación se realizaba a través de un umbral seleccionado

automáticamente a partir de imágenes de entrenamiento por medio de un

algoritmo modificado de tipo iterativo correspondiente a Ridler & Calvard

(1978). A la imagen binaria se le aplicaba un filtro morfológico para la

eliminación de ruido mediante una apertura, para eliminar objetos pequeños y

suavizar contornos, seguida de un cierre cerrando agujeros y golfos (Serra, 1987).


18

Una vez filtrada la imagen se calculaba el perímetro de cada región,

clasificándola como fruto o no si superaba un perímetro mínimo establecido

según la distancia de los objetos a la cámara. El recorrido para el cálculo del

perímetro se aprovechaba para localizar el fruto por medio del rectángulo que

inscribía a la región y calculando su centro geométrico.

Moltó (1991) diseñó, también dentro del proyecto CITRUS, un sistema de

visión para la localización de cítricos. En primer lugar realizó un completo

estudio espectrofotométrico de la piel de los frutos y hojas, en el que se siguió

la evolución del espectro durante el periodo de maduración de los frutos. Con

ello se pretendía encontrar combinaciones de filtros interferométricos en las

longitudes adecuadas, dentro del espectro visible, que obtuvieran una separación

mayor entre las características de las hojas y los frutos, además, situar en que

épocas del periodo de maduración podría ser ésto válido y analizar a partir de

que momento sería posible la detección de frutos mediante este procedimiento.

El sistema diseñado tomaba las imágenes mediante dos filtros, uno en el

rojo y otro en el verde, con el apoyo de iluminación artificial. A partir de una

relación establecida de proporcionalidad entre las dos imágenes filtradas se

obtenía una segmentación, que eliminando las regiones ruidosas de pequeño

tamaño, se calculaba el centroide de las restantes consideradas como frutos.

Sandini et al (1991), dentro de un proyecto ambicioso de automatización de

tareas en cultivos de invernadero, implementaron un sistema de visión para un

robot recolector de tomates. El sistema se basaba en reconocimiento en color,

con una segmentación utilizando las coordenadas relativas a la cromaticidad, tono

y saturación, en el sistema de representación del color IHS. También aplicaron

redes neuronales como clasificadores en el espacio RGB, con el fin de obtener

la facilidad de aprendizaje del sistema clasificador ante la presencia de nuevas

situaciones. Este trabajo es uno de los primeros que se plantearon la necesidad

de la obtención de las tres coordenadas espaciales para localizar los frutos; para

ello implementaron un sistema estereoscópico compuesto por dos cámaras cuyos

ejes ópticos formaban un cierto ángulo de convergencia, con el propósito de


19

aprovechar mejor el campo cubierto de la escena por las cámaras, aunque ello

conllevara una pérdida de precisión.

Hemos visto en esta breve muestra de los trabajos realizados en detección

y localización de frutos que en la mayoría de ellos permanecen unos métodos o

enfoques comunes de solución del problema. En ellos se intenta salvar el

obstáculo que determina una aplicación de este tipo, el tiempo de cálculo; de

esta forma, se buscan procedimientos de bajo coste computacional o, en todo

caso, la posibilidad de implementar el método desarrollado en algoritmos

hardware que permitan franquear la barrera del tiempo necesario para que la

aplicación sea efectiva. Esto se muestra, por ejemplo, en la constante idea de

tratar las imágenes antes de digitalizarlas bien mediante filtros interferométricos

o circuitos electrónicos específicos, incluso analógicos, antes de digitalizar y

almacenar la imagen, con el fin de obtener imágenes con la información ya casi

decodificada y realizar el reconocimiento de una forma rápida.

También se percibe a lo largo de todos los trabajos la importancia de la

iluminación natural en cuanto a los problemas que conlleva, que en muchos de

los casos se llega a la idea de una recolección durante la noche; así como el

resto de circunstancias que concurren en ambientes naturales, como la necesidad

de tratar con objetos parcialmente ocultos.

Existe una voluntad subyacente en todos los trabajos en la aplicación de

técnicas más complejas y precisas que las adoptadas, para la mejora de la

efectividad de estas aplicaciones, ya que en muchos casos, los resultados quedan

aún lejos de poder obtener un sistema fiable. Así en alguno de los casos se pasa

a la visión en color, y que incluso se implementan técnicas de reconocimiento de

formas, como la aplicación de clasificadores, para un reconocimiento del color

más automático y fiable.

Se observa también la necesidad de profundizar en el reconocimiento a

través de la extracción de varias características geométricas (contornos circulares,

compacidad, elongación, área, perímetro, etc.), aplicando sistemas de clasificación

para una interpretación de las mismas.


20

Las deficiencias o problemas de los sistemas de visión desarrollados hasta

el momento en este campo han sido comentadas por sus autores a lo largo de

sus respectivos trabajos, así como las líneas de investigación a seguir para una

mejora de estos sistemas de visión. Básicamente, los puntos débiles en los que

coinciden la mayoría de los autores son los siguientes:

-La iluminación. Este es el primer de los grandes problemas presentes en

esta aplicación. Debido a lo incontrolado de la luz natural y a sus efectos

(brillos, sombras, etc) varios autores optaron por el apoyo de iluminación

artificial durante el día y la noche (Tuttle, 1983; Sites & Delwiche, 1988, Levi et

al, 1988) mediante lámparas de varios tipos. Sus conclusiones fueron que incluso

con el apoyo de iluminación artificial, los mejores resultados se obtenían durante

la noche, sin interferencias de la luz solar. De esto se desprende que el sistema

de iluminación artificial no conseguía evitar en gran parte los efectos de la luz

solar, así incluso Sites & Delwiche (1988) concluyen que es necesario el

desarrollo de sistemas de iluminación artificial más sofisticados para mejorar los

efectos que esta iluminación puede producir.

Dentro del tratamiento en color de escenas naturales sin apoyo de

iluminación artificial, el problema sigue existiendo, de tal forma que casi todos

los autores que trabajaron sobre el tema (Ness, 1989; Sandini, 1991) proponían

trabajar en espacios de representación del color en los que la influencia del

nivel de iluminación fuera la menor posible o se pudieran manejar parámetros

que fueran independientes de la intensidad luminosa de los objetos en la escena.

Otros autores (Slaughter, 1987) concibieron sistemas mecánicos por los que se

regulaba la luminosidad media de la imagen a través del diafragma o iris del

sistema óptico, buscando su apertura óptima a partir de medidas realizadas sobre

cada imagen. Sin embargo, el problema persiste en la identificación completa de

frutos en los que a lo largo de la misma superficie existe un gran cambio en el

nivel de iluminación al que están expuestos.

-Información incompleta. Aunque la mayoría de los trabajos se centran en

técnicas de reconocimiento y localización que pueden derivar en algoritmos de


21

bajo coste computacional (Slaughter, 1987; Rabatel, 1988; Sandini, 1991), algunos

autores se inclinan por procedimientos en los que se alcance un mayor

conocimiento del problema (Sites & Delwiche, 1988). La necesidad de ir mas

allá de un reconocimiento a partir de segmentaciones en color por unos u otros

métodos (color real en espacios RGB, IHS, etc, o imágenes en blanco y negro

filtradas a ciertas longitudes de onda) ya ha sido indicada por algunos autores

(Slaughter, 1987; Rabatel, 1988; Sites & Delwiche, 1988; Sarig, 1990), con el

objeto de resolver problemas como la identificación de frutos individualmente

cuando se encuentran agrupados (Slaughter, 1987; Sites & Delwiche, 1988) o la

determinación del centro real de los frutos a partir de información parcialmente

oculta (Slaughter, 1987), en la que algunos autores ya iniciaron investigaciones

(Wittaker et al, 1987; Levi et al, 1988; Ness, 1989).

-Interpretación. Ante una eventual evolución a un sistema de

reconocimiento más complejo, surge la necesidad de la introducción de técnicas

de reconocimiento de formas para obtener en la mayor proporción posible una

correcta clasificación de los objetos de una forma automática. Tales técnicas se

han ido introduciendo después de los primeros trabajos en los que sólo se

utilizaban en general umbrales en niveles de gris, a los que seguía un filtrado de

algún tipo para eliminar ruido. Así, Slaughter (1987) introdujo análisis

discriminante mediante clasificadores bayesianos para obtener una segmentación

color, tal como posteriormente Sandini et al (1991) utilizaron redes neuronales

para el mismo propósito. Sites y Delwiche (1998) propusieron el uso de

funciones lineales discriminantes y de clasificadores por el vecino más próximo

como sistema de clasificación para decidir si una región de la imagen

segmentada era un fruto o no, a partir de la extracción de ciertas características

a cada región. Estos autores apuntaron la idea de seguir trabajando en

clasificadores más sofisticados y en la determinación de vectores de características

más adecuados para una mejora de los resultados, a fin de obtener un sistema

de visión con rendimientos aceptables de cara la implantación en prototipo

comercial.


22

-Técnicas tridimensionales (3D). Hasta la llegada del proyecto CITRUS,

ningún autor se cuestionaba la necesidad de obtener la medida de la distancia al

fruto antes de dirigir el movimiento de recogida. Solo autores como Sandini et

al (1991) han abordado este problema recientemente. Hasta el momento,

mediante una sola cámara se calculaba la dirección en la que el fruto está

situado, la distancia al fruto sólo se conocía cuando el brazo del robot lo

alcanzaba y detectaba su presencia mediante la ayuda de otros sensores. Esto

conlleva el problema de que el brazo debe alinearse en el eje donde se

encuentra el fruto antes de iniciar el proceso de acercamiento; no obstante, este

último problema no es el que condiciona la necesidad de una solución a la

cuestión de la distancia al fruto. Las últimas estadísticas obtenidas durante el

proyecto CITRUS revelan que el 24 % de los frutos detectados están fuera del

alcance del robot, no conociendo esta circunstancia a priori, con la consiguiente

perdida de tiempo en movimientos para realizar intentos innecesarios.


23

II. EL PROBLEMA DE LA RECOLECCIÓN

ROBOTIZADA. OBJETIVOS

II.1 El sistema de visión y su problemática en la robótica de

recolección

En un robot recolector de cítricos debe existir un sensor capaz de detectar y

localizar los frutos para poder dirigir el brazo a la posición donde se encuentran

y poder recogerlos. El sistema de visión de un robot se encarga de esta

importante tarea, la cual es uno de los procesos dentro del sistema robotizado

que deberá coordinarse junto con las restantes partes por medio de un

planificador de tareas, integrándose en lo que se llama "ciclo de recogida", que

decide la acción a ejecutar en cada momento según el estado del ciclo, definido

Figura I.1. Organización de los módulos del robot.

PlanificadorControl del brazo robot

Control delvehiculo

Manutención de la fruta

Vision:reconocimiento ylocalización

por unos parámetros que en su mayoría vienen indicados por un conjunto de

sensores que aportan información del exterior sobre el estado del sistema.

Las acciones del planificador se codifican en forma de unas primitivas u

órdenes básicas, que son desarrolladas por el módulo a que corresponda tal

tarea, independientemente de los restantes módulos.

Mientras los humanos podemos reconocer objetos familiares desde casi

todos los ángulos, en un amplio rango de distancias y condiciones de

iluminación, incorporando la ayuda del oído u otros sentidos en el proceso de

interpretación, es mucho mas difícil implementar y coordinar esta serie de

complicados procesos en un sistema de visión para una máquina, ante todo por

el desconocimiento que en la actualidad aún existe sobre los principios de

funcionamiento de la visión humana y menos aún de la estructura del intelecto.

En el problema que nos ocupa existen una variedad de factores que

definen y limitan la tarea a resolver. Los frutos son objetos inestables en su

posición, variables en su forma, tamaño y color, situados en posiciones

totalmente aleatorias en el árbol que a su vez éste puede ser de diferentes

tamaños, volúmenes y estructura foliar. Asimismo, están sujetos a varias

condiciones naturales incontroladas como el viento, lluvia, polvo, humedad, rocío

e iluminación; condiciones que no siendo un mayor obstáculo para un humano,

puede ser todo un desafío para un sistema de visión artificial.

Ambientes Naturales

La iluminación es uno de los factores más importantes que condicionan los

métodos a utilizar en el proceso de imágenes y los resultados que se obtienen

de ellos. Cuando una imagen está dispuesta para su tratamiento, debe haber

atravesado, en general, una fase de preproceso adaptándo las características de la

imagen a las particularidades del método a utilizar. Este preproceso consiste

usualmente en un realce, filtrado o reconstrucción (en caso de deterioro de la

imagen) para eliminar ruidos y preparar la imagen.

En ambientes naturales este proceso siempre es necesario debido a la

variabilidad de la iluminación natural, ya que dado su carácter incontrolado

Objetivos

26

provoca reflejos, sombras (variabilidad espacial de la iluminación), efectos que en

su totalidad pueden complicar enormemente el tratamiento de la imagen.

Otros factores ambientales como el viento, por ejemplo, pueden causar que

el fruto se mueva, variando constantemente su posición, con lo que se precisaría

de un sistema de visión muy rápido para poder recalcular la trayectoria de

acercamiento al fruto en cada momento del proceso de acercamiento. A todo

ello se suma la dificultad de que los frutos aparecen normalmente parcialmente

ocultos entre las hojas y las ramas, impidiendo mostrar la superficie de los frutos

en su totalidad, y por lo tanto teniendo una información parcial de los mismos;

o la presencia de obstáculos naturales como es el caso de las ramas, que en

muchas ocasiones impiden que la mano del robot pueda alcanzar al fruto y

atraparlo.

Evolución en la coloración de los frutos

Para realizar un sistema de visión para recolectar naranjas u otros frutos, hay

que tener en cuenta que los frutos tienen un periodo de maduración, periodo

durante el cual varían las propiedades cromáticas de su piel, al contrario de lo

que ocurre con su entorno habitual, que no varía apreciablemente en todo el

periodo. En sus primeros estadios de madurez, las naranjas tienen un color muy

similar a las hojas de los árboles, no siendo significativa la característica del

color para su reconocimiento. En cambio, en su plena madurez, el color de estos

frutos es bastante diferente de todos los objetos que más comúnmente se

presentan en su entorno (hojas, suelo, cielo, nubes, etc).

Las necesidades del mercado de cítricos, y por lo tanto la exigencia de las

habilidades del robot recolector, nos determinan para trabajar en la obtención de

métodos capaces de detectar naranjas en todo el periodo de maduración,

independientemente de su color. De esta manera, aunque la visión en color sea

una metodología adecuada para naranjas que hayan alcanzado su plena

coloración, hay que tener en cuenta la posibilidad y la necesidad de la visión

monocroma para detectar naranjas en cualquier estado de su periodo de

madurez.

Objetivos

27

Tiempo de proceso

Uno de los grandes obstáculos a salvar en el desarrollo del sistema de visión en

un robot recolector es el tiempo de proceso. Dentro de los estudios económicos

y de viabilidad realizados en el proyecto CITRUS, para que el robot sea

rentable, el tiempo correspondiente a un ciclo de recogida (detectar, atrapar y

depositar el fruto en el dispositivo de almacenamiento) debe ser menor que 2,5

segundos. De estos 2,5 segundos, el tiempo de detección que debe emplear el

sistema de visión no puede sobrepasar los 0,7 segundos. Por este motivo, la

búsqueda de algoritmos rápidos debe estar subyacente en la filosofía del diseño

del sistema de visión.

La localización del fruto en el espacio

Además del proceso de reconocimiento o detección de los frutos por el sistema

de visión, existe el problema de la localización espacial del objeto detectado.

Esta localización consiste en el cálculo de las sus tres coordenadas en el espacio

respecto al sistema de coordenadas del robot, que el sistema de visión debe

averiguar para cada fruto detectado.

En los sistemas de visión implementados hasta el momento en robótica de

recolección, el fruto se localiza sólo en la dirección en que se encuentra

respecto a la cámara, no conociendo su distancia hasta que el fruto es alcanzado,

y que por medio de otros sensores de proximidad se detecta la presencia del

fruto. Los sistemas estereoscópicos, con uso de dos cámaras, no se han estudiado

en profundidad hasta el momento en este tipo de aplicaciones, por su dificultad

en el establecimiento de la correspondencia entre las dos imágenes que facilitan

las cámaras, pero sobre todo por no haber encontrado procedimientos en

estereoscopia lo suficientemente rápidos como para poder pensar en su

implementación en un problema de este tipo, en el que como hemos visto, el

factor temporal es una limitación.

Aunque este problema no se ha abordado hasta el momento dentro de este

proyecto, existe la necesidad de su resolución debido a motivos de optimización

en el rendimiento del robot. A lo largo de todas las investigaciones realizadas se

ha visto que no es imprescindible el conocimiento de la distancia al fruto, pero

Objetivos

28

el desconocimiento de ella implica que el sistema no sabe a priori si el fruto

está dentro del campo de acción del brazo robot, por ello, en un alto porcentaje

de frutos detectados, 24 %, el brazo se lanza a recoger frutos que se encuentran

más allá de su alcance, circunstancia que sólo se conoce al llegar el brazo al

final de su recorrido no habiendo alcanzado el fruto. Con el fin de evitar estos

movimientos innecesarios del robot de cara a un mayor aprovechamiento de su

rendimiento, se deben orientar los esfuerzos a estudiar la posibilidad de poder

tener esta información a priori, bien por métodos de estereoscopia u otro

procedimientos, como telemetría, láser, etc.

II.2 Propósito y objetivos de este trabajo

Dentro de la visión artificial, como se apuntó al principio de la introducción,

existe por una parte el soporte físico o electrónico del sistema y el desarrollo de

técnicas y métodos en análisis de imágenes para extraer la información deseada a

partir de los datos que nos proporciona el sistema de adquisición. El ámbito de

este trabajo se centra en esa segunda parte de análisis de imagen, en concreto

en el análisis digital de imágenes.

El objetivo de este trabajo será la realización de estudios para el desarrollo

de técnicas en análisis digital de imágenes que puedan solucionar los problemas

que se presentan en el reconocimiento y localización de frutos en el árbol para

su recolección robotizada. Estos problemas, en su gran mayoría, no son debidos

a deficiencias en los desarrollos del dispositivo físico del sistema de visión, sino

en su parte de análisis, de forma análoga a como ocurre en otros campos de las

ciencias de la computación en la que el soporte físico o hardware ha

evolucionado más rápidamente que el soporte lógico o software.

Con el fin de evitar los problemas de los sistemas de visión en recolección

robotizada de naranjas comentados al final del capítulo anterior, el trabajo

realizado durante el desarrollo de esta tesis fue marcado por los siguientes

objetivos:

Objetivos

29

I. Estudio y desarrollo de una técnica de iluminación artificial para mejorar

la calidad de las imágenes adquiridas con el propósito de facilitar y aumentar la

fiabilidad de los procedimientos de análisis que sobre ellas se realicen.

II. Búsqueda de un modelo geométrico para la representación imagen de

los frutos. Establecido el modelo, el estudio y desarrollo de métodos de análisis

que permitan la extracción de características geométricas de las regiones de la

imagen pertenecientes a los frutos para su posterior reconocimiento, calculando a

la vez parámetros suplementarios para el sistema de visión (centro real y

separación de los frutos de un racimo).

III. Utilización y desarrollo de métodos de clasificación adecuados al

problema que nos permitan una interpretación de las propiedades extraídas

durante el análisis de las imágenes.

IV. Concepción de un método de segmentación en color que permita tratar

con los problemas derivados de una iluminación natural, problemas que se

evitarán con un método que sea independiente del nivel de iluminación sobre

los objetos de la escena y que tenga una estructura que tenga en cuenta el

proceso de formación del color en las superficies de los objetos.

V. Desarrollo de una técnica que permita la localización espacial en tres

dimensiones de los frutos a partir de la información a priori obtenida del análisis

de las imágenes.

VI. Establecimiento de una metodología y desarrollo de algoritmos que

combinen los métodos y técnicas estudiados para una optimización y adaptación

al problema de la recolección robotizada.

Para cumplir con los objetivos anteriormente citados, los estudios y trabajos

realizados a lo largo de esta tesis se expondrán en la manera siguiente: La

primera parte contiene una descripción de los métodos y técnicas de análisis de

Objetivos

30

imagen desarrolladas para su posterior utilización en el sistema de visión. En el

capítulo 1 se describen los fundamentos y el método desarrollado de iluminación

artificial utilizados durante este trabajo. Asimismo, se establece en este mismo

capítulo un modelo de representación de los frutos dentro de la representación

imagen. Los tres capítulos siguientes, capítulos 2, 3 y 4, contienen la descripción

y discusión de los métodos desarrollados para la extracción y cuantificación de

características geométricas a partir del modelo establecido en el capítulo 1, tanto

en lo relativo a la superficie como al contorno de los frutos. Las bases y

metodología de un sistema de segmentación color para evitar los efectos de la

iluminación natural están descritas en el capítulo 5. El capítulo 6 está dedicado

al método desarrollado de localización espacial de los frutos basado en técnicas

de estereoscopia. El capítulo 7, que cierra esta primera parte, describe el

método de clasificación utilizado dado un conjunto de características definidas

sobre cada objeto, en el que se comentarán las modificaciones introducidas en

este trabajo.

La segunda parte se centra en el diseño del sistema de visión del robot,

desarrollando la metodología combinando las técnicas expuestas en la primera

parte. En el capítulo 8 se describen los materiales utilizados para llevar a cabo

este trabajo. Los métodos y algoritmos desarrollados en el sistema de visión para

reconocer y localizar los frutos se describen en el capítulo 9, en dos vertientes

diferentes, el reconocimiento basado en color y el reconocimiento basado en

propiedades relativas a la forma de los frutos. Los resultados obtenidos de la

aplicación al sistema de visión se presentan y discuten en el capítulo 10, donde

se establecerán los indicadores que medirán la eficiencia de los procedimientos

adoptados. Por último se expondrán las conclusiones derivadas de este trabajo.

Objetivos

31

Primera Parte

ESTUDIOS DE

ANÁLISIS DE IMAGEN

Capítulo 1

ILUMINACIÓN Y

ADQUISICIÓN DE IMAGEN

Una iluminación adecuada es esencial en un sistema de visión por

ordenador. La iluminación de la imagen es un factor importante que suele

afectar a la complejidad de los procesos de visión. La luz arbitraria del entorno

no suele ser aceptable ya que se obtienen imágenes con bajo contraste,

reflexiones especulares, sombras y detalles espúreos. Un sistema de luces bien

diseñado ilumina una imagen de forma que la complejidad del gráfico que se

obtiene sea mínima, aumentándose a su vez la información necesaria para la

detección y extracción del objeto, mostrando detalles que nunca se hubieran

percibido sin una correcta iluminación.

La importancia de la iluminación se refleja en la preocupación de varios

autores en el estudio de sistemas de fuentes de luz que permitan facilitar el

realce de ciertas características de la imagen, eliminando a su vez los elementos

espúreos o ruidosos a los que se ha hecho mención. El problema en general

consiste en el diseño de sistemas que produzcan una fuente de luz difusa

(Mundy, 1977), aunque para problemas concretos como reconocimiento de formas

tridimensionales se pueden utilizar métodos de iluminación estructurada (Rocher

& Keissling, 1975; Myers, 1980; van der Stuyft et al, 1991), o en el empleo de

ciertos iluminantes para resaltar características determinadas de la superficie de

los objetos (Paulsen & McClure, 1986). Todas estas técnicas fueron desarrolladas

en condiciones cerradas y controladas, en las que se podía evitar cualquier

interferencia con otra fuente de iluminación natural.

En las escenas que se suceden durante la recolección, la influencia de la

iluminación natural procedente del sol, cielo y por reflexión en otros objetos

cercanos es inevitable, no se puede controlar, causando los problemas ya

descritos, provocados por una variabilidad espacial de la luz, a la que se unen

los inconvenientes de obstáculos naturales y las condiciones meteorológicas

cambiantes en ambientes exteriores. Aunque si se ha intentado la mejora de

adquisición de imágenes diurnas mediante el apoyo de lámparas de varios tipos

(Tuttle, 1983; Sites & Delwiche, 1988; Levi et al, 1988) sus conclusiones fueron

que los mejores resultados se obtenían durante la noche, en ausencia de fuentes

de luz natural que interfirieran con la iluminación controlada con la que se

trabajaba, apuntando la necesidad de la obtención de un sistema mas sofisticado

que pudiera mejorar este aspecto (Sites & Delwiche, 1988). Slaugther (1987)

regulaba el diafragma del sistema óptico por medio de un mecanismo accionado

a las ordenes del sistema de visión, después de realizar una medida del nivel de

iluminación en la imagen, con ello pretendía controlar la variabilidad de la

iluminación natural, aunque en ciertos casos no obtenía los resultados deseados,

sobre todo cuando en la misma superficie del fruto existían zonas de iluminación

directa y zonas de sombra.

En este capítulo se aborda este problema con el fin de obtener un sistema

de iluminación que consiga una iluminación uniforme de la escena, tanto en

condiciones diurnas como nocturnas. Para ello, ya que la iluminación natural es

incontrolable, se intentará atenuar o enmascarar sus efectos lo mas posible con

respecto a la adquisición de la imagen, simulando condiciones similares a las

existentes durante las escenas nocturnas y en la que si es posible la supresión de

esa variabilidad espacial de la iluminación.

Otro enfoque con el que se puede abordar el problema es el desarrollo de

un método de reconocimiento en color que permita identificar y asociar cada

uno de estos fenómenos, como la reflexión especular o las sombras, a la

superficie del objeto correspondiente, que se tratará a fondo en el capítulo 5.

La segunda parte de este capítulo versará sobre, dada una estructura de

iluminación en la escena, la caracterización de la iluminación recibida y reflejada

por la superficie de los frutos considerando estos como objetos esféricos, y que

propiedades tiene la función iluminación que llega a un observador reflejada en

este tipo de superficies.

Estudios de análisis de imagen

36

1.1 Adquisición de imágenes mediante flashes

Como se indicó en el apartado anterior, los mejores resultados obtenidos

mediante el apoyo de iluminación en estos ambientes naturales, se dieron en

condiciones nocturnas. Rabatel (1988b) indicó que ciertamente se podría mejorar

la calidad de las imágenes mediante un aporte de iluminación artificial mediante

flashes, pero en escenas diurnas, para realizar esta aportación, se necesitaba una

potencia lumínica para superar la de la iluminación natural, que descartó en un

principio el método por no existir lámparas o flashes que pudieran suministrar

de tales magnitudes de luz.

El propósito de este apartado es la descripción de un método que permita

simular las condiciones de obscuridad que se dan durante la noche en horas

diurnas. Para ello se intentará enmascarar o minimizar el efecto de las fuentes

de luz natural, quedando como única iluminación la de la fuente de luz

adicional que en este caso será la utilización de flashes fotográficos.

Antes de la descripción del procedimiento de toma de imagen, se expondrá

el fundamento en el que se basa la técnica que aquí se describe. Para ello

utilizaremos un modelo de reflexión en la adquisición de la imagen. Con este

motivo y a lo largo de este trabajo se adoptará la terminología referente a

radiometría y fotometría descrita en el apéndice A. El modelo de reflexión y de

geometría de la imagen que se adoptará es el descrito por Lee et al (1990), el

cual se basa en la función de distribución de reflectancia espectral bidireccional

(BSRDF) fr, que se define como el cociente entre la radiancia reflejada en un

punto de una superficie dLr en la dirección de observación, y la irradiancia

incidente en el punto de la superficie dEi en la dirección de la luz incidente. Es

decir,

fr = dLr(θi,ϕi;θr,ϕr;λ;Ei)

dEi(θi,ϕi;λ)

donde (θi,ϕi) y (θr,ϕr) son los ángulos de las direcciones incidente y reflejada con

respecto a la normal de la superficie. Aplicando la definición de irradiancia y

Iluminación y adquisición de imagen

37

teniendo en cuenta que ωi es el ángulo sólido definido por el cono de luz

incidente, tenemos

Lr = ∫ dLr = ∫ fr dEi = ∫ frωi

Li cosθi dωi (1.1)

Como se demuestra en los trabajos de Horn & Sjoberg (1979), la

irradiancia espectral de la imagen Ep, es decir la irradiancia que se recibe en el

plano imagen desde un punto de la superficie (figura 1.1), es proporcional a la

radiancia espectral de la escena Lr, en la forma

Ep = Lr π4

df

2

cos4α (1.2)

donde d es el diámetro de la pupila de entrada del sistema óptico, f es la focal

de la lente y α es el ángulo que forma la dirección de observación con el eje

óptico.

d

rayoincidente

(θi,ϕ i)

(θr,ϕr)

α

y

x Pf

cámara

Q

N

Figura 1.1. Geometría de la imagen.


38

Supongamos que la irradiancia sobre un punto P de la superficie observada

es debida, en nuestro caso, sólo a la luz natural. Dado que la radiancia reflejada

en el punto Lr está relacionada con la irradiancia recibida Ei por la ecuación

(1.1), este termino no se puede variar en la ecuación (1.2) ya que no se puede

controlar la fuente de luz natural.

Para conseguir una disminución de la irradiancia espectral de la imagen

debida a la luz natural, fijada la geometría del problema, α, y la focal del

sistema óptico, f, solo queda el diámetro de la pupila de entrada, d, que como

sabemos es la imagen del diafragma de apertura en el espacio objeto. El

diafragma de apertura es el orificio del sistema óptico que limita la extensión

del haz que penetra en él procedente del punto objeto. Disminuyendo el

diafragma de apertura a niveles a los cuales la irradiancia espectral de la imagen

sea cercana al umbral de sensibilidad luminosa, en el que el dispositivo sensor

comienza a dar una señal de respuesta, conseguiremos que el efecto de la luz

natural sea minimizado.

En ese momento, iluminemos la escena con un haz de luz lo

suficientemente potente como para provocar una respuesta apreciable del

dispositivo detector, en este caso una cámara CCD. La irradiancia resultante

sobre el punto de la superficie objeto será debida ahora a la suma de ambas, la

natural y la suministrada artificialmente. La respuesta del sensor será debida casi

y exclusivamente a la iluminación adicional suministrada, ya que como hemos

descrito el efecto de la primera esta enmascarado por un cierre en el diafragma

de apertura.

Hay que hacer notar que el efecto de la iluminación natural no desaparece,

sino que como hemos dicho queda enmascarado ya que, analíticamente, si

llamamos Eni a la irradiancia incidente debida a la luz natural y Eai la debida a

la luz artificial, la radiancia reflejada resultante en la superficie del objeto Lr

será, de (1.1)

Lr = ∫ fr d(Eni+ Eai)


39

por tanto, el aporte de iluminación, Eai, produce que se sobrepase el umbral de

iluminación mínima de sensibilidad de la cámara, para que el sensor produzca

una respuesta significativa, entrando entonces en los niveles de iluminación

donde el sensor produce una respuesta lineal.

Este aporte suplementario de iluminación se realiza a través de un flash

fotográfico, que suministra una gran energía radiante en un instante lo

suficientemente largo como para poder adquirir una imagen. Para aprovechar la

luz del flash en el instante adecuado se debe sincronizar su disparo con la

adquisición de la imagen. Con este propósito se ha diseñado un algoritmo que

realiza esta tarea y que se describe a continuación.

1.1.1 Sincronización

Para realizar la sincronización del disparo del flash con la captura de la imagen

es necesario fijarnos en el funcionamiento de los sensores de imagen utilizados

(cámaras CCD) así como en la codificación de la imagen en señal de video.

Una descripción al efecto se encuentra en el apéndice B, de la que a partir de

ella podemos caracterizar el proceso que a continuación se describe.

Para que la iluminación aportada por el flash coincida con un cuadro

captado por la cámara, el disparo del flash debe efectuarse en el momento que

empieza el cuadro, mas concretamente al inicio del campo impar. Este instante

se puede determinar a partir de la señal de referencia (señal de sincronismo) de

la señal de video. Esta señal nos indica cuando estamos en un campo par o

impar o si estamos en un retorno de vertical.

El punto buscado es el final del retorno de vertical entre el campo par del

cuadro anterior y el campo impar del cuadro que pretendemos iluminar.

Llamemos a este instante el instante t0. Dado que la señal de referencia se

explora en el momento en que la señal de video ya ha sido codificada, la señal

de referencia examinada lleva un desfase de un campo respecto al proceso físico

de integración o captura de la imagen en el dispositivo (figura 1.2), por lo tanto

el instante t0 coincide en el comienzo del campo par del cuadro anterior al que

queremos adquirir, osea en el comienzo de la integración de la información del

campo impar que pretendemos capturar e iluminar.


40

No obstante, desde que se efectúa la orden de disparo, instante td, y el

disparo real, t0, existe un retraso tr. Por lo tanto, la orden real se debe efectuar

en el instante td. Para encontrar este instante se debe localizar el origen de

tiempos en el comienzo del retorno de vertical anterior a la salida par del

campo anterior (integración del campo impar buscado), a partir del cual esperar

un tiempo td respecto a este origen para efectuar la orden de disparo, que

después del retraso debido al circuito de disparo, se materializará en el punto t0

buscado. Obsérvese que td + tr = t0, y que t0 es la duración de un retorno de

vertical.

El proceso anterior se puede resumir en el siguiente algoritmo1

hacer

esperar mientras no estemos en campo impar;

hasta que no estemos en retorno de vertical;

esperar tiempo td;

orden de disparo;

orden de adquisición;

Figura 1.2. Señal de referencia y tiempos de sincronización del disparo.


41

1 En todos los algoritmos que se describen en este trabajo, el sangrado de sentencias al

mismo nivel indican que forman parte de un mismo bloque de instrucciones, pudiendo

ser un bloque de un bucle o una expresión condicional.

El bucle en el algoritmo anterior nos permite localizar el comienzo del

retorno de vertical anterior a la salida par (integración impar) del cuadro

anterior al que queremos capturar.

Con respecto a la implementación mediante un ordenador, la información

del estado de la señal de video es accesible por el microprocesador mediante

puertos E/S (de Entrada/Salida) que comunican con el sistema de digitalización y

adquisición de imágenes (ver sección 8.2), por tanto, sólo hay que leer

repetidamente los puertos y comprobar si nos encontramos en el momento

deseado.

La espera del tiempo td se implementa por medio de un bucle contador, ya

que es más preciso que, por ejemplo, las funciones de espera disponibles en las

librerías de algunos compiladores, por tanto, la cuenta de espera depende del

reloj del ordenador. De este modo, es obvio que la cuenta que simula el retraso

dependerá de la velocidad de proceso del ordenador utilizado y que deberá

ajustarse para cada uno de ellos.

La orden de disparo se realiza mediante un interfaz entre el ordenador y

el flash, este interfaz consiste en un relé, el cual introduce otro retraso, que se

conecta cuando se introduce en un puerto E/S del ordenador cierto dato. Al

conectarse el relé, se cierra el circuito de disparo del flash provocando el

destello. Este interfaz se ha realizado con tarjeta comercial de relés de las que

se encuentran en el mercado.

Por último la orden de adquisición se efectúa mediante la comunicación

con los puertos E/S del sistema de adquisición, escribiendo en ellos la orden de

captura. Es necesario resaltar que dependiendo del tipo o marca de sistema de

digitalización y adquisición de imágenes, la información que se suministra sobre

el estado de la señal de video puede variar en cada uno. Lo usual es que los

registros de estado del controlador de video del sistema de adquisición informen

si se encuentra en retorno de vertical o no, y si nos encontramos en un campo

par o impar, no obstante existen otros que, por ejemplo, indican si se encuentra

en retorno de vertical o no, y si en esos momentos se encuentra en las n

primeras líneas de un campo impar.


42

1.2 Modelo geométrico e irradiancia espectral imagen de los frutos

Con el objeto de obtener y caracterizar una representación en la imagen de los

objetos de interés, es necesario adoptar un modelo geométrico para la superficie

de los frutos, para poder analizar y establecer estas características al iluminar la

superficie del objeto y de que forma se recoge este fenómeno en su

representación en la imagen.

Para obtener este propósito es necesario estudiar, dada la superficie de un

objeto, como afecta a la irradiancia espectral de la imagen la iluminación que

recibe un objeto desde una fuente de luz con cierta posición relativa respecto al

sensor.

La superficie geométrica que se va a estudiar en este apartado para ver

como se comporta su correspondiente irradiancia espectral de la imagen, es la

superficie de una esfera. Esta es la superficie geométrica mas simple por la que

la mayoría de la superficie de los frutos se puede aproximar (naranjas,

melocotones, manzanas, tomates, etc), que, aunque éstos no sean exactamente

objetos esféricos, sí se comportan como tales un gran porcentaje de su superficie.

Además, todo lo que aquí se expone puede ser aplicable a cualquier objeto, sea

un fruto o no, que cumpla dentro de los limites aceptables las condiciones que

se impondrán.

El modelo de reflexión y geometría de la imagen que se utilizará para este

estudio, es el mencionado en el apartado anterior. El estudio del

comportamiento de la irradiancia espectral imagen nos conducirá, en última

instancia, a la repuesta del sensor a esta irradiancia que, al fin y al cabo,

contiene la información que verdaderamente se va tratar durante el proceso de

análisis de la imagen.

Supongamos que la superficie del objeto se comporta como una superficie

Lambertiana, es decir, como un difusor perfecto. Mas adelante ya se analizarán

las limitaciones de esta aproximación. Para un difusor perfecto, el factor fr

correspondiente a la función BSRDF de la ecuación (1.1) es igual a la constante

1 ⁄ π, por lo tanto tenemos que


43

Lr = 1⁄π ∫ dEi = Eiπ

es decir, la radiancia reflejada en un punto de la superficie de un difusor

perfecto es igual a la irradiancia recibida por una constante de proporcionalidad.

Introduciendo este resultado en la ecuación (1.2), tenemos que la irradiancia

espectral imagen de un punto perteneciente a una superficie que se comporta

como un difusor perfecto es

Ep = 14

df

2

cos4α Ei (1.3)

Si se define la respuesta o señal de salida del un sensor k, Vk como la

integración en todo el espectro de la irradiancia espectral imagen pesada por la

sensibilidad espectral del sensor Rk y la transmitancia espectral del filtro que

posea τk (por ejemplo, Rojo, Verde o Azul), tenemos

Vk = ∫ Rk(λ) τk(λ) Ep(λ) dλ

Si consideramos que la superficie del objeto es homogénea, y que la

composición espectral de la irradiancia que incide sobre ella es la misma en

toda la superficie del objeto, la irradiancia incidente se puede expresar como

Ei(θi,ϕi;λ) = c(λ) Ei(θi,ϕi)

donde c(λ) solo contiene información sobre la parte espectral del flujo radiante

incidente y Ei(θi,ϕi) es un factor que solo depende de la geometría del rayo de

luz incidente en un punto determinado de la superficie. Esta expresión es válida,

en las condiciones expuestas, para cualquier punto de la superficie del objeto.

Introduciendo la expresión anterior de Ei en la expresión de la irradiancia

espectral imagen encontrada en la ecuación (1.3), obtenemos


44

Ep = 14

df

2

cos4α c(λ) Ei(θi,ϕi)

e introduciendo ésta en la expresión de la respuesta del sensor Vk, llegamos a la

expresión

Vk = 14

df

2

cos4α Ei(θi,ϕi) ∫ c(λ) Rk(λ) τk(λ) dλ

en la que salen de la integral los términos independientes de la longitud de

onda λ.

Fijadas las características del flujo espectral del iluminante, reflejadas en

c(λ) , y las del sensor, Rk(λ) y τk(λ) , el término correspondiente a la integral es

una constante para todos los puntos de la superficie del objeto, llamémosle

Vp = ∫ c(λ) Rk(λ) τk(λ) dλ. Con ello la respuesta del sensor k queda expresada

como

Vk = 14

df

2

cos4α Vp Ei(θi,ϕi)

Fijados los parámetros del sistema, el diámetro de la pupila de entrada d,

la focal de la lente f y el factor Vp son constantes. El ángulo α entre el eje

óptico y la dirección del punto de la superficie con respecto al punto de

observación, es un factor que viene normalmente corregido en los sistemas

ópticos de las cámaras, ya que de lo contrario la imagen que se obtendría iría

oscureciéndose de una manera significativa cuanto más nos alejáramos al punto

central del plano imagen. Por lo tanto podemos concluir que, la forma analítica

de la función respuesta del sensor Vk es la misma que la forma analítica de la

función irradiancia incidente Ei, independientemente de la composición espectral

que tenga ésta.

Por lo tanto, analizando la forma de la expresión de la irradiancia incidente

de la superficie del objeto que se percibe desde la dirección de observación,


45

conoceremos la forma analítica de la respuesta del sensor a esta irradiancia en

función de la situación de cada punto de la superficie del objeto.

Para ello consideremos un sistema de coordenadas cuyo origen sea el

centro de la esfera correspondiente al objeto observado, y con el eje z que

coincida con el eje óptico de la dirección de observación, de esta forma el plano

xy objeto tiene su correspondiente proyección en el plano imagen a través del

sistema óptico, y el eje z coincide en ambos. Todos los valores de la función

irradiancia incidente sobre cada punto de la superficie del objeto tiene su

correspondiente respuesta del sensor, que como hemos visto es proporcional a

ésta, y localizada espacialmente en el plano imagen según la proyección de sus

correspondientes puntos en la superficie del objeto a través del sistema óptico.

La ley del cuadrado de la distancia entre la irradiancia E que recibe un

elemento de área dS y la intensidad radiante I que llega a ese elemento de área

que sale desde un punto fuente de luz a una distancia r a través del ángulo

sólido dω subtendido por dS respecto del punto fuente de luz, teniendo en

cuenta que dω = dS cosβ ⁄ r2, nos indica que

E = dFdS

= I dωdS

= I cosβ

r2 (1.4)

x

v→i

βdω

β r

y

v→s

n→

z

Figura 1.3. Iluminación de un objeto esférico.


46

donde β es el ángulo que forman la dirección incidente que comprende dω y la

normal al elemento de superficie dS (figura 1.3).

Si admitimos que la intensidad radiante de la fuente de luz es constante

sobre cada punto de la superficie del objeto observado, es decir, que la

intensidad radiante es la misma al menos en el rango de direcciones

correspondientes a cada ángulo sólido que subtiende cualquier elemento de la

superficie del objeto observado y el punto fuente de luz, este factor será una

constante en la ecuación anterior. Además si consideramos que la fuente de luz

está lo suficientemente lejana respecto al radio de la esfera que se puede

considerar que cualquier punto de la superficie del objeto esta a la misma

distancia r del foco de luz, el único término que nos queda es el termino

angular cosβ, que nos indicará cual es la forma de la función irradiancia E sobre

la superficie del objeto.

Para encontrar la expresión de la función irradiancia sobre la superficie

esférica en función de las coordenadas x e y, veamos cual es la expresión que

tiene el cosβ en función de estas variables. De esta forma encontraremos la

expresión de la respuesta del sensor en función de las coordenadas imagen x′ ,y′ .

Por último supongamos que la fuente de luz sea colimada sobre la

superficie de la esfera, es decir, que todos los rayos de luz que inciden en la

superficie del objeto son paralelos, aproximación aceptable en el caso de

iluminación difusa, o como hemos supuesto antes, que el foco se encuentre a

una distancia considerable del objeto con relación al radio de la esfera.

Consideremos un vector unitario v→i con origen en el sistema de

coordenadas y dirección la dirección de los rayos de luz incidente, y el vector de

posición de un elemento de superficie dS sobre la superficie de la esfera, v→s. El

ángulo β entre la dirección incidente y la normal al elemento de superficie dS

será el mismo ángulo que forman los vectores v→i y v→s.

Si (R,θs,ϕs) son las coordenadas esféricas del elemento de área dS respecto

a este sistema, y (1,θi,ϕi) son las coordenadas del vector unitario en la dirección

del rayo incidente, sus correspondientes coordenadas cartesianas serán:


47

v→s = (R senθs cosϕs,R senθs senϕs,R cosθs)

v→i = (senθi cosϕi,senθi senϕi,cosθi)

Dado que el coseno entre dos vectores se define como

cosβ = cosvivs^ =

v→i v→

s

| v→i| | v→s|

Realizando el producto escalar de los vectores v→i v→

s según la expresión en

cartesianas anterior, y teniendo en cuenta que | v→i| = 1 y que | v→s| = R

obtenemos para la expresión del cosβ

cosβ = senθi cosϕi senθs cosϕs + senθi senϕi senθs senϕs + cosθi cosθs

Expresando las funciones trigonométricas de los ángulos θs y ϕs en función

de las coordenadas x e y del vector v→s = (x,y,√R2 − x2 − y2 ), tenemos que, según

las definiciones de seno y coseno, observando la figura 1.4,

√x 2+ y 2

R

ϕ

z= √ R 2− x 2− y 2

y

x

θ

Figura 1.4. Coordenadas cartesianas y esféricas de un punto sobre la esfera.


48

cosθs = √R2 − x2− y2

R; senθs =

√x2+ y2

R

cosϕs = x

√x2+ y2 ; senϕs = y

√x2+ y2

que introduciéndolos en la expresión de cosβ anterior, y a su vez en la ecuación

(1.4), obtenemos el resultado

E(x,y,θi,ϕi) = I

r2 senθi cosϕi

xR

+ senθi senϕi yR

+ cosθi √R2− x2− y2

R (1.5)

expresión de la irradiancia que reciben los puntos sobre la superficie de la

esfera en función de la dirección incidente θi,ϕi y de las coordenadas x,y del

punto respecto al sistema de coordenadas elegido. Recordemos que esta

expresión es válida en los siguientes supuestos, que se pueden resumir en:

-Comportamiento lambertiano de la superficie del objeto.

-Fuente de luz suficientemente lejos en relación al radio de la esfera

objeto.

La suposición de una fuente colimada es consecuencia de la segunda

condición, al igual que la condición de que la intensidad radiante del foco sea

constante sobre la superficie de la esfera.

Para interpretar el resultado obtenido, supongamos que el iluminante se

encuentra sobre el eje z, es decir, los rayos inciden en la misma dirección que

la de observación; lo que significa que θi = 0 y ϕi queda indeterminado.

Sustituyendo estos valores en la ecuación (1.5) y teniendo en cuenta que el

producto de un término indeterminado por cero es cero, obtenemos

E(x,y) = I

r2 √R2− x2− y2

R

que representa la ecuación de un elipsoide. Ello significa, según lo expresado a

lo largo de este apartado, que representando el valor de la respuesta del sensor


49

en cada punto del plano imagen Vk(x′ ,y′) respecto a la coordenadas imagen x′ ,y′ ,

la forma de la superficie obtenida es un elipsoide.

Además, en estas condiciones, la proyección de este elipsoide en el plano

imagen es una circunferencia de radio igual a la proyección a través del sistema

óptico del radio real de la esfera R. Es decir, si E(x,y) = 0 en la ecuación

anterior obtenemos que x2 + y2 = R. Por lo tanto el contorno de una región en

la imagen perteneciente a un objeto esférico es circular, tal como ya

pronosticaban las leyes de la óptica geométrica. Lo mismo ocurre en cualquier

posición relativa del iluminante, en la que si proyectamos E(x,y) sobre el plano

xy obtenemos el mismo resultado, teniendo en cuenta que en la ecuación (1.5)

E(x,y) = 0, y que en el plano xy el senθi = 0.

1.3 Experimentos y discusión

1.3.1 Toma de imagen con flashes

El método de toma de imágenes con flashes descrito en el apartado 1.1 fue

implementado y probado adquiriendo imágenes de escenas naturales de naranjas

durante el día. El equipo utilizado es el descrito en el capítulo 8, colocando un

flash junto a la cámara y disparándolo mediante una tarjeta de interfaz de relés.

En la figura 1.5 se muestra una imagen RGB típica de una escena de

frutos en su ambiente natural. En la figura 1.6 se muestra la misma escena

tomada por el procedimiento descrito de sincronización con el disparo de flash,

reduciendo el diafragma de apertura a niveles de respuesta mínima de la cámara

cuando el flash está inactivo. En ellas podemos notar la diferencia en la

iluminación. En la figura 1.5 vemos los efectos de la variabilidad espacial de la

iluminación, con luces y sombras, incluso en la misma superficie de los frutos.

En la figura 1.6 vemos como el efecto es realmente como si se tratase de una

escena nocturna, en la que la iluminación es totalmente uniforme y, en

apariencia, debida exclusivamente a la iluminación procedente del flash.

Obsérvese también que la casi totalidad de las reflexiones especulares en

diversos elementos de la figura 1.5 han desaparecido en la figura 1.6, de esta

forma se obtienen imágenes menos ruidosas y más fáciles de tratar, sobre todo


50

Figura 1.6. Misma escena que la imagen de la figura 1.6 tomada con sistema de iluminación de flash.

Figura 1.5. Imagen de frutos con iluminación natural.


51

cuando se trata de extraer información acerca de los contornos de los objetos de

la imagen, que, a través de la imagen sin flash, se verían seriamente alterados

debido a los cambios de luminosidad en las superficies de los objetos que no se

corresponden a la presencia de contornos reales de los objetos.

Uno de los efectos que caracteriza las imágenes tomadas con flash es que,

como en condiciones nocturnas, la iluminación decrece con el cuadrado de la

distancia al foco, por ello vemos como los objetos que se encuentran mas

alejados en la figura 1.5 no aparecen en la figura 1.6, así como las zonas

pertenecientes a trozos de cielo, donde la luz del flash no llega. Este efecto es a

la vez beneficioso en dos aspectos, primero que desaparecen de la imagen

posibles frutos que, dado que están alejados, el robot no puede alcanzar, y

segundo, dado que no se encuentran en la imagen, el sistema de visión no

desaprovecha el tiempo de proceso en detectarlos y localizarlos, aumentando el

rendimiento en tiempo.

Estudios comparativos realizados dentro de este mismo proyecto por Moltó

et al (1990), demuestran que la adquisición de imágenes con y sin el apoyo de

flashes en un algoritmo de detección basado en imágenes en blanco y negro

filtradas en rojo y segmentación por umbral, conseguía aumentar la tasa de

detección de un 62 % a un 80 % de los frutos visibles, y disminuir los errores

de detección de un 88 % a un 15 % respecto del total de objetos detectados

como frutos, probando claramente la efectividad del mismo.

1.3.2 Elipsoides

En el caso de la utilización del flash para la adquisición de la imagen, según la

configuración mencionada, podemos considerar las condiciones del supuesto

realizado al final del apartado 1.2 en el que la dirección de iluminación

coincidía con la dirección de observación, que como vemos, situando el flash

junto a la cámara, podemos realizar esta aproximación.

Dado que las distancias a que se encuentra la cámara y el flash de los

frutos, como término medio 1,5 m , es mucho mayor que el radio medio de los

frutos, alrededor de 0,05 m , también podemos aceptar la suposición realizada en


52

el apartado anterior de que los rayos de luz incidentes en al superficie de objeto

pudieran considerarse paralelos.

En cuanto a la suposición de que la superficie de los frutos se comporte

como una superficie lambertiana, es sabido que no es realmente así, como en la

casi totalidad de superficies reales, sin embargo, como veremos, esta

aproximación no va a interferir significativamente en los métodos y resultados

que se obtienen descritos en los próximos capítulos. Ello es debido a que,

asumiendo que solo existe reflexión difusa y superficial (modelo dicromático) en

la superficie de un objeto, el comportamiento especular de la superficie de la

esfera es casi nulo en la gran totalidad de su superficie y solo es apreciable en

la zona donde el ángulo de incidencia es muy cercano al cero.

Esto es debido a que, asumiendo como modelo de reflexión en la

superficie de un objeto el modelo dicromático propuesto por Shafer (1984) (ver

apéndice E), en el que la luz reflejada por la superficie de un objeto es debida

a la reflexión difusa cuando la luz incidente penetra en el cuerpo y a la

reflejada en la superficie. Gershon (1987) modeló los pesos específicos de cada

una de ellas, fijando para un ángulo entre la dirección de iluminación y el

difusa

ángulo de incidencia (grados)

superficialpeso de lascomponentes

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90

1.1

1

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0

Figura 1.7. Variación de la reflexión superficial y difusa en función del ángulo de incidencia.


53

observador de 120 grados. En la figura 1.7 se muestra el resultado que obtuvo

frente al ángulo de incidencia con respecto a la normal en el punto. Vemos en

ella que solo existe una zona estrecha y puntiaguda alrededor del ángulo de 60

grados, es decir, coincidiendo con el ángulo de reflexión en la línea de

observación, teniendo un efecto nulo o casi nulo en los demás ángulos.

Mediante la configuración elegida en la toma de imágenes con flash, la

situación anterior se traduce en que solo alrededor de la zona de ángulo de

incidencia de cero grados existe un efecto apreciable debido a reflexión

superficial. Esto se puede observar en la figura anterior (figura 1.6), en la que el

pequeño punto brillante en el centro de las naranjas representa la zona en la

que afecta la reflexión superficial.

En la figura 1.8 se muestra la representación de la superficie imagen de

una escena de naranjas, es decir, el nivel de gris de la imagen en función de la

columna, x, y la fila, y, de la imagen. Esta imagen ha sido tomada con flash, por

lo que se cumplen las condiciones mencionadas en este apartado. Podemos

observar que realmente las zonas de la superficie donde se encuentran los frutos

se aproximan a semielipsoides, o elipsoides partidos por la zona ecuatorial. En la

figura 1.9 podemos observar la representación de una fila de una imagen la cual

Figura 1.8. Representación 3D de los valores de una imagen de naranjas.


54

corta a un fruto. Esta representación es un corte de la superficie imagen con un

plano perpendicular al xy en la dirección y a una altura y0 determinada.

Observamos que la zona donde se encuentra la naranja es aproximadamente

igual a una elipse, producto del corte del elipsoide de la manera citada. En el

capítulo 3 se demostrará que realmente estas zonas se ajustan a una elipse con

un grado de error bastante pequeño, no interfiriendo mucho la zona especular

que como vemos, observando la figura 1.9, es muy reducida alrededor del punto

máximo de la elipse, o sea del elipsoide en la figura 1.8, y que incluso esto solo

sucede en las elipses producto de los cortes del elipsoide que pasen muy cerca

de la zona central, como podemos apreciar en la figura 1.8.

Resumiendo, se dispone de un sistema que permite la adquisición de

imágenes de una calidad suficiente para un tratamiento adecuado, consiguiendo

que la iluminación sea uniforme en toda la escena y que no aparezcan la

mayoría de los elementos espúreos o ruidosos que son comunes en este tipo de

escenas en ambientes naturales. Además se dispone de un modelo geométrico y

de representación imagen de los objetos de interés que resulta válido para los

propósitos fijados, siendo la situación real próxima a la ideal desarrollada en este

capítulo. Por lo tanto, estamos en condiciones de desarrollar la metodología

adecuada para extraer las características y los parámetros que determinen un

modelo de este tipo a través de la información disponible en la imagen, con el

estudio de la forma de la superficie imagen y de los contornos de los objetos

que, en este caso, se aproximen a objetos esféricos.

Figura 1.9. Representación de los niveles de gris de una fila de una imagen de naranjas.


55

Capítulo 2

CONCAVIDAD E IMÁGENES

Adoptando el modelo expuesto en el capitulo anterior, considerando que

los frutos tales como las naranjas, se pueden aproximar como objetos esféricos,

hemos obtenido una representación de su irradiancia espectral imagen en función

de las coordenadas espaciales x e y, homólogas a las x′ e y′ de la imagen.

Tomando como punto de partida esta ecuación en su forma mas general

(ecuación 1.5) se intentará buscar la forma de caracterizar las zonas en la

imagen que se ajusten a esta función, a través del cálculo de sus propiedades

analíticas.

Cox et al (1989) realizaron estudios en la misma línea para localizar

objetos esféricos en imágenes aéreas. Su metodología se basaba, primero en la

concepción de un modelo de reflexión en las superficies de los objetos, modelo

que pretendía caracterizar la orientación del gradiente de la intensidad luminosa

en un punto de la superficie, asumiendo que se comportaba como un reflector

lambertiano. Con ello se pretendía localizar zonas de la imagen donde la

variación de luminosidad fuera suave, como corresponde a la superficie de una

esfera. Para ello se utilizaban operadores gradiente para calcular el ángulo de la

dirección del gradiente.

A partir de imágenes muestra de objetos esféricos se determinaba a priori,

a través de la relación encontrada entre variación de la luminosidad y ángulo de

incidencia de la luz, la posición relativa del iluminante al objeto, con el fin de

utilizarla para verificaciones posteriores.

El procedimiento para localizar los objetos esféricos se basaba en la

búsqueda de puntos candidatos por medio de una correlación con una muestra

de objeto esférico tomada a priori. A partir de estos puntos se realizaba una

segmentación por crecimiento de regiones con el criterio de continuidad en los

ángulos gradiente de los puntos vecinos. Por último se realizaba una

comprobación de que esa región era una esfera verificando que el ángulo de

incidencia del iluminante calculado a partir de esta región coincidía con el real,

y además que la proporción del área de la región en relación al perímetro fuera

similar a la de un circulo, y por último que la relación entre los tres tipos en

que se dividía el área de la región (sombra, mate y especular) fuera similar a la

establecida en un proceso de ajuste anterior. Este proceso de calibración de

estas tres zonas se realizaba analizando el histograma de niveles de gris

originales y de la imagen gradiente transformada de la imagen de una esfera

muestra.

La utilización de la información que se recibe a través de una imagen para

averiguar la forma de los objetos ha sido tratada en la literatura en su forma

general a través de lo que se denomina shape from shading, cuyo precursor fue

Horn (1974). La idea consiste en, asumiendo un modelo de reflexión sobre la

superficie de los objetos, averiguar la orientación del vector normal a la

superficie en cada punto de los objetos a través de la luz que procedente de

ellos capta el sensor. Varios autores han seguido los pasos de Horn (Atsuta et

al, 1988; Wenjun & Yuanhua, 1988; Brown & Shvaytser, 1990), introduciendo

modificaciones al método inicial, pero la aplicación práctica de estas técnicas

queda aún lejos de ser efectivas y menos aún en situaciones donde la

iluminación no es apropiada.

En este capitulo se expondrán los principios en que se basa el desarrollo

de un método de segmentación que permite localizar objetos esféricos

independientemente de la posición relativa del iluminante. La segmentación que

se obtiene es producto de una transformación de la imagen a partir de

propiedades analíticas del modelo de irradiancia encontrado para un objeto

esférico. A diferencia de Cox et al (1989) la transformación que aquí se propone

realiza directamente la segmentación y caracteriza cierto tipo de zonas de la

imagen con cierta propiedad, la concavidad, que tiene la forma analítica de la

irradiancia imagen de una superficie esférica. A continuación se describirá la

transformación que permita cuantificar y resaltar esta propiedad por medio de


58

operadores direccionales segunda derivada. Por último se expone una sección

dedicada a los resultados de los experimentos realizados así como la

comparación de estos con otro operador conocido y la discusión de los

resultados obtenidos.

2.1 Concavidad de la irradiancia imagen de una esfera

El hecho que impone la extracción de información sobre objetos esféricos a

partir de la forma de su irradiancia espectral imagen es que en análisis de

imagen solo se dispone de esta información, la información que capta el sensor

o cámara a partir de la luz que recibe de la superficie del objeto.

Tal como hemos apuntado, partiendo de la ecuación 1.5 que corresponde a

la forma más general de la irradiancia imagen de una superficie esférica en las

condiciones mencionadas en el capítulo 1, podemos, en primer lugar, fijarnos en

una propiedad de esta función que es válida para cualquier tipo de orientación

del iluminante respecto del observador, orientación denotada por los ángulos θi,ϕi

de la dirección de los rayos incidentes respecto al sistema de coordenadas

establecido, tal como se describe en la figura 1.3. Recordando la forma de la

ecuación 1.5, esta tenía la expresión

E(x,y,θi,ϕi) = I

r2 senθi cosϕi

xR

+ senθi senϕi yR

+ cosθi √R2− x2− y2

R (1.5)

Centrémonos sólo en la curva que se obtiene de la intersección de esta

superficie sobre el plano xz, para ello hagamos y = 0 en la ecuación anterior,

con lo que obtenemos

E(x,θi,ϕi) = I

r2 senθi cosϕi

xR

+ cosθi √R2− x2

R

Concavidad e imágenes

59

Dada la posición del iluminante, los valores de los ángulos θi,ϕi, la

distancia del objeto al iluminante r, y el radio de la esfera objeto R, son

constantes en la ecuación anterior, pudiendo re-escribir ésta de la forma

E(x) = k1 x + k2 √1− k3 x2

donde

k1 = I

r2 senθi cosϕi

R

k2 = I

r2 cosθi

k3 = 1 ⁄ R2

Calculando la segunda derivada de E(x) respecto de x, obtenemos la

expresión

d2E(x)dx2

= − k2 k3 √1− k3 x2 + k3 x2 ⁄ √1− k3 x2

1− k3 x2

Analizando esta expresión vemos que, para valores de x comprendidos entre

− R≤ x≤ R, es decir, puntos de la superficie de la esfera, el denominador es

siempre positivo, ya que k3 x2≤ 1 en estos casos. Antes de analizar el numerador

veamos que ocurre con las constantes k2 y k3. La constante k3 es siempre

positiva, ya que el radio de la esfera R es siempre una magnitud positiva. En

cuanto a k2, en primer lugar la intensidad radiante del iluminante, considerada

constante en las condiciones establecidas en el capítulo anterior, es una magnitud

positiva, ya que esta se define como el flujo radiante por unidad de ángulo

sólido en cierta dirección, o sea, en vatios/estereoradián, magnitudes positivas; la

distancia del objeto al foco r, como tal distancia también es una magnitud

positiva; y por último el termino cosθi, considerando que el iluminante, dado los

dos semiespacios que definen el plano xy, se encuentra en el semiespacio donde

el semieje z positivo, es decir, que los rayos incidan en el sentido desde el


60

observador al objeto, pues si no, en caso contrario, el observador no vería la

superficie del objeto iluminada, entonces el ángulo θi de la dirección de los

rayos iluminantes respecto al sistema de coordenadas establecido varia de la

forma 0≤ θi≤ π ⁄ 2. Por lo tanto la constante k2 es asimismo una constante

positiva. Por último, tomando el signo positivo de las raíces cuadradas, ya que el

negativo no tiene significado físico, dado que no podemos observar esta cara del

objeto desde el otro lado, llegamos a la conclusión de que todos los términos en

la ecuación anterior son positivos, pero como toda la expresión está afectada por

un signo negativo, podemos afirmar que la segunda derivada de la irradiancia

espectral imagen es siempre negativa sobre la superficie de un objeto esférico en

la dirección del eje x.

El resultado anterior se puede generalizar para cualquier dirección sobre el

plano xy, ya que siempre podemos cambiar la orientación de los ejes x e y para

que el eje x coincida con cierta dirección, no perdiendo validez la ecuación (1.5)

de la irradiancia espectral de la imagen.

Según la definición de concavidad de una función f(x→), una función es

cóncava en cierta dirección v→, si la derivada segunda de la función en esa

dirección es menor que cero,

d2f(x→)dx

→2

v→ < 0

Dado que la irradiancia espectral imagen E(x,y;θi,ϕi) en cualquier punto de

la superficie de un objeto esférico posee una segunda derivada negativa en

cualquier dirección, podemos afirmar que la irradiancia espectral imagen

E(x,y;θi,ϕi) en cualquier punto de la superficie de un objeto esférico es una

función cóncava en cualquier dirección.

Ya que esta propiedad se cumple para cualquier orientación del iluminante,

también se cumple en el caso descrito en el capítulo anterior cuando los rayos

de luz inciden en la misma dirección que la dirección del observador, como en

el caso del apoyo de iluminación artificial mediante flashes. A partir de esta

propiedad, en los apartados siguientes se describe un método por el que, a


61

partir de la información que facilita la respuesta del sensor, directamente

relacionada con la irradiancia espectral imagen (sección 1.2), podemos resaltar y

cuantificar esta propiedad de los puntos que constituyen la imagen.

2.2 Operadores segunda derivada

Los operadores segunda derivada son tradicionalmente utilizados para la

extracción o realce de bordes (apéndice D). El operador segunda derivada por

excelencia es el Laplaciano, el cual tiene la característica de ser independiente

de dirección, dando como resultado una magnitud escalar. Los bordes, al aplicar

operadores segunda derivada, se caracterizan por anular este operador en los

puntos donde existe una variación acusada del nivel de gris en la imagen.

Otros operadores segunda derivada mas sofisticados y que dan mejores

resultados son los operadores de Marr (Marr, 1982) u operadores "sombrero

mejicano" (ver apéndice D). Se distinguen por ser la conjugación de dos

operaciones al tiempo, un suavizado con un filtro Gausiano pasa baja, y el

operador Laplaciano. Ello permite, variando la desviación típica de la Gausiana,

detectar bordes a diferentes escalas espaciales en la imagen. Por tanto, la ventaja

de este operador reside en poder extraer bordes en sólo cierto rango de

variabilidad espacial, evitando el resto de bordes que no sean de interés para el

problema en concreto.

Los operadores independientes de la dirección, como los Laplacianos o los

"sombrero mejicano", tienen precisamente este inconveniente, que pierden la

información que proporciona cada dirección; en cambio tienen la ventaja de que

la operación se realiza con una sola convolución, con el consiguiente ahorro en

coste computacional.

No obstante, según lo expuesto en el apartado anterior, nos interesa un

operador que nos de información en cierta dirección, para conocer si un punto

de la imagen es cóncavo en esa dirección, es decir, la finalidad con que se va a

aplicar aquí los operadores segunda derivada es distinta a la utilizada para la

detección o realce de bordes. Lo que interesa averiguar en este caso es si la

segunda derivada de la función nivel de gris que representa la imagen es


62

negativa en una dirección dada. Para ello utilizaremos el "sombrero mejicano"

unidireccional, dado que es el operador segunda derivada más completo, por las

razones antes mencionadas (ver apéndice D). De esta manera, los puntos

cóncavos en una dirección r de la imagen I(x,y) serán los que satisfagan la

condición

δ2G(r)δr2

∗ I(x,y) < 0

donde δ2G(r) ⁄ δr2 es el operador "sombrero mejicano" en la dirección r, y ∗

denota el operador convolución. Si la función Gausiana no normalizada tiene la

forma G(r) = e(− r2⁄2πσ2), donde σ es la desviación típica de la Gausiana, el

operador "sombrero mejicano" en la dirección r tendrá la expresión

δ2G(r)δr2

= − 1

πσ2 1 −

r2

πσ2 e− r

2 ⁄ 2πσ2

(2.1)

Según la conclusión a la que se ha llegado en el apartado anterior, un

punto de la imagen perteneciente a la superficie de un objeto esférico cumplirá

que la segunda derivada del nivel de gris en ese punto es menor que cero para

cualquier dirección, es decir, será cóncavo en cualquier dirección, condición que

se puede expresar de la forma

δ2G(r)δr2

∗ I(x,y) < 0 para todo r∈ Sr

siendo Sr el conjunto de posibles direcciones en el plano xy.

2.3 La transformación Concavidad

El concepto que se acaba de exponer es imposible de manejar en una situación

real ya que, primero, existen infinitas direcciones que pueden atravesar un punto,

con lo que es imposible e irrelevante, desde el punto de vista práctico, evaluar


63

la concavidad en un punto en infinitas direcciones. Por otra parte, en una

situación real, con datos obtenidos a través de un sensor físico como es una

cámara CCD, así como todos los procesos intermedios de transporte y muestreo

de la señal, se introduce ruido o efectos espúreos en los datos disponibles, por

ello es usual que existan direcciones en las que un punto imagen perteneciente a

una superficie esférica, aún reflejando la luz de una forma perfectamente difusa,

el resultado de aplicar el operador derivada sea negativo, y menos aún cuando la

superficie no se comporta idealmente como un reflector difuso.

El objetivo perseguido es encontrar una transformación que, a partir de la

imagen original I(x,y) y utilizando operadores segunda derivada, obtengamos una

imagen transformada C(x,y) donde a cada punto (x,y) se le asigne un valor que

cuantifique lo que llamaremos el "grado de concavidad" de la función original

I(x,y) en ese punto. Para ello definamos previamente que características definirán

el "grado de concavidad" en un punto.

El "grado de concavidad" en un punto deberá tener en cuenta que, si ese

punto es cóncavo en cierta dirección, cuanto mayor sea el segmento de puntos

continuos al punto en cuestión en esa dirección, los cuales a su vez sean

cóncavos, es natural que se le debe asignar un índice del "grado de concavidad"

dependiendo de estos puntos. Es decir, si una función es cóncava a lo largo de

dos segmentos, uno de longitud l1 y otro de longitud l2, con l1< l2, el "grado de

concavidad" de los puntos en el segmento l1 será menor que en el de los puntos

que forman el segmento l2.

Por otra parte, se puede considerar que el "grado de concavidad" en un

punto también es función del número de direcciones a lo largo de las cuales ese

punto es cóncavo. Así, un punto tendrá un índice de concavidad mayor cuantas

mas direcciones existan en las que ese punto tenga valor negativo en la segunda

derivada en tales direcciones. Como se ha apuntado anteriormente, el número de

direcciones a través de un punto son infinitas, siendo intratables todas ellas, por

ello se definirá un conjunto finito de direcciones Sr sobre las que se definirá el

"grado de concavidad".


64

De esta manera, y teniendo en cuenta lo dicho en párrafos anteriores, se

define la transformación concavidad C(x,y), la cual evalúa y asigna el "grado de

concavidad" en un punto de la imagen I(x,y), como

C(x,y) = ∑ P(r)r∈ Sr

lr(x,y)

donde Sr es el conjunto finito de direcciones r definido, lr(x,y) es la longitud del

segmento de puntos continuos en la dirección r cuya segunda derivada en esta

dirección sea negativa y en el cual esta incluido el punto en cuestión (x,y), es

decir, todos los puntos del segmento lr(x,y), incluido el punto (x,y) cumplen la

condición (δ2G(r) ⁄ δr2) ∗ I(x,y) < 0. El término P(r) es un peso que se le asigna a

cada dirección r∈ Sr, el cual es función, sobre todo y, como veremos en el

siguiente apartado, de las escalas relativas entre la coordenada x e y debido a la

especial geometría de la formación de la imagen. La función peso P(r) podría

ser también función del punto (x,y), es decir P(r,x,y), ya que, por ejemplo, se le

podría asignar un mayor peso al punto (x,y) cuanto más cerca del centro del

segmento lr(x,y) se encontrara, lo que significaría dar una mayor importancia o

un mayor índice del "grado de concavidad" a los puntos mas centrados de los

segmentos cóncavos que a los de los extremos.

En el caso digital, la longitud del segmento lr(x,y) no es sino el número de

puntos consecutivos cóncavos en la dirección r que incluyen el punto (x,y), que

denotaremos ncr(x,y), con lo que finalmente la transformación concavidad de la

imagen I(x,y) queda definida como

C(x,y) = ∑ P(r)r∈ Sr

ncr(x,y) (2.2)

Esta transformación tiene dos propiedades. Primero, debido a la

información direccional que contiene, esta transformación asigna valores que

varían suavemente en regiones convexas, topologicamente hablando, de puntos

cóncavos en la imagen I(x,y), ya que, imaginemos una región cuyos puntos sean


65

cóncavos y que sea convexa, es decir, que cualquier par de puntos de la región

puede unirse con un segmento de línea recta cuyos puntos están todos

contenidos en la región; por lo tanto, dada una dirección, a los puntos del

segmento de la región en esa dirección se le asigna un mismo valor, que se verá

suavemente modificado respecto de sus contiguos por la diferencia de longitud

de los segmentos que pasen por ellos en las otras direcciones definidas, y debido

a que es un conjunto convexo, la longitud de segmentos paralelos que unen dos

puntos del borde varia continua y suavemente, por lo tanto, variará continua y

suavemente el valor del "grado de concavidad" de los puntos en esa región

convexa.

En segundo lugar, esta transformación incluye a su vez la posibilidad de

detección o extracción de bordes, ya que los bordes de las regiones conexas que

posean un "grado de concavidad" no nulo son los valores cruce por cero de los

operadores de Marr, siendo bordes reales de objetos o variaciones notables de

luminosidad en la imagen original I(x,y).

2.4 Implementación

Para implementar la transformación concavidad se definen en la práctica un

conjunto Sr de cuatro direcciones, direcciones que coinciden con las de los ejes

coordenadas x e y definidos sobre la imagen como muestra la figura 2.1, y los

dos sentidos diagonales con una inclinación

de 45 y 135 grados respectivamente respecto

al eje x. Se eligieron estas cuatro direcciones

por estar homogeneamente repartidas y dado

que coinciden de esta manera con la

representación de la imagen, facilita los

cálculos a la hora de su implementación. El

cálculo de la derivada segunda en más

direcciones no aporta mucha más

información, ya que en imágenes digitales,Figura 2.1. Ejes de coordenadas en laimagen.


66

dos direcciones próximas, correspondientes a dos líneas rectas muy cercanas,

contienen casi los mismos píxels.

El operador "sombrero mejicano" unidimensional utilizado fue implementado

en una máscara a partir de la expresión de éste según la ecuación (2.1). Los

valores de la máscara se obtuvieron para valores de la variable r con múltiplos

de un entero positivo p y multiplicando el resultado por una constante de

proporcionalidad K, es decir

δ2G(r)δr2

= K − 1

πσ2 1 −

r2

πσ2 e− r

2 ⁄ 2πσ2

; r = ...− 3p,− 2p,− p,0,p,2p,3p,...

La máscara utilizada tomando como desviación típica σ = 27, constante de

proporcionalidad K = 10000 y espaciado en r p = 15, fue

1 , 1 , 1 , 2 , 2 , 1 , 0 , − 2 , − 4 , − 4 , − 4 , − 2 , 0 , 1 , 2 , 2 , 1 , 1 , 1

Para la obtención de los resultados esperados del operador "sombrero

mejicano" a cierta escala o frecuencia espacial en la imagen, es importante

adquirir un compromiso en la elección de los tres factores anteriormente citados,

desviación típica σ, constante de proporcionalidad K y espaciado p.

El algoritmo utilizado que realiza la transformación concavidad definida en

la ecuación (2.2) es el siguiente

Para cada dirección r definida en Sr

Barrer la imagen I(x,y) en la dirección actual; Si δ2G(r) ⁄ δr2 ∗ I(x,y) < 0, entonces guardar la posición (x,y) como (x0,y0); Inicializar el contador ncr(x,y) = 1 Mientras δ2G(r) ⁄ δr2 ∗ I(x,y) < 0 ncr(x,y) = ncr(x,y) + 1; (x,y) = siguiente punto en la dirección r; fin, Mientras; Incrementar los puntos de la imagen transformada C(x,y) desde el punto inicial (x0,y0) hasta el punto actual (x,y) de la forma C(x,y) = C(x,y) + P(r) ncr(x,y); fin, Si;fin, Para;


67

Los valores de P(r) utilizados para las direcciones definidas en Sr al

principio de este apartado, fueron cuatro constates que dependen del hecho de

que las cámaras toman las imágenes con una proporción relativa de 2 ⁄ 3 entre la

coordenada y y la x, es decir y = 2 ⁄ 3 x, siendo muestreadas en una proporción 1

a 1, por lo tanto los valores de P(r) elegidos intentan compensar las diferencias

de escala que en longitud real tienen un mismo número de píxels en la

dirección x que en la dirección y; con ello los valores de P(r) utilizados son

P(x) = 1, P(y) = 0,75 y para las direcciones diagonales P(r) = 1,25. Este aspecto

relativo a la relación de escala entre x e y será tenido en cuenta, como veremos,

en otras situaciones, ya que de esta manera se mejoran los resultados esperados.


El objeto de las pruebas que aquí se muestran es analizar el efecto que produce

la transformación concavidad en escenas donde se encuentran objetos esféricos

en comparación con el resultado que se obtiene sobre superficies de otros

objetos que no sean esféricos en una misma escena; así mismo veremos el

resultado comparativo que se obtiene mediante la transformación concavidad y la

utilización del operador de Marr adireccional para la caracterización de las zonas

cóncavas en la imagen.

En la figura 2.2 se muestra una escena en el interior de una habitación

donde aparece en medio una naranja y elementos típicos de una habitación con

superficies planas como la puerta y las paredes, u otros objetos con superficies

más irregulares como un perchero, etc. La escena fue tomada con el sistema de

iluminación artificial descrito en el capítulo 1, con el fin de obtener una

iluminación uniforme y evitar falsas discontinuidades que no fueran producto de

bordes reales de los objetos. En la figura 2.3 se representa la transformación

concavidad de la figura 2.2. Como podemos observar, en esta imagen las zonas

correspondiente a superficies cóncavas de la imagen 2.2 quedan notablemente

resaltadas del resto, poseyendo valores más altos en los puntos situados sobre

superficies imagen cóncavas rodeados de una mayor zona en la que los puntos

están también sobre la misma superficie cóncava, por el efecto descrito en el


68

Figura 2.2. Imagen de una naranja entre objetos comunes.

Figura 2.3. Transformación concavidad de la figura 2.2.


69

Figura 2.4. Imagen de una escena de naranjas.

Figura 2.5. Transformación concavidad de la figura 2.4.


70

apartado 2.3 sobre superficies conexas de este tipo, tal como podemos ver, en

particular, con la naranja.

En la figura 2.4 se muestra una escena de naranjas en su medio natural, y

en la 2.5 su transformación concavidad. Se puede notar el mismo efecto

producido en el ejemplo anterior, resaltando en la imagen transformada las

superficies cóncavas, y por tanto los frutos, del resto de la imagen, que en este

caso el entramado foliar presenta pequeñas zonas de superficies imagen cóncavas

con multitud de discontinuidades, debido a la cantidad de bordes reales que

existen en una distribución de objetos de este tipo.

En las figuras 2.6 y 2.7 se muestra el resultado de aplicar simplemente el

"sombrero mejicano" bidimensional sobre las imágenes 2.2 y 2.4 con una máscara

obtenida con una desviación típica de σ = 3, teniendo también en cuenta la

proporción 2 ⁄ 3 entre la coordenada x e y, una constante de proporcionalidad de

K = 100 y un espaciado de p = 4. La máscara resultante fue

00111111100

01121112110

1120− 4− 6− 40211

111− 2− 8− 11− 8− 2111

1120− 4− 6− 40211

01121112110

00111111100

Las imágenes de las figuras 2.6 y 2.7 se obtuvieron asignando un valor

constante a los puntos de la imagen original en los cuales el resultado de la

aplicación de la máscara anterior fue negativo, asumiendo estos puntos como

puntos cóncavos en la superficie imagen. Como vemos, detectando los puntos

cóncavos por este u otros métodos que sólo se fijen en un punto sin tener en

cuenta su entorno, no proporciona tanta información como la transformación

concavidad descrita, la cual resalta ciertas zonas cóncavas y dentro de ellas,

ciertos puntos mas que otros, de acuerdo a los criterios descritos.


71

Figura 2.6. Puntos de la figura 2.2 cuyo resultado es negativo alaplicar el "sombrero mejicano".

Figura 2.7. Puntos de la figura 2.4 cuyo resultado es negativo alaplicar el "sombrero mejicano".


72

Los bordes de las regiones de las figuras 2.6 y 2.7 son segmentos cruces

por cero, ya que son la transición entre puntos que obtienen un valor negativo

con la aplicación del "sombrero mejicano" y puntos que dan valores positivos.

Por lo tanto estos bordes son bordes reales de la imagen a cierta escala,

caracterizada por la desviación típica elegida del filtro de suavizado gausiano.

Si elegimos un umbral próximo a cero y se lo aplicamos a las imágenes de

las figuras 2.3 y 2.5 binarizandolas, obtenemos el resultado mostrado en las

figuras 2.8 y 2.9 respectivamente. Como podemos observar obtenemos un

resultado muy parecido al mostrado en las figuras 2.6 y 2.7, es decir, que por

medio de la transformación concavidad se pueden también extraer los bordes de

los objetos en la imagen; ello es así por el motivo descrito al final de la sección

2.3, ya que los bordes de las regiones conexas de puntos que posean un grado

de concavidad no nulo son puntos de segmentos cruce por cero, en este caso de

operadores de Marr unidireccionales. Además, eligiendo umbrales mas elevados

podemos obtener regiones que solo posean cierto grado de concavidad, regiones

en las cuales podemos tener mas interés, como una forma de aprovechar la

información que se obtiene de esta transformación.

Como consecuencia del resultado obtenido en las figuras 2.8 y 2.9, podemos

pensar que combinando la transformación concavidad con la aplicación de un

umbral de binarización, se obtiene un procedimiento de segmentación de la

imagen en regiones cóncavas. Este método de segmentación tiene la propiedad

de que si dos objetos en la escena aparecen juntos y poseen una irradiancia

espectral imagen cóncava, como los objetos esféricos, en la imagen segmentada

aparecen como regiones separadas e independientes, ya que entre dos zonas de

la imagen que presenten una concavidad, siempre existe una convexidad entre

ellas, provocada por un borde real entre las superficies de los objetos. Este

efecto se puede constatar observando la imagen original de la figura 2.4, en la

que aparecen frutos muy juntos, incluso alguno ocultando parte del otro; si nos

fijamos en la segmentación obtenida de las regiones cóncavas de esta imagen a

partir de la transformación concavidad (figura 2.9) observamos que realmente las

regiones en ella correspondientes a estos frutos son regiones que aparecen

separadas e independientes. Esta propiedad de la segmentación por concavidades


73

Figura 2.8. Segmentación por umbral a partir de la transformaciónconcavidad de la figura 2.3.

Figura 2.9. Segmentación por umbral a partir de la transformaciónconcavidad de la figura 2.5.


74

puede utilizarse para resolver el problema de separar e identificar

individualmente los frutos que aparecen agrupados en forma de racimos, uno de

los problemas a resolver para un sistema de visión para la recolección de frutos.

En cuanto al coste computacional de esta transformación depende, claro

está, del tamaño de la máscara elegida. Si la máscara unidimensional del

"sombrero mejicano" utilizado en la transformación concavidad tiene dimensión n,

para calcular la segunda derivada en cada punto en una sola dirección se

realizan n multiplicaciones, n adiciones y una comprobación lógica que, teniendo

en cuenta todas las direcciones en la que se realiza la operación, tenemos que

el número de multiplicaciones y sumas es de | Sr| n y el de comprobaciones

lógicas | Sr| , siendo | Sr| el número total de direcciones del conjunto Sr

establecido para la transformación. Dado que según sea la forma de

almacenamiento de los datos de la imagen existe, cierta complejidad de acceso a

los valores de los píxels, para cada elemento y en cada dirección se accede n+ 1

veces a elementos de la imagen para realizar las operaciones, de las que n son

lecturas y una es la escritura de la actualización del valor de la transformación.

Por lo tanto, el coste de la transformación se puede expresar de la forma

C = | Sr| n (M+ S+ A) + | Sr| A + | Sr| L

donde M denota el coste de una multiplicación, S el de una suma, L el de una

operación lógica, y A el de un acceso a un valor de la imagen.

Por otra parte, el coste de aplicar un operador "sombrero mejicano"

bidimensional, como el utilizado anteriormente para el mismo fin, para una

máscara cuadrada de iguales características que la unidimensional respecto a

desviación típica de la Gausiana y por lo tanto de tamaño, tenemos que una

máscara de n x n valores realiza

C = n2 (M+ S+ A) + A + L

Teniendo en cuenta que el número de direcciones que se examinan en la

transformación concavidad es menor que el orden de la máscara tenemos que la


75

transformación concavidad realiza | Sr| accesos y operaciones lógicas más que un

operador de Marr, y que, por el contrario, la transformación concavidad realiza

n2 − n| Sr| multiplicaciones, adiciones y accesos menos que un operador de Marr

del mismo orden. Para valores utilizados de n y | Sr| en la implementación

(apartado 2.4) el coste computacional de la transformación concavidad es menor

que la del operador "sombrero mejicano" del mismo orden. No obstante cuando

el tamaño de las máscaras, n, se acerca al número de direcciones a examinar

| Sr| , el coste de la transformación concavidad supera al del operador de Marr.

Por último resaltar que la transformación concavidad es independiente del

nivel de iluminación sobre la escena, o del color de las superficie de los objetos.

La transformación solo precisa una imagen monocroma con una iluminación lo

más uniforme posible sobre la escena. El resultado de la transformación

concavidad solo depende de la forma en que va variando la función irradiancia

espectral imagen de la escena, sin considerar su amplitud, sino más bien el

contraste entre diferentes zonas de la imagen.

Mediante la transformación concavidad se puede caracterizar de una manera

general las regiones pertenecientes a objetos esféricos en la imagen. En los

próximos capítulos se exponen las técnicas y métodos desarrollados para obtener

una información más precisa y particular de imágenes de objetos esféricos, como

son la forma particular de la irradiancia imagen en el caso de que el iluminante

esté alineado con el observador, o la forma circular que presentan los contornos

reales de estos objetos en las imágenes.


76

Capítulo 3

ELIPSOIDES E IMÁGENES

Como consecuencia del modelo de irradiancia espectral imagen desarrollado

en el capítulo 1, el capítulo 2 se centró en el diseño y desarrollo de un método

para detectar, resaltar o cuantificar una de las propiedades más generales de la

irradiancia espectral imagen de objetos esféricos, la concavidad, conduciéndonos

incluso a un método de segmentación para extraer regiones cóncavas en la

imagen.

En busca de un rasgo más específico que caracterice con más precisión y

nos proporcione una información más exacta para un posible reconocimiento y

localización de objetos esféricos, debemos centrarnos en propiedades más

exclusivas del modelo adoptado. Tal como vimos en el apartado 1.2, la función

irradiancia espectral imagen, y por tanto la respuesta del sensor, tiene cierta

forma característica dependiendo de la dirección relativa de los rayos de

iluminación incidente y la dirección de observación. En el caso cuyas condiciones

cumplen la configuración establecida para el sistema de iluminación en la toma

de imagen con flashes descrita en el apartado 1.1, esta forma tenía como

representación una función característica bien conocida, el elipsoide.

La búsqueda de formas o patrones concretos de zonas a lo largo de la

imagen se realiza comúnmente mediante emparejamiento de plantillas (Rosenfeld

& Kak, 1982; Ballard & Brown, 1982; Gonzalez & Wintz, 1977) previamente

establecidas a partir de muestras ejemplo o elaboradas mediante un modelo

teórico, utilizando correlaciones u otros criterios para la determinación de la

zona que produzca un error menor en una medida de similitud con la

distribución de los valores de estas plantillas. Cox et al (1988) utilizaron la

correlación de los valores de una esfera muestra a lo largo de toda la imagen

para detectar puntos susceptibles de pertenecer a objetos esféricos en imágenes

aéreas. Además de utilizar esta técnica en imágenes de grises originales, también

la aplicaron a la imagen transformada que contenía información de los ángulos

de las direcciones que un operador gradiente obtenía sobre la imagen original,

obteniendo así mejores resultados.

El problema de las técnicas que utilizan emparejamiento de plantillas es

que dependen tanto del valor absoluto de los niveles de gris de la imagen como

del tamaño del objeto. En el caso anterior, Cox et al (1988) eliminaron la

dependencia en el valor de niveles de gris con la utilización de este método en

la imagen transformada de direcciones de gradientes. Sin embargo la

dependencia del tamaño, así como otros inconvenientes tales como dependencia

bajo rotaciones o su carácter inoperante cuando no aparece parte del objeto

buscado en la imagen, como en el caso de frutos parcialmente ocultos, nos

impide la utilización de esta técnica en el problema que aquí nos ocupa.

En este capítulo se muestra un método para caracterizar puntos en la

imagen que reunan las características correspondientes a puntos de una superficie

esférica. Esto se realizará a través de una técnica llamada ajuste de superficies o

surface fitting, mediante la cual podremos buscar zonas de la imagen que se

ajusten mejor a un elipsoide ideal. Debido a la complejidad del cálculo y al

aumento de parámetros a determinar cuando se efectúan operaciones en tres

dimensiones, se realiza una aproximación para caracterizar una superficie, en este

caso la de un elipsoide, mediante curvas. Además, teniendo en cuenta ciertos

factores, como veremos en el apartado 3.2, podremos reducir el número de

parámetros a determinar, así como evitar la dependencia en el valor absoluto del

nivel de gris, y a la vez, mediante esta aproximación podremos también tener

una alta probabilidad de localizar puntos pertenecientes a superficies

parcialmente ocultas. En la implementación del método, apartado 3.3, veremos

una variante del método, combinándolo con la transformación concavidad, que

puede aplicarse en función de un número variable de puntos, evitando la rigidez

que supone el uso de máscaras. Por último, en la sección 3.4, comprobaremos la

validez del método en las pruebas realizadas y su alto grado de exactitud.


78

3.1 Ajuste de superficies

El ajuste de superficies o surface fitting (Rosenfel & Kak, 1982) es una técnica

utilizada para calcular parámetros de la imagen en cierto punto de ella, a partir

de la superficie ideal que más se ajusta a los valores de un entorno o vecindario

de ese punto. Por ejemplo, para calcular el gradiente de la imagen en un punto

a partir de la ecuación de la superficie a que más se ajusta el entorno de ese

punto. Es decir, sea un polinomio de grado m , g(x,y), el cual pretendemos

ajustar a los niveles de gris de un vecindario n x n de un punto, donde el

número de coeficientes del polinomio g, (m+ 1)(m+ 2) ⁄ 2, es menor que n2,

entonces podemos considerar el gradiente de la función g(x,y) en el punto

centrado en el vecindario establecido, como una aproximación del gradiente que

posee la imagen en ese punto. Para averiguar los valores de los coeficientes del

polinomio en ese punto a partir de los valores de niveles de gris del vecindario,

se adopta un criterio de error, por ejemplo la suma del cuadrado de las

diferencias entre los valores reales de la imagen en los puntos y el valor que le

asigna la función g en ese punto. Diferenciando respecto de cada uno de los

coeficientes e igualando a cero, obtendremos un sistema de ecuaciones donde las

incógnitas son los coeficientes de la función g que minimizan el error establecido

entre los valores reales y los predecidos por el polinomio que pretendemos

ajustar. Este procedimiento general aplicado en el caso de ajuste a una recta no

es sino el conocido ajuste por mínimos cuadrados, que corresponde al caso de

un polinomio de grado uno para una función de una variable, g(x), a la que

corresponden dos coeficientes, la pendiente y la ordenada en el origen.

Notemos que al aumentar la dimensión crece el número de parámetros o

coeficientes a calcular en cada caso; por ejemplo, en el caso de un polinomio de

grado uno (la recta), en un función unidimensional posee dos coeficientes, y en

el caso de una función bidimensional, función que corresponde a un plano, el

número de coeficientes a determinar es tres. El mismo efecto se produce en el

caso de mantener fija la dimensión y variar el grado del polinomio a ajustar; por

ejemplo, en una función bidimensional de grado uno (un plano), el número de

coeficientes a calcular será tres, mientras que tan solo para un polinomio de

Elipsoides e imágenes

79

grado dos, el número de coeficientes a calcular aumenta hasta seis, como es el

caso de un función cuadrática, entre ellas los elipsoides.

Calcular seis parámetros en cada punto de la imagen a partir de cierto

número de vecinos establecido (al menos seis) para encontrar posibles puntos

que se ajusten a la superficie de un elipsoide, puede conllevar un considerable

gasto computacional y complejidad de cálculo.

No obstante, el ajuste de superficies puede ser un buen método para

localizar puntos en la imagen que se ajusten a un elipsoide, ya que esta forma

de cálculo nos permite trabajar a partir de modelos teóricos y no a partir de

máscaras. Además, con el cálculo de los coeficientes en el ajuste, encontramos

para cada punto un conjunto de parámetros que caracterizan ese punto, y que, a

partir de los cuales podemos extraer cierta información que nos ayude a una

selección de los puntos de interés.

El problema del número de coeficientes a calcular se intentará simplificar

tal como se expone en el apartado siguiente, aproximación que además de la

ventaja de un cálculo menos costoso y más sencillo, nos proporcionará cierta

capacidad de localizar puntos de superficies de las cuales solo muestran parte de

su área total.

3.2 Elipses

Existen dos frentes por el que podemos abordar la simplificación del

número de coeficientes a calcular para el ajuste, el grado del polinomio y el

número de variables independientes del mismo. En primer lugar centrémonos en

el aspecto del número de variables independientes o dimensión del polinomio

que pretendemos ajustar a los valores del vecindario de cierto punto.

El propósito que nos ocupa es la búsqueda de puntos en la imagen cuyos

valores del nivel de gris del entorno se ajusten a un elipsoide, puntos a los

cuales corresponderá un objeto esférico en la escena. El elipsoide de este caso

particular, representación en la imagen de un objeto esférico de la escena, es

una figura de simetría de revolución respecto al eje z, ya que según la ecuación

encontrada para la irradiancia espectral imagen de las superficies esféricas, en el


caso de que los rayos del iluminante

sean paralelos a la dirección de

observación (apartado 1.2), tiene la

expresión

E(x,y) = I

r2 √R2− x2− y2

R

que como vemos el semieje

correspondiente al eje x y al eje y es R,

el radio de la esfera, y el

correspondiente al eje funcional o z es

I ⁄ r2, donde I era la intensidad del

iluminante y r la distancia del objeto al

iluminante. Dado el carácter simétrico respecto al eje z, la figura resultante de

la intersección entre un plano perpendicular al plano xy y la superficie del

elipsoide, corresponde a una elipse cuyo eje de abcisas corresponde a la

dirección r1 que determina la intersección del plano elegido con el plano xy

(figura 3.1).

Denotemos la función de esta elipse a lo largo de la dirección r como

z2

b2 =

f(r)2

b2 = 1 −

r2

a2

correspondiente a una elipse centrada en el origen de coordenadas, con semieje

menor a directamente relacionado con el radio de la esfera en la imagen, y

semieje mayor b directamente relacionado con el término de la ecuación de la

irradiancia espectral imagen I ⁄ r2. Si este proceso lo efectuamos a lo largo de

Figura 3.1. Corte de un elipsoide por unplano perpendicular al plano xy.


81

1 Aunque se denota con el mismo símbolo la dirección r y la distancia del iluminante al

objeto, r, en lo sucesivo r será una dirección definida, mientras no se mencione

especificamente lo contrario.

varias direcciones, utilizando esta aproximación podemos reducir a dos el número

de coeficientes a calcular en el ajuste de elipsoides, aproximándolos por elipses

en un número de direcciones dado. Sin embargo, aún se puede reducir más la

complejidad del cálculo y el número de coeficientes a determinar.

Nótese que el coeficiente b en la ecuación anterior no es sino el valor de

la función f(r) en el origen de coordenadas y que corresponde al máximo valor

de la función elipse. Denotemos por r0 el punto correspondiente al origen de

coordenadas en el eje r, por tanto b = f(r0), con lo que introduciéndolo en la

ecuación anterior, podemos escribirla de la forma

zf(r0)

2

= 1 −

1

a2

r2

y realizando el cambio de variable Y =

zf(r0)

2

y X = r2 obtenemos la expresión

Y = 1 −

1

a2

X (3.1)

correspondiente a la ecuación de una recta con un único parámetro a

determinar, su pendiente − 1 ⁄ a2, ya que la ordenada en el origen es 1.

Analizando detenidamente el cambio de variable realizado podemos decir que

Y = z ⁄ f(r0)2 representa una normalización de los valores del nivel de gris de

los puntos considerados, z = f(r), respecto del nivel de gris del punto central que

coincide con el valor máximo de la elipse f(r0), ello significa que, si

consideramos un punto de la imagen el cual puede ser el punto central de una

elipse a lo largo de una dirección r en el plano xy, normalizando los valores del

nivel de gris de los puntos de un entorno o vecindario del punto respecto del

nivel de gris de ese punto, f(r0), considerado como centro de la elipse, esos

puntos del vecindario con el cambio de variable sugerido se ajustan a una recta

cuya pendiente siempre es negativa y que tiene la expresión − 1 ⁄ a2, y cuya

ordenada en el origen, debido a la normalización, es siempre la unidad.


82

Resumamos los supuestos en que se cumple o las circunstancias en que es

aplicable lo expuesto hasta el momento:

- Cada punto sobre el que se realiza el proceso de ajuste es considerado a

priori como el punto central de una elipse.

- Dada una dirección r en el plano xy, el ajuste se realiza con los valores

de los puntos situados en el vecindario o entorno alrededor del punto

considerado en la dirección establecida.

- Eligiendo un sistema de coordenadas cuyo origen esté situado en el punto

en cuestión, con abcisa en la dirección r establecida y ordenadas el nivel de gris

de los puntos de la imagen, los valores de los puntos correspondientes a este

entorno se ajustan a la recta de la ecuación (3.1) con el cambio de variable

adoptado.

Dado que el proceso de ajuste se ha convertido en el ajuste de una recta,

la pendiente − 1 ⁄ a2 se calculará según la expresión utilizada en el ajuste de

rectas por mínimos cuadrados, es decir,

m =

N ∑ i= 1

N

xi yi − ∑ i= 1

N

xi ∑ i= 1

N

yi

N ∑ i= 1

N

xi2 −

∑ i= 1

N

xi

2

donde m es la pendiente buscada, m= − 1 ⁄ a2, xi son los valores experimentales

de las abcisas de los puntos del entorno sobre los que se realiza el ajuste, en

este caso xi = ri2, e yi es el valor de la ordenada experimental correspondientes a

la abcisa xi, es decir, yi = (f(ri) ⁄ f(r0))2, donde f(ri) es el nivel de gris del punto

situado en ri, y f(r0) el nivel de gris del punto que queda centrado en el

entorno considerado y sobre el que se esta realizando el ajuste. Por último N es

el número de puntos sobre el que se realiza el ajuste y que forman el entorno

considerado.

Para finalizar el proceso de ajuste y verificar si el entorno de un punto se

ajusta realmente a una elipse en cierta dirección, necesitamos una medida del


83

error en el ajuste. La medida mas lógica, dada la estructura del procedimiento,

es la suma del cuadrado de la diferencia entre los valores experimentales y el

valor correspondiente que se le asigne en el ajuste, es decir,

e = ∑ ri∈ E

Y(ri2) − (f(ri) ⁄ f(r0))2

2

donde E denota el conjunto de puntos del entorno de r0 en la dirección r, y

f(ri) el nivel de gris del punto correspondiente a la coordenada ri en el sistema

de coordenadas establecido en r0. Un ajuste con un error e próximo a cero

denotará que el punto considerado r0 es el centro de una elipse en la dirección

r sobre el plano imagen xy. El procedimiento se puede repetir en varias

direcciones con el fin de aproximar el ajuste de un entorno del punto

considerado a un elipsoide, que en suma es el objetivo perseguido. La forma de

valorar el número de direcciones en que el entorno de un punto se ajusta a un

elipsoide, así como los puntos cercanos que también posean esta propiedad, se

discutirá en el apartado siguiente correspondiente a la implementación del

método.

La metodología aquí descrita posee dos características. En primer lugar

destacar que, además de simplificar el cálculo aproximando de ajuste de una

superficie elipsoidal mediante varias elipses producto de la intersección de la

superficie del elipsoide con planos perpendiculares al plano xy, es posible

encontrar o localizar puntos de la imagen en zonas pertenecientes a elipsoides

que no muestren la totalidad de su superficie, debido a que existe la posibilidad

de que en ciertas direcciones los cortes del elipsoide produzcan elipses

completas, en las que el ajuste será satisfactorio.

En segundo lugar decir que la pendiente del ajuste, − 1 ⁄ a2 tiene un

significado especial, ya que el semieje menor a esta directamente relacionado

con el radio de la esfera en la imagen. En realidad el semieje a, con la

aproximación realizada, es justamente el radio de la esfera en la imagen cuando

el ajuste se realiza sobre el punto central del elipsoide en cualquier dirección,

mientras que en cualquier otro punto de la superficie del elipsoide, el semieje


84

resultante a es una cuerda de la circunferencia que tiene como base la elipse en

la imagen.

3.3 Implementación

Para poder aplicar el método descrito hay que fijar los siguientes aspectos:

- El número y direcciones a examinar.

- El tamaño de la máscara o entorno a analizar.

- La cota de error máximo en el ajuste.

En cuanto a las direcciones a considerar, se eligieron dos, las que coinciden

con el eje x e y de la imagen. Estas dos direcciones se estimaron suficientes

para poder localizar puntos de zonas en la imagen correspondientes a elipsoides,

dado que, al ser dos direcciones perpendiculares, equidistantes angularmente,

existe una gran probabilidad de que, en imágenes de objetos esféricos

parcialmente ocultos, el corte del elipsoide correspondiente en la imagen en

alguna de estas direcciones sea una elipse.

Originariamente el método de ajuste de superficies utiliza entornos o

vecindarios de un puntos de un tamaño constante y predeterminado. En principio

se seguirá esta norma, a la que mas tarde se intentará evitar por las limitaciones

que ello supone. De todas formas, utilizando el método con un tamaño fijo de

elementos del entorno de un punto para el ajuste, como norma general, el

número de puntos totales a considerar no debe exceder el diámetro medio de

los frutos u objetos esféricos presentes en las escenas.

Esto debe considerarse así porque si existen puntos del vecindario cuyos

valores quedan fuera de la superficie del objeto, estos puntos distorsionan el

ajuste, introduciendo errores que enmascaran los puntos que realmente se ajustan

a la elipse buscada. Es conveniente que el vecindario de un punto, incluido el

mismo, sea un número impar, ya que para la realización del ajuste el valor de la

abcisa de cada punto en la dirección establecida tiene un valor relativo al punto

central, por lo expuesto en el apartado anterior sobre la elección de ejes


85

coordenados. De esta forma, por ejemplo, para un vecindario de 5 puntos, los

valores de la abcisa ri, son [− 2,− 1,0,1,2], siendo ri = 0 para el punto central.

El máximo error permitido en el ajuste es el parámetro que nos indicará si

realmente nos encontramos en un punto de la superficie del elipsoide. Aunque

es un parámetro con poder decisivo, su elección no es complicada ni necesita de

ningún procedimiento especial para determinarlo. El error máximo del ajuste

depende también del criterio del analista, ya que se le puede dar mucha

importancia a la exactitud del ajuste, en cuyo caso se precisa un error máximo

permitido mas pequeño, o que no se le exija tanta exactitud, por ejemplo para

localizar con menos detalle posibles zonas de la imagen susceptibles de

pertenecer a objetos esféricos. En este caso, el error máximo se elige

manualmente examinado los errores resultantes de los ajustes en varios puntos

de la imagen pertenecientes a objetos esféricos o no.

Teniendo en cuenta todo lo expuesto anteriormente, el algoritmo para la

localización de puntos, en una ventana de la imagen, cuyo entorno se ajusta a

una elipse queda como sigue,

Para cada punto de la ventana Para cada dirección establecida r Leer el valor del nivel de gris de los N puntos f(ri) del vecindario en esa dirección; Realizar los cambios de variable para el ajuste

xi = ri2; yi = (f(ri) ⁄ f(r0))2;

Calcular la pendiente del ajuste

m =

N ∑ i= 1

N

xi yi − ∑ i= 1

N

xi ∑ i= 1

N

yi

N ∑ i= 1

N

xi2 −

∑ i= 1

N

xi

2;

Calcular el error e de ajuste

e = ∑ ri∈ E

Y(ri2) − (f(ri) ⁄ f(r0))22

Si la pendiente m es negativa y el error emax, entonces marcar el punto

como ajustado correctamente;

fin, Para;fin, Para;


86

donde f(r0) es el nivel de gris del punto central, y el valor de Y(ri2) se calcula a

partir de la pendiente m encontrada como Y(ri2) = 1 + m ri

2. Notar que el signo

de la pendiente también es un elemento que interviene en la decisión si el

entorno del punto se ajusta bien o no a una elipse. La razón es que, según lo

expuesto en el apartado anterior, para valores que se ajustan a una elipse, su

pendiente tiene la expresión m = − 1 ⁄ a2 que siempre tiene un valor negativo.

Con la limitación que supone la utilización de un tamaño fijo en el número

de vecinos a considerar en el ajuste, se puede introducir una mejora en el

algoritmo anterior que, aunque supone la necesidad del aporte de una mayor

información, se puede evitar esta limitación. Para ello tengamos en cuenta la

propiedad de que la superficie de un elipsoide, tal como vimos en el capítulo

anterior, es una superficie cóncava, por lo tanto, supongamos que disponemos de

una imagen segmentada producto de la transformación concavidad. Las regiones

conexas presentes en la imagen segmentada las constituyen puntos que

pertenecen a una misma superficie cóncava.

La idea consiste en, primero considerar solo puntos donde realizar el ajuste

que pertenezcan a alguna región cóncava, y segundo, para evitar tener que

trabajar con un vecindario fijo tomaremos como vecindario de un punto en

cierta dirección a todos los puntos pertenecientes a la misma región cóncava que

el punto considerado en la dirección establecida. De esta forma debido a la

propiedad de continuidad de la superficie cóncava, en este caso el elipsoide,

todos los puntos que estén en ella pertenecerán al elipsoide, evitando los errores

que suponía la introducción de puntos exteriores a la superficie del elipsoide

mediante el uso de un vecindario fijo.

Con todo ello, el algoritmo anterior modificado queda, fijándonos en una

sola región cóncava de la imagen segmentada,


87

Para cada punto de la ventana que inscribe la región

Para cada dirección establecida r

Leer el valor del nivel de gris f(ri) de todos los N puntos en esa dirección

que pertenezcan a esa misma región cóncava

Realizar los cambios de variable para el ajuste

xi = ri2; yi = (f(ri) ⁄ f(r0))2;

Calcular la pendiente del ajuste

m =

N ∑ i= 1

N

xi yi − ∑ i= 1

N

xi ∑ i= 1

N

yi

N ∑ i= 1

N

xi2 −

∑ i= 1

N

xi

2;

Calcular el error e de ajuste

e = 1N∑

ri∈ E

Y(ri2) − (f(ri) ⁄ f(r0))22

Si la pendiente m es negativa y el error emax, entonces

marcar el punto como ajustado correctamente.

fin, Para;

fin, Para;

En este algoritmo el número de puntos en el ajuste N es ahora variable, y

se determina cuando se leen los valores de los puntos en la dirección dada que

pertenecen a esa región. Como podemos observar, el error del ajuste también es

función del número de puntos N, ya que ahora es variable y hay que

normalizarlo para su comparación con el error máximo establecido.

Dado que ahora el número de puntos que intervienen en el ajuste es

variable, puede darse el caso de que estos sean demasiado pocos para permitir

un ajuste fiable, aunque den un error dentro de lo permitido. Para evitar este

inconveniente se fija un número de puntos mínimo para poder realizar el ajuste,

de esta manera la medida del error es siempre una medida fiable.

Aunque los puntos que pueden pertenecer al entorno de cierto punto para

realizar el ajuste deben ser puntos de la región cóncava que se esté analizando,

los puntos centrales donde se realiza el ajuste no tienen por que pertenecer a la

región. De esta manera se pretende encontrar puntos que, por el efecto de

posible ruido en zonas de reflexión especular de la superficie del objeto, no han


88

sido asignados a su correspondiente región cóncava en la segmentación, ya que

precisamente los puntos de la región especular son los que coinciden con el

centro del elipsoide en la imagen. Este ruido presente en la zona especular,

aunque es molesto en ciertas ocasiones para el operador concavidad, no perturba

el procedimiento de ajustes a elipses, tal como veremos.


En los ensayos realizados que se describen en este apartado, se pretende

demostrar que este procedimiento de ajuste a elipses en las dos direcciones

indicadas en el apartado anterior, es de gran exactitud y que, en ciertas

circunstancias de visibilidad del fruto es totalmente determinante, con lo que

puede ser un característica muy a tener en cuenta en el proceso de

reconocimiento y localización de frutos u objetos esféricos en las imágenes.

En la figura 3.2 se muestra una imagen monocroma de una escena de

naranjas tomada con el apoyo de flashes. Como ya se vio en el apartado 1.3.2,

la representación del nivel de gris en función de las coordenadas imagen de las

zonas correspondientes a los frutos son aproximadamente superficies elipsoides.

Figura 3.2. Imagen de una escena de narnajas tomada con flash.


89

En la figura 3.3 se muestran los puntos donde sus respectivos entornos se

ajustaban a una elipse en alguna de las dos direcciones analizadas, x e y. El

ajuste para obtener los puntos de la figura 3.3 fue realizado mediante el

algoritmo de la máscara fija, con un vecindario de 15 puntos. En la figura 3.4 se

muestran asimismo los puntos resultantes del ajuste para el procedimiento de

máscara variable, procedimiento en el que previamente se segmenta la imagen

original por medio de la transformación concavidad, tal como se expuso en el

apartado anterior. El error máximo normalizado permitido fue en ambos casos

de emax = 0,03, seleccionado después de visualizar algunos errores de ajustes en

puntos elegidos en una de las imágenes disponibles.

Tal como podemos apreciar

en la figura 3.4, los puntos que

han dado como positivo en el

ajuste aparecen en menor núme-

ro. Ello es debido a que el pro-

cedimiento de ajuste con

máscara variable es más restricti-

vo, ya que se pueden realizar

ajustes sobre un número de pun-

tos mucho mayor que con la

máscara fija, siendo por tanto

mas exigente.

Asimismo, podemos obser-

var en el resultado del ejemplo,

que practicamente todos los pun-

tos que se ajustan a elipses en

la direcciones señaladas, pertene-

cen a la superficie de alguno de

los frutos. Como dato puramente

representativo debemos decir

que, de 8675 puntos localizados

que ajustaban a elipses en algu-

Figura 3-3. Arriba, puntos resultado del ajuste. Abajo,puntos del ajuste superpuestos sobre imagen original.


90

na de estas direcciones, en una

muestra de 90 imágenes a las

que se le aplicó el algoritmo del

vecindario de máscara fija, el

91,6 %, es decir, 7943 del total

de los puntos pertenecían real-

mente a la superficie de algún

fruto, los restantes, una mínima

proporción, 8,4 %, aunque no

pertenecían a ningún fruto, sí se

ajustaban realmente a una elipse

en alguna de las direcciones.

A partir de este resultado

podemos asegurar que el proce-

dimiento de ajuste utilizado, bien

en el modo en vecindario fijo o

variable, es un buen método pa-

ra caracterizar superficies esféri-

cas mediante la información que

nos proporciona la respuesta del

sensor imagen, claro está, en

ciertas condiciones de ilumina-

ción que permiten adoptar un

modelo en las imágenes objetos esféricos como elipsoides. La principal de estas

condiciones era que los rayos incidentes de iluminación sobre la escena fueran

paralelos a la dirección de observación, tal como se cumple en la utilización de

flashes en la toma de imagen por el procedimiento descrito en el capítulo 1.

Los resultados obtenidos aquí aproximando la búsqueda de elipsoides

mediante el ajuste por elipses apoya el supuesto realizado en capítulo 1 cuando

se asumió que la superficie de los objetos se comportaban como una superficie

Lambertiana. El buen comportamiento en el ajuste es debido a que la superficie

de los frutos no tiene una reflexión especular muy acentuada, localizada

Figura 3-4. Arriba, puntos resultado del ajuste conmáscara variable. Abajo, puntos del ajuste

superpuestos sobre imagen original.


91

principalmente en una pequeña región alrededor del punto de máxima reflexión

especular, tal como se discutió en el apartado 1.3.2. La principal razón de que el

ajuste dé buenos resultados, aún en frutos en los que existe un comportamiento

especular, es que el ruido que introduce la reflexión superficial o especular

coincide con el centro de las elipses (figura 3.5). Este ruido queda bastante

enmascarado mediante la aproximación realizada de ajuste de la elipse a través

del cambio de variable utilizado y el sistema de referencia elegido para el ajuste.

En este sistema de referencia, los puntos cercanos al origen de coordenadas del

vecindario tomada en cierta dirección, poseen valores de la abcisa ri muy

cercanos a cero, coincidiendo estos valores con la región especular. Mediante el

cambio de variable X = ri2, los valores de abcisa menor quedan más agrupados

hacia el origen de la nueva abcisa X, tal como podemos ver en la figura 3.6,

debido a la forma cuadrática del cambio de variable. Este agrupamiento más

acentuado en los valores de la región especular provoca que el ruido que

puedan introducir en el ajuste sea menor que el que producirían los valores mas

alejados del origen que coinciden con la región de reflexión difusa. Por esta

razón la presencia de una pequeña zona especular en la superficie de los

objetos, no supone un gran obstáculo para un buen resultado en el ajuste.

Como última observación hay que resaltar que, debido a la normalización

en niveles de gris f(ri) de los puntos que intervienen en el ajuste respecto al

Figura 3.5. Representación de los niveles de gris de una fila de laimagen que corta a un fruto.


92

valor del punto central, f(r0), a través del cambio de variable Y(f(ri) ⁄ f(r0))2, este

procedimiento es independiente del valor absoluto del nivel de gris de los

objetos en la imagen. Por lo tanto, el método opera con la misma efectividad

sobre objetos que reciban diferentes grados de iluminación, dentro de ciertos

límites, siempre que la iluminación no sea tan pobre que se produzca un

elipsoide en la imagen de poco contraste, o si la respuesta del sensor sobre la

superficie del objeto no se ha saturado, en cuyo caso se deforma la forma del

elipsoide.

Hasta ahora se ha conseguido caracterizar la superficie de los objetos

esféricos a partir de la información disponible en la imagen. Esto se ha logrado,

primero de una forma general, mediante la transformación concavidad,

cuantificando y resaltando las zonas de la imagen que tuvieran esta propiedad, y

en segundo lugar se ha caracterizado la forma elipsoide de la irradiancia

espectral imagen en ciertas condiciones de iluminación de los objetos esféricos.

Dado que se dispone de una metodología para evaluar propiedades relativas

a la forma de la superficie, el próximo paso es obtener un método para la

caracterización y evaluación de los contornos, con el fin de completar la

extracción de características relativas a la forma geométrica de los frutos, cuyo

modelo adoptado fue la superficie esférica.

0

puntos experimentales

recta ajustada

X= ri2

1

Y= (f(ri) ⁄ f(r0))2

Figura 3-6. Representación del ajuste de los puntos ri del entorno del punto r0.


93

Capítulo 4

CONTORNOS CIRCULARES

Una de las propiedades que caracteriza la representación en las imágenes

de objetos esféricos es su contorno circular, tal como vimos en el modelo de

irradiancia espectral imagen descrito en el capitulo 1; hecho que se cumple

incluso cualquiera que sea el ángulo de incidencia de la luz respecto de la

dirección del observador, por lo tanto, es un rasgo muy interesante y muy a

tener en cuenta de cara a un reconocimiento y localización de regiones en la

imagen que corresponden a estos objetos.

En ambientes naturales, y por tanto durante las escenas que se presentan

en la recolección, el problema que nos ocupa se agrava, ya que los objetos

aparecen muy a menudo parcialmente ocultos, sin mostrar la totalidad de su

superficie y su contorno. De esta forma, en un gran número de ocasiones, solo

se dispone de una información parcial de contorno circular.

Se precisa de una metodología que, a partir de una información incompleta

del contorno, sea capaz de reconocer la parte visible de éste e intuir o predecir

la parte que permanece oculta. La razón de esta exigencia es que no solo se

pretende localizar los centros de tales circunferencias, sino también cual es su

radio y en ultima instancia, que proporción del total de contorno circular

permanece visible.

Toda esta información sobre el contorno de un objeto esférico servirá para,

en primer lugar localizar su centro geométrico exacto para dirigir el movimiento

del brazo hacia este punto, en este aspecto varios autores han mostrado su

preocupación y sus esfuerzos para solucionar este aspecto en la recolección

robotizada utilizando la transformada de Hough para localizar tomates (Wittaker

et al, 1987) y naranjas (Ness, 1989), pero los resultados, además de un elevado

coste computacional, no fueron los deseados en muchos casos. Levi et al (1988)

también trataron el problema para localizar naranjas a partir de su contorno

circular, que después de obtener las distribuciones de las direcciones del

gradiente sobre la imagen, buscaban distribuciones circulares mediante el

emparejamiento con un modelo ideal previamente construido y almacenado.

Slaughter (1987) apuntó la necesidad de resolver este problema, tras comprobar

en su trabajo que la aproximación del centro del fruto mediante el centroide de

la región que representaba la porción visible no era suficiente en muchos casos.

Por otra parte, además de la determinación del centro del fruto, es

importante conocer su radio, con el fin de poseer una información relativa a su

tamaño ya que, si se conociera la distancia real al fruto y conociendo su radio

en la imagen, podría estimarse el calibre del fruto, de cara a una recolección

más selectiva o a una primera clasificación de los frutos durante la recolección.

Por último, conocer la proporción del contorno visible puede ser un

elemento que apoye en gran medida a un reconocimiento del fruto, dado que

cuanto más contorno circular de un objeto esté presente en la imagen, mas

probabilidad tiene de ser realmente un fruto u objeto esférico. Además, en otro

tipo de aplicaciones, como la selección y clasificación de piezas industriales o

productos agroalimentarios, es un factor que puede indicar si falta parte de una

pieza, con su consiguiente rechazo, o si existen piezas solapadas.

Los métodos tradicionales de reconocimiento de contornos circulares se

apoyan comúnmente en la transformada de Hough (Duda & Hart, 1972), o en

alguna de sus variantes de menor coste computacional (Ballard & Brown, 1982;

Li et al, 1986; Davies, 1987; Wang et al, 1988; Ben-Tzvi & Sandler, 1990; Xu et

al, 1990). Estos métodos, aunque son más o menos robustos con respecto a

ruidos y omisión parcial de la información, siendo algunos de mucho menor

coste computacional que la transformada de Hough original (Davies, 1987), su

principal deficiencia es que no localizan y a la vez evalúan la parte del contorno

visible que pertenece a la circunferencia buscada.

No obstante, se puede enfocar el problema de otra manera, siguiendo la

línea de algunos autores en el reconocimiento parcial de contornos. Existen

varios métodos en la literatura para abordar este problema, metodologías cuyas

Estudio de análisis de imagen

96

propiedades y características generales fueron descritas por Fischler & Bolles

(1986) en una visión general del problema. Todos ellos tienen en común que el

proceso a seguir pasa, en primer lugar, por una segmentación de las curvas a

través de la búsqueda de unos puntos de control o de tramos con propiedades

homogéneas. A partir de los segmentos obtenidos se realiza una interpretación

de los mismos buscando una organización que más se ajuste a uno de los

modelos dentro del banco de figuras pre-establecidas. Los procesos de

descripción incluyen métodos que pueden tratar con posible información oculta o

parcial.

En una breve revisión de los métodos mas conocidos en reconocimiento

parcial de contornos, se puede decir que la mayoría de ellos utilizan puntos de

control para segmentar las curvas, tratándose siempre de curvas planas, entre los

que destacan la asociación de puntos de control a valores extremos en la función

curvatura (Liu & Srinath, 1990) o cruces por cero en esta misma función

curvatura (Mokhtarian & Mackworth, 1986). Otros, en cambio, utilizan una

partición poligonal del contorno (Gorman et al, 1988). Otra manera de encontrar

esos puntos de control es la que proponen Katzir et al (1990), a partir de los

puntos de cruce de curvas producto de una transformación de la función

curvatura de la función inicial.

Una vez la curva ha sido segmentada por uno u otro procedimiento, a cada

segmento se le identifica por un conjunto de parámetros para intentar

relacionarlos con los segmentos de las figuras que se tienen en la base de datos.

Así, algunos utilizan descriptores de Fourier para caracterizar estos segmentos

(Gorman et al, 1988), otros utilizan la pendiente y la longitud del segmento

(Turney et al, 1985). Liu & Srinath (1990) utilizan cuatro parámetros, ángulo,

longitud y desplazamientos en x e y, calculados con respecto a cada uno de los

segmentos de la base de datos, y Mokhtarian & Mackworth (1986) caracterizan

cada segmento por los cruces por cero a diferentes grados de escala, utilizando

una representación llamada "la imagen del espacio de escalas".

Las técnicas de búsqueda de la curva que más se ajusta o se parece en la

base de datos a la curva problema son también muy variadas, desde la

utilización de programación dinámica para encontrar caminos de distancias

Contornos circulares

97

mínimas en tablas de distancias entre descriptores de Fourier (Gorman et al,

1988), o la utilización del Algoritmo de Coste Uniforme en su más conocido

caso, el Algoritmo A ∗ , para encontrar secuencias en la "imagen del del espacio

de escalas" mencionado, a partir de secuencias de segmentos de la base de datos

(Mokhtarian & Mackworth, 1986). También se ha utilizado la transformada de

Hough en su vertiente para el emparejamiento de plantillas en el espacio

pendiente-longitud (Turney et al, 1985), algoritmos basados en hipótesis de

índices de características que utilizaba como puntos de partida zonas de las

curvas donde se encontraron segmentos o sub-máscaras que emparejaban con las

de la bases de datos (Knoll & Jain, 1986), o simplemente algoritmos

desarrollados al efecto para encontrar secuencias de segmentos que se emparejen

con secuencias de segmentos en las curvas de la base de datos (Liu & Srinath,

1990).

Respecto al problema que aquí se pretende resolver, alguna de las técnicas

desarrolladas por estos autores se podría aplicar sin necesidad de cambios. Sin

embargo, dadas las características especiales del reconocimiento de contornos

circulares con respecto al problema general del reconocimiento parcial de

contornos de cualquier figura tratado por estos autores, ha sido necesario diseñar

un procedimiento más ajustado a los objetivos buscados, intentando reducir los

costes computacionales.

El problema de reconocimiento parcial de contornos circulares tiene por

primera peculiaridad que solo se pretende encontrar contornos que se ajusten a

la forma de una única figura, la circunferencia. Dado que el objetivo se centra

solo en esta figura, el procedimiento a diseñar debe aprovechar todas sus

características específicas. La búsqueda de propiedades en las que se

fundamenten un método de segmentación de la curva y una caracterización de

los segmentos acorde con los principios que rigen a las circunferencias, así como

un método lo mas natural posible de interpretación, en relación al concepto de

circunferencia, que obtenga como resultado el reconocimiento de los segmentos

propios de una misma circunferencia.

La idea que se va a desarrollar en este capítulo consiste en la puesta en

práctica de un método de segmentación de los contornos obtenidos en la imagen


98

con el fin de encontrar segmentos que puedan pertenecer a parte de un

contorno circular. A continuación se caracterizará cada segmento por unos

parámetros, propios de una circunferencia, y de un algoritmo que intente

determinar cuales de los segmentos o grupos de segmentos obtenidos en la

segmentación puedan pertenecer a un mismo contorno circular. Por último se

describirán los procedimientos utilizados para medir el grado de ajuste o

similitud de los segmentos o grupos de segmentos a sus correspondientes arcos

de circunferencia. En la sección de experimentos y discusión podremos observar

con que exactitud el método que aquí se expone puede identificar contornos

parcialmente circulares y la medida en que se han cumplido los objetivos

propuestos.

4.1 Segmentación del contorno

Como se comentó en el apartado anterior, existen dos principios generales en los

que se fundamenta la segmentación de curvas: a partir de puntos de control o

mediante un criterio de homogeneidad de los puntos a lo largo del contorno. En

el método que aquí se ha desarrollado se utilizará un criterio de homogeneidad

para partir los contornos extraídos de una imagen. Este criterio se basa en el

valor de la función curvatura del contorno, a diferencia de los fines que

normalmente se le da a la función curvatura de búsqueda de puntos de control

(Liu & Srinath, 1990; Katzir et al, 1990).

La idea es totalmente consistente con las propiedades de una

circunferencia. Cualquier arco de circunferencia tiene la característica de poseer

un radio de curvatura constante, es decir, recorriendo el arco de circunferencia

en cualquier sentido el cambio de dirección es siempre constante. Por lo tanto,

dado un contorno que represente a una curva en el plano imagen, este contorno

se partirá en dos clases de segmentos, aquellos en que sus puntos posean una

curvatura constante y aquellos que no. Es evidente que los segmentos que

posean una curvatura constante son claros candidatos a ser arcos de una

circunferencia. De esta forma no solo se segmenta la curva, sino que también los

segmentos con curvatura constante quedan caracterizados de una forma bien


99

definida, el valor de su curvatura; este valor se utilizará, como veremos, para

elegir a estos segmentos debido a la propia estructura del problema que nos

ocupa.

4.1.1 Codificación del contorno

El primer paso a realizar en el tratamiento de contornos, una vez han sido

extraídos, es su codificación. Codificar el contorno, además de reducir

cuantitativamente la información, permite manejarlo más fácilmente cuando se

realizan transformaciones u operaciones sobre él. Uno de los métodos más

conocidos y utilizados en la literatura para este propósito es el código cadena, el

cual, dado las coordenadas de un punto inicial, forma una cadena o lista

ordenada de códigos que a cada punto siguiente al considerado se le asigna uno

de estos números

345

2P6 107

correspondientes a uno de los vecinos 8-adyacentes del punto P, ordenados según

el sentido contrario a las agujas del reloj. Por lo tanto cada movimiento a través

del contorno se codifica por los dígitos 0,1,2,3,4,5,6,7, que forman una lista o

cadena que corresponde al contorno.

Los contornos extraídos de la imagen pueden haber sido calculados a partir

de cualquier procedimiento, bien aplicando un operador de extracción de bordes

o bien realizando un seguimiento de contornos de las regiones de una imagen

binaria o segmentada, o cualquier otro procedimiento. Tanto en los ensayos

realizados en este capítulo, como en su aplicación que se describirá en los

capítulos 9 y 10, los contornos utilizados son cerrados, y se extraen a partir del

seguimiento de éstos en regiones de imágenes segmentadas. Para ello se utilizó

un algoritmo de seguimiento de contornos descrito por Rosenfeld & Kak (1982),

cuyo fundamento es el siguiente: sea un punto no aislado P perteneciente al

contorno de una región, y otro punto Q de sus vecinos 8-conectados que no

pertenezca a la región, entonces


100

1. Recorrer los vecinos de P a partir desde el punto Q en el sentido de las agujas

del reloj.

2. Cuando se encuentre un punto P′ perteneciente a la región considerada, añadir

este punto a la lista de puntos del contorno.

3. Considerar ahora el punto P′ como el punto actual P y asignar Q al punto anterior

visitado antes de haber encontrado P′ y que no pertenece a la región.

4. Volver al punto 1 y repetir hasta que se llegue de nuevo al punto P inicial

después de haber recorrido el vecino inicial Q por el que se comenzó la búsqueda.

Utilizando este seguimiento de contornos, los contornos exteriores de una

región se recorren en el sentido de las agujas del reloj, y los interiores,

pertenecientes a agujeros de la región se recorren en el sentido contrario de las

agujas del reloj.

4.1.2 La función curvatura

La segmentación de los puntos de una curva se realiza a partir de los valores de

la función curvatura en cada punto del contorno, tal como se apuntó al principio

de esta sección. La noción de curvatura se expresa como la variación instantánea

de la pendiente, es decir, de la dirección, en un punto de la curva respecto a la

longitud de arco de la curva. Formalmente la curvatura k(l) de una curva en el

plano y = f(x), se define como

k(l) = ddl

arctan

dxdy

donde dl es un elemento de arco de la curva, y dy ⁄ dx es la pendiente de la

curva en el punto y = f(x).

Debido a la naturaleza discreta de las imágenes digitales, y más

concretamente a la estructura de malla o trama cuadrada en el muestreo (ver

apéndice D), la longitud de los segmentos de un contorno no corresponde

realmente con el número de puntos de que está compuesto. Otro factor que


101

influye en este sentido es que la

escala entre los ejes x e y de la

imagen es de una relación de 2 ⁄ 3, tal

como se ha apuntado en anteriores

capítulo, factor que habrá que tener

en cuenta. Estos hechos unidos a la

naturaleza discreta intrínseca de estas

representaciones producen unos

errores en el cálculo de parámetros,

tal como la derivada en un punto o la

curvatura, a partir de los puntos de

un contorno.

Varios autores han intentado disminuir este efecto re-calculando las

coordenadas de los puntos de un contorno a partir del promediado de las

coordenadas de sus vecinos (Knoll & Jain, 1986; Wallace & Wintz, 1980),

re-muestreando de nuevo la curva a intervalos unitarios de longitud, no siendo

las nuevas coordenadas números enteros necesariamente. Otro enfoque para

atacar el problema como método más simple y común, es el utilizado por Liu &

Srinath (1990) que calcula la curvatura a partir de un suavizado de los valores

de la pendiente de los puntos vecinos.

El efecto de todo lo descrito puede apreciarse en la representación de la

función curvatura de la figura 4.1 calculada a partir de una circunferencia en una

imagen digital generada vía software a partir de su función analítica. En ella

podemos observar las oscilaciones que presenta la curvatura debido al efecto del

muestreo. También podemos notar que estas oscilaciones son periódicas a lo

largo del arco l, coincidiendo el mismo tipo de oscilación en un punto de la

circunferencia y en el punto correspondiente a su lado opuesto, es decir, a

intervalos distantes un ángulo de 180 grados (π radianes). Por ejemplo, obsérvese

que la función curvatura tiene la misma forma a la altura de l= π ⁄ 2 r que a

l= 3π ⁄ 2 r, y así sucesivamente, teniendo en cuenta la naturaleza cíclica de las

abcisas, ya que el arco de longitud l= 0 coincide con el punto del arco l= 2πr al

πr0

l

k(l)

2πr

Figrua 4.1. Curvatura de una circunferenciaideal muestreada en el plano.


102

dar una vuelta a la circunferencia. Esto demuestra que este ruido presente en la

función curvatura es debido al efecto de muestreo de la curva.

Para calcular los valores de la curvatura en cada punto de la curva, se

efectuará un suavizado de los valores de la pendiente de los puntos vecinos

mediante un filtro Gausiano, filtro pasa baja de suavizado óptimo utilizado en

muchas aplicaciones (ver operadores "sombrero mejicano" en Apéndice D) y en

este punto en concreto por varios autores (Liu & Srinath, 1990; Mokhtarian &

Mackworth, 1986). El filtro gausiano se aplicará a los valores del ángulo de la

pendiente, de la forma

k(l) = ddl

arctan

dxdy

∗ G(l)

donde G(l) es la función Gausiana no normalizada G(l)= e(− l2 ⁄ 2πσ2), y ∗ denota

el operador convolución. Por las propiedades de las convoluciones, la expresión

anterior se convierte en

k(l) = dG(l)

dl ∗ arctan

dxdy

A diferencia de Liu & Srinath (1990), para calcular el ángulo de la

pendiente en cada punto no se utilizará el ángulo del gradiente de los puntos

del contorno extraído con operadores Sobel. El procedimiento para el cálculo del

ángulo de la pendiente se diseñó especialmente para este propósito tras

comprobar que la aplicación de varios métodos, como el de la k-pendiente o

calculando la pendiente a partir del ajuste por mínimos cuadrados de los puntos

del entorno del punto en cuestión, introducían falsas discontinuidades en los

ángulos de las pendientes.

La definición de pendiente utilizada en el entorno de un punto está

inspirada en un método utilizado por Thomas & Jain (1986) y Wallace & Wintz

(1980) para reducir el efecto del muestreo que produce la trama cuadrada de

una imagen digital. El procedimiento desarrollado consiste en el cálculo de la


103

pendiente a partir de la cuerda en un punto de la curva definida por dos

puntos, anterior y posterior al punto considerado. Si llamamos lp al punto donde

se va calcular la pendiente, y si consideramos k puntos de su entorno, k ⁄ 2

anteriores a él y k ⁄ 2 posteriores, con k un número impar, las coordenadas del

punto anterior (xa,ya), origen de la cuerda citada, se definen como el centro de

masas de los k ⁄ 2 puntos anteriores a lp del código cadena, denotados por

li= (xi,yi), i= p− (k⁄2),...,p− 1,p, entonces

xa =

∑ xii= p− (k ⁄2)

p

k ⁄ 2+ 1 ya =

∑ yii= p− (k ⁄2)

p

k ⁄ 2+ 1

y las coordenadas del punto posterior (xn,yn), final de la cuerda, se definen

análogamente como

xn =

∑ xii= p

p+ (k ⁄2)

k ⁄ 2+ 1 yn =

∑ yii= p

p+ (k ⁄2)

k ⁄ 2+ 1

donde li= (xi,yi), i= p,p+ 1,...,p+ (k⁄2) son los k ⁄ 2 vecinos posteriores al punto

considerado lp. Una vez obtenidos los extremos inicial, (xa,ya), y final de la

cuerda, (xn,yn), la pendiente asignada al punto lp viene definida por

dydx

lp

= yn− ya

xn− xa

y su correspondiente ángulo, arctan(dy ⁄ dx). De esta forma, promediando las

coordenadas de los puntos anteriores y posteriores al punto considerado, se

consigue atenuar el efecto del muestreo en los puntos de la curva, con un

fundamento similar al utilizado por algunos autores (Thomas & Jain, 1986;

Wallace & Wintz, 1980) para el re-muestreo de contornos con este mismo fin de

evitar los efectos del muestreo.


104

Puesto que la función arcotangente sólo proporciona valores de ángulos

entre (− π,π), cualquier ángulo fuera de este intervalo se le asigna su

correspondiente a su valor dentro de este intervalo, produciendo de este modo

discontinuidades artificiales en los ángulos de la pendiente a lo largo de los

puntos de la curva. Para evitar estas falsas discontinuidades se realiza un proceso

de normalización (Liu & Srinath, 1990) el cual consiste en desplazar los valores

del ángulo de la pendiente θ = arctan(dy ⁄ dx) al intervalo (0,2π), por razones de

comodidad en el cálculo, mediante la operación

Si θ < 0 entonces θ := 2π + θ

y para evitar las falsas discontinuidades, cuando se produce una diferencia entre

dos ángulos contiguos menor de − π o mayor de π, a cada punto a partir de la

discontinuidad se le suma un desplazamiento de 2π o − 2π respectivamente, a

todos los puntos sucesivos.

Una vez los ángulos de las pendientes θ(l) en cada punto de la curva l han

sido normalizados, la función curvatura k(l) se obtiene, según habíamos visto,

convolucionando la primera derivada de un filtro Gausiano dG(l) ⁄ dl con los

ángulos de las pendientes

k(l) = dG(l)

dl ∗ θ(l)

Obtenida la función curvatura, el siguiente paso es la segmentación de la

curva en función de los valores de la curvatura en cada punto.

4.1.3 Criterio de segmentación

Dado que las circunferencias son curvas que se caracterizan por poseer un radio

de curvatura constante en todos sus puntos, un arco de circunferencia

perteneciente a un contorno cualquiera tendrá esta propiedad. Según la relación

que existe entre la curvatura en un punto de la curva y su radio de curvatura,

tenemos que ρ(l)= 1 ⁄ k(l), donde ρ(l) es el radio de curvatura en el punto l, y


105

k(l) su curvatura. Por lo tanto los segmentos de un contorno que tengan un

mismo radio de curvatura tendrán una curvatura constante.

Para separar los segmentos de una curva que puedan ser arcos de

circunferencia de los que no lo son, es obvio que se asignarán como segmentos

circulares aquellos que posean una curvatura constante, y segmentos no circulares

los restantes. Por las propiedades de las diferenciales sabemos que la diferencial

de una función constante es nula, por tanto en los puntos de la curva con

curvatura constante se cumplirá que

dk(l)dl

= 0

En la práctica, y mas aún manejando datos discretos, esta derivada no

posee casi nunca un valor cero en todos los puntos, sino que oscilan alrededor

de este valor, tal como podemos deducir de lo comentado para la figura 4.1. De

esta forma, se considerarán puntos de arcos de circunferencia aquellos que

cumplan

dk(l)dl

≤ ε

con ε un número de valor cercano a cero.

Un segundo criterio a tener en cuenta es el valor y el signo de la

curvatura en los puntos donde ésta es constante. Una línea recta posee una

curvatura constante igual a cero (radio de curvatura infinito), por tanto no todos

los puntos de curvatura constante son candidatos a ser puntos integrantes de un

arco de circunferencia. Para ello, una vez se ha cumplido la condición anterior,

se considerarán puntos pertenecientes a segmentos de circunferencia como los

que posean una curvatura | k(l)| ≥ km , donde km denotará la curvatura mínima

exigida para considerar un punto de curvatura constante como perteneciente a un

arco de circunferencia.


106

El valor absoluto en la expresión | k(l)| ≥ km , denota que existen puntos

con curvatura positiva o convexos, y puntos con curvatura negativa o cóncavos,

circunstancia ésta que será aprovechada, como veremos, en la aplicación que nos

ocupa.

Resumiendo, se ha llegado a un método de segmentación a partir de la

función curvatura por medio de un criterio de homogeneidad, de los puntos cuya

curvatura es constante, a diferencia de los usos habituales de la función

curvatura en reconocimiento parcial de contornos para encontrar puntos de

control. Mediante la función curvatura además se tienen caracterizados los

segmentos etiquetados como arcos circulares, atribuyéndoles un parámetro que

les identifica: su curvatura, o lo que es lo mismo, su radio de curvatura o radio

de su posible circunferencia.

4.2 Agrupación de segmentos

Después de la segmentación de los contornos en segmentos circulares y los que

no, se dispone de un conjunto de segmentos a lo largo y ancho de toda la

imagen, localizados en lugares concretos. Aunque se dispone de cada uno de

estos segmentos el valor de su curvatura como producto de la segmentación, se

deben definir unos parámetros que los caractericen para una posterior

interpretación que relacione de una manera coherente a estos segmentos entre

ellos.

La forma más natural de dar coherencia a los elementos resultado de la

segmentación es averiguar si existen de entre estos segmentos grupos de ellos

que, dentro de un mismo grupo, sean parte de una misma circunferencia. Esta

noción de agrupamiento de segmentos o elementos nos conduce a considerar,

para abordar este problema, la utilización de técnicas de agrupamiento o

clustering utilizadas en reconocimiento de formas.

La idea consiste en partir del grupo inicial de elementos producto de la

segmentación de los contornos y comprobar si pares de segmentos o de grupos

de segmentos relativamente cercanos, son parte de una misma circunferencia; si

lo son, calcular el centro y el radio de la circunferencia a que pertenecen, así


107

como una medida del error cometido al estimar que esos dos segmentos o

grupos de segmentos son parte de una misma circunferencia.

De esta forma a cada segmento o grupo de segmentos de una misma

circunferencia, se les asignará dos parámetros característicos, el centro y el radio

de la circunferencia a que pertenecen. El procedimiento para ir buscando entre

los segmentos o grupos de segmentos formados para verificar si se pueden

agrupar para formar un conjunto más grande en los que todos sus elementos son

arcos de una misma circunferencia, sugiere la utilización de la técnica de

agrupamiento jerárquico aglomerativo (agglomerative hierarchical clustering) (Duda

& Hart, 1973), técnica dentro de las llamadas de aprendizaje no supervisado

cuyo principio consiste en: dado un conjunto de elementos iniciales, ir

agrupándolos entre ellos a partir de cierto criterio de similitud hasta llegar a

cierta situación o condiciones en las que se detiene el proceso de agrupamiento.

En cada paso del proceso se unen dos conjuntos de elementos para formar un

solo conjunto, los conjuntos que se unen en cada paso son los que se consideran

mas próximos según el criterio de similitud establecido.

Este procedimiento aplicado al problema en cuestión partirá de un espacio

inicial en el que cada conjunto poseerá un solo elemento, un segmento circular

producto de la segmentación, e irá buscando y agrupando conjuntos de

segmentos que pertenezcan a una misma circunferencia, asignándoles su centro y

su radio. Como resultado final se obtendrá un conjunto de conjuntos de

segmentos, de los cuales cada uno de ellos representará a una circunferencia,

pudiendo contener cada conjunto uno o varios segmentos de circunferencia,

incluso con la posibilidad de que estos segmentos pudieran pertenecer a

contornos conexos diferentes en la imagen. Por lo tanto, el resultado cumplirá

los objetivos buscados, dando una interpretación y una coherencia a las

relaciones entres los segmentos circulares presentes en la imagen.

Todo lo descrito en el párrafo anterior se traduce en el siguiente algoritmo

cuya estructura es de agrupamiento jerárquico aglomerativo,


108

Datos: xi, i= 1,..N segmentos circulares encontrados.

Resultado: SE = si , i= 1,..K , SE es el conjunto de K subconjunto de segmentos finales.

Función disimilitud d(si,sj) entre dos subconjuntos si,sj∈ SE.

Parámetros: D, distancia o disimilitud máxima entre dos subconjuntos de segmentos.

Algoritmo:

1. Inicialización: SE = si = xi , i= 1,..N

2. Buscar par si,sj ∈ SE ⁄ d(si,sj) = mínimo Para todo si,sj∈ SE, i≠ j

3. Si d(si,sj) < D, unir si,sj, entonces eliminarlos del conjunto SE y añadir a SE el

resultado de la unión. Volver a paso 2.

4. Sino, fin.

La función distancia o criterio de disimilitud entre dos subconjuntos de

segmentos, d(si,sj), estimará el error si se unen estos subconjuntos para

representar una misma circunferencia, este error dependerá de los parámetros

asignados, centro y radio de la circunferencia, al subconjunto resultante. Esta

función similitud tiene un papel importante en el proceso de agrupamiento,

además, podrá proporcionar una medida del centro y radio de la circunferencia a

que más se aproximan a los arcos definidos por los segmentos pertenecientes a

cada subconjunto.

4.3 La función distancia o función disimilitud

Para evaluar el error que se produce al considerar dos subconjuntos de

segmentos como pertenecientes a una misma circunferencia, supongamos que

conocemos el centro y el radio de la circunferencia que más se ajusta o que

mejor describe al conjunto de segmentos resultado de la unión. Una medida del

error cometido al asumir el centro de coordenadas (rx,ry), y un radio r, es la

varianza de las distancias definidas desde cada punto de que constan todos los

segmentos que integran un subconjunto al punto considerado como centro de la

circunferencia, respecto del radio de la circunferencia considerado, ya que en una

circunferencia ideal todas esta distancias serían igual al radio de la circunferencia

y por tanto la varianza definida sería cero.


109

Si existen un total de N puntos en los segmentos de la unión cuyas

coordenadas en la imagen son (xi,yi), i= 1,..N, el error cometido o medida de

disimilitud de al considerar la unión de dos subconjuntos de segmentos será

de = 1N

∑ i= 1

N [(xi− rx)2 + (yi− ry)2]

1⁄2 − r

2 (4.1)

Para calcular o estimar el radio r y las coordenadas del centro de la

circunferencia, (rx,ry), asignado a un conjunto de segmentos, se han desarrollado

y probado dos métodos.

El primero consiste en calcular las coordenadas del centro que más se

ajusta a las distribución de puntos que forman todos los segmentos del conjunto,

considerando que esa distribución forma el lugar geométrico correspondiente a

una circunferencia. El criterio de ajuste se basa en la propiedad de que la

tangente en cualquier punto de una circunferencia es siempre perpendicular al

radio de ésta (Ros, 1991), por lo tanto, si m→= (mx,my) el un vector que denota

la dirección de la tangente en un punto de la circunferencia, (x,y) el punto de la

misma, y (rx,ry) las coordenadas de su centro, se cumple

m→ ° (x− rx,y− ry) = 0

donde ° denota el producto escalar.

Si disponemos de N puntos en total correspondientes a todos los segmentos

de un conjunto dado, tendremos N ecuaciones como la anterior si los

consideramos como puntos de una misma circunferencia. En la práctica, aún

teniendo una circunferencia generada a partir de su ecuación analítica en el

plano digital, ese producto escalar no es siempre nulo, sino que oscila alrededor

de cero, por lo tanto, en general tendrá un valor próximo a cero. De esta

forma, podemos escribir la expresión anterior como

m→i ° (xi− rx,yi− ry) = εi i = 1,..N


110

donde εi es un valor cercano a cero en cada caso.

El punto que más se ajuste como centro de la circunferencia que forman

estos N puntos, es el punto (rx,ry) tal que minimice, por ejemplo, la expresión

del error cuadrático medio

E = 1N

∑ i= 1

N

(εi)2

Sustituyendo εi por su expresión y aplicando derivadas parciales respecto de

rx y ry a la expresión E e igualándolas a cero, obtendremos dos ecuaciones en

las que figuran las incógnitas rx y ry, que resolviéndolas encontramos las

expresiones del valor de las coordenadas del centro (rx,ry) que minimizan la

expresión E anterior. Resolviendo, el resultado es

rx =

∑ i

mxi Ai ∑ i

myi2 − ∑

i

mxi myi ∑ i

myi Ai

∑ i

mxi2 ∑

i

myi2 −

∑

i

mxi myi

2

ry =

∑ i

myi Ai ∑ i

mxi2 − ∑

i

mxi myi ∑ i

mxi Ai

∑ i

mxi2 ∑

i

myi2 −

∑

i

mxi myi

2

donde Ai = xi mxi + yi myi, siendo (mxi,myi) el vector en la dirección de la

tangente al punto (xi,yi) de los i= 1,..N puntos de todos los segmentos que

forman un conjunto dado.

Una vez estimado el centro más ajustado de la circunferencia (rx,ry), se

asigna como radio r más representativo de ella la distancia media de los N

puntos (xi,yi), i= 1,..N, al punto calculado como centro de la circunferencia, de

este modo tenemos


111

r = 1N

∑ i= 1

N (xi− rx)2 + (yi− ry)2

1⁄2

Estimados el radio r y el centro (rx,ry) a que mejor se ajustan, con el

criterio descrito, los puntos que forman el conjunto de segmentos en cuestión, el

error cometido, o medida de disimilitud de al considerar este radio y este punto

como centro de la circunferencia que caracteriza estos segmentos, viene dado por

la expresión (4.1) descrita al principio de esta sección. De esta manera se

obtienen los parámetros buscados para caracterizar un conjunto de segmentos, el

centro y radio de la circunferencia a que mejor se ajustan, y una evaluación del

error al considerar estos parámetros. Este error, de, se utiliza como el valor de

la función distancia o disimilitud durante el proceso de agrupamiento para

evaluar el error de la unión de dos conjuntos de segmentos de contornos.

El segundo procedimiento utilizado opera en un modo inverso al anterior,

es decir, una vez determinada la medida del error a que se hacía referencia en

la ecuación (4.1), se determina a posteriori el valor de las coordenadas del cen-

tro y radio de la circunferencia correspondiente a ese error. El método consiste

en el emparejamiento de una máscara construida con los puntos que forman un

agrupamiento de segmentos, con lo que se denomina una imagen de distancias

que consiste en una imagen o máscara

de n x n elementos donde cada uno de

los cuales contiene el valor de la dis-

tancia al punto central de esa imagen

(figura 4.2). A continuación, dado un

agrupamiento de segmentos, se constru-

ye una máscara binaria conservando la

posición relativa original de cada uno

de los puntos de los segmentos que

constituyen el agrupamiento, colocando

el valor 1 donde estén situados cada

uno de los puntos de los segmentos, y

0 en el resto de puntos de la máscara.Figura 4.2. Imagen de distancias al punto

central.


112

Con esta máscara se realiza un proceso de emparejamiento o matching sobre la

imagen de distancias, buscando la posición donde la máscara minimiza una medi-

da de error del emparejamiento, totalmente equivalente a la medida expresada

en la ecuación (4.1), que consiste en minimizar la varianza de los valores de la

distancias en la imagen de distancias a que corresponden los puntos de la más-

cara con valor 1, con respecto al valor medio de estas distancias. Por ejemplo,

supongamos que en la máscara de un agrupamiento existen N puntos con valor

igual a 1, correspondientes a los puntos de los segmentos. Si situamos la máscara

en cierta posición de la imagen de distancias, y denotamos los valores de esta

imagen que correspondan en ese momento a los puntos con valor 1 en la más-

cara como d1,d2,...,dN, el valor medio de estas distancias denotará el posible va-

lor promedio del radio del arco de circunferencia dm que constituyen esos

puntos, es decir,

dm =

∑ i= 1

N

di

N

y el error de emparejamiento de de la máscara en ese lugar será

de =

∑ i= 1

N

(dm− di)2

N

Como medida de disimilitud de un agrupamiento producto de la unión de

dos subconjuntos de segmentos diferentes se define como el error de

emparejamiento mínimo del resultado del emparejamiento de su correspondiente

máscara a lo largo de la imagen de distancias. Si durante el proceso de

agrupamiento se decide unir dos agrupaciones o conjuntos de segmentos, a la

circunferencia que representa al total de los segmentos de la agrupación

resultante, se le atribuirá como radio r el radio medio dm obtenido en el punto

del emparejamiento donde se obtuvo el error mínimo. Las coordenadas del

centro de esa circunferencia, (rx,ry), se obtienen calculando la posición real del


113

centro en la imagen original, conservando la posición relativa de los puntos de la

máscara en la imagen de distancias en el lugar del emparejamiento, respecto al

centro de la imagen de distancias. Por ejemplo, si un punto de la máscara,

correspondiente a un punto de los segmentos, tiene en el lugar de

emparejamiento unas coordenadas absolutas en la imagen original de (xi,yi), y

unas coordenadas relativas respecto al centro de la imagen de distancias de

(x0,y0), las coordenadas del centro de la circunferencia a que representan en la

imagen original (rx,ry), serán

rx = xi − x0; ry = yi − y0

De esta manera obtenemos para un agrupamiento, el error o medida de

disimilitud definida y las coordenadas del centro y radio asignados según lo

expuesto.

4.4 Evaluación de contornos parcialmente circulares

Como se indicó al principio de este capítulo, en algunas aplicaciones se debería

conocer la proporción del contorno circular de un objeto para evaluar que tanto

por cien de ese contorno no está presente en la imagen. Tal es el caso de

aplicaciones en las que se pretende desechar piezas u objetos defectuosos a los

que les falte una parte de ellas. Mediante las técnicas de reconocimiento de

contornos parcialmente circulares descritas aquí es posible esta evaluación, dado

que estos métodos proporcionan la información necesaria para realizarla.

Obtenidos para cada agrupamiento al final del proceso, el correspondiente

radio r de la circunferencia a que representan, se puede estimar mediante un

sencillo procedimiento qué parte del contorno circular se ha podido reconocer,

es decir, si 2πr es longitud total de la circunferencia y el total de arcos de la

circunferencia que representan los segmentos del agrupamiento tiene una

longitud L , la proporción del contorno que se ha encontrado será L ⁄ 2πr.


114

No obstante, para obtener una mejor estimación de esta proporción y

debido al hecho de que solo se dispone de contornos muestreados o discretos, la

longitud total de los arcos del agrupamiento se definirá como el número total de

puntos N de los segmentos del agrupamiento, es decir N= L ; y la longitud de la

circunferencia de radio r que les representa se definirá como el número de

puntos en una imagen digital que tienen el contorno de la representación de esa

circunferencia en la imagen generada a partir de su función analítica. De esta

forma, si denotamos Nr como el número de puntos que constituyen una

circunferencia de radio r, y N el número de puntos total de un agrupamiento, la

proporción de contorno encontrado o reconocido se define como N ⁄ Nr,

obteniendo de esta manera una estimación de la proporción del contorno

presente en un contorno parcialmente circular en una imagen digital.

4.5 Implementación

Dada una imagen a la que se le han extraído los contornos, el proceso de

reconocimiento de contornos parcialmente circulares desarrollado aquí consta de

los siguientes pasos:

1. Codificar los contornos mediante el código cadena.

2. Segmentar los contornos calculando la curvatura en cada punto del contorno y

agrupando puntos contiguos de un mismo valor de la curvatura en un mismo

segmento.

3. Realizar el agrupamiento de los segmentos circulares encontrados, buscando los

segmentos que pertenecen a una misma circunferencia, calculando su centro y su

radio.

4. Calcular la proporción del contorno circular encontrado en cada agrupamiento.

En la implementación de estas técnicas descritas para realizar cada uno de

los pasos anteriores, se han tenido en cuenta una serie de consideraciones

prácticas que se relacionan a continuación.

Para el cálculo de la curvatura de los puntos del contorno se ha utilizado

un valor de k= 11 para el cálculo de la pendiente en cada punto por el método


115

de la cuerda descrito en el apartado 4.1.2, siendo la longitud de los contornos

en las imágenes utilizadas en su mayoría entre 100 y 200 píxels. El valor de

k= 11 fue elegido tras comprobar que daba buenos resultados en un amplio

rango de radios de contornos circulares ideales analizados.

El efecto de escala entre el eje x e y de la imagen de 2 ⁄ 3 también fue

considerado en el cálculo de la pendiente por el método de la cuerda, con lo

que la pendiente en un punto se calculaba de la forma

dydx

lp

= 23

yn− ya

xn− xa

La convolución con la derivada del filtro Gausiano de los valores del

ángulo de la pendiente para calcular la curvatura en cada punto se realizo con

una máscara extraída a partir de un función Gausiana con una desviación típica

de σ= 3, siendo la máscara utilizada

132

[ − 1 , − 3 , − 8 , − 11 , − 9 , 0 , 9 , 11 , 8 , 3 , 1 ]

En la segmentación se tuvo en cuenta no solo los puntos donde la

curvatura era constante sino también el signo del valor de la curvatura en los

puntos. Se desecharon los segmentos de curvatura constante con curvatura

positiva para trabajar solo con contornos cóncavos respecto al interior de la

región, dado que en los contornos de las imágenes utilizadas extraídos a partir

del seguimiento de contornos de regiones en estas imágenes segmentadas

utilizadas, las regiones que representan objetos circulares, sólo los segmentos

cóncavos forman parte de la circunferencia en que la región quedaría inscrita.

Para evitar la ruptura de segmentos de arcos circulares por algún punto

ruidoso y para compensar de algún modo el efecto del suavizado que a veces

consigue enmascarar puntos de arcos de circunferencia cercanos a una ruptura

del contorno de forma angulosa, se realizaba una prolongación de los extremos

de los segmentos circulares encontrados en un número de puntos dado del

contorno, habiendo utilizado en este caso un píxel como prolongación.


116

En el proceso de agrupamiento jerárquico para obtener los grupos o

conjuntos de segmentos que pertenecían a una misma circunferencia, se ha

adoptado el error o medida de disimilitud máxima, considerada como la varianza

máxima permitida de las distancias de cada punto de los segmentos al centro de

la circunferencia respecto a su radio, de D= 0,5, lo que puede dar idea de la

exactitud en la que se calculan el centro y el radio, para radios comprendidos

usualmente entre 15 y 30 píxels.

Para generar la imagen de distancias utilizada en el método del

emparejamiento para la función disimilitud, se ha tenido también en cuenta el

efecto de escala 2 ⁄ 3 entre los ejes coordenadas de la imagen, y utilizando una

imagen de 100 x 100 píxels, lo que significa que se reconocían contornos

circulares cuya circunferencia fuera de 50 píxels de radio como máximo, longitud

suficiente para el tamaño de los objetos circulares en las imágenes utilizadas. El

efecto del tamaño de la imagen de distancias influye en el tiempo de proceso,

siendo cuatro veces mayor, por ejemplo, en una imagen de 100 x 100 que en una

de 50 x 50 píxels, debido a la naturaleza del proceso de emparejamiento con una

máscara.

Para agilitar el proceso de agrupamiento no se consideraban los pares de

subconjuntos de segmentos que tuvieran asignados centros de circunferencias

demasiado alejados, considerando solo los pares cuyos centros estuvieran más

próximos que cierta distancia, que en general se consideró de 20 píxels.

Basándose en este principio de localización espacial se consigue ahorrar en

tiempo de cálculo del proceso de agrupamiento, ya que se evitan una gran

cantidad de cálculos de la función disimilitud.

Por último, una vez encontrados los agrupamientos con sus respectivos

radios y centros de las circunferencias a que más se ajustan, se calcula la

proporción de contorno circular encontrado. En una primera aproximación, y

para decidir con cierta seguridad si el agrupamiento pertenece realmente a parte

de un contorno circular, se desechaban los agrupamientos con una proporción

del contorno encontrado de menos del 20%. Otro parámetro a tener en cuenta

en esta decisión es el radio mínimo para el cual un agrupamiento se pueda

considerar como un parte de un contorno circular, ya que no es lo mismo, por


117

ejemplo, un 20 % de un contorno de radio r= 20 que uno de radio r= 2, por ello

se adoptó como radio mínimo r= 4. Para ciertos casos se realiza un selección

considerando un radio mínimo, aunque podría considerarse un valor variable de

la proporción en función del radio, que sería lo mas lógico.


Para comprobar la validez del método desarrollado con las consideraciones en su

implementación descritas en el apartado anterior, se utilizaron dos tipos de

imágenes, unas imágenes de galletas adquiridas en laboratorio en condiciones e

iluminación controladas para comprobar o detectar la falta de trozos de las

galletas en diferentes proporciones, así como el comportamiento del método en

casos de solapamiento y diferentes grados de parte del contorno presente. El

otro conjunto de imágenes pertenecían a escenas de naranjas en su medio

natural, adquiridas con apoyo de iluminación artificial, y que en muchos casos

aparecían parcialmente ocultas por obstáculos naturales o solapadas unas con

otras formando pequeños racimos.

Se utilizaron imágenes de 256 x 256 píxels de resolución, que tras una

simple segmentación de cada imagen por medio del umbral en el nivel de gris,

se realizó un seguimiento y codificación de los contornos de las regiones

resultantes. Una vez segmentados los contornos, se les aplicó el método en sus

dos variantes: utilizando como medida de disimilitud el emparejamiento con una

imagen de distancias, y la función disimilitud basada en el criterio de

minimización. Al final del proceso se desecharon los agrupamientos que no

tuvieran mas de un 20% de la longitud total de la circunferencia que se les

asignó, así como aquellos que no tuvieran un radio mayor de 4 píxels.

En las figuras 4.3a y 4.4a se muestran dos imágenes segmentadas de

galletas, adquiridas en la forma descrita. En las figuras 4.5a, 4.6a y 4.7a se

muestran tres imágenes segmentadas de naranjas en su medio natural adquiridas

con el apoyo de iluminación artificial, la segmentación se realizó en la banda

roja de las imágenes. En las figuras 4.3a y 4.4a se puede apreciar que los

contornos de las regiones son claramente circulares, y en ella podemos observar


118

diferentes situaciones en las que existen regiones a las que les falta parte de su

contorno circular en diferentes proporciones, asimismo se observan casos de

solapamiento entre contornos circulares. En las imágenes pertenecientes a

naranjas (figuras 4.5a, 4.6a y 4.7a) se observa que las regiones pertenecientes a

los frutos son aproximadamente circulares, siendo, por lo general, más achatadas

en los polos. En estas figuras podemos apreciar situaciones de diferentes tipos,

donde los contornos son más ruidosos, solapamientos, y en general falta de parte

del contorno en varios grados.

En las figuras 4.3b a 4.7b se muestran así mismo, con trazo mas intenso,

los segmentos de contornos considerados como posibles arcos de circunferencia

producto de la segmentación de los contornos por el método de la curvatura

descrito. En las figuras 4.3b y 4.4b se puede apreciar más el efecto del

suavizado o filtrado de la función curvatura en los extremos de los segmentos

cercanos a un punto anguloso. Se observa que el segmento finaliza antes de

llegar al punto que debería ser el final de éste, pero por efecto del filtrado los

puntos vecinos al punto de cambio brusco de la curvatura están afectados de

variaciones apreciables en la curvatura por su proximidad a ese punto. También

se puede apreciar que los tramos del contorno que podrían ser arcos de

circunferencia, en el caso en que son cóncavos respecto al interior de la región,

no han sido considerados en la segmentación, tal como se indicó en el apartado

anterior, ya que se busca la circunferencia que inscribe a la hipotética región

circular, cumpliendo sólo esta condición los tramos de contorno que puedan ser

arcos de circunferencia convexos respecto al interior de la región.

En las figuras 4.3c a 4.7c se muestra el resultado del agrupamiento de los

segmentos, mostrando para cada grupo resultante la circunferencia con centro y

radio encontrados por el método del emparejamiento con una imagen de

distancias. De forma análoga, en las figuras 4.3b a 4.7b se muestra el resultado

del agrupamiento con sus respectivas circunferencias calculadas con el método

del criterio de minimización descrito en el apartado 4.3. Observando las figuras

4.3c a 4.7c se puede notar la exactitud con que los parámetros de la

circunferencia a que se ajusta cada grupo de segmentos han sido calculados. En

estas figuras solo se muestran los agrupamientos que, una vez estimada la


119

Figura 4.3a. Imagen binaria de galletas. Figura 4.4a. Imagen binaria de galletas.

Figura 4.3b. Reconstrucción de 4.3autilizando el método de minimización como

Figura 4.4b. Reconstrucción de 4.4a utilizandoel método de minimización como función

Figura 4.3c. Reconstrucción de 4.3a utilizandola imagen de distancias como función disimilitud.

Figura 4.4c. Reconstrucción de 4.4a utilizandola imagen de distancias como función disimilitud.


120

proporción de contorno circular que se obtuvo, superan el 20% de la

circunferencia total. De esta forma, como se puede apreciar a lo largo de los

ejemplos, se pueden localizar y reconstruir contornos circulares que muestren a

partir de un 20% del total, a diferencia por ejemplo de la técnica desarrollada

por Davies (1987) que no conseguía localizar contornos que mostraran menos de

un 50% del total de la circunferencia, en pruebas realizadas en imágenes de

galletas.

Una de las principales características del método es la posibilidad de,

además de calcular el radio y el centro de la circunferencia, estimar las

proporciones a partir de las que se ha reconstruido el contorno total de la

circunferencia, a diferencia de los métodos clásicos de la transformada de Hough

o el de Davies (1987). La medida de esta proporción, además de la localización

de la circunferencia, puede ser un rasgo más a tener en cuenta en los procesos

de clasificación de los objetos, como por ejemplo en el caso de las galletas, para

localizar defectos de éstas antes del envasado, al igual que en muchos otros

objetos circulares relacionados con la industria.

También podemos apreciar el buen comportamiento ante contornos

circulares solapados, no teniendo ninguna dificultad en localizarlos e identificarlos

por separado, tal como se aprecia sobre todo en la figuras 4.3b y 4.3c. En estos

casos de solapamiento, y en algunos presentes en las figuras pertenecientes a los

ejemplos de las naranjas, se puede apreciar como segmentos que pertenecen a

una misma región de la imagen segmentada han sido asignados a grupos

representando una circunferencia diferente, así como el caso contrario de que

segmentos pertenecientes a contornos de regiones diferentes han sido agrupados

en un mismo conjunto, asignándoles como parte de una misma circunferencia,

este caso se presenta cuando un obstáculo está frente a una naranja y divide la

parte visible de su superficie en dos. El potencial de poder distinguir los

contornos circulares por separado en el caso de solapamiento, puede ser uno de

los métodos que permita distinguir las naranjas individualmente cuando se

encuentren formando racimos, uno de los objetivos de este trabajo.

En cuanto a la robustez del método ante contornos ruidosos, se ha podido

apreciar su buen comportamiento en sus dos sentidos, primero en la falta a


121

Figura 4.5a. Imagen binaria de una escena de naranjas.

Figura 4.5b. Reconstrucción de 4.5a utilizando elmétodo de minimización como función disimilitud.

Figura 4.5c. Reconstrucción de 4.5a utilizando laimagen de distancias como función disimilitud.


122





123





124

diferentes proporciones de parte del contorno, y segundo ante trazos de arcos

circulares con presencia de ruido en el contornos, apreciándose más en los

ejemplos de las figuras 4.5, 4.6 y 4.7 pertenecientes a naranjas en que los

contornos presentan muchas oscilaciones y elementos espúreos, pudiendo localizar

los tramos claramente circulares.

Respecto al coste computacional, el tiempo medio utilizado en todo el

proceso a partir de la codificación de los contornos inclusive, es decir, sin incluir

la segmentación de la imagen o extracción de los contornos por el procedimiento

elegido, es de 121 segundos utilizando como función disimilitud el

emparejamiento con una imagen de distancias, y de 2,3 segundos utilizando el

criterio de minimización como función distancia, todo esto para imágenes de

256 x 256 y con un número total de puntos de contornos examinados para cada

imagen, en termino medio, de 700 píxels. Estos tiempos se obtuvieron utilizando

un 80386 a 33 Mhz, almacenando las imágenes en la tarjeta monocroma descrita

en el capítulo 8. Aunque utilizando como función disimilitud el criterio de

minimización se obtienen tiempos de ejecución mucho menores, el procedimiento

del emparejamiento con una imagen de distancias es algo más exacto, tal como

se puede observar comparando las correspondientes figuras b y c de cada

ejemplo, notando a veces ligeras desviaciones en la posición de las

circunferencias ideales encontradas en las figuras b respecto a las encontradas en

las c correspondientes.

El tiempo de cálculo utilizado es lo suficientemente reducido como para su

aplicación en tiempo real, ya que por término medio se precisan 0,1 segundo

para procesar el contorno de una región de tamaño medio perteneciente a un

fruto. Este resultado junto con los ejemplos aquí mostrados, deja suficientemente

probada la eficacia del procedimiento expuesto, tanto en su coste computacional

como en sus prestaciones, pudiendo calcular el centro, radio y proporción

presente de contornos circulares en el reconocimiento de éstos a partir de

contornos parcialmente ocultos.

Respecto a la posible extensión del método de reconocimiento de contornos

parcialmente circulares propuesto, se puede utilizar, por ejemplo, para localizar

líneas rectas parcialmente ocultas en la imagen. Para ello, el principio básico del


125

proceso no se modificaría, solo habría que cambiar el criterio de segmentación

del contorno, que en este caso varia muy poco respecto al aquí establecido,

considerando que la curvatura de una recta es constante, al igual que una

circunferencia, pero igual a cero; y el cambio de la función disimilitud o

distancia en el proceso de agrupamiento de segmentos, ya que este proceso no

cambiaría su filosofía. La función distancia debería estimar si dos segmentos o

subconjuntos de segmentos de rectas podrían pertenecer a una misma recta y

calcular los parámetros de ásta, su pendiente y su ordenada en el origen.


126

Capítulo 5

COLOR EN

AMBIENTES NATURALES

El color que se percibe de la superficie de un objeto depende de las

condiciones en que se realiza la observación. El color de un determinado cuerpo

depende, fijado el observador, de la composición espectral de la luz con que se

ilumine, lo que significa que un mismo material presenta colores diferentes si se

ilumina con una luz de color diferente.

De igual forma, la cantidad de luz que incide sobre un objeto también es

causa de una variación en su color, más concretamente en su atributo

denominado claridad. Un mismo objeto en el que inciden directamente los rayos

del iluminante o iluminado indirectamente a través de la sombra que le ofrece

algún obstáculo, sólo se diferencia en su claridad. Un disco blanco que a una

mitad le da el sol y la otra está a la sombra, diremos al compararlas que esta

última mitad es gris. El gris es el color de los cuerpos que no presentan otro

atributo que la claridad y fácilmente se puede imaginar que es posible hacer una

escala de colores grises que tendrá como límites el blanco y el negro.

El tono y la saturación son los otros dos atributos que constituyen la

cromaticidad del color, el primero relacionado con la longitud de onda

dominante y el segundo con la pureza. Los colores grises son acromáticos, y los

correspondientes a luces monocromáticas (de una misma longitud de onda) se

llaman saturados.

En ambientes naturales el principal iluminante es el sol, aunque en algunos

casos y en puntos localizados de escenas con cierta disposición y composición de

los objetos, la luz reflejada en la superficie de objetos cercanos constituye la

llamada luz ambiente que puede ser a veces de magnitud apreciable respecto al

iluminante principal.

Debido a lo incontrolado de la iluminación natural, ésta produce sobre las

escenas una exposición variable sobre diferentes puntos de la escena, provocando

zonas de iluminación directa y zonas de sombra debidas a obstáculos naturales.

Esta variabilidad produce que sobre la misma superficie de un objeto aparezcan

efectos espúreos o ruidosos como las reflexiones especulares producto de una

iluminación directa, o zonas pobremente iluminadas situadas a la sombra de

algún objeto.

Todos estos problemas se han visto minimizados mediante la utilización de

la iluminación artificial en la toma de las imágenes de escenas naturales, tal

como se describió en el capítulo 1. No obstante, generalizando el problema de

la iluminación, sería interesante encontrar un método de reconocimiento de color

que pudiera tratar escenas en condiciones de iluminación incontroladas.

El problema consiste en, fijadas los atributos de cromaticidad del

iluminante, variando espacialmente a lo largo de la escena la claridad o

intensidad de la luz incidente, reconocer el color de los puntos integrantes de la

superficie de un mismo objeto independientemente de los efectos que provoca

esta variabilidad espacial en la claridad de los objetos iluminados en la escena,

evitando de esta forma los efectos de las reflexiones especulares o las sombras,

omitiendo estos efectos en el proceso de reconocimiento. Un reconocimiento del

color en estas condiciones podría permitir una segmentación en color de la

escena atribuyendo a cada región los puntos de la superficie de un mismo objeto

independientemente si sobre ella existen zonas de sombra o brillos provocados

por reflexiones especulares.

El problema del reconocimiento y segmentación en color en análisis de

imágenes digitales ha sido ampliamente tratado en la literatura. La mayoría de

los trabajos en segmentación en color se han basado en la aplicación de técnicas

de clasificación de varios tipos sobre espacios de color triestímulo (ver apéndice

E) ampliamente utilizados. Por citar algunos ejemplos de los autores que

siguieron esta línea, Tominaga (1990) utilizó análisis de componentes principales

para determinar los clusters o regiones de colores de objetos diferentes en el


128

espacio L ∗ a∗ b∗ , espacio que consideró más adecuado pues la elección del

espacio de color era determinante para un buen resultado; este procedimiento se

utilizó sobre imágenes de figuras simples en laboratorio. Xie & Berni (1991)

aplicaron fuzzy c-means clustering (agrupamiento c-medias difuso) en el espacio

RGB con el mismo propósito. Otros, como Celenk (1988), buscaban

agrupamientos de puntos de cierta forma predeterminada en el espacio L ∗ a∗ b∗ ,

después de la elección de éste por ciertas relaciones entre sus coordenadas y los

atributos del color (brillo, matiz y saturación). El espacio IHS fue utilizado por

Domingo et al (1990) aplicando algoritmos genéticos para la búsqueda de zonas

pertenecientes a clases de colores diferentes sobre imágenes de ambientes

naturales; o clasificadores por distancia mínima a representantes de las clases

elegidos después de un multiedit-condensing (multieditado-condensado) utilizados

por Ferri & Vidal (1992) sobre imágenes, también, de ambientes naturales.

Otros autores han dirigido sus esfuerzos en la búsqueda de características

de color a partir de espacios triestímulos, tal como el RGB, para encontrar un

conjunto de ellas que facilitara la discriminación entre colores para segmentación

en color (Ohta et al, 1980); o la búsqueda de estas características pero

orientadas a la detección de bordes de color (Nevatia, 1977). La segmentación a

través de espacios de color triestímulo conocidos, también ha sido utilizada en

sistemas de visión para la recolección robotizada, siendo Slaughter (1987) el

primero que utilizó estas técnicas para el reconocimiento de naranjas, utilizando

clasificadores lineales discriminantes bayesianos en los espacios RGB e IHS;

Sandini et al (1991) también utilizaron el espacio IHS y el RGB aplicando redes

neuronales par localizar tomates.

Existen otros trabajos orientados a determinar el color o incluso estimar la

distribución de energía espectral del iluminante a partir de las medidas realizadas

por los sensores para medir el color (Lee, 1986; Wandell, 1987; Gershon, 1987;

Ho et al, 1990), así como el calculo del espectro de reflexión característico del

material, es decir, aquello que se llama color constancy que pretende determinar

el color de un objeto independientemente del iluminante que se utilice. Todos

estos trabajos se basan en la caracterización del fenómeno físico de la reflexión

de la radiación electromagnética al incidir sobre la superficie de los objetos.

Color en ambientes naturales

129

Asimismo, basándose en los fenómenos de reflexión de la luz en los objetos,

autores como Klinder et al (1988) y Gershon (1987) estudiaron los reflejos y las

sombras que se producen sobre las superficies de los objetos a través de visión

por ordenador, reconociendo y detectando los reflejos sobre los objetos, o los

bordes entre la parte de sombra y de luz directamente incidente sobre la misma

superficie de un objeto.

Dado que los efectos más representativos sobre la superficie de los objetos

en escenas bajo la iluminación natural son los reflejos y las sombras, un método

de reconocimiento o segmentación por color en este tipo de escenas debe tener

en cuenta el proceso físico de reflexión de la luz en la superficie de los objetos

para estudiar las características que poseen en común la luz que llega de los

diferentes puntos de una misma superficie al sensor que realiza las medidas de

color.

El objeto de este estudio no es reconocer y localizar los reflejos y sombras,

sino asociarlos a la superficie hipotéticamente de color homogéneo a la que

corresponden, permitiendo una segmentación de la imagen por color en la que

cada región incluya una misma superficie del objeto con sus reflejos y sombras

asociados, con el fin de evitar los efectos espúreos que estos fenómenos

provocan cuando se pretende realizar un reconocimiento de colores bajo las

condiciones existentes en ambientes naturales.

Para ello, a partir del modelo de reflexión descrito en el apéndice E, así

como de la interpretación que algunos autores hacen del mismo, se desarrollará

el método que se describe en este capítulo, comenzando por el espacio de

representación del color adoptado, espacio que facilite la tarea de reconocer y

clasificar colores asociándoles sus respectivos reflejos y sombras (sección 5.1). A

continuación (sección 5.2) se tratará el tema del procedimiento por el cual se

realiza la segmentación en color a través de una clasificación en el espacio de

representación descrito en la sección 5.2. En la sección 5.3 se exponen las

consideraciones prácticas tomadas para la implementación del método, así como

el algoritmo de segmentación utilizado. Por último los resultados obtenidos y su

discusión en comparación con otros clasificadores aplicados a este mismo espacio,


130

mostrarán la efectividad del método de clasificación utilizado para la

segmentación, así como lo acertado del espacio de representación obtenido.

5.1 Representación del color

Tal como se apuntó al principio de este capítulo, el primer objetivo es encontrar

una representación del color que facilite la tarea de reconocer el color de los

objetos presentes en la escena teniendo en cuenta los fenómenos que perturban

tal reconocimiento como los relativos a reflejos en una misma superficie y la

variabilidad de la iluminación, con su principal consecuencia traducida en zonas

de sombra o pobremente iluminadas sobre algunos objetos de la escena.

5.1.1 Reflejos en la superficie de los objetos

A través del modelo de reflexión dicromático expuesto en el apéndice E, quedan

completamente definidas las características que poseen los llamados reflejos en el

modelo de reflexión dicromático. En apartado E.1 se definen los puntos reflejo

de una superficie como aquellos que poseen una componente apreciable de la

reflexión superficial del material de que está compuesto el objeto.

Trasladando un punto reflejo a su representación en el espacio de color, se

puede observar que los colores pertenecientes a reflejos de la superficie del

objeto son los vectores dentro del plano dicromático (ver figura E.3) que definen

esa superficie los cuales están mas próximos al vector correspondiente al color

de la reflexión superficial del objeto Cs, ya que los colores mate están,

aproximadamente, situados en la dirección del color perteneciente a la reflexión

del cuerpo Cb, puesto que su componente de reflexión superficial es casi nula.

Por lo tanto, a medida que nos acercamos a la región en la superficie donde se

encuentra el punto correspondiente al reflejo de componente de reflexión

superficial máxima, más se aleja la dirección del vector de color correspondiente

a esos puntos del color de la reflexión del cuerpo Cb, y más se acercan a la

dirección del vector del color de la reflexión superficial Cs.


131

5.1.2 Zonas de sombra en la superficie de los objetos

En el caso más sencillo, la iluminación que llega a las zonas de sombra posee

las mismas características espectrales que la iluminación que incide directamente

sobre la superficie de los objetos procedente del iluminante, es decir, existe solo

una diferencia en la magnitud de la distribución de potencia espectral de la luz

que incide directamente desde el iluminante y la luz que llega a las zonas de

sombra de la superficie de objetos presentes en la escena, de manera que la

distribución de potencia espectral de ambas luces difieren en un factor de

proporcionalidad α (Gershon, 1987).

La aproximación que se realiza en el modelo dicromático sobre la

consideración del iluminante, asumiendo que la única iluminación es debida solo

a la luz procedente desde la fuente de iluminación y no de lo que se denomina

luz ambiental o luz que incide en la superficie de objetos procedente de la

reflexión en otras superficies de objetos cercanos, es una buena aproximación en

el caso de ambientes naturales ya que según observaciones realizadas por

Henderson (1977) resultaron que en promedio en un día claro alrededor del

mediodía, el 90% de la iluminación que se recogía sobre los objetos venía

directamente del sol, mientras que el 8% era procedente del cielo presente en

los alrededores y el resto, un 2% era debida a la reflexión sobre otros objetos.

Esta aproximación sigue siendo mucho más valida en el caso de que se realice

la adquisición de la imagen con el sistema de apoyo de iluminación artificial,

necesario por lo menos durante la noche o en las horas del día o días de una

deficiente iluminación.

La iluminación sobre zonas de sombra y de incidencia directa en este caso,

cumple la condición establecida para el modelo de reflexión dicromático

(apartado E.1.2), que asume que la luz que incide sobre la superficie de los

objetos es exclusivamente debida a la luz que procede del iluminante y no a las

reflexiones en la superficie de otros objetos cercanos, con lo que podemos

considerar la luz que ilumina las zonas de sombra debida única y exclusivamente

al efecto de difracción de la luz de iluminante en los bordes de los objetos que

forman un obstáculo entre el iluminante y las zonas de sombra de las escenas.


132

Siguiendo el modelo utilizado por algunos autores en el problema de

determinación del color constante de los objetos independientemente del

iluminante (Maloney & Wandell, 1986; Wandell, 1987; Gershon, 1987; Ho et al,

1990), la distribución de potencia espectral de la luz que sale de un punto de la

superficie de un objeto de la escena C(λ) es la proporción de la distribución de

la potencia espectral de la luz procedente del iluminante E(λ) que incide en ese

punto, posición que determina las características espectrales del material. Según

el modelo dicromático, las características espectrales de la superficie del objeto

son constantes a lo largo de todo el material, igual para el espectro de reflexión

superficial como para el espectro de reflexión debido al cuerpo del material. Si

denotamos la proporción relativa de la radiación incidente que refleja la

componente superficial de la superficie del objeto en función de la longitud de

onda como S(λ) , y la del cuerpo del objeto por B(λ) , tenemos que la

componente espectral de reflexión superficial que llega al sensor cs(λ) , y la

componente de reflexión procedente del cuerpo del material cb(λ) , se pueden

expresar en función del iluminante como

cs(λ) = E(λ) S(λ) ; cb(λ) = E(λ) B(λ)

Todo esto se puede interpretar, suponiendo que dos puntos de una misma

superficie estén muy cercanos, uno situado en una zona de incidencia directa de

iluminante E(λ) , y otro situado en una zona de sombra a la que llega la luz con

una distribución de potencia espectral α E(λ) , entonces estos puntos reflejan una

luz cuya distribución de potencia espectral difiere en un el factor de

proporcionalidad α. Es decir, si L1 es la luz que refleja el punto en la región de

incidencia directa, y L2 es la del punto de la sombra, considerando que los

factores de escala geométricos de la ecuación del modelo dicromático (E.1), ms y

mb, son los mismos para los dos puntos, dada la proximidad de éstos, la

radiancia de los rayos de luz que proceden del punto sobre el que se ilumina

directamente, L1, y la radiancia del punto en la sombra, L2, son iguales excepto

una constante de proporcionalidad, L1 = α L2.


133

Al realizar el proceso de integración del espectro en la cámara o sensor de

color, las componentes del color, en el caso de estas dos luces, se diferenciarán

en la constante de proporcionalidad α, debido a las propiedades de linealidad de

la integración del espectro, por lo tanto, los colores C1 = (R1,G1,B1) y

C2 = (R2,G2,B2) correspondientes a las luces L1 y L2, se relacionan de la forma

(R1,G1,B1) = α (R2,G2,B2). Esto significa que, dos puntos situados en una misma

superficie en condiciones geométricas análogas, uno iluminado directamente y

otro en una zona de sombra, poseen vectores de representación de su color que

están situados en la misma dirección en el espacio de color, diferenciándose

únicamente en un factor de proporcionalidad, lo que significa que poseen

características similares de la distribución de potencia espectral de las que

difieren en una constante de proporcionalidad, es decir, en una cantidad de

energía diferente pero distribuida de la misma forma a lo largo del espectro.

5.1.3 Iluminante y reflexión superficial. Haz de planos dicromáticos

El índice de refracción de un material es función de la longitud de onda, y el

coeficiente de Fresnel varía a lo largo del espectro de la luz. No obstante, el

coeficiente de Fresnel del medio se puede aproximar normalmente por una

constante a lo largo de las longitudes de onda que cubren del espectro visible,

ya que el índice de refracción de la mayoría de los medios materiales cambia

muy poco en las longitudes de onda que abarca el espectro visible. En estas

condiciones, la componente superficial de la luz reflejada en la superficie de los

objetos tiene el mismo color que la luz incidente que procede del iluminante.

Esta aproximación es válida también para la superficie de los frutos, ya que

en particular se ha comprobado experimentalmente que los materiales que

poseen como envoltura o capa superficial algún tipo de aceites o ceras, poseen

un valor muy constante del índice de refracción para las longitudes de onda del

espectro visible (Kanthack, 1921), por lo que el color de la componente de la

reflexión superficial tiende al color del iluminante.

Si suponemos que los objetos situados en una escena poseen superficies con

índices de refracción que puedan considerarse constantes a lo largo del espectro

visible, las componentes de reflexión superficial de la luz reflejada en la


134

superficie de estos objetos tendrán todas el mismo color, igual al color del

iluminante. Dado que cada objeto compuesto de un material dieléctrico no

homogéneo se caracteriza por un plano dicromático en el espacio de color

formado por los colores del espectro de la componente superficial y por el

espectro de la componente del cuerpo del material, todos los planos

correspondientes a los objetos de la escena intersectarán en una línea recta en

el espacio de color correspondiente al color de la reflexión superficial de los

objetos que es igual para todos y a su vez igual al color del iluminante (figura

5.1).

Con todo ello se puede decir que los planos dicromáticos posibles en una

escena, una vez fijado el iluminante, son aquellos que corresponden al haz de

planos que puede generar la recta en la que se sitúa el color del iluminante en

el espacio de color, corrrespondiendo cada plano al plano dicromático que

caracteriza los colores que se pueden generar en la reflexión de la luz sobre

cualquier punto de la superficie del objeto correspondiente a ese plano.

R

G

B

C

C C

C

i

b1

b2

b3

Figura 5.1. Haz de planos dicromáticos en el espacio RGB.


135

5.1.4 Espacio de representación

De lo tratado en los apartados anteriores se puede resumir las propiedades para

caracterizar los puntos reflejo y los puntos situados en zonas de sombra en las

siguientes consideraciones:

- De las dos direcciones de los vectores color que forman el plano

dicromático correspondiente a la superficie de un mismo objeto en el espacio de

color, los puntos mate están prácticamente en la dirección del vector de color

correspondiente al color del espectro de la reflexión procedente del cuerpo del

material del objeto, mientras que los vectores de color correspondientes a los

puntos reflejo de la misma superficie se desplanzan dentro del plano dicromático

acercándose a la dirección del color del espectro de la reflexión superficial del

objeto, la cual coincide con el color del iluminante.

- Un mismo punto de la superficie de un objeto en el que incide de forma

directa la luz procedente del iluminante o, en otro caso, el mismo punto situado

en una zona de sombra donde la luz que lo ilumina no incide directamente

sobre él desde el iluminante, el color de la luz que reflejan en estos dos casos

este punto poseen la misma dirección en el espacio de color, y la distribución

de potencia espectral de la luz reflejada en el punto en ambos casos sólo difiere

en un factor de proporcionalidad, lo que significa que en ambos casos la luz que

se refleja posee una potencia total diferente pero distribuida de igual forma a lo

largo del espectro.

Puesto que el interés en el tratamiento de escenas naturales es evitar u

omitir los efectos de la variabilidad de la potencia espectral de la iluminación

incidente a lo largo de la escena, reconociendo los colores de los objetos

independientemente de si los objetos están situados en una zona de sombra o de

iluminación directa, y como consecuencia de lo expuesto en el último punto

anterior, se puede obviar la magnitud o módulo de los vectores de

representación del color ya que esta magnitud esta directamente relacionada con

la potencia total de la luz que se refleja en la superficie de un objeto, y que,

tal como se ha visto en el apartado 5.1.2, las diferencias en esta potencia para


136

zonas de sombra o de iluminación directa es causa únicamente de la potencia

total diferente que poseen la luz que incide en la superficie de los objetos en

cada caso.

Por otra parte, en referencia a los puntos mate y los puntos reflejo de una

misma superficie se observa que la característica que los distingue estrictamente

es la posición relativa de los vectores de color respecto a las direcciones de los

colores del espectro de reflexión del cuerpo y de la reflexión superficial, dentro

del plano dicromático que éstos definen.

Todos estos factores inducen a pensar en un espacio direccional de los

vectores de color como representación de éstos, puesto que la dirección relativa

entre los vectores de color es la que contiene la información de interés para

caracterizar los puntos mate respecto a los puntos reflejo de una misma

superficie y a su vez poder omitir el efecto de la variabilidad en la iluminación,

enmascarando este problema considerando que todos los puntos están iluminados

por un mismo iluminante independientemente de la potencia total que recibe

cada punto de la superficie de los objetos en la escena, circunstancia que se

consigue considerando sólo la dirección de los vectores de color.

Uno de los espacios direccionales mas utilizados es la superficie de una

esfera con propósitos muy diferentes, como representaciones de las orientaciones

de vectores de puntos en la superficie de objetos (Horn, 1984), o como espacio

de representación para la búsqueda de la triangulación de Delaunay de un

conjunto de puntos (Watson, 1988). Este espacio direccional consiste en una

superficie esférica de radio determinado, por comodidad la unidad, sobre la cual

a cada uno de sus puntos le corresponde una dirección en el espacio

determinada por las coordenadas esféricas angulares θ y ϕ de ese punto con

respecto al origen de coordenadas situado en el centro de la esfera.

Consideremos en este trabajo la representación del color como las

correspondientes coordenadas θ y ϕ de los vectores de color en el espacio de

color, en este caso el RGB. A cada vector de color le corresponderá un punto

en el espacio direccional representando el punto sobre la superficie esférica a

que corresponde la dirección de tal vector. Mediante esta representación todos

los vectores que en el espacio de color estén en una misma dirección le


137

corresponderá el mismo punto en la

superficie de la esfera, con lo que

todos los vectores de color que

representen a distribuciones de

potencia espectral que tengan una

potencia total diferente pero

distribuida de igual manera a lo

largo del espectro, se representarán

por un único punto en la esfera

direccional, por lo tanto en esta

representación no hay distinción

entre puntos de la superficie de los

objetos iluminados directamente o

puntos en zonas de sombra.

Geométricamente hablando, si imaginamos una esfera de radio unitario en

el espacio RGB, la representación en la superficie de la esfera de todos los

vectores de color en una misma dirección, será el punto intersección con la

superficie de la esfera de la recta que pasa por el origen de coordenadas y que

tiene la dirección de estos vectores. Análogamente, todos los puntos contenidos

en un plano dicromático correspondiente a un objeto, formado por los vectores

de color del espectro de reflexión superficial y el color del espectro de reflexión

del cuerpo del objeto, se representarán en la superficie de la esfera por medio

de la curva resultante de la intersección del plano dicromático con la superficie

de la esfera direccional (figura 5.2). Todos los rayos de luz procedentes de la

superficie del objeto a que corresponde este plano dicromático estarán

comprendidos entre el segmento de esa curva sobre la superficie de la esfera

entre los puntos correspondientes a la dirección del color del espectro de

reflexión superficial Cs, y el color del espectro de reflexión del cuerpo del

objeto Cb.

La curva intersección de un plano que contiene al origen de coordenadas,

de ecuación general a x + b y + z = 0, con una esfera de radio R centrada en el

sistema de coordenadas, no es sino una curva geodésica sobre la superficie de la

Figura 5.2. Corte de la esfera direccional por unplano dicromático.


138

esfera, es decir, la curva de longitud mínima entre dos puntos sobre la superficie

de la esfera, que es el equivalente a una línea recta en el espacio euclideo. Por

lo tanto la representación de un plano dicromático en la superficie de la esfera

direccional será una geodésica, cuya ecuación general es

a cosϕ senθ + b senϕ senθ + cosθ = 0 (5.1)

donde a y b son los parámetros que definen cada geodésica cuyos puntos tienen

coordenadas que vienen especificadas por los valores de θ y ϕ para cada punto

de la curva.

Dado que cada plano dicromático tiene su correspondiente curva geodésica

en la superficie de la esfera direccional, las geodésicas correspondientes al haz

de planos que pueden generar los objetos situados en una escena, tal como los

de la figura 5.1, se cruzarán en un punto de intersección correspondiente a la

dirección del vector de color del iluminante, tal como se vio en el apartado

5.1.3. Esto significa que los colores de los puntos sobre la superficie de cada

objeto se situarán a lo largo de sus correspondientes geodésicas, estando más

cerca del punto intersección de todas las curvas cuanto mayor sea la componente

de reflexión superficial de los puntos del objeto, es decir, los reflejos en la

superficie de un objeto se sitúan sobre la geodésica cerca del punto intersección

con las demás curvas, punto que corresponde al iluminante. Por lo tanto, los

reflejos sobre la superficie de los objetos se agrupan alrededor del punto

correspondiente al color de iluminante en la esfera direccional, y los puntos

mate se alejan de tal punto a lo largo de la geodésica que representa a su

correspondiente objeto.

Una clasificación o segmentación por color de los puntos de una imagen

para definir las regiones en la imagen que correspondan a un mismo objeto en

la escena de un color determinado, tendrá que encontrar en el espacio de

representación descrito las geodésicas en la superficie de la esfera direccional

correspondientes a cada objeto en la escena, asignando los píxels en la imagen

correspondientes a los puntos sobre una mima geodésica al mismo objeto en la

escena.


139

La noción de curva geodésica sobre la superficie de una esfera induce a su

análoga idea de linealidad en un espacio euclideo, con el propósito de utilizar

métodos de clasificación basados en clasificadores lineales. La obtención de un

espacio de representación en el que los conjuntos de puntos correspondientes a

las diferentes clases (en este caso colores de objetos en la escena) sean

linealmente separables, puede, además de facilitar el proceso de clasificación,

aumentar la precisión de tal clasificación.

Con la representación en este espacio direccional, además de comprimir la

información relativa al color, se consigue la reducción de la dimensión del

espacio sobre el que realizar los cálculos, ya que la superficie de una esfera es

de dimensión dos y la representación en el espacio RGB posee tres dimensiones.

Una forma de ver la linealidad de la representación elegida puede

apreciarse transformando la ecuación de la geodésica (5.1) expresándola como

cosϕ tanθ = − ba

senϕ tanθ − 1a

(5.2)

que realizando el cambio de variable Y = cosϕ tanθ y X = senϕ tanθ, obtenemos

la ecuación correspondiente a una recta Y = m X + n.

5.2 Clasificación y segmentación

La segmentación de una imagen se puede realizar a través de una clasificación

de los puntos o píxels que la constituyen, en la que el clasificador asigna a cada

punto de la imagen una clase de un conjunto de clases que haya sido

previamente definido. A cada punto de la imagen se le atribuye un conjunto de

características, en este caso su representación en el espacio de color adoptado, y

el clasificador, en una fase previa de aprendizaje, determina los parámetros que

definen cada clase a partir de un conjunto de puntos muestra a los que

previamente se les ha asignado una de las clases posibles. Los clasificadores

tienen la función de encontrar las fronteras entre las distribuciones de puntos de


140

las diferentes clases en el espacio de representación del vector de características

que maneja el clasificador.

Puesto que lo lógico sería asignar una clase a cada objeto con su respectivo

color, los puntos pertenecientes a una misma clase u objeto se distribuyen a lo

largo de una curva geodésica en la esfera direccional, tal como se ha visto en el

apartado anterior. En realidad, los colores de la luz reflejada por los puntos de

una misma superficie se dispersan alrededor de su curva geodésica media o más

representativa, formando una región de puntos en la esfera direccional situada

entre dos geodésicas aproximadamente, tal como se verificará mas adelante.

La función de un clasificador en este espacio de representación será

encontrar las geodésicas que separan las regiones de puntos pertenecientes a

diferentes clases u objetos. Orientando el problema de la manera propuesta en

la ecuación 5.2, se podría aplicar algún tipo de clasificador lineal en el espacio

de representación resultante después del cambio de variable Y = cosϕ tanθ y

X = senϕ tanθ, donde aquí las geodésicas se transforman en rectas.

5.2.1 El color del iluminante y reducción de la dimensión

En el apartado 5.1.4 se describió como el conjunto de geodésicas sobre la esfera

direccional correspondientes al haz de planos dicromáticos de los objetos en la

escena se cruzaban en un único punto correspondiente al color del iluminante,

debido a las consideraciones expuestas sobre el color del espectro de reflexión

superficial en los materiales dieléctricos de índice de refracción constante.

Dado que al considerar el cambio de variable Y = cosϕ tanθ y X = senϕ tanθ

las geodésicas se transforman en rectas, todas estas rectas se cruzan en un

punto, el punto correspondiente al color del iluminante. Si se conociese a priori

el color del iluminante como parámetro del sistema, cualquier línea recta que

cruzara este punto se podría caracterizar con un solo parámetro, su ángulo de

inclinación α.

Dado que los puntos correspondientes a una misma clase u objeto estarán

situados entre dos de las rectas de ángulos α1 y α2 que crucen el punto del

iluminante, para averiguar si un punto está situado en la región que limitan estas

rectas bastará saber si el ángulo del segmento αi que une el punto Pi con el


141

punto correspondiente al color del iluminante P0 está comprendido entre los

ángulos correspondientes a las rectas que delimitan la región de la clase, es

decir, α1 ≤ αi ≤ α2 (figura 5.3).

Por lo tanto, conociendo a priori el valor del color del iluminante, se

puede reducir la clasificación de los colores de los puntos sobre la superficie de

los objetos mediante un único parámetro, el ángulo α que forma el segmento

que une cada punto en el espacio XY descrito.

5.2.2 Representación y visualización

El plano que representan las coordenadas X e Y no es un espacio muy adecuado

para representar gráficamente y visualizar como se distribuyen los puntos

correspondientes a los colores registrados en una imagen RGB procedentes de

los objetos de una escena.

En primer lugar, debido a la naturaleza de la obtención de los valores de

las coordenadas Y = cosϕ tanθ y X = senϕ tanθ, estas coordenadas poseen valores

X

Y

α1α

α2

0

Pi

P0

Figura 5.3. Angulo α de un punto Pi en el plano XY


142

cuyo rango puede ir desde el cero hasta el + ∞, considerando que en el espacio

RGB los valores que pueden adoptar los ángulos θ y ϕ solo pueden variar entre

cero y π ⁄ 2, debido a que los valores de la coordenadas R, G y B solo pueden

tomar valores positivos. En segundo lugar, y como consecuencia del amplio rango

que pueden tomar estos valores, los puntos correspondientes a los colores de la

superficie de un objeto se encuentran muy dispersos a lo largo de la región que

ocupan en este plano limitada entre dos rectas, siendo más disperso cuanto más

se alejan de la posición del iluminante, y por el contrario muy concentrados para

los puntos reflejo, que como ya se ha descrito se encuentran cerca del punto

correspondiente al color del iluminante.

Una forma ideal de visualizar esta representación sería representar la

superficie de la esfera direccional utilizada, en la que se vería como los puntos

se agrupan alrededor de geodésicas, siendo el rango de los valores de los

posibles colores este espacio de representación finito, variando los ángulos entre

los valores [0,π ⁄ 2] tal como ya se ha dicho. No obstante la representación de los

puntos sobre la superficie de una esfera es bastante incomoda en los dispositivos

de visualización corrientes, tales como una pantalla de ordenador o su impresión

en el papel, debido a que una representación tridimensional en estos dispositivos

siempre depende del punto de observación, teniendo que utilizar técnicas de

perspectiva para poder representarlos, no pudiendo apreciar a veces las

verdaderas características de las distribuciones de puntos debido a un ángulo de

perspectiva inadecuado.

De todas maneras existen formas de representación en un plano de los

puntos de la superficie de una esfera, tal como sucede en la confección de

mapas de la superficie terrestre. Una de las maneras de conseguir ésto es tomar

unos ejes coordenados en el que el eje de abcisas represente al ángulo ϕ de un

punto en la superficie de la esfera, y el eje de ordenadas al ángulo θ de tal

punto. Las líneas verticales correspondientes a un ángulo ϕ = cte corresponderían

a los meridianos en la superficie de la esfera, y las líneas rectas de valor θ = cte

a los paralelos, considerando los polos en los puntos de corte de la superficie de

la esfera con el eje z.


143

Cualquier geodésica sobre la esfera cuya ecuación vendrá dada por la

expresión (5.1), se representará en este espacio direccional ϕθ por medio de una

curva cuya expresión analítica será, despejando la variable θ de la ecuación (5.1),

θ = arctan

− 1a senϕ + b cosϕ

En la figura 5.4 se muestran un grupo de geodésicas correspondientes a un

haz de planos considerando como color del iluminante el color blanco, es decir,

la recta en el espacio RGB que representa a la escala de grises, habiendo

tomado las coordenadas cartesianas (x,y,z) como las (R,G,B) respectivamente.

Cada curva de estas representa idealmente a los colores de la superficie de un

objeto en la escena iluminada con un iluminante de color blanco,

aproximadamente la luz solar. En la práctica los colores de la luz que reflejan

los puntos de la superficie de un mismo objeto están comprendidos entre dos de

ésta geodésicas, tal como muestra la figura 5.5 que representa los puntos de una

imagen real en este espacio correspondientes a la superficie de dos objetos cuyo

Figura 5.4. Espacio direccional ϕθ con un conjunto de curvas dicromaticas que cruzan eliluminante P0 situado en el color blanco.


144

color era homogéneo a lo largo de

cada una de ellas. Como se puede

observar, y comparando con la figura

5.4, cada una de las regiones donde

se encuentran los puntos de un

mismo objeto se encuentran situados

entre dos geodésicas que se cruzarán

el en punto correspondiente al

iluminante aproximadamente.

Observando la figura 5.4 se

puede notar que, en general, las

geodésicas allí representadas se

pueden aproximar por líneas rectas en

el plano ϕθ, siendo las curvas más alejadas de esta aproximación los tramos de

las geodésicas que se encuentran en las esquinas inferiores del diagrama ϕθ.

Aunque la representación en la figura 5.4 corresponde a las geodésicas del haz

de planos dicromáticos considerando como color del iluminante el color blanco,

se puede comprobar experimentalmente que, de una manera general, las curvas

geodésicas correspondientes a haces de planos cuyo iluminante este situado en

un punto de la amplia región central del diagrama ϕθ, se pueden aproximar por

líneas rectas en tal plano con excepción de algunos tramos de curvas situados en

los vértices del cuadrado que representa los posibles valores de estas

coordenadas angulares. Por lo tanto, todo lo dicho al respecto de la coordenada

angular α en la sección 5.3.1 para caracterizar un punto en el plano XY

anteriormente descrito, es extensible al diagrama ϕθ.

La interpretación del diagrama ϕθ se puede resumir en los siguientes

puntos:

- Fijado el color del iluminante, el haz de planos dicromáticos

correspondientes a los colores de cada objeto en la escena queda representado

por un conjunto de geodésicas en el diagrama ϕθ que se cruzan en un punto, el

color del iluminante, pudiéndose aproximar estas curvas en el diagrama ϕθ por

rectas.

Figura 5.5. Representación de colores depuntos sobre dos objetos reales en el

espacio ϕθ.


145

- En la práctica los colores de las luces procedentes de la reflexión en la

superficie de un objeto no se disponen a lo largo de una sola geodésica, sino

que se distribuyen aproximadamente en una región alrededor de lo que sería la

geodésica media o mas representativa del objeto, quedando delimitada tal región

por dos geodésicas aproximadamente.

- Aproximando las geodésicas por rectas en el diagrama θϕ, cada punto del

plano se puede caracterizar por el ángulo α del segmento que une tal punto con

el punto correspondiente al color del iluminante. Para averiguar a que clase u

objeto de la escena pertenece tal punto bastará comprobar entre que dos curvas

que caracterizan a su correspondiente región se encuentra, asignando a la recta

que aproxima cada curva delimitadora de la región los ángulos α1 y α2, si

α1 ≤ α ≤ α2.

- Dentro de una misma región comprendida entre dos curvas

correspondientes a un objeto de la escena, los colores de los puntos mate sobre

la superficie del objeto son los mas alejados del punto correspondiente al color

del iluminante, que tal como se apuntó coincide con el espectro de reflexión

superficial del objeto. Los puntos correspondientes a reflejos sobre la superficie

del objeto son los puntos que se encuentran más cerca del color del iluminante

dentro de esta región, por poseer una gran componente del color de la reflexión

superficial del objeto.

Es necesario recordar que la representación del color en este espacio

direccional implica la omisión de la influencia que tiene la potencia total de

radiación recibida desde el iluminante sobre la superficie de los objetos de la

escena, evitando los efectos de la variabilidad espacial de la luz cuyos efectos

son zonas de luces y sombras, tan comunes en las escenas con iluminación

natural e incontrolada.

El tratar con las coordenadas ϕ y θ directamente tiene ciertas ventajas con

respecto al manejo de la información durante el proceso de análisis de imagen.

Esto es debido a que el rango de valores posible de cada una de ellas varia en

el intervalo [0,π ⁄ 2], al contrario que en el espacio XY donde las geodésicas eran

exactamente representadas por rectas, cuyos valores en este espacio podían caer


146

dentro de un rango infinito. Aunque los ángulos en el intervalo [0,π ⁄ 2] toman

valores reales, éstos se pueden muestrear y representar en números enteros en el

intervalo [0,255], que corresponden a los valores posibles que puede tener un

píxel de una imagen codificado en ocho bits, que es lo mas usual, sin una gran

pérdida en la precisión de los datos. Esto permite guardar la información de las

coordenadas ϕ y θ de cada punto de valores (R,G,B) en dos imágenes, la imagen

ϕ y la imagen θ, teniendo la información almacenada de una manera sencilla y

accesible que no permitirían los valores del espacio XY mencionado.

5.2.3 El clasificador y el aprendizaje

El clasificador, tal como se apunto al principio de este apartado, clasificará cada

píxel de la imagen en una de las clases del conjunto previamente establecido en

donde cada clase representará un tipo y color de objetos en la imagen. El

clasificador aprenderá a asignar las clases a cada píxel de una imagen test a

partir de un conjunto de puntos previamente suministrados para un proceso de

aprendizaje y que a cada punto le acompañará, además de los valores del vector

de características que los definirá, una etiqueta perteneciente a la clase que el

analista le haya asignado de acuerdo a su criterio.

En este caso, cada punto de la imagen estará representado por un único

parámetro, el ángulo α correspondiente definido en el apartado 5.2.1, bien

considerando el espacio de representación XY allí descrito o el ϕθ asumiendo la

aproximación de las curvas geodésicas por líneas rectas. Utilizando un solo

parámetro para realizar la clasificación, el clasificador trabaja solo en un espacio

unidimensional, en donde las distribuciones de probabilidad de las clases serán

unidimensionales y las fronteras entre clases serán umbrales en la coordenada α.

Teniendo en cuenta que el parámetro α toma valores en un rango finito,

α∈ [0,2π), sería posible una búsqueda exhaustiva de los umbrales o fronteras de

las distribuciones de probabilidad de las diferentes clases definidas en este rango,

bien por un método de búsqueda por aproximación al umbral o bien

muestreando el intervalo [0,2π) para realizar esta búsqueda entre los valores

finitos posibles que tomaría el ángulo α.


147

Teorema de Bayes y error de Bayes de una decisión

Utilizando la notación de Fukunaga (1990), se denotará por ωi, i= 1,..L el

conjunto de L clases definidas, la variable aleatoria en este caso será el

parámetro α, las probabilidades a priori de cada clase se denotarán por Pi y las

densidades de probabilidad condicional pi(α) , como la probabilidad de que un

punto tome el valor α siendo de la clase ωi. Con esta notación el teorema de

Bayes que define la probabilidad a posteriori qi(α) de que un elemento sea de

la clase ωi dado un valor α se expresa como

qi(α) = Pi pi(α)

∑ i= 1

L

Pi pi(α)

La regla de decisión de Bayes basada en la probabilidad a posteriori asigna

una clase ω; a un elemento a aquella clase en la que la probabilidad a

posteriori qi(α) del elemento dado con valor α sea mayor, es decir

ω(α) = ωj ; qi(α)= max qj(α)

, j= 1,..,L

Toda regla de decisión comporta un error. Para evaluar el error de una

decisión se debe calcular la probabilidad de error o probabilidad de que una

muestra se asigne a una clase errónea. El error total de la regla de decisión

anterior o error de Bayes ε se calcula como la esperanza del error condicional

debido a la decisión. El error condicional r(α) dado un valor α, en el caso de

que se tengan dos clases, ω1 y ω2, es el valor mínimo de la probabilidad a

posteriori de estas dos clases, es decir

r(α) = min [q1(α) ,q2(α)]

y su valor esperado


148

ε = E[r(α)] = ∫ r(α) p(α) dα = P1 ∫ L2

p1(α) dα + P2 ∫ L1

p2(α) dα

donde p(α) = ∑ i= 1

L

Pi pi(α) ,y las regiones L1 y L2 sobre las que se extienden las

integrales son las regiones donde α se ha clasificado como ω1 o ω2

respectivamente por la regla de decisión.

En el caso de que se definan costes de decisión errónea, es decir, el coste

de que un elemento de valor α haya sido clasificado como perteneciente a la

clase ωi siendo realmente de la clase ωj, se puede comprobar que es equivalente

a cambiar adecuadamente las probabilidades a priori de cada clase, Pi, según una

regla descrita por Fukunaga (1990).

Muestreo del parámetro α

Para muestrear los valores del ángulo α definido para un píxel en la imagen, se

dividirá el intervalo [0,2π) en un número finito de puntos equidistantes N,

asignándole el valor discreto α de un píxel al valor más cercano αi i= 1,..N, de

los que se ha dividido el intervalo anterior.

Dado el conjunto de muestras para el entrenamiento o aprendizaje, cada

una de las muestras tendrá asociada un par de valores (αi,ωj), correspondientes

al valor de su ángulo αi de los definidos en el intervalo [0,2π) y la clase ωj a

que pertenece.

Fijadas o calculadas unas probabilidades a priori para cada clase Pj, las

densidades de probabilidad condicional pj(αi) de que, dada una clase ωj tome un

valor αi, i= 1,..N, se pueden estimar a través de las frecuencias de aparición de

las muestras de cada clase para un valor αi, es decir, a partir de los histogramas

de cada clase ωj sobre la variable αi, Hωj(αi). Una vez calculados los histogramas

de todas las clases, Hωj(αi) a partir del conjunto de muestras, la densidad de

probabilidad condicional de cada clase pj se puede estimar de la forma


149

pj(αi) = Hj(αi)

∑ i= 1

N

Hj(αi)

La forma más usual de estimar las probabilidades a priori de cada clase Pj

es asignando la proporción de elementos que aparecen de esa clase, nj, respecto

al total de muestras en el conjunto de aprendizaje Nm , es decir,

Pi = nj

Nm

No obstante, el analista puede variar los valores de la probabilidades a

priori para conseguir los efectos deseados en relación a lo dicho sobre la

consideración de costes variables respecto a las decisiones erróneas.

Aprendizaje. Búsqueda del umbral óptimo

Dado que la variable sobre la que están definidas las densidades de probabilidad

descritas en la sección anterior es una variable discreta que puede tomar valores

finitos, sería posible la búsqueda exhaustiva de una partición del dominio del

rango en el que toma los valores esta variable que minimice el error de Bayes

asignando una clase a cada región producto de esta partición.

El problema es encontrar los umbrales α1j y α2j para cada clase ωj, los

cuales definan una región dentro del intervalo [0,2π) en la que se asigne a los

píxels cuyo valor del ángulo α sea tal que α1j< α< α2j, la clase ωj. Para

simplificar el problema, reduciremos el número de clases a dos, para evaluar los

umbrales que definen la región asignada a una clase en el intervalo [0,2π) y que

separan esta región del resto de las regiones en que se partirá el intervalo.

Dada una clase ωj, considérese el resto de clases ωk k= 1,..L , k≠ j, como

una sola clase, la complementaria ω__

j. La densidad de probabilidad condicional de

la clase ω__

j se estimará a partir de los histogramas de las clases ωk k≠ j, de la

forma


150

pj_(αi) =

∑ k= 1

L

Hk(αi)

∑ k= 1

L

∑ i= 1

N

Hj(αi)

; k≠ j

Los umbrales izquierdo α1j y derecho α2j que delimitan la región Lj

perteneciente a la clase ωj del resto de regiones en el intervalo [0,2π) y que se

denotará como Lj_, son umbrales cuya partición

Lj,Lj

_ , minimizan el error de

Bayes.

Para encontrar estos umbrales se construye una densidad de probabilidad

condicional auxiliar para el cálculo de cada umbral por separado, con el fin de

realizar la búsqueda en un tiempo de cálculo lineal respecto a los N valores

posibles que pueden tomar estos umbrales α1j y α2j, ya que una búsqueda

exhaustiva de los dos umbrales por clase sería del orden de N2− N, es decir,

combinaciones de N elementos tomados de dos en dos evaluando en cada caso

dos posibles particiones.

Así, para definir la densidad de probabilidad condicional auxiliar del umbral

derecho pj2(α) , por ejemplo, se calcula previamente la media del histograma αmj

(figura 5.6a) perteneciente a la clase ωj de la forma

αmj =

∑ i= 1

N

αi Hj(αi)

∑ i= 1

N

Hj(αi)

Dado que la variable α es un ángulo y definido en el intervalo [0,2π), esta

variable es cíclica, es decir, un ángulo de valor α = 0 es equivalente a uno

α = 2π, con lo que tal intervalo no tiene unos límites definidos. Si tomamos

como nuevo origen de ángulos la media del histograma αmj, y considerando que

tales histogramas son unimodales, obtendremos un histograma que tendrá sus

valores principales cercanos a los dos extremos del intervalo (figura 5.6b).


151

El considerar los histogramas

pertenecientes a una clase como uni-

modales es una aproximación factible

ya que, cada clase, que corresponde

a un tipo de objeto en la escena,

posee unos valores del color que en

la práctica se distribuyen alrededor

de una geodésica, la geodésica más

representativa del color de la superfi-

cie del objeto, geodésica a la cual le

corresponde un ángulo α en el espa-

cio direccional y por lo tanto los va-

lores de los colores de la luz refleja-

da desde la superficie del objeto se

distribuirán alrededor de este valor

medio, formando una distribución

aproximadamente unimodal.

Una vez se ha realizado el

cambio en el origen de ángulos, que

también habrá afectado a las densi-

dades de probabilidad condicional de

las diferentes clases, se define la

densidad de probabilidad condicional

p2j de la clase ωj para el cálculo del

umbral derecho α2j como

p2j(αi) =

pj(αi), i= 1,..N⁄20, i=N⁄2+ 1,..N

con lo que se obtiene una función

en la que todos los elementos de la

Figura 5.6b. Histograma de la figura 5.6a conorigen de la variable α en la media de la

distribución.

Figura 5.6a. Histograma de la variable α de loscolores de una clase.

Figura 5.6c. Histograma auxiliar a partir de lafigura 5.6b para calcular el umbral derecho α2.

α

H(α)

H(α)

H(α)

α 0 2π

0 2π

0 2πα


152

clase ωj tendrán valores cercanos al origen (figura 5.6c).

El umbral derecho α2j de la clase ωj será aquel valor αi, i= 1,..N, tal que

minimice el error de Bayes de la partición que se define como

αk, k= 1,..,i a la clase ωj

αk, k= i+ 1,..,N a la clase ωj_

y cuyo error de Bayes, considerando αi como el umbral, tiene la expresión en

forma discreta

ε = Pj_ ∑ k= 1

i

pj_(αk) + Pj ∑

k= i+ 1

N

pj(αk)

donde Pj y Pj_, son respectivamente las probabilidades a priori de la clase ωj y su

complementaria ωj_.

Para calcular el umbral izquierdo α1j, se procede de forma similar pero

utilizando como densidad de probabilidad condicional auxiliar del umbral

izquierdo p1j la función definida como

p1j(αi) =

0, i= 1,..N⁄2 pj(αi), i=N⁄2+ 1,..N

y las particiones para cada αi, i= 1,..N,

como

αk, k= 1,..,i a la clase ωj

_

αk, k= i+ 1,..,N a la clase ωj

eligiendo como umbral izquierdo α1j,

aquel valor αi cuya partición minimice el

error de Bayes cuya expresión en este

caso esFigura 5.7. Partición del espacio ϕθ en tres

clases de color.


153

ε = Pj ∑ k= 1

i

pj(αk) + Pj_ ∑

k= i+ 1

N

pj_(αk)

Finalizado el cálculo de los umbrales α1j y α2j que delimitan la región

asignada a la clase ωj, se realiza el mismo procedimiento para el cálculo de las

regiones dentro del intervalo [0,2π) para las L− 1 clases restantes. Al final del

proceso se obtiene una partición del intervalo dominio del ángulo α, que

corresponde, por ejemplo en el caso de tres clases, a una partición en el espacio

direccional con un aspecto como el que ofrece la figura 5.7, siendo el punto

intersección de las rectas separadoras de las regiones el punto correspondiente al

color de iluminante, y las rectas separadoras entre regiones a sus

correspondientes ángulos umbrales encontrados en el proceso de aprendizaje.

En resumen, el proceso de entrenamiento del clasificador dado un conjunto

de muestras de aprendizaje es el siguiente:

1- Muestrear los valores de α∈ [0,2π) en un número N de puntos equidistantes αi,

i= 1,..,N. Asignar a cada muestra el valor αi más cercano a su correspondiente valor

del ángulo α original.

2- Calcular los histogramas Hj(αi) para cada una de las L clases presentes en el

conjunto de aprendizaje.

3- Definir las densidades de probabilidad condicional de cada clase pj(αi) a partir de

sus correspondientes histogramas.

4- Para cada clase ωj, j= 1,..L calcular los umbrales izquierdo α1j y derecho α2j

utilizando sus correspondientes densidades de probabilidad condicional auxiliares p1j y

p2j.

Realizado el proceso de aprendizaje, la clasificación de un píxel al que

corresponda un ángulo α en el espacio direccional, se efectuará asignándole la

clase ωj tal que α esté comprendido entre los umbrales asignados a tal clase, es

decir

ω(α) = ωj ⁄ α1j≤ α< α2j, j= 1,..L


154

5.4 Implementación

En el proceso de segmentación en color se ha utilizado el espacio ϕθ y no el

espacio XY por las consideraciones ya descritas en el apartado 5.2.2 sobre los

rangos de las coordenadas y sobre todo por que en el espacio ϕθ la distribución

de los puntos dentro de un mismo plano dicromático, es decir, de su

correspondiente geodésica, es mucho mas uniforme, comportándose mucho mejor

el clasificador en el proceso de aprendizaje, ya que en el espacio XY la mayor

parte de la información sobre la superficie de un mismo objeto se encuentra

muy concentrada cerca del punto correspondiente al iluminante, confundiéndose y

solapándose con la de los otros objetos de la escena.

Previamente al cálculo del valor del ángulo α de un punto en el diagrama

ϕθ respecto del color del iluminante, se calculan los valores ϕ y θ de cada píxel

de una imagen en color convirtiéndolos de su valor original en el intervalo

[0,π ⁄ 2] a su correspondiente valor en un rango [0,255] almacenándolos en dos

imágenes, la imagen ϕ y la imagen θ. Posteriormente se calcula el

correspondiente valor α de cada píxel respecto a las coordenadas (ϕ0,θ0) del

color del iluminante mediante la operación

α = arctan θ − θ0

ϕ − ϕ0

El color del iluminante es un parámetro que se supone calculado a priori y

que entra dentro de la calibración del sistema, ya que, además de depender de

la distribución de potencia espectral de la luz que emite el iluminante, sea el sol

o una lámpara de flash, depende de los filtros que lleve la cámara de video

utilizada y de la calibración de ésta respecto a la amplitud relativa de las señales

RGB que genere, ya que estas señales se pueden ajustar electrónicamente. Por

todos estos motivos la representación del color del iluminante en el espacio de

representación es un parámetro a precisar como parte de la calibración del

sistema.


155

No es objetivo de este trabajo desarrollar una metodología de cálculo

automático del color del iluminante a partir de imágenes de escenas dadas, tal

como en trabajos realizados por diversos autores (Lee, 1986; Maloney &

Wandell, 1986; Gershon, 1987; Ho et al, 1990) , sino calcularlo e introducirlo

directamente como simple dato en la calibración del sistema. Para ello el

procedimiento utilizado se basa en que el espectro de la reflexión superficial en

materiales de índice de refracción aproximadamente constante coincide con el de

la iluminación incidente.

Dado que los metales sólo poseen, en buena aproximación, reflexión

superficial, el color del iluminante se calcula situando en la escena un objeto

cilíndrico o esférico de metal, adquiriendo una imagen en la que quedan

registrados los valores de los vectores de color correspondientes a la luz

reflejada por los puntos de la superficie del metal. Se utiliza un objeto cilíndrico

o esférico para asegurar que la luz incidente sobre la superficie del metal lo

haga en todos los ángulos de incidencia posibles, obteniendo así una información

más completa. Una vez adquirida la imagen, suponiendo que el sensor de la

cámara no se haya saturado en ninguna de las bandas R, G o B, el color del

iluminante se escoge como el valor medio de los puntos en cada una de las

bandas RGB de la región en la imagen perteneciente a la superficie del objeto

metálico y que se selecciona manualmente.

Para las muestras en el proceso de aprendizaje, una vez los valores del

ángulo α de cada píxel muestra ha sido calculado, se les hacía corresponder uno

de los 360 valores en que el intervalo [0,2π) se dividió para el proceso de

entrenamiento, obteniendo así un precisión de un grado, que como veremos es

suficiente. Los píxels que sirvieron como muestras de color para el aprendizaje

del clasificador se obtienen segmentando manualmente, de imágenes en color,

regiones a las que se les atribuye un determinado color asignándoles su

correspondiente etiqueta a los píxels de esa región. Los datos se trasladan a

ficheros ASCII en los que en cada línea figuran las coordenadas ϕ y θ de un

píxel muestra acompañado de su correspondiente etiqueta de color asignada por

el analista en el proceso de extracción de muestras.


156

Después del proceso de aprendizaje donde se determinan para cada clase

ωj, j= 1,...,L , los umbrales izquierdo, α1j, y derecho, α2j, el algoritmo de

segmentación de una imagen tiene la siguiente forma

Para cada píxel (R,G,B) de la imagen

ϕ = arctan

GR

θ = arctan√R2+ B2

B

;

α = arctanθ− θ0ϕ− ϕ0

;

Asignar clase ωj al píxel cuyo valor α cumple

α1j ≤ α ≤ α2j;

fin, Para;

Al final del proceso se obtiene una imagen segmentada por medio de la

clasificación de sus píxels a través de una sola coordenada, α, donde las regiones

en la imagen segmentada las constituyen los píxels conexos que poseen la misma

etiqueta o clase asignada.

5.4 Comprobación del método y discusión

Las pruebas sobre la segmentación en color desarrollada y aquí descrita, fueron

realizadas con tres propósitos. Además de evaluar el método, en primer lugar se

comprobará experimentalmente que el modelo de reflexión de la luz adoptado

que condujo a la interpretación del espacio direccional a partir de los planos

dicromáticos, corresponde a lo que ocurre en un problema real. En segundo

lugar evaluar el método de segmentación sobre escenas naturales relacionadas

con el tema que motivó la realización de este trabajo. Por último comparar los

resultados que obtiene el clasificador utilizado en este trabajo con alguno de los


157

clasificadores más comunes utilizados en reconocimiento de formas aplicándolos

al espacio de representación en color definido.

5.5.1 Geodésicas en el espacio direccional

Con el fin de comprobar como se distribuyen los colores de un mismo objeto en

el espacio direccional ϕθ definido, así como las características de estas

distribuciones a partir de la interpretación del modelo de reflexión dicromático

en este espacio direccional, se han representado los valores de los píxels de un

imagen de bolas de diferentes colores en el espacio ϕθ. Se han elegido este tipo

de objetos porque al ser esféricos, se asegura que el ángulo de incidencia sobre

los puntos de su superficie, cubren todos los valores posibles, ya que una

superficie esférica tiene vectores normales a puntos de su superficie en todas las

direcciones, pudiendo encontrar puntos de la superficie de un mismo objeto con

diferentes valores de las componentes de reflexión superficial y del cuerpo, para

apreciar bien como se distribuyen estos puntos en el espacio de representación.

En la figura 5.8 se muestra la representación en el diagrama ϕθ de los va-

lores correspondientes a los colores RGB registrados de una escena de varias bo-

las de diferentes colores y de

color uniforme en toda su su-

perficie (figura 5.9). Aquí se

puede observar como los pun-

tos correspondientes a una mis-

ma superficie se distribuyen

aproximadamente alrededor de

su correspondiente geodésica

más representativa y que se

distribuyen formando unas cur-

vas de la forma representada

en la figura 5.5, correspondien-

te a las curvas resultante de la

representación de las geodésicas

en el espacio direccional, geo-

Figura 5.8. Representación en el espacio ϕθ de loscolores de bolas que aparecen en la figura 5.9.


158

désicas que representan sus correspondientes planos dicromáticos en el espacio

RGB.

Se puede observar como en realidad los colores de una misma superficie

no se distribuyen a lo largo de una sola de estas curvas, puesto que esto

representaría el caso ideal, sino que se dispersan alrededor de una de ellas

formando una región cuyos limites se pueden obtener mediante dos de estas

geodésicas. Nótese que, tal como se había previsto, todas las distribuciones

apuntan a un punto, el color del iluminante, donde se cruzan las geodésicas en

el diagrama ϕθ. Los puntos mas cercanos al color del iluminante son los

correspondientes a los puntos reflejo en la zona en que la reflexión superficial

es manifiesta, los demás puntos más alejados son los puntos mate.

Tal como se ha visto, la interpretación del color realizada a partir del

modelo reflexión dicromático en el espacio de color definido, se ajusta con

bastante exactitud a los fenómenos de reflexión en objetos reales.

Figura 5.9. Imagen de bolas de color uniforme iluminadas con luz fluorescentedel laboratorio. Entre ellas aparece un objeto metálico de superficie cilíndrica.


159

Figura 5.10b. Segmentación de la imagen de la figura 5.10a por el métododesarrollado.

Figura 5.10a. Imagen de una escena de naranjas con iluminación natural.


160




161




162

5.5.2 Segmentación de escenas naturales

Para verificar la validez del método en ambientes naturales se utilizaron 15

imágenes en color RGB de escenas de naranjas en su ambiente natural con luz

diurna y cielo despejado, con una resolución de 256 x 256. De estas 15 imágenes,

4 se utilizaron para extraer muestras mediante el procedimiento descrito en el

apartado 5.3, para realizar el aprendizaje del clasificador. Las muestras se

dividieron en tres clases, la clase naranjas, hojas y cielo.

Durante el proceso de aprendizaje se tomó como color del iluminante el

color blanco perteneciente a la recta de grises en el espacio RGB, ya que las

mediciones realizadas por el procedimiento descrito en el apartado 5.3 se

aproximaban mucho a este valor (ϕ0= 45°,θ0= 54,7°). Tras el aprendizaje del

clasificador, calculando la partición del dominio de los valores del ángulo α de

cada punto en el diagrama ϕθ, se asignaron los siguientes valores de α para las

diferentes clases

90° ≤ α < 123°, clase naranjas

0° ≤ α < 90°ó

349° ≤ α < 360°

, clase hojas

123° ≤ α < 349°, clase cielo

Con estos valores para el clasificador, las restantes 11 imágenes fueron

segmentadas clasificando cada uno de sus píxels de acuerdo a estos parámetros.

El resultado obtenido se puede observar a lo largo de las figuras 5.10 a 5.12, en

las que se muestran en las 5.10a a 5.12a las imágenes originales en color de

entre las 11 utilizadas como test, imágenes en las que se puede observar los

efectos de la iluminación natural de aparición de reflejos en la superficie de los

objetos, zonas de sombra y variabilidad de la intensidad de la iluminación en

diferentes lugares de la escena; y en las 5.10b a 5.12b la segmentación obtenida.

En las imágenes segmentadas, los píxels pertenecientes a la clase naranjas

se muestran en color rojo, los de la clase hojas en verde y los de la clase cielo

en azul. En estas imágenes podemos observar, además de una segmentación


163

bastante exacta de sus respectiva imágenes originales, como los puntos reflejo

correspondientes a la superficie de un mismo objeto que sus puntos mate han

sido asignados al mismo color, tal como se pretendía; esto se puede apreciar

mejor en algunas naranjas que poseen una marcada región con reflejos, como las

de la imagen de la figura 5.11. Con esto se viene a demostrar como el método

de segmentación empleado consigue tratar los reflejos asignándolos correctamente

a su correspondiente objeto, evitando los efectos espúreos que estos reflejos

provocan en el tratamiento de imágenes con iluminación natural e incontrolada.

El otro efecto que se puede observar es que tanto objetos con iluminación

directa como objetos en zonas de sombra han sido segmentados correctamente,

asignándoles el mismo color, tal como se puede apreciar en las figuras 5.10 y

5.12. Mas concretamente en la figura 5.10 se encuentran varios frutos en los que

parte de su superficie se encuentra iluminada directamente y parte se encuentra

en una zona de sombra. En su correspondiente segmentación se puede observar

como tanto los puntos de la zona de sombra como la de iluminación incidente

han sido asignados correctamente y al mismo color, con lo que queda de

manifiesto la cualidad del método de poder segmentar las imágenes

independientemente de la potencia total de la luz que ilumina los objetos,

evitando el problema de variabilidad espacial en la iluminación tan característica

en escenas naturales.

5.5.3 Comparación con otros clasificadores

Para poder comparar el error de clasificación del clasificador empleado en el

espacio de representación definido, se han utilizado tres tipos de clasificadores

basados en principios totalmente diferentes para evaluar el comportamiento de

estos clasificadores utilizando el mismo espacio de representación, el diagrama

ϕθ, y el mismo conjunto de muestras de aprendizaje y muestras test.

Las muestras de aprendizaje fueron las utilizadas en el apartado anterior

para encontrar los parámetros del clasificador para segmentar las imágenes test,

cuyo número total fue de 19164, de las cuales 7838 pertenecían a la clase

naranja, 7407 a la clase hojas y 3839 a la clase cielo. Las muestras test para


164

evaluar los errores de clasificación cometidos por los respectivos clasificadores se

extrajeron del mismo modo que las muestras de aprendizaje pero a partir de la

11 imágenes test restantes.

Los clasificadores utilizados fueron: una red neuronal, un conjunto de

prototipos utilizando la regla del vecino mas próximo y un árbol de clasificación

binario. La red neuronal utilizada (Moltó & Harrell, 1992) se entrenó con el

algoritmo de retro-propagación de Rumelhard & MacClelland (1986) y constaba

de una capa oculta de un nodo, además de la capa de entrada (2 nodos) y la de

salida (3 nodos). El coeficiente de aprendizaje η fue de 0,075, y el aprendizaje

se realizo en 1000 iteraciones.

El clasificador por el vecino más próximo (VP) se implementó sobre un

conjunto de prototipos reducido extraído a partir del conjunto de aprendizaje

inicial por medio de la técnica del multieditado-condensado (Ferri & Vidal,

1992), y cuyos prototipos finales fueron los representados en la figura 5.13.

Por último se utilizó un árbol de clasificación binario como el que se

describe en el capítulo 7 de este trabajo. El árbol se construyó con el método

del crecimiento por mínimo error que allí se expone, utilizando 1 ⁄ 3 de las

Figura 5.13. Conjunto de prototipos utilizados en elclasificador por el vecino mas próximo.


165

muestras del conjunto de aprendizaje para generar las particiones y los 2 ⁄ 3

restante para conducir el crecimiento del árbol. La partición de este conjunto se

realizó de manera aleatoria, dando como resultado un árbol de 47 nodos

terminales.

En la tabla 5.1 se muestran los resultados de los errores de clasificación

obtenidos sobre el mismo conjunto test para todos los clasificadores empleados.

El conjunto test constaba de 77928 elementos, de los cuales 14118 pertenecían a

la clase naranja, 54585 a la clase hojas y 9225 a la clase cielo. El error total de

clasificación se estimó como el número total de muestras mal clasificadas

respecto del total de muestras de conjunto test. Los diferentes errores de cada

clase se estimaron como el número de muestras mal clasificadas de cada clase

respecto al número total de muestras presentes en el conjunto test de la clase

en cuestión.

A partir de la tabla 5.1 podemos observar, en primer lugar, como en

general todos los clasificadores han obtenido resultados muy buenos, con errores

totales menores del 4 %. Esto viene a demostrar lo acertado del espacio de

representación de color definido, en el que las distribuciones de los colores de

diferentes objetos se encuentran poco solapadas, facilitando la clasificación y

produciendo buenos resultados.

En segundo lugar, podemos observar como el clasificador por umbral en el

ángulo α, desarrollado en este trabajo, es el que da mejores resultados, cuyo

error del orden del 1 %. Recordemos que este clasificador utiliza una sola

coordenada, pudiendo realizar segmentación en color calculando un sólo

Clasificador naranjas (%) hojas (%) cielo (%) Total (%)

Umbral en α 3,6 0,37 0,16 0,92

Red neuronal 4,3 3,7 0,13 3,5

VP 2,0 2,7 0,16 2,3

Árbol binario 3,7 3,2 0,15 2,9

Tabla 5.1. Resultado de los diferentes clasificadores sobre los conjuntos de muestras de color enel espacio ϕθ.


166

parámetro de cada píxel de la imagen, todo ello previa calibración del sistema

midiendo el color del iluminante. Este clasificador da mejores resultados porque

ha sido diseñado de forma especifica para este problema de color, aprovechando

todas las particularidades del espacio de representación de acuerdo a los

objetivos buscados, segmentación independiente de la variabilidad de iluminación

y asignación de reflejos a su correspondiente objeto.

Con la caracterización del color de los objetos presentes en las escenas se

finaliza el estudio de las propiedades relativas a los objetos de interés, los frutos,

cuyo modelo utilizado en la extracción de sus propiedades geométricas fue la

superficie de una esfera. Junto con las propiedades de concavidad, forma

elipsoide de la representación imagen de las esferas, y los contornos circulares

que las caracterizan, el color es el elemento que completa el conjunto de

características para poder realizar una interpretación de las escenas que se

presentan durante la recolección, para el reconocimiento y localización de los

frutos como objetivo final de un sistema de visión en un robot recolector. En

los próximos capítulos se abordarán los aspectos relativos al cálculo de la

distancia al fruto y el de la utilización de un método de interpretación de la

imagen una vez extraídos de sus correspondientes regiones los parámetros a los

que se ha hecho mención, completando con ello la parte dedicada de este

trabajo al estudio de técnicas de análisis de imagen.


167

Capítulo 6

MEDIDAS DE DISTANCIA.

ESTEREOSCOPIA

La información de rango o distancia es uno de los problemas en robótica,

sobre todo en robótica móvil, bien para el seguimiento de trayectorias en guiado

o para la detección de obstáculos con el fin de sortearlos. En otras aplicaciones

en el campo de la robótica la información de la distancia se utiliza para la

localización espacial de los objetos que el robot pretende manipular, aunque en

algunas aplicaciones esta información no es necesaria debido a que los objetos

están situados en ambientes controlados y se conoce su posición exacta a priori,

sobre todo en aplicaciones industriales de montaje de piezas asistido por robots.

Existen varios métodos y tipos de sensores para averiguar la distancia a un

objeto, como la triangulación por láser, sensores infrarrojos, sensores de

ultrasonidos, etc. Todos estos procedimientos, o bien precisan de un entorno

controlado para su implementación, o bien solo son aplicables para ciertos

rangos de distancias, normalmente cortos (ultrasonidos, infrarrojos), perdiendo su

exactitud fuera de estos rangos. La estereoscopia o visión binocular es otro de

los métodos posibles para el cálculo de la distancia a un objeto, utilizando el

principio de triangulación entre dos imágenes adquiridas por sendas cámaras

desde ángulos diferentes y cuya única condición es tener establecida una

correspondencia entre los puntos u objetos de las dos imágenes.

El problema de la localización de objetos para su manipulación por un

robot en ambientes naturales e incontrolados exige la utilización de un sistema

del cálculo de la distancia que precise las menores restricciones posibles para su

realización con respecto a la dependencia de factores externos al propio sistema.

La estereoscopia es un método de determinación del rango o distancia de

naturaleza estática, se limita a recoger las señales que proceden de los objetos

de la escena sin ninguna aportación por parte del sistema en si, no como ocurre

con los láseres o cualquier sensor cuyo principio se basa en la emisión de una

señal para que, al volver a recibirla, sea comparada con la emitida, extrayendo

de aquí la información buscada. Por estas razones la estereoscopia es una

metodología apropiada para estimación de distancias en aplicaciones de robótica

en un amplio rango de distancias, sobre todo en entornos en los que la

interacción con el medio es difícil o imposible.

En un robot recolector de frutos, la distancia a los frutos no es un

parámetro imprescindible para poder llegar hasta ellos, tal como se ha venido

mostrando a lo largo de los trabajos realizados en robótica de recolección por

los diferentes autores (Harrell et al, 1990; Blandini & Levi, 1989; Grand d’Esnon

et al, 1987; Juste et al, 1991). No obstante, el conocimiento de ella evitaría

varios problemas presentes en la recolección robotizada. El principal problema

reside en que desconociendo la distancia a un fruto no se sabe a priori si el

fruto esta dentro del campo de acción del brazo o por el contrario si el brazo

no puede alcanzarlo. A lo largo de los ensayos realizados en este proyecto, las

estadísticas nos revelan que el 29 % de los frutos detectados por el sistema de

visión están fuera del alcance del robot. Dado que el coordinador de tareas del

robot no conoce esta circunstancia, a cada fruto detectado le sigue un intento

para atraparlo, que en el caso de frutos lejanos o fuera de alcance se produce

una pérdida de tiempo y rendimiento en la operatividad del robot. Por otra

parte, en los prototipos implementados dentro de este proyecto, para atrapar el

fruto se lanza el brazo en la dirección calculada a través de la imagen captada

por una cámara, averiguando la proximidad del fruto por medio de un sensor de

infrarrojos situado al final del brazo.

El conocimiento de la distancia al fruto podría también facilitar la

estimación del tamaño real del fruto, pudiendo realizar una recolección más

selectiva, y también permitiría una colocación diferente de las cámaras, ya que

con una sola cámara es imprescindible que ésta esté situada en el centro de

coordenadas del robot. El conocimiento de la localización espacial del fruto

permitiría asimismo el cálculo de trayectorias del movimiento del robot así como


170

sus perfiles de aceleración con más exactitud, ya que conociendo solo la

dirección del fruto, la trayectoria posible para alcanzarlo es única y el perfil de

aceleración del brazo comienza pero no se sabe de antemano cuando termina.

Dentro de recolección robotizada Sandini et al (1991) fueron unos de los

primeros en abordar el problema de la distancia en este campo. Su método se

basaba en un sistema estereoscópico en la visión de un robot para desarrollar

tareas en cultivos de invernadero. Sandini et al (1991) utilizaron dos cámaras

cuyos ejes ópticos formaban cierto ángulo, convergiendo a una distancia

alrededor de la distancia media a la que operaba el robot. La elección de esta

disposición pretendía utilizar al máximo la zona de la imagen aprovechable para

el cálculo de la distancia en el rango de distancias en que se trabajaba, aunque

de esta forma se perdiera un poco de precisión en comparación con la

disposición de cámara con ejes ópticos paralelos.

La elección de la configuración geométrica del sistema estereoscópico no es

un problema importante, cada una tiene sus ventajas e inconvenientes respecto a

la complejidad del cálculo y sobre todo para la tarea de la correspondencia

entre las dos imágenes obtenidas de una misma escena. La identificación de los

puntos u objetos de la escena en una de las imágenes buscando su

correspondencia en la imagen que proporciona la otra cámara es el principal

problema a resolver en un sistema estereoscópico. Calculado el correspondiente

punto de una imagen en la otra, la determinación de la distancia o coordenadas

espaciales es un simple problema de geometría.

Tradicionalmente los métodos de búsqueda de la correspondencia entre

puntos se realiza para cada punto de la imagen independientemente, marcando

una ventana o vecindario alrededor del punto y buscando su correspondiente por

medio de una correlación en la otra imagen (Pratt, 1974) o por medio de un

algoritmo de detección de similitud secuencial (Barnea & Silverman, 1972). Este

tipo de técnicas, llamadas de estereoscopia basada en áreas, producen gran

cantidad de imprecisión en la correspondencia.

La utilización de las relaciones entre puntos de una imagen en la búsqueda

de sus correspondientes aporta un mayor grado de exactitud en la determinación

de la correspondencia que cada punto independientemente. Los contornos de las

Medidas de distancia. Estereoscopia

171

imágenes, comúnmente extraídos a partir de cambios notables en los niveles de

gris de un vecindario, contienen mucha mas información y mas relevante con el

fin de llegar a una correspondencia eficaz. A partir de los trabajos de Marr &

Poggio (1979), esta idea ha sido utilizada de forma generalizada por varios

autores, utilizando operadores de extracción de bordes como el "sombrero

mejicano", asignado luego una serie de características a cada punto.

Para realizar la correspondencia partiendo de puntos pertenecientes a

contornos, existe una gran variedad de algoritmos los cuales se encuentran

recopilados en el trabajo de Dhond & Aggarwal (1989), diferenciándose, en

primer lugar, en el conjunto de restricciones que se asumen para resolver

ambigüedades. Así Grimson (1986) impone la continuidad de regiones para

comprobar disparidades; o Mayhew & Frisby (1981) utilizan la restricción de la

continuidad de superficies, utilizando la información de varios canales de

información de la extracción de bordes en paralelo, a diferencia de Marr &

Poggio que lo hacían de forma secuencial.

Existen otras técnicas de correspondencia que utilizan procesos de

relajación, realizando la correspondencia de forma iterativa a partir de la

asignación de una probabilidad de correspondencia entre dos puntos candidatos,

la cual evoluciona iterativamente a partir de la probabilidad que tienen asignada

sus vecinos (Barnard & Thompson, 1980; Kim & Aggarwal, 1987). Los puntos

nodo o puntos donde se determinan la correspondencia también se determinaban

a partir de la extracción de contornos.

Ayache (1989) trabajó algoritmos de visión binocular basados en la

aproximación de contornos mediante poligonales, utilizando relaciones y

propiedades de ligadura entre los segmentos para encontrar una correspondencia.

Últimamente, Takeo & Hachiyama (1991), utilizan métodos de

correspondencia más aplicados al problema de la robótica, buscando su posible

utilización en tiempo real. Estos autores utilizan la diferencia de los valores del

nivel de gris de los píxels entre las líneas de ambas imágenes, desplazando cada

vez la posiciones relativas de los puntos de una línea respecto a la otra para

encontrar los puntos correspondientes.


172

Existe también lo que se llama correspondencia basada en regiones, es

decir, a partir de una segmentación o división en regiones de ambas imágenes se

realiza una correspondencia entre regiones. Dentro de esta línea, Marapane &

Trivedi (1989), a partir de una segmentación por crecimiento de regiones,

asignaban a cada región un conjunto de características. A estas regiones se les

asignaba su correspondiente tras evaluar una medida de similitud consistente en

el cálculo de la distancia euclídea entre los vectores de características de cada

región. El método que se desarrolla en este trabajo sigue la filosofía de este

tipo de técnicas.

En este capítulo se describen las características del sistema estereoscópico

empleado para calcular la distancia a los frutos, así como el método desarrollado

para realizar la correspondencia. En el apartado 6.1 se expone la disposición de

las cámaras y los motivos de su elección. Seguidamente (apartado 6.2) se

muestra la metodología desarrollada para realizar la correspondencia entre

objetos presentes en ambas imágenes. En el apartado 6.3 se describe la

implementación del método y el algoritmo utilizado, y por último se muestran

los resultados obtenidos en los experimentos realizados en la medida de

distancias y el proceso de correspondencia en ensayos de laboratorio y en

escenas de frutos en condiciones naturales.

6.1 El sistema estereoscópico. Disposición geométrica

En general un sistema estereoscópico binocular (figura 6.1) consta de dos

sistemas ópticos con sus correspondientes ejes ópticos orientados relativamente

de forma general. Un punto P del espacio objeto tiene su punto imagen P1 en

el sistema 1 situado en el plano imagen en el punto intersección de la recta que

pasa por el punto P y el centro óptico del sistema, C1, con el plano imagen.

Análogamente ocurre con la imagen del punto P en el sistema 2, P2, con su

correspondiente centro óptico C2. El punto correspondiente a P1 en la imagen 2

es el punto P2 y viceversa. Ambos puntos se encuentran situados en unas rectas,

DE1 y DE2 dentro del plano imagen correspondiente llamadas rectas epipolares,


173

definidas como la intersección entre el plano que forman las rectas PC1____

y PC2____

con los planos imagen. A las rectas epipolares DE1 y DE2 se les denomina rectas

epipolares conjugadas.

Al punto imagen a través del sistema óptico 2 del centro óptico C1 se le

denomina epipolo de la imagen 2, E2; y de manera análoga el epipolo de la

imagen 1, E1. En el caso general, todas las rectas epipolares posibles en el plano

imagen 1 cruzan el epipolo E1 formando un haz de rectas en el plano imagen 1;

análogamente ocurre con el plano 2.

En el caso particular de que los ejes ópticos de los dos sistemas sean

paralelos, la recta que forman los centros ópticos C1C2 es paralela a los planos

imagen y por lo tanto los epipolos E1 y E2 se encuentran en el infinito, con lo

que los haces de rectas epipolares en los planos imagen son líneas paralelas

(figura 6.2), y dos rectas epipolares conjugadas poseen la misma dirección en

ambos planos imagen.

6.1.1 Sistema estereoscópico de ejes ópticos paralelos

Un sistema estereoscópico no convergente consiste en dos cámaras fijas en una

base separadas una cierta distancia y cuyos ejes ópticos son paralelos. Estos

Figura 6.1. Sistema estereoscópico.


174

sistemas tienen la ventaja respecto a los sistemas estereoscópicos con ejes ópticos

convergentes de que poseen ciertas propiedades específicas que simplifican el

cálculo de las coordenadas espaciales del punto objeto y la búsqueda de la

correspondencia entre los puntos de las imágenes que proporcionan ambas

cámaras. Un inconveniente de estos sistemas reside en que, para ciertas

configuraciones en que las escenas se encuentran a una distancia demasiado

próxima a las cámaras, se pierde ángulo de visión, pudiendo solo realizar la

correspondencia en una zona reducida de las imágenes. No obstante, eligiendo la

configuración adecuada (distancia entre bases, focal de las lentes, etc) para

ciertos problemas en particular, este efecto se minimiza.

En la figura 6.3 se muestra el modelo de un sistema estereoscópico de ejes

ópticos paralelos, en los que el plano imagen ha sido reflejado a través de su

focal, consiguiendo una imagen no invertida de la escena, tal como ocurre en los

sistemas ópticos de las cámaras.

En esta representación un punto cualquiera en el espacio P está

representado por las coordenadas (x,y,z) respecto al sistema de coordenadas

principal situado en el centro óptico de la cámara izquierda, con el eje z en la

dirección del eje óptico y el plano xy coincidiendo con el plano imagen. El

centro óptico de la cámara derecha está situado en la posición (b,0,0), siendo b

la distancia de base entre los ejes ópticos de las dos cámaras. El sistema de

coordenadas de la imagen izquierda (xL ,yL), tiene su origen situado en el punto

Figura 6.2. Rectas epipolares en un sistema estereoscópico de ejesópticos paralelos.


175

(0,0,f) respecto al sistema de coordenadas principal, donde f es la focal del

sistema óptico, focal igual a la del sistema óptico derecho (xR,yR) cuyo origen de

coordenadas se encuentra situado en el punto (b,0,f).

Cada punto P del espacio objeto se proyecta sobre los planos imagen

izquierdo y derecho definidos por la intersección de las líneas que unen el punto

P y los centros ópticos de ambas cámaras con los planos imagen situados en las

posiciones anteriormente mencionadas. Si un punto P de coordenadas espaciales

(x,y,z) le corresponde, respectivamente, en el plano imagen izquierdo y derecho

los puntos (xL ,yL) y (xR,yR), por las propiedades geométricas de triángulos

semejantes, la expresión de las coordenadas de los puntos en los planos imagen

tiene la forma

xL = f xz

xR = f (x − b)

z

yR = yL = f yz

Figura 6.3. Sistema de ejes coordenados en un sistema estereoscópico de ejesópticos paralelos.


176

Definiendo la disparidad d entre dos puntos correspondientes en los dos

planos imagen como la diferencia entre el valor de sus abcisas respecto de sus

correspondientes sistemas de coordenadas en sus planos imagen, d = xL − xR, Las

ecuaciones de perspectiva inversa que nos definen la posición del punto en el

espacio objeto, (x,y,z), a partir de sus coordenadas en ambos planos imagen,

resultan de las ecuaciones anteriores

x = b xL

d

y = b yL

d

z = b fd

Estas ecuaciones son la base para derivar la información de la estructura

tridimensional de la escena a partir de un sistema estéreo de estas

características.

6.1.2 Error en la medida de un sistema estéreo de ejes ópticos

paralelos

Para el diseño de la configuración de un sistema estéreo es necesario la elección

de varios parámetros: la focal de la lente de las cámaras, el intervalo de

muestreo en la imagen, la distancia de base entre ejes ópticos y la distancia o

rango de distancias de las escenas a tratar respecto de las cámaras. Todos estos

parámetros no se pueden elegir independientemente, ya que es necesario llegar a

un compromiso para resolver el conflicto que existe entre la exactitud en la

correspondencia y la exactitud en la estimación de la distancia. Para realizar una

correspondencia lo más exacta posible evitando la oclusión de parte de los

objetos de una imagen respecto a la otra, el producto distancia de base por la

focal de la lente debe ser pequeño. Por el contrario, una estimación de la

distancia más exacta precisa que ese producto sea grande. Por otra parte, la

mejora en la estimación de la distancia puede conseguirse a través de un

intervalo de muestreo menor en las imágenes, pero esto es normalmente una

limitación impuesta por las características físicas del elemento sensor.


177

La predicción del error de un sistema estereoscópico es un tema que ya ha

sido abordado por diversos autores (Verri & Torre, 1986; Blostein & Huang,

1987). Uno de los últimos trabajos al respecto (Rodriguez & Aggarwal, 1990)

utiliza análisis estocástico para formular una expresión del valor esperado del

error en el cálculo del rango en sistemas estereoscópicos. Su formulación y las

expresiones que allí se derivan se describen a continuación.

En muchos problemas en que las profundidades de la escena están dentro

de un rango estrecho de distancias, la cantidad más útil para evaluar la exactitud

del sistema estéreo es el error de rango relativo, definido como

ε = | ∆z|

zmax − zmin

donde zmax y zmin son las profundidades máxima y mínima en las que va a

trabajar el sistema y | ∆z| el error absoluto del sistema. Este error describe la

resolución del rango mejor que el error en tanto por cien (| ∆z| ⁄ z), sobre todo

cuando las profundidades en que se encuentran los objetos en la escena se

encuentran en un estrecho margen. Para la mayoría de aplicaciones, tal como el

reconocimiento de objetos, el error de rango relativo es la cantidad mas

descriptiva porque los objetos normalmente se encuentran en una pequeña

porción del rango total, por ejemplo, consideremos un sistema que pretende

localizar objetos entre un rango de 950 y 1050 cm , por tanto, con un error

absoluto de 10 cm le correspondería un error relativo de rango del 10%,

mientras que por el contrario el tanto por cien del error de rango sería del 1%.

Considerando que el error en la disparidad ∆d es debido al intervalo de

muestreo de la imagen δ, y que este error se distribuye uniformemente,

Rodriguez & Aggarwal (1990) llegan a la conclusión de que el valor esperado

del error absoluto de rango E[| ∆z| ] de un sistema estereoscópico de ejes ópticos

paralelos tiene la expresión, despreciando los términos de orden superior,

E[| ∆z| ] = δ

9bf zmin

2 + zmin zmax + zmax2


178

y que el valor esperado del error de rango relativo, E[ε], se expresa como

E[ε] = δ (zmin

2 + zmin zmax + zmax2)

9 b f (zmax − zmin)

Examinando las dos ecuaciones anteriores se puede notar que, en general,

los valores esperados de los errores absoluto y relativo de rango son función

solo de los parámetros de diseño del sistema estereoscópico: la distancia de base

b, la focal del sistema óptico f, y los rangos máximo zmax y mínimo zmin en los

que se encuentran los objetos de la escena. Por otra parte, estos errores son

proporcionales al intervalo de muestreo δ, e inversamente proporcionales al

producto entre la distancia de base b y la focal del sistema f. Por último resaltar

que tanto el valor esperado del error de rango absoluto como el del relativo

aumentan cuando la magnitud del rango aumenta, es decir, la estimación del

rango o profundidad en un sistema estereoscópico es más precisa para objetos

más cercanos que para objetos mas lejanos.

6.2 Correspondencia

La mayoría de los procesos de visión estereoscópica consisten en tres pasos:

1- Una extracción de características.

2- Establecimiento de una correspondencia de puntos entre las

características encontradas en ambas imágenes.

3- Una reconstrucción tridimensional.

En el propósito que nos ocupa, no es necesaria una reconstrucción

tridimensional total de la escena, sino simplemente localizar en el espacio ciertos

objetos que sean reconocidos como frutos y de los que se desea saber sus

coordenadas espaciales.

Dado que el objetivo del sistema de visión estereoscópico en este robot de

recolección necesita localizar en el espacio un solo objeto, el que en esos

momentos centraliza la atención del robot, parece lógico y aconsejable utilizar un


179

método de correspondencia que simplifique este procedimiento orientándolo a

este propósito, con el fin de obtener una mayor rapidez en este cálculo para su

adaptación a sistemas en tiempo real. Esta idea ya ha sido utilizada por algunos

autores, desarrollando métodos de correspondencia para problemas concretos, por

ejemplo la detección de obstáculos en robótica móvil (Takeo & Hachiyama,

1991) o en este mismo campo de la robótica de recolección (Sandini et al,

1991), procedimientos susceptibles de su implementación en sistemas hardware

en paralelo para una mayor rapidez de cálculo, o centrando la aplicación de la

correspondencia en zonas reducidas de la imagen.

El método que aquí se ha desarrollado, es un método de correspondencia

local, es decir, que no intenta realizar la correspondencia de todos los elementos

de la imagen, sino de un sólo objeto; además la búsqueda se limita a cierta

zona de la imagen definida a partir de las restricciones que caracterizan el

sistema estereoscópico. El fundamento del método consiste en utilizar la

información que se obtiene, además de los contornos, de todas las características

utilizadas en la segmentación de las imágenes y el reconocimiento de los objetos,

con el fin de poseer la mayor información posible que relacionan todos los

píxels en una región de la imagen que corresponden a un solo ente u objeto,

que en su imagen conjugada se encontrarán relacionados de la misma manera.

De esta forma se pretende unificar el proceso de localización con el proceso de

reconocimiento, siendo la localización espacial una prolongación del proceso de

reconocimiento y basada en los mismos principios que llevaron a identificar el

objeto que se pretende localizar.

La manera de unificar y a la vez optimizar este procedimiento consiste en

la siguiente propuesta:

1- Realizar el proceso de análisis y reconocimiento en una de las imágenes

que proporciona el sistema, por ejemplo la izquierda.

2- Centrar la atención uno de los objetos reconocidos para determinar su

localización.

3- Realizar el mismo proceso de reconocimiento en una zona determinada

en la imagen derecha en función de la posición del objeto en la imagen

izquierda.


180

4- De todos los objetos encontrados en la imagen derecha que pertenezcan

a la misma clase que el objeto de interés en la imagen izquierda, determinar su

correspondiente realizando una medida de emparejamiento o similitud entre el

objeto localizado en la imagen izquierda y los posibles correspondientes en la

imagen derecha.

Nótese que por este procedimiento se pretende encontrar el

correspondiente a un objeto ya identificado en la escena a partir del proceso de

análisis y reconocimiento realizado en una de las imágenes, de esta forma se

centra la atención solo en la región de la imagen donde se encuentra el objeto

y no en su totalidad. El proceso de reconocimiento otorga ciertas características

a este objeto, producto de la extracción de características que se realizó para su

clasificación o reconocimiento. Estas características que definen una relación

entre todos los píxels pertenecientes al objeto serán utilizadas en el proceso de

correspondencia, al intentar realizar esta correspondencia solo en objetos

encontrados en la otra imagen que poseen las mismas características, por tanto,

se integra el proceso de reconocimiento en el de correspondencia.

La optimización en la búsqueda del objeto correspondiente se realiza

definiendo la zona en la imagen donde tiene la posibilidad de encontrarse el

objeto, por ciertas restricciones que serán descritas más adelante. La medida de

similitud final que identifica al objeto que le corresponde integra la información

de la forma del contorno, tamaño o área del objeto, y orientación, en un mismo

procedimiento de emparejamiento de plantillas.

6.2.1 Medida de similitud

Durante el proceso de reconocimiento, un objeto al que se le ha atribuido la

clase que se pretende manipular, queda definido durante el proceso de análisis

por una región en la imagen segmentada extraída a partir de la imagen original.

Los puntos de esta región quedan relacionados entre si por las propiedades que

han inducido al proceso de segmentación a considerarlos pertenecientes a una

misma región a la que se le han atribuido otras características calculadas para

identificarla.


181

El objetivo es encontrar su región

correspondiente en la otra imagen que

identifique al mismo objeto en la escena.

Dado que las regiones candidato a ser su

correspondiente poseen las mismas propiedades

extraídas durante el proceso de segmentación y

clasificación, una posibilidad de identificar su

correspondiente consiste en elegir de entre las

posibles regiones encontradas en la imagen de

correspondencia, aquella que tenga la misma

forma y tamaño que la región de la imagen

de partida de la que queremos hallar su

correspondiente.

Para ello se construye una máscara binaria de tamaño el rectángulo que

inscribe la región de interés, con valores distinto de cero en aquellos puntos que

correspondan a un punto de la región (figura 6.4a), con esta máscara se realiza

en la otra imagen, la cual habrá sido ya segmentada e identificadas sus regiones,

un proceso de emparejamiento o búsqueda de la región que más se ajuste a la

forma de la máscara construida. Esta máscara contiene información explícita de

la forma del contorno de la región, su tamaño y orientación, e implícitamente se

sabe que los puntos de esta región están relacionados por todos los criterios que

indujeron a su segmentación y clasificación.

Para realizar el proceso de emparejamiento, se construye una imagen

etiquetada de la imagen donde se va realizar la correspondencia (figura 6.4b).

Las regiones presentes en esta imagen serán aquellas que fueron asignadas por

el proceso de reconocimiento como pertenecientes a la misma clase que la que

se pretende encontrar su correspondiente.

De una manera global, aunque después se verá como se optimiza esta

búsqueda, con la máscara construida se barre la imagen binaria donde se realiza

el emparejamiento, localizando las regiones presentes con su respectiva etiqueta,

calculando para cada una de ellas una medida de similitud de la máscara o

plantilla cuyo centro coincidirá con el centro del rectángulo que inscribe la

Figura 6.4a. Máscara construida apartir de una región en la imagen

izquierda.


182

región donde se va a realizar la medida (figura 6.4c). La medida de similitud d

se calculará de la manera siguiente

d = NC2

Nm Nr

donde NC es el número de puntos que coinciden de ambas regiones al

superponer las máscaras, es decir, el área de la intersección de ambas regiones

al superponerlas, y Nm y Nr son respectivamente el número de puntos totales de

Figura 6.4c. Matching con una región.

Figura 6.4b. Imagen binaria.


183

la región de la máscara o área total de ésta, y el número de puntos o área de

la región a medir su similitud.

Esta medida realizada mediante la superposición de plantillas nos permite

evaluar a la vez la forma, el tamaño y la orientación de la similitud entre dos

regiones, todo ello mediante un sencillo cálculo de áreas y área intersección de

ambas que permite realizar el proceso en un tiempo reducido. La evaluación de

la orientación viene determinada porque la misma orientación tiene una región

en la imagen izquierda que en su correspondiente imagen derecha, por lo tanto

la máscara construida a partir de la región de la imagen izquierda debe ser

evaluada en el proceso de medida de similitud conservando la orientación

original de ésta. El tamaño ayuda a diferenciar entre regiones que posean una

forma similar pero diferente área. Este aspecto se evalúa a través del área de la

intersección, que sólo coincidirá con el área total de ambas en el caso que sean

de igual forma y tamaño. La forma de la región viene medida intrínsecamente

por la técnica de superposición de plantillas, ya que dos regiones con tamaño

similar pero forma diferente tendrán un área intersección diferente del área total

de las regiones.

El valor de la medida de similitud d posee valores en un rango entre [0,1],

siendo dos regiones más similares en forma y tamaño cuanto su medida de

similitud d sea más cercana a 1. La razón de esto reside en que el área

intersección de dos áreas, NC, es siempre menor que el área menor de las dos

regiones que intervienen en la medida, siendo 1 solo en el caso de que el área

de las dos regiones sean iguales Nm = Nr y el área intersección de ellas sea

igual a ellas Nm = Nr = NC, lo que significaría que ambas regiones tendrían la

misma forma, tamaño y orientación.

6.2.2 Método de búsqueda de una región correspondiente

De todas las restricciones y propiedades que posee un sistema estereoscópico

como el utilizado, existen dos de ellas en las que se apoya el método de

correspondencia desarrollado en este trabajo. Estas propiedades restringen la

localización del correspondiente de un punto o una región en la imagen

conjugada, limitando los posibles lugares donde se encuentra el punto


184

correspondiente y por lo tanto participando de forma decisiva en la resolución

de ambigüedades en la correspondencia.

Las restricciones en que se fundamenta la resolución de conflictos y una

búsqueda reducida en la correspondencia, se apoyan en las siguientes

propiedades de un sistema estereoscópico de ejes ópticos paralelos e idéntica

focal en ambos sistemas ópticos (figura 6.3):

1- La imagen de un punto en el espacio objeto posee dos puntos en los

respectivos planos imagen cuyos valores de la ordenada en los respectivos ejes

coincide. Es decir, para un punto en el espacio P de coordenadas (x,y,z), y sus

correspondientes coordenadas en el plano imagen izquierdo, (xL ,yL), y derecho,

(xR,yR), se cumple la condición

yL = yR

2- La imagen de un punto en el espacio objeto posee dos puntos en los

respectivos planos imagen cuyos valor de la abcisa en el plano derecho es

siempre menor o igual que la abcisa de su correspondiente punto en el plano

izquierdo. Es decir,1

xR ≤ xL

La primera de estas propiedades es consecuencia directa del hecho de que

en este tipo de sistema estereoscópico, las rectas epipolares son paralelas, y a su

vez, paralelas a los ejes de abcisas de los sistemas coordenados (ver figuras 6.2 y

6.3).


185

1 La demostración de esta propiedad relativa a la relación entre las abcisas de dos

puntos correspondientes, se ha desarrollado en el anejo de este capítulo

(páginas 199-204).

Considerando las dos propiedades anteriores, se puede decir que las

coordenadas de dos puntos conjugados, (xL ,yL) y (xR,yR), en sus respectivos

planos imagen izquierdo y derecho, correspondientes a la imagen de un mismo

punto en el espacio objeto, vienen relacionadas de la forma

yL = yR y xR ≤ xL

Por lo tanto, dado un punto en la imagen izquierda, su correspondiente en

la imagen derecha solo puede encontrarse en la misma fila de la imagen en que

se encontraba en la imagen izquierda, y en una columna anterior a la columna

donde se encuentra en la imagen izquierda (figura 6.6). Estas restricciones en la

localización de los puntos conjugados o correspondientes, tienen como

consecuencia dos circunstancias, primero que se reduce la zona de búsqueda en

la imagen conjugada para realizar la correspondencia, y segundo, de esta forma

se consigue reducir en gran medida la posible ambigüedad o imprecisión en la

correspondencia, ya que, por el método descrito aquí, la posibilidad de que dos

regiones sean de similar forma a la región que se pretende corresponder en esta

zona tan localizada de la imagen donde se realiza la correspondencia, es mucho

menor que si se intentara encontrar una región similar a lo largo de todas las

regiones presentes en la imagen donde se efectúe la correspondencia.

x xL R

xL

imagen izquierda imagen derecha

Figura 6.6. Situación relativa de puntos correspondientes.


186

Debido a las restricciones en la localización en los planos imagen entre

puntos correspondientes, el proceso para hallar la correspondencia de una región

determinada de la imagen izquierda en la imagen derecha por medio de la

medida de similitud descrita en el apartado 6.2.1, se realizará de la forma que

se expone a continuación.

Considerando el rectángulo que inscribe a la región de la que se pretende

calcular su correspondiente, de lados lx y ly a lo largo del eje x e y

respectivamente, y cuyo centro se halle en las coordenadas (x0L ,y0L), todos los

punto de esta región estarán comprendidos entre las filas y0L− ly ⁄ 2 y y0L+ ly ⁄ 2

tanto en la imagen izquierda como en la imagen derecha. Además, todos los

puntos de la región correspondiente en la imagen derecha se encontrarán en

valores de las columnas o abcisas inferiores a la abcisa del lado derecho del

rectángulo que inscribe la región en la imagen izquierda, x0L+ lx ⁄ 2. Por lo tanto,

la región correspondiente en la imagen derecha se encuentra en una franja

(figura 6.7) definida por los puntos (xR,yR) que cumplen

y0L − ly ⁄ 2 ≤ yR ≤ y0L + ly ⁄ 2

0 ≤ xR ≤ x0L + lx ⁄ 2

Dado que la región correspondiente se encuentra dentro de esta franja en

la imagen derecha, totalmente definida a partir de la región en cuestión de la

x0L + lx ⁄ 2 x0L + lx ⁄ 2

franja debúsqueda

y0L + ly ⁄ 2

Imagen izquierda Imagen derecha

y0L − ly ⁄ 2

Figura 6.7. Franja de búsqueda de región correspondiente.


187

imagen izquierda, el análisis de imagen y proceso de reconocimiento sobre la

imagen derecha solo se realizará en esta franja, con el correspondiente ahorro

en el tiempo.

Para cada región que se encuentre en esta franja, que se haya clasificado

como de la misma clase del objeto de la región en la imagen izquierda de la

que se busca su correspondiente, se realizará la medida de similitud descrita en

el apartado 6.2.1. El centro de la región en la imagen derecha calculado a partir

del rectángulo que inscribe a la región, se encontrará en la misma fila de la

imagen derecha. Por tanto, la máscara construida de esta región para realizar la

medida de similitud, se colocará sobre cada región presente en la franja de la

imagen derecha haciendo coincidir la coordenada y0L o fila del centro de la

región en la imagen izquierda, con la misma coordenada y en la imagen derecha,

y la coordenada x0L del centro de la máscara, con la coordenada x0R del

rectángulo que inscriba la región a comprobar en la imagen derecha, es decir, la

máscara se desplazará a través de la franja en la imagen derecha, sin salirse de

ella, y en los puntos cuyas columnas coincidan con la columna o coordenada x0R

del centro del rectángulo que inscriban las regiones que se encuentran en la

franja (figura 6.8).

Con todo este procedimiento se evitan, en primer lugar, posibles

ambigüedades en la correspondencia, ya que la región correspondiente tiene que

hallarse completamente dentro de la franja definida, y conservando las mismas

x0L + lx ⁄ 2 x0L + lx ⁄ 2

Imagen izquierda Imagen derecha

máscara

y0L − ly ⁄ 2

y0L + ly ⁄ 2

Figura 6.8. Desplazamiento de la máscara a través de la franja.


188

ordenadas de sus correspondientes puntos en ambas imágenes, de tal forma que

regiones similares desplazadas levemente hacia arriba o abajo en la imagen darán

valores menores de la función similitud calculada sobre ellas.

Otro aspecto de este proceso es su rapidez de ejecución, ya que solo se

realiza el matching o medida de similitud en puntos muy concretos de la franja,

los puntos centrales de las regiones allí presentes, es decir, se realizarán tantas

medidas de similitud por región encontrada en la imagen izquierda, como

regiones presentes en su correspondiente franja en la imagen derecha. Esto

puede dar una idea del reducido número de cálculos a realizar. Al final del

proceso de medida de similitudes sobre las regiones de la franja, se asignará su

región correspondiente a aquella que haya dado el valor más elevado en el

matching .

En estas condiciones, las posibles ambigüedades son mínimas, y es poco

probable que se produzcan, tal como se comprobará. En caso de aparecer dos o

mas regiones dentro de una misma franja con una similitud muy parecida, una

forma de poder resolver esta controversia es encontrar las regiones similares en

la misma franja pero ahora también en la imagen derecha y asignar cada una de

ellas a sus correspondientes en la imagen derecha conservando el orden de

aparición en la franja en sentido horizontal. Operando de esta manera se supone

que los objetos se encuentran en la escena en un rango de distancias pequeño,

ya que de otra forma este principio de orden no se cumpliría en casos extremos

para dos objetos de la misma forma y tamaños diferentes colocados a distancias

separadas tales que su proyección en la imagen tengan un tamaño similar y que

inviertan su orden de colocación en una imagen respecto a la otra, debido a la

proximidad de uno de ellos y estar situado en zonas muy concretas de la escena.

Tal como se puede observar al describir los casos anteriormente citados, la

posibilidad de que ocurran en bastante remota, y en todo caso su proporción es

ínfima respecto al total de situaciones reales, por lo que no es aconsejable la

complicación del método para resolver estos casos en menosprecio de la rapidez

del proceso sin tener en cuenta estos casos.


189

6.3 Implementación

El método desarrollado precisa en primer lugar de imágenes binarias que, en

general, pueden haber sido producto en cualquier tipo de segmentación (color,

concavidades, etc). En los ensayos que aquí se describen, se realizaron sobre

imágenes segmentadas a partir de un umbral en el nivel de gris sobre imágenes

en blanco y negro tomadas con un filtro rojo y apoyo de iluminación artificial,

ya que, en primer lugar, se disponía de dos cámara idénticas monocromas y,

además, fue el sistema de visión utilizado durante los ensayos sobre el robot,

aunque durante los ensayos en el robot no se utilizó el sistema estereoscópico

(sección 10.2). Con ello se pretende a la vez comprobar, que resultados hubieran

sido los esperados en el caso de utilizar el sistema estereoscópico en el mismo

sistema utilizado en el robot.

En las pruebas realizadas, la única selección de las regiones en las

imágenes segmentadas fue su área, con el fin de evitar ruidos. El proceso de

segmentación y selección, aunque sencillo, solo pretende ser un soporte para

comprobar la validez del método de correspondencia y medida de coordenadas

espaciales con estereoscopia. De forma general, el proceso de clasificación o

reconocimiento de las regiones pude ser cualquier método, siendo la única

condición que sea aplicado siempre con los mismos criterios en ambas imágenes.

Respecto a la configuración utilizada, ésta se eligió de acuerdo a la

precisión que se exigía de antemano, de acuerdo con los expuesto en la sección

6.1.3. En principio, para obtener una precisión teórica cercana al centímetro, se

eligió la configuración en función de lo siguiente:

- En recolección robotizada, los frutos se encuentran en distancias que

oscilan entre los 0,5 y los 3 metros.

- Las cámaras utilizadas (ver apartado 8.1) tenían un área sensible de

8,8 x 6,6 mm , a su vez dividida en una matriz de 582 x 500 elementos, pero las

imágenes fueron digitalizadas en imágenes de 512 x 512 de resolución.

Con estas restricciones respecto a la configuración de la escena y el

material utilizado, para obtener una precisión teórica de un error absoluto,


190

| ∆z| = 0,64 cm , se precisa un lente cuya focal sea de f = 16 mm y una

separación entre los ejes ópticos de las cámaras de b = 20 cm . Este error

absoluto, en el rango de zmin = 50 cm y zmax = 300 cm , tiene asociado un error

relativo de rango del 0,26 %. Tal como se verá en el siguiente apartado, estos

errores teóricos, con esta configuración, se ven incrementados debido a la

calibración del sistema, es decir, a la imprecisión en la colocación de las

cámaras, en primer lugar, que coincidan sus planos imagen, y en segundo lugar

que sean sus ejes ópticos completamente paralelos, además de la imprecisión que

supone el que realmente las dos cámaras y las dos ópticas, ni la lente ni el

CCD, obviamente no son completamente idénticas.

La calibración o disposición de las cámaras en la configuración elegida se

realizó de la siguiente manera: Colocando un plano en el que se encontraba

dibujado un rectángulo y un punto en su centro geométrico, se dispone la

primera cámara, la izquierda, sobre el soporte de forma que la imagen del

centro del rectángulo coincida con el centro de la imagen que proporciona la

cámara, y los lados del rectángulo con sendas filas y columnas, simétricamente

separadas del centro de la imagen. Con ello se consigue que el plano donde se

encuentra el rectángulo sea aproximadamente paralelo con el plano imagen de la

cámara, y que el eje óptico de la lente de la cámara atraviese el centro del

rectángulo, todo ello suponiendo que el eje óptico del plano imagen coincida

con el centro de la imagen después de digitalizarla.

Una vez colocada la cámara izquierda, se procede análogamente con la

derecha, colocándola sobre el soporte a la distancia de base señalada y haciendo

coincidir la imagen del rectángulo de la misma manera que para la cámara

izquierda, pero ahora teniendo en cuenta que por efecto del desplazamiento,

solo se realiza el ajuste haciendo coincidir los lados superior e inferior del

rectángulo con las mismas filas de la imagen que las filas donde se encuentra el

rectángulo en la imagen izquierda, así como la fila que se encontraba el centro

del rectángulo. Las columnas ahora estarán desplazadas a la izquierda, pero los

dos lados del rectángulo correspondientes a esta columnas, estarán desplazados la

misma distancia en píxels que en su correspondiente imagen izquierda. Con ello

se consigue que el plano imagen de la cámara derecha sea coplanario con el de


191

la cámara izquierda y que ambos ejes ópticos sean aproximadamente paralelos

(ver figura 6.3).

En el montaje realizado para los ensayos, las dos cámaras se situaron en

una superficie plana a partir de la cual se realizó su calibración. Las imágenes

resultantes de ambas cámaras tienen la particularidad de estar levemente

desplazadas en sentido vertical la una respecto a la otra, estando la imagen

derecha desplazada mas abajo siempre una distancia en píxels fija. Esto es

debido a que, aunque las cámaras están colocadas sobre una misma plataforma

plana, el CCD de una respecto a la otra se encuentra ligeramente desplazado en

el sentido descrito. Este efecto no tiene ninguna repercusión en los resultados de

los ensayos, ya que la cantidad fija desplazada en píxels se compensa por

software en el algoritmo.

Dispuesto el sistema de cámaras para realizar los ensayos, los pasos del

algoritmo seguido para calcular la región correspondiente en la imagen derecha

de su conjugada en la imagen izquierda, consta de

Segmentar imagen izquierda;

Para cada región de imagen izquierda con área mayor que área mínima

Construir máscara;

Definir franja asociada en imagen derecha;

Segmentar contenido de la franja;

Para cada región en la franja con área mayor que área mínima

calcular medida de similitud;

fin, Para;

Si la región con medida de similitud máxima es mayor que la similitud mínima,

entonces

asignar como región correspondiente a esa región;

calcular las coordenadas espaciales del centro de la región;

fin, Si;

Sino, estimar que la región se salió de plano;

fin, Para;

La cota en la medida de similitud o similitud mínima aceptada se impone

por el hecho de que es posible que el objeto se encuentre demasiado cerca y


192

demasiado desplazado a la izquierda, pudiendo darse el caso de aparecer dentro

de la imagen de la cámara izquierda y salirse de plano en la imagen derecha,

con la consiguiente pérdida de la información. Esto se deriva en que las medidas

de similitud de las regiones restantes no alcanzarán los valores que alcanza

normalmente la región correspondiente. Esta cota mínima se fijó en 0,4, tras

observar diversas medidas de similitud correctas.

6.4 Experimentos y resultados

Estos ensayos previos del método desarrollado que aquí se exponen, pretenden

realizar una comprobación de la validez del método en dos aspectos, primero en

la medida de la precisión del cálculo de la distancia, es decir, de las

coordenadas espaciales del objeto. En segundo lugar, comprobar la eficacia del

proceso de correspondencia en escenas reales de frutos en árbol en su medio

natural.

6.4.1 Precisión en cálculo de la distancia

Con el sistema calibrado y dispuesto, tal como se describió en el apartado

anterior, el algoritmo descrito se utilizó en el laboratorio sobre una escena de

objetos geométricos planos de diferentes formas y tamaños y colocados a

distancias entre 0,5 y 2,5 metros aproximadamente.

En la figura 6.9 se muestran el ajuste de un total de 118 medidas

realizadas por el sistema con respecto a la distancia real medida con una

precisión de ± 0,5 cm . La recta de regresión obtuvo un coeficiente de correlación

de 0,998. De estas 118 medidas, la correspondencia entre los objetos que

aparecían en ambas imágenes fue correcta y solo se obtuvieron 2 errores en la

correspondencia, de un total de 120 correspondencias contabilizadas, lo que

supone en este caso una fiabilidad el 98,3 %. Además hay que apuntar que los

errores en estas correspondencias no se debieron al método en si, sino a la

luminosidad recibida por ambas cámaras, ya que habiendo utilizado los mismos

umbrales para segmentar las imágenes izquierda y derecha, ocasionalmente

variaba un poco el nivel de iluminación que ambas percibían en alguno de los


193

objetos, cuya consecuencia era que ambas regiones pertenecientes al mismo

objeto variaban en su forma en la segmentación por un efecto distorsionador de

la iluminación distinta que percibían ambas cámaras, dado que en estos ensayos

de laboratiorio se utilizó la luz normal del recinto sin controlarla como en el

caso del sistema de adquisión con flash.

También se pudo observar el efecto que se señalaba en la sección 6.1.2,

por el cual el error en la medida en el sistema estereoscópico aumenta

conforme la distancia del objeto es mayor, observando que para objetos entre 50

y 90 cm de distancia, el error medio cometido es de 0,5 cm , mientras que para

las distancias más alejadas, mayores de 2,5 metros, el error medio está entorno a

2,4 cm .

Respecto al tiempo de proceso con un equipo como el descrito en el

capítulo 8, como media, sobre las 118 medidas realizadas, se utilizaron 0,39

segundos en realizar la correspondencia de un objeto, tiempo bastante reducido

que permite su utilización en sistemas en tiempo real, tal como requiere la

robótica aplicada. Este tiempo se podría reducir, obviamente, con la utilización

de equipo más potente o en sistemas en los que el soporte físico o hardware

estuviera más adaptado al problema, tal como se hace normalmente en estos

casos.

0 0.4 0.8 1.2 1.6 2 2.4 2.8(Miles)

(Mile

s)

2.8

2.6

2.4

2.2

2

1.8

1.6

1.4

1.2

1

0.8

0.6

0.4

0.2

0

(Miles)

Distancia real (mm )

Distanciaestimada (mm )

Figura 6.9. Representación de los valores experimentales de las distanciasestimadas por el sistema estereoscópico en función de la distancia real.


194

De los errores cometidos en la medida de las distancias por este método se

puede concluir su validez respecto a su precisión con respecto a la localización

de los frutos en la recolección robotizada, ya que la exactitud media conseguida,

± 1,1 cm (media del valor absoluto de las diferencias entre distancia real y

estimada), es suficientemente fiable para programar los movimientos y acciones

del robot, y decidir si un fruto se encuentra o no fuera del alcance de éste,

dentro de los objetivos buscados.

6.4.2 La correspondencia en escenas reales

En escenas reales los inconvenientes que pueden influir en el error en el

procedimiento de correspondencia son la posible oclusión relativa de un objeto

por un obstáculo que provoque que en una imagen se vea cierta parte del

objeto que su correspondiente en la otra no aparezca, y en el caso particular

que nos ocupa, dado que todos los frutos tienen una forma similar, éstos podrían

llevar a confusiones en la búsqueda de su correspondiente.

Este segundo aspecto se ve muy atenuado en primer lugar por poseer los

frutos tamaños diferentes, además del tamaño relativo distinto con que aparecen

dos frutos de igual tamaño situados a distancias diferentes. En segundo lugar, el

efecto atenuante más importante es que los frutos se encuentran normalmente

con parte de su superficie parcialmente oculta, sobre todo por hojas, ramas u

otros frutos, variando la forma de la región de su superficie visible de forma

irregular y totalmente aleatoria que facilita su identificación.

Con el mismo método utilizado para medir la precisión en el cálculo de la

distancia, se realizaron ensayos con 14 escenas de naranjas en árbol, con sus

correspondientes imagen izquierda y derecha, en su ambiente natural, utilizando

en este caso el apoyo de iluminación artificial para la obtención de las imágenes.

Sobre estas 14 escenas se contabilizaron un total de 66 correspondencias,

de las cuales 64 fueron correctas, con lo que sólo un 3 % fueron erróneamente

asignadas. En las figuras 6.10, 6.11 y 6.12 se muestran tres de las escenas donde

se realizó la comprobación, en las respectivas imágenes a y b se muestran las

correspondientes imágenes originales izquierda y derecha, y en la c y d sus


195

respectivas segmentaciones y la correspondencia obtenida entre las respectivas

imágenes izquierda y derecha.

Se puede observar como la mayoría de los frutos tiene parte de su

superficie parcialmente oculta en mayor o menor grado, obteniendo sus

respectivas regiones en la segmentación con formas irregulares, aunque se ve que

parte del contorno es circular, tal como se apuntó anteriormente. En estas

escenas se puede apreciar la exactitud en la correspondencia realizada, con lo

que se demuestra la validez del método en condiciones de la aplicación real.

Figura 6.10a. Imagen izquierda de una escenade naranjas.

Figura 6.10b. Imagen derecha de la mismaescena de la figura 6.10a.

Figura 6.10c. Imagen binaria de la figura6.10a con sus correspondientes de la imagen

de la figura 6.10d.

Figura 6.10d. Imagen binaria de la figura 6.10bcon sus correspondientes de la imagen de la

figura 6.10c.


196

A lo largo de las tres escenas se puede apreciar el efecto descrito en el

apartado anterior sobre el leve desplazamiento hacia abajo de la imagen derecha

respecto a la izquierda por la posición relativa de los CCDs comentada.

Las regiones de las imágenes binarias obtenidas en las que no se realizo la

correspondencia, se descartaron bien por poseer un pequeño tamaño o bien por

obtener medidas de similitud inferiores a la cota mínima fijada. Este es el caso

de ciertas regiones pertenecientes a naranjas ocultas en más de un 70 % de su

superficie, aproximadamente, en las que en su imagen correspondiente varia

mucho la forma de la región visible de los frutos, no puediento establecer una


de la figura 6.11d.


figura 6.11c.




197

correspondenica correcta, tal como muestran en algunos frutos de las figuras 6.10

y 6.11.

No obstante, en frutos parcialmente ocultos en los que en su imagen

correspondiente difieren levemente de su forma debido a alguna hoja que los

obstaculiza por el cambio del ángulo de observación, se puede apreciar como se

ha podido realizar la correspondencia en el caso de que una parte significativa

de su superfice es visible, con lo que se comprueba la robustez del método

respecto a oclusiones parciales de una imagen a la otra siempre que no

desaparezca de manera significativa la forma de su región correspondiente.




de la figura 6.12d.


figura 6.12c.


198

Con el reducido número de errores obtenidos en la correspondencia se

puede concluir su robustez frente a los problemas reales de la oclusión relativa

descritos anteriormente, ya que el método asigna como correspondiente aquella

región cuya similitud es máxima, por tanto si se presenta el fenómeno de

oclusión parcial, el algoritmo resuelve esta situación asignando la región cuya

forma y tamaño son más aproximados, situación que en general coincide con la

región que realmente corresponde, tal como se ha podido apreciar.

Señalar que con la configuración utilizada, se puede apreciar como parte de

la escena visible por la cámara se pierde de una imagen respecto a la otra,

aproximadamente 1/4 de la escena. Este efecto es el único inconveniente de

disponer las cámaras con ejes ópticos paralelos, aunque, por otro lado, se gana

en precisión en el cálculo de la distancia.

Concluir por tanto que la correspondencia en imágenes estereoscópicas

integrando la información utilizada en el análisis y el reconocimiento de los

objetos con el propósito de su localización espacial para una manipulación

automática o robotizada, es una técnica rápida y fiable para su implementación

en sistemas de tiempo real, siendo una posible solución al problema de la

determinación de la posición y distancia a los frutos en un robot recolector. La

medida de similitud utilizada permite una cierta flexibilidad ante el problema de

la oclusión parcial, siendo tolerante a pequeñas distorsiones en la forma y

tamaño de la parte visible de los objetos.

Anejo

Dentro de las propiedades derivadas de un sistema estereoscópico de ejes ópticos

paralelos e idéntica focal en ambos sistemas ópticos, se puede constatar que la

imagen de un punto en el espacio objeto P de coordenadas (x,y,z), posee dos

puntos en los respectivos planos imagen izquierdo y derecho, (xL ,yL) y (xR,yR),

cuyos valores de las abcisas en los respectivos ejes cumplen que la abcisa del

punto en el plano imagen derecho es siempre menor o igual que la abcisa del

punto en el plano imagen izquierdo, es decir,


199

xR ≤ xL

Para demostrar ésto, consideremos las coordenadas en los planos imagen de

un mismo punto en el espacio objeto como (xL ,yL) y (xR,yR), en el sistema

estereoscópico tal como se describió en el apartado 6.1.1.

Sea el plano que contiene a los centros ópticos de los dos sistemas, CL y

CR, a los puntos en los dos planos imagen, PL y PR, y el punto objeto P. Este

plano es el que definen las dos rectas epipolares DEL y DER que en este caso

definen una misma línea recta en los planos imagen, y que es paralela al eje de

abcisas.

El problema se va a dividir en tres partes:

a) Punto en el espacio objeto situado entre los dos ejes ópticos. En este

caso (figura 6.13) la línea que une el punto con el centro óptico de sistema

izquierdo CL (imagen en el plano imagen izquierdo) siempre corta al eje de

abcisas en su semieje positivo, es decir xL ≥ 0; mientras que la que une el punto

con el centro óptico de sistema derecho CR (imagen en el plano imagen

derecho) siempre corta al eje de abcisas en su semieje negativo, es decir xR ≤ 0.

Figura 6.13. Caso en que el punto esté situado entre ambos ejes ópticos.


200

Por lo tanto, si la imagen de un punto situado entre ambos ejes ópticos

posee siempre una abcisa positiva en el plano izquierdo, xL ≥ 0, y una abcisa

negativa en el plano derecho, xR ≤ 0, se cumplirá que

xR ≤ 0 ≤ xL

por lo que xR ≤ 0 ≤ xL en este caso.

b) Punto en el espacio objeto situado a la izquierda del eje óptico

izquierdo. En estas condiciones las abcisas del punto en el plano imagen

izquierdo y derecho son siempre negativas, xL ≤ 0 y xR ≤ 0, pero, observando la

figura 6.14, se puede ver que, considerando como triángulos semejantes los

determinados por los puntos PCLP′ y PLCLP′ L ,

tanαL = PP′____

P′ CL_____ =

PLP′ L______

P′ LCL______

y teniendo en cuenta que PP′____

= z la coordenada z del punto P, P′ CL_____

= | x| el

valor absoluto de la coordenada x del punto P, PLP′ L______

= f la focal de la lente, y

Figura 6.14. Caso en que el punto esté situado a la izquierda del eje ópticoizquierdo.


201

que P′ LCL______

= | xL | el valor absoluto de la coordenada xL en el plano imagen

izquierdo, se puede re-escribir la relación anterior como

tanαL = z

| x| =

f| xL |

De la misma forma, considerando como triángulos semejantes los formados

por los puntos PP′ CR y PRP′ RCR, se obtiene para el ángulo αR que

tanαR = PP′____

P′ CR_____ =

PRP′ R______

P′ RCR______

y dado que PP′____

= z la coordenada z del punto P, P′ CR_____

= | x| + b el valor

absoluto de la coordenada x del punto P mas la distancia de base entre los dos

ejes ópticos b, PRP′ R______

= f la focal de la lente, y que P′ RCR______

= | xR| el valor

absoluto de la coordenada xR en el plano imagen derecho, se puede expresar la

relación anterior como

tanαR = z

| x| + b =

f| xR|

donde en las expresiones de tanαL y tanαR se están considerando los valores

absolutos de todas las magnitudes definidas para obtener una medida de los

ángulos en el primer cuadrante.

Considerando por parte de los ángulos αL y αR las expresiones

tanαL = z

| x| , y tanαR =

z| x| + b

como | x| + b > | x| , es obvio que

tanαL > tanαR


202

Por otro lado, considerando las otras expresiones de estas tangentes se

obtiene que

f| xL |

= tanαL > tanαR = f

| xR|

por lo tanto | xL | < | xR| , y teniendo en cuenta que, tal como se indicó al

principio de esta demostración, las coordenadas xL y xR poseen siempre valores

negativos en el caso de que el punto objeto este a la izquierda del eje óptico

izquierdo, se obtiene el resultado buscado de que

xR < xL

c) Punto en el espacio objeto situado a la derecha del eje óptico derecho.

En este caso las abcisas del punto en el plano imagen izquierdo y derecho son

siempre positivas, xL ≥ 0 y xR ≥ 0. Pero en estas condiciones, y operando de

manera análoga al apartado b) de esta demostración, observando la figura 6.15, y

considerando como triángulos semejantes los determinados por los puntos PCRP′

Figura 6.15. Caso en que el punto esté situado a la derecha del eje ópticoderecho.


203

y PRCRP′ R, y los definidos por los puntos PCLP′ y PLCLP′ L , se tiene que para

los ángulos αL y αR se cumple que

tanαL = zx =

fxL

tanαR = z

x− b =

fxR

donde aquí todas las magnitudes son positivas.

Puesto que x− b < x es obvio que

tanαL < tanαR

por lo tanto, teniendo en cuenta las otras expresiones de estas tangentes

xR < xL

tal como se había previsto.


204

Capítulo 7

ÁRBOLES BINARIOS

DE CLASIFICACIÓN

El proceso de análisis de imagen encaja perfectamente dentro del esquema

general del proceso de reconocimientos de formas clásico. Este proceso consta

fundamentalmente de tres partes, un pre-proceso del dominio sobre el que se

actúa, una extracción de propiedades, y una interpretación de la estructura de

descriptores construida a partir de las propiedades encontradas.

La interpretación trata de averiguar las relaciones de interés existentes

entre las estructuras de descriptores obtenidas con el fin de formular un mensaje

semántico, es decir, un mensaje con cierto significado sobre la interpretación

realizada, que facilite una toma de decisión sobre el dominio analizado. En el

caso de que los mensajes semánticos producto de la interpretación sean la

simple asignación de etiquetas o clases a cada descriptor, el proceso de

interpretación se denomina clasificación. Un mecanismo de aprendizaje basado en

propiedades extraídas a elementos del dominio y en conocimiento a priori

aportado por el analista, define los parámetros y mecanismos utilizados en la

interpretación.

En un proceso de análisis de imagen el dominio es la imagen representada,

en el caso digital, por una matriz o matrices de enteros, a la que normalmente

se le realiza un pre-proceso consistente en filtrados para eliminar ruido, realces,

etc. La extracción de propiedades se realiza comúnmente a partir de una

segmentación de la imagen en regiones a través de algún tipo de criterio que

relaciona los puntos de una misma región. Estas propiedades se introducen en

estructuras de descriptores que en el caso de una clasificación forman los

llamados vectores de características o vector de medidas, los cuales describen un

elemento al que la interpretación, en su forma simple, clasifica y asigna una

etiqueta perteneciente a una de las clases posibles contempladas por el

clasificador.

Existen multitud de tipos de técnicas de reconocimiento de formas que

lejos de existir una única y forma general de resolver los problemas, cada una

de ellas ofrece soluciones más o menos precisas a diferentes tipos de problemas

en función de su estructura y naturaleza. En el caso que nos ocupa, el

reconocimiento de frutos en imágenes de escenas naturales, las propiedades o

características que se extraen para describir los elementos o regiones que

componen las imágenes, tienen la particularidad que cada una de ellas procede

de conceptos totalmente dispares y que, en principio, no poseen ninguna

relación, así como la forma de cuantificarlas que puede ser de manera

totalmente diferente, por medio de variables enteras, reales o lógicas.

Por ejemplo, para caracterizar un fruto, en acuerdo a todo lo expuesto en

capítulos anteriores, se podría describir mediante la forma de su superficie

(cóncava en la imagen y en ciertos casos elipsoidal), la forma de su contorno

(circular) y el color que posee en cada caso. Formando un descriptor a partir de

un conjunto de propiedades como las mencionadas, el principal inconveniente es

su relación entre ellas, ya que desde un punto de vista geométrico,

representando los vectores de características formados de esta manera, sería

difícil modelar o interpretar las distribuciones de probabilidad u ocurrencia de

los componentes pertenecientes a cada clase de elementos con sus respectivas

propiedades.

Los árboles binarios de clasificación poseen la ventaja de poder tratar y

manejar estructuras de datos compuestas por propiedades de naturaleza muy

dispar, facilitando el mecanismo de interpretación con solo formular

apropiadamente el problema en función de un conjunto de preguntas o

cuestiones sobre estas estructuras descriptivas del problema, cuestiones que

definen como se formará el árbol de decisión y que se describirán más adelante.

A lo largo de los trabajos realizados en visión artificial para el

reconocimientos de frutos, se puede observar que se han ido incorporando

técnicas de reconocimiento de formas con el fin de resolver el problema de una


206

manera más versátil y fiable, intentando incorporar un elemento que, de una

manera automática, pudiera realizar una decisión o clasificación a partir de unas

muestras iniciales que le sirven para aprender o determinar los parámetros que

ajustan el clasificador. Así por ejemplo los primeros trabajos utilizaban como

método de decisión la determinación de umbrales en ciertas características que

se consideraban decisivas, como la redondez de las regiones en la imagen

pertenecientes a frutos (Parrish & Goksel, 1977; Wittaker et al, 1987; Levi et al,

1988), o la utilización de umbrales para segmentar las imágenes con el fin de

encontrar las regiones pertenecientes a los frutos combinando el efecto de varios

filtros (Rabatel, 1988) o en espacios de color conocidos (Slaughter & Harrell,

1987). Después se introdujeron clasificadores basados en funciones lineales

discriminantes o incluso clasificadores basados en el vecino más próximo (Sites &

Delwiche, 1988) para decidir en acuerdo a ciertas características consideradas

como relevantes. También se han utilizado clasificadores paramétricos basados en

el clasificador de Bayes para realizar segmentaciones en color (Slaughter &

Harrell, 1988), y últimamente se han utilizado con el mismo propósito redes

neuronales (Sandini, 1991).

Dentro de este campo de visión artificial en la agricultura también se han

utilizado los árboles de decisión, en este caso en control de calidad para

clasificar granos de maíz en función de los daños que presentan (Paulsen et al,

1992). Los árboles de clasificación se han utilizado en varias aplicaciones en la

literatura, además del reconocimiento de formas (Breiman et al, 1984), han sido

aplicados en cuantización de vectores (Chou et al, 1989), sistemas expertos

(Quinlan, 1986) y otros campos como diseño lógico o diagnosis. Una variante de

los árboles de clasificación son los árboles de regresión (Breiman et al, 1984) los

cuales pretenden aproximar o predecir el valor de una función a partir de un

conjunto de valores previos con el que se construye el árbol de regresión.

En este capítulo se realiza una descripción de la técnica de aprendizaje de

árboles binarios de clasificación desarrollada, utilizando estos árboles de

clasificación como método de decisión en ciertas situaciones dentro del sistema

de visión artificial del robot, tal como se analizará en la segunda parte de este

Árboles binarios de clasificación

207

trabajo. Una descripción del fundamento y formulación de los árboles de

decisión se encuentra en el apéndice C.

En la sección 7.1 se exponen las propuestas principales de diferentes

autores para construir árboles de clasificación a partir de un conjunto de

muestras iniciales. A continuación (sección 7.2) se describirá el método

desarrollado en este trabajo para construir árboles de decisión binarios, el cual

pretende introducir una nueva aproximación al problema, generando el árbol

durante una búsqueda de arriba a abajo, al contrario de las técnicas que

generalmente se adoptan de poda del árbol máximo, a la vez que disminuir de

cierta forma el coste computacional en el aprendizaje. Le seguirá una sección

dedicada a las particularidades adoptadas para la implementación del método

(sección 7.3), y por último, una sección que incluye los experimentos realizados y

su comparación con árboles generados por sistemas diferentes.

7.1 Métodos de selección del árbol correcto

La nomenclatura y simbología utilizada aquí, está descrita en el apéndice C, en

el que se describen los fundamentos y características principales de los árboles

binarios de clasificación.

Una de las propiedades de los árboles de clasificación es que el error de

restitución total del árbol R(T) decrece siempre cada vez que generamos la

partición de un nodo, por tanto, este parámetro no proporciona ninguna

información para determinar en que momento debe detenerse el proceso de

crecimiento del árbol o la elección de cierto árbol de entre un cierto conjunto

de árboles generados a partir del mismo conjunto de aprendizaje.

En general, el árbol puede seguir creciendo hasta que en sus nodos

terminales solo se encuentren muestras pertenecientes a la misma clase, o hasta

que se llegue a un nodo terminal con una única muestra, o en el caso más

general hasta que contenga un número mínimo de muestras Nmin.

Existen diferentes metodologías para determinar el árbol óptimo que puede

realizar la clasificación con un error mínimo, pero sin asegurar que es el mejor

árbol posible construido a partir del conjunto de aprendizaje, ya que encontrar el


208

mejor árbol puede llevar a una búsqueda exhaustiva con un coste computacional

insostenible. Todos estos criterios propuestos por diferentes autores se exponen

en este apartado, criterios sobre los cuales se fundamentará la discusión de la

propuesta que se realiza en este trabajo.

No obstante, aunque la búsqueda del árbol óptimo global es

contraproducente, el comportamiento del árbol a medida que va creciendo el

número de nodos terminales ha sido bien estudiado experimentalmente y

justificado de forma heurística (Breiman et al, 1984). Este comportamiento

describe como varia el error o coste de clasificación errónea real estimado R̂(T)

de un árbol T en función del número de nodos terminales | T~| que posee. Una

forma de estimar este error es calculando el error por el método del test de

muestras Rts(T) o el error por validación cruzada Rcv(T) (ver apéndice C).

Dada una sucesión de sub-árboles extraídos a partir del árbol total

generado hasta que no sean posibles más particiones (llegando a las condiciones

expuestas en los párrafos anteriores), tal que cada árbol de la secuencia Tk

posea un cierto número de nodos terminales que puede estar comprendido entre

el número total de nodos terminales en el árbol máximo | T~n| , y | T~1| = 1, en el

caso de que el árbol T1 sea únicamente el nodo raíz, la variación del riesgo o

coste de clasificación errónea estimada R̂(Tk) respecto al número de nodos

terminales | T~k| esta representado por una curva típica como la mostrada en la

0.2

0.19

0.18

0.17

0.16

0.15

0.14

0.13

0.12

0.11

0.1

0.09

0.08

0.07

0.06

0.05

0.04

0.03

0.02

0.01

Figura 7.1. Variación del error de restitución, R(Tk), y del errorestimado real, R̂(Tk), de los árboles Tk , en función del número

de nodos terminales, | T~k | (Breiman et al, 1984).

1

R̂(Tk)

R(Tk)

| T~k|


209

figura 7.1, a la que acompaña también el comportamiento del error de

restitución R(Tk) en función del número de nodos terminales.

El gráfico de R̂(Tk) comienza por el árbol cuyo único nodo terminal es

| T~k| = 1 que es el árbol con un solo nodo, luego decrece tal como el número

de nodos terminales | T~k| va creciendo, alcanzando una zona llana donde se

encuentra el mínimo de R̂(Tk), comenzando entonces a incrementarse suavemente

el coste de clasificación errónea a mediada que sigue aumentando el número de

nodos terminales del árbol, continuando ascendiendo hasta el punto donde el

número de nodos terminales | T~n| corresponde al árbol de tamaño máximo Tn.

En este gráfico también se puede observar como el error de restitución

R(Tk) es siempre menor en todo momento al coste real aproximado R̂(Tk), y

siendo siempre decreciente con el número de nodos terminales. Esto viene a

decir que el error de restitución proporciona siempre mediadas del error

demasiado optimistas, alejándose cada vez más del posible error real a medida

que el árbol aumenta de tamaño.

Otra propiedad del coste real estimado R̂(Tk) es que el coste real estimado

del árbol máximo R̂(Tn) es invariablemente menor que dos veces el error

estimado del árbol de mínimo error, es decir

R̂(Tn) < 2 mink

R̂(Tk)

A la vista del comportamiento en un árbol generado a partir de un

conjunto de muestras de entrenamiento en función del tamaño del árbol, y dado

que el error de restitución es un indicador desorientativo sobre la elección del

árbol más correcto, se puede definir el mejor árbol Tk0 de una secuencia de

sub-árboles extraídos del árbol máximo generado a partir de un conjunto de

muestras de aprendizaje, como aquel que minimice el coste real estimado del

error de clasificación R̂(Tk)

k0; R̂(Tk0) = mink

R̂(Tk)


210

Existen dos formas fundamentales de seleccionar el árbol correcto. La

primera consiste en ir generando particiones hasta que el valor de cierto criterio

alcance el límite máximo permitido, llegando en esos momentos a un árbol

considerado como correcto, y en segundo lugar, generar en primer lugar el árbol

máximo posible, del que después se extaerá un árbol mediante poda,

seleccionando las ramas a podar por medio de cierto criterio selectivo. Aunque

claramente la primera forma es menos costosa computacionalmente, los criterios

propuestos por los diferentes autores no han conseguido alcanzar los resultados

obtenidos utilizando el segundo principio, siendo la opinión generalizada que los

árboles generados por poda posterior del árbol total son los más efectivos.

7.1.1 Selección por parada en el crecimiento del árbol

Como ejemplos de criterios de parada en la construcción del árbol existe, por

ejemplo, el mencionado por Breiman et al (1984), consistente en ir generando

particiones declarando un nodo t terminal cuando el decrecimiento en la

impuridad total del árbol ∆I(s,t) de todas las particiones posibles, s∈ S, en el

nodo t sea mayor que cierto límite establecido β, es decir

maxs∈ S

∆I(s,t) < β

definiendo la impuridad total del árbol I(T) como

I(T) = ∑

t∈ T~I(t) = ∑

t∈ T~i(t) p(t)

donde I(t) = i(t) p(t) es la impuridad del nodo t. Este criterio, tal como señalan

estos autores, no da resultados muy satisfactorios.

Otro ejemplo en este sentido es el utilizado por Boswell (1990), el cual

considera un nodo t al que correspondan N(t) muestras del conjunto total de

aprendizaje L , al que cumpla la relación


211

σ(N(t)) ≤ 1k

σ(N)

donde σ(N(t)) es la desviación estándar de las muestras en el nodo t, σ(N) la

desviación estándar de las N muestras en el conjunto total de aprendizaje, y k es

un parámetro ajustable. Con este criterio se pretende medir lo agrupadas que se

encuentran las muestras entorno a una sola clase en el nodo, declarándolo como

terminal cuando su desviación sea lo suficientemente pequeña de acuerdo con

los parámetros fijados.

7.1.2 Selección por poda del árbol total

La otra tendencia en la selección del árbol correcto es la que comúnmente se

acepta como forma de selección más adecuada, dando los mejores resultados en

la construcción de árboles de clasificación. Todos los métodos de selección

desarrollados hasta el momento por medio de criterios de parada en el

crecimiento del árbol, no han conseguido igualar los resultados obtenidos por los

métodos de poda.

Fueron Breiman et al (1984) los que propusieron por primera vez este

cambio de enfoque en la elección del árbol correcto, construyendo primero el

árbol máximo con cierto criterio para generar particiones y extraer una sucesión

de sub-árboles a partir del árbol máximo mediante poda, eligiendo más tarde

uno de estos sub-árboles como el árbol correcto.

Para ver el fundamento de este método definir, en primer lugar, una rama

Tt del árbol T cuyo nodo raíz es t∈ T, consistente en el nodo t y todos sus

nodos descendientes. Por tanto, la acción de podar una rama Tt del árbol T

consiste en eliminar de T todos los descendientes del nodo t excepto el nodo

raíz de la rama t; el árbol podado T ′ puede ser denotado como T ′ = T − Tt.

Si T ′ es un árbol extraído a partir de podar sucesivamente ramas de T

entonces se dice que T ′ < T.

Ya que existe una relación entre el número de nodos terminales de un

árbol T~, y el coste de clasificación errónea, Breiman et al definen la complejidad

del coste Rα(T) del árbol T para un cierto parámetro α≥ 0 como


212

Rα(T) = R(T) + α| T~|

con R(T) el error de restitución del árbol. De esta forma se incluye un termino

adicional al error de restitución que penaliza la complejidad del árbol en función

del número de nodos terminales.

Aunque para cada valor del parámetro α existirá un árbol T(α) con

T(α)< T que minimice Rα(T), encontrar este árbol requiere una búsqueda

exhaustiva a través de la poda de T que es costosa y totalmente

contraproducente. Sin embargo a partir de este criterio se puede definir un

criterio de poda que conduzca a la obtención de árboles más correctos. La

filosofía de este criterio se basa en ir podando sucesivamente aquellas ramas del

árbol cuyos enlaces al árbol total se puedan definir como los más débiles.

Par poder medir la debilidad del enlace que une a una rama Tt con el

árbol total T, este enlace está relacionado con el valor del parámetro α asociado

al nodo t considerando que, para cualquier nodo no terminal del árbol t se

cumple

R(t) > R(Tt)

es decir, el error de restitución del nodo t siempre es mayor que el error de

restitución de la rama que define este nodo Tt, pero a partir de un cierto valor

crítico del parámetro α, el coste de complejidad del nodo t será menor que el

de su rama asociado Tt, es decir,

Rα(t) < Rα(Tt)

A partir del árbol máximo, Tn, se calculan los valores de α para cada nodo

no terminal del árbol, valor α a partir del cual el coste de complejidad de la

rama, R(Tt), es mayor que el coste de complejidad del nodo sólo, R(t).


213

El proceso de poda consiste en eliminar la rama del nodo cuyo valor de α

sea el menor de todos los de los demás nodos, ya que esto quiere decir que el

enlace que une esta rama al árbol es el más débil, pues si partimos de un valor

α = 0 para todo el árbol y lo aumentamos sucesivamente, esta rama es la

primera en la que el coste de complejidad de la rama Rα(Tt) superará al coste

de complejidad Rα(t) del nodo por si sólo, siendo entonces el nodo solo más

preferible que su rama.

Repitiendo el mismo proceso para el árbol resultado Tn− 1 = Tn − Ttn de

podar la rama del nodo tn para el que α fue mínimo, se obtiene una sucesión

de sub-árboles del árbol máximo Tn que cumple

Tn > Tn− 1 > … > T1

siendo T1 el árbol más pequeño formado por un solo nodo, el nodo raíz del

árbol total Tn.

Para determinar de entre los árboles de esta sucesión el árbol correcto Tk0

se escoge aquél que minimice el coste real estimado de clasificación errónea

R̂(Tk), es decir

Tk0 = mink

R̂(Tk)

Este coste real se puede estimar por medio del método del test de

muestras Rts(T) o el error por validación cruzada Rcv(T) (ver apéndice C). No

obstante estas estimaciones tienen una desviación respecto del error real. Esta

desviación en el error R̂(Tk) estimado puede producir que el valor del error

oscile de una manera inestable en la zona llana del valle donde se encuentra el

mínimo. Para evitar o reducir esta inestabilidad se utiliza la regla llamada 1 SE,

que consiste en elegir el árbol Tk1 de esta sucesión que cumpla

R̂(Tk1) ≤ R̂(Tk0) + SE(R̂(Tk0))


214

siendo Tk0 el árbol de la sucesión cuyo error estimado R̂(Tk0) sea mínimo, y

SE(R̂(Tk0)) el error estándar de esta estimación. De esta forma se evita la

inestabilidad en la zona que rodea al mínimo y se elige como árbol más

correcto aquel que su error es comparable al que posee el error mínimo

estimado y que posee un número de terminales más pequeño de los que se

encuentran en la zona del error estándar del árbol Tk0.

En el caso de que la estimación del coste de clasificación errónea se

realice por el método del test de muestras (apéndice C), este error para un

árbol T tiene la expresión

SE(Rts(T)) =

Rts(T) (1 − Rts(T))N2

1 ⁄ 2

siendo N2 el número total de muestras del conjunto utilizado como test.

A partir de la idea introducida por Breiman et al (1984) para seleccionar

el árbol correcto a partir de una poda del árbol máximo, se han realizado

posteriormente propuestas similares en este sentido, aunque estos métodos

comportan una menor complejidad en el proceso de poda y selección del árbol

correcto.

Quinlan (1987) utilizaba un método de poda del árbol total o máximo

consistente en analizar recursivamente cada nodo t del árbol T estimando el

error de su rama correspondiente R̂(Tt) y el error del nodo únicamente R̂(t). Si

se cumple que el error estimado introducido por la rama es mayor que el del

nodo sólo, es decir,

R̂(Tt) ≥ R̂(t)

y esta rama no contiene ningún otro nodo que cumpla estas características,

entonces la rama Tt se elimina del árbol, dejando únicamente el nodo raíz t de

esa rama. Una vez podadas todas las ramas que cumplen esta condición se

repite el proceso para el árbol resultante de la poda hasta llegar al árbol

correcto del cual no se pueden eliminar más ramas.


215

Boswell (1990) introdujo una pequeña variante a éste método modificando

la condición de poda de una rama Tt correspondiente al nodo t en la forma

R̂(Tt) ≥ k R̂(t)

donde k es un factor en tanto por cien, es decir, podar la rama Tt

correspondiente a un nodo t si el error estimado de la rama R̂(Tt) supera el k

por cien del error estimado para el nodo R̂(t). En este caso la estimación del

error se hacía siempre mediante el método del test de muestras Rts(T).

7.2 Construcción de árboles binarios de clasificación mediante un

criterio selectivo de crecimiento

Tal como se describe en el apéndice C, el método de construcción de un árbol

binario de clasificación realiza una selección óptima paso a paso de las variables

para producir las particiones en cada nodo, buscando de una manera exhaustiva

sobre las muestras que se encuentran en el nodo, utilizando el conjunto de

cuestiones definido.

Sin embargo, la búsqueda del árbol óptimo dentro del árbol total o máximo

que puede generarse a partir de un conjunto de muestras de aprendizaje y los

criterios de impuridad elegidos, requeriría una búsqueda exhaustiva a través de

todos los posibles sub-árboles que pudieran derivarse de él, siendo esta tarea

extremadamente costosa y difícil de abordar. Por este motivo, los métodos de

selección y búsqueda de un árbol, aunque no se pueda verificar que sea el árbol

óptimo, si sea un árbol correcto con un error de clasificación mínimo de entre

un grupo de sub-árboles extraídos o generados por medio de ciertos criterios

coherentes con las propiedades de los árboles de decisión, es decir encontrar un

mínimo local de entre todos los sub-árboles posibles.


216

7.2.1 El coste computacional en la construcción del árbol

Existen tres factores o aspectos en la construcción de un árbol de clasificación

que intervienen de una manera directa en el coste computacional necesario para

construir y elegir un árbol correcto:

1- La búsqueda exhaustiva en cada nodo de la partición óptima para

generar los dos nodos descendientes.

2- El coste adicional que supone el tener que utilizar un método de

estimación del error como base, en la mayoría de los métodos, para la elección

de un árbol correcto.

3- En procedimientos del tipo generación del árbol total y selección por

poda, el coste necesario, en primer lugar, para generar el árbol máximo posible,

y en segundo lugar, para la extracción de sub-árboles mediante poda.

Respecto al coste computacional derivado de una búsqueda exhaustiva de

las posibles particiones para que el árbol siga creciendo, varios autores han

abordado este problema para reducir el coste, en principio de naturaleza

exponencial, a un coste lineal en la búsqueda de particiones en cada coordenada

con el número de muestras de cada nodo, y el posible conjunto de valores que

pueden tomar dentro del conjunto de muestras de aprendizaje (Breiman et al,

1984; Chou, 1991). También se han introducido técnicas de simplificación en el

caso que el número de muestras de aprendizaje sea muy elevado en ciertos

nodos (Breiman et al, 1984).

En cuanto al coste adicional que supone un método de estimación del

coste de clasificación errónea del árbol, es en si un mal menor, ya que aunque

precise de cierto cálculo para poder elegir el árbol correcto, se obtiene siempre

a la vez una estimación del error del clasificador, tarea que se debe realizar

aparte en otros tipos de clasificadores si se desea conocer este error estimado.

El último aspecto referente al coste computacional es el que va a

centralizar la atención en el resto del capítulo. Para tener una idea estimada del

montante del coste de selección de un árbol por poda del árbol máximo,

analicemos el problema por partes.


217

En primer lugar el coste computacional que comporta la generación del

árbol máximo o total. Cada vez que se genera un nuevo nivel en el árbol se

duplica el número de nodos, duplicando por tanto la tarea de la búsqueda

exhaustiva en cada nodo de la partición óptima a que hacía referencia el primer

punto. El número de niveles de un árbol máximo dependerá sobre todo del

número de muestras del conjunto de aprendizaje, obteniendo para conjunto

grandes de muestras de aprendizaje, árboles de tamaños considerables, es decir,

para un árbol de nv niveles, el número de total de nodos es de 2nv, sobre los

que en cada uno de ellos se ha realizado el proceso de búsqueda de la partición

óptima.

Por otra parte, la extracción de sub-árboles a partir del árbol total para

obtener el árbol correcto precisa de cierto coste, analizando sucesivamente cada

árbol obtenido por poda de una rama del árbol precedente. A todo ello se suma

el tener que evaluar la estimación del error de clasificación de cada sub-árbol

conseguido para poder elegir el árbol correcto. Este proceso incluye un número

de sub-árboles que depende del tamaño del árbol total, pudiendo llegar a tener

que analizar un número elevado de árboles en ciertos casos, sobre todo para

conjuntos de muestras de aprendizaje de considerable tamaño.

No obstante, ha quedado demostrado a lo largo de la literatura que los

procedimientos de elección del árbol correcto extraído por medio de poda del

árbol total son los que producen los mejores resultados, sin embargo, el atractivo

que supone el poder generar un árbol por medio de un único crecimiento inicial

sin tener que construir el árbol total, no deja de ser una de las posibilidades a

tener en cuenta para reducir el coste de la construcción del árbol intentando

conseguir resultados al menos del mismo orden que los conseguidos por los

métodos de poda a posteriori, siendo éste el propósito de la propuesta que se

realiza en este trabajo.

7.2.2 Propiedades fundamentales de los árboles binarios de clasificación

Para encontrar un método que nos permita construir un árbol correcto mediante

un único crecimiento inicial, se deben analizar en primer lugar cuales son las


218

propiedades fundamentales que poseen los árboles de clasificación y la evolución

de sus parámetros indicadores durante el crecimiento del árbol.

Analizando detenidamente los resultados teóricos y experimentales

realizados al respecto, podemos generalizar las propiedades del comportamiento

de un árbol de clasificación de la manera siguiente:

1- Para un amplio rango de criterios de impuridad, las propiedades del

árbol final seleccionado no depende de la regla de selección de particiones. El

criterio de selección del árbol correcto es mucho más importante y es el que

verdaderamente fija las propiedades finales del árbol.

2- El error de restitución del árbol decrece siempre cada vez que se genera

una nueva partición, siendo menor cuanto mayor es el árbol.

3- Sin embargo, el error real estimado decrece a medida que aumenta el

número de nodos terminales hasta llegar a una zona más bien llana, alcanzando

el mínimo, aumentando a partir de entonces a medida que el árbol sigue

creciendo y por tanto su número de nodos terminales, hasta llegar al árbol

máximo o total que puede ser construido a partir de un conjunto de muestras

de aprendizaje.

La obtención de árboles, o sucesiones de árboles, por medio de la poda

del árbol total, se realiza de acuerdo a ciertos criterios coherentes con las

propiedades que caracterizan el comportamiento de los árboles, podando ramas

que clasifican peor que el nodo de la que fue inducida (Quinlan, 1987; Boswell,

1990) utilizando directamente la estimación del error, o en el caso de Breiman

et al (1984) que la poda se realiza utilizando únicamente la información que

proporciona el conjunto de muestras con que se construyó el árbol a partir de el

concepto de la complejidad del coste, que no deja de estar íntimamente

relacionado con el coste real de clasificación errónea.

7.2.3 El criterio de crecimiento

Puesto que cualquier sucesión de árboles derivados a partir del árbol máximo,

construido con cierto criterio de generación de particiones, tiene el mismo

comportamiento frente al error de clasificación, una sucesión de estos árboles


219

construidos de una manera descendiente tendrá el mismo comportamiento que si

hubieran extraídos mediante poda a partir del árbol total de una forma

ascendiente.

Por otro lado, si se tiene en cuenta que cada paso de este crecimiento

corresponde a uno de los árboles de una sucesión de árboles crecientes

T1 < T2 < … Tn, donde Tn es el árbol total, este crecimiento debe ser realizado

mediante un criterio coherente con la evolución del error de clasificación

característico de una sucesión de árboles de estas propiedades.

Este criterio de crecimiento coherente con el comportamiento del árbol,

creará una sucesión de árboles de entre los cuales se puede elegir un árbol

correcto que tendrá la característica de ser un árbol con error de clasificación

mínimo, aunque al igual que en los métodos desarrollados hasta el momento,

este árbol será un mínimo local.

La idea consiste en elegir el nodo terminal t de todos los nodos terminales

T~k del árbol Tk dado, el cual, mediante su división a partir de su

correspondiente partición óptima, genere un árbol Tk+ 1 cuyo error estimado

R̂(Tk+ 1) sea el mínimo del que se generaría dividiendo cualquiera de los

restantes nodos terminales del árbol de partida Tk, es decir, si Tk+ 1t es el árbol

resultante de dividir el nodo t∈ T~k en sus dos descendientes tL y tR, entonces se

toma Tk+ 1 como

Tk+ 1; R̂(Tk+ 1) = mint∈ T~k

R̂(Tk+ 1t) (7.1)

siendo obvio que Tk < Tk+ 1.

Es decir, el árbol crecerá por el nodo que haga decrecer el error estimado

hasta llegar a la zona del mínimo, puesto que en un principio la división de

estos nodos siempre conllevará una disminución del error, y a partir de entonces

el árbol crecerá por el nodo que aumente el error lo menor posible, ya que a

partir de ese momento no habrá divisiones que generen árboles de error menor.

Este es un criterio de construcción de una sucesión de árboles T1,T2,...,Tn,

totalmente coherente con el comportamiento del árbol frente al error de


220

clasificación, sucesión que mostrará una variación de este error como el descrito

en el apartado anterior. Esta sucesión de árboles tiene la particularidad de que

el número de terminales del árbol siguiente T~k+ 1 siempre se incrementa en la

unidad respecto al anterior T~k, es decir, | T~k+ 1| = | T~k| + 1.

Existe cierta situación particular al generar la partición de un nodo, la cual

ni aumenta ni disminuye el error del árbol al dividir esos nodos. Ello ocurre

cuando la clase que se asigna a los dos nuevos nodos terminales es la misma

para ambos y, a su vez, igual a la clase que tenía asignada su nodo padre

cuando era terminal. Este tipo de particiones, a las que llamaremos particiones

invariables, se tratan de una manera especial.

Si al dividir un nodo t se obtienen dos nodos, tL y tR, a los que se les ha

asignado la misma clase que tenía el padre, se generan a su vez nuevas

particiones de estos nodos hijos hasta encontrar algún nodo terminal de la rama

que cuelga del nodo original, Tt, que tenga asignada una clase diferente de los

demás nodos terminales de la rama, o en caso contrario, se desarrolle toda la

rama sin aportar variación, con lo cual se poda definitivamente la rama Tt,

declarando el nodo t como nodo terminal permanente.

De esta forma se consigue llegar a zonas del árbol que pueden disminuir el

error de clasificación y que quedan enmascaradas por nodos en niveles

superiores debido a la evolución de las muestras por las particiones más

profundas, y que de otra forma no podrían ser contempladas.

Durante la selección de los nodos a considerar para el crecimiento del

árbol, los nodos invariantes se tratan como los demás, pero al considerar la

variación del error del árbol si se toma su correspondiente partición, se toma

como partición la rama encontrada, según el proceso mencionado, que consigue

una variación en el error del árbol, incorporando esta rama al árbol en el caso

de que se cumpla la condición de la expresión (7.1).

7.2.4 Elección del árbol correcto

El siguiente paso, al igual que en la metodología general, es elegir el árbol

correcto de entre los que componen la sucesión de árboles encontrada. Esta

sucesión de árboles tiene las mismas propiedades que la sucesión que se obtiene


221

mediante el método propuesto por Breiman et al (1984), pero en este caso no

se realiza ningún proceso de poda a partir del árbol total; además, la sucesión

encontrada ya tiene asignada para cada uno de los árboles que la forman su

correspondiente error estimado. En esta situación es oportuna la elección del

árbol por la llamada regla 1 SE, regla que selecciona el árbol de error mínimo

teniendo en cuenta las variaciones en el posible error estándar cometido de la

estimación del error de clasificación.

No obstante, la utilización de la regla 1 SE permite la elección del árbol

correcto sin tener que generar la sucesión de árboles completa debido a que

ésta se construye en forma descendente, es decir, desde el árbol compuesto de

un solo nodo al árbol total. En realidad se puede incorporar la regla 1 SE al

criterio de crecimiento del árbol, transformándola en un criterio para detener ese

crecimiento sin necesidad de construir el árbol total, reduciendo, en parte, el

gasto computacional que ello supone.

Si se tiene en cuenta que en una primera parte del crecimiento del árbol,

el error de clasificación estimado siempre va decreciendo, llegando a una zona

llana donde oscila y en la que se encuentra el mínimo, se puede tomar como

criterio de parada cuando se llega a un árbol Tk tal que

R̂(Tk) > Rmax

siendo la cota Rmax definida como

Rmax = R̂(T0) + SE(R̂(T0)); R̂(T0) = minj

R̂(Tj), j= 1,..,n− 1,n

La cota Rmax es una cota variable a medida que el árbol sigue creciendo,

pero con la propiedad de que esta cota siempre varia hacia un valor menor,

alcanzando un mínimo cuando se alcance el árbol Tk cuyo error estimado R̂(Tk)

sea el mínimo de la sucesión, a partir del cual la cota Rmax no varia su valor.

Este criterio permite seguir en el crecimiento del árbol asegurando que se ha

alcanzado la zona llana donde se encuentra el mínimo del error estimado, ya


222

que tiene en cuenta en cada momento sus posibles variaciones, deteniéndose

cuando comienza la zona ascendente de los árboles con un número de nodos

terminales mayor que el árbol de error mínimo de la sucesión.

En ciertas ocasiones, la variación del error estimado, R̂(Tk), en función del

número de terminales del árbol, | T~k| , sufre fuertes oscilaciones de amplitud

mayor que el error estándar del árbol de error mínimo, R̂(T0), incluso fuera de

la región del mínimo. Ello ocurre en el caso de conjuntos de muestras que

tengan una inestabilidad manifiesta, como por ejemplo, cuando se dispone de

pocas muestras o exista cierto grado de solapamiento de las distribuciones de

cada clase, siguiendo las muestras caminos con cambios bruscos de dirección a

medida que se van generando las particiones, sobre todo en los primeros niveles

del árbol.

Este problema puede desorientar el criterio de parada en el crecimiento

del árbol, ya que si en cierto momento no existe ninguna partición cuyo error

estimado al incorporarla al árbol esté por debajo de la cota Rmax establecida,

puede detenerse el proceso de crecimiento, pudiendo encontrase en una zona de

fuerte oscilación.

Con el fin de evitar este problema, se introduce una nueva condición que

complementa a la cota Rmax, apoyándose en la propiedad que poseen este tipo

de sucesiones de árboles que asegura que el error estimado del árbol total

R̂(Tn), es siempre menor que del doble del error estimado, R̂(T0), del árbol de

error mínimo T0.

Por tanto, si durante el proceso de crecimiento, el siguiente árbol Tk+ 1 de

la sucesión posee un error estimado, R̂(Tk+ 1) mayor que dos veces el error del

árbol mínimo, R̂(Tk0), encontrado hasta el momento, el proceso de crecimiento

sigue adelante aunque el error estimado del nuevo árbol, R̂(Tk+ 1), sea mayor

que la cota Rmax.

Es decir, conjugando las dos condiciones de parada en el crecimiento del

árbol, este crecimiento se detendrá, cuando el siguiente árbol de la sucesión,

Tk+ 1, cumpla las dos condiciones a la vez


223

R̂(Tk+ 1) > Rmax y R̂(Tk+ 1) < 2 R̂(Tk0)

siendo R̂(Tk0) = min (R̂(Tj)); j= 1,..,k; el error mínimo estimado de los árboles de

la sucesión generados hasta el momento.

Con esta condición se consigue detener el árbol cuando se ha llegado a

una zona donde el error estimado se encuentra en la zona ascendente libre de

oscilaciones fuertes, asegurando que nos encontramos en la zona correcta del

árbol.

Hay que notar que, como en el caso de la cota Rmax, la cota inferior

2 R̂(Tk0) es también variable y no precisa de ningún ajuste, ya que va variando

según se desarrolle el proceso de crecimiento automáticamente.

Por lo tanto, sin necesidad de generar el árbol total ni de realizar podas

posteriores, se consigue construir una sucesión de árboles entre la que se

encuentra el árbol correcto, de acuerdo con el criterio del error estimado

mínimo de clasificación del árbol.

Para realizar la selección del árbol correcto, se aplica la regla 1 SE a la

sucesión encontrada hasta el momento de la parada en el crecimiento, ya que en

esta sucesión están incluidos todos los árboles de la zona del mínimo con sus

respectivas oscilaciones en el error, siendo conveniente, estadísticamente

hablando, elegir aquél que tenga el menor número de terminales de la zona del

mínimo, teniendo en cuenta el error estándar del error estimado del árbol que

sea mínimo, tal como se ha descrito anteriormente.

7.2.5 Vuelta atrás y sucesiones alternativas

El árbol que proporciona la selección del árbol correcto de los integrantes de la

sucesión encontrada, no es el árbol óptimo que sería posible extraer del árbol

total que genera cierto conjunto muestras de aprendizaje con el correspondiente

criterio de selección de particiones.

Una forma de aproximarse más al árbol óptimo consiste en considerar

sucesiones de árboles alternativas a las encontradas, conservando los mismos

criterios de crecimiento, parada y selección del árbol correcto. Para ello se

utiliza un criterio de formación de sucesiones mediante una vuelta atrás en el


224

crecimiento del árbol, considerando de esta forma vías alternativas por medio de

la división de nodos que no fueron elegidos anteriormente para seguir

expandiendo el árbol.

El fundamento de esta búsqueda de sucesiones alternativas se basa en,

terminada una sucesión de árboles, podar la rama que se generó en la última

división realizada, re-considerando los nodos que estaban disponibles en aquél

momento para seguir el crecimiento pero descartando definitivamente el

crecimiento por el nodo que se dividió esa última vez. Es decir, si Tk fue el

último árbol de la sucesión anterior, T1,T2,...,Tk− 1,Tk, construido a partir del

árbol Tk− 1 dividiendo el nodo t∈ T~k− 1, entonces, re-considerar el proceso de

crecimiento sobre el árbol Tk− 1 pero descartando como alternativa la división

del nodo t∈ T~k− 1 por el que se generó el árbol Tk de la anterior sucesión,

bloqueando la posible división de este nodo para la búsqueda de sucesiones de

árboles posteriores.

Realizando este proceso iterativamente hasta que no se pueda considerar

ningún nodo para seguir el proceso de crecimiento, se extraen una serie de

sucesiones diferentes T1n , T2n

,..., Tmn

, de las que de cada una de ellas se

seleccionará un árbol correcto Tk0, k= 1,...,m por el procedimiento ya descrito. La

elección final del árbol de clasificación T0 se realizará entre los árboles correctos

extraídos de estas sucesiones Tk0, k= 1,...,m , escogiendo el árbol cuyo coste

estimado de clasificación errónea R̂(T0) sea menor, es decir,

T0; R̂(T0) = mink

R̂(Tk0), k= 1,...,m

Esta formación de sucesiones alternativas permite una búsqueda más

completa del árbol correcto, que no siendo exhaustiva, si ofrece más garantías de

estar más cerca del árbol óptimo, aumentando la fiabilidad el árbol encontrado,

ya que hay que tener en cuenta que esta búsqueda se realiza en la parte del

árbol total cuyos posibles sub-árboles siempre se encuentran en la zona

decreciente del valor del error estimado de clasificación, como consecuencia del

proceso de crecimiento utilizado. Por tanto, los árboles correctos seleccionados


225

de cada sucesión siempre se encuentran en esa zona acotada, sin considerar el

resto del árbol, lo que aumenta las posibilidades de encontrar el árbol óptimo,

ya que éste debe encontrarse en esa zona.

Se podría considerar una búsqueda exhaustiva en esta zona del árbol, con

lo que se tendría la seguridad de encontrar el árbol óptimo, si se demostrara

rigurosamente el comportamiento del error de clasificación de los árboles

respecto del número de nodos terminales, aunque si se dispone de una

demostración heurística (Breiman et al, 1984). No obstante, esta búsqueda

exhaustiva seguiría siendo demasiado costosa computacionalmente hablando, aún

habiendo reducido la búsqueda a esa parte del árbol.

7.2.6 El algoritmo

De acuerdo con el método sobre el proceso de crecimiento selectivo y criterio

de parada en la construcción de árboles descrito a lo largo de esta sección, el

algoritmo diseñado para generar todas las sucesiones alternativas posibles que

contempla la estrategia de vuelta atrás expuesta y de las que se extraerá el árbol

correcto seleccionado, consta de los siguientes pasos

DATOS

L, conjunto de muestras de aprendizaje.

RESULTADO

T0, árbol correcto seleccionado.

/* Inicializar */

Construir el nodo raíz incluyendo en él todas las muestras de L1;

Definir T1 = T~1 como el primer árbol, constituido por un solo nodo, el nodo raíz;

Cota:= infinito;

Error_mínimo:= infinito;

k:= 1; /* número de árbol * /

j:= 1; /* número de sucesión * /


226

/* Búsqueda de sucesiones de árboles * /

Hacer

/* Búsqueda del nodo a dividir. Crecimiento * /

Hacer

Para todos los nodos t∈ T~k

Encontrar nodo disponible t tal que dividiéndolo por su partición óptima,

genere un nuevo árbol Tk+ 1 que cumpla

Tk+ 1; R̂(Tk+ 1) := mint∈ T~k

R̂(Tk+ 1t);

fin, Para;

Si R̂(Tk+ 1) > Cota y R̂(Tk+ 1) < 2 error_mínimo entonces detener el crecimiento;

sino

Si R̂(Tk+ 1) < Error_mínimo

error_mínimo := R̂(Tk+ 1)

Cota := R̂(Tk+ 1) + SE(R̂(Tk+ 1))

fin, Si;

Almacenar el árbol Tk+ 1;

fin, sino;

k:= k+ 1;

hasta no más nodos disponibles o crecimiento detenido;

Seleccionar el árbol correcto Tj0 de la sucesión Tjk mediante la regla 1SE;

Marcar el último nodo dividido como nodo no disponible;

j := j + 1;

Borrar último árbol Tk de la sucesión anterior;

Incluir los restantes en la nueva sucesión j;

Re-inicializar

Error_mínimo := mink

R̂(Tk);

Cota := Error_mínimo + SE(Error_mínimo);

hasta no más nodos disponibles;

/* Selección del árbol correcto * /

Seleccionar árbol T0 de entre T10,…Tj0 que cumpla


227

T0; R̂(T0) = mink

R̂(Tk0), k= 1,...,j

donde en el algoritmo Tk+ 1t denota el árbol producto de dividir el nodo t∈ T~k

del árbol anterior Tk. También hay que considerar que la partición que genera

un nodo t∈ T~k puede ser de un nodo normal o de un nodo de los llamados

invariable, en cuyo caso el nuevo árbol Tk+ 1 posee una rama, Tt, en el lugar del

nodo t, tal como se explicó en el apartado 7.2.4. En el caso de nodos terminales

normales, la partición de un nodo t para generar el nuevo árbol, Tk+ 1, consiste

en incorporar al árbol anterior, Tk, los dos nodos hijos, tL y tR, del nodo elegido

t.

El conjunto de muestras de aprendizaje L1 utilizado para generar las

particiones, se extrae aleatoriamente del conjunto total L , y el resto constituye el

conjunto para estimar los errores de clasificación, L2, durante el aprendizaje

(apéndice C).

Es interesante observar que el algoritmo no precisa de ningún parámetro

ajustable por el analista para encontrar el árbol correcto elegido a partir del

conjunto de muestras de aprendizaje suministrado. Los parámetros que guían el

crecimiento y deciden la parada del árbol son variables, y función de la

estructura interna del método, siéndolo asimismo la regla de selección del árbol

correcto.

Como aspectos subyacentes en este algoritmo se encuentran el criterio de

impuridad i(t) utilizado para seleccionar la partición óptima de un nodo, criterio

que como se sabe, no influye en la validez del árbol resultado; así como el

conjunto de cuestiones Q utilizado para realizar el conjunto de particiones

posibles. No obstante, siempre se utiliza el cuestionario estándar si el vector de

medidas del problema posee una estructura estándar.


En esta sección se realiza la comprobación general del método desarrollado para

la obtención de un árbol de clasificación, así como su comparación con dos


228

métodos, los propuestos por Breiman et al (1984) y Quinlan (1987), cuyo

fundamento ya ha sido expuesto. Se han elegido estos dos métodos por ser dos

de los que mejores resultados obtienen, según la opinión generalizada encontrada

en la literatura. Estos dos métodos coinciden en que se basan en una poda del

árbol total para encontrar el árbol correcto.

El algoritmo propuesto en este trabajo fue implementado para vectores de

medidas con variables de tipo ordenado, es decir, números enteros o reales, y

variables lógicas, aunque su extensión a variables enumeradas es inmediata,

siempre que el vector de medidas conserve una estructura estándar.

El criterio de impuridad i(t) empleado para seleccionar la partición óptima

en el nodo t fue el criterio Gini definido como

i(t) = ∑ j≠ i

p(j| t) p(i| t)

el cual significa que, si se utiliza como regla de asignación de clase a la clase i

correspondiente a un elemento extraído aleatoriamente del nodo t, con

probabilidad p(i| t), y la probabilidad de que ese elemento fuera de la clase j

sería p(j| t). Por tanto, la probabilidad estimada de clasificación errónea

utilizando esta regla de asignación sería el índice Gini anteriormente expresado.

Este índice tiende a realizar particiones con uno de los nodos descendientes

normalmente más pequeño y más puro y el otro más grande y más impuro.

Respecto a las probabilidades a priori, siempre se escogieron iguales para

todas las clases presentes en el conjunto de muestras. Esta estrategia se escogió

como un compromiso neutro entre la estimación de las probabilidades a priori a

partir del conjunto de aprendizaje o la posibilidad de modificarlas el analista, ya

que realmente no se tenía la certitud de que la frecuencia de aparición de cada

clase en el conjunto de muestras de aprendizaje reflejara la realidad. No

obstante, existe la posibilidad de modificar estas probabilidades en cualquier

momento por el analista, como forma de introducir costes en la clasificación

errónea. No se introdujeron costes diferentes de clasificación errónea entre

clases, contabilizando todos los errores con el mismo coste.


229

En cuanto a la estimación del error o coste de clasificación errónea R̂(T)

empleado, se ha utilizado el método del test de muestras Rts(T) (ver apéndice

C) para estimar el error de un árbol T. Una de sus características fundamentales

es que la desviación o desplazamiento (bias) de la estimación del error realizada

respecto la probabilidad asintótica de clasificación errónea del clasificador con un

número infinito de muestras es nula, ya que la distribución de probabilidad del

error por estimación de test de muestras corresponde a una distribución

binomial.

Aunque la estimación del error por validación cruzada Rcv(T) puede dar

mejores resultados, ésta sólo es aconsejable para conjuntos de muestras de

aprendizaje de número más bien reducido, ya que este tipo de estimación es

extremadamente costoso. Otros métodos como el llamado bootstrap no funcionan

bien para el caso de los árboles binarios de clasificación.

Por tanto, utilizando el método de test de muestras Rts(T), el conjunto de

muestras de aprendizaje se divide en dos L1 y L2, utilizando el conjunto L1 para

realizar el proceso de crecimiento o generación de la sucesión de árboles, y el

L2 para estimar el error de los árboles encontrados.

Hay que tener en cuenta la proporción de ambos conjuntos, L1 y L2,

respecto del total L , ya que tomando demasiadas muestras para construir el

árbol, no se obtendrá una buena fiabilidad en la estimación del error, mientras

que por el contrario, utilizando pocas muestras en la construcción del clasificador

se realizará una buena estimación pero no se obtendrán garantías de un buen

diseño del clasificador. Aunque no existen muchos estudios al respecto, puede

utilizarse como orientativo la función de pérdida propuesta por Raudys & Jain

(1991), pero no hay nada definitivo al respecto. Una proporción comúnmente

utilizada por otros autores, aunque sin justificación, es tomar L2 como 1 ⁄ 3 de las

muestras totales en L , y por tanto L1 como 2 ⁄ 3 del total.

Respecto al número de muestras del conjunto utilizado como test L2,

existen estudios determinantes en este caso para conocer la fiabilidad del error

de clasificación obtenido, midiendo su intervalo de confianza respecto al error

real y cuyas variaciones se pueden encontrar representadas en el gráfico C.1 del


230

apéndice C. Más adelante se discutirán los intervalos de confianza de los errores

estimados para los clasificadores aquí obtenidos.

Otra cuestión secundaria es el número de muestras mínimo por nodo, Nmin,

a que se limita el proceso de construcción del árbol para poder dividir ese

nodo. Es conveniente que este número sea pequeño, para poder tener opción al

árbol de mayor tamaño posible que se pueda construir a partir del conjunto de

aprendizaje, que este caso sería coger Nmin = 1. No obstante este parámetro se

utiliza en este caso para impedir posibles árboles de grandes dimensiones que la

memoria de un ordenador personal (PC) no pueda manejar, ya que los árboles,

utilizando el método aquí propuesto, el de Quinlan (1987) y el de Breiman et al

(1984), fueron construidos con programas realizados sobre PC. Si se dispone de

bastantes recursos no existe duda en la elección de Nmin.

Los tres clasificadores ensayados, el del criterio de crecimiento por mínimo

error (ME) aquí propuesto, el de Breiman et al (BR), y el de Quinlan (QN),

fueron utilizados para construir dos árboles de clasificación, uno sobre un

conjunto de muestras perteneciente a un espacio bidimensional de color, el

espacio constituido por las variables ϕ y θ descrito en el capítulo 5; y otro sobre

un conjunto de muestras de 7 dimensiones, cuyo vector de medidas está

constituido por variables de diferentes tipos ordenados, enteras, reales y lógicas,

y cuyas medidas proceden de conceptos totalmente dispares sin relación analítica

aparente. Este vector de medidas se describe en el capítulo 9, cuya función es la

descripción de las características relevantes de regiones segmentadas en la

imagen para poder reconocer la clase perteneciente a los frutos. Cada muestra

de este espacio tiene la posibilidad de ser asignada a 3 clases.

Las muestras correspondientes al espacio de color fueron extraídas a partir

de imágenes en color de escenas naturales de naranjas sin el apoyo de

iluminación artificial. A cada píxel de las zonas de las imágenes tomadas como

muestra se les asigna sus respectivos valores en el espacio ϕθ y se les atribuye

una de las tres clases: naranja, hoja o cielo. El conjunto total de muestras de

aprendizaje L constaba de 19164 muestras, las cuales se dividieron en dos

conjuntos, L1 y L2, tal que L1 ⁄ 2 = L2 ⁄ 2, extrayendo aleatoriamente las muestras

integrantes del conjunto L1 a partir del conjunto total L y asignando a L2 las


231

restantes de L no utilizadas por L1. Aunque por medio de L2 ya se obtiene una

estimación del error de los árboles encontrados, un segundo conjunto de

muestras test Lt con 77829 muestras, extraído independientemente de imágenes

diferentes a las utilizadas para formar el conjunto L , fue utilizado para obtener

una estimación más fiable del error y comparar con los errores estimados

obtenidos a partir del conjunto L2.

Los resultados obtenidos por los tres árboles de clasificación encontrados

por sendos métodos a partir del mismo conjunto de muestras de aprendizaje y

evaluados con el mismo conjunto test definidos, se muestran en la tabla 7.1.

Análogamente se realizó el mismo procedimiento para el otro ejemplo, que

en este caso el conjunto de muestras de aprendizaje L constaba de 4538

muestras, dividido a partes iguales en los conjuntos L1 y L2. El conjunto de test

posterior Lt estaba formado por 9082 muestras, extraídas independientemente del

Método Nodosterminales

% errorestimadocon L2

% errorestimado

con Lt

% errorclase 1con Lt



tiempodel

aprendizaje(seg.)

ME 37 1,32 1,77 16,27 63,35 0,68 6990

BR 45 1,32 1,92 18,98 62,35 0,75 7002

QN 36 1,28 1,83 15,25 62,35 0,72 7006

Tabla 7.2. Resultado de los árboles binarios sobre el conjunto de muestras de 7 dimensiones.

Método Nodosterminales

% errorestimadocon L2

% errorestimado

con Lt




tiempodel

aprendizaje(seg.)

ME 40 1,92 2,87 3,5 3,17 0,15 1069

BR 39 1,97 2,95 3,36 3,31 0,15 1125

QN 34 1,92 2,9 3,63 3,17 0,15 1152

Tabla 7.1. Resultado de los árboles binarios sobre el conjunto de muestras de color.


232

conjunto L de muestras obtenidas de las imágenes utilizadas. El resultado de

comprobar el conjunto test en los árboles obtenidos se muestra en la tabla 7.2.

Observando las dos tablas podemos apreciar que, los árboles ME ofrecen

errores de clasificación (estimación por el conjunto Lt) ligeramente inferiores a

los obtenidos por el método QN y BR. Aunque, tal como podemos observar, los

errores estimados para el método ME durante el proceso de aprendizaje con el

conjunto L2, fueron similares a los demás métodos, el número de nodos

terminales varia, por lo que es natural que varie la estimación del error con un

conjunto de muestras diferentes como el Lt.

Respecto a la mejora en los resultados del método ME, se pueden

interpretar como debidos al hecho de que el proceso de aprendizaje desarrollado

trata a las muestras en su sentido natural, es decir, por el mismo proceso que

siguen cuando más tarde se intenta clasificar una nueva muestra, dejandola caer

en el nodo raíz del árbol y siguiendo su camino descendente hasta alcanzar un

nodo terminal. Los métodos por poda del árbol total pierden esta perspectiva

del problema, eligiendo el árbol de abajo a arriba sin tener en cuenta que las

muestras en realidad recorren el camino inverso.

En cuanto al número de terminales de los árboles elegidos, podemos

observar como el árbol ME tienen un número de nodos terminales del mismo

orden que los árboles obtenidos por los demás métodos, por tanto la

complejidad de los mismos sigue siendo similar, pero tal como hemos visto,

mejoran los resultados de clasificación.

Respecto al coste computacional durante el proceso de aprendizaje,

podemos observar como el método ME siempre invierte menos tiempo que los

demás métodos, dependiendo de la estructura del problema, es decir, del número

de muestras, dimensión, etc. En referencia a este aspecto, se ha podido observar

como a medida que el número de muestras del conjunto de aprendizaje, L ,

disminuye, el tiempo utilizado por el método ME se aproxima al de los demás

métodos, hasta llegar cierto número de muestras en el que los tiempos de los

tres métodos son del mismo orden.

El hecho de que la reducción del tiempo en el aprendizaje no sea muy

notable se debe a que la mayor parte del coste computacional en el aprendizaje


233

corresponde a la búsqueda de la partición óptima de cada nodo, siendo a su vez

más importante en los nodos de los primeros niveles del árbol. El método aquí

propuesto sólo consigue evitar la búsqueda de particiones en los nodos de los

niveles más profundos del árbol, los cuales ya no influyen de una manera tan

decisiva en el coste computacional total.

A pesar de todo, se ha podido demostrar de esta manera que puede

reducirse este coste por medio de técnicas de elección del árbol correcto por un

criterio de parada en el crecimiento, aumentando incluso el porcentaje de

clasificación correcta.

Como conclusión, con estos resultados se demuestra que los métodos de

aprendizaje de árboles binarios por poda del árbol total no son la única

alternativa que puede dar los mejores resultados, quedando patente que el

método de elección del árbol correcto por el criterio de parada en el

crecimiento desarrollado en este trabajo, ofrece tan buenos resultados como los

métodos por poda, incluso ligeramente mejores, considerados como los

procemientos más acertados, reduciendo además el coste computacional en el

aprendizaje, en mayor o menor medida.

En referencia al comportamiento del método aquí desarrollado, se puede

observar en la figura 7.2 la evolución del error estimado, R̂(Tk), de la sucesión

de árboles obtenidos, Tk, por el método ME y el BR en función del número de

terminales, | T~k| , sobre un conjunto más reducido de muestras de color en el

espacio ϕθ. Ello viene a mostrar que realmente se obtienen sucesiones de

árboles a partir del árbol total (BR), o por crecimiento desde el nodo raíz

(ME), que cumplen la propiedad de los árboles binarios a que se hizo mención

en el apartado 7.1, con lo que se corroboran los argumentos adoptados en el

método desarrollado.

Asimismo se pueden observar las oscilaciones a que se hizo referencia en

la zona llana del mínimo. Se puede también observar como el método

desarrollado, ME, consigue encontrar árboles cuyo error queda por debajo de los

encontrados por el método BR, teniendo la particularidad que la sucesión se

corta antes del tramo ascendente suave, propio de un criterio de parada en el


234

crecimiento, al contrario que el método BR, que obtiene árboles durante el

aprendizaje cuyo número de terminales alcanza hasta el del árbol total.

En cuanto a las sucesiones alternativas, las experiencias realizadas revelan

que no aportan cambios significativos a la sucesión que se genera en primer

lugar, ya que se ha podido comprobar que, por regla general, los nodos de un

mismo nivel del árbol siempre introducen menos error que los nodos de un

nivel inferior, provocando un crecimiento del árbol a lo ancho, ya que se van

generando nodos de un mismo nivel hasta casi completarlo antes de pasar al

siguiente, con lo que en las experiencias aquí realizadas, las sucesiones

alternativas no ofrecieron nunca un mejor resultado que la sucesión generada

inicialmente.

Por tanto, las experiencias del método ME con sucesiones alternativas

vienen a formular la cuestión de si el comportamiento, en general, para todos

los árboles de decisión, pasa por un crecimiento del árbol a niveles, rellenando,

aproximadamente, cada nivel antes de contemplar el siguiente.

0 20 40 60 80

0.08

0.07

0.06

0.05

0.04

0.03

0.02

0.01

0

BR

| T~k|

R̂(Tk)

ME

Figura 7.2. Evolución del error estimado de la sucesión deárboles por el método BR y ME.


235

Segunda Parte

SISTEMA DE VISIÓN

DEL ROBOT

Capítulo 8

SISTEMA DE VISIÓN.

MATERIALES

A lo largo de la primera parte se han descrito los estudios realizados para

desarrollar las técnicas de análisis de imagen que permitirán diseñar los

procedimientos o algoritmos de análisis de imagen que puedan lograr los

objetivos perseguidos en la implementación de un sistema de visión para la

recolección robotizada de naranjas, u otros tipos de frutas.

Como todo sistema de visión artificial, éste consta de una parte física o

electrónica, y otra de soporte lógico, constituida por los procesos de análisis de

imagen. Dentro de la parte física, todo sistema de visión consta de:

- Un sistema de adquisición de imágenes.

- Un sistema de almacenamiento de las imágenes.

- Un sistema de proceso de la información.

- Un sistema de visualización.

En cuanto a la parte lógica, está formada por un conjunto de algoritmos

cuya implementación refleja las técnicas y métodos que se pretende aplicar a las

imágenes en cuestión, para extraer de ellas la información de interés y que será

utilizada en este caso para detectar, reconocer y localizar los frutos.

A continuación se realiza una descripción del material utilizado que forma

parte del sistema de visión. La elección de sistemas de almacenamiento y

proceso basados en entornos PC (Personal Computer) obedece a una de las ideas

generales o directrices dentro del proyecto, cuyo fin es utilizar estos sistemas

que, debido a su bajo coste económico, su flexibilidad debido a su

estandarización, su simplicidad y su robustez frente factores agresores en

ambientes poco acondicionados (PC industriales) como es el trabajo con

máquinas y ambientes exteriores, reunen los requisitos principales de cara al

objetivo final del proyecto de obtener un producto que sea totalmente operativo,

de bajo coste y comercializable.

8.1 Sistema de adquisición de imágenes

El sistema de adquisición se compone de un sensor, una cámara de video, que

permite recoger la información visual de la escena que se quiere analizar,

codificándola en señales de video para ser transportadas a otros dispositivos para

su almacenamiento y proceso. Este sistema de adquisición, además del sensor

puede incluir dispositivos de apoyo, tal como fuentes de iluminación artificial u

otras estructuras de diversa naturaleza (sistemas mecánicos de sujeción, filtros

interferométricos, etc) que faciliten el proceso de adquisición de la imagen.

Como sensor se han utilizado dos tipos de cámaras diferentes:

- Dos cámaras de video CCD (Charge Coupled Device) monocromas de

idénticas características, con una área sensible de 8.8 x 6.6 milímetros que

contienen 500 x 582 píxels o elementos sensibles y cuya iluminación mínima es de

3 lux con F1.4, sin el filtro de corte infrarrojo que poseen. El sistema de barrido

y codificación de la señal es el PAL (ver Apéndice B), y las cámaras tienen

unas dimensiones aproximadas de 50 x 50 x 119 milímetros.

- La cámara color utilizada es también del tipo CCD, con un área sensible

de 8.8 x 6.6 milímetros, conteniendo 756 x 581 elementos sensibles y cuya

iluminación mínima es de 25 lux con F1.4. Posee una salida de video separada

RGB y una de video PAL compuesto; tendiendo la posibilidad, en el caso de la

señal de video separada, de llevar el sincronismo entrelazado con el verde o por

separado. Sus dimensiones aproximadas son de 50 x 56 x 149 milímetros.

En ambos tipos de cámaras se utilizaron indistintamente dos objetivos de

montura estándar tipo C con focales 8 y 16 milímetros respectivamente, los

cuales tenían un control de enfoque y diafragma manual. En el caso de las

experiencias de estereoscopia, tanto el diafragma como el enfoque en ambas

cámaras se fijaba en la misma posición, el enfoque siempre al infinito y el

Sistema de visión del robot

240

diafragma se fijaba en una posición que depende de la iluminación de las

escenas.

Los filtros interferométricos que se utilizaron sobre las cámaras en blanco y

negro, estaban centrados en los 650 nm , con un ancho de banda de 10 nm , y una

transmitancia del 67 %. Estos filtros se colocan delante del objetivo de la cámara

mediante un dispositivo de rosca que impide el paso de la luz por otro lugar

que no sea a través del filtro.

Como fuente de iluminación artificial se utilizó un flash fotográfico de

número guía de 32 metros para una película de 100 ASA de sensibilidad, cuya

lámpara produce una luz con temperatura de color de 5600 °K.

Una tarjeta de E/S (Entrada/Salida) comercial realiza el disparo del flash a

través de uno de los ocho relés que contiene la tarjeta y que son accionados o

desconectados por medio de los datos dispuestos en un puerto de E/S del

ordenador. Los relés de esta tarjeta tiene como características, un tiempo de

puesta en marcha o conexión típico de 3 milisegundos, y un tiempo de

desconexión típico de 2 milisegundos, llegando a soportar como máximo una

diferencia de potencial de 500 voltios.

8.2 Sistema de almacenamiento de imágenes

Como sistema de muestreo y almacenamiento de imágenes, se han utilizado dos

tarjetas, una para imágenes monocromas y otra para imágenes color. Estas

tarjetas son instalables en las ranuras de expansión del ordenador, pudiendo

intercambiar información con el procesador central. Las tarjetas muestrean las

señales de video de entrada, monocroma o RGB respectivamente, con una

resolución de 512 x 512 píxels, y se almacenan en una memoria de tipo RAM

(random access memory) accesible desde el procesador. Un conversor D/A

permite ver el contenido de la memoria enviando la señal a un monitor de

visualización.

Sistema de visión. Materiales

241

8.2.1 PIP-1024B1

Esta tarjeta digitalizadora adquiere imágenes monocromas. Tiene la particularidad

de poder trabajar sobre el bus del PC, por medio del cual existe una

comunicación con la tarjeta a través de unos registros de E/S (Entrada/Salida).

Consta de 3 canales de entrada de video (figura 8.1) y uno interno que codifica

lo que en esos momento hubiera en la memoria imagen. Tras muestrear y

digitalizar la señal de entrada, ésta atraviesa una tabla de consulta o LUT (Look

Up Table), por medio de la cual se pueden realizar ciertas operaciones en

tiempo real antes de almacenar la información en el banco de memoria de la

tarjeta o frame buffer, que puede llegar a contener 4 imágenes monocromas de

512 x 512 píxels y con 256 niveles de gris.

A través de un codificador o keyer se puede superponer la imagen de

entrada con lo que está en esos momentos almacenado en el cuadrante activo

del banco de memoria. Los datos, bien procedentes del banco de memoria, o

bien directamente de la entrada en modo de grabación no continua, atraviesa a

Figura 8.1. Esquema de la tarjeta PIP-1024B.


242

1 PIP-1024B es una marca registrada de MATROX Electronics Systems Limited, Canada

la vez tres LUTs correspondientes a lo que serán las bandas R, G y B de la

señal de video de salida, permitiendo visualizar las imágenes en pseudocolor.

Por medio del bus del PC (Personal Computer) se pueden modificar los

contenidos de todas las LUTs a través de los registros al efecto. El acceso a los

datos del banco de memoria imagen se realiza a través de unos registros de

lectura y escritura de píxels que apuntan a la dirección dentro del banco de

memoria marcada por otros registros que realizan la función de punteros y que

pueden ser modificados a través del bus.

Unos registros de control y estado dan información del estado de la tarjeta,

así como la posibilidad de modificar alguna de sus modalidades de

funcionamiento.

8.2.2 DT-28712

La DT-2871 es una tarjeta de adquisición y digitalización de imágenes en color.

A diferencia de la PIP-1024 solo funciona acoplada en buses extendidos del PC,

que le permite ciertas peculiaridades de funcionamiento.

Tienen un único canal de entrada de señal de video analógica RGB

descompuesta (figura 8.2), estas señales pasan a través de un conversor analógico

digital y seguidamente a un conversor RGB/IHS, que se activa según el modo de

funcionamiento activo. Cada banda de la imagen se almacena en un banco de

memoria con una resolución de 512 x 512 píxels en un rango de 256 valores,

además posee un banco auxiliar de las mismas dimensiones para realizar

operaciones intermedias. El contenido del banco de memoria pasa a través de un

conversor IHS/RGB y a continuación por otro D/A (Digital/Analógico) para

construir la señal de video de salida en RGB.

Esta tarjeta tiene la particularidad, además de poder trabajar con imágenes

IHS en tiempo real, de tener la memoria imagen accesible directamente por el

microprocesador del ordenador, ya que se encuentra mapeada directamente en la

memoria ampliada del PC. Además posee un bus específico llamado bus DT, el


243

2 DT-2871 es una marca registrada de Data Translation, Estados Unidos.

cual permite la transferencia de información entre el banco de memoria de la

tarjeta y otras tarjetas de proceso específico compatibles con este bus. Por

último, un registro de control y estado informa del estado de la tarjeta y

posibilita la programación de los diferentes modos de funcionamiento de que

dispone.

8.3 Sistema de proceso

El procesado de la información referente a una imagen se realiza mediante un

ordenador convencional o mediante procesadores de imagen cuyo hardware ha

sido diseñado de forma especifica para los procesos usuales realizados en análisis

de imagen para obtener tiempos de proceso menores.

Como sistema de proceso se ha utilizado un ordenador personal con un

microprocesador INTEL 80386 y un coprocesador matemático 80387, a una

frecuencia de reloj de 33 Mhz. Un ordenador portátil adicional con un

microprocesador INTEL 80286 a una frecuencia de 12 Mhz se utilizaba para

ensayos en el exterior y tomar muestras de imágenes de frutos en su ambiente

Figura 8.2. Esquema de la tarjeta DT-2871.


244

natural; este ordenador portátil posee dos ranuras de expansión para poder

instalar las tarjetas de adquisición y almacenamiento de imágenes.

Para la tarjeta de adquisición y almacenamiento en color se disponía de un

procesador específico para análisis de imagen, que contiene una memoria

adicional para realizar operaciones, conectada con la memoria de la tarjeta de

almacenamiento por un bus específico que transmite información a una velocidad

de 10 Mhz. Este procesador posee una unidad aritmético-lógica que permite

realizar operaciones elementales con gran rapidez (el tiempo que tarda en

transmitir la información de una imagen de un banco de memoria a otro).

8.4 Sistema de visualización

Las imágenes almacenadas o el contenido de la memoria de la tarjeta, se

pueden visualizar a través de un monitor que recoge la señal analógica que

Figura 8.3. Equipo de análisis de imagen para ensayos en el campo.


245

codifica el conversor D/A de la tarjeta. Esta señal es de video separada en sus

tres componentes RGB.

Se han utilizado dos tipos de monitores, uno con una pantalla de 16

pulgadas para uso en el laboratorio, y otro portátil de 6 pulgadas como parte

del equipo de toma de muestras y ensayos en el campo citado anteriormente.

8.5 Software

Todos los programas de análisis de imagen han sido desarrollados en lenguaje C,

concretamente en el compilador TURBOC3, por motivos de coherencia con el

resto del equipo de trabajo del CITRUS.

Estas funciones se han construido utilizando un módulo de rutinas u

operaciones básicas que precisan un desarrollo de software específico a bajo nivel

según el tipo de tarjeta. Estas funciones base interaccionan directamente con la

estructura hardware de la tarjeta y realizan el papel de interfaz entre los

programas de análisis de imagen y el sistema hardware, con lo cual, los mismos

programas desarrollados para una tarjeta son aplicables a la otra utilizando el

módulo de funciones específicas correspondiente.


246

3 TURBOC es una marca registrada de Borland International Inc., Estados Unidos.

Capítulo 9

SISTEMA DE VISIÓN.

METODOLOGÍA

Antes de entrar en una descripción de los métodos de análisis de imagen

utilizados y que están basados en las técnicas expuestas en la primera parte de

este trabajo, analicemos los aspectos del problema en particular que condicionan

o motivan la utilización de la metodología que aquí se presenta.

La aplicación que nos ocupa tiene como fin detectar y localizar las naranjas

o frutos durante la tarea de la recolección realizada por un robot. Durante este

proceso el robot se sitúa en cierta posición frente al árbol, en la que el sistema

de visión tiene que localizar los frutos que aparecen en la escena y que pueden

ser alcanzados por el robot. Cuando se han recolectado todos los frutos

detectados en una posición, el robot cambia de posición repitiendo el proceso.

Estos cambios de posición se realizan de manera que el campo de visión y de

alcance del robot realizan un barrido exhaustivo por la superficie del árbol.

Para realizar este barrido exhaustivo se realizan dos tipos de movimientos,

uno vertical y otro horizontal. El movimiento horizontal consiste en un

desplazamiento del robot a lo largo de la calle entre dos hileras de naranjos.

Este movimiento se realiza a saltos fijos de una distancia relacionada con el

cuadro que abarca el sistema de visión sobre la superficie del árbol, es decir, si

el sistema de visión contempla en cada escena un cuadro de 100 x 100 cm ,

entonces el robot se desplazará por la calle a saltos de 60 o 70 cm , es decir,

aproximadamente 2 ⁄ 3, con el fin de realizar un cierto grado de solapamiento. En

cada una de estas posiciones el vehículo que transporta el robot se detiene y

realiza un movimiento en vertical para barrer la tira que define la anchura del

cuadro del sistema de visión por la altura del árbol. El movimiento en vertical

es análogo al horizontal, que considerando las medidas anteriormente citadas,

este movimiento consistirá en desplazamientos de longitud 60 o 70 cm desde la

parte inferior del árbol hasta su parte más alta. Esto se realiza mediante un

sistema elevador que levanta el brazo robot junto con la cámara que le es

solidaria.

En cada una de las posiciones durante el desplazamiento en vertical, el

sistema de visión analiza la escena buscando los frutos que allí se encuentran

para que el brazo los pueda atrapar. Una vez el robot ha recogido todos los

frutos que el sistema de visión ha detectado en la escena correspondiente a esa

posición, el elevador coloca el brazo en la siguiente posición continuando el

barrido. Cuando se ha barrido una tira de abajo a arriba, el elevador desciende

el brazo a su punto inferior de partida y el vehículo avanza según el movimiento

en horizontal descrito, comenzando de nuevo el movimiento de barrido vertical.

Para recoger todos los frutos que se encuentran en una escena

correspondiente a una de las posiciones del robot durante el barrido, el sistema

de visión toma una imagen y la analiza buscando un fruto. Una vez se ha

encontrado y localizado un fruto, el brazo del robot se dirige a su posición e

intenta atraparlo. Para continuar con el proceso, el sistema de visión toma de

nuevo otra imagen de la escena para buscar otro fruto, ya que al eliminar un

fruto de la escena, ésta varia, pudiendo incluso variar apreciablemente la

posición de frutos cercanos al fruto que se acaba de recolectar por efecto del

movimiento ascendente de las ramas al aligerarlas del peso de los frutos

recogidos. Este proceso continua hasta que el sistema de visión toma una imagen

de la escena y no encuentra más frutos, pasando a la escena siguiente para

seguir el barrido.

Todo este proceso dinámico como es la tarea de la recolección, comporta

una problemática a la hora de realizar la aplicación, ajena al fundamento de

análisis de imagen en si, pero que es necesario resolver para alcanzar con éxito

el objetivo de implementación de un sistema de visión del robot. Todas las

técnicas desarrolladas como parte adicional al proceso de análisis de imagen para

resolver estos problemas forman la llamada estrategia de visión, que consta de

una serie de procedimientos para gestionar toda la problemática que surge


248

durante la inspección de las escenas durante una tarea dinámica como es la

recolección.

9.1 Estrategia de visión

El hecho de que durante el análisis de una imagen de cierta escena, se detecte

y localice la posición de un sólo fruto para que el brazo se dirija a él para su

recolección, supone que no es necesario analizar la totalidad de la imagen para

poder encontrar un fruto, ya que tras detectar el fruto y realizar el movimiento

de recogida, se vuelve a tomar otra imagen de la misma escena iniciando de

nuevo la búsqueda para recolectar un nuevo fruto.

Se toma una nueva imagen cada vez que se inicia el proceso de análisis de

imagen porque el robot presumiblemente habrá atrapado el fruto, variando la

configuración de la escena, y en algunos casos hasta la posición de algunos

frutos cercanos al recolectado, por el motivo descrito de la ascensión de las

ramas por disminución de peso, o simplemente por el movimiento que imprima

la mano o algún elemento del brazo al colisionar en su movimiento de

acercamiento al fruto, dejando oscilando alguna rama o frutos.

Dado que el objetivo al analizar una imagen es encontrar un primer fruto,

lo adecuado sería realizar un análisis en forma de barrido por la imagen de tal

forma que, al encontrar el primer fruto el proceso de análisis se detuviera sin

tener que invertir tiempo adicional en el procesado del resto de la imagen, por

razones de optimización en el tiempo que utiliza el sistema de visión. Esto nos

lleva en primer lugar a adoptar una estrategia de análisis de la imagen a través

de procedimientos locales, es decir, por medio del estudio de píxels individuales

o grupos de píxels vecinos; y en segundo lugar a una estrategia de barrido de

los píxels de la imagen, de manera que se realice un recubrimiento de toda la

imagen pero de la forma más adecuada a las características de este problema.

9.1.1 Barrido de la imagen. Alternancia

Los posibles efectos que condicionan la forma de barrer la imagen en busca de

un fruto vienen condicionados por dos motivos, en primer lugar hay que tener

Sistema de visión. Metodología

249

en cuenta que, tras una de las acciones del brazo realizada sobre la escena para

atrapar un fruto, el efecto habitual es que la rama y frutos cercanos al fruto que

acaba de atrapar o intentar atrapar, quedan en movimiento oscilante durante

cierto periodo de tiempo. Al tomar de forma inmediata la siguiente imagen, ésta

representa una escena estática, pero la zona donde se encontraba el fruto

anteriormente atrapado se encontrará normalmente en movimiento, aunque ello

no se refleje en la imagen que en forma de instantánea se tiene de la escena.

Por tanto, es lógico que el inicio del siguiente proceso de búsqueda de un

fruto se realice en otra parte de la imagen, con el fin de evitar localizar un

fruto cercano a la zona descrita que se encuentra en posible movimiento. Este

proceso de búsqueda en zonas distintas de la imagen de forma alternante en

imágenes sucesivas de una misma escena puede evitar que se detecte un fruto

que se encuentre en movimiento, ya que si esto ocurriera, se tendría una

imprecisión en su posición, y por lo tanto, la probabilidad de que el robot falle

en el intento de atraparlo, ya que este se dirige de una manera ciega a la

posición que le indica el sistema de visión.

En segundo lugar hay que tener en cuenta el hecho ya mencionado de que,

al aligerar de peso, debido a la condición elástica de las ramas, provoca una

ascensión de las mismas, y por lo tanto la ascensión de los frutos restantes que

les son solidarios, apareciendo en la

siguiente toma de una misma escena

en una posición más alta, nunca más

hacia abajo.

Considerando estos dos

factores, la alternancia y la ascensión

de los frutos, el barrido de las

imágenes de una única escena se

realiza, en primer lugar, dividiendo

la imagen en 16 sectores o ventanas

de igual tamaño (figura 9.1), de

forma que se analizan los píxels de

cada sector barriéndolos de

1 2 3 4

5 6 7 8

9 10 11 12

13 14 15 15

Figura 9.1. Sectores y caminos alternos en laimagen.


250

izquierda a derecha y de abajo a arriba, es decir, si los píxels (x,y) de un sector

son tales que cumplen que x1 ≤ x ≤ x2 y y1 ≤ y ≤ y2, se barren de la forma

Para y = y2 hasta llegar a y = y1

Para x = x1 hasta llegar a x = x2

Analizar píxel;

x := x + 1;

fin, Para;

y := y − 1;

fin, Para;

donde y se decrementa porque los píxels de filas superiores en la imagen poseen

ordenadas menores (ver figura 2.1).

Para asegurar la alternancia en la búsqueda de los frutos en imágenes

sucesivas de una misma escena, si en la imagen anterior se buscó en un sector

determinado, en la siguiente imagen se reanudará la búsqueda en un sector

diferente. Esta búsqueda alternante entre sectores en imágenes sucesivas se

realiza en el orden que se muestra en la figura 9.1, en la que se pueden

observar dos caminos diferentes de barrido de los sectores. Cada uno de estos

caminos se recorre a través de tomas alternas, es decir, si en la imagen que se

esta analizando primero se empieza por el camino derecho, la siguiente

empezará por el camino izquierdo, y la que le siga volverá a seguir el camino

derecho y así sucesivamente, asegurando la alternancia en la búsqueda en zonas

diferentes de la imagen en imágenes sucesivas.

El hecho de que el orden de búsqueda en cada camino es de forma

ascendente asegura que será posible encontrar todos los frutos de una escena, ya

que si los frutos ascienden en la escena por el efecto mencionado, llegará un

momento que serán visitados durante el análisis de una escena o, a lo sumo, en

la escena siguiente, cuando el robot ascienda en el barrido vertical en el caso de

que el movimiento de ascensión sacara a los frutos fuera de plano, los cuales

quedarían siempre en la escena superior.

El proceso en forma de algoritmo se puede describir como sigue


251

fin_impar := falso;

fin_par := falso;

imagen := par;

Hacer para cada escena

Tomar imagen;

Si imagen es impar entonces imagen := par;

sino imagen := impar;

Si imagen impar o fin_par entonces

Tomar camino izquierdo;

Hacer

Búsqueda en sector actual;

Si no se encontró nada entonces sector actual := sector siguiente;

hasta fruto encontrado o final de camino;

Si final de camino entonces final_impar := verdadero;

fin, Si;

Si imagen par o (fin_impar y no se encontró nada) entonces

Tomar camino derecho;

Hacer




Si final de camino entonces fin_par := verdadero;

Si fin_par y no se encontró nada entonces

Si no fin_impar entonces

Tomar camino izquierdo;

Hacer




Si final de camino entonces final_impar := verdadero;

fin, Si;

fin, Si;

fin, Si;

hasta fin de los dos caminos;


252

Es necesario apuntar que cada vez que se toma una imagen, sea par o

impar, de una misma escena, el sector actual de búsqueda del camino

correspondiente por el que se inicia el análisis es el último sector que se visitó

en la imagen anterior correspondiente al mismo camino, con lo que se evita

tener que analizar de nuevo la imagen desde el sector más inferior del camino,

ya que por los principios de comportamiento descritos, cuando se va avanzando

en la detección y recolección de sectores de la imagen en forma ascendente, en

los sectores inferiores no existirán frutos, por lo que no es necesario reanudar la

búsqueda por allí. Por tanto, esta estrategia permite un ahorro de coste

computacional, eliminando sectores de búsqueda ya inspeccionados en tomas

anteriores.

En cuanto a la alternancia, ésta permite que, por ejemplo, para tiempos de

ciclo de 2 o 2,5 segundos, una misma zona no se analice hasta dos tiempos de

ciclo después, unos 4 a 5 segundos, ya que en la imagen siguiente

correspondiente al ciclo posterior, la zona de búsqueda vendrá determinada por

el sector actual del otro camino. Estas dos zonas de búsqueda están separadas

en el espacio, al menos, sobre el plano de la escena, la distancia que

corresponde a la anchura de un sector en la imagen, es decir, si, por ejemplo, la

imagen cubre en la escena un metro cuadrado de superficie sobre el árbol, la

alternancia supone que la siguiente búsqueda se realizará al menos a 25 cm de

la posición del último fruto detectado, si el cuadro de la escena es de un metro

por un metro.

Por otra parte, la estructura de los caminos en la alternancia no tiene por

que ser la misma en todo tipo de frutos. Los caminos señalados en la figura 9.1

son los utilizados para naranjas. En el caso de manzanas, el efecto pendular de

muchas ramas, debido a la estructura del árbol, provoca movimientos de las

ramas más prolongados, siendo en algunas variedades un problema que se

presenta muy a menudo; estos tiempos de movimiento más prolongados obliga a

buscar caminos alternos, donde los sectores se alejen más en el espacio y en el

tiempo, para tratamientos de dos imágenes sucesivas de una misma escena. En el

caso de naranjas estos movimientos son más cortos y menos frecuentes, ya que


253

la estructura de las ramas de los naranjos son más rígidas y no provocan

movimientos oscilantes tan largos.

Hay que resaltar que esta estrategia ha sido la adoptada en este momento

y con el equipo mencionado, de acuerdo a la filosofía del proyecto. Existen

varias maneras de abordar este problema, incluso se han realizado trabajos

específicos en este sentido (Edan et al, 1990), pero sobre todo en función de las

características del enfoque del problema (Harrell et al, 1990). No obstante,

tampoco se descarta en un futuro la posibilidad de procesar completamente toda

la imagen, con la ayuda de equipos más potentes en los que el coste

computacional no sea un condicionante, centrándose entonces la estrategia de

visión en elegir el fruto adecuado de todos los frutos detectados en la escena de

acuerdo a ciertos criterios.

9.1.2 Solapamiento de escenas. La redundancia

El solapamiento de escenas contiguas en cierto grado (figura 9.2), tanto en

dirección vertical como horizontal, es una técnica que tiene dos efectos positivos.

En primer lugar el solapamiento permite visualizar zonas de la escena

precedente por segunda vez, pero desde

un ángulo ligeramente diferente, lo que

permite en algunos casos visualizar frutos

que en la escena anterior permanecían

ocultos. Además permite volver a intentar

de nuevo el poder atrapar ciertos frutos

que el sistema de visión detectó en la

escena anterior pero que el brazo robot

falló en su recogida, contemplándose una

segunda oportunidad.

En segundo lugar, y como efecto más

importante, un ligero solape de las escenas

permite visualizar correctamente frutos que

en escenas anteriores se encontraran en el

borde de la imagen dificultando su

escena 3

zonas desolapamiento

escena 1

escena 2

Figura 9.2. Solapamiento de escenas endirección vertical.


254

reconocimiento, pudiéndolos observar completamente en escenas posteriores. En

cualquier caso el solape de las escenas tiene un efecto redundante en el análisis

de ciertas zonas de las escenas, para evitar la pérdida de frutos por deficiencias

en la estructura del campo visual. Como contrapartida, este efecto redundante

tiene el inconveniente del coste en tiempo, ya que para el barrido de la

superficie del árbol se tardará más tiempo cuanto mayor sea el grado de

solapamiento.

Con el fin de buscar grados de solapamiento que lleguen a un compromiso

entre el efecto de redundancia y el factor incremental de la visibilidad de los

frutos, se han realizado estudios de los efectos del solapamiento en el aumento

de la visibilidad de los frutos (Juste et al, 1991). Las conclusiones de estos

trabajos son que para escenas solapadas en un 33 % a lo largo de los dos

movimientos, vertical y horizontal, la mejora en la visibilidad de los frutos en

plantaciones tradicionales pasa de un 50 % a un 70 % de los frutos presentes en

el árbol aproximadamente.

9.1.3 Gestión de fallos

En un proceso de análisis virtual de una imagen, el hecho de fallar en el

reconocimiento de un objeto, en este caso los frutos, no tiene tanta

trascendencia como en un proceso real. Mientras que en el proceso virtual ese

fallo en la detección se queda en un mero dato estadístico, en un proceso real

supone dos inconvenientes importantes.

El primer inconveniente es que de producirse un fallo en la detección se

desencadena un movimiento innecesario del robot para intentar atrapar un fruto

inexistente. En segundo lugar, dado que se produjo un fallo en la detección, éste

volverá a ocurrir si se analiza de nuevo la misma zona de la imagen, ya que no

siendo un fruto, ese objeto no desaparecerá de la escena en imágenes sucesivas.

Además, esto produce un efecto psicológico negativo cuando se observa el robot

en funcionamiento durante la recogida.

Un segundo tipo de fallos producen el mismo efecto que el fallo del

sistema de visión, los fallos producidos por el robot en el intento de atrapar el

fruto detectado, aún siendo realmente un fruto. Estos tipos de fallos deben


255

gestionarse de la misma forma que los fallos del sistema de visión ya que tanto

el planificador de tareas del robot como el sistema de visión, nunca sabrán

verdaderamente por cual de los dos motivos se produjo el error, si por fallo del

sistema de visión o por fallo en el intento.

Los fallos en los intentos de atrapar los frutos son debidos principalmente

a tres causas:

1- Alcance del fruto.

2- Dirección del brazo hacia un punto erróneo.

3- Presencia de obstáculos.

Los fallos debidos a que los frutos se encuentran fuera del alcance del

robot son uno de los principales motivos de error. Este tipo de fallos se puede

minimizar conociendo la distancia a los frutos, como por ejemplo mediante una

técnica de estereoscopia como la descrita en este trabajo. Conociendo la

distancia a priori a que se encuentra el fruto detectado por el sistema de visión,

el planificador del robot podría decidir si intenta atraparlo o no, conociendo si

se encuentra dentro o fuera del alcance del brazo. Esto evitaría todos los

movimientos innecesarios que suponen este tipo de fallos, que en los primeros

ensayos con el robot supusieron un 37 % de los fallos del robot, sin un sistema

de cálculo de la distancia al fruto.

En cuanto a los errores por dirigirse el brazo a un punto erróneo, éstos

son debidos a que la mano se dirige a un punto ligeramente desplazado del

centro el fruto, efecto que se produce cuando no se apunta a su centro. Esto es

debido principalmente por dos causas, en primer lugar a que el sistema de

visión no determina el centro geométrico del fruto, proporcionando normalmente

el centroide de la región visible, que en el caso de frutos parcialmente ocultos

cuya superficie visible sea menos de un 50 %, o en el caso de racimos cuando

no se diferencian los frutos individualmente, siempre se encuentra desplazado de

su centro geométrico. En segundo lugar estos fallos son debidos a que el diseño

de la mano, que tal como esta concebida actualmente, únicamente permite un

margen de error en el desplazamiento respecto al centro geométrico del fruto de

unos 3 o 4 centímetros.


256

Para solucionar este problema, por la parte que le corresponde al sistema

de visión, la cantidad de fallos de este tipo queda reducido por medio de la

determinación del centro geométrico del fruto a través del cálculo de la

circunferencia que representa el contorno del fruto y que puede ser reconstruida

a partir de frutos parcialmente ocultos mediante las técnicas descritas en la

primera parte de este trabajo.

La presencia de obstáculos es el último de los principales motivos de esta

serie de fallos, obstáculos que deberían ser detectados por el sistema de visión,

que en el caso de naranjas sólo se reducen a la presencia de ramas que,

permitiendo la visión parcial del fruto sean lo suficientemente rígidas como para

poder obstaculizar el movimiento de acercamiento de la mano al fruto. En este

tipo de fallos surge una controversia que depende para el caso particular de

cada tipo de frutos.

En todo caso, por cualquiera de los motivos que se produce un fallo en la

recolección de un fruto, estos fallos deben tratarse mediante cierta estrategia

para poder seguir en el proceso de análisis de la escena que se está tratando, ya

que de lo contrario, al tropezar con un fallo, se incurriría sucesivamente en el

mismo si no se decidiera algo al respecto. Por otra parte, debe ser uno de los

principales objetivos de un sistema de visión cometer la menor proporción de

errores posibles de los que de alguna manera dependan del buen funcionamiento

de este sistema, como una tasa errores reducida en el reconocimiento, el cálculo

de la distancia, el calculo del centro geométrico del fruto, y en última instancia

la detección visual de obstáculos.

En cuanto a los métodos de gestión de los fallos, todos éstos se consideran

como tales, sean de la naturaleza que sean, debido a que no se puede averiguar

por que motivo exacto se produjeron desde el punto de vista de una aplicación

en tiempo real.

El procedimiento más simple, considerando la estructura de sectores en que

se divide la imagen para la búsqueda, es que se pase al sector siguiente cuando

se ha producido un fallo. Mediante esta técnica se consigue no caer

repetidamente en el mismo fallo, pero tiene el inconveniente de perder


257

definitivamente los posibles frutos que se encuentren exclusivamente en ese

sector.

Un segundo procedimiento más elaborado consiste en marcar la zona donde

se encontraba la región del objeto en que se produjo el fallo, para omitirla

durante el análisis sucesivo de la escena. Esto se puede conseguir de manera

relativamente sencilla mediante el siguiente proceso:

Se toma una imagen y se analiza;

Cuando se detecta el posible fruto se borra su región correspondiente en la imagen

mediante un etiquetado o borrando con un parche rectangular que inscriba la región;

Si se cometió un fallo en el intento entonces

Sin tomar una nueva imagen, se sigue analizando la misma imagen anterior en la

que el objeto que produjo el fallo estará borrado;

sino se vuelve a tomar una nueva imagen y se repite el proceso normal;

Obsérvese que en el caso que ocurra un fallo, la imagen que se sigue

analizando ya tiene borrada la información relativa a la zona donde se

encontraba el objeto que produjo el fallo, con lo que no se volverá a detectar,

al menos hasta que se produzca un nuevo acierto o se cambie de sector por no

encontrarse más frutos. Esta estrategia asegura que, aunque se repita dentro de

un mismo sector la detección de un mismo objeto que provoque un fallo

reiteradamente, éste fallo no se producirá indefinidamente ya que cuando se

hayan recolectado todos los frutos del sector y sólo se produzcan fallos en tal

sector, se pasará al siguiente abandonando definitivamente el sector anterior.

Otro aspecto que contempla esta estrategia es lo que se podría llamar la

segunda oportunidad. Dado que no se conoce la naturaleza de los fallos, es muy

probable que el error haya sido producido por un fallo en el intento de la mano

en coger el fruto (según datos experimentales del robot en situaciones reales, el

30 % de los fallos son debidos a un error en la mano, por fallos mecánicos,

obstrucción, etc). Por tanto, la contemplación de una segunda oportunidad para

poder recoger frutos detectados correctamente y en los que se produjo un fallo

al atraparlos, es un elemento para poder aumentar la tasa de recogida.


258

En particular la estrategia descrita de gestión de fallos permite en la

mayoría de los casos una segunda o incluso un número mayor de oportunidades

si se da el caso, menos para el último fallo realizado en cada sector. Para poder

entender esto, supongamos por un momento un caso extremo, en un sector

determinado donde sólo se detectan objetos que producen fallos, por ejemplo

tres. Cuando se produzca el primer fallo, en la siguiente búsqueda se encontrará

el siguiente y como éste último también producirá un error, sin tomar una nueva

imagen se encontrará el último del sector, el cual, al producirse un nuevo error

y no encontrar nuevos objetos en tal sector, se pasará al siguiente sector sin

posibilidad de volver a detectar los mismos errores en el sector anterior.

Por otro lado, supongamos que en un sector se van a detectar dos objetos

uno que producirá un fallo y el siguiente que producirá un acierto. Si se

produce primero el fallo, sin tomar una nueva imagen se encontrará el siguiente

objeto, que al producirse con éxito su recogida se tomará una nueva imagen y se

analizará de nuevo todo el sector, detectando de nuevo el fruto que produjo un

fallo, dándole una segunda oportunidad, que en el caso de un nuevo fallo se

terminará de explorar el sector y, al no encontrar nada más, se pasará al

siguiente sector.

Lo ideal sería llevar un contador de los intentos realizados para cada

objeto de la imagen detectado, pero ello precisaría de un seguimiento de la

posición del objeto en el caso de que se mueva, ya que en general, tras cada

fruto recolectado los objetos en la imagen se desplazan ligeramente por los

efectos descritos en este apartado, pues sería necesario asociar el objeto a cierta

posición en la imagen. Por estos motivos, este procedimiento no es apropiado

por la complejidad en el seguimiento de objetos móviles en imágenes sucesivas.

9.1.4 Racimos

A menudo los frutos se presentan agrupados en forma de racimos, sobre todo en

algunas variedades de naranjas y mucho más frecuentemente en mandarinas.

Cuando el sistema de visión detecta uno de estos racimos, es necesario tratarlos

de una manera especial. El problema consiste en que los frutos en un racimo se

encuentran juntos y se ocultan los unos a los otros, sin embargo siempre existe


259

un fruto según la dirección de observación que

aparece más visible y por lo tanto más exterior

(figura 9.3).

En primer lugar existe el problema de poder

diferenciar cada uno de los frutos del racimo, ya

que al estar juntos, el sistema de visión los puede

confundir como uno solo, pero este problema se

abordará más adelante. Suponiendo que se sabe

diferenciar entre cada uno de los frutos del racimo,

para poder dirigirse al más exterior, se debe elegir de entre los frutos del

racimo aquél que tenga, en primer lugar, un área visible mayor, y en segundo

lugar, posea visible la mayor parte de su contorno real. Calculando el área y la

parte visible del contorno circular de cada fruto se podrá realizar esta

determinación.

Con la elección del fruto más visible o exterior se pretende que el robot

se dirija en primer lugar al fruto que presenta menos problemas para ser

atrapado por la mano del robot, con el fin de evitar este tipo de fallos, los

cuales se producen si el brazo robot se dirige a los frutos más ocultos o a

puntos alejados del centro geométrico de los frutos más visibles.

Por otro lado, hay que tener en cuenta como el sistema de visión puede

determinar que en cierto lugar existe un racimo. Esto no supone ningún

problema adicional en el caso de que la segmentación de la imagen se realice

por color, ya que en este caso los frutos que se encuentran juntos o agrupados

aparecen en la región segmentada como una única región que representa al

racimo. Una vez detectado el racimo, se realiza el proceso de división del

racimo en sus diferentes frutos mediante la transformación concavidad y el

cálculo de contornos circulares que se describirá más adelante.

Por tanto, el procedimiento para el tratamiento de racimos se puede

resumir en el siguiente algoritmo

Figura 9.3. Racimo de naranjas.


260

Dividir la región de la imagen que representa el racimo en las regiones

correspondientes a sus frutos;

Para cada región del racimo

Calcular el área;

Calcular su centro geométrico y parte del contorno circular visible;

fin, Para;

Si existen regiones que exhiben más de un 75 % de su contorno entonces

Escoger la de mayor proporción de contorno visible;

sino

Escoger la de mayor área visible;

Con este procedimiento se prima más a las regiones que presentan una

mayor parte del contorno visible en el caso de que se puede apreciar más de

3 ⁄ 4 de su contorno circular, ya que en ese caso significa que el fruto es

prácticamente visible en su totalidad. En caso contrario se prima el área visible

si no se puede distinguir el contorno en esa proporción.

9.1.5 Procedimientos locales

Tal como se ha mencionado, como consecuencia del hecho de la estructura de la

dinámica del problema, y que sólo es imprescindible detectar o reconocer un

único fruto en la imagen, se han adoptado una serie de puntos concernientes a

la llamada estrategia de visión para poder barrer la imagen en busca de ese

primer fruto cada vez que se inicia un ciclo de recogida.

El procedimiento de barrido en la búsqueda de ese primer fruto nos lleva

a la utilización de procedimientos locales de análisis. Se entiende por estos

procedimientos locales a la concentración de todo el esfuerzo de cálculo para

reconocer o detectar los frutos en ciertas zonas reducidas y acotadas de la

imagen que se han seleccionado durante el procedimiento de barrido por medio

de un test o prueba con el que se sondea si existe la posibilidad de que se

encuentre un fruto en esa zona, de esta manera no se utiliza todo el esfuerzo

computacional en un proceso global de análisis de toda la imagen sino en ciertas

zonas reducidas de interés, reduciendo de esta forma el coste computacional y

adaptándose así al problema real de la localización de un único fruto.


261

Este proceso se realiza barriendo los píxels de la imagen según la manera

descrita en apartados anteriores, verificando si cada uno de los píxels cumple

cierta propiedad que realiza el papel de una sonda. Las medidas realizadas para

determinar esta prueba son generalmente basadas en operaciones simples y de

gran rapidez, para agilitar el tratamiento.

Cuando se encuentra un punto donde el test resulta positivo, entonces se

determina una zona a partir de ese punto en la que se estima que puede estar

incluido el posible fruto. Delimitada la zona, por ejemplo en forma de ventana

en la imagen, se realiza el proceso de análisis exhaustivo en busca del fruto

dentro de esa zona. En caso de que no se encuentre nada en la zona de

interés, se sigue el sondeo siguiendo con el barrido desde el punto donde se

detuvo hasta encontrar otro punto de interés o llegar al final de la imagen.

El proceso se puede resumir en los siguientes pasos

Para cada píxel observado durante el barrido de la imagen

Si cumple cierta condición inicia entonces

Delimitar zona de posible ubicación del fruto;

Realizar análisis exhaustivo de reconocimiento y localización;

Si se encontró un fruto entonces

Detener la búsqueda y facilitar posición del fruto;

sino, seguir;

fin, Si;

sino, seguir hasta encontrar un fruto o final de la imagen;

fin, Para;

En última instancia señalar que, la técnica de barrido y el uso de

procedimientos locales viene determinada por el uso de equipos de relativamente

menor potencia computacional, como son los ordenadores personales respecto a

ordenadores más potentes o sistemas de arquitectura especifica de proceso de

imágenes, en los que, desligándose en cierto modo del posible coste en procesar

imágenes en su globalidad, se podrían aplicar del mismo modo los criterios de

alternancia, gestión de fallos y tratamiento de racimos.


262

Una vez fijada la estrategia de visión y como se va a proceder en el

análisis de las imágenes tomadas de escenas durante el periodo de recolección,

el siguiente paso es la descripción de los algoritmos de análisis de imágenes para

realizar el reconocimiento y localización de los frutos en los diferentes casos que

se van a contemplar.

9.2 El reconocimiento de los frutos

En todo proceso de reconocimiento es necesario elegir un conjunto de

propiedades por medio de las cuales caracterizar cada uno de los objetos para

decidir o realizar una interpretación en función de los valores que adquieren

estas propiedades para cada objeto.

Desde el punto de vista del análisis de imágenes los objetos se definen en

la imagen a partir de una segmentación en regiones cuyos puntos poseen cierta

propiedad o propiedades en común. A cada región de la imagen segmentada se

le asocia una entidad objeto y se le extraen el conjunto de propiedades que se

proponga para, en este caso, realizar una clasificación de estas regiones,

asociándolas a una de las clases pertenecientes al conjunto de clases que se

defina.

En el caso que nos ocupa, las imágenes a tratar son escenas de frutos en

su entorno natural, en las que se pretende reconocer y localizar estos frutos. La

manera de conseguir este objetivo será realizando una clasificación de las

regiones resultado de cierto proceso de segmentación en una de las dos clases

establecidas a priori: fruto o fondo . A las regiones clasificadas como fruto se

considera que en la zona que definen tales regiones existe un fruto, calculando

posteriormente su localización o situación en la escena a partir de los

parámetros que definen esas regiones en la imagen.

En cuanto al conjunto de propiedades que se extraen de cada región para

su posterior clasificación, se pueden definir teniendo en cuenta las características

visuales que pueden diferenciar los distintos objetos de una escena, las cuales se

refieren en general a la forma del objeto (contorno y superficie), tamaño y

color.


263

En el caso de los frutos la primera propiedad que resulta evidente es el

color. Para una gran mayoría de frutos (naranjas, manzanas, tomates, etc.), el

color que poseen en su estado de madurez es una característica que se distingue

en gran medida de los colores presentes en el resto del árbol o en el entorno,

por tanto, el color es una de las principales propiedades por las que se puede

reconocer y localizar los frutos.

Junto con el color de la superficie de los frutos existen otras propiedades

relativas a su morfología que son posibles de extraer a partir del análisis de

imagen. De acuerdo con el modelo geométrico adoptado para los frutos en el

capítulo 1, los frutos se pueden aproximar mediante una superficie esférica la

cual posee un contorno circular, por tanto serán dos propiedades distintivas más

la forma circular del contorno y la forma esférica de la superficie de los frutos.

Cuando los frutos poseen un color marcadamente diferente respecto a su

entorno, el color es la propiedad básica en el proceso de reconocimiento, tal

como sucede simulando el comportamiento humano. Cuando se observa un árbol

en busca de frutos, un humano busca a través de la masa foliar algún objeto o

mancha de color diferente al de las hojas o ramas. Si en esta búsqueda se

encuentra alguna mancha u objeto de color diferente y cercano al color de los

frutos que se pretende encontrar, entonces se fija más detenidamente en el

objeto encontrado e intenta comprobar si tal objeto es realmente el fruto

buscado, sobre todo mediante el análisis de la forma del objeto en cuestión, el

tamaño, etc.

En el caso de una observación estática de la escena, a menudo los frutos

se encuentran parcialmente ocultos, no pudiendo distinguir claramente la forma

de los frutos. Un humano, cuando localiza un objeto de color aproximado al de

los frutos, si no ve con claridad la forma del objeto, se acerca, cambia de

ángulo o aparta las hojas o ramas que obstaculizan la visión para comprobar en

mejores condiciones si realmente se trata de un fruto. En el caso de una

observación estática, tal como ocurre en la toma de una imagen por una cámara

situada a cierta distancia de la escena, todo este proceso de mejora de las

condiciones de visibilidad, realimentando la información extraída al sistema en

cada situación cambiante, no es posible, por tanto el color de los objetos,


264

cuando se asume a priori que es frecuente que permanezcan parcialmente

ocultos, tiene aún mucho más peso en el reconocimiento que las otras

propiedades morfológicas.

Por tanto, una buena segmentación por color puede resolver casi

definitivamente el reconocimiento de los frutos en estos casos, dejando la

extracción de características morfológicas para otros fines de interpretación de la

escena, tal como la determinación del centro geométrico del fruto o identificar

por separado cada fruto de un racimo.

En el caso de que el color no sea una propiedad claramente distintiva de

los frutos que se pretende localizar, se debe recurrir a las propiedades relativas

a la forma del contorno y de la superficie, cuya extracción o medición se ve

dificultada debido a que los frutos se encuentran frecuentemente parcialmente

ocultos. En estos casos el color es una propiedad complementaria que puede

ayudar a estimar el grado de madurez del fruto, en el caso de que éste sea

reconocido y localizado.

A continuación se expondrán los dos métodos desarrollados de

reconocimiento y localización de frutos. Estos métodos asumen el modelo

esférico como aproximación a la forma de los frutos. El primer procedimiento se

basa en el color de los frutos para su reconocimiento y localización, en el caso

de que esta propiedad sea lo bastante diferenciadora respecto del resto del

entorno. El segundo procedimiento es una primera aproximación para abordar el

problema del reconocimiento independientemente del color, tratando con escenas

en que los objetos muestran solo parte de su superficie, disponiendo por tanto

de una información parcial de ellos.

9.3 Reconocimiento y localización por color

Asumiendo que los frutos que se pretende localizar poseen un color

marcadamente diferente del de su entorno, el reconocimiento se basará en la

búsqueda de objetos que poseen el color de los frutos. Para ello en primer lugar

se realiza una segmentación por color de la imagen; seguidamente se barre la

imagen en busca de regiones cuyo color asociado sea el mismo que el atribuido


265

a los frutos. Una vez localizadas estas regiones, se les aplica un análisis de

superficies cóncavas para separar los frutos en caso de racimos o agrupaciones.

Obtenidas las regiones correspondientes a cada uno de los frutos, un análisis de

sus respectivos contornos intentará localizar el centro geométrico de cada fruto.

Por último se determina la posición real del fruto, bien mediante un sistema

estereoscópico o en su defecto se determina la dirección en que se encuentra el

fruto a través de una sola cámara.

9.3.1 La segmentación

La segmentación por color se realiza por el método descrito en el capítulo 5,

tanto en condiciones de iluminación natural de exteriores o mediante el apoyo

de iluminación artificial por el procedimiento desarrollado en el capítulo 1. La

segmentación se realiza calculando las coordenadas ϕ y θ correspondientes a

cada píxel de una imagen RGB, y posteriormente el ángulo α del punto en estas

coordenadas en el diagrama ϕθ respecto al color del iluminante. Para evitar

posible ruido o efectos espúreos en píxels aislados, las imágenes correspondientes

a las coordenadas ϕ y θ se filtran mediante un filtro pasa baja, tal como el filtro

media o el mediana.

Previa calibración del sistema, es decir, el cálculo del color de iluminante,

(ϕ0,θ0), por el procedimiento descrito en la sección 5.4, a partir de un conjunto

de imágenes muestras, se etiquetan sus píxels en dos clases, fruto y fondo .

Mediante el sistema de aprendizaje descrito en la sección 5.3.3 se determinan los

ángulos α1 y α2 correspondientes a las dos rectas que separan la clase frutos del

resto en el diagrama ϕθ.

Obtenidos los parámetros del clasificador color, α1 y α2, la segmentación de

una nueva imagen se realiza atribuyendo cada píxel a la clase fruto si su

correspondiente ángulo α cumple que

α1 ≤ α ≤ α2


266

9.3.2 El etiquetado. Calculo del área

Mediante un algoritmo de etiquetado, se asocia una etiqueta a cada región de

puntos 8-conectados de la clase fruto. Este mismo algoritmo proporciona el área

de la región, desestimando regiones de pequeño tamaño, las cuales corresponden

en una gran mayoría a efectos ruidosos aislados que no pudo eliminar el filtrado

en las coordenadas ϕ y θ.

El algoritmo de etiquetado utilizado ha sido desarrollado específicamente

para poder etiquetar una región en la imagen independientemente de las

posibles regiones que contenga la imagen, con el fin de encontrar la primera

región reconocida satisfactoriamente como fruto sin tener que analizar las

restantes, ya que la orientación de la aplicación se basa en el análisis de una

región cada vez. Este algoritmo difiere del método clásico de etiquetado

(Rosenfeld & Kak, 1982) buscando píxels conexos y equivalencia de etiquetas en

dos barridos por todos los píxels de la imagen, método que en el caso de que

existan dos o más regiones en la imagen o región a analizar, también examinará

esas regiones para poder averiguar que píxels están conectados en una sola

región.

El método desarrollado se fija solo en los píxels correspondientes a una

sola región sin tener que analizar las restantes. Para ello utiliza la información

relativa al contorno de la región con el fin de etiquetar los píxels del interior de

la región a partir de los píxels frontera y la relación de conectividad que existe

entre los puntos del interior de la región y los puntos frontera.

Para describir el funcionamiento de este algoritmo, supóngase que se tiene

una imagen binaria, la cual incluye una serie de regiones que se pretende

etiquetar. Si se efectúa un barrido por la imagen hasta encontrar un píxel

perteneciente a una región, este primer píxel se asegura que es de la frontera

de la región ya que el píxel anterior era un píxel perteneciente al fondo. A las

regiones que limitan con los bordes de la imagen, se considera como frontera

los píxels junto a los bordes. A partir de ese primer píxel encontrado de la

región y perteneciente a su frontera externa, se llama a la siguiente función

recursiva de etiquetado


267

Funcion: Etiquetado;Datos: Punto inicial (x0,y0), ETIQUETA_REGION, valor de la etiqueta con que se quiere marcar a lospuntos de la región;

Constantes: BINARIA, valor de un píxel de una región en la imagen binaria; FRONTERA, valor de la etiqueta con que se marca inicialmente la(s) frontera(s) dela región; FONDO, valor de un píxel perteneciente al fondo;

Algoritmo:

Recorrer, codificar y marcar los puntos de la frontera con la etiqueta FRONTERA;

Para cada punto de la frontera

Si etiqueta igual a FRONTERA entonces

marcar punto como ETIQUETA_REGION;

/* recorrer fila hacia la izquierda * /

punto_actual := vecino izquierda;

Mientras punto_actual sea igual a BINARIA

marcar punto con ETIQUETA_REGION;

punto_actual := vecino izquierda;

fin, Mientras;

Si punto_actual es FONDO entonces

/* es una frontera interior, la región tiene un agujero * /

llamar a función Etiquetado con punto inicial igual a punto anterior al actual;

sino /* era un punto FRONTERA * /

marcar punto_actual con ETIQUETA_REGION;

/* recorrer fila hacia la derecha * /

punto_actual := vecino derecha;

Mientras punto_actual sea igual a BINARIA

marcar punto con ETIQUETA_REGION;

punto_actual := vecino derecha;

fin, Mientras;

Si punto_actual es FONDO entonces

/* es una frontera interior, la región tiene un agujero * /

llamar a función Etiquetado con punto inicial igual a punto anterior al actual;

sino /* era un punto FRONTERA * /

marcar punto_actual con ETIQUETA_REGION;

fin, Si;fin, Para;


268

Tal como se puede apreciar en el algoritmo, los puntos frontera (interiores

o exteriores), se recorren dos veces, una para marcarlos y otra para realizar el

etiquetado. Los puntos de la región que no sean frontera se recorren una sola

vez. El tipo de conectividad que se utiliza para etiquetar los puntos de la región

viene dado por el tipo de conectividad utilizado en el seguimiento de la

frontera, seguimiento que se realiza a través del algoritmo descrito en la sección

4.1.

Volviendo al algoritmo, el principio básico en el que se apoya es en el

hecho de que cualquier punto del interior de una región de tamaño finito está

conectado con un punto frontera (externa o interna) a través de puntos

pertenecientes a la región dentro de una misma fila de la imagen y en general a

lo largo de una recta en cualquier dirección que contenga al punto en cuestión,

ya que el conjunto de fronteras internas y externa envuelven todos los puntos de

la región.

En cuanto a las fronteras internas y externas, se denomina frontera interna

a la frontera entre la región y el fondo que se produce por la existencia de

agujeros en la región. La frontera externa es la que envuelve a todos los puntos

de la región, incluidos los agujeros. El algoritmo parte de la frontera exterior y

si existen fronteras interiores las va localizando durante el proceso de etiquetado,

tratando todas las frontera del mismo modo, de ahí el modo recursivo de la

función de etiquetado. Este carácter recursivo denota que, mientras se esta

etiquetando recorriendo una frontera y se encuentra otra que no ha sido

recorrida aún, se deja temporalmente el etiquetado a partir de la frontera actual

y se realiza el etiquetado que se genera a partir de la encontrada, volviendo al

punto de la frontera anterior donde se dejo temporalmente el proceso cuando se

termine el proceso en la nueva frontera. De esta manera se asegura un barrido

exhaustivo por todas las fronteras de la región y por tanto por todos los puntos

de ella.

Este algoritmo permite etiquetar los puntos de una única región sin tener

que barrer toda la imagen. Esta técnica es totalmente compatible con la

estrategia de visión a seguir en la aplicación para encontrar una primera región

perteneciente a la clase fruto sin tener que analizar el resto de la imagen, en la


269

línea de evitar cálculo innecesario en una aplicación real. Por otro lado, este

algoritmo es más eficiente computacionalmente que el algoritmo clásico de

etiquetado en dos barridos, claro está, por el simple hecho de que los puntos de

una misma región sólo se recorren una vez para su etiquetado menos los puntos

frontera, que se recorren dos veces. En general, durante el etiquetado de una

imagen binaria completa por el algoritmo aquí desarrollado, los puntos de las

regiones binarias se recorren dos veces, una durante el barrido de la imagen en

busca de puntos pertenecientes a regiones y otra para su etiquetado, pero por

otro lado los puntos pertenecientes al fondo sólo se recorren una vez, a

diferencia del algoritmo clásico que todos los puntos de la imagen se recorren

dos veces. A todo ello, si tenemos en cuenta que, en general, en una imagen

binaria los píxels pertenecientes al fondo son mayoría, la eficiencia del algoritmo

queda más patente.

Es evidente que, tomando como definición de área de una región el

número de puntos de que consta tal región, el área de la región etiquetada por

la función se calcula durante el proceso de etiquetado por simple conteo de los

puntos que se van etiquetando con la etiqueta asignada a la región.

A cada región resultante del etiquetado se la considera un fruto o

agrupación de frutos, asociando de esta manera la segmentación en color con el

reconocimiento en color. En realidad para realizar la segmentación por color se

utiliza un clasificador, en este caso basado en la minimización del error de

Bayes en muestras caracterizadas por una sola coordenada (capítulo 5).

9.3.3 Identificación de frutos en racimos

Para separar los frutos en sus respectivas regiones individuales en la imagen, se

realiza una transformación concavidad en una de las bandas R, G o B; la banda

que ofrezca un mayor contraste entre frutos y fondo, de manera que utilizando

un umbral sobre la imagen resultado, tal como se describe en la sección 2.5, se

obtiene una región por cada zona cóncava de la imagen por separado. Por

último realizando una operación lógica ’y’, o intersección, entre la imagen

segmentada en color y la imagen segmentada por concavidades, se obtiene una

imagen cuyas regiones corresponden a regiones cóncavas y de color el de la


270

clase fruto, es decir, se obtendrán cada uno de los frutos en cada región por

separado, ya que la transformación concavidad los habrá separado.

9.3.4 Análisis del contorno. Búsqueda del centro geométrico

A cada región de la imagen resultante se le aplica un análisis del contorno para

reconstruir la circunferencia que más se ajuste al posible contorno circular de

estas regiones. Este análisis se realiza mediante el método descrito en el capítulo

4 de reconocimiento de contornos parcialmente circulares, ya que a menudo al

estar los frutos parcialmente ocultos no se aprecia la totalidad de su contorno.

En caso de encontrar tramos circulares en el contorno y reconstruir su

correspondiente circunferencia, el centro de esa circunferencia se asocia con el

centro geométrico del fruto.

Para las regiones consideradas como frutos sobre las cuales no se hallen

tramos circulares en su contorno, se les asocia un centroide definido como el

centro del rectángulo mínimo que inscribe a la región de manera que, si el

rectángulo que inscribe la región queda caracterizado por el vértice superior

izquierdo de coordenadas (x1,y1) y el vértice inferior derecho de coordenadas

(x2,y2), el centroide (xc,yc) queda definido como

xc = x1 + x2 − x1

2 yc = y1 +

y2 − y1

2

Otro aspecto en que se utiliza el análisis de contornos circulares, consiste

en identificar los frutos de un racimo por separado, cuando no es posible la

aplicación de la transformación concavidad, por motivos debidos a una

inadecuada iluminación. El análisis del contorno permite identificar, al menos, los

frutos más visibles y cuya parte del contorno queda más descubierta dentro de

los frutos del racimo, pudiendo centrar, en un principio, la atención sobre ellos,

de manera que a medida que se recogen los frutos más visibles del racimo, éste

se va aclarando y mostrando los frutos que estaban más solapados.


271

9.3.5 Localización espacial

Una vez un fruto ha sido reconocido y localizado en la imagen, el último paso

consiste en calcular su posición en el espacio a partir de la posición en la

imagen. Para una localización tridimensional se puede emplear el sistema

estereoscópico descrito en el capítulo 6, utilizando para realizar la

correspondencia las imágenes izquierda y derecha segmentadas en color, ya que

el método trabaja sobre imágenes binarias.

Mediante una sola cámara, tal como se ha venido utilizando hasta el

momento en el prototipo de robot recolector, se puede averiguar la dirección en

que se encuentra el fruto respecto al centro óptico del sistema. Por tanto,

situando la cámara tal que coincida el centro óptico con el centro de

coordenadas del robot, el robot puede lanzar el brazo en la dirección

especificada hasta encontrar el fruto. Este procedimiento tiene como

inconveniente, además de no conocer la distancia al fruto, que fuerza la situación

de la cámara en la posición descrita.

El cálculo de la dirección en que se encuentra el fruto mediante una sola

cámara se realiza a través de los principios geométricos que rigen el sistema

O′

x′y′ϕ′

θ′

fO

x

y

θ

ϕz

P

P′

Figura 9.4. Geometría de la dirección de un punto del espacio objeto en un sistema óptico.


272

óptico. Tal como se muestra en la figura 9.4, consideremos un sistema de

coordenadas con centro O en el centro óptico del sistema, el eje z coincidente

con el eje óptico del sistema, y un sistema de coordenadas x′ y′ z′ situado en el

centro del plano imagen O′ con ejes x′ = x y y′ = y con el eje z′ en la misma

dirección del eje z. Si el plano imagen se encuentra a la distancia focal f del

centro óptico, un punto en el espacio (x,y,z) tiene su proyección en el plano

imagen en un punto (x′ ,y′) cuyas coordenadas respecto al sistema O son

(x′ ,y′ ,− f). La dirección de un punto en el espacio (x,y,z) viene dada por sus

coordenadas angulares esféricas (θ,ϕ) , que tiene una relación con las coordenadas

angulares esféricas (θ′ ,ϕ′) de su punto proyección en el plano imagen para la

coordenada ϕ, observando la figura 9.4, de la forma

ϕ = ϕ′

y para la coordenada θ, observando la figura 9.5, de la forma

θ′

θ θ

θ

θ

θ′

θ′

θ′ = π + θ

θ′

y

θ = π + θ′

θ′ = π + θ

y

y

P

y

xx

xx

P

PP′

P

P′

P′

P′

θ = π + θ′

Figura 9.5. Relación entre los ángulos θ y θ′ según el cuadrantedonde se encuentren los puntos objeto, P, e imagen P′ .


273

θ′ = π + θ, si y < 0

θ = π + θ′ , si y > 0

Para un punto en la imagen de coordenadas (x′ ,y′) respecto al sistema de

ejes descrito, los ángulos θ′ y ϕ′ se pueden calcular de la forma

ϕ′ = arc cos

f

(x′ 2 + y′ 2 + f2)1⁄2

, θ′ = arc cos

x′(x′ 2 + y′ 2)

1⁄2

Y a partir de aquí se obtienen los ángulos buscados θ y ϕ, que indican la

dirección en espacio del punto (x,y,z), utilizando la relación anterior entre los

ángulos θ con θ′ , y ϕ con ϕ′ .

9.3.6 El algoritmo de reconocimiento y localización por color

En resumen, el proceso de análisis de una imagen o zona de la imagen para

reconocer y localizar los frutos en imágenes en color se puede expresar mediante

el siguiente algoritmo:

Calcular la segmentación en color;

Calcular la segmentación por concavidades;

Calcular imagen intersección de segmentación en color y concavidades;

Para cada región resultante de la zona de atención en la imagen

Analizar contorno de la región;

Si es parte de un contorno circular entonces

Asignar centro geométrico el centro de la circunferencia encontrada;

sino

Asignar centroide de la región como centro del rectángulo que la inscribe;

Calcular región correspondiente en imagen derecha; /* en caso de estereoscopia * /

Calcular coordenadas espaciales del fruto;

Si hay más de una región en la zona de interés entonces

elegir según criterio de racimos;

fin, Para;

Es necesario recordar que todo este proceso de reconocimiento y

localización no se realiza sobre toda la imagen, sino en cierta zona definida por


274

un test de sondeo de la imagen en la que se estima que existe la posibilidad de

que allí se encuentre un fruto.

La forma de realizar este test de sondeo consiste, tal como se apuntó en la

sección 9.1.5, en la medida de cierta propiedad de fácil cálculo o

implementación. En este caso de reconocimiento basado en el color, es natural

que esa medida esté directamente relacionada con una estimación del color de

un píxel respecto al valor que por el mismo procedimiento se estime del color

de los frutos.

Para obtener una medida orientativa del color de los píxels se utilizan dos

de las tres bandas de una imagen RGB. La idea básica es utilizar las

proyecciones de los puntos del espacio RGB en uno de los posibles planos RG,

RB o GB, aquél en el cual los colores de las clases establecidas tengan un

menor grado de solapamiento.

Para interpretar como se distribuyen los píxels correspondientes a puntos

sobre la superficie de un mismo objeto en la imagen en uno de estos planos,

particularicemos aquí las consideraciones que sobre el color se hicieron en el

capítulo 5 basadas en el modelo dicromático. Tal como allí se apuntó, los puntos

en el espacio RGB correspondientes a los colores de una misma superficie de

B

R

G

C s

C b

C’s

C’ b

Figura 9.6. Proyección de un plano dicromático sobre el plano RG.


275

color homogéneo se distribuyen a lo largo de un plano dicromático formado por

el color de la componente de reflexión superficial del objeto, cs, y por el color

de la componente de la reflexión del cuerpo del objeto, cb.

Los valores de un plano dicromático proyectados sobre uno de los planos

coordenados citados (figura 9.6), quedan comprendidos entre dos rectas, c′ b y c′ s,

correspondientes a la proyección de los vectores cb y cs sobre tal plano. Si este

plano dicromático corresponde al plano de la superficie de un objeto cuyos

colores se atribuyeron a la clase fruto, la medida o estimación que se realiza

sobre el color de un píxel en la imagen para ver si puede pertenecer a la clase

fruto consiste en comprobar si los valores del píxel en las dos bandas que

definen el plano de proyección, por ejemplo el plano RG, están comprendidos

entre esas dos rectas de proyección, c′ b y c′ s.

La forma de encontrar estas dos rectas se realiza por el mismo

procedimiento de aprendizaje descrito en la sección 5.3.3, pero en este caso las

muestras tienen como componentes (r,g) y el ángulo α se define como el ángulo

que forma el punto (r,g) respecto al origen de coordenadas, teniendo en cuenta

que ahora el ángulo α variará en el rango [0,π ⁄ 2] (figura 9.7).

Figura 9.7. ángulos α de un punto (r,g) en el plano RG.


276

Una vez calculados los valores α1 y α2,1 para comprobar si un píxel cuyos

valores en las bandas R y G, (r,g), están comprendidos entre las rectas que

definen esos ángulos, se pueden utilizar simplemente dos LUTs (Look Up Table)

que representen a las respectivas rectas. Estas rectas quedan definidas a partir

de los ángulos α1 y α2 de la forma

g = r tanα1, g = r tanα2

Teniendo en cuenta que los valores de r y g son discretos y que varían en

un rango [0,255], estas rectas se pueden representar por las dos LUTs

mencionadas de la forma

L1[r] = g = r tanα1; r = 1,..,255; g∈ [0,255]

L2[r] = g = r tanα2; r = 1,..,255; g∈ [0,255]

Para comprobar si un píxel de valores (r,g) queda comprendido entre esas

dos rectas, basta con comprobar cumple la dos condiciones siguientes a la vez

g ≤ L1[r] y g ≥ L2[r]

Mediante esta sencilla operación, y con un reducido coste computacional, se

localizan los píxels que pueden pertenecer a la clase fruto buscada. Una vez

encontrado un píxel susceptible de pertenecer a una región en la imagen

representando a un fruto, el siguiente paso es acotar o definir una zona de la

imagen en la que se encuentre tal región, para realizar posteriormente el análisis

exhaustivo de reconocimiento y localización definitivo.


277

1 Aquí se denota de la misma forma el parámetro α que en el espacio ϕθ, por analogía

en el proceso de aprendizaje, pero representan umbrales de parámetros α definidos de

forma diferente en un espacio diferente.

La forma de acotar la zona de la imagen donde presumiblemente se

encuentra la región perteneciente al fruto, se basa en el hecho de que, si se ha

encontrado un píxel que cumpla tal condición significa que, si ese píxel

corresponde a una región que represente la superficie de un fruto en la imagen,

ese píxel formará parte de una región de píxels conectados con el que cumplan

la misma condición. Por tanto delimitando la zona donde se encuentre la región

a que pertenece el píxel encontrado, tendremos acotada la zona donde se

encuentra el posible fruto.

La región de puntos (r,g) que cumple la condición anteriormente descrita,

se puede averiguar recorriendo la frontera que limita tal región a partir del

primer píxel encontrado, suponiendo que este píxel pertenece a la frontera de la

región. La condición que limita la región del fondo es simple, sin tener que

realizar una segmentación, operando directamente sobre los valores originales de

la imagen. Esta condición se resume en:

Si el píxel (r,g) cumple que g ≤ L1[r] y g ≥ L2[r], entonces es de la región;

sino, pertenece al fondo;

Recorrida la frontera de la región, la zona sobre la que se realiza el

análisis exhaustivo se define como el rectángulo mínimo que inscribe la región

definida por la frontera recorrida.

En resumen, el test de sondeo durante el barrido queda definido mediante

el siguiente algoritmo, en el caso de utilizar el plano RG,

Para cada píxel, (r,g), de la imagen Si g ≤ L1[r] y g ≥ L2[r] entonces Si (r,g) es punto frontera entonces Recorrer frontera y hallar rectángulo que la inscribe; Si longitud de frontera > longitud mínima entonces Realizar análisis de reconocimiento y localización en rectángulo definido; Si se encontró fruto entonces Detener el proceso; fin, Si; fin, Si; fin, Si;fin, Para;


278

Para comprobar si un píxel pertenece a la frontera de una región se

comprueba si, utilizando conectividad 4 para los puntos de la región, uno de sus

4-vecinos pertenece al fondo, sino el píxel en cuestión es un punto del interior

de la región. El definir conectividad 4 para la región se debe al hecho de que si

se utiliza conectividad 8 para definir los puntos del fondo se tiene que definir la

conectividad 4 para los puntos de la región y viceversa.

La condición impuesta a la longitud de la frontera para que pueda

realizarse el análisis exhaustivo, actúa como un filtro ante las posibles regiones

espúreas de pequeño tamaño que entorpecen el proceso de análisis, evitando

cálculos innecesarios en puntos aislados o agrupaciones reducidas de puntos de

naturaleza ruidosa.

Mediante esta aproximación, el análisis para el reconocimiento y

localización de los frutos se realiza en regiones muy reducidas de la imagen,

usualmente en ventanas del orden de 30 x 30 píxels en imágenes de 512 x 512, tal

como se verá en el siguiente capítulo. Ya que en la aplicación se detiene el

proceso al encontrar un primer fruto, normalmente en cada ciclo sólo se analiza

una de estas ventanas, con lo que se consiguen costes computacionales para

localizar un fruto muy reducidos sin un hardware específico.

9.4 Reconocimiento basado en características relativas a la forma

Cuando los objetos que pretendemos reconocer y localizar, en este caso los

frutos, no son distinguibles por color, se debe recurrir a métodos de

reconocimiento basados en otra serie de características visuales, tal como las

relativas a la forma del objeto. Las propiedades de textura en la imagen quedan

descartadas ya que los objetos en este caso tienen una forma definida que no se

repite la lo largo del espacio con cierta cadencia, sino que se trata de objetos

que de alguna manera se encuentran aislados en ciertos puntos o zonas de la

imagen. En cuanto a las propiedades relativas a la forma, la forma de la

superficie del objeto y de su contorno son los dos elementos fundamentales en

los que se apoya el proceso de reconocimiento en este sentido.


279

El método que aquí se describe es una aproximación global al

reconocimiento de los frutos independientemente del color, es decir, el objetivo

contemplado en este trabajo en este aspecto ha sido el desarrollo de un método

de reconocimiento sin tener en cuenta el aspecto de los procedimientos locales

apuntado en la sección 9.1.5 como estrategia de visión.

Dado que a priori no se conoce, como en el caso de reconocimiento en

color, una propiedad definida que pueda asegurar un reconocimiento por ella

misma, se va a seguir el proceso tradicional de segmentación, extracción de

características y clasificación. Para ello se debe contemplar un método de

segmentación que permita agrupar los píxels de la imagen en regiones que

posean una propiedad común relativa a la forma de los objetos, segmentación

que debe agrupar en una misma región a los puntos en la imagen pertenecientes

en este caso a un mismo fruto.

A partir de las regiones definidas en el proceso de segmentación se

evaluarán una serie de propiedades de cada región que la caractericen. Cada

región se la considera como un elemento al que va asociado un vector de

características o propiedades y a partir de las cuales un clasificador decidirá si la

región en cuestión pertenece a un fruto o no. El procedimiento de localización

espacial del fruto, una vez reconocido en la imagen, es el mismo que el

utilizado en el reconocimiento basado en color.

Para la aplicación de este método se utilizan imágenes monocromas

adquiridas mediante el apoyo de iluminación artificial por el método desarrollado

en este trabajo. El apoyo de iluminación en este método de reconocimiento es

esencial dado que el procedimiento se apoya en la extracción de características

relativas a la forma de la superficie y del contorno en imágenes monocromas, a

partir de la información del nivel de gris de los píxels, siendo de esencial

importancia la eliminación de cambios bruscos de iluminación que puedan

generar contornos no pertenecientes a los de los objetos reales, y efectos

espúreos como reflexiones especulares.

El apoyo de iluminación artificial permite, además, adoptar las

consideraciones establecidas en el capitulo 3 relativas a la forma elipsoide de la

representación en la imagen de la superficie de objetos esféricos iluminadas en


280

ciertas condiciones, siendo una manera de extraer propiedades relativas a la

forma real de la superficie de los objetos a partir de la información de la

imagen.

9.4.1 Segmentación

La transformación concavidad, descrita en el capítulo 2, es una herramienta

adecuada para realizar una segmentación en el problema que nos ocupa. Los

frutos, cuyo modelo adoptado es un objeto esférico, están representados en la

irradiancia espectral imagen, o superficie imagen, por una zona cóncava,

independientemente de la dirección del iluminante respecto al observador. Los

puntos en la imagen pertenecientes a la región que representa a la superficie del

fruto tendrán esta característica, es decir, que serán puntos cóncavos en la

superficie imagen y además estos puntos formarán una región conexa.

Para calcular la imagen segmentada se aplica un umbral a la imagen

resultado de la transformación concavidad, produciendo como resultado una serie

de regiones conexas en la imagen binaria cuyos puntos de una misma región son

a su vez cóncavos en la imagen original. Este método de segmentación tiene a

su vez la característica de que los contornos de las regiones producto de la

segmentación son, a su vez, una aproximación a los contornos reales de los

objetos en la escena, por los motivos descritos en la sección 2.3 relativos a los

puntos cruce por cero.

El umbral utilizado para la segmentación viene fijado por el analista a

partir del análisis de las imágenes muestra tomadas, y que depende de las

condiciones en que fueron tomadas las imágenes, sobre todo del tamaño relativo

de los frutos respecto de la resolución de la imagen, ya que a mayor tamaño

relativo de los frutos, el índice o grado de concavidad que asigna la

transformación a los puntos de la superficie de los frutos será mayor cuanto

mayor sea su tamaño. No obstante, este umbral varía muy poco de un tipo de

imágenes a otras ya que es independiente del nivel de iluminación en la imagen

y, en todo caso, debe ser un valor próximo a cero para que los contornos de las

regiones se aproximen a los segmentos cruce por cero que definen los contornos

reales de los objetos en la imagen.


281

9.4.2 Extracción de características

Una vez la imagen ha sido divida en regiones de interés, a cada una de estas

regiones se les extrae una serie de características relativas a la forma de los

objetos esféricos en la imagen, y que constituyen el vector de medidas o vector

de características sobre el que después se decidirá si tal región se considera

como un fruto o no.

Dado que las imágenes se adquieren con apoyo de iluminación artificial, la

irradiancia espectral imagen de la superficie de los frutos es, además de cóncava,

de forma elipsoidal, en las condiciones descritas en el capítulo de 3. Por tanto,

el método de caracterización de elipsoides, por medio de elipses en dos

direcciones ortogonales en el plano xy desarrollado en este trabajo, es una de las

herramientas para extraer propiedades relativas a la forma de la superficie de los

frutos.

En cuanto al contorno, se extraerán propiedades a partir de la forma

circular que poseen los frutos, teniendo en cuenta el carácter parcial de la

información del contorno por el hecho de que se encuentran a menudo

parcialmente ocultos. Estas propiedades se definen a partir de la posible

reconstrucción del contorno circular por el método desarrollado en el capítulo 4.

Las propiedades que se han elegido para caracterizar una región constituyen

un conjunto de siete parámetros definidos como:

- Concavidad . Se define la concavidad de una región R como el valor

máximo que la transformación concavidad, C(x,y), asignó a los puntos de la

región, es decir

Concavidad = max(x,y)∈ R

C(x,y)

- Circularidad. Una vez se ha analizado el contorno de la región en busca

de posibles tramos de contorno circular, si el resultado ha sido positivo, se

define como circularidad a la proporción del contorno circular hallado respecto

del la longitud total de la circunferencia a la cual se ajustan los tramos

circulares encontrados, es decir,


282

circularidad =

∑ i= 1

N

li

2πr

siendo li la longitud en píxels de cada uno de los i= 1,..N segmentos circulares

encontrados pertenecientes a la circunferencia de radio r, siendo r el número de

píxels del radio.

El valor de la circularidad será mayor cuanto más proporción de la

circunferencia total esté presente en el contorno de la región, por tanto en estos

casos mayor será la probabilidad de que esa región pertenezca a un fruto. Para

valores de la circularidad poco significativos, es más probable que la región no

pertenezca a un fruto.

- Radio. En el caso de que se detecten tramos circulares en el contorno de

la región, el radio se define como el radio de la circunferencia a que se ajustan

los tramos circulares encontrados del contorno. Con ello se pretende

complementar la propiedad relativa a la circularidad, ya que no se puede

considerar de la misma forma que se encuentre el 90 % de una circunferencia

de radio 4, que el 90 % de una circunferencia de radio 15, ya que, a menor

tamaño, la información relativa al contorno decrece pues decrece el número de

puntos del contorno y la medida de circularidad se convierte en menos fiable.

- Compacidad. Se define la compacidad de una región como la relación

entre el perímetro y el área de la región a través del thinness ratio, el cual se

expresa como

Compacidad = 4π A

P2

siendo A el área de la región y P la longitud de su perímetro. Esta cantidad

tiene un valor para cualquier figura menor o igual a 1, siendo éste su valor

máximo para círculos.

- Área. El área de la región se incluye en el vector de medidas con el fin

de distinguir, similarmente a como ocurre con la circularidad y el radio, entre

regiones de compacidad cercana a la unidad y que posean un área pequeña y las


283

que posean un área más significativa, ya que cualquier región de pequeño

tamaño puede tener una compacidad elevada.

- Elipticidad. El método para caracterizar elipsoides al que se aludió

anteriormente, comprueba si en un punto de la imagen es el centro de una

elipse en una de las dos direcciones, x o y, tal como se describe en el capítulo

3. Del error del ajuste se decide si el punto en cuestión es el centro de una

elipse o no. Se denomina elipticidad al número de puntos sobre la región R que

se ajustan a una elipse en una de las dos direcciones establecidas, es decir, si un

punto se ajusta en dos de las direcciones, este punto se cuenta dos veces, por

tanto

elipticidad = ∑ (x,y)∈ R

Tx(x,y) + ∑ (x,y)∈ R

Ty(x,y)

siendo Tx(x,y) = 1 si el punto (x,y) se ajusta al centro de una elipse en la

dirección x, o igual a cero en caso contrario, y de forma análoga para Ty(x,y) = 1

en la dirección y.

En el método de ajuste se puede utilizar bien la variante de máscara fija o

bien la de máscara variable, descritas en el apartado 3.3, ya que en este caso la

región definida es producto de la segmentación por concavidades, tal como

precisa el método de la máscara variable.

- Indicador Rxy. Este indicador es una variable lógica que complementa la

propiedad definida como elipticidad para caracterizar una región de la imagen

como superficie que se ajuste realmente a un elipsoide. El indicador Rxy es igual

a 1 si hubo puntos en la región R que se ajustaron a elipses en las dos

direcciones, x e y , es decir, si

∑ (x,y)∈ R

Tx(x,y) > 0 y ∑ (x,y)∈ R

Ty(x,y) > 0

en caso contrario Rxy = 0. Esto significa que si dos puntos de la región R,

aunque sean distintos, se ajustan a elipses en direcciones diferentes, Rxy valdrá la


284

unidad. Con esto se pretende caracterizar que si una región contiene puntos que

se ajusten a elipses en las dos direcciones establecidas, la región en cuestión

tiene una gran probabilidad de representar a un elipsoide en la imagen, y por lo

tanto a un fruto.

Con este conjunto de propiedades se pretende caracterizar la forma de una

región orientada al reconocimiento de objetos esféricos, a los que la forma de

los frutos pueden tomar como modelo.

9.4.3 Clasificación

El proceso de clasificación de una región de la imagen segmentada decide si esa

región pertenece a una de las dos clases establecidas, la clase fruto o la clase

fondo . El clasificador debe decidir en acuerdo a las medidas sobre el conjunto

de propiedades o vector de medidas definidas en la sección anterior para cada

región.

En principio la naturaleza de las propiedades definidas son bastante

diferentes entre si. Así, por ejemplo, se tienen características de tipo entero

como la concavidad , la elipticidad, el radio o el área; o de tipo real como la

circularidad o la compacidad ; y también de tipo lógico como el indicador Rxy.

Además, puede existir cierta relación entre la circularidad y el radio, o entre la

compacidad y el área, pero aparentemente no tienen ninguna relación estructural

la elipticidad y la circularidad o la concavidad y el indicador Rxy por poner

algunos ejemplos.

Ante esta situación, una decisión basada en árboles binarios de clasificación

es una solución adecuada a este problema, dadas las propiedades de los árboles

de clasificación, los cuales fueron tratados en el capítulo 7. El árbol de

clasificación resultado del proceso de aprendizaje nos puede dar a la vez

información sobre la estructura del problema en base al conjunto de propiedades

que componen el vector de medidas. El árbol de clasificación se construirá a

partir del método del mínimo error desarrollado en este trabajo y descrito en el

capítulo 7.


285

A aquellas regiones que el árbol de clasificación atribuya a la clase fruto,

se considera que tal región pertenece a la imagen de un fruto. En tal caso el

fruto queda reconocido y se pasa a localizar espacialmente a partir de la

situación de la región en la imagen.

9.4.4 Localización espacial

Al igual que en el proceso de reconocimiento basado en el color, la localización

en este caso se realiza de la misma forma, a partir del punto asignado a cada

región como centro geométrico, en el caso de que se le reconozca un contorno

parcial o totalmente circular, y en caso contrario el centroide de la región

definido por el centro del rectángulo que inscribe la región.

De forma análoga, la situación del fruto se puede calcular a partir de la

determinación de sus tres coordenadas en el espacio por el método

estereoscópico, o el cálculo de la dirección en la que se encuentra el fruto

mediante una sola cámara y que fue descrito en la sección 9.3.5. En el caso de

la utilización del método estereoscópico, las imágenes binarias que se utilizan

son producto de sendas segmentaciones por el método de la transformación

concavidad, siguiendo el procedimiento desarrollado.

En un principio, el método aquí descrito basado en propiedades relativas a

la forma, sólo se aplica de manera global a la imagen, con el único objetivo de

desarrollar y verificar un método de reconocimiento de los frutos en situaciones

donde el color no es una característica determinante. Respecto a los conceptos

de estrategia de visión descritos al principio de este capítulo, todos ellos podrían

ser aplicables utilizando este método de reconocimiento, aunque en esta primera

etapa del desarrollo del método no se haya trabajado en la forma de integrarlo

dentro de la estrategia de visión de cara a la aplicación real.

Establecida la metodología con la que se ha abordado el problema de un

sistema de visión para la recolección robotizada de frutos, a partir de los

estudios de análisis de imagen realizados dentro de los objetivos propuestos, los

resultados de las experiencias realizadas en la verificación de ambos métodos en

escenas reales de frutos en su medio natural, se describen en el siguiente

capítulo.


286

Capítulo 10

RESULTADOS Y DISCUSIÓN

A lo largo de la primera parte de este trabajo se discutieron

específicamente cada una de las técnicas y métodos desarrollados para su

utilización en el sistema de visión del robot recolector. Asimismo, a la vez que

se expusieron, se comprobó y verificó cada método independientemente en el

laboratorio con imágenes de escenas naturales y artificiales, tanto en eficacia

como en tiempo de proceso, para su posterior incorporación a los métodos

desarrollados para el sistema de visión en el capítulo anterior. En concreto estas

técnicas fueron: la adquisición de imágenes con apoyo de flash, la transformación

concavidad, la caracterización de objetos esféricos mediante el ajuste de

elipsoides, el reconocimiento de contornos parcialmente circulares, la

segmentación color de escenas en ambientes naturales, el sistema de

estereoscopia para calcular las posición de un objeto en tres dimensiones y el

aprendizaje de árboles binarios de clasificación.

En este capítulo se describen los resultados de las experiencias realizadas

para la comprobación de los métodos de reconocimiento y localización en

imágenes de frutos correspondientes a escenas de su ambiente natural, tal como

aparecen durante el periodo de recolección.

Los ensayos se realizaron sobre imágenes tomadas en el campo tal como se

haría si el sistema estuviera integrado en el conjunto del robot. Las imágenes

muestra se almacenaban y se analizaban en el laboratorio para realizar todas las

comprobaciones oportunas. Por lo tanto, los métodos comprobados aquí sobre

este tipo de imágenes, son los referentes a la parte de reconocimiento y

localización del fruto en la imagen, sin calcular su situación espacial respecto a

la cámara.

En las imágenes tratadas en laboratorio se omitió también la parte del

procedimiento relativa a la estrategia de visión, es decir, las estrategias de

barrido por la imagen basadas en la alternancia y la gestión de fallos, aunque si

se trató el problema de los racimos desde el punto de vista de poder reconocer

cada fruto por separado del racimo, y una simulación de la alternancia para

realizar mediadas relacionadas con el coste computacional. El método de la

alternancia y la gestión de fallos fueron utilizados durante los ensayos con el

prototipo de robot y que se describirán más adelante.

El motivo de suprimir la partes del sistema anteriormente mencionadas,

obedece al hecho de que en imágenes previamente almacenadas y tratadas en el

laboratorio no existe la dinámica a que se hizo referencia en el capítulo anterior,

ya que cada vez que se dectecta un fruto, éste no se suprime y se vuelve a

tomar otra imagen de la escena. Por tanto, las imágenes se trataron aplicando

los métodos de reconocimiento y localización detectando todos los frutos de la

escena, sin perder por ello generalidad en el tratamiento que se realizaría

durante una sesión de recolección real, que simplemente se detendría el proceso

al encontrar el primer fruto.

Tanto los ensayos con el prototipo de robot como en las imágenes tomadas

para su análisis en el laboratorio, fueron realizados en una plantación de

naranjas de la variedad salustiana, específicamente acondicionada por medio de

técnicas agronómicas de marcos de plantación y poda adaptadas al problema de

la recolección robotizada. Por medio de estas técnicas se pretende conseguir una

configuración en el árbol que permita la fructificación lo más exterior posible

para que el mayor porcentaje de frutos puedan ser visibles desde el exterior

(Castillo, 1992). En plantaciones tradicionales sólo entre el 50 y el 60 % de los

frutos son visibles desde el exterior. En la plantación experimental citada

anteriormente se han conseguido niveles de visibilidad del 70 %. Esta plantación

tiene como características principales que los árboles se distribuyen en forma de

barreras con una poda de tipo seto, la cual consigue que la superficie exterior

del árbol, en la cual se sitúan los frutos, sea plana.

Para comprobar el grado de buen funcionamiento de los algoritmos, se han

establecido una serie de indicadores en términos relativos a la naturaleza de la


288

aplicación, que serán descritos en la próxima sección. Los resultados de los

ensayos realizados sobre el prototipo real se exponen en la sección 10.2, en los

que se centrará más la atención en los aspectos derivados de la estrategia de

visión y el cálculo de las coordenadas espaciales. La comprobación del método

de reconocimiento basado en color se discute en la sección 10.3, a partir de los

resultados obtenidos principalmente en ensayos sobre naranjas en plena madurez

y dos variedades de manzanas de distinto color. El método de reconocimiento de

frutos basado en propiedades relativas a la forma esférica de los frutos se aplicó

sobre naranjas en sus primeros estadios de madurez (sección 10.4).

10.1 índices de control

El objetivo de un sistema de visión en un robot recolector es reconocer y

localizar la mayor cantidad de frutos posibles presentes en la escena. Ante este

punto de vista es necesario definir ciertos parámetros que nos indiquen la

efectividad de los procedimientos y nos permitan una interpretación de acuerdo a

los resultados que se obtengan.

En primer lugar hay que tratar el punto referente a los frutos presentes en

la escena. Se consideran como frutos presentes en la escena a aquellos que son

visibles por un observador estático desde el punto donde se sitúa la cámara para

contemplar la escena. La cámara capta imágenes que son reproducidas en un

monitor, siendo lo que se observa a través del monitor la escena a que se está

haciendo referencia. Un fruto visible en la escena es aquél que una persona

puede reconocer y distinguir observando el monitor, cuya imagen es producto de

una observación estática desde el punto donde está situada la cámara respecto a

la escena.

Cuando el sistema de visión detecta un objeto en la imagen al que

considera un fruto, si este objeto es realmente un fruto se le considera un

acierto. En caso contrario, cuando el sistema de visión detecta un objeto en la

imagen al que considera como fruto pero en realidad no lo es, se considera que

se ha producido un fallo.

Resultados y discusión

289

Un caso particular en la asignación aciertos se da cuando el sistema de

visión no ha conseguido discernir entre dos o más frutos agrupados,

considerándolos como un solo fruto. En este caso, si el algoritmo señala a estos

frutos como un solo fruto, se considera un acierto, así como un único fruto en

el número de frutos visibles. Ello se considera así puesto que durante una sesión

de recolección, al realizar el robot el movimiento de recogida, se atrapará uno

de estos frutos, y en la imagen siguiente aparecerán de nuevo los que estaban a

su lado, pudiéndolos detectar de nuevo en la siguiente toma.

El índice de aciertos del sistema de visión se expresa como el número de

aciertos conseguido respecto al número total de frutos visibles que existían en las

escenas analizadas. Este índice se expresa en tanto por cien, por tanto, podemos

expresar

aciertos = num . aciertos

num . frutos visibles 100

Este índice expresa la cantidad de frutos que realmente ha detectado el

sistema de visión respecto a los frutos que estaban presentes en las escenas.

El índice de fallos del sistema de visión se expresa como el número de

fallos producidos respecto a la suma de aciertos y fallos del sistema de visión, es

decir, respecto al número total de objetos detectados, sean frutos o no. Este

índice también se expresa en tanto por cien de la forma

fallos = num . fallos

num . fallos + num . aciertos 100

Este índice nos indica la fiabilidad del sistema de visión, es decir, la

proporción de veces que el sistema se equivoca respecto al número decisiones

adoptadas. Este indicador es importante a la hora de considerar la aplicación

real sobre el robot, puesto que cuanto mayor es la cantidad de fallos del sistema

de visión, menor es el rendimiento del robot, ya que el robot realiza un

movimiento de recogida innecesario intentando alcanzar un fruto inexistente, con

la consiguiente perdida de tiempo y productividad de un posible prototipo


290

comercial. En la literatura existen menciones al problema de los errores que

comete el sistema de visión (Rabatel, 1988; Levi et al, 1988; ), pero ninguno de

ellos evalúa de alguna forma cuantitativa este problema. Sólo Sites & Delwiche

(1988) citan como indicador de error del sistema de visión el error del

clasificador utilizado para determinar si una región en la imagen era un fruto o

no.

Por otra parte, para evaluar la capacidad del sistema para determinar el

centro real del fruto, se calcula la proporción de frutos detectados de los cuales

se obtuvo su centro geométrico por reconstrucción de su contorno parcialmente

circular, así el índice centro real se define como el porcentaje

centro real = num . centros reales

num . aciertos 100

Slaughter (1987) utilizó un indicador en este sentido pero con

connotaciones diferentes para evaluar el error en tanto por cien de que los

diámetros horizontal y vertical del fruto, definidos a partir del centroide

calculado, se desviaran del diámetro real del fruto. En el caso que aquí nos

ocupa, el indicador utilizado ofrece una mayor claridad en la interpretación ya

que simplemente proporciona la proporción de frutos detectados de los cuales se

conoce el centro real del fruto.

Otro parámetro a evaluar fue el separador, el cual indica la proporción de

racimos o agrupaciones de frutos que fueron desglosados en cada uno de sus

componentes respecto al número total de agrupaciones que se detectaron por el

sistema de visión, tanto si se desglosaron como si no, es decir

separador = num . agrupaciones desglosadasnum . agrupaciones detectadas

100

Este indicador nos dará la medida de la fiabilidad del procedimiento de

identificación de los frutos de un racimo mediante la combinación de la

aplicación de la transformación concavidad y de la reconstrucción de contornos

circulares.


291

El último dato a calcular es el coste computacional medio que se invierte

en reconocer y localizar el primer fruto mediante los algoritmos desarrollados de

estrategia de visión en alternancia y procedimientos locales. Este dato es

importante de cara a la aplicación en tiempo real.

10.2 Ensayos del sistema de visión integrado en el robot

Durante Marzo de 1991 se realizaron ensayos de recolección de naranjas con el

prototipo español en la plantación experimental citada al principio de este

capítulo, con naranjas en pleno estado de madurez. En el prototipo se integró el

sistema de visión disponible en aquellos momentos, el cual tenía las siguientes

características:

- Como sistema de adquisición de imágenes se utilizó el descrito en

capítulo 1 utilizando apoyo de iluminación artificial mediante un flash fotográfico

y una cámara monocroma.

- En la estrategia de visión se incorporaron las técnicas de alternancia en

la búsqueda de los frutos, la gestión de fallos y el solapamiento de escenas.

- Como método de reconocimiento de los frutos se utilizó un algoritmo

desarrollado en los primero trabajos, el cual consiste en la adquisición de una

imagen monocroma mediante un filtro interferométrico centrado en los 650 nm ,

elegido tras estudios de espectrofotometría realizados dentro de este proyecto, y

cuyo efecto consiste en realzar el contraste entre los frutos y el resto de la

imagen. Mediante la aplicación de un umbral se consigue una imagen binaria en

tiempo real aprovechando las características de la tarjeta de adquisición. En la

imagen binaria se consideraban frutos a aquellas regiones que superan cierta

área mínima establecida a priori para evitar el efecto ruidoso de la aparición de

puntos aislados y regiones de pequeño tamaño. Como centro del fruto se asigna

el centro del cuadrado que inscribe a la región detectada.

- Para su instalación en el robot, el sistema de visión formaba un módulo

del programa de control general del robot, el cual gestionaba el funcionamiento

de la visión de acuerdo a la planificación de tareas del sistema. El sistema de

visión consistía en una única cámara que se instaló en el centro de coordenadas


292

del robot (figura 10.1), condición indispensable para poder utilizar este método.

Una vez calculada la dirección en que se encuentra el fruto, el brazo se lanza

en la dirección indicada para atrapar el fruto detectado. Un sensor de infrarrojos

situado en el extremo del brazo indicaba cuando se llegaba a una distancia

cercana al fruto, alrededor de los 15 cm .

El método de reconocimiento utilizado en el sistema de visión del robot se

verificó y fiabilizó en el laboratorio sobre imágenes adquiridas con el mismo

método con anterioridad a los ensayos con el prototipo. Con el fin de poder

comparar los resultados obtenidos de este método respecto de los métodos de

reconocimiento que después se analizarán, estos resultados (Tabla 10.1) fueron

de un 77 % de frutos detectados respecto a los frutos visibles, y de un 15 % de

fallos del sistema de visión respecto al número total de aciertos y fallos. Estos

datos se extrajeron del análisis de 20 imágenes de frutos de las diferentes partes

posibles del árbol (superior, central e inferior).

Figura 10.1. Sistema de visión instalado en el brazo del prototipo.


293

Aunque estos resultados no fueron demasiado satisfactorios, se prefirió

instalar este sistema de visión para estos ensayos, por que estaba comprobado y

verificado su funcionamiento en todo sus aspectos, estrategia, reconocimiento y

localización; con el fin de evitar problemas, ya que no sólo era la visión lo que

se tenía que ensayar, sino que ésta debía funcionar adecuadamente para

comprobar otros aspectos del prototipo.

Durante los ensayos, el robot barrió la superficie de los árboles de la

manera indicada al principio del capítulo anterior, con un grado de solapamiento

entre escenas de 2/3. Durante el proceso de recolección, en tiempo real, los

únicos datos que se pueden tomar son el número de intentos que realiza el

robot para atrapar un fruto, que coincide por el número de objetos detectados

Frutos visibles Aciertos Fallos

Num. de frutos 252 195 35

Índice (%) - 77,4 15,2

Tabla 10.1. Resultados del algoritmo de reconocimiento basado en la utilización de un filtrointerferométrico de 650 nm .

Fallos

Intentos Frutosrecogidos

Visión Alcance Obstáculos Centrodesplazado

Fallomecánico

Número 1212 435 225 291 174 27 60

%respecto

a intentos

- 35,89 18,56 24,00 14,36 2,23 4,95

%respectoa total

de fallos

- - 28,96 37,45 22,39 3,47 7,72

Tabla 10.2. Resultado de los ensayos con el prototipo.


294

por el sistema de visión, los frutos recogidos y el número de fallos que se

generan de los intentos realizados, así como la naturaleza de estos fallos.

En la Tabla 10.2 se muestran los resultados obtenidos durante los ensayos

realizados. En ella podemos observar que la tasa de recolección o frutos

recogidos fueron tan solo un 35,89 % de los intentos que realizó el robot, el

resto fueron fallos debidos a varios motivos, tanto de tipo mecánico (brazo,

mano, aspiración, etc), como del sistema de visión.

En primer lugar el sistema de visión tuvo un porcentaje de fallos del

18,56 %, es decir, de cada 100 objetos detectados, alrededor de 18 % no fueron

realmente frutos. Este porcentaje es demasiado alto para una aplicación de este

tipo, lo que puso de manifiesto las deficiencias del método de reconocimiento

utilizado y que era necesario mejorar.

Se comprobó que los fallos debidos al sistema de visión, 18 %, fueron

similares a los obtenidos en los ensayos del métodos realizados en el laboratorio,

un 15 %, lo que indica que el tanto el número de imágenes utilizadas como los

criterios para su elección son representativos del comportamiento posterior

durante una sesión real de recolección.

Aunque estos ensayos no revelan ningún dato acerca de los procesos de

reconocimiento basados en color y en características relativas a la forma, si se

podrán extraer conclusiones de ciertos aspectos relacionados con la estrategia de

visión y la gestión y naturaleza de los fallos, así como datos relativos al sistema

de reconocimiento utilizado para su comparación con los métodos propuestos en

este trabajo cuyos resultados serán analizados en secciones posteriores.

Por otra parte, se produjeron una serie de fallos que incluso fueron más

cuantiosos que los producidos por error del sistema de visión. En particular los

fallos debidos a que los frutos detectados estaban fuera del alcance del robot,

fueron de un 24 % de los intentos realizados. Este dato pone de manifiesto la

importancia de conocer a priori la distancia que existe al fruto que se detecta,

dado que si el sistema sabe que el fruto queda fuera del alcance del robot, no

se inicia el intento de atrapar el fruto, buscando un nuevo fruto que sí se pueda

atrapar, de esta forma el robot no realiza movimientos innecesarios que provocan

una pérdida de tiempo con el consiguiente descenso del rendimiento y la tasa de


295

recolección del robot. Este problema se intenta resolver con la utilización del

sistema estereoscópico desarrollado, para calcular las tres coordenadas espaciales

del fruto, y por tanto la distancia a que se encuentra el fruto detectado, no

como en el procedimiento utilizado durante estos ensayos con una sola cámara y

un sensor de infrarrojos.

Otro tipo de fallos de importancia fueron los debidos a la presencia de

obstáculos que impidieron atrapar el fruto, los cuales fueron de un 14,36 % de

los intentos realizados. Todos estos fallos fueron debidos principalmente a la

presencia de ramas delante del fruto que al acercarse el brazo del robot

tropezaba con ellas y éstas a su vez desplazaban el fruto de su posición inicial,

por lo que la mano no encontraba el fruto al llegar a la posición inicial que

tenía el fruto.

El otro factor que produjo esta serie de fallos fue debido a que el sistema

de aspiración, que posee la mano para sujetar el fruto, se obstruía con las hojas

que normalmente se encuentran alrededor del fruto. La solución de este

problema puede venir por medio de la detección de hojas delante de los frutos,

o más convenientemente, modificando de una manera más efectiva el sistema de

la mano para sujetar el fruto.

La detección de obstáculos es un problema que queda fuera del alcance de

este trabajo, no obstante esta cuestión no sólo se soluciona detectando si existe

un hoja o rama en la trayectoria que conduce al fruto, sino también existe el

problema de como valorar hasta que punto el obstáculo detectado influirá en el

éxito o fracaso del intento de atrapar el fruto, ya que se ha observado que es

muy frecuente que aunque existen frutos con hojas o ramas que puedan

obstaculizarlo, estos frutos se han podido atrapar sin tener en cuenta los posibles

obstáculos. Este problema de la detección de obstáculos esta siendo abordado

por otros participantes dentro del proyecto.

Otro de los motivos por los que se cometieron fallos fue cuando el brazo

se dirigía a un punto que quedaba notablemente desplazado del centro del fruto

y en cuyo caso la mano no conseguía situarlo correctamente en su sistema de

agarre. Aunque estos fallos debido a su cuantía, un 2,23 %, suponen un

problema mucho menor que por ejemplo el producido por los fallos de alcance,


296

es un problema que se puede evitar y cuya solución ha sido tratada en este

trabajo mediante el método de reconocimiento de contornos circulares.

El desplazamiento en la indicación del centro del fruto fue debida

principalmente a dos factores. En primer lugar, la confusión que realiza el

sistema de visión, con el método de reconocimiento empleado, cuando dos o

más frutos se encuentran juntos, en cuyo caso los reconoce como un mismo

fruto, al calcular el centroide de la región que representan en la imagen, este

punto tiene gran probabilidad de caer entre dos frutos o incluso fuera de la

superficie de algún fruto. En segundo lugar, en algunos frutos que se

encontraban parcialmente ocultos, el centroide calculado dirigiría al brazo hacia

un punto demasiado alejado del centro del fruto. Estos problemas se resuelven

utilizando las técnicas de identificación de cada fruto dentro de un racimo o

grupo de frutos, y por medio del cálculo del centro geométrico del fruto a partir

de la reconstrucción de su contorno circular, las cuales se discutirán, respecto a

resultados obtenidos, en las secciones posteriores.

Un último grupo de fallos, un 4,95 %, fueron debidos a fallos mecánicos

del robot cuando intentaba atrapar el fruto. Este grupo de fallos no atañe

directamente al sistema de visión, por tanto es motivo de análisis para otras

tareas dentro de las partes que integran y hacen posible el funcionamiento del

robot.

En cuanto a los aspectos relativos a la estrategia de visión, los resultados

fueron muy satisfactorios, comportándose muy bien la alternancia y la gestión de

fallos. La alternancia permitía realizar intentos de recolección cada vez en

lugares separados en la escena, con lo que se consiguió no cometer ningún fallo

durante los ensayos por causa de un movimiento pendular del fruto cuando se

intentaba atraparlo, ya que la alternancia permite la estabilización en el

movimiento de los frutos restantes de una zona en la que se realizó un intento

antes de volver a dirigir el brazo a esa zona para atrapar otro fruto.

Con respecto a la gestión de fallos, aunque no existe ningún indicador de

su funcionamiento, se observó su buen comportamiento, tratando los fallos

indistintamente de su naturaleza. La gestión de fallos permitió analizar todas las

escenas completamente sin que se produjeran bloqueos en el sistema de gestión,


297

pudiendo resolver cada una de las situaciones previstas por el algoritmo descrito

en la sección 9.1.3.

10.3 Método de reconocimiento por color

Los ensayos para comprobar el método de detección por reconocimiento basado

en color se realizaron sobre naranjas maduras de la variedad salustiana de la

plantación experimental a que se aludió al principio de este capítulo, tanto en

condiciones de iluminación natural como en imágenes adquiridas con el apoyo de

iluminación artificial.

Para comprobar las posibles extensiones del método para su utilización

sobre otro tipo de frutos, se han realizado unos ensayos sobre manzanas de dos

variedades, la Granny-Smith y la Gala , las cuales poseen un color diferente entre

si y a la vez diferente a las naranjas.

Las imágenes obtenidas con iluminación natural, fueron adquiridas en

condiciones análogas a las que se obtienen durante el periodo de recolección

con el robot. Los restantes bancos de imágenes se obtuvieron durante ensayos de

recolección con el robot y que fueron almacenadas para su posterior análisis. En

todo caso, las imágenes se analizaban completamente, reconociendo y detectando

todos los frutos posibles, por los motivos mencionados al comienzo de este

capítulo. Paralelamente al proceso de reconocimiento completo de la imagen, se

simulaba la aplicación en tiempo real de recogida de los frutos, tachando en la

imagen los frutos detectados, para comprobar el coste computacional en

encontrar un primer fruto en la imagen utilizando la estrategia de la alternancia

en la búsqueda y los procedimientos locales relativos al sondeo de puntos y

delimitación de regiones en la imagen susceptibles de encontrar un fruto.

10.3.1 Naranjas con iluminación natural

Las imágenes de este grupo fueron adquiridas con la cámara color y

almacenadas en formato RGB. Aunque la tarjeta de digitalización y adquisición

color capta imágenes de 512 x 512 de resolución con 256 niveles en cada banda,


298

las imágenes se reducieron a 256 x 256, ya que se consideró como suficiente para

el problema tratar la información contenida en las imágenes reducidas.

Se utilizó un objetivo de 8 mm de focal, con apertura de diafragma manual,

que se ajustaba al comienzo de la toma de imágenes y quedaba en la misma

posición para todas las imágenes adquiridas. La distancia al plano promedio de

la escena fue de alrededor de 1,5 m .

Se recogieron escenas de 4 árboles de la plantación elegidos al azar. Esta

cantidad se considera representativa de toda la plantación ya que es evidente

que el mismo tipo de escenas se repiten de un árbol a otro en similares

condiciones.

Las escenas tomadas de cada árbol se tomaron de forma que representaran

el conjunto de diversas situaciones posibles que se pueden dar en un árbol,

tanto en condiciones de configuración de la escena, como del tipo de

iluminación de la misma. Concretamente se tomaron imágenes de todas las zonas

del árbol, superiores, en las que comúnmente aparece el cielo en la imagen,

centrales, en las que sólo aparecen naranjas y masa foliar, laterales, en cuyas

escenas podían surgir zonas de cielo o panorámicas generales de árboles situados

por detrás, e inferiores, en las cuales pueden surgir zonas de suelo o malas

hierbas. Asimismo, en cuanto a las condiciones de iluminación, se tomaron

escenas con luces y sombras, a contraluz y con sol situado detrás de la cámara.

En este caso, las imágenes fueron tomadas en un día claro, con presencia de

algunas nubes y luciendo el sol a media mañana.

De un total de 27 imágenes, 4 de ellas se escogieron al azar, las cuales se

utilizaron para tomar muestras con el fin de realizar el aprendizaje de los

parámetros de color utilizados en el proceso de segmentación en el algoritmo de

búsqueda y reconocimiento descrito en el apartado 9.3. Las restantes 23

imágenes se utilizaron para comprobar el funcionamiento del procedimiento.

El número de imágenes tomadas se considera como suficientemente

representativo ya que incluyen cada una de los posibles tipos de escenas

anteriormente citado y con cierto grado de repetición, puesto que en cada árbol

se repiten condiciones similares, además, tal como se comprobó durante los

ensayos con el prototipo, con este número de imágenes, los datos que se


299

obtienen en el laboratorio son representativos de lo que ocurre durante la

recolección.

Este conjunto de imágenes para realizar los ensayos de comprobación es

además superior al utilizado por otros autores. Concretamente en naranjas,

Slaughter (1987) utilizó 13 imágenes que abarcaban todos los posibles tipos de

escenas que trató. Por otra parte, Whittaker et al (1987) dispuso de un conjunto

de 20 imágenes de tomates. Sites (1988) utilizó un conjunto de 16 imágenes de

melocotones adquiridas durante la noche; en pruebas realizadas durante el día

utilizó 4 imágenes, y trabajando sobre manzanas durante la noche utilizó 6

imágenes. Otros autores no señalan en la literatura disponible el número de

imágenes con que se trabajó o el criterio con que se eligieron tal conjunto.

Las muestras para el proceso de aprendizaje se obtuvieron, tal como se

indicó en el apartado 5.4, etiquetando regiones de una imagen manualmente y

asignándoles la clase naranja, hoja o cielo. A los píxels que componían cada

región etiquetada se les calculaba sus correspondientes coordenadas ϕ y θ a

partir de sus valores (r,g,b), y posteriormente el ángulo α del punto de

coordenadas (ϕ,θ) respecto del punto (ϕ0,θ0) correspondiente al color del

iluminante calculado previamente.

La coordenadas del color del iluminante en el diagrama ϕθ se obtuvieron

según el proceso de calibrado descrito en el apartado 5.4, tomando la imagen de

un objeto cilíndrico metálico de superficie pulida, segmentando manualmente la

región especular de la superficie del objeto y calculando el valor promedio de

las coordenadas r, g y b de los puntos de tal región. Al valor de obtenido de

coordenadas (r0,g0,b0), se le calculó posteriormente sus correspondientes

coordenadas (ϕ0,θ0) buscadas. El valor de las coordenadas obtenidas para la luz

solar con la cámara y la tarjeta de adquisición utilizadas fue de (45°,55°), valor

que corresponde a la dirección en el cubo RGB correspondiente a la recta

donde están representada la escala de grises acromática, es decir, el color

blanco.

Con un conjunto de 19164 muestras extraídas de las 4 imágenes citadas

(figura 10.2), se realizó el proceso de aprendizaje para calcular los umbrales


300

izquierdo y derecho, α1 y α2, de cada clase establecida. Los umbrales

encontrados fueron para la clase fruto

fruto = α; 90° < α ≤ 123°

donde recordemos que α se define como

α = arctan

θ − θ0

ϕ − ϕ0

Obviamente, durante el algoritmo de reconocimiento, únicamente se utilizan

los parámetros relativos a la clase fruto para segmentar las imágenes, con el fin

de disminuir el coste computacional, ya que en la aplicación sólo se pretende

encontrar los frutos.

De forma análoga y a partir del mismo conjunto de muestras, se obtuvieron

el valor de los parámetros utilizados para el proceso de sondeo o test de los

píxels descrito en la sección 9.3.6. Para ello se utilizarón los valores de los píxels

Figura 10.2. Muestras en el espacio ϕθ representando alconjunto de aprendizaje utilizado. Los puntos de la clase 1

son las naranjas, los de la clase 2 las hojas, y la clase 3representa al cielo.


301

pertenecientes a las bandas R y G, por ser el plano RG de entre los planos

coordenados donde existe un menor solapamiento entre la clase fruto y las

demás clases de colores establecidas en este problema. Los ángulos, α1 y α2, en

el plano RG de las rectas umbrales encontradas entre las cuales se sitúan los

puntos de la clase frutos fueron α1 = 0° y α2 = 44°, es decir

fruto = α; 0° < α ≤ 44°

donde aquí α se define como

α = arctan (g ⁄ r)

siendo (r,g) los valores del píxel en las bandas R y G. Este parámetro sólo se

utiliza cuando se aplica la parte del barrido de la imagen utilizando métodos

locales incluidos en la estrategia de visión referente a la alternancia, la cual se

utilizará para calcular el tiempo medio que tarda el algoritmo en encontrar un

primer fruto en la imagen.

La transformación concavidad no se utilizó en este caso porque la

variabilidad de la iluminación provoca discontinuidades que la transformación

concavidad detecta y que no se corresponden a contornos reales de los frutos u

otros objetos. Para poder identificar naranjas por separado en un grupo o racimo

sólo se utilizo la información relativa al contorno, la cual, si conseguía identificar

más de una circunferencia en una misma región, se considera como que estaba

compuesta por varios frutos.

El análisis de los contornos de cada región para averiguar el centro

geométrico del fruto a partir de la reconstrucción de su contorno circular, se

implementó de la forma descrita y utilizada en los experimentos del capítulo 4.

Sólo se consideraron los contornos circulares que cumplieron las siguientes

condiciones:

- Que tuvieran un radio mínimo de 5 píxels.

- Que la proporción de contorno circular mínima a partir del cual se hizo

la reconstrucción fuera del 20 %.


302

En caso de no encontrar una circunferencia que se pueda ajustar al

contorno de la región dentro de las restricciones indicadas, se calcula como

centroide de la región el centro del rectángulo mínimo que inscribe la región.

Las restricciones anteriores se consideraron porque la mayor parte de las

circunferencias de pequeño tamaño corresponden a pequeñas regiones en la

imagen a frutos que exhiben una porción muy reducida de su superficie, por

tanto, como para regiones pequeñas muy compactas, el número de píxels del

contorno es reducido, inducen a errores en la reconstrucción de la circunferencia

real que envuelve al fruto por falta de información. Este mismo criterio de falta

de información queda plasmado en la segunda exigencia que pretende desestimar

contornos reconocidos como circulares reconstruidos a partir de una pequeña

porción de la circunferencia total y que puede conducir a errores.

Las conclusiones que condujeron a las restricciones anteriores se obtuvieron

a partir del análisis de imágenes diferentes del grupo utilizado para los ensayos

que aquí se describen, y que fueron utilizadas durante las pruebas y

experimentos mientras se desarrolló el método aquí descrito. Los limites fijados

para estas restricciones se tomaron después de la observación del

comportamiento de estos parámetros al aplicar el método a las imágenes

muestra.

Asimismo, tanto el área mínima como el perímetro mínimo fijados para el

algoritmo con el fin de evitar puntos aislados y pequeñas regiones espúreas, se

obtuvieron después de observar el comportamiento de estos parámetros en el

conjunto de imágenes muestras utilizado.

Fijados los parámetros necesarios para el funcionamiento del método de

reconocimiento y localización basado en color, se aplicó el procedimiento a las

restantes 23 imágenes de forma global, es decir, intentando detectar todos los

frutos posibles de la imagen, sin tener en cuenta la dinámica del procedimiento

durante la aplicación de forma real. Con los datos recopilados de todo este

conjunto de imágenes se calcularon los índices descritos en la sección 10.1 y

cuyos resultados se muestran en la Tabla 10.3. En esta tabla podemos observar

que el índice de aciertos fue del 96,3 %, porcentaje muy satisfactorio por encima

de los conseguidos por otros autores mencionados en la literatura sobre naranjas


303

(70 % por Levi et al (1988)), y especialmente sobre el sistema implementado en

los primeros ensayos del prototipo (un 77 %). Asimismo, este porcentaje de

aciertos es superior al obtenido sobre otros frutos por otros autores, como por

ejemplo en manzanas el 90 % durante escenas nocturnas por Sites & Delwiche

(1988), o este mismo autor sobre melocotones en escenas nocturnas, un 90%, y

en escenas diurnas, un 84 %. Es necesario recordar que este porcentaje de

aciertos ha sido obtenido sobre escenas diurnas con iluminación natural

totalmente incontrolada, lo que supone un verdadero avance en la detección de

naranjas en recolección robotizada.

El 3,7 % de naranjas visibles que el algoritmo no pudo detectar fueron

claramente frutos que exhibían una parte realmente pequeña de su superficie,

que quedaban eliminadas por el filtro relativo al área mínima de una región

para considerarla como fruto.

La nivel de fallos fue de un 5,2 %, porcentaje bastante reducido y por

debajo los límites aceptados (un 7 %) para su aplicación en el prototipo real.

Hay que hacer notar que los fallos o falsas detecciones producidas fueron

debidas a la presencia de objetos en la imagen que a veces presentan zonas de

color similar al de los frutos, como es el caso de algunas imágenes en las que

aparecía el suelo del terreno que a veces presentaba un color rojizo. En

ocasiones muy aisladas, los fallos fueron debidos a una especie de aberración

cromática de la cámara en los bordes de algunos objetos, como troncos o ramas

de considerable diámetro, o en bordes de hojas junto con zonas muy iluminadas

de cielo. En todo caso, estos errores no suponen ningún problema serio para la

aplicación en la proporción que se producen.

Visibles Detectados Fallos Centro real Racimos Separador

Num. defrutos

323 311 17 122 29 19

Índice (%) - 96,3 5,2 39,2 - 65,5

Tabla 10.3. Resultados de la aplicación del método de reconocimiento basado en color, sobrenaranjas, en condiciones de iluminación natural.


304

Es importante señalar que virtualmente ningún no se produjo error por

causa de la presencia de brillos especulares o debidos a la variabilidad espacial

de la luz, o incluso sobre la superficie de un mismo fruto, en las que aparecían

zonas de sombra y de luz que incidía directamente. Esto es debido al buen

funcionamiento del proceso de segmentación, cuyas particularidades fueron

abordadas en el capítulo 5.

Del total de frutos reconocidos, se pudo localizar su centro geométrico, a

partir de la reconstrucción de su contorno, a un 39,2 % (índice centro real) de

los frutos detectados. El mayor inconveniente para poder aplicar el

reconocimiento de contornos parcialmente circulares no fue precisamente el

hecho de que fueran parciales, sino que en un gran porcentaje de frutos, aunque

estos presentaran gran proporción del contorno visible, tenían un tamaño

relativamente pequeño respecto a la resolución de la imagen, estando

representados por regiones de pequeño tamaño donde los contornos no poseen

el suficiente número de píxels para ser relevantes. Esto ocurre con los frutos

que se encuentran a partir de cierta distancia de la cámara.

En cuanto al índice separador, se consiguió identificar, al menos un fruto

por separado de un racimo, en el 65,5 % de los racimos encontrados.

Recordemos que, en este caso, para reconocer independientemente los frutos de

un racimo, se utilizó el reconocimiento de contornos circulares, ya que la

transformación concavidad no puede ser aplicada en este caso debido a la

variabilidad de la iluminación natural. Por tanto, este método puede ser una

alternativa para este problema en el caso de iluminación natural.

En las figuras 10.3a a 10.6a se muestran 4 imágenes originales de las

utilizadas para los ensayos de este método. En las figuras 10.3b a 10.6b se

muestran sus correspondientes regiones de la imagen segmentada consideradas

como frutos, sobre las que se muestra la circunferencia encontrada que más se

ajustaba a su contorno, cuyo centro se toma como el centro geométrico del

fruto, y en su defecto el centroide de la región se marca con una cruz.

En la figura 10.3a se puede observar la variabilidad de la iluminación, y en

su correspondiente imagen segmentada (figura 10.3b) se puede apreciar como la

segmentación en color ha podido resolver este problema, encontrando de igual


305

forma las naranjas que estaban a la sombra como las que estaban al sol, así

como asignar correctamente las zonas brillantes de cada fruto al igual que sus

zonas más mates. De la mima forma se pueden observar estos efectos sobre el

fruto que aparece en la figura 10.4a, cuya superficie se encuentra parcialmente al

sol y parcialmente a la sombra, pudiendo omitir este efecto en su segmentación

asignándolos correctamente a la misma región correspondiente a ese fruto (figura

10.4b).

El método de segmentación utilizado soluciona el problema de la

iluminación variable sin incorporar al sistema de visión instrumentos o tecnología

adicional, como el caso del diafragma motorizado implementado por Slaughter

(1987), sistema que incluso no consiguió resolver el problema en los casos donde

los frutos quedaban pobremente iluminados, siendo el fondo el que tenía la

mayor parte de la iluminación de la escena, confundiendo al sistema de

regulación del diafragma.

Respecto a la determinación del centro geométrico de los frutos a partir de

la reconstrucción de su contorno, se puede observar a lo largo de las imágenes

ejemplo como a partir de frutos que exhibían parte de su contorno circular se

pudo calcular la circunferencia que más se le ajustaba. Así por ejemplo, se

puede observar como en la figura 10.4a aparece un fruto parcialmente oculto

con aproximadamente menos de un 50 % de su contorno visible y como se ha

podido determinar su contorno circular total con bastante exactitud (figura

10.4b). Otros ejemplos similares se pueden encontrar en las figuras 10.3, 10.4 y

10.5 con distintos grados de oclusión del contorno.

En la figura 10.3a podemos observar el caso de dos frutos juntos, cuyos

contornos se encuentran solapados. En su correspondiente imagen 10.3b podemos

observar como se consiguió identificar el contorno de cada fruto aún estando

representados por una misma región en la segmentación.

El cálculo de la circunferencia que más se ajusta al contorno del fruto

puede servir en aplicaciones futuras para determinar el tamaño y calibre

aproximado del fruto sabiendo la distancia a que se encuentra, de cara a una

recolección selectiva.


306

Figura 10.3a. Imagen de una escena de frutos con iluminaciónnatural.

Figura 10.3b. Resultado del algoritmo de reconocimiento sobre laimagen 10.3a.


307




308




309




310

También se puede observar en estas imágenes ejemplo, concretamente en

las representadas en las figuras 10.4 y 10.6, como las naranjas que aparecen en

grupos de dos o más frutos, al menos alguna de ellas ha sido identificada

individualmente, gracias a la reconstrucción de su contorno. De esta forma se da

una solución satisfactoria a este problema para dirigir el brazo más precisamente

al centro de cada fruto, evitando de esta forma los errores que por este motivo

se producen durante el proceso de recolección real.

Para determinar el coste computacional medio en encontrar cada vez el

primer fruto en la imagen, se simuló el proceso de recolección real para utilizar

las técnicas de estrategia de visión de la alternancia y los procedimientos locales,

a través de el sondeo o test de los píxels durante el barrido y la determinación

de zonas de interés para aplicar el método de reconocimiento exhaustivo en

ellas.

Para poder simular este efecto, se iniciaba el tratamiento de la imagen

hasta encontrar un fruto, el tiempo en encontrarlo pasa a formar parte de la

estadística, y el fruto detectado se tacha en la imagen borrando la información

del rectángulo mínimo que contiene al fruto encontrado. A continuación se sigue

con el procedimiento como si se el robot hubiera recogido el fruto, y así

sucesivamente hasta que se detecten todos los frutos posibles de la imagen.

Obviamente la gestión de fallos no se incluyó en esta prueba, ya que todos los

objetos detectados, fueran frutos o no, se consideraban como que el robot los

hubiera atrapado.

El tiempo medio utilizado en detectar un fruto fue de 0,58 segundos,

tiempo por debajo del limite establecido, 0,7 segundos, en el pliego de

características dentro de los estudios realizados en este proyecto para el tiempo

asignado al proceso detección por el sistema de visión artificial. Hay que

recordar que este tiempo ha sido conseguido mediante procedimientos software

de estrategias de visión utilizando equipos sin hardware de proceso de imágenes

específico y en ordenadores de tipo PC, tal como dictaba la filosofía del

proyecto.


311

10.3.2 Naranjas con iluminación artificial

El conjunto de imágenes utilizado en este grupo fueron tomadas con el método

de adquisición con apoyo de flash descrito en el capítulo 1. Las condiciones

relativas a la distancia promedio de la cámara a los objetos de la escena, la

focal del objetivo y demás componentes del sistema de visión fueron los mismos

que los utilizados durante los ensayos descritos en la sección anterior.

En esta ocasión sí se utilizó la transformación concavidad, puesto que las

condiciones de iluminación eran adecuadas. Se utilizó de la forma implementada

en el capítulo 2, fijando como umbral un valor de 63, con el que se consigue la

imagen binaria en que cada región corresponde a un fruto por separado. La

intersección de las regiones resultantes de la transformación concavidad con la

región producto de la segmentación color que focalice la atención del algoritmo,

da como resultante la obtención de una región por cada fruto por separado en

el caso de que se trate de una agrupación o racimo.

Las imágenes fueron tomadas con criterios similares a los expuestos en los

anteriores ensayos, aunque en este caso estos criterios no influyen

significativamente, puesto que con el sistema de adquisición con iluminación

artificial, los punto relativos a la variabilidad en las condiciones de iluminación

posibles son nulos, dado que siempre se obtienen escenas con el mismo tipo y

grado de iluminación. En cuanto a los criterios relativos a las partes del árbol,

gracias al método de adquisición tampoco son distinguibles escenas centrales,

laterales, superiores o inferiores, ya que todos los objetos que podían interferir

en el proceso de reconocimiento en el caso de la iluminación natural, no

aparecen en este tipo de adquisición, puesto que, tanto el cielo como el suelo

del terreno no aparecen en la imagen por no llegar a ser iluminados por el

flash.

El conjunto utilizado estaba formado por 32 imágenes, de las cuales 5

fueron utilizadas para extraer las muestras y determinar los parámetros del

método (figura 10.7). Las coordenadas del color del iluminante encontradas

fueron de (ϕ0,θ0) = (38,8°,68,8°), claramente diferentes a la iluminación natural.

Los umbrales α1 y α2 para la clase fruto en el diagrama ϕθ fueron


312

fruto = α; 141° < α ≤ 171°

y los umbrales α1 y α2 en el plano RG para el test de sondeo de píxels fueron

fruto = α; 0° < α ≤ 31,3°

Con respecto al reconocimiento de contornos parcialmente circulares se

utilizó en las mismas condiciones descritas en el apartado anterior. El área

mínima y perímetro mínimo se fijaron en acuerdo al mismo criterio establecido.

El resultado de aplicar el método a las 27 imágenes restantes en forma

global se muestra en la Tabla 10.4. Como datos significativos resaltar el alto

porcentaje de aciertos, un 97 %, así como la proporción de fallos, el 0,3 %, datos

altamente satisfactorios. Estos porcentajes son debidos a la mejora en las

condiciones de iluminación introducidas por el sistema de adquisición, ya que,

como se ha comentado anteriormente, el suelo que en el caso de la iluminación

natural podía producir algún fallo del sistema, no aparece suficientemente

iluminado en este tipo de adquisición, quedando fuera del alcance del flash.


son las naranjas, los de la clase 2 las hojas.


313

Otro tipo de problemas como la aparición de aberraciones cromáticas en

contornos de hojas con fondo muy iluminado no se dan en este tipo de escenas

ya que aquí el fondo siempre es obscuro, no apareciendo el cielo ni ningún

objeto al que no llegue la iluminación del flash.

Aunque estas tasas de detección son elevadas, 97 %, no difieren

sustancialmente de las conseguidas con iluminación natural, 96 %, siendo más

conveniente utilizar el método anterior durante horas diurnas puesto que los

flashes tienen una vida media en cuanto al número de disparos que pueden

efectuar, siendo un elemento que encarece un futuro prototipo comercial. No

obstante el sistema de apoyo de iluminación artificial permite la recolección

durante la noche o en horas de pobre iluminación, siendo imprescindible

entonces este sistema de adquisición.

Al igual que en el caso anterior, los frutos que no se detectaron fue

debido a que exhibían sólo una pequeña parte de su superficie, siendo sus

correspondientes regiones eliminadas durante la segmentación por el filtro

impuesto al área mínima de una región.

Respecto al índice de fallos, se puede observar que es virtualmente nulo.

Este dato refleja el excelente funcionamiento del método de segmentación en

color cuando se utiliza una iluminación adecuada. Puesto que el método ha sido

desarrollado teniendo en cuenta las condiciones de una iluminación variable e

incontrolada, es natural que se obtengan mejores resultados con iluminación

controlada. No obstante la tasa de fallos en el caso de iluminación natural no

esta lejos del cero, sobre todo teniendo en cuenta que aquellos fallos fueron

debidos a la presencia de zonas de la imagen de color similar a los frutos y que


Num. defrutos

305 296 1 165 23 22

Índice (%) - 97,0 0,3 55,7 - 95,7

Tabla 10.4. Resultados de la aplicación del método de reconocimiento basado en color, sobrenaranjas, en condiciones de iluminación artificial.


314

Figura 10.8a. Imagen de una escena de frutos con iluminaciónartificial.



315




316




317




318

en el caso de la iluminación artificial estos objetos generalmente no se iluminan

suficientemente, no apareciendo en la imagen.

A lo largo de las figuras 10.8 a 10.11 podemos observar los efectos de la

iluminación artificial sobre la escena, en las que podemos notar como las

superficies de los frutos han sido iluminadas homogéneamente y como el fondo

de la imagen aparece bastante obscuro debido al efecto del flash, que no alcanza

a iluminar suficientemente objetos a partir de cierta distancia, hecho que no

limita las posibilidades de recolección del robot ya que se ha comprobado que el

alcance del robot esta dentro de esta distancia, no pudiendo incluso alcanzar

frutos que aparecen iluminados en la escena, tal como vimos en la sección 10.2.

En cuanto al índice centro real nos encontramos en el mismo caso que en

el apartado anterior. Los contornos circulares que pudieron ser reconstruidos

fueron de frutos que, además de que mostraban como mínimo un 20 % del

contorno, estaban más cercanos a la cámara, con lo que su tamaño relativo en la

imagen ofrecía bastante información en número de píxels para poderlos

reconocer. En total, se pudo reconocer el contorno del 55,7 % de los frutos

detectados. Los frutos más alejados, cuyas regiones son de tamaño muy pequeño,

comparables con frutos que, aunque situados más cerca y sólo mostraban una

pequeña parte de su superficie, no fue posible la detección de su contorno

circular real.

En la figura 10.8a y su correspondiente 10.8b se pueden observar los

efectos descritos anteriormente, pudiendo reconocer los contornos de objetos

parcialmente ocultos por hojas pero cuya información de presente en la imagen

es relevante. En cambio vemos como a partir de las regiones de muy pequeño

tamaño no es posible intuir el contorno real del fruto.

Respecto al método de separación de los frutos cuando se encuentran

juntos o formando racimos, se puede observar claramente en el índice separador

que fue totalmente efectivo, prácticamente el 100 % de los grupos de frutos

fueron desglosados en sus componentes. Esto indica el buen comportamiento de

la transformación concavidad para solucionar este problema, separando las

superficies de cada fruto en una región independientemente. A lo largo de las

figuras 10.8 a 10.11 podemos observar el caso de varias agrupaciones en las


319

cuales han sido perfectamente separados los frutos, reconstruyendo además su

contorno real.

El coste computacional medio en encontrar el primer fruto en la imagen

simulando la estrategia de visión utilizada en el caso de naranjas con iluminación

natural fue algo mayor que en el caso anterior, de 0,62 segundos, ya que en este

caso también se utilizó la transformación concavidad en el proceso de análisis

exhaustivo de las regiones de interés. No obstante este tiempo sigue estando

dentro de los límites establecidos para que su aplicación en un prototipo real

sea posible, es decir, por debajo de los 0,7 segundos.

10.3.3 Manzanas de la variedad Granny Smith con iluminación artificial

Para comprobar las posibles extensiones del método de reconocimiento y

localización basado en color desarrollado sobre otro tipo de frutos de diferentes

colores al de las naranjas, se han realizado unos ensayos sobre manzanas de dos

variedades. Las manzanas son un campo de aplicación de la robótica de

recolección, en el que desde los comienzos de las investigaciones en este campo

se ha estado trabajando con gran intensidad.

Las manzanas de la variedad Granny Smith tienen un color verdoso, muy

similar a las hojas de los árboles pero, tal como veremos, con la suficiente

diferencia de color como para poder distinguirlas por esta característica.

Las imágenes utilizadas se adquirieron en las mismas condiciones que las

de naranjas del apartado anterior con apoyo de iluminación artificial mediante

flash, focal de la lente de la cámara, distancia media al plano de la escena, etc.

Sólo se tuvo que calcular los umbrales α1 y α2 para la clase fruto en el

diagrama ϕθ, ya que el color del iluminante fue el mismo puesto que se utilizó,

al igual que en caso anterior, el mismo flash.

En este caso se dispuso de 7 imágenes de manzanas, de las cuales 2 se

utilizaron para extraer las muestras para calcular los umbrales α1 y α2 para la

clase fruto (figura 10.12), los cuales fueron

fruto = α; 91° < α ≤ 342°


320

y los umbrales α1 y α2 para el test de sondeo de píxels, que en este caso se

eligió el plano RB por encontrar en él un menor solape de las clases, fueron

fruto = α; 70,6° < α ≤ 90°

Al igual que en el caso anterior se utilizó la transformación concavidad

para separar los frutos y el reconocimiento de contornos circulares para detectar

el centro de los frutos.

Tras aplicar el método de forma global a las 5 imágenes restantes, los

resultados obtenidos se muestran en la Tabla 10.5. En ella podemos observar

que el índice de aciertos es del 92,3 %, porcentaje altamente satisfactorio

teniendo en cuenta la similitud de color entre los frutos y el resto del árbol, lo

que viene a corroborar una vez más el buen comportamiento del método de

segmentación, en este caso su capacidad de discernir entre colores muy próximos

visualmente hablando.


son las manzanas Granny Smith , los de la clase 2 lashojas, y la clase 3 el cielo.


321

El índice de fallos fue, virtualmente, del 0 %, aunque, claro está, con un

conjunto de imágenes más representativo el índice de fallos sería distinto de cero

pero próximo a él. No obstante, los resultados sobre este reducido conjunto de

imágenes disponible dan una idea bastante orientativa de lo que ocurre en

realidad.

En cuanto al proceso de separación de los frutos pertenecientes a un

racimo, su comportamiento es totalmente análogo al caso anterior de naranjas

(Figuras 10.13 y 10.14), pudiendo conseguir este objetivo en prácticamente todos

los casos, tal como indica el valor 90 % del índice separador. Una vez más la

aplicación de la transformación concavidad es posible debido a las condiciones

de iluminación en la escena, así como su excelente resultado para resolver este

problema.

Lo mismo se puede decir del índice centro real, pudiendo reconocer este en

el 25,2 % de los frutos visibles, en los casos en condiciones similares a las

descritas para las naranjas, donde la información del contorno, por el tamaño de

la región correspondiente, era suficiente para poder determinarlo con fiabilidad.

Además, en manzanas existe el agravante de que se alejan más que la naranjas

de la forma circular ideal.

Respecto al coste computacional medio para localizar el primer fruto en la

imagen utilizando una simulación la estrategia de barrido, se obtuvieron tiempos

similares al caso de naranjas maduras con flash, del orden de 0,6 segundos, ya

que se utilizó exactamente el mismo método pero con sus correspondientes

parámetros de ajuste del algoritmo.


Num. defrutos

235 218 0 55 53 48

Índice (%) - 92,3 0 25,2 - 90,6

Tabla 10.5. Resultados de la aplicación del método de reconocimiento basado en color, sobremanzanas granny smith, en condiciones de iluminación artificial.


322




323




324

10.3.4 Manzanas de la variedad Gala con iluminación artificial

Como segunda muestra de la extensión de estas técnicas, se aplicó el mismo

método a un conjunto de 3 imágenes de manzanas de la variedad Gala , las

cuales poseen un color rojo muy diferente de la variedad Granny Smith y a su

vez, diferente del de las naranjas.

De las 3 imágenes disponibles, una se utilizó para extraer las muestras para

calcular los umbrales α1 y α2 para la clase fruto (figura 10.15), los cuales fueron

fruto =

α; 0° < α ≤ 211°

α; 325° < α ≤ 0°

En este caso no se comprobó el método con la estrategia de búsqueda por

procedimientos locales, por lo tanto no se calcularon los umbrales para este

propósito, aunque claramente el plano a elegir en este caso es el RG.

Evidentemente el color del iluminante fue el mismo que en los casos anteriores

al utilizar el mismo método de adquisición con flash y los mismos componentes.


son las manzanas Gala, y los de la clase 2 las hojas.


325

Los resultados obtenidos en este caso sobre las dos imágenes restantes se

pueden observar en las figuras 10.16 y 10.17, en las que se han reconocido sin

problemas los frutos que en ellas se encuentran. El comportamiento de la

transformación concavidad para separar los frutos de los racimos y del

reconocimiento de círculos para detectar el centro geométrico de los frutos tiene

las mismas características que en el caso anterior de las manzanas granny smith.

A partir de los resultados obtenidos sobre estas dos variedades de

manzanas se puede decir que el método es totalmente válido para otros frutos

diferentes a las naranjas, en este caso manzanas y que presumiblemente, por el

comportamiento observado, es totalmente extensible a otros muchos tipos de

frutos.

10.4 Método de reconocimiento basado en características relativas

a la forma de los frutos

Existen situaciones, tal como ya se ha comentado, en que el color no es una

característica relevante de los frutos con respecto al entorno que le rodea. En

estos casos el método de reconocimiento basado en color no es factible, por lo

que es necesario recurrir al reconocimiento a partir de características relativas a

la forma de los objetos que se pretende detectar, en este caso los frutos.

En el mercado de cítricos, es práctica habitual recolectar las mandarinas y

naranjas cuando aún no han alcanzado su estado completo de madurez, sin haber

alcanzado el color que las caracteriza, pasando posteriormente a un proceso de

desverdización para cambiar el color de la piel.

En estos casos, aunque el fruto ya alcanzado su tamaño final y un nivel de

azúcar/ácido permitido para su comercialización, los frutos son recogidos en el

campo con un color verde, totalmente análogo al color de las hojas de los

árboles.

Un problema similar es el que ocurre con los tomates, los cuales se

recogen para su consumo en fresco habitualmente totalmente verdes, para que

lleguen con su estado de madurez habitual al consumidor, madurando de forma

natural durante el periodo de comercialización.


326




327




328

Centrándonos en el problema de los cítricos, se han realizado ensayos sobre

imágenes tomadas de escenas de naranjas de la variedad salustiana en los meses

de Septiembre-Octubre, de la plantación experimental utilizada a lo largo de este

trabajo, y que presentaban un color totalmente verde, similar al de las hojas.

Sobre estas imágenes se ha aplicado el método de reconocimiento basado en

características relativas a la forma descrito en la sección 9.4.

Tal como se apuntó en la descripción del método, el problema se ha

abordado de una forma diferente al de las naranjas diferenciables por color. En

este caso se ha realizado una primera aproximación al problema la cual

pretende, además de conseguir los mejores resultados posibles, realizar un

análisis de la estructura del problema a partir de los resultados obtenidos, de

cara a su posible utilización en el robot recolector para ampliar el ámbito de

aplicación de la máquina y abarcar todas las posibilidades de recolección sobre

cítricos que se dan en la actualidad, por lo menos en lo que respecta al papel

del sistema de visión.

Para ello, el proceso seguido en los ensayos realizados sobre el conjunto de

imágenes disponibles consiste en:

- Una segmentación en bruto.

- La extracción de las características y la toma de muestras.

- El aprendizaje del clasificador.

- La comprobación de la validez del clasificador encontrado.

- Análisis de la estructura del problema.

Con este planteamiento, todas las imágenes se analizarán de forma global,

sin tener en cuenta las estrategias de visión utilizadas en casos anteriores de

cara a su aplicación en tiempo real.

Sobre cada imagen se realiza una segmentación en bruto por medio de la

transformación concavidad, tal como se describió en la descripción del método.

A cada región producto de la segmentación se la considera la entidad u objeto a

clasificar. A estas regiones se le extraen cada una de las características que se

eligieron para realizar su clasificación.


329

Del análisis de todas las imágenes del conjunto tratado, se formó un

conjunto de muestras consistente cada una de ellas en una región con los valores

de las características extraídos sobre ellas, y una etiqueta asignada por el analista

que identifica a esa región como una de las clases del conjunto que se

establezca a priori.

El conjunto de clases establecido, ha sido elegido con el fin de poder

analizar de una forma más clara el problema con respecto al mayor

inconveniente que se presenta en este caso, la oclusión parcial de la superficie

de los frutos. En función de ello se han establecido 3 clases diferentes de

objetos o regiones presentes en la imagen segmentada,

-clase 1, frutos que muestran aproximadamente más de un 50 % de su

superficie;

-clase 2, frutos que muestran menos de un 50 % de su superficie;

-clase 3, a cualquier otro objeto, rama u hoja.

Una vez extraídas todas las muestras pertenecientes a cada una de las

imágenes utilizadas, el conjunto total de muestras L se dividió en dos, uno

utilizado para realizar el proceso de aprendizaje del clasificador, La, y otro, Lt,

utilizado para comprobar el error del clasificador. El conjunto de aprendizaje

representaba un tercio del conjunto total, es decir, La = 1 ⁄ 3 L , el cual fue

formado extrayendo aleatoriamente las muestras del conjunto total L . El resto,

Lt = 2 ⁄ 3 L , integraba el conjunto test.

Para realizar el aprendizaje del árbol binario de clasificación, el conjunto

La se dividió a su vez en dos subconjuntos, L1 y L2. L1 fue el conjunto de

muestras utilizado para generar las particiones del árbol y L2 se utilizó para

realizar las estimaciones de error durante el crecimiento o elección del árbol.

Recordemos que el conjunto test Lt, nunca fue visto por el árbol durante el

proceso de aprendizaje, ni durante su crecimiento ni para la estimación del error

en la elección del árbol.


330

De la misma forma, L1 se formó a partir de extraer aleatoriamente las

muestras de La, el resto de muestras en La constituyeron el conjunto L2. La

proporción elegida de L1 y L2 respecto al total fue L1 = L2 = 1 ⁄ 2 La.

El conjunto de imágenes utilizadas, en un total de 90, fueron adquiridas

con el apoyo de iluminación mediante flash por el método descrito en el

capítulo 1. La distancia media de la cámara al plano imagen fue de un metro

aproximadamente, y se utilizó un objetivo de 16 milímetros con apertura manual

de diafragma, la cual fue regulada según se indicó en la descripción del método

de adquisición. Las imágenes fueron reducidas a una resolución de 256 x 256.

Al igual que en el caso de reconocimiento basado en color, se tomaron

escenas de ocho árboles de la plantación intentando abarcar todas las situaciones

posibles que se pueden presentar, es decir, imágenes de escenas superiores,

inferiores, centrales, laterales, etc. En este caso, al igual que en los ensayos con

imágenes de naranjas en plena madurez utilizando iluminación artificial, las zonas

de cielo, suelo y todos los objetos a los cuales el flash no iluminaba, quedaban

Figura 10.18. Partición de los conjuntos de muestras de aprendizaje.


331

suprimidos de la imagen, consiguiendo condiciones en pleno día similares a las

nocturnas.

Del las 90 imágenes utilizadas, se extrajeron un total de 13620 muestras, de

las cuales 441 pertenecían a la clase 1, 127 a la clase 2 y 13052 a la clase 3. En

la Figura 10.18 se muestra como este conjunto total de muestras L fue divido

para formar los conjuntos Lt, La, L1 y L2 a los que se hizo referencia

anteriormente.

Tras el proceso aprendizaje con el conjunto La por el método del

crecimiento por mínimo error desarrollado en el capítulo 7, el árbol de

clasificación resultado tiene 37 nodos terminales, cuyo error estimado durante el

proceso de aprendizaje por el subconjunto L2 fue del 1,32 %. Posteriormente,

cada muestra del conjunto reservado para el test final fue introducida en el

árbol para su clasificación.

El resultado de introducir el conjunto test, Lt, en el árbol encontrado se

muestra en la tabla 10.6. En las filas de la tabla se indican el número de

elementos de la clase correspondiente a la columna que fueron clasificados como

la clase indicada en la entrada de la fila correspondiente. La columna Total (nº

muestras), indica el número total de muestras presentes en el conjunto Lt de la

clase indicada en la entrada de su fila correspondiente. La columna Error (nº

muestras), indica el número de muestras mal clasificadas que fueron asignadas a

la clase indicada en la entrada de su fila correspondiente. La columna Error (%),

indica el tanto por cien de error producido en cada clase, es decir, el tanto por

Clase 1 2 3 Total (nºmuestras)

Error (nºmuestras)

Error (%)

1 247 19 29 295 48 16,27

2 11 31 43 85 54 63,35

3 24 35 8643 8702 59 0,68

Total 282 85 8715 9082 161 1,77

Tabla 10.6. Resultado de la clasificación de las muestras del conjunto Lt.


332

cien de muestras mal clasificadas respecto del número total de muestras de la

clase indicada presentes en el conjunto Lt. La fila Total indica el número total

de muestras asignadas a cada clase indicada en su correspondiente columna.

Observando la tabla vemos que el error total cometido con las muestras del

conjunto test fue del 1,77 %, el cual no difiere sustancialmente del estimado

durante el aprendizaje con el conjunto L2, 1,32 %, el cual tenía un número total

de 2269 muestras; el conjunto Lt cuenta con un total de 9082 muestras,

aproximadamente cuatro veces superior al conjunto L2, lo que indica que el

número de muestras utilizado durante el aprendizaje fue lo suficientemente

representativo del conjunto total L .

Por otra parte, analizando los intervalos de confianza del error total

encontrado, recurriendo a los argumentos expuestos en el apéndice C, se puede

decir que con un error estimado del 1,77 % y con un conjunto de 9082

muestras, el verdadero error del clasificador tiene un 95 % de probabilidad de

encontrarse entre un 1,0 % y un 2,5 % aproximadamente, lo que indica un buen

resultado respecto al error global del clasificador obtenido.

En cuanto a los errores cometidos por clases, el error de la clase 3 del

0,7 % indica que el clasificador puede discernir con muy buena exactitud los

objetos considerados como fondo de la imagen respecto a los frutos

representados por las restantes clases. En los errores de las clases pertenecientes

a los frutos podemos observar como el clasificador confunde un 13 % de los

frutos de la clase 2 como si fueran de la clase 1. Esta confusión entre frutos de

la clase 2, frutos cuya superficie es visible menos de un 50 %, como

perteneciente a la clase 1 se produce cuando los frutos de la clase 2 están en

las posiciones más cercanas a la cámara y se tiene una mayor información en la

imagen con respecto a la resolución que se obtiene del fruto, pudiendo evaluar

las características con mayor fiabilidad, llegando a niveles considerados como

frutos con superficie visible en mayores proporciones.

Unificando las clases 1 y 2 como la clase fruto, se puede ver como el

81,1 % de los frutos pudieron ser detectados, es decir, esta cifra corresponde al

índice de aciertos utilizado en los casos anteriores, resultado bastante

satisfactorio.


333

Otro aspecto significativo de los resultados obtenidos es que, considerando

como detectados todos los frutos de la clase 1 reconocidos como una de las dos

clases que componen la clase fruto, se obtiene que el 90,2 % de los frutos

visibles en más de un 50 % de su superficie han podido ser detectados. Este

resultado viene a indicar que el método puede detectar frutos que sean lo

suficientemente visibles con un alto grado de confianza.

Para calcular el índice de fallos en el caso que se implementara en el

sistema de visión, podemos observar que se han reconocido en total 308 frutos, y

que 59 objetos de la clase 3 o fondo, han sido considerados como frutos. Estas

cifras indican un nivel de fallos del 16,1 % de los objetos reconocidos como

frutos, nivel que se considera demasiado alto de cara a la aplicación real.

Aunque el clasificador en su globalidad funcione satisfactoriamente, analizando

los datos desde la perspectiva de los intereses de la aplicación hemos visto que

el índice de fallos queda alejado de los niveles considerados como aceptables,

menores de un 7 % aproximadamente. Por otra parte, y también desde el punto

de vista de la aplicación, el porcentaje de frutos detectados ha sido satisfactorio,

con el 81,1 % de frutos detectados y un 90,2 % de frutos que eran visibles en

más de un 50 % de su superficie.

Otro enfoque con el que se pueden ver los resultados obtenidos consiste en

considerar como frutos sólo los objetos asignados a la clase 1. Aunque el

clasificador asigne un objeto de la clase 2 como perteneciente a la clase 1, en

realidad es un fruto, con lo que estos objetos pasan a engrosar el número de

frutos realmente detectados. El número de fallos en este caso serán los objetos

de la clase 3 clasificados como pertenecientes a la clase 1. Por tanto en este

caso se detectan 258 frutos y se cometen 24 fallos. Esto significa que el método

puede reconocer satisfactoriamente un 67,9 % de los frutos visibles con una tasa

de fallos del 8,5 %, considerada como en el entorno de lo aceptable de cara a la

aplicación. Es decir, hay que encontrar un compromiso entre la proporción de

frutos visibles a detectar y los fallos que puede producir el sistema de visión.

Estos resultados nos indican que, aunque en esta primera aproximación

realizada al problema no se ha conseguido la solución completamente


334

satisfactoria, estamos en vías de conseguirla, solución que pasa por completar el

método para la reducción del índice de fallos a los niveles considerados.

Por otra parte, los objetivos fijados para el robot recolector, en el caso de

naranjas en sus primeros estadios de madurez, no es recolectar el 100 % de la

fruta, ya que en esta situación la práctica habitual es recolectar una plantación

en varios pases, recogiendo las naranjas con un grado de color más avanzado.

Por tanto, el sistema de reconocimiento basado en la forma de los frutos, tal

como se encuentra en estos momentos, podría utilizarse para este propósito,

adaptando el tiempo de proceso requerido para su aplicación en tiempo real.

Para analizar por qué se produjeron los fallos y poder completar futuros

clasificadores que eviten estas confusiones, hay que ver las causas de por qué el

clasificador asignó elementos de las clases fruto como elementos de la clase 3.

Si analizamos el árbol de clasificación obtenido podemos constatar que la

característica de mayor peso en la decisión fue la elipticidad, es decir, la

característica que evalúa si una región pertenece a la superficie de un objeto

esférico mediante su representación en la imagen por un elipsoide según el

modelo de irradiancia espectral imagen adoptado. La primera partición generada

en el árbol que dividió el nodo raíz en dos, utilizó esta característica y consiguió

descender el error del árbol bruscamente a un 1,8 %, de ahí la importancia de

esta característica.

Por otra parte analizando las muestras que se clasificaron como clase 1

perteneciendo a la clase 3 se pudo constatar que estas muestras tenían valores

elevados de la elipticidad y correspondían a hojas cuya posición respecto al plano

imagen presentaban una superficie cóncava lo bastante suave y ajustable a elipses

en alguna de las dos direcciones analizadas o incluso en ambas.

Todas las demás características cuya elección pretendió que se

complementaran las unas a las otras, sólo consiguieron levemente aumentar la

exactitud de la decisión. Por ejemplo la circularidad que en principio podría

parecer más determinante no lo es tanto, por el hecho de que queda bastante

enmascarada por la elipticidad, ya que es natural que un objeto esférico que en

la imagen posea una superficie elipsoide tenga un nivel de circularidad elevado,

con lo que solo con la elipticidad podría caracterizarse. La circularidad sólo


335

consigue ser determinante en los casos en que la iluminación sobre frutos más

lejanos ya es pobre y no existe buen contraste, teniendo entonces que decidir el

clasificador a partir de los datos del contorno. Las otras características presentes

en el vector de medidas de cada muestra, como el área o el radio, se comportan

en gran parte como filtros, es decir, como elementos de decisión para descartar

elementos más ruidosos.

La medida Rxy que indicaba si se produjeron ajustes a elipses en las dos

direcciones en una misma región, no ha aparecido en ningún nodo del árbol

encontrado, lo que significa que está directamente relacionada, o ha sido

enmascarada, por otras características, principalmente debido a la dependencia

entre la elipticidad y la circularidad, las cuales pueden suplir el papel del

indicador Rxy.

La compacidad queda enmascarada por otros parámetros como la

circularidad, ya que es evidente que un objeto bastante redondo es muy

compacto, y actúa principalmente como filtro, como en el caso del área.

En los frutos visibles en menos de un 50 % de su superficie, clase 2, la

decisión se produce normalmente a partir de la información del contorno

circular, es decir, de la medida llamada circularidad, ya que en estos casos,

cuando aparecían niveles considerables de elipticidad, el clasificador los

consideraba como bastante visibles y los asignaba a la clase 1. Ante este

elemento de juicio, para identificar un fruto visible en menos de un 50 %,

existen siempre elementos en la imagen, correspondientes a hojas del árbol, que

presentan tramos de su contorno que son circulares, confundiendo entonces un

elemento de la clase 3 como un elemento de la clase 2, de ahí los errores en

este aspecto. Con esto se puede decir que la presencia de contornos

parcialmente circulares por ellos mismos no es una característica determinante

para decidir si el objeto en cuestión pertenece a un fruto. Observando la Tabla

10.6 podemos comprobar como de el total de elementos asignados como clase 2

el 41 % fueron de la clase 3, es decir errores. Las conclusiones en este aspecto

vienen también corroboradas por las experiencias de otros autores que utilizando

sólo la transformada de Hough para detectar tomates en la imagen a través de


336

su contorno (Whittaker et al, 1987) alcanzaron niveles de fallos del 69 % para

detectar un 76 % de los frutos.

En resumen, los fallos o errores de clasificación de un objeto de la clase 3

como un objeto de cualquiera de las clases fruto son debidos a ciertas hojas del

árbol que aparecen dobladas en la escena, con una superficie visible apreciable y

cuya irradiancia espectral imagen es cóncava, ajustándose a una elipse en una o

ambas de las direcciones establecidas. Por otra parte, siempre existen hojas que

presentan porciones de su contorno que son circulares en mayor o menor

proporción, pudiendo ser reconocidas como frutos.

En cuanto a los motivos por los que fueron clasificados los frutos como

elementos del fondo, son principalmente dos. En primer lugar los frutos más

alejados en la escena, aunque su proporción de superficie visible es considerable,

quedan pobremente iluminados y presentan además un tamaño pequeño en la

imagen; la falta de contraste en la imagen y su relativa insuficiente resolución

producen que no puedan extraerse debidamente las características utilizadas. Por

otra parte, la extracción de características se ve dificultada en los frutos cuya

superficie visible era muy pequeña, menos del 25 % aproximadamente,

asignándolos el clasificador como fondo por falta de información.

La mejora de los resultados obtenidos no depende del tipo de clasificador

empleado, habiéndose probado su eficacia y validez en este tipo de problema,

más bien el problema depende de la elección de un conjunto de características

más relevante o completar el conjunto propuesto. Aunque por el momento

parece difícil incrementar significativamente el índice de aciertos en este

problema, se podría disminuir la tasa de fallos complementando el conjunto de

características con alguna medida que llene el hueco de información que parece

que el conjunto definido no cubre. En este sentido se podría definir algún

parámetro cuya medida cuantificará la relación entre una región que se ajusta a

un elipsoide y su contorno, determinando si los puntos que se ajustan a la elipse

caen dentro de la circunferencia a que se ajustan las posibles porciones de su

contorno circular, asegurando de esta forma que el elipsoide tenía realmente un

contorno circular.


337

En las figuras 10.19 a 10.22 se pueden observar algunos de los ejemplos

más representativos del resultado obtenido sobre las imágenes utilizadas. En ellas

se indican los frutos encontrados de la misma forma que en los otros tipos de

ensayos, un círculo para frutos en los cuales se reconoció su contorno circular y

una cruz en caso contrario.

En estas figuras podemos observar el tipo de regiones en las imágenes

segmentadas que produce la transformación concavidad, asignando un único fruto

a cada región. Ocasionalmente alguna hoja contigua a un fruto se asignaba como

parte de una misma región, debido a la suavidad de los contornos que la

separaban en la imagen.

En la figura 10.19 se muestra como frutos parcialmente visibles ha podido

ser detectados y su contorno reconstruido, siempre que tuvieran el tamaño

adecuado en la imagen, con información suficiente para realizar el análisis. En

ocasiones (figura 10.19), vemos como ciertas hojas presentan parte de su

contorno aproximadamente circular, confundiéndolas con los frutos.

Asimismo se puede notar como casi todos los frutos detectados se les pudo

reconocer parte de su contorno circular, pudiendo reconstruir aproximadamente

su circunferencia. En la figura 10.20 se pueden ver como frutos que aparecen

bastante lejanos o parcialmente ocultos pero con un contorno muy reducido en

longitud, con lo que no se pudo reconocer ningún tramo circular. En total el

índice de centro real alcanzado fue del 85,4 %, superior al alcanzado en el caso

de naranjas maduras con apoyo de iluminación artificial porque en las imágenes

tratadas en este caso, el tamaño relativo de los frutos en la imagen era mayor,

debido a la utilización de un objetivo de 16 milímetros de focal, disponiendo por

tanto de mayor información o resolución relativa.

Respecto al tratamiento de los racimos, el comportamiento del índice

separador fue similar al de los frutos maduros con iluminación artificial, llegando

prácticamente al 100 % de éxito. El buen resultado en este aspecto corrobora la

excelente eficacia de la transformación concavidad para tratar este problema, que

con el uso de una iluminación adecuada se presenta como una potente

herramienta. A lo largo de las figuras 10.19 a 10.22 podemos observar como se

pudo identificar cada fruto por separado sin ningún problema.


338

Figura 10.19a. Imagen de una escena de naranjas verdes coniluminación artificial.



339




340




341




342

Aunque ya se ha dicho que en este caso no se abordó el problema desde

el punto de vista de proceso en tiempo real, sino desde una perspectiva

orientada a la solución del reconocimiento de los frutos, el coste computacional

medio empleado para el proceso de una imagen completa con el equipo

utilizado fue en promedio de 341 segundos. Aunque estos tiempos no son

adecuados para su utilización en un problema en tiempo real como es la

robótica, es necesario recurrir a este tipo de técnicas de elevado coste

computacional para procesar información relativa a la forma de los objetos, ya

que la solución del problema pasa por un análisis más profundo en la extracción

de características y la utilización de técnicas de reconocimiento de formas para

resolver decisiones complejas de una manera automática.


343

CONCLUSIONES

CONCLUSIONES

Las aportaciones de este trabajo se pueden resumir en los siguientes

puntos:

- Un estudio para evitar la influencia de las condiciones de variabilidad de la

iluminación natural en estas escenas de ambientes exteriores, mediante el apoyo

de iluminación artificial en la toma de imagen. Como consecuencia, a partir de

ciertas condiciones y configuración de la iluminación en la escena, un modelo de

irradiancia espectral imagen para caracterizar las propiedades geométricas de

objetos esféricos en imágenes.

- Una transformación de la imagen para extraer las zonas cóncavas de la

irradiancia espectral imagen a partir de operadores segunda derivada,

proporcionando a su vez en un método de segmentación con este mismo

propósito, aproximando los contornos de las regiones por contornos de objetos

en la imagen.

- Una caracterización de la irradiancia espectral imagen de los objetos esféricos

cuando el observador se encuentra en la misma dirección de la iluminación,

modelando las esferas en el mundo real por elipsoides en la irradiancia imagen,

y aproximando estos elipsoides mediante ajustes por elipses en varias direcciones.

- Un método de reconocimiento y evaluación de contornos parcialmente

circulares, reconstruyendo la circunferencia a partir de los segmentos circulares

presentes en el contorno visible de los objetos.

- Un espacio de representación del color, adoptado a partir de consideraciones

sobre la reflexión de la luz en la superficie de los objetos, para caracterizar los

puntos correspondientes a reflejos y puntos mate de un mismo objeto,

independientemente del nivel de iluminación total que reciba cada zona de la

escena.

- Un clasificador de color, en el espacio de color anteriormente citado, de bajo

coste computacional, tanto en aprendizaje como en ejecución, utilizando un

umbral óptimo en una sola coordenada.

- Un método de correspondencia para imágenes estéreo basado en un criterio de

semejanza entre regiones correspondientes en imágenes estéreo binarias.

- Un procedimiento de aprendizaje de árboles de clasificación binarios,

realizando un aprendizaje del tipo basado en crecimiento y criterio de parada,

sin poda posterior.

- Dentro del sistema de visión del robot, una estrategia de visión capaz de

gestionar los problemas derivados de la aplicación en tiempo real, consistente en

la búsqueda alternante de los frutos en la imagen, la gestión de fallos para

orientar el proceso de análisis posterior, y la identificación y elección de los

frutos en un racimo.

- Un método de reconocimiento y localización de los frutos basado en

procedimientos locales sobre zonas de interés en la imagen, utilizando

conjugadamente las técnicas anteriormente citadas de reconocimiento en color,

tratamiento de racimos y detección del centro geométrico del fruto. En

particular, dentro de los procedimientos locales, un algoritmo de etiquetado a

partir de la información del contorno de las regiones.

- Un método de reconocimiento de los frutos, a partir de su forma geométrica,

basado en una clasificación por árboles binarios sobre características geométricas

extraídas al contorno y la superficie de los frutos.

Conclusiones

348

En cuanto a los resultados obtenidos de la comprobación de cada una de

las técnicas de análisis de imagen desarrolladas, se puede concluir que:

- El método de iluminación y adquisición de imagen desarrollado permite omitir

la variabilidad de la iluminación natural, pudiendo controlar el nivel de

iluminación sobre la escena en entornos naturales.

- La segmentación para extraer zonas cóncavas de las imágenes a partir de la

transformación concavidad, permite caracterizar cada fruto por separado

individualmente, aproximando a la vez el contorno de las regiones en la imagen

segmentada por los contornos reales de los objetos.

- La caracterización de objetos esféricos mediante elipsoides en la irradiancia

imagen es un método de notable relevancia para identificar esta clase de objetos,

ya que con la aproximación realizada mediante el ajuste por elipses en dos

direcciones, el 93 % de los puntos reconocidos como parte de un elipsoide,

pertenecen a puntos sobre la superficie de los frutos.

- El reconocimiento de contornos parcialmente circulares por el método

desarrollado, permite reconstruir contornos incluso con menos del 50 % del

contorno circular presente, en tiempos de proceso adecuados para su aplicación

en tiempo real. Este método, además de calcular el centro y el radio de las

circunferencias con buena exactitud, puede evaluar la parte presente del contorno

total a partir de la cual se realiza el reconocimiento.

- El espacio de representación en color utilizado, a partir de consideraciones

sobre el modelo de reflexión dicromático, permite caracterizar los efectos

producidos por una iluminación incontrolada como la de ambientes exteriores, de

forma que se pueden omitir los efectos de la variabilidad de la iluminación en

la representación del color adoptada. Los colores de la superficie de los objetos

en la escena se distribuyen en este espacio con un solapamiento ínfimo que

permite su reconocimiento con nitidez, pudiéndose incluso caracterizar zonas de

colores mate y reflejos en la distribución de colores de un mismo objeto.

Conclusiones

349

- El clasificador en color desarrollado sobre el espacio anteriormente citado,

permite segmentar imágenes en color de ambientes naturales a partir de una

única variable para caracterizar los colores, pudiendo asociar zonas mate y de

reflejos sobre la superficie de un mismo objeto. Los resultados obtenidos del

clasificador implementado superan incluso a otros tipos de clasificadores de

propósito general sobre el mismo espacio de representación de color. El bajo

porcentaje de errores producido por todos los clasificadores en general, menos

de un 3 %, corrobora la buena representación del color adoptada.

- El método de correspondencia sobre imágenes estereoscópicas consigue asignar

correctamente un 97 % de las regiones con sus correspondientes, en imágenes de

escenas en ambientes naturales. La robustez del procedimiento permite realizar

la correspondencia de regiones cuya forma se ve parcialmente alterada de una

imagen a su correspondiente por efecto de los obstáculos, siempre que no sufran

un cambio notable en su forma, tal como puede ocurrir en frutos cuya superficie

visible sea menor de un 30 %, aproximadamente. El tiempo medio utilizado en

realizar la correspondencia de una fruto, 0,39 segundos con el equipo utilizado, y

el error en el cálculo de la distancia, ± 1,1 centímetros, permiten su

implementación en una aplicación de este tipo.

- El aprendizaje de árboles binarios de clasificación por el método desarrollado

de crecimiento por mínimo error, consigue resultados ligeramente mejores que

los métodos por poda del árbol total, más ampliamente aceptados por sus

buenos resultados. Así mismo, el método siempre utiliza menos tiempo en el

aprendizaje respecto a los métodos comparados. Con este resultado se rompe

con la idea generalizada de que los métodos por poda del árbol total superan en

buenos resultados a los de crecimiento del árbol con criterio de parada.

Conclusiones

350

Los principales resultados de la metodología desarrollada como sistema de

visión del robot, se pueden sintetizar en los siguientes puntos:

1- Respecto al sistema de visión integrado en el robot, durante los ensayos del

prototipo en plantaciones de naranjas se pudo observar la importancia del

cálculo de la distancia al fruto para aumentar la tasa de recolección del robot.

En estos mismos ensayos se comprobó la eficacia de la estrategia de visión en lo

que respecta a la alternancia en la búsqueda de los frutos y la gestión de fallos,

así como la efectividad del sistema de localización del fruto señalando la

dirección en que se encuentra a través de una sola cámara.

2- El sistema de reconocimiento de los frutos basado en el color con

iluminación natural totalmente incontrolada, se revela como una solución

altamente satisfactoria a este problema, pudiendo detectar el 96 % de los frutos,

debido a la efectividad del método de segmentación desarrollado. La tasa de

fallos, un 5 %, queda por debajo del límite previsto para un prototipo operativo,

siendo por tanto totalmente aceptable.

La utilización del reconocimiento de contornos circulares para identificar

frutos en un racimo, consigue identificar frutos por separado en un 65 % de los

casos, siendo por tanto una alternativa a la transformación concavidad en

situaciones de iluminación incontrolada.

El cálculo del centro geométrico del fruto a partir de la reconstrucción de

su contorno circular fue posible, en este caso, para un 39 % de los frutos

detectados, probando ser efectivo para frutos parcialmente ocultos, siendo el

principal inconveniente el que los frutos presenten un contorno demasiado

pequeño en la imagen para poder realizar el reconocimiento con fiabilidad.

3- El mismo método de reconocimiento por color aplicado en imágenes

adquiridas con iluminación artificial, permite reducir drásticamente los posibles

fallos que se producen en imágenes con iluminación natural, llegando a ser

virtualmente nulos. Aunque el uso de iluminación artificial no compense de una

manera notable los resultados obtenidos con iluminación natural, sí que supone

Conclusiones

351

una solución idónea para poder realizar la recolección durante la noche o en

horas de pobre iluminación, aumentando el tiempo de operatividad del robot.

En estas condiciones, el método consigue localizar el 97 % de las naranjas

visibles, pudiendo identificar por separado cada fruto de un racimo en el 96 %

de los racimos detectados, con lo que se prueba la efectividad de la

transformación concavidad para este propósito, siendo una excelente solución a

este problema. Por otra parte, se consiguió reconocer el contorno circular del

56 % de los frutos detectados, no pudiendo reconstruir los restantes por las

mismas razones que en el caso de iluminación natural.

4- Los ensayos de la posible extensión del método para otros frutos, en concreto

manzanas, resultaron altamente satisfactorios, alcanzando un 92 % de frutos

detectados sobre manzanas Granny Smith, siendo esta variedad la más dificultosa

por su color semejante a las hojas. En esta variedad de manzanas disminuyó el

porcentaje de frutos a los que se consiguió calcular su centro geométrico, un

25 %, debido a que la forma de las manzanas se alejan más de un contorno

circular ideal. No obstante, el porcentaje de racimos cuyos frutos fueron

identificados individualmente alcanzó un 91 %, afirmando la transformación

concavidad como una excelente herramienta en este sentido.

Los resultados sobre manzanas de la variedad Gala indican que el método

de reconocimiento por color no tendrá ninguna dificultad en su aplicación a este

tipo de frutos, y hacen entrever la posibilidad, casi con seguridad, de su

extensión a otros tipos de frutos.

5- El método de reconocimiento basado en la forma de los frutos aplicado a

naranjas en su periodo inicial de maduración, obtiene resultados prometedores

para su utilización en el robot recolector, con lo que permitirá ampliar el campo

de aplicación del prototipo a estas situaciones o a frutos de similar forma que se

ajusten a las exigencias del método. En los ensayos realizados, el porcentaje de

frutos visibles detectados fue del 81 %, cometiendo un 16 % de fallos respecto al

número de objetos reconocido como frutos. Aunque el porcentaje de fallos está

por encima de los límites previstos para un prototipo operativo, adoptando el

compromiso de detectar sólo los frutos visibles en mas de un 50 % de su

Conclusiones

352

superficie, se detectan el 90 % de estos frutos y un 68 % del total de frutos

visibles, reduciendo el número de fallos a un 8 %, en el entorno aceptable para

un su aplicación en el robot, siempre que se pueda adaptar el coste

computacional a las exigencias del proceso en tiempo real.

Aunque los resultados de este método no alcanzan los excelentes

porcentajes del método de color sobre frutos maduros, suponen un notable

avance en los sistema de visión para la recolección de cítricos, superando a los

conseguidos hasta ahora en otros trabajos con fundamentos en la misma línea.

En conclusión, los métodos desarrollados han podido demostrar que el

reconocimiento y localización de los frutos mediante un sistema de visión

artificial es un hecho totalmente factible, con un alto grado de fiabilidad que

permite considerar, en lo que respecta al sistema de visión, la recolección

robotizada como una realidad muy próxima.

Las perspectivas más cercanas de las implicaciones de este trabajo se

orientan en estos momentos a una ampliación de las habilidades del sistema de

visión del robot que, además de reconocer y localizar los frutos, se está

considerando la posibilidad de aplicar parte de las técnicas aquí desarrolladas

(radio del fruto, distancia, índice de color) a una recolección mas selectiva de

los frutos, que, más que detectar, se propone seleccionar los frutos a base de

ciertos criterios de calidad antes de desprenderlos del árbol, tales como tamaño

del fruto e índices de color, conjugando los métodos de reconocimiento por

color y por forma de los frutos.

Asimismo, se van a aplicar el reconocimiento y localización de los frutos en

proyectos orientados a la aplicación selectiva de productos fitosanitarios, con el

fin de tratar solo en los puntos o zonas donde se precise, sobre todo orientado

a hortícolas y cereales.

Por último, otra de las próximas perspectivas es la aplicación de estos

métodos al conteo de frutos en muestreos de plantaciones, con el fin de realizar

estimaciones o previsiones de cosechas de cítricos de una forma objetiva y

automática.

Conclusiones

353

APÉNDICES

Apéndice A

RADIOMETRÍA Y FOTOMETRÍA.

CONCEPTOS BÁSICOS

La terminología aquí descrita sobre radiometría y fotometría es la adoptada

por la CIE (Commission International de l’Eclairage). Este vocabulario es el más

ampliamente utilizado, por lo cual es el que se adopta y se utiliza a lo largo de

este trabajo.

A.1 Magnitudes radiométricas

La energía que emiten los cuerpos cuando sus átomos o grupos de átomos pasan

de unos estados energéticos a otros, se puede interpretar como transportada por

ondas electromagnéticas o como fotones. Cualquiera que sea el modelo que se

elija para la interpretación de los fenómenos, lo cierto es que esta energía se

propaga por el espacio constituyendo la llamada energía radiante. Los cuerpos

que emiten energía radiante se llaman radiadores.

La energía emitida por un radiador en la unidad de tiempo recibe el

nombre de flujo radiante, Φ, y como tal potencia se mide en vatios (w). Puede

considerarse el flujo total, es decir la potencia radiada en todas las direcciones y

correspondiente a todas las longitudes de onda.

Se llama Intensidad radiante I de un punto emisor que en un ángulo sólido

dω emite un flujo radiante Φ, como el cociente I = dΦ ⁄ dω y se mide en

vatios/esterorradián.

Se denomina Exitancia radiante M al cociente entre el flujo radiante

emitido en todas las direcciones por un elemento de área dS, es decir,

M = dΦ ⁄ dS, y se mide en vatios por metro cuadrado (w ⁄ m2).

La Radiancia L de un punto de una superficie, emisor o receptor, en una

dirección dada, es el cociente del flujo radiante que sale o llega a un elemento

de superficie en ese punto y propagada en direcciones definidas por un cono

elemental conteniendo la dirección dada, y el área de proyección ortogonal del

elemento de superficie sobre un plano perpendicular a la dirección dada. O sea,

L = d2Φ

dω dA cosθ

donde dω es el ángulo sólido que subtiende la dirección dada y θ el ángulo que

forma esta dirección con la normal al elemento de la superficie dA . Se mide en

vatios por estereoradián y por metro cuadrado (w ⁄ estereoradián m2).

La irradiancia E se define como la razón del flujo radiante o energético

que recibe en total y en todas las direcciones un área dS, al área receptora, es

decir, E = dΦ ⁄ dS, y sus unidades son el vatio por metro cuadrado (w ⁄ m2).

La respuesta de un detector R, se define más generalmente como la

proporción de señal de salida respecto a la potencia de entrada. Sus unidades

dependen de la forma de la respuesta eléctrica que proporciona cada detector.

Si todas las magnitudes mencionadas se especifican como función de la

longitud de onda, entonces se le añade el adjetivo espectral, y a sus unidades hay

que añadirn, además, por unidad de intervalo de longitud de onda (nanómetro,

nm).

A.2 Magnitudes fotométricas

Al igual que la radiometría tiene a su cargo la evaluación de la radiación desde

el punto de vista energético exclusivamente, la fotometría tiene por objeto la

evaluación de la energía radiante como estímulo productor de una sensación

visual.

La sensación visual que resulta cuando el flujo radiante incide sobre la

retina tiene tres características: matiz, saturación y brillo. El término matiz o

tono se refiere a aquella característica que permite clasificar un color como rojo,

Apéndices

358

verde, azul, etc. Un gris neutro no tiene matiz, o mejor, su matiz es

indeterminado. En el aspecto físico, el tono se relaciona con la longitud de onda

de una luz del espectro continuo (longitud de onda dominante). La saturación

describe el grado en el cual un color se separa del gris neutro y se aproxima a

un color puro del espectro. Un gris neutro es totalmente insaturado y un color

espectral puro es completamente saturado. Tomadas en conjunto, las

características de matiz y saturación constituyen la cromaticidad de la sensación.

Un gris neutro no tiene ni matiz ni saturación, y se denomina acromático.

El brillo o claridad es la característica de cualquier sensación de color que

permite clasificarla como equivalente a la sensación producida por algún

elemento de una escala de grises neutros. En el aspecto físico, el brillo o

claridad se puede asociar a la exitancia de la fuente de luz o la luminancia del

objeto de que se trate.

Cantidades iguales de flujo radiante de distintas longitudes de onda no

producen sensaciones visuales de igual brillo. No se obtiene sensación de brillo

si la longitud de onda es mayor que 700 nm (comienzo de la región infrarroja) o

menor de 400 nm (comienzo de la utltravioleta). Por otra parte, cada observador

tienen diferente sensibilidad espectral, por lo que incluso en el aspecto

psicofísico es necesario establecer un observador patrón teórico. A fines de

normalización y comparación de datos fotométricos entre los laboratorios, se ha

adoptado por la Comisión Internacional de la Iluminación una curva patrón de

luminosidad. La curva de sensibilidad con buenas condiciones de iluminación se

denomina curva patrón de luminosidad.

Se define Flujo luminoso F de un radiador como el flujo energético

afectado por su eficiencia luminosa. Osea, si una fuente de energía radiante

emite un flujo energético Φλ en la longitud de onda λ, al que corresponde una

eficiencia luminosa Vλ, se define el flujo luminoso de dicho radiador como

Fλ = Φλ Vλ. Si la emisión es en el espectro continuo, en cada intervalo de

longitud de onda dλ tenemos

F = K∫ Φλ0

∞ Vλ dλ

Radiometría y fotometría. Conceptos básicos

359

donde la constante K depende del sistema de unidades elegido.

Como unidad del flujo luminoso se toma el lumen (lm). El lumen se

relaciona con el flujo energético, por definición, admitiendo que un vatio de

energía radiante correspondiente a la longitud de onda de 555 nm de máxima

eficiencia luminosa, V555, equivale a 680 lúmenes. Es decir, 1w555 = 680 lm .

Evidentemente un lumen no corresponde a un número de vatios fijo, depende

de la luminosidad relativa para cada longitud de onda marcada por la curva de

luminosidad patrón.

La Intensidad luminosa de una fuente puntual Il es el equivalente a la

Intensidad radiante pero sustituyendo el flujo radiante por el flujo luminoso,

Il = dF ⁄ dω. Su unidad es la candela (1 cd = 1 lm ⁄ 1 estereoradián).

De igual manera se define el equivalente de exitancia radiante como la

Exitancia luminosa Ml = dF ⁄ dS, y sus unidades son el lumen por metro cuadrado

(lm ⁄ m2).

La iluminancia o iluminación El es el concepto análogo en radiometría a la

irradiancia, utilizando el flujo luminoso, El = dF ⁄ dS. La unidad es el lux

(1 lx = 1 lm ⁄ 1 m2). La iluminancia en punto de una superficie se define como la

iluminancia en un entorno de superficie que contiene al punto.

Apéndices

360

Apéndice B

CÁMARAS CCD

La información visual se convierte en señales eléctricas por los sensores

visuales. Cuando estas señales eléctricas se muestrean espacialmente, y se

cuantifican en amplitud, se obtiene de ellas una imagen digital.

Los principales dispositivos utilizados para la visión artificial son las cámaras

de televisión, que están compuestas por un sensor basado en un dispositivo de

estado sólido o, en el pasado, más frecuentemente, por válvulas electrónicas. Los

sensores de imagen de estado sólido son los llamados dispositivos de

acoplamiento de carga (CCD, Charge Coupled Device), éstos nos ofrecen gran

número de ventajas respecto a las cámaras de tubo, como son su menor peso,

menor tamaño, una vida más larga y un menor consumo en potencia.

Los dispositivos CCD se pueden dividir, según los sensores, en dos

categorías: sensores de exploración de línea y sensores de área. El componente

básico de un sensor CCD de exploración de línea es una hilera de elementos de

silicio llamados photosites. Los fotones de la imagen pasan a través de una

estructura transparente policristalina de silicio y son absorbidos en el cristal de

silicio, creando así pares electrón-hueco. Los fotoelectrones que así se obtienen

son recogidos en los photosites, siendo la cantidad de carga acumulada en cada

photosite proporcional a la intensidad de la luz recibida en ese punto. Según se

muestra en la figura B.1, un sensor de exploración de línea típico está

compuesto por una fila de elementos de imagen de los ya descritos, dos puertas

de transferencia para registrar los contenidos de los elementos de imagen en los

así llamados registros de transporte, y una puerta de salida para transferir los

contenidos de los registros de transporte a un amplificador cuya salida es una

señal de tensión proporcional a los contenidos de la hilera de photosites.

Figura B.1. Sensor de exploración de línea.

Figura B.2. Sensor matricial.

Apéndices

362

Los sensores de área son similares a los de exploración de línea, con la

diferencia de que los photosites están reunidos en forma de matriz y existe un

conjunto de registros de transporte y puertas para cada columna de photosites

(figura B.2). Los contenidos de los photosites impares son secuencialmente

transferidos a los registros verticales de transporte y posteriormente al registro

horizontal de transporte. El contenido de este registro es enviado a un

amplificador cuya salida es una línea de video. Repitiendo este procedimiento

para las líneas pares completamos el segundo campo de un cuadro de televisión.

En el sistema PAL se codifican 25 cuadros en un segundo, y en el sistema

NTSC 30 por segundo.

Como hemos podido notar, primero se codifican en la señal de vídeo las

filas impares de un campo de la imagen y después las pares, completando un

cuadro imagen completo. Esto es lo que se denomina campos entrelazados y su

origen viene de la exploración que realiza el haz de electrones en las cámaras

de tubo. La razón de ello es porque si se realizara la exploración

secuencialmente y el resultado fuera mostrado en un monitor de televisión, la

imagen podría parpadear perceptiblemente, de esta manera, dividiendo cada

cuadro en dos campos entrelazados se evita este fenómeno visual.

Cámaras CCD

363

Apéndice C

ÁRBOLES BINARIOS

DE CLASIFICACIÓN.

CONCEPTOS Y FORMULACIÓN

La notación y conceptos que se exponen en este apartado y que se utilizan

en el capítulo 7, es la seguida por Breiman et al (1984), cuya labor ha servido

de referencia en posteriores trabajos de diversos autores (Quinlan, 1987; Chou et

al, 1989; Boswell, 1990; Chou, 1991).

En primer lugar definir el vector de medidas o vector de características x

correspondiente a un conjunto de medidas (x1,x2,...) realizadas sobre un elemento.

El conjunto de los vectores de medidas tal que puedan contener todos los

posibles valores sobre los elementos sobre las que se realizan, es el espacio de

medida χ.

Las variables xn que constituyen el vector de medidas x pueden ser de dos

tipos, ordenadas o numéricas, si sus valores son números reales, y categóricas, si

toman valores en un conjunto finito sin tener ningún orden natural, es decir los

llamados conjuntos enumerados.

Si un vector x tiene una dimensión fija, entonces se dice que los datos

relativos al problema tienen una estructura estándar. Hay que señalar que los

árboles de clasificación pueden tratar vectores de medidas de estructura variable,

la cual puede cambiar la dimensión en cada momento.

Supongamos que cada objeto o elemento definido por un vector de

medidas x puede pertenecer a una de las J clases posibles dentro del conjunto

de clases definido por C = 1,2,...,J

.

Con todo ello, un clasificador se puede definir como una función d(x), x∈ χ,

tal que d(x) es igual a una de los números 1,..,J, es decir, la función d asigna

una clase al vector x.

Por otra parte, si definimos Aj como el subconjunto de χ donde d(x) = j, es

decir, Aj = x; d(x) = j

, los conjuntos A1,A2,...,Aj son disjuntos y χ = ∪

jAj, de

manera que los subconjuntos Aj, j= 1,..,J forman una partición de χ. Por tanto se

puede definir un clasificador como una partición del espacio χ en J subconjuntos

disjuntos A1,..,AJ tal que χ = ∪ j

Aj, siendo para cada elemento x∈ Aj la clase j

como su clase predecida.

Lo que hace que un conjunto de datos sea interesante no es sólo la

cantidad de elementos que contenga, sino también su complejidad, entendiendo

que la complejidad puede incluir consideraciones como que tenga una dimensión

alta, la mezcla de tipos de datos y las estructuras de datos que no sea estándar.

Los clasificadores se construyen a partir de lo que se podría llamar

experiencias pasadas, mediante las cuales el clasificador aprende a asignar la

clase correcta a un nuevo objeto. En la construcción sistemática de clasificadores

esta experiencia pasada se sintetiza en forma de muestras de aprendizaje.

Un conjunto de N muestras de aprendizaje consiste en datos de la forma

(x1,j1), (x2,j2),..., (xN,jN), donde xn∈ χ y jn∈ C = 1,2,..,J

, y n = 1,..,N. El conjunto

de muestras de aprendizaje se denota por L , es decir,

L = (x1,j1),(x2,j2),...,(xN,jN)

C.1 Árboles binarios de clasificación

Los árboles binarios de clasificación consisten en un árbol cuyo nodo raíz

representa al espacio total χ, el cual se divide en dos nodos descendientes χL y

χR, que constituyen una partición binaria del espacio inicial, y ellos a su vez se

dividen en otros dos nodos hijos que constituyen una partición del subconjunto a

que representa el nodo padre. Las particiones en cada nodo para generar los

Apéndices

366

nodos hijos se generan por medio de condiciones sobre las coordenadas del

vector de medidas x = (x1,x2,...).

Los nodos terminales forman una partición del espacio χ. Cada subconjunto

al que representa un nodo terminal se le asigna una etiqueta. Pueden existir más

de un nodo terminal cuya etiqueta o clase correspondiente sea la misma. La

partición del espacio χ correspondiente al árbol viene dada colocando en el

mismo subconjunto Aj a todos aquellos nodos terminales que tienen asignados la

clase j.

Un árbol de clasificación predice la clase para un nuevo vector de medidas

x recorriendo el camino que seguirá este vector desde el nodo raíz,

determinando a que partición pertenece representada por sus dos nodos

descendientes, y así sucesivamente hasta alcanzar un nodo terminal, asignándole

la clase prevista como la clase o etiqueta que tiene asociado ese nodo terminal.

Por lo tanto, la construcción de un árbol de clasificación se fundamenta en

tres puntos:

1- La selección de las particiones en cada nodo.

2- La decisión de cuando declarar un nodo como terminal o continuar el

proceso de partición.

3- La asignación de una clase a cada nodo terminal.

C.2 Construcción de árboles de clasificación

La idea fundamental es seleccionar en cada nodo una partición tal que los datos

en cada uno de los subconjuntos descendientes sean más "puros" que los datos

en el subconjunto padre. Un subconjunto posee datos que son más "puros"

cuanto mayor es la proporción de los elementos de ese subconjunto que forman

parte de una misma clase.

La idea de encontrar las particiones para producir nodos descendientes más

"puros" se lleva a cabo de la siguiente forma:


367

1- Definir las proporciones p(j| t), j = 1,..,J del nodo t para cada clase j,

como las proporciones de los casos o elementos xn∈ t pertenecientes a la clase j,

por tanto

p(1| t) + … + p(J| t) = 1

es decir, si en el nodo t existen N(t) elementos en total, de los cuales Nj(t) son

los que pertenecen a la clase j, la proporción de elementos de la clase j será

p(j| t) = Nj(t) ⁄ N(t).

2- Definir una medida de impuridad i(t) del nodo t como una función no

negativa Φ de las proporciones del nodo p(j| t), j = 1,..,J tal que

a) Φ(1 ⁄ J,...,1 ⁄ J) = máximo

b) Φ(1,0,..,0) = Φ(0,1,0,..,0) = .. = Φ(0,..,0,1) = 0

c) Φ sea una función simétrica de las proporciones

Es decir, la impuridad de un nodo es más grande cuando todas las clases

están presentes en la misma proporción en el nodo, y más pequeña cuando el

nodo contenga sólo elementos de una misma clase.

Si s es una posible partición del nodo t en sus dos hijos tL y tR, tal que la

proporción pL de casos en t va a parar a tL , y la proporción pR de casos en t

va a parar a tR, entonces la bondad de la partición s se define como el

decrecimiento de la impuridad

∆ i(s,t) = i(t) − pL i(tL) − pR i(tR)

3- Por último, se define un conjunto S de posibles particiones s para cada

nodo, que generalmente se construyen a partir de un conjunto de cuestiones Q

de la forma

¿x∈ A?, A ⊂ χ

Apéndices

368

entonces la partición asociada s envía todos los xn del nodo t al nodo tL si

cumple la condición y al nodo tR en caso contrario. En realidad, si la cuestión

es de la forma anterior, entonces tL = t∩ A y tR = t∩ Ac, donde Ac es el

complementario de A en χ.

Antes de seguir con el método general de construcción de un árbol de

clasificación, es necesario formular algunos conceptos que permitan formalizar

este método.

En lo relativo al conjunto de muestras de aprendizaje L a partir del cual

se construye el árbol, a menudo se toman como probabilidad a priori π(j) de la

clase j como las proporciones de los casos presentes de la clase j en el conjunto

total de muestras L , es decir, π(j) = Nj ⁄ N donde N es el número total de

muestras del conjunto de aprendizaje y Nj el número de muestras de la clase j

presentes en el conjunto total.

No obstante, el conjunto de muestras de aprendizaje puede no reflejar las

proporciones esperadas en posibles casos futuros. De cualquier modo, el conjunto

de probabilidades a priori π(j)

puede ser estimado o fijado por el analista a su

propio criterio.

Sea N(t) el número total de casos en el nodo t del conjunto total de

muestras de aprendizaje L , y Nj(t) el número de casos de la clase j en el nodo

t. Para un conjunto de probabilidades a priori, π(j) se interpreta como la

probabilidad de que una clase j esté presente en el árbol. Por lo tanto, se toma

p(j,t) = π(j) Nj(t)

Nj

como la estimación de restitución para la probabilidad de que un caso sea de la

clase j y esté en el nodo t.

La estimación de la probabilidad p(t) de que cualquier caso se halle en el

nodo t se define por


369

p(t) = ∑ j

p(j,t)

y la estimación de la probabilidad de que un caso de una clase j dada esté en

el nodo t se define como

p(j| t) = p(j,t)p(t)

que satisface que ∑ j

p(j| t) = 1

Cuando π(j) = Nj ⁄ N

, entonces p(j| t) = Nj(t) ⁄ N(t), es decir, las

proporciones relativas de la clase j en el nodo t.

C.2.1 El conjunto de cuestiones estándar y la regla de generación de

particiones

Si los datos poseen una estructura estándar, el conjunto de cuestiones sobre los

elementos x puede ser formulado de una manera estándar. Esta estandarización

se puede definir sobre elementos del tipo x = (x1,...,xM) donde M es la dimensión

fija de las variables x1,...,xM que pueden ser mezclas de variables ordenadas o

enumeradas.

El conjunto Q de cuestiones estándar se define en acuerdo a estos criterios:

1- Cada partición depende del valor de una única variable.

2- Para cada variable ordenada xm , Q incluye todas las cuestiones de la

forma

¿xm ≤ c ? c∈ (− ∞ ,∞)

3- Si xm es enumerada, tomando valores en el conjunto b1,b2,...,bL

,

entonces el conjunto de cuestiones Q son todas aquellas de la forma

¿xm ∈ S ?

Apéndices

370

con S cualquiera de los subconjuntos posibles formados a partir de b1,b2,...,bL

.

Existe un número finito de particiones diferentes para cada coordenada en

ambos casos. Para variables ordenadas, si el conjunto de muestras de aprendizaje

L tiene N elementos, existe como máximo N particiones diferentes posibles de

una coordenada ordenada xm , tomando los valores intermedios entre dos valores

diferentes de la variable xm en dos puntos consecutivos de L ordenados de

menor a mayor en esa coordenada.

Para variables enumeradas, puesto que xm ∈ S, es decir, un elemento sólo es

uno de sus subconjuntos, eliminando esta posibilidad, existen 2L− 1 particiones

definidas sobre la variable enumerada xm .

En cada nodo se busca la partición s sobre cada coordenada que maximice

el decrecimiento de la impuridad ∆ i(s,t), y a su vez, la partición s∗ de la

coordenada que maximice este decrecimiento de la impuridad.

Desde un punto de vista geométrico, el árbol parte recursivamente el

espacio χ en rectángulos o hiper-rectángulos tal que las poblaciones de los

elementos dentro de ellos tiendan a ser de una clase más homogénea.

Otra manera de interpretar el proceso de generar particiones es la

siguiente. Si llamamos al conjunto de nodos terminales de un árbol T~, sea

I(t) = i(t) p(t), y definase la impuridad total del árbol I(T) como

I(T) = ∑

t∈ T~I(t) = ∑

t∈ T~i(t) p(t)

es fácil ver que la partición s∗ que maximiza ∆ i(s,t) es la misma que

considerando el proceso equivalente de minimizar la impuridad total del árbol

I(T).

Existen varios criterios que pueden llevar a utilizar una definición de la

función impuridad para seleccionar la mejor partición en cada nodo, sin

embargo, la conclusión alcanzada por Breiman et al (1984) es que dentro de un

amplio rango de criterios de particiones, las propiedades del árbol final


371

seleccionado no dependían de la elección de la regla para generar las

particiones. Los criterios para seleccionar el árbol correcto eran mucho más

importantes.

C.2.2 La asignación de clases y la estimación del error de restitución

Supongamos que se ha construido un árbol T que posee T~ nodos terminales. Se

denotará la regla de asignación a una clase j∈ 1,...,J

para cada nodo terminal

t∈ T~ como j(t).

Si se define C(i| j) como el coste de clasificar erróneamente un objeto de

la clase j como un objeto perteneciente a la clase i, estos costes tienen que

satisfacer

C(i| j) ≥ 0, i ≠ jC(i| j) = 0, i = j

Dado un nodo t con probabilidades estimadas p(j| t) para cada clase j = 1,..J

en tal nodo, si se selecciona aleatoriamente un objeto de clase desconocida y el

árbol de clasificación lo envía al nodo terminal t y es clasificado como clase i,

entonces el error de clasificación esperado será

∑ j

C(i| j) p(j| t)

Por tanto, la regla de asignación a una clase j(t) = i0 de un nodo t se toma

como aquella clase i0 que minimice la expresión anterior.

En el caso particular de que los costes en la clasificación errónea sean

todos unitarios, C(i| j) = 1, i≠ j, se tiene que

∑ j

C(i| j) p(j| t) = 1 − p(i| t)

Apéndices

372

con lo que la regla de asignación de clases se convierte en j(t) = i0 a aquella

clase i0 tal que la probabilidad p(j| t) de la clase j, j= 1,...,J en el nodo t sea

máxima.

Se define la estimación del error de restitución esperado r(t) del nodo t

(ver sección C.4) como

r(t) = mini

∑ j

C(i| j) p(j| t)

y se define la estimación del error total de restitución R(T) del árbol T como

R(T) = ∑

t∈ T~r(t) p(t) = ∑

t∈ T~R(t)

donde R(t) = r(t) p(t).

Una importante propiedad del error de restitución de un árbol es que

cuanto más particiones se realizan y más grande es el árbol, el error de

restitución R(T) siempre decrece. Esto se deriva de una proposición que afirma

que para cualquier partición de un nodo t en tL y tR, se cumple

R(t) ≥ R(tL) + R(tR)

lo que significa, que si un árbol T ′ ha sido formado generando particiones a

partir de otro árbol T, entonces

R(T ′) ≤ R(T)

C.3 Ventajas e inconvenientes de los árboles de clasificación

Los árboles binarios de clasificación son un procedimiento recursivo e iterativo

que requiere la especificación de tres elementos para su utilización:


373

a) Un conjunto de cuestiones Q.

b) Una regla de selección de la mejor partición en cada nodo.

c) Un criterio para elegir el árbol correcto.

Las principales ventajas por las que es atractivo este tipo de clasificador

pueden resumirse en estos puntos:

1- Puede utilizar cualquier tipo de estructura de datos, formulando el

conjunto de cuestiones Q apropiado.

2- El proceso de clasificación una vez construido el árbol es simple,

facilitando la clasificación de un nuevo elemento en tiempos reducidos.

3- Realiza una selección de particiones de forma óptima y automática paso

a paso, reduciendo por este método paso a paso la complejidad de su

construcción.

4- Es muy robusto frente a la presencia de muestras ruidosas (outliers) en

el conjunto de aprendizaje, que podrían conducir a la elaboración de un

clasificador erróneo.

Otras de sus ventajas van dirigidas a variantes de la metodología de árboles

de clasificación, como el tratamiento de muestras cuya información es incompleta

o la obtención de una interpretación de la estructura del problema, estimando la

importancia de cada variable.

Las principales desventajas pueden ser :

1- Aunque la reducción de la complejidad en su elaboración pasa por un

procedimiento óptimo paso a paso por la elección de la mejor partición, este

viene en menosprecio de no ser un método de búsqueda de un subconjunto

óptimo global.

2- La búsqueda exhaustiva de la mejor partición en cada nodo, puede llevar

a elevados tiempos de proceso en los casos de dimensión elevada del vector de

medidas, o conjunto de muestras de aprendizaje muy grande, sumandose a ello

el elevado coste que requieren ciertos procedimientos para seleccionar el árbol

correcto.

Apéndices

374

C.4 Estimación del error de clasificación

Dado un clasificador d(x) definido sobre el espacio χ, este clasificador tendrá

una probabilidad de error en la clasificación. Denótese la probabilidad real de

error de clasificación del clasificador d como R ∗ (d). A R ∗ (d) también se le llama

probabilidad asintótica de clasificación errónea, cuyo significado se expresa en los

siguientes términos: si se ha utilizado un conjunto de muestras de aprendizaje

para construir d, comprobando luego el clasificador con un número de muestras

que tienda a infinito, la proporción de muestras mal clasificadas tiende al valor

R ∗ (d).

Si se define el espacio χ x C como el conjunto de parejas (x,j) con x∈ χ y

j∈ C, donde C = 1,..,J

el conjunto de clases posibles, P(A ,j) se puede interpretar

como la probabilidad de que un vector de medidas x esté en A y su clase sea j.

Asumiendo que el conjunto de muestras de aprendizaje L se ha extraído

aleatoriamente de la distribución de probabilidad P(A ,j) para construir el

clasificador d, se define R ∗ (d) como la probabilidad de que d clasifique

erróneamente un nuevo caso extraído de la misma distribución de probabilidad

P(A ,j) de la que fue extraído L . Por tanto si (x,y), x∈ χ, y∈ C, es un nuevo caso

extraído de la distribución de probabilidad P(A ,j), es decir, P(x∈ A ,y= j) = P(A ,j),

siendo (x,y) independiente de L , se define R ∗ (d) como

R ∗ (d) = P(d(x) ≠ y)

La regla o el clasificador más preciso que puede realizar la clasificación de

muestras extraídas de una distribución de probabilidad P(A ,j) es el clasificador

de Bayes, dB(x). Es decir, se puede definir el clasificador de Bayes como el

clasificador dB el cual, dado otro clasificador d que actúe sobre la misma

distribución de probabilidad P(A ,j), se cumple siempre que

RB = P(dB(x) ≠ y) ≤ P(d(x) ≠ y) = R ∗ (d)


375

La regla de clasificación de Bayes dB se puede definir a partir de las

densidades de probabilidad condicionales de cada clase pj(x), tal como se definió

en el capítulo 5, así como el cálculo del error del clasificador de Bayes RB. Sin

embargo, en la práctica ni las probabilidades a priori π(j) ni las densidades de

probabilidad condicional pj(x) son conocidas. Aunque las probabilidades a priori

pueden ser estimadas, el conocimiento o estimación de la densidad de

probabilidad condicional es imposible o extremadamente complejo en la mayoría

de los casos reales, aunque a veces se pueden realizar estimaciones adoptando

modelos teóricos de densidad de probabilidades condicionales.

Dada la imposibilidad práctica de utilizar siempre el clasificador de Bayes o

de estimar el error de Bayes para una distribución de probabilidad dada, lo que

se hace en la práctica es estimar la probabilidad real de un clasificador R ∗ (d)

por medio de otros métodos.

En un problema real no se dispone de un número infinito de muestras

extraídas de la distribución de probabilidad P(A ,j), sino que se dispone del un

conjunto finito de muestras de aprendizaje L . La utilización de este mismo

conjunto L para construir el clasificador y estimar su error, da paso a los

métodos de estimación interna. Los tres tipos fundamentales son:

1- El error de restitución R(d), el cual utiliza todas las muestras de L para

construir el clasificador d, y esas misma muestras para estimar su error. La

proporción de casos mal clasificador será el error de restitución, es decir,

R(d) = 1N

∑ n= 1

N

(d(xn) ≠ jn)

donde (x1,j1),..,(xN,jN) es el conjunto de muestras L , y el paréntesis (d(xn) ≠ jn)

tiene valor unidad si se cumple la condición representada en su interior, o cero

si no se cumple.

2- La estimación por test de muestras Rts(d), donde el conjunto de

aprendizaje se divide en dos, L1 y L2. Sólo los casos en L1 se utilizan para

construir el clasificador, y los de L2 para realizar la estimación Rts(d) del error

real R ∗ . Por tanto Rts(d) viene dado por

Apéndices

376

Rts(d) = 1

N2 ∑

(xn,jn)∈ L2

(d(xn)≠ jn)

En este método las muestras pertenecientes al conjunto test L2 se

consideran independientes de las muestras del conjunto L1 y extraidas de la

misma distribución de probabilidad. El procedimiento más común utilizado para

cumplir esta condición, es extraer L2 aleatoriamente a partir de las muestras en

L .

3- La validación cruzada Rcv(d), donde el conjunto L se divide en V

subconjuntos, L1,L2,..,LV, de tamaño lo más similar posible. Para cada v, v= 1,..,V,

se aplica el procedimiento de aprendizaje y estimación del error del clasificador

d(v)(x), utilizando como conjunto de aprendizaje L− Lv, y como conjunto test los

casos en el subconjunto Lv. Para estimar el error R ∗ (d(v)) del clasificador

encontrado, se utiliza el método del test de muestras con el conjunto test Lv,

Rts(d(v)) = 1

Nv ∑

(xn,jn)∈ Lv

(d(xn)≠ jn)

donde Nv ≈ N ⁄ V es el número de casos en Lv. Este proceso se repite para todos

los subconjuntos v, v= 1,..,V.

El fundamento básico del método de validación cruzada es que se asume

que para un número de divisiones V del conjunto L lo suficientemente grande,

los clasificadores d(v), v= 1,..,V, construidos utilizando casi todo el conjunto L ,

tienen una probabilidad de error real R ∗ (d(v)) cercana a la clasificador d, R ∗ (d),

construido con todo el conjunto L . Mediante esta suposición, se define la

estimación del error por validación cruzada Rcv(d) del clasificador d dado el

conjunto de aprendizaje L como

Rcv(d) = 1V

∑ v= 1

V

Rts(d(v))


377

Dividiendo el conjunto L en N subconjuntos, es decir, cada elemento de L

un subconjunto, se obtiene el método del leaving-one-out (dejando uno fuera).

Las estimaciones por validación cruzada tienen un elevado coste computacional,

por lo que no son aconsejables cuando se dispone de suficiente número de

muestras. No obstante es preferible cuando el número de muestras disponible

para el aprendizaje es reducido.

Cada uno de estos métodos de estimación del error (restitución R(d), test

de muestras Rts(d), validación cruzada Rcv(d)) del clasificador d(x) tiene su bias

(desviación o alejamiento) respecto de la probabilidad de error real o asintótica

R ∗ (d).

El método de restitución R(d) siempre produce estimaciones sesgadas que

se desplazan de manera optimista de la probabilidad de error real R ∗ (d). De

todas formas, este tipo de estimación se podría utilizar para conjuntos de

muestras de aprendizaje lo suficientemente extensos, cosa que no ocurre

normalmente en la práctica.

El método de validación cruzada Rcv(d) tiende siempre a producir

estimaciones que se desvían en forma pesimista de la probabilidad de error real

R ∗ (d), por lo que en cierta manera puede ser preferible. El estudio de las

propiedades estadísticas de la validación cruzada es extremadamente complicado

debido a lo complejo de su formulación. En su lugar existen estudios basados en

consideraciones heurísticas para aproximar la desviación de esta estimación

respecto de la probabilidad de error real o de la probabilidad de error esperado

dado cierto conjunto de muestras de aprendizaje, por ejemplo, el error de

restitución junto con el error estimado mediante el método del leaving-one-out,

se pueden utilizar para estimar el valor de la probabilidad de error real o

asintótico (Raudys & Jain, 1991), o el error estándar de la estimación por

validación cruzada (Breiman et al, 1984).

La estimación por medio del test de muestras, Rts(d), es un método que ha

sido bien estudiado. La distribución de probabilidad de la estimación del error

por test de muestras obedece a una distribución binomial (Duda & Hart, 1973),

si se considera que k de las N2 muestras extraídas independientemente de L han

Apéndices

378

sido erróneamente clasificadas. Estimando la probabilidad de error p∗ = k ⁄ N2

como la proporción de casos mal clasificados del conjunto de muestras L2, la

distribución de probabilidad binomial P en función de p∗ , se expresa como

P =

N2k

p∗ k

(1− p∗ )N2− k

y su error estándar, teniendo en cuenta que por la definición de estimación por

test de muestras p∗ = Rts(d),

SE(Rts(d)) =

Rts(d) (1− Rts(d))N2

1 ⁄ 2

Aunque claramente la probabilidad de error por el método de test de

muestras tiene un desplazamiento o bias nulo respecto de la probabilidad

esperada, el intervalo de confianza de la estimación del error real es función del

número de muestras utilizado N2. Este comportamiento también ha sido bien

Figura C.1. Intervalos de confianza entre para el error estimado(Duda & Hart, 1973).

20

errorreal

1,0

00,5

15

10

50

100

250

1000

30

0,5

error estimado

1,0


379

estudiado, en concreto la figura C.1 muestra los intervalos de confianza de que,

para cierto número de muestras, la probabilidad de error real para cada error

estimado se encuentre con un 95 % de probabilidad (Duda & Hart, 1974) entre

los valores de la región comprendida entre las dos curvas para cierto número de

muestras.

Por otra parte, tal como propone Raudys & Jain (1991), el comportamiento

en general de los estimadores de error en función del número de muestras se

puede expresar a partir del error estándar de la estimación, que considerando

que el error estimado no se desvíe más de un k % del error real R ∗ (d), se

encuentra la relación entre el número de muestras para el test N2, la

probabilidad de error real R ∗ (d) y el tanto por cien de desviación de la

estimación, k, respecto a la probabilidad de error real

N2 = 4 (1− R ∗ (d))

R ∗ (d) (k ⁄ 100)2

por medio de la cual se puede estimar el número de muestras necesarias N2

para estimar un cierto valor real esperado R ∗ (d) con una variación de un k %

respecto de éste.

En el caso de la estimación por test de muestras, el hecho de dividir el

conjunto inicial de aprendizaje L en dos, L1 y L2, para construir el clasificador y

verificar su error respectivamente, plantea el dilema de la proporción de

muestras del conjunto inicial que va a cada uno de estos conjuntos. La

desventaja de este método es que no todas las muestras de L se utilizan para

construir el clasificador, y por tanto, si L1 es grande, entonces se obtiene un

error estimado con una varianza mayor y por consiguiente una estimación más

pobre. Por el contrario, si L2 es mucho más grande que L1, el error estimado es

mejor, pero no se obtiene un buen diseño del clasificador.

La búsqueda de una división óptima del conjunto inicial L en estos dos

conjuntos no ha sido muy estudiada, aunque es costumbre por parte de los

analistas utilizar reglas relativas a ciertas proporciones fijas, sin ninguna

justificación teórica. Raudys & Jain (1991) propusieron para ello una función de

Apéndices

380

pérdidas que evaluara la pérdida conjunta en la estimación del error y el diseño

del clasificador, mediante la cual, buscando los mínimos de esta expresión para

cada caso en concreto (número de muestras, error esperado, etc), se puede

aproximar la elección de una división del conjunto inicial de aprendizaje. No

obstante sigue siendo un criterio propuesto por estos autores sobre el que no

hay ninguna prueba fehaciente.


381

Apéndice D

OPERADORES LINEALES

Y FILTROS

El término imagen monocroma se refiere a una función bidimensional de la

intensidad luminosa I(x,y), donde x e y denotan las coordenadas espaciales y el

valor o amplitud I en el punto (x,y) es proporcional al brillo o nivel de gris de

la imagen en tal punto. Puesto que la luz es una forma de energía, el valor de

I(x,y) debe ser positivo y finito.

Para obtener una imagen en la forma adecuada para su proceso por

ordenador, una imagen I(x,y) se debe digitalizar tanto espacialmente como en

amplitud. La digitalización de las coordenadas espaciales (x,y) se denomina

muestreo de la imagen, mientras que la digitalización en amplitud se llama

cuantización del nivel de gris.

Las imágenes digitales se ordenan en forma de matrices de n x m

elementos, los cuales han sido muestreados a partir de una imagen continua a

iguales intervalos espaciales y cada uno de ellos a su vez en amplitud. A cada

elemento de esta matriz o imagen digital se le denomina píxel o elemento

imagen.

Si el muestreo de los valores de la imagen se realiza en lo que serían los

puntos de una malla cuadrada o rectangular, obtenemos lo que se denomina

representación digital de una imagen en trama cuadrada. En esta representación

un punto (x,y) de la imagen tiene cuatro vecinos, dos horizontales y dos

verticales, que corresponden a los puntos de coordenadas

(x− 1, y) (x, y− 1) (x, y+ 1) (x+ 1, y)

A estos puntos se les llama los 4-vecinos de un punto (x,y), y se dice que

un punto es 4-adyacente a (x,y) si es alguno de sus 4-vecinos. Además el punto

(x,y) tiene 4 vecinos diagonales,

(x− 1, y− 1) (x− 1, y+ 1) (x+ 1, y− 1) (x+ 1, y+ 1)

A estos vecinos, junto con los 4-vecinos anteriores, se les denomina

8-vecinos del punto (x,y), y cada uno de ellos es 8-adyacente a tal punto. Cuando

se define la conectividad en imágenes digitales se habla de conectividad-4 si se

consideran sólo los vecinos 4-adyacentes a un punto para definir la conectividad,

o conectividad-8 si se consideran los vecinos 8-adyacentes definidos

anteriormente.

D.1 Convolución digital

La teoría de sistemas lineales es una rama de las matemáticas utilizada para

describir, por ejemplo, sistemas ópticos o circuitos eléctricos, y que proporciona

una base matemática para ciertos filtros en proceso digital de imágenes.

Sea la transformación G(x,y) = T(I(x,y)) donde I(x,y) es la imagen original y

G(x,y) es el resultado o imagen filtrada por la operación del filtro T. T es una

operación que se puede representar por un sistema lineal si cumple ciertas

condiciones, lineal e invariante frente a desplazamientos, entonces la salida del

filtro se puede expresar matemáticamente por

G(x,y) = ∫ I(t,s) h(x− t,y− s) dt ds

donde h(s,t) es la llamada respuesta impulso del filtro y es una función que

caracteriza completamente al filtro. Esta expresión integral se denomina

comúnmente una integral de convolución y se escribe de manera abreviada como

G = h ∗ I.

Apéndices

384

En el caso digital, las integrales se convierten en sumatorios, por lo tanto

tenemos para imágenes digitales la expresión de un filtro lineal como

G(i,j) = ∑ k= − ∞

k= + ∞ ∑

l= − ∞

l= + ∞I(k,l) h(i− k,j− l)

Aunque los limites de los sumatorios son infinitos, la función h es

normalmente igual a cero fuera de cierto rango. Si el rango en el cual h es no

nula es (− w,+ w) a lo largo de la variable k, y (− v,+ v) en la variable l, tenemos

G(i,j) = ∑ k= − w

k= + w

∑ l= − v

l= + v

I(k,l) h(i− k,j− l)

lo que significa que la salida G(i,j) en el punto (i,j) viene dada por la

suma pesada por la función del filtro h(k,l) de los valores de los píxels que

rodean el punto (i,j), es decir, la imagen filtrada G(i,j) se crea a partir de una

serie operaciones desplazamiento-multiplicación-suma en una especie de barrido

por la imagen I(i,j) de los valores de h que forman el llamado núcleo o kernel

del filtro, o más comúnmente la máscara del filtro. Por razones de simetría,

h(k,l) se toma casi siempre de tamaño m x n donde ambos, m y n, son números

impares.

D.2 Filtros de suavizado

Las operaciones de suavizado de la imagen se utilizan generalmente como

pre-procesos para reducir efectos espúreos en forma de ruido o demasiado

detalle de una imagen. Los filtros de suavizado se pueden realizar en los dos

dominios de la imagen, el espacial y el de frecuencias. Los filtros en el espacio

de frecuencias son simples de aplicar pero lo costoso de la transformación

espacio-frecuencias por medio de la transformada de Fourier hace que los filtros

espaciales, mas rápidos en su aplicación, se utilicen más comúnmente.

Operadores lineales y filtros

385

Suavizar una imagen es relativamente sencillo, la dificultad reside en que al

suavizar desaparecen ciertas características de la imagen junto con la eliminación

del ruido u otros efectos molestos. Por esta razón existe una familia de filtros

llamados de preservación de bordes, ya que los bordes en las operaciones de

suavizado quedan difuminados.

En la literatura podemos encontrar varios filtros de suavizado, lineales y no

lineales. El filtro de suavizado lineal más común es el filtro media, que consiste

en convolucionar una máscara de cierto tamaño y forma donde todos los

elementos de la mascara son la unidad. Por cuestión de escalas, el resultado se

divide por el número de elementos en el que la máscara está definida.

El filtro de preservación de bordes más conocido es el filtro mediana. La

mediana de un conjunto de números es el valor tal que, ordenando de menor a

mayor los elementos del conjunto, corresponde al valor que queda en medio, es

decir, el que tiene por encima y por debajo de él la mitad de los elementos del

conjunto. El filtro mediana se define sobre los elementos que comprenden la

región de la máscara establecida.

D.3 Filtros de realce y extracción de bordes

Los filtros de realce de bordes son lo contrario de los filtros de suavizado.

Mientras los filtros de suavizado son filtros pasa baja, los filtros de realce de

bordes son filtros pasa alta, y su efecto es potenciar o realzar los bordes

respecto al resto de los puntos de la imagen. El termino detector de bordes

también se utiliza. Un simple filtro pasa alta puede utilizarse como filtro de

extracción de bordes, pero mas generalmente, incluyen umbrales para dividir los

puntos en dos categorías, bordes y no bordes, incluso con procedimientos de

enlace de píxels de los bordes que estén conectados.

Los filtros de extracciòn de bordes se dividen, de forma general, en dos

grupos, los operadores gradiente y los Laplacianos. Una forma simple de utilizar

los operadores gradiente como filtro de extracción de bordes es coger sólo la

magnitud del gradiente en un punto de la imagen. Moviéndose en dirección

perpendicular al borde, el gradiente comienza desde el valor cero pasando por

Apéndices

386

un máximo y volviendo de nuevo a cero, ello provoca la obtención de anchos

bordes a los que después se les realiza una operación de refinamiento. Los

filtros Laplacianos sólo dan información sobre la magnitud, es decir, el resultado

es un escalar, mientras que los operadores gradiente dan magnitud y dirección.

D.4 Operadores de Marr o el "sombrero mejicano"

Los cambios de intensidad en una imagen surgen de discontinuidades en la

superficie, de reflexiones o bordes de iluminación, teniendo todos ellos la

propiedad de estar espacialmente localizados. La mayor dificultad en la detección

de cambios de intensidad en una imagen es que éstos ocurren en un amplio

rango de escalas. Un filtro simple no puede ser óptimo para detectar estos

cambios en todas las escalas, por lo tanto se debe tratar separadamente los

cambios que surgen a diferentes escalas.

El propósito de un filtro de suavizado es reducir el rango de escalas sobre

las cuales los cambios de intensidad tienen lugar. El espectro del filtro deberá

ser suave y de banda limitada en el dominio de las frecuencias. Se puede

expresar esta condición exigiendo que su variación en las frecuencias ∆ω sea

pequeña. Una segunda restricción se puede expresar mejor como una restricción

en el dominio espacial y se llama la restricción de la localización espacial.

Los fenómenos que pueden dar lugar a cambios de intensidad en una

imagen son:

- Cambios de iluminación debidos a sombras, fuentes de luz y gradientes

de iluminación.

- Cambios en la orientación o distancia de el observador a las superficies

visibles.

- Cambios en la reflexión de las superficies.

Lo que debemos observar en esto es que, en la escala en que es posible

concebir todas estas cosas como localizadas espacialmente, ya que, excepto el

patrón de difracción, no se puede considerar el mundo visual como superposición

de frentes y paquetes de onda. Puesto que el filtro que se busca también debe

ser suave y localizado en el dominio espacial, su variación ∆x debe ser pequeña.


387

Estas dos restricciones en la localización, ∆ω y ∆x, están relacionadas por

el principio de incertidumbre que establece la relación entre ambas como

∆ω ∆x ≥ π ⁄ 4. Existe una sola distribución que optimiza esta relación, la

Gausiana,

G(x) = 1 ⁄ σ(2π)1⁄2 e(− x2 ⁄ 2πσ2)

y su transformada de Fourier

F(ω) = e(− πω2σ2 ⁄ 2)

Si eligiéramos un filtro muy localizado en el dominio de la frecuencia, por

ejemplo un pasa-banda ideal, cumpliría la restricción de la localización en

frecuencias pero no la espacial, pues aparecerían lóbulos en el filtro espacial con

lo que surgirían ecos en el cálculo de los cruces por cero, ecos que no tendrían

correlación física con la imagen real, obteniendo ruido no deseable en el proceso

visual.

De la misma manera ocurriría con un filtro espacial muy localizado con el

cual aparecerían lóbulos en el espacio de la frecuencia, el efecto sobre la

detección de cruces por cero sería el inverso al anterior, se detectarían menos

de los que realmente correspondería a ese canal, debido al promediado que

efectuaría el filtro con el amplio rango de frecuencias incluidas en los lóbulos.

Cuando se produce un cambio de intensidad, a su lugar le corresponde un

pico en la primera derivada y un cruce por cero en la segunda derivada, por lo

tanto la tarea de detectar estos cambios es la búsqueda de cruces por cero en la

segunda derivada de la función intensidad que define la imagen, en la dirección

r apropiada

f(x,y) = D2 G(r) ∗ I(x,y)

donde I(x,y) es la imagen original y ∗ el operador convolución. Por la regla de

derivadas para convoluciones

Apéndices

388

f(x,y) = D2G(r) ∗ I(x,y)

En una dimensión D2G, es decir G ′ ′ tiene la expresión

G ′ ′ = − 1

σ2(2π)1⁄2 1 − x2

σ2 e(− x

2 ⁄ 2πσ2)

G ′ ′ es un operador cuya forma es similar a un sombrero mejicano (figura

D.1), es muy parecido a la función diferencia entre dos Gausianas (DOG) y, en

realidad, G ′ ′ es el limite de la función DOG cuando el tamaño de las dos

Gausianas tiende el uno al otro. Es, aproximadamente, un operador pasa-banda,

con un ancho de banda de 1,2 octavas.

Las convoluciones son costosas computacionalmente y para reducir el

número de ellas se debe utilizar un operador independiente de la orientación. El

único operador diferencial isotrópico de segundo orden es el Laplaciano, que

puede ser empleado para detectar cambios de intensidad en la imagen siempre

que ésta satisfaga algunas condiciones bastante débiles.

G ′ ′

Figura D.1. Operador "sombrero mejicano" unidimensional.

x


389

La detección de los cambios de intensidad puede estar basada en el

operador ∇ 2G, sin embargo, en principio, si la intensidad varia a lo largo de un

segmento de una manera no lineal, el Laplaciano, y por lo tanto el operador

∇ 2G verá el cruce por cero desplazado a un lado.

La expresión del operador ∇ 2G, u operador "sombrero mejicano", en dos

dimensiones en coordenadas esféricas es

∇ 2G(r) = − 1

πσ4 1−

r2

2σ2

e(− r2 ⁄ 2πσ2)

con simetría circular, donde σ es la desviación típica de la Gausiana.

Apéndices

390

Apéndice E

COLOR

E.1 Modelo de reflexión de la luz

E.1.1 El fenómeno físico de la reflexión

Cuando la luz ilumina la superficie de un material dieléctrico, debido al cambio

del índice de refracción entre los dos medios que separa tal superficie

(usualmente el aire y el material en cuestión), parte de ella se refleja volviendo

al medio de donde procede, y parte de ella se refracta, introduciéndose en el

medio material (figura E.1).

Los materiales dieléctricos, materiales que no conducen la electricidad, son

materiales generalmente no homogéneos, es decir, consisten en un medio que

constituyen la masa del material que es aproximadamente transparente, y en el

cual se encuentran inmersos partículas o pigmentos que absorben selectivamente

Figura E.1. Reflexión de la luz en un material dieléctrico.

la luz y la dispersan dentro del material por reflexión y refracción al chocar la

luz con ellos.

Al hecho de que parte de la luz al alcanzar un material dieléctrico se

refleje por efecto del cambio de índices de refracción se le denomina reflexión

superficial, de acuerdo a la nomenclatura de Shafer (1985). Este proceso también

se denomina en la literatura como reflexión de Fresnel. Si la superficie de

separación entre ambos medios es completamente suave, la luz se refleja en una

sola dirección, la dirección de reflexión o también llamada dirección especular.

Sin embargo, las superficies de muchos materiales presentan rugosidades o

texturas. Dado que la dirección de la reflexión de la luz depende de la

orientación de la normal, la cual puede variar dentro de un pequeño elemento

de área de una superficie de este tipo, la luz reflejada en estos casos se dispersa

en cierto grado alrededor de la dirección de reflexión especular.

Las propiedades ópticas del material también determinan la cantidad y

color de la luz que se refleja en la superficie. Las leyes de Fresnel describen la

dependencia de la luz reflejada con respecto a los índices de refracción de los

medios en la superficie de separación, el ángulo incidente y de la polarización

de la luz. En general, el índice de refracción de un material es función de la

longitud de onda, y el coeficiente de Fresnel varia a lo largo del espectro de la

luz. No obstante, se aproxima normalmente el coeficiente de Fresnel del medio

por una constante a lo largo de las longitudes de onda que cubren del espectro

visible; esta aproximación es razonable puesto que el índice de refracción de la

mayoría de los medios cambia muy poco en el espectro visible. En estas

condiciones, la luz reflejada en la superficie de separación de los medios tienen

el mismo color que la luz incidente que viene del iluminante.

Por otra parte, la luz que se refracta en la superficie del material y se

introduce en él, se traslada a través del medio que forma la masa de un

material dieléctrico no homogéneo hasta que choca con los pigmentos que se

encuentran inmersos en él. Al incidir esta luz sobre los pigmentos, los rayos se

reflejan y refractan en la superficie de separación entre los pigmentos y el medio

material. Este mismo proceso se repite indefinidas veces, llegando parte de la

luz que se refleja y refracta en los pigmentos a la superficie de separación del

Apéndices

392

material con el medio original desde donde se introdujo, usualmente el aire.

Todo este proceso por el que la luz que penetra en el material vuelve a

reflejarse al medio original se denomina reflexión del cuerpo (Shafer, 1985). Si

se asume que los pigmentos se distribuyen aleatoriamente en el interior del

material, la luz producto de la reflexión del cuerpo sale en direcciones aleatorias

desde el cuerpo del material. Además, si la luz que sale del cuerpo del material

está uniformemente distribuida, esta distribución puede describirse mediante la

ley de Lambert de un difusor perfecto. La distribución de los pigmentos también

influye en la cantidad y el color de la luz reflejada. Si los pigmentos se

distribuyen aleatoriamente en el cuerpo del material, se puede esperar en

promedio que la misma cantidad y color se absorberá en todo el material antes

de que la luz salga, en tal caso, la luz que se refleje desde el cuerpo del

material tienen el mismo color sobre toda la superficie del material.

Klinder et al (1988) diferencian claramente entre los términos de reflexión

especular y difusa, y los de reflexión superficial y del cuerpo. La reflexión

especular se refiere a la reflexión de la luz en la dirección ideal de reflexión,

mientras que la reflexión difusa implica la reflexión con dispersión. Mientras que

los términos reflexión del cuerpo y superficial se refieren a procesos físicos

diferentes. Para una superficie muy suave, la reflexión superficial será especular,

y la reflexión del cuerpo será difusa. Sin embargo, para objetos con superficies

rugosas, la reflexión superficial será, por ejemplo, difusa alrededor de la

dirección de reflexión especular. Los metales, por ejemplo, tienen solo reflexión

superficial, la cual puede ser especular o difusa, dependiendo de la rugosidad de

su superficie.

Color

393

E.1.2 El modelo de reflexión dicromático

En el caso de materiales dieléctricos, se puede describir matemáticamente el

proceso de reflexión en la superficie del material por medio del modelo de

reflexión dicromático1 (Shafer, 1985). Para ello se asumen una serie de

condiciones (Klinder et al, 1988):

-Se considera que los pigmentos se distribuyen aleatoriamente en el cuerpo

del material, y que están completamente inmersos en él, es decir, no se

encuentran pigmentos en la superficie de separación entre el material y el medio

exterior.

- Asimismo, se considera que la iluminación de la escena es únicamente

debida a la fuente de iluminación y no a la luz ambiente procedente de

reflexiones en la superficie de otros objetos.

Asumiendo estas condiciones, el modelo de reflexión dicromático (Shafer,

1985) describe la radiancia de la luz reflejada en un punto de la superficie en

cierta dirección L , como la mezcla de las radiancias de la luz reflejada desde la

superficie del material Ls, y desde el cuerpo del material Lb. Esto se puede

expresar de la forma

L (θi,ϕi;θr,ϕr;λ) = Ls(θi,ϕi;θr,ϕr;λ) + Lb(θi,ϕi;θr,ϕr;λ)

donde, en general, estas magnitudes dependen de la longitud de onda λ, y

θi,ϕi;θr,ϕr, que son los ángulos del rayo incidente y reflejado respectivamente,

respecto de un sistema de referencia situado en el elemento de superficie dA

donde se produce la reflexión con el eje z en la dirección de la normal n→ al

elemento de superficie y el plano xy conteniendo al elemento de superficie dA

Apéndices

394

1 El modelo de reflexión dicromático es un modelo general del que se pueden derivar

otros modelos de reflexión utilizados por varios autores, tales como Torrance & Sparrow

(1967), Phong (1975), Horn (1977), y más recientemente Lee et al (1990).

tal como se muestra en la figura E.2, siguiendo la notación utilizada por Lee et

al (1990).

Puesto que se asume que la superficie de un dieléctrico no homogéneo

posee el mismo espectro de reflexión superficial característico en cualquier punto

de la superficie del objeto, debido a la condición asumida relativa a los

pigmentos, se pueden separar las propiedades espectrales de la reflexión

superficial de sus propiedades geométricas. De esta modo, se puede expresar la

radiancia de la reflexión superficial Ls como producto de su distribución de

potencia espectral, cs(λ) , y un factor geométrico de escala, ms(θi,ϕi;θr,ϕr) (Klinder

et al, 1988). Del mismo modo se puede separar la reflexión debida al cuerpo

del objeto Lb como producto de la distribución de la potencia espectral de la

luz reflejada desde el cuerpo a través de cualquier punto de la superficie, cb(λ) ,

y un factor geométrico de escala, mb(θi,ϕi;θr,ϕr). Con todo ello se puede expresar

la ecuación del modelo de reflexión dicromático como

L (θi,ϕi;θr,ϕr;λ) = ms(θi,ϕi;θr,ϕr) cs(λ) + mb(θi,ϕi;θr,ϕr) cb(λ) (E.1)

dωi

dA

θi

θr

ϕr

ϕi

x

z

y

dωr

Figura E.2 Geometría de los rayos incidente y reflejado.

Color

395

De esta forma se describe la luz reflejada desde un punto de la superficie

del objeto como una mezcla de dos distribuciones de potencia espectral

diferentes, cs(λ) y cb(λ) , cada una de las cuales pesada según un factor

dependiente de las propiedades geométricas de la reflexión en los puntos de la

superficie del objeto, ms(θi,ϕi;θr,ϕr) y mb(θi,ϕi;θr,ϕr).

Dado que el modelo de reflexión dicromático asume que el espectro de

reflexión de la luz reflejado en la superficie, cs(λ) , y el reflejado desde el cuerpo

del material, cb(λ) , son constantes a lo largo de toda la superficie del objeto,

cambiando en cada punto de la superficie los factores de escala geométricos,

ms(θi,ϕi;θr,ϕr) y mb(θi,ϕi;θr,ϕr), se puede interpretar que, considerando el espacio

vectorial de dimensión infinita de las distribuciones de potencia espectral de la

luz, los vectores cs(λ) y cb(λ) forman un plano denominado plano dicromático, y

cualquier punto de la superficie del objeto a que representan cuya luz reflejada

sea L (θi,ϕi;θr,ϕr;λ) esta situada en este plano, por ser una combinación lineal de

esos vectores según el modelo dicromático, combinación lineal que tiene como

coeficientes los factores geométricos de escala ms(θi,ϕi;θr,ϕr) y mb(θi,ϕi;θr,ϕr).

La experiencia demuestra que en materiales dieléctricos no homogéneos el

factor geométrico de reflexión superficial ms(θi,ϕi;θr,ϕr) decrece bruscamente

alrededor del punto de la superficie que posee el valor máximo de este

coeficiente, efecto que también se puede observar entre la relación de la

reflexión superficial y la procedente del cuerpo modelado por Gershon (1987) y

que se representó en la figura 1.7. A los puntos de la pequeña zona de la

superficie del objeto que presentan un valor apreciable del coeficiente

geométrico de reflexión superficial se les denomina puntos reflejo. A los puntos

restantes de la superficie en los que la reflexión procedente del cuerpo del

material es aproximadamente la única existente se les denomina puntos mate

(Klinder et al, 1988). De una manera general los puntos mate sólo tienen,

aproximadamente, componente de reflexión procedente del cuerpo, por lo que

estarán alineados en la dirección del vector cb(λ) según el valor del coeficiente

geométrico de reflexión del cuerpo mb(θi,ϕi;θr,ϕr); en cambio los puntos reflejo

poseen ambas componentes, la superficial y la del cuerpo.

Apéndices

396

E.1.3 Integración del espectro y medida del color de la luz

La radiación en forma de luz que llega a un sensor o cámara para que el

receptor codifique la distribución de potencia espectral de esta radiación en

medidas que cuantifiquen la propiedad de la luz llamada color (sección E.2), se

realiza a través de una integración del espectro continuo de luz para obtener las

componentes de un vector que representa el color de la luz y que generalmente

estas componentes son tres, en acuerdo a la generalización tricromática en la

que se basan muchos sensores de color, entre ellos el ojo humano.

Las medidas del valor de las componentes del vector de color de una

radiación o estímulo dado, se obtienen por medio de un filtrado de la luz que

alcanza el sensor mediante los filtros que representan cada uno de los colores

primarios en la representación triestímulo del color. La luz que pasa a través de

estos filtros se integra después a lo largo de todo el espectro para obtener las

medidas de color. Cada filtro que componen el sensor integra la radiancia

espectral de la luz que llega al sensor, L (θi,ϕi;θr,ϕr;λ) , pesada con la

transmitancia espectral característica del filtro, τf(λ) , y por la respuesta de

sensibilidad espectral de la cámara s(λ) , sobre todas las longitudes de onda λ,

para obtener una de las componentes del vector de color Cf que caracteriza esa

luz, esto se puede expresar

Cf = ∫ L (θi,ϕi;θr,ϕr;λ) τf(λ) s(λ) dλ

Si se utilizan los filtros rojo, verde y azul, que normalmente se encuentran

en las cámaras, con transmitancias τr, τg y τb, la distribución de potencia

espectral de la luz que llega al sensor se convierte en un vector de tres

dimensiones, C(x,y) = (R,G,B), en cada posición del plano sensor (x,y),

correspondiente a un píxel cuya medida de color corresponde a la luz que

refleja un punto o elemento de área sobre la superficie de un objeto de la

escena.

La integración del espectro desde el espacio de dimensión infinita de la

distribución de potencia espectral de los espectros continuos en un espacio de

Color

397

color tridimensional tal como el espacio RGB2, es una transformación lineal

(Shafer, 1982). Como tal transformación lineal, si un rayo de luz L (λ) es una

mezcla de dos luces, L1(λ) y L2(λ) , en el espacio de dimensión infinita de las

distribuciones de potencia espectral, el vector de color C resultado de la

integración del espectro en el sensor, es, asimismo, una combinación lineal de

los vectores de color C1 y C2 correspondientes a las luces L1(λ) y L2(λ) .

Si aplicamos esta propiedad de la integración del espectro en el sensor al

modelo de reflexión dicromático expresado en la ecuación (E.1), teniendo en

cuenta que los coeficientes geométricos dependen de la posición (x,y) y la

relación lineal que existe entre la luz que se refleja en la superficie del objeto

respecto a las componentes superficial y la que sale del cuerpo del material,

podemos expresar la ecuación del modelo de reflexión dicromático en el espacio

de color como

C(x,y) = ms(θi,ϕi;θr,ϕr) Cs + mb(θi,ϕi;θr,ϕr) Cb

que expresa que el valor del vector de color de un píxel C(x,y) en la posición

(x,y) como combinación lineal de los dos vectores de color Cs = (Rs,Gs,Bs) y

Cb = (Rb,Gb,Bb), correspondientes al color de la reflexión superficial y del cuerpo

de un objeto de la escena. Estos dos colores forman, en el espacio

tridimensional de representación del color, un plano llamado plano dicromático

(figura E.3), dentro del cual se encuentran todos los valores correspondientes a

los colores de las luces reflejadas desde puntos de la superficie de un mismo

objeto cuyos colores representativos son Cs y Cb.

Apéndices

398

2 La integración del espectro introduce una relación entre los puntos del espacio de color

y las distribuciones de potencia espectral de las radiaciones por el cual un punto en el

espacio de color puede representar a infinitas distribuciones de potencia espectral,

partiendo el espacio de dimensión infinita de las distribuciones de potencia espectral en

clases de equivalencia representadas en el espacio de color por un solo punto. A este

fenómeno se le denomina metamerismo (Wyszecky & Stiles, 1967)

E.2 Colorimetría

La palabra color se usa, comúnmente, en diferentes sentidos. El psicólogo utiliza

esta palabra al referirse a la sensación producida en el observador humano

cuando su retina se estimula por la energía radiante. En un sentido diferente,

este término se utiliza para especificar una propiedad de un objeto, por ejemplo,

cuando se dice que el color de un libro es azul. La ciencia que trata de la

medida del color se denomina colorimetría. El comité de Colorimetría de la

Optical Society of America recomienda la siguiente definición: "El color se

compone de aquellas características de la luz distintas de las de espacio y

tiempo; siendo la luz aquel aspecto de la energía radiante que el hombre

percibe a través de las sensaciones visuales que se producen por el estímulo de

la retina".

Las características aludidas en esta definición son tres. La primera es el

flujo luminoso, el cual es una medida de la efectividad de la luz para provocar

la sensación de brillo. Las otras dos características, relacionadas con la

cromaticidad de la luz son, la longitud de onda dominante y la pureza. La

primera corresponde a la característica de la sensación de color llamada matiz, y

la última, a la característica llamada saturación.

R

G

B

C

C

s

b

Figura E.3. Plano dicromático en el espacio RGB.

Color

399

E.2.1 Generalización tricromática

Las leyes experimentales sobre la definición de colores se resumen en la

generalización tricromática, que afirma que sobre un amplio rango de

condiciones, muchos colores pueden definirse completamente por medio de

mezclas aditivas en cantidades apropiadas de tres colores primarios fijos. La

elección de los tres colores primarios, aunque es muy amplia, no es

completamente arbitraria. No se puede utilizar los conjuntos de colores tal que

ninguno de los primarios pueda definirse como mezcla de los otros dos.

En un sentido más estricto de la generalización tricromática, ésta afirma

que la proporcionalidad y aditividad de colores permanecen estrictamente sobre

un considerable rango de condiciones de observación. Estas leyes de linealidad

requieren que dos colores permanezcan iguales si su correspondiente estimulo se

incrementa o reduce en una cantidad por el mismo factor constante, sus

respectivas distribuciones de energía espectral relativas permanecen inalteradas; y

además, que si dos colores A y B son iguales, y que dos colores C y D también

lo son, asimismo son iguales las mezclas de color A+ C y B+ D.

Considerando la validez de estas propiedades, es posible y conveniente

representar los colores por medio de vectores tridimensionales, y representar

igualdades entre colores por medio de ecuaciones lineales entre tales vectores. Si

C es un vector que representa un color dado y R, G y B son los vectores que

representan cantidades unitarias de los tres colores primarios, entonces la

ecuación

C = rR + gG + bB

afirma que el color C queda definido por una mezcla aditiva de cantidades r, g

y b de los respectivos colores primarios. Los multiplicadores escalares r, g, b son

los llamados valores triestímulo del color dado respecto del conjunto de

primarios R, G, B en particular.

En ocasiones un color no puede conseguirse por mezclas aditivas directas

de los tres primarios, entonces es necesario mezclar el color en cuestión con

Apéndices

400

cantidades de uno o dos de los primarios para poder conseguir un color igual a

una mezcla de los primarios restantes. En este caso, los coeficientes de los tres

colores primarios para conseguir un cierto color se consideran negativos.

Es costumbre elegir las unidades de los primarios tal que el color de una

mezcla de iguales cantidades de los primarios coincide con un color acromático

especificado, que normalmente tiene un espectro de energía uniforme o igual

para todas las longitudes de onda.

Cualquier color C cuyo correspondiente estímulo tenga una distribución de

energía espectral C(λ) dλ, puede quedar definido por sus valores triestímulo a

partir de unas curvas triestímulo o filtros asociados r_(λ) , g

_(λ) , b

_(λ)

correspondientes a los tres colores primarios R, G, B, de la forma

r = ∫ C(λ

λ) r_(λ) dλ g = ∫ C(

λλ) g

_(λ) dλ b = ∫ C(

λλ) b

_(λ) dλ

Para evitar coeficientes negativos, la CIE definió un conjunto de primarios

que permiten que cualquier color sea especificado por un triplete de números

que sean siempre no negativos. Estos primarios se definieron especificando un

conjunto de curvas triestímulo, denotadas como x(λ) , y(λ) , z(λ) .

Cuando dos colores tiene los mismos valores triestímulo pero poseen

diferentes distribuciones de energía espectral se denominan colores metametros.

Los colores con idéntica distribución de energía espectral e iguales valores

triestímulos se denominan colores isometros.

La generalización tricromática se fundamenta en tres leyes, llamadas las

leyes de Grassmmann de la mezcla aditiva de colores, de las que una de sus

formulaciones consiste en:

1. Cuatro colores son siempre linealmente dependientes.

2. Dos colores son iguales si provienen de la misma mezcla, aunque

aquéllos procedan de distribuciones de energía espectral diferentes.

3. Un cambio continuo en la distribución de energía espectral del estímulo

de un color, resulta en un cambio continuo en los valores triestímulo del color,

Color

401

considerando como continuo la posibilidad de que cambiando la distribución de

energía espectral los valores triestímulo del color permanezcan constantes.

E.3 Espacios de color

Un espacio de color es un sistema de coordenadas que permite que los colores

sean expresados cuantitativamente. Desde el punto de vista de la teoría del color

triestímulo, se precisa un espacio tridimensional, pero varias elecciones de estas

tres coordenadas son posibles. Se pueden resumir los espacios de color en tres

formas generales de coordenadas:

1. Coordenadas triestímulo. Un espacio rectangular en el que las tres

coordenadas, llamadas valores triestímulo, dan la cantidad de cada uno de los

tres colores primarios.

2. Coordenadas cromáticas. Es un sistema de coordenadas bidimensional

derivado del sistema triestímulo, proyectando los valores de cada punto del

sistema triestímulo, por ejemplo el CIE xyz, en el plano x+ y+ z= 1, definiendo x,

y y z como

x = X

X+ Y+ Z ; y =

YX+ Y+ Z

; z = Z

X+ Y+ Z

donde en este caso X, Y y Z son los valores de las coordenadas triestímulo.

Dado que entre las coordenadas cromáticas existe la relación x+ y+ z= 1, éstas

quedan completamente definidas utilizando sólo dos, por ejemplo (x,y). Para

especificar completamente el color es necesario especificar el valor de una de las

coordenadas triestímulo.

3. Espacios de percepción del color. Son espacios de color que se basan en

parámetros de percepción visual, tal como el matiz, el brillo y la saturación.

Algunos de estos espacios se definen tal que la diferencia de la percepción entre

dos colores se da, aproximadamente, por la distancia euclidea entre estos dos

Apéndices

402

colores; en este caso los espacios de color se llaman espacios de color

uniformes.

Se pueden encontrar más de 20 espacios de color en la literatura sobre

color y colorimetría. Algunos de los mas conocidos son: el sistema triestímulo

CIE XYZ y sus coordenadas cromáticas asociadas (x,y); el sistema de primarios

receptores NTSC (National Televison Systems Committees), correspondientes a la

emisión característica de los tres fósforos de las pantallas de televisión definidos

como Rn, Gn y Bn, cuyas coordenadas forman el conocido sistema RGB; el

sistema cromático extendido L ∗ u∗ v∗ , que es un espacio CIE estándar que se

aproxima a un espacio de percepción uniforme donde L ∗ es la luminosidad, u∗

es el grado de rojo-verde, y v∗ es aproximadamente el grado de azul-amarillo;

entre otros.

E.2.3 El color en las señales de video

Las señales de video en color se transmiten generalmente en dos formatos, video

compuesto o señales de video separadas RGB. Ambos de estos sistemas son

tridimensionales, siguiendo la generalización tricromática para representar colores.

La señal de video compuesto permite que tanto los monitores color como los de

blanco y negro puedan recibir la misma señal. La señal Y, que contiene la

información del nivel de gris, se combina con dos señales de cromaticidad

moduladas en amplitud, I y Q, para formar la señal de video compuesta.

La información de intensidad y cromaticidad que proporciona una cámara

color de estado sólido, por ejemplo, se deriva de la información RGB medida

utilizando los filtros ópticos interferométricos apropiados. Esta información se

transforma en una señal de video compuesto YIQ, transformación que puede

representarse mediante una matriz cuyos coeficientes varían según la definición

de los filtros RGB, ya que no existe una única definición disponible de estos

filtros.

Color

403

BIBLIOGRAFÍA

BIBLIOGRAFÍA

ARCELLI, C. & LEVIALDI, S.; (1971), "Picture Processing and Overlapping Blobs",

IEEE Trans. on Compt., C-20:1111-1115. Sept.

ATSUTA, K.; SANGWORASIL, M.; KONDO, S.; (1988), "A New Method of Estimating

Shape from Shading by Using a Constraint at Zero-crossings of Image

Brightness", IEEE Conference on Computer Vision and Patter Recognition,

CVPR’88, pp. 666-668.

AYACHE, N.; (1989), Vision Stéréoscopique et Perception Multisensorielle.

Applications à la Robotique Mobile, Intereditions, Paris.

BALLARD, D.H.; BROWN, C.M. (1982), Computer Vision, Prentice Hall. Inc.

Englewood Cliffs, NJ.

BARNARD, S.T.; & THOMPSON, W.B.; (1980), "Disparity Analysis of Images", IEEE

Transactions on Pattern Analysis and Machine Intelligence, Vol. PAMI-2,

No. 4, pp. 333-340.

BARNEA, D..I.; & SILVERMAN, H.F.; (1972), "A Class of Algorithms for Fast

Digital Image Registration", IEEE Trans., C-21, 2.

BEN-TZVI, D.; & SANDLER, M.B.; (1972), "A Combinatorial Hough Transform",

Pattern Recognition Letters, 11, pp. 167-174.

BLANDINI, G.; LEVI, P.; (1989), "First Approaches to Robot utilisation for

Automatic Citrus Harvesting", Land and Water Use, Dodd & Grace (eds),

Balkema, Rotterdam, ISBN 90 6191 980 0.

BLOSTEIN, S.D.; & HUANG, T.S.; (1987), "Error Analysis in Stereo Determination

of 3-D Point Positions", IEEE Trans. Pattern Anal. Machine Intell., Vol.

PAMI-9, pp. 752-765;

BOSWELL, R.; (1990), Manual for NewID, version 5.1, The Turing Institute, Ref.

TI/P2154/RAB/4/2.4.

BREIMAN, L.; FRIEDMAN, J.H.; OLSHEN, R.A.; STONE, C.J.; (1984), Classification and

Regression Trees, Wadsworth & Brooks Inc., Pacific Grove, California.

BROWN, L.G.; & SHVAYTSER, H.; (1990), "Surface Orientation from Projective

Foreshortening of Isotropic Texture Autocorrelation", IEEE Transactions on

Pattern Analysis and Machine Intelligence, Vol. 12(6): 584-588.

CASAS, J. (1985), Optica, Ed. Justiniano Casas Peláez.

CASTILLO, S.; (1992), Estudio de la Distribución, Visibilidad y Propiedades Físicas

de los Frutos Cítricos en el Árbol y su Influencia en el Diseño de Sistemas

Robotizados , Tesis Doctoral, Dpto. de Mecanización Agraria, Universidad

Politécnica de Valencia.

CELENK, M.; (1988), "A Recursive Clustering Technique for Color Picture

Segmentation", IEEE Conference on Computer Vision and Patter

Recognition, CVPR’88, pp. 437-444.

CHOU, P.A.; (1991), "Optimal Partitioning for Classification and Regression Trees",

IEEE Trans. Pattern Anal. Machine Intell., Vol. 13, No. 4, pp. 340-354.

CHOU, P.A.; LOOKABAUGH, T.; GRAY, R.M.; (1989), "Optimal Prunning with

Applications to Tree Structured Source Coding and Modeling", IEEE

Transactions on Information Theory, Vol. 35, No. 2, pp. 299-315.

COPPOCK, G.E.; (1983), "Robotic Principles in the Selection Harvest of Valencia

Oranges", Proc. Ist Int. Conf. on Robotics and Intelligent Machines in

Agric., pp. 138-145. ASAE, St joseph, MI.

COX, K.C.; ROMAN, G.C.; BALL, W.E.; LAINE, A.F.; (1988), "Rapid Search for

Spherical Objects in Aerial Photographs", IEEE Conference on Computer

Vision and Pattern Recognition, Vol I, pp. 905-909.

DAVIES, E.R.; (1987), "A High Speed Algorithm for Circular Object Location",

Pattern Recognition Letters, 6, pp. 323-333.

Bibliografía

408

DHOND, U.R.; & AGGARWAL, J.K.; (1989), "Structure from Stereo. A Review",

IEEE Transactions on Systems, Man and Cybernetics, Vol. 19, No. 6, pp.

1489-1510.

DIJKSTRA, J. (1991), "Grading Unrooted Begonia Cuttings by Estimating the Leaf

Area and Analyzing the Structure Using Digital Image Processing", I

International Seminar on Use of On-Machine Vision Systems for the

Agricultural and Bio-Industries, September 3-6, Montpellier, pp. 123-132.

DOMINGO, J.; ALBERT, J.; FERRI, F.; CERVERON, V.; (1990), "A Learning Method

Based on Genetic Algorithm Applied to Colour Image Segmentation", IV

International Symposium on Knoledge Engineering, Barcelona, Paper 3.25.

DUDA, R.O.; HART, P.E. (1972), "Use of the Hough Transformation to Detect

Lines and Curves in Pictures", Graphics and Image Processing, W. Newman

(ed), Communications of the ACM, Vol. 15(1): 204-208.

DUDA, R.O.; HART, P.E. (1973), Pattern Classification and Scene Analysis, John

Wiley, NY.

EDAN, Y.; FLASH, T.; SHMULEVICH, I.; SARIG, I.; PEIPER, U.M.; (1990), "An

Algorithm Defining the Motions of a Citrus Picking Robot", J. Agric. Engng

Res., 46, pp. 259-273.

FERRI, F.; & VIDAL, E.; (1992), "Colour Image Segmentation and Labeling through

Multiedit-Condensing", Pattern Recognition Letters, 13, pp. 561-558.

FISHLER, M.A.; & BOLLES, R.C.; (1986), "Perceptual Organization and Curve

Partitioning", IEEE Transactions on Pattern Analysis and Machine

Intelligence, Vol. PAMI-8, No. 1, pp. 100-105.

FU, K.S.; (1982), Applications of Pattern Recognition, CRC Press, pp. 38-61.

FU, K.S.; GONZALEZ, R.C.; LEE, C.S.G. (1988), Robotics: Control, Sensing, Vision

and Intelligence, McGraw-Hill Inc.

FUKANANGA, K.; (1990), Introduction to Satistical Pattern Recognition. Academic

Press. New York.

Bibliografía

409

FREEMAN, H.; (1970), Boundary Encoding and Processing. Picture Processing and

Psycopictories, (B.S. Lipkin and A. Rosenfeld editors), Academic Press. New

York, pp. 241-246.

GAFFNEY, J.J.; (1969), "Reflectance Properties of Citrus Fruit", Transactions of the

ASAE, 16(2):310-314.

GERSHON, R. (1987), The Use of Color in Computational Vision, Ph D

Dissertation, Department of Computer Science, University of Toronto.

GONZALEZ, R. C.; WINTZ, P. (1977), Digital Image Processing, Addison-Wesley

Publishing Company.

GORMAN, J.W.; MITCHELL, O.R.; KUHL, F.P.; (1988), "Partial Shape Recognition

Using Dynamic Programming", IEEE Transactions on Pattern Analysis and

Machine Intelligence, Vol. PAMI-10, No. 2, pp. 257-266.

GRAND D’ESNON, A.; (1985), "Robotic Harvesting of Apples", In Proc. of

Agrimation I. Published by the ASAE and SME. ASAE, St Joseph, MI. pp.

210-214.

GRAND D’ESNON, A.; PELLENC, R.; RABATEL, G.; JOURNEAU, A.; ALDON, M.;

(1987), "Magali: a Self Propelled Robot to Pick Apples", ASAE Paper No

87-037. ASAE, St Joseph, MI.

GRIMSON, W.E.L.; (1986), "Computing Stereopsis Using Feature Point Contour

Matching", Techniques for 3-D Machine Perception, A. Rosenfeld (ed.),

Elsevier, pp. 75-111.

GUILLAUME, S.; BALERIN, S.; BOURELY, A. (1991), "An Application of On-Line

Vision in Food Industry: Robotic Trimming of Salads", I International

Seminar on Use of On-Machine Vision Systems for the Agricultural and

Bio-Industries, September 3-6, Montpellier, pp. 61-68.

GUNASEKARAN, S.; COOPER, T.M.; BERLAGE, A.G.; KRISHNAN, P.; (1987), "Image

Processing for Stress Cracks", Transactions of the ASAE, Vol. 30(1):

266-271.

Bibliografía

410

HARRELL, R.C. (1987), "Economic Analysis of Robotic Citrus Harvesting in

Florida", Transactions of the ASAE, 30(2): 298-304.

HARRELL, R.C. (1991), "Processing of Color Images with Bayesian Discriminate

Analysis", I International Seminar on Use of On-Machine Vision Systems

for the Agricultural and Bio-Industries, September 3-6, Montpellier, pp.

11-20.

HARRELL, R.C.; ADSIT, P.D.; SLAUGHTER, D.C.; (1985), "Real Time Vision-surving

of a Robotic Fruit Harvester", ASAE, Paper No 85- 3550, St Joseph. MI

49085.

HARRELL, R.C.; ADIST, P.D.; POOL, T.; HOFFMAN, R.; (1990), "The Florida Robotic

Grove-Lab", Transactions fo the ASAE, Vol. 33(2): 391-399.

HARRELL, R.C.; ADIST, P.D.; SLAUGHTER, D.C.; POOL, T.; (1986), "Image

Enanchement in Robotic Fruit Harvesting", ASAE, Paper 86-3041.

HENDERSON, S.T.; (1977), Daylight and its Spectrum, John Wiley and Sons, New

York.

HO, J.; FUNT, B.V.; DREW, M.S.; (1990), "Separating a Color Signal into

Illumination and Surface Reflectance Components: Theory and Applications",

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 12,

No. 10, pp. 966-977.

HORN, B.K.P.; (1974), "Determining Lightness from an Image", Computer Graphics

and Image Processing, 3, pp. 277-299.

HORN, B.K.P.; (1977), "Understanding Image Intensities", Artificial Intelligence,

8(11):201-231.

HORN, B.K.P.; (1984), "Extended Gaussian Images", Proceedings of the IEEE, No.

12, pp. 1671-1686.

HORN, B.K.P.; & SJOBERG, R.W.; (1979), "Calculating the Reflectance Map", Appl.

Opt., Vol. 18(11): 1770-1779.

Bibliografía

411

HUNTER, R.S. & HAROLD, R.W. (1987), The Mesurement of Appearance, New

York. John Wiley & Sons, Inc.

JAIN, A.K.; (1989), Fundamentals of Digital Image Processing, Englewood Cliffs,

NJ. Prentice-Hall Inc.

JOHNSON, M.; (1985), "Automation in Citrus Sorting and Packing", In Proc. of

Agrimation. I Conference and Exposition, pp. 63-68. Chicago IL.

JUDD, D.B.; (1933), "The 1931 CIE Standard observer and Coordinate System for

Colorimetry", J. Opt. Soc. Am. 23:359-374.

JUSTE, F. (1990), "Estado Actual y Tendencias de la Tecnología Agraria en

España y en los Paises Desarrollados", Curso Automatización y Robotización

en la Agricultura, Universidad Internacional Menendez y Pelayo, Valencia

4-8 Junio.

JUSTE, F.; FORNES, I; PLÁ, F; MOLTÓ, E.; BLAY, F. (1991), "Primeros Resultados

en Campo de un Prototipo de Brazo Robotizado para la recolección de

Cítricos", XXIII Conferéncia Internacional de Maquinaria Agrícola, CIMA91,

pp. 433-440.

JUSTE, F.; SEVILA, F.; (1991), "CITRUS: An European Project to Study the

Robotic Harvesting of Oranges", IARP Workshop on Robotics in

Agriculture and Food Industry, Genova, Juny 17-18.

KANTHACK, R.; (1921), Tables of Refractive Indices, Hilger, London, Vol. II, App.

III.

KATZIR, N.; LINDENBAUM, M.; PORAT, M.; (1990), "Planar Curve Segmentation for

Recognition of Partially Occluded Shapes", IEEE Conference on Computer

Vision and Patter Recognition, CVPR’90, pp. 842-846.

KAWAMURA, N.; (1983), "Japan’s Technology Farm", Proc. 1st Int. Symp. on

Robotics and Intelligent Machines in Agriculture, ASAE Publ., 4-84: 52-62,

St. Joseph, MI.

Bibliografía

412

KELLEY, R.B. & FAEDO, W.; (1985), A First Look into Color Vision, Proc. of the

SPIE Conference, Sept. 16-20 1985, Cambridge. Massachusets. Intelligent

Robots and Computer Vision, 579:96-103.

KIM, Y.C.; & AGGARWAL, J.K.; (1987), "Positioning 3-D Objects Using Stereo

Images", IEEE J. Robotics and Automation, Vol. RA-3, No. 4, pp. 361-373.

KLINDER, G.J.; SHAFER, S.A.; KANADE, T.; (1988), "The Measurement of Highlights

in Color Images", International Journal of Computer Vision, 2, pp. 7-32.

KNOLL, T.F.; & JAIN, R.C.; (1986), "Recognizing Partially Visible Objects Using

Feature Indexed Hypotheses", IEEE Journal of Robotics and Automation,

Vol. RA-2, No. 1, pp. 3-13.

LAUD, E.H.; (1977), "The Retinex Thoery of Color Vision", Scientific American,

237:108-128.

LEE, H.; (1986), "Method for Computing the Scene-Illuminant Chromaticity from

Specular Highlight", J. Opt. Am. A., Vol. 3, No. 10, pp. 1694-1699.

LEE, H; BRENEAMAN, E.J.; SCHULTE, C.P.; (1990), "Modeling Light Reflection for

Computer Vision", IEEE Transactions on Pattern Analysis and Machine

Intelligende, Vol. 12, num. 4, pp. 402-409.

LEVI, P.; FALLA, R.; PAPPALARDO, R.; (1988), "Image Controlled Robotics Applied

to Citrus Fruit Harvesting", Procedures Rovisec-7, Ginebra.

LI, H.; LAVIN, M.A.; LE MASTER, R.J.; (1986), "Fast Hough Transform: A

Hierarchical Approach", CVGIP36, pp. 139-161.

LIU, H.; & SRINATH, M.D.; (1990), "Partial Shape Classification Using Contour

Matching in Distance Transformation", IEEE Transactions on Pattern

Analysis and Machine Intelligence, Vol. PAMI-12, No. 11, pp. 1072-1079.

MALONEY, L.T.; & WANDELL, B.A.; (1986), "Color Constancy: A Method for

Recovering Surface Spectral Reflectance", J. Opt. Soc. Am. A, Vol. 3, No.

1, pp. 29-33.

Bibliografía

413

MARAPANE, S.B.; & TRIVEDI, M.M.; (1989). "Region-Based Stereo Analysis for

Robotic Applications", IEEE Transactions on Systems, Man and Cybernetics,

Vol. 19, No. 6, pp. 1447-1464.

MARCHANT, J.A.; ONYANGO, C.M.; ELIPE, E.; (1990), "Computer Vision for Potato

Inspection Without Singulation", Computers and Electronics in Agriculture,

4, pp. 235-244.

MARR, D.; (1982), A Computational Investigation into the Human Representation

and Processing on Visual Information, W. H. Freeman and Company.

MARR, D.; & POGGIO, T.; (1979), "A Computational Theory of Human Stereo

Vision", Proc. Royal Soc., London, Vol. B204, pp. 301-328.

MAYHEW, J.E.W.; & FRISBY, J.P.; (1981), "Psychophysical and Computational

Studies towards a Theory of Human Stereopsis", Artificial Intelligence, Vol.

17, pp. 349-385.

MILLER, B.K.; DELWICHE, M.J. (1989), "A Color Vision System for Peach

Grading", Transactions of the ASAE. 32(4), 1484-1490.

MOLTÓ, E; (1991), Estudios Sobre Sistemas de Aprehensión y Detección de Frutos

para un Robot Recolector de Cítricos, Tesis Doctoral, Dpto. de Mecanización

Agraria, Universidad Politécnica de Valencia.

MOLTÓ, E; & HARRELL, R.C.; (1992), "Neural Network Classification of Sweet

Potato Embryos", Proceedings of the International Society for Optical

Engineering, Vol. 1836, In press.

MOLTÓ, E.; PLÁ, F.; JUSTE, F.; (1990), "Detection of Citrus Fruits by Vision

System in Robotic Harvesting", International Conference on Agricultural

Engineering, AGENG90, pp. 337-338.

MOKHTARIAN, F.; & MACKWORTH, A.; (1986), "Sclase-Based Description and

Recognition of Planar Curves and Two-Dimensional Shapes", IEEE


No. 1, pp. 34-43.

Bibliografía

414

MUNDY, J.L.; (1977), "Automatic Visual Inspection", Proc. 1977 Conf. Decision

and Control, pp. 705-710.

MYERS, W.; (1980), "Industry Begins to Use Visual Pattern Recognition",

Computer, Vol. 13, num. 5, pp. 21-31.

NESS, Y.; (1989), A Computer Vision System for an Orange Harvesting Robot,

Unpublished M. Sc. Thesis, Department of Mechanical Engineering,

Technion-Israel Institute of Technology, Haifa, Israel.

NEVATIA, R.; (1977), "A Color Edge Detector and Its Use in Scene

Segmentation", IEEE Transactions on Systems Man and Cybernetics, Vol.

SMC-7, No. 11, pp. 820-826.

NEVATIA, R.; (1982), Machine Perception, Prentice-Hall, Inc., Englewood Cliffs, NJ

07632.

NIBLACK, W.; (1985), An Introduction to Digital Image Processing, Prentice Hall

International.

OHTA, Y.; KANADE, T.; SAKAI, T. (1980), "Color Information for Region

Segmentation", Computer Graphics and Image Processing, 13, pp. 222-241.

OVERHEIM, R.D. & WAGNER, D.L.; (1982), Light and Color, John Wiley & Sons.

New York.

PARRISH, E.A. & GOKSEL, A.K.; (1977), "Pictorial Pattern Recognition Applied to

Fruit Harvesting", Transactions of the ASAE, pp. 822-827.

PAULSEN, M.R.; LIAO, K.; REID, J.F.; (1992), "Real-Time Detection of Colour and

Surface Defects of Maize Kernels Using Machine Vision", International

Conference on Agricultural Engineering, AGENG92, Paper num. 9206 17.

PAULSEN, M.R. & MCCLURE, W.F.; (1986), "Ilumination for Computer Vision

Systems", ASAE. Paper No 85-3546. ASAE St Joseph. MI 49085.

PAVLIDIS, T.; (1978), "A View of Algorithms for Shape Analysis", Computer

Graphics and Image Processing. 7:243-258.

Bibliografía

415

PHONG, B.T.; (1975), "Illumination for Computer Generated Pictures",

Communications of the ACM, 18:311-317.

PRATT, W.K.; (1974), "Correlation Techniques of Image Registration", IEEE

Trans., AES-10,3.

PRATT, W.K.; (1991), Digital Image Processing, John Wiley and Sons, Inc., United

States of America.

QUINLAN, J.R.; (1986), "Induction of Decision Trees", Machine Learning, 1:81-108.

QUINLAN, J.R.; (1987), "Simplifying Decision Trees", Int. J. Man-Machine Studies,

27, pp. 221-234.

RABATEL, G.; (1988a), "A Vision System for Magali, the Fruit Picking Robot", Int

Conf on Agricultural Engineering, AGENG88, Paper 88293.

RABATEL, G.; (1988b), Localisation de Fruits en Environnment Naturel par

Segmentation d’Images Polychromes, Tesis doctoral, Université Bordeaux I.

RAUDYS, S.J.; & JAIN, A.K.; (1991), "Small Sample Size Effects in Statistical

Pattern Recognition: Recommendations for Practitioners", IEEE Trans.

Pattern Machine Intell., Vol. 13, No. 3, pp. 252-264.

REHKLUGER, G.E. & THROOP, J.A.; (1986), "Apple Sorting With Machine Vision",

Transactions of the ASAE. 29(5):1388-1397.

REHKUGLER, G.E.; THROOP, J.A. (1989), "Image Processing Algorithm for Apple

Defect Detection", Transactions of the ASAE. 32(1), 267-272.

RIDLER, T.W.; CALVARD, S.; (1978), "Picture Thresholding Using an Iterative

Selection Method", IEEE Trans. Sys. Man Cyber., Vol. SMC-8, pp. 630-632.

RIUTALA, M.W. & HSU, C.C.; (1968), "A Feature Detection Program for Patterns

with Overlapping Cells", IEEE Trans. on Sys. Su. and Cyb., SSC-4, Mar.

ROBERSTON, A.R. & FISHER, J.F.; (1986), Color Vision, Representation and

Reproduction , In Television Engineering Handbook, ed. K.B. Benson, New

York. McGraw-Hill Book Company.

Bibliografía

416

ROCHER, F. & KEISSLING, A. (1975), "Methods for Analyzing Three-Dimensional

Scenes", Proc. 4th Intl. Joint Conf. Artificial Intelligence, pp. 669-673.

RODRIGUEZ, J.J.; & AGGARWAL, J.K.; (1990), "Stochastic Analysis of Stereo

Quantization Error", IEEE Trans. Pattern Anal. Machine Intell., Vol. 12,

No. 5, pp. 467-470.

ROS, F.; (1991), La Detection des Fruits dans de Circonstances Naturelles, Diplôme

d’Etudes Aprofondies, Université de Montpellier II Sciences et Techniques

du Languedoc.

ROSENFELD, A.; KAK, A.C.; (1982), Digital Pictura Processing, Academic Press.

RUMELHART, D.E.; & McCLELLAND, J.L.; (eds.) (1982), Parallel Distributed

Processing: Exploration in the Microstructures of Cognition, Vol. I, MIT Press.

SANDINI, G.; FERRARI, F.; GROSSO, E.; MAGRASSI, M.; MASSA, M.; (1991), "Vision

Based Operations in Green Houses", II Workshop on Robotics in

Agriculture and Food Industry, Genova, June 17-18, pp. 95-103.

SARIG, Y.; (1990), "Robomation of Fruit Harvesting. Myths and Misconceptions",

Curso Automatización y Robotización en la Agricultura, Universidad

Internacional Menendez y Pelayo, Valencia 4-8 Junio.

SARIG, Y.; EDAN, Y.; KATZ, N.; FLASH, T.; (1988),"Some aspects of Robotics for

Fruit Picking", French-Israel Bi-National Symposium on Advanced Robotics,

Theory and Practice, Tel-Aviv, May 30-31.

SARKAR, N.; WOLFE, R.R.; (1985), "Feature Extraction Techniques for Sorting

Tomatoes by Computer Vision", Transactions of the ASAE, Vol. 28(3):

970-979.

SCHERTZ, C.E. & BROWN, G.K.; (1968), "Basic Considerations in Mecanizing Citrus

Harvest", Transactions of the ASAE. 11(2):343-346.

SEARS, F.W.; (1978),Fundamentos de Física. Vol. III Óptica, Ed. Aguilar.

Bibliografía

417

SERRA, J.; (1982), Image Analysis and Mathematical Morphology, Academic Press

Inc.

SEVILA, F.; (1990), "Elementos de Robótica Móvil", Curso Automatización y

Robotización en la Agricultura, Universidad Internacional Menendez y

Pelayo, Valencia 4-8 Junio.

SHAFER, S.A.; (1985), "Using Color to Separate Reflection Components", COLOR

Res. Appl., 10(4): 210-218.

SHIRAI, Y.; (1987), Three-Dimensional Computer Vision, Springer-Verlag Ed.

SITES, P.W.; DELWICHE, M.J.; (1988), "Computer Vision to Locate Fruit on a

Tree", Transactions of the ASAE. 31(1), 257-262.

SLAUGHTER, D.C.; (1987), Color Vision for Robotic Orange Harvesting, Ph. D.

Dissertation, Department of Agricultural Engineering, University of Florida.

SLAUGHTER, D.C.; HARRELL, R.C.; (1987), "Color Vision in Robotic Fruit

Harvesting", Transactions of the ASAE, Vol. 30(4): 1144-1148.

SLAUGHTER, D.C.; HARRELL, R.C.; (1989), "Discriminating Fruit for Robotic

Harvest Using Color in Natural Outdoor Scenes", Transactions of the

ASAE, Vol. 32(2): 757-763.

SPHARIM, I.; NAKAR, R.; (1987), "A Robot for Picking Oranges. A

Techno-economic Simulator", ARO, Bet Dagan, Israel (mimeo),

TAKEO, J.; & HACHIYAMA, S.; (1991), "New Technology on Stereo Vision for

Mobile Robots", Proceedings of the IEEE, pp. 1383-1391.

TAYLOR, R.W., REHKLUGER, G. E.; THROOP, J.A.; (1984), "Apple Bruise Detection

Using a Digital Line Scan Cammera System", Proc. of National Conference

on Agricultural Electronics Applications. ASAE. St Joseph. MI 49085.

THROOP, J.A.; REHKUGLER, G.E.; UPCHURCH, B.L.; (1989), "Application of

Computer Vision for Detecting Watercore in Apples", Transactions of the

ASAE, Vol. 32(6): 2087-2092.

Bibliografía

418

TOMINAGA, S.; (1990), "A Color Classification Method for Color Images Using a

Uniform Color Space", IEEE Conference on Computer Vision and Patter

Recognition, CVPR’90, pp. 803-807.

TORRANCE, K.E.; & SPARROW, E.M.; (1967), "Theory of off-Specular Reflection

from Roughned Surfaces", J. Opt. Soc. Amer., 57:1105-1114.

TURNEY, J.L.; MUDGE, T.N.; VOLZ, R.A.; (1985), "Recognizing Partially Occluded

Parts", IEEE Transactions on Pattern Analysis and Machine Intelligence,

Vol. PAMI-7, No. 4, pp. 410-421.

TUTTLE, E.G.; (1983), "Image Controlled Robotics in Agricultural Environments",

Proc. of the First International Conference on Robotics and Intelligent

Machines in Agriculture, Oct. 2-4, ASAE. St. Joseph, MI. pp. 84-95.

VAN DER STUYFT, E.; VAN BAEL, J.; GOEDSEELS, V.; BOSSCHAERTS, L.; (1991),

"Design of a Procedure Yielding a Standard Posture in Live Pigs for

Computer Vision-Based Exterior Shape Measurement", I International

Seminar on Use of On-Machine Vision Systems for the Agricultural and

Bio-Industries, September 3-6, Montpellier, pp. 91-102.

VERRI, A.; & TORRE, V.; (1986), "Absolute Depth Estimate in Stereopsis", J. Opt.

Soc. Amer., Vol. 3, pp. 297-299.

VICENS, M.; PELECHANO, J.; ARNAU, V.; CERVERON, V.; ALBERT, J.; FERRI, F.;

DOMINGO, J.; (1990), "Una Aproximación a la Localización de Frutos para

Recolección Automática", Actas del IV Simposium Nacional de

Reconcocimientos de Formas y Análisis de Imagen, Granada, 24-28

Septiembre, pp. 66-73.

WALLACE, T.P.; & WINTZ, P.A.; (1980), "An Efficient Three-Dimensional Aircraft

Recognition Algorithm Using Normalized Fourier Descriptors", Computers

Graphics Image Processing, Vol. 13, pp. 99-126.

WANDELL, B.A.; (1987), "The Synthesis and Analysis of Color Images", IEEE


No. 1, pp. 2-13.

Bibliografía

419

WANG, R.; HANSON, A.R.; RISEMAN, E.M.; (1988), "Fast Extraction of Ellipses",

IEEE Conference on Computer Vision and Patter Recognition, CVPR’88,

pp. 508-510.

WATSON, D.F.; (1988), "Natural Neighbor Sorting on the n-Dimensional Sphere",

Pattern Recognition, Vol. 21, No. 1, pp. 63-67.

WECHSLER, H.; (1981), "A New and Fast Algorithm for Estimating Perimeter of

Object for Industrial Vision Tasks", Computer Graphics and Image

Processing. 17:375-385.

WENJUN, Z.; & YUANHUA, Z.; (1988), "An Improved Method for Shape from

Shading", IEEE Conference on Computer Vision and Patter Recognition,

CVPR’88, pp. 1106-1108.

WHITTAKER, A.D.; MILES, G.E.; MITCHELL, O.R.; GAULTNEY, L.D.; (1987), "Fruit

Location in a Partially Occluded Image", Transactions of the ASAE, Vol.

30(3), pp. 591-596.

WOLFE, R.R.; SANDLER, W.E.; (1985), "An Algorithm for Stem Detection Using

Digital Image Analysis", Transactions of the ASAE, pp. 641-644.

WYSZECKI, G.; & STILES, W.S.; (1967), Color Science, John Wiley & Sons, Inc.,

New York.

XIE, X.L.; & BERNI, G.; (1991), "Clustering Validity Based Image Segmentation for

IC Wafer Defects Recognition", IEEE Conference on Computer Vision and

Patter Recognition, CVPR’91, pp. 1404-1409.

XU, L.; OJA, E.; KULTAKEN, P.; (1990), "A New Curve Detection Method:

Randomized Hough Transform (RHT)", Pattern Recognition Letters, 11, pp.

331-338.

ZAHN, C.T. & ROSKIES, R.Z.; (1972), "Fourier descriptors plane closed curves",

IEEE Transactions on Computers. C-21, pp. 269-281.

Bibliografía

420

Lista de referencias derivadas de esta tesis

PLÁ, F.; MOLTÓ, F.; JUSTE, F.; (1990), "La Visión Artificial en la Recolección

Robotizada de Frutos", Fruticultura Profesional, Num. 32, pp. 56-64.

MOLTÓ, E., JUSTE, F.; PLÁ, F.; (1990), "Aplicación de las Técnicas de Análisis de

Imagen a la Recolección Robotizada de Cítricos", XXII Conferencia

International de Maquinaria Agrícola, CIMA90, Vol. I, pp. 289-297.

MOLTÓ, E.; PLÁ, F.; JUSTE, F.; (1990), "Detection of Citrus Fruits by Visión

Systems in Robotic Harvesting", International Conference on Agricultural

Engineering, AGENG90, Paper num. P.13.

PLÁ,F.; MOLTÓ, E.; JUSTE F.; (1991), "Vision en Color en Ambientes Naturales

para la Robótica Agrícola", XXIII Conferencia Internacional de Maquinaria

Agricola, CIMA91, Zaragoza, pp. 473-480.

PLÁ, F.; JUSTE, F.; MOLTÓ, E.; (1991), "An Approach to Citrus Vision Systems in

Robotic Harvesting", Proceedings of the Ist International Seminar of

On-Machine Vision Systems for Agricultural and Bio-Industries, Ed. G.

Rabatel, ISBN 2-85362-297-7, Montpellier, pp. 47-59.

MOLTÓ, E.; PLÁ, F.; JUSTE, F.; (1992), "Vision Systems for the Location of Citrus

Fruit in a Tree Canopy", J. Agric. Engng Res., Num. 52, pp. 101-110.

PLÁ, F.; FORNES, I.; JUSTE, F.; (1992), "Posibilidades de Detección de Frutos

Verdes en el Sistema de Visión del Robot ’Citrus’", Fruticultura Profesional,

Num. 50, pp. 21-28.

PLÁ, F.; JUSTE, F.; (1992), "Reconocimiento de Contornos Parcialmente Circulares

Utilizando Agrupamiento Jerárquico Aglomerativo", V Simposium Nacional

de Reconocimiento de Formas y Analisis de Imagen, Valencia, pp. 412-419.

PLÁ, F.; JUSTE, F.; FERRI, F.; VICENS, M.; (1992), "Colour Segmentation Based

on a Light Reflection Model to Locate Citrus Fruits for Robotic

Bibliografía

421

Harvesting", Computers and Electronics in Agriculture, Special Issue on

Machine Vision, Elsevier, In press.

PLÁ, F.; JUSTE, F.; FORNES, I.; (1992), "Visión del robot CITRUS en variedades

tempranas", XXIV Conferencia Internacional de Maquinaria Agricola,

CIMA92, Zaragoza, pp. 469-478.

PLÁ, F.; JUSTE, F.; FERRI, F.; (1992), "Feature Extraction of Spherical Objects in

Image Analysis. An application to Citrus Robotic Harvesting", Computers

and Electronics in Agriculture, Elsevier, In press.

PLÁ, F.; VICENS, M.; JUSTE, F.; (1992), "Color Segmentation to Locate Citrus

Fruits in Outdoor Scenes for Robotic Harvesting", IV Portuguese

Conference on Pattern Recongnition, Ed. H. Araujo y L. Viera de Sá,

ISBN 972-95745-0-2, Coimbra (Portugal), pp. 141-148.

JUSTE, F.; FORNES, I.; PLÁ, F.; SEVILA, F.; (1992), "An Approach to Robotic

Harvestign of Citrus in Spain", VII International Citrus Congres, Arcireale,

Paper num. 727.

Bibliografía

422

estudios de tÉcnicas de anÁlisis de imagen...

Documents