antonio henrique figueira louro a suavização gaussiana ... · aos meus pais antonio e angélica,...
TRANSCRIPT
Universidade de São Paulo – USP Escola de Engenharia de São Carlos
Departamento de Engenharia Elétrica e Computação Programa de Pós-Graduação Em Engenharia Elétrica
Antonio Henrique Figueira Louro
A suavização Gaussiana como método de marcação de características de fronteira entre regiões
homogêneas contrastantes
São Carlos 2016
Antonio Henrique Figueira Louro
A suavização Gaussiana como método de marcação de características de fronteira entre regiões homogêneas
contrastantes
Tese de doutorado apresentada à Escola de Engenharia Elétrica de São Carlos como parte dos requisitos para a obtenção de título de Doutor em Ciências, pelo Programa de Engenharia Elétrica. Área de concentração: Processamento de Sinais e Instrumentação. Orientador: Prof. Dr. Adilson Gonzaga
São Carlos 2016
Trata-se de uma versão corrigida da tese. A versão original se encontra disponível na EESC/USP que aloja o Programa de Pós-Graduação de Engenharia Elétrica.
Este trabalho é humildemente dedicado à minha família.
Agradecimentos
Ao Prof. Adilson por me aceitar como seu aluno, por sua orientação, confiança, camaradagem
e por todos os documentos que lhe fiz assinar. Foi um prazer estar ao seu comando. Sentirei
saudades desses bons tempos.
Se entregar a um doutorado requer o abandono de parte de sua vida e poucos têm a sorte de
ter uma esposa e sogra que cuidem de você e de toda essa parte, principalmente na educação e
diversão dos filhos. Muito obrigado Priscila e Dona Lúcia. Também agradeço aos meus
filhotes, que são muito compreensivos.
Aos meus pais Antonio e Angélica, e à minha tia Irene, por tudo.
Aos meus amigos Antonio Lemão e Alessandro Peixe, que sempre me apoiaram no que
precisei aqui em São Carlos.
Ao Prof. Edson Rodrigues. Espero que este agradecimento chegue até aí, muito obrigado por
me apresentar ao mundo acadêmico.
À Profa. Mabel Rodrigues.
Aos Profs. Marcelo Vieira, Homero Schiabel e Maria Stela.
Aos Profs. Evandro e Odemir pelas sugestões no trabalho de qualificação.
Aos Profs. Paulo Cruvinel e Luciano Fontoura por me apresentarem ao mundo da visão
computacional.
Ao Prof. Gustavo Braga da UESC.
À PROP e à Reitoria da UESC
À Fundação de Amparo à Pesquisa do Estado da Bahia.
Resumo
Louro, A.H.F. A suavização Gaussiana como método de marcação de características de
fronteira entre regiões homogêneas contrastantes. 210 p. Tese de Doutorado – Escola de
Engenharia de São Carlos, Universidade de São Paulo.
Este trabalho mostra que a suavização Gaussiana pode exercer outra função além da
filtração. Considerando-se imagens binárias, este processo pode funcionar como uma espécie
de marcador, que modifica as feições das fronteiras entre duas regiões homogêneas
contrastantes. Tais feições são pontos de concavidades, de convexidades ou de bordas em
linha reta. Ou seja, toda a informação necessária para se caracterizar a forma bidimensional de
uma região. A quantidade de suavização realizada em cada ponto depende da configuração
preto/branco que compõe a vizinhança onde este se situa. Isto significa que cada ponto sofre
uma quantidade particular de modificação, a qual reflete a interface local entre o objeto e o
fundo. Então, para detectar tais feições, basta quantificar a suavização em cada ponto. No
entanto, a discriminação pixel a pixel exige que a distribuição Gaussiana apresente boa
localização, o que só acontece em escalas muito baixas (0,5). Assim, propõe-se uma
distribuição construída a partir da soma de duas Gaussianas. Uma é bem estreita para garantir
a boa localização e a outra possui abertura irrestrita para representar a escala desejada. Para
confirmar a propriedade de marcação dessa distribuição, são propostos três detectores de
corners de contorno, os quais são aplicados à detecção de pontos dominantes. O primeiro
utiliza a entropia de Shannon para quantificar a suavização em cada ponto. O segundo utiliza
as probabilidades de objeto e de fundo contidos na vizinhança observada. O terceiro utiliza a
diferença entre Gaussianas (DoG) para determinar a quantidade suavizada, porém com a
restrição de que uma das versões da imagem tenha suavização desprezível, para garantir a boa
localização. Este trabalho se fundamenta na física da luz e na visão biológica. Os ótimos
resultados apresentados sugerem que a detecção de curvaturas do sistema visual pode ocorrer
na retina.
Palavras-chave: Difusão. Curvatura. Entropia. Diferença de Gaussianas. Pontos Dominantes.
Campos Receptivos. Percepção de Formas. Visão.
Abstract
Louro, A.H.F. The Gaussian smoothing as a method for marking boundary features between
contrasting homogeneous regions. 210 p. Ph.D. Thesis – São Carlos School of Engineering,
University of São Paulo, 2016.
This work shows that the Gaussian smoothing can have additional function to
filtration. Considering the binary images, this process can operate as a kind of marker that
changes the features of the boundaries between two contrasting homogeneous regions. These
features are points of concavities, convexities or straight edges, which are all the necessary
information to characterize the two-dimensional shape of a region. The amount of smoothing
performed at each point depends on the black/white configuration that composes the
neighborhood where the point is located. This means that each point suffers a particular
modification, which reflects the local interface between object and background. Thus, to
detect such features, one must quantify the smoothing at each point. However, pixel-wise
discrimination requires that the Gaussian distribution does not suffer flattening, which occurs
in very low scales (0.5), only. Thus, it is proposed a distribution built from the sum of two
Gaussians. One must be very narrow to ensure good localization, and the other is free to
represent the desired scale. To confirm the property of marking, three boundary based corner
detectors are proposed, which are applied to the detection of dominant points. The first uses
the Shannon's entropy to quantify the smoothing at each point. The second uses the
probabilities of object and background contained in the local neighborhood. The third uses the
difference of Gaussians (DoG) to determine the amount of smoothing. This Work relies on the
physics of light and biological vision. The presented results are good enough to suggest that
the curvature detection, in visual system, occurs in the retina.
Keywords: Diffusion. Curvature. Entropy. Difference of Gaussians. Dominant Points.
Receptive Fields. Shape Perception. Vision.
Lista de Figuras
Figura 1.1- Possível efeito da PSF sobre os detalhes do objeto ............................................... 29
Figura 1.2- Relação ângulo-entropia ........................................................................................ 32
Figura 1.3- Ilusão face-vaso. .................................................................................................... 33
Figura 2.1 – O gato de Attneave. .............................................................................................. 41
Figura 2.2 – Importância dos vértices para o reconhecimento de objetos ................................ 41
Figura 2.3 – Os caminhos corticais .......................................................................................... 43
Figura 2.4 – Quadrados aninhados ........................................................................................... 44
Figura 2.5 – Classes de métodos de detecção de corners ......................................................... 47
Figura 2.6 – Aproximação poligonal ........................................................................................ 52
Figura 2.7 – Conceitos de curvatura ......................................................................................... 53
Figura 2.8 – O chain code ........................................................................................................ 55
Figura 2.9 – Região de suporte (RoS) do ângulo θik: .............................................................. 56
Figura 3.1 – Relação entre os conceitos abordados nesta tese. ................................................ 62
Figura 3.2 – Difusão isotrópica: ............................................................................................... 65
Figura 3.3 – Pintura com pontilhismo de George Seurat, "Un dimanche après-midi à l'Île de la
Grande Jatte" (1884-1886). ...................................................................................................... 68
Figura 3.4 – Entropia para duas possibilidades com probabilidades p e (1-p) ......................... 70
Figura 3.5 – Difração em uma abertura circular. ...................................................................... 73
Figura 3.6 – Simplificação da conexão entre fotorreceptores e uma célula bipolar. ................ 76
Figura 3.7 – Simplificação da conexão entre fotorreceptores e uma célula horizontal. ........... 76
Figura 3.8 – Campo receptivo center-surround para células bipolares:................................... 77
Figura 3.9 – A diferença entre Gaussianas para uma imagem homogênea é zero. .................. 78
Figura 3.10 – Detecção de bordas com DoG off-center. .......................................................... 79
Figura 3.11 – Detecção de bordas com DoG on-center. ........................................................... 79
Figura 3.12 – Ampliação de parte das bordas detectadas por DoG off-center e on-center. ..... 80
Figura 3.13 – Contorno duplo na imagem entropia. ................................................................. 81
Figura 4.1 – Relação ângulo-entropia: núcleo proposto versus núcleo Gaussiano .................. 84
Figura 4.2 – Modificação de Gaussiana para obter a distribuição desejada. ............................ 88
Figura 4.3 – Comparações entre os resultados das suavizações com SoG e com Gaussiana
modificada. ............................................................................................................................... 88
Figura 4.4 – Ajuste de distribuição Gaussiana em janela quadrada. ........................................ 90
Figura 4.5 – Suavizações de uma imagem binária com os núcleos da Tabela 4.1. .................. 91
Figura 4.6 – Distribuição de fotorreceptores na retina. ............................................................ 92
Figura 4.7 – Núcleos de convolução gerados por SoG. ........................................................... 92
Figura 4.8 – Imagem original de uma cena com objetos distantes. .......................................... 93
Figura 4.9 – Versão suavizada com o núcleo H143 (=23,8333). ........................................... 93
Figura 4.10 – Versão suavizada com Gaussiana (=2,8333). .................................................. 94
Figura 4.11 – Respostas dos campos receptivos center-surround de células ganglionares. .... 96
Figura 4.12 – Respostas das células ganglionares em relação ao tamanho da área excitada pelo
estímulo luminoso. ................................................................................................................... 97
Figura 4.13 – Relação complementar entre convexidades e concavidades. ............................. 98
Figura 4.14 – Comparação de detecção de vértices entre DoG e DoG_zero. ........................ 101
Figura 5.1 – Ângulos padrão em uma janela 3x3 ................................................................... 108
Figura 5.2 – Influência da grade de amostragem.................................................................... 108
Figura 5.4 – Imagem entropia gerada pelo EML na escala mais baixa de operação. ............. 111
Figura 5.5 – Diferentes escalas de uma mesma configuração angular. .................................. 113
Figura 5.6 – O vértice de um retângulo observado através de seis janelas circulares. ........... 115
Figura 5.7 – Variação de entropia do vértice observado na Figura 5.6. ................................. 115
Figura 5.8 – Evolução multiescala de convexidades: ponto dominante versus ruído. ........... 117
Figura 5.9 – Evolução multiescala de ruídos convexos localizados em borda em linha reta. 118
Figura 5.10 – Evolução multiescala de concavidades: ponto dominante versus ruído. ......... 119
Figura 5.11 – Interferência de regiões adjacentes no comportamento multiescala. ............... 120
Figura 5.12 – Interferência de regiões adjacentes na comparação de candidatos. ................. 122
Figura 5.13 – A sequência das comparações interfere no resultado ....................................... 126
Figura 5.14 – Saídas das fases 2 e 3 do EML ......................................................................... 127
Figura 5.15 – Fase-4: pontos dominantes eleitos. .................................................................. 127
Figura 6.1 – Comportamento multiescala dos ângulos padrão (sem correção). ..................... 131
Figura 6.2 – Comportamento multiescala dos ângulos padrão (linearizados). ....................... 131
Figura 6.3 – Relação ângulo – peso do objeto (preto). ........................................................... 132
Figura 6.4 – Evolução multiescala: entropia versus peso. ...................................................... 133
Figura 6.5 – Saída da quarta fase dos detectores EML e CLP. .............................................. 136
Figura 7.1 – Resultado da diferença: “imagem suavizada (=0,5) – imagem original” ........ 142
Figura 7.2 – Resultado da diferença: “imagem suavizada– imagem original” em seis escalas
diferentes. ............................................................................................................................... 142
Figura 7.3 – Concavidade versus convexidade. ..................................................................... 144
Figura 7.4 – Comportamento multiescala das respostas do DoG_zero para os ângulos padrão:
................................................................................................................................................ 144
Figura 7.5 – Resposta do DoG_0 para a imagem da Figura 7.3 ............................................. 145
Figura 7.6 – Evolução multiescala: entropia versus DoG_zero. ............................................ 148
Figura 7.7 – A propagação do primeiro extremo aplicada à Figura 7.6.b .............................. 150
Figura 7.8 – Resultados do algoritmo de avaliação multiescala............................................. 152
Figura 7.10 – Resultados do algoritmo de avaliação multiescala para as convexidades do
fundo branco ........................................................................................................................... 155
Figura 7.11 – Pontos dominantes detectados pelo DoG_zero. ............................................... 155
Figura 8.1 – Semelhança na detecção de vértices de convexidades e ruídos. ........................ 160
Figura 8.2 – O ground-truth das oito imagens. ...................................................................... 166
Figura 8.3 – Os erros de detecção do EML. ........................................................................... 166
Figura 8.4 – Os erros de detecção do CPL. ............................................................................ 167
Figura 8.5 – Os erros de detecção do DoG_zero. ................................................................... 167
Figura 8.6 – O ground-truth da imagem F. ............................................................................ 170
Figura 8.7 – Evolução multiescala do ponto X da Figura 8.6 sob o ponto de vista dos três
detectores propostos. .............................................................................................................. 171
Figura 8.8 – Ampliação de parte da imagem H. ..................................................................... 171
Figura 8.9 – Evolução multiescala dos pontos A, B e Z da Figura 8.8. ................................. 172
Figura 8.10 – O ground-truth da imagem E. .......................................................................... 172
Figura 9.1 – Contornos ilusórios (adaptado de Yang, Yue e Wu (2015)). ............................. 179
Figura 9.2 – Hipercolunas do córtex visual V1 (adaptado de Ursino e Lara (2004)). ........... 179
Figura 9.3 – A proximidade dos indutores fortalece a ilusão. ................................................ 180
Figura 9.4 – A ativação dos ângulos no córtex visual V1: ..................................................... 181
Figura 9.5 – A ativação dos ângulos nas hipercolunas: .......................................................... 181
Lista de Tabelas
Tabela 4.1 – Núcleos de convolução (SoG). ............................................................................ 90
Tabela 5.1 – Ângulos padrão e suas entropias em 7 escalas diferentes.................................. 107
Tabela 5.2 – Fator de correção de entropia por ângulo e escala. ............................................ 114
Tabela 6.1 – Ângulos padrão e seus pesos em 7 escalas diferentes. ...................................... 130
Tabela 6.2 – Fatores para a linearização de pesos. ................................................................. 132
Tabela 6.3 – Ângulos padrão ajustados pelo fator de linearização. ....................................... 134
Tabela 7.1 – Ângulos padrão e suas DoG_zero para 7 escalas diferentes. ............................. 147
Tabela 7.2 – Fator de correção de resposta DoG_zero por ângulo e escala. .......................... 148
Tabela 8.1 – Interseção das respostas dos três detectores ...................................................... 159
Tabela 8.2 – Interseção das respostas dos detectores EML e CLP......................................... 159
Tabela 8.3 – Interseção das respostas dos detectores EML e DoG_zero (continua) .............. 159
Tabela 8.4 – Interseção das respostas dos detectores CLP e DoG_zero ................................ 160
Tabela 8.5 – Resultados das comparações das respostas dos detectores propostos com o
ground-truth. ........................................................................................................................... 162
Tabela 8.6 – Respostas do detector EML. (continua) ............................................................. 162
Tabela 8.7 – Respostas do detector CLP. (continua) .............................................................. 163
Tabela 8.8 – Respostas do detector DoG_zero. (continua) .................................................... 164
Tabela 8.9 – Resultados das comparações das respostas de 13 detectores com o ground-truth.
................................................................................................................................................ 168
Lista de Siglas
2D Bidimensional
CBIR Recuperação de imagens baseada em conteúdo (Content-based Image.
Retrieval)
CLP Computação Local de Pesos
CSS Espaço-escala de curvaturas (Curvature Scale Space)
Diag Diagonal
DoG Diferença de Gaussianas
DoG_zero Diferença de Gaussianas onde uma delas tem escala próximo à zero
EML Entropia da Mistura Local
FN Falso Negativo
FP Falso Positivo
H/V Horizontal/Vertical
LoG Laplaciano da Gaussiana
PSF(FEP) Função Espalhamento de Ponto
SoG Soma de Gaussianas
Sumário
Capítulo 1 – Introdução ............................................................................................................ 24
1.1 Considerações Iniciais ............................................................................................... 24
1.2 Objetivos .................................................................................................................... 35
1.3 Contribuições ............................................................................................................. 35
1.4 Organização do texto ................................................................................................. 36
Capítulo 2 – Revisão bibliográfica ........................................................................................... 39
2.1 Introdução .................................................................................................................. 39
2.2 Aspectos psicofísicos ................................................................................................. 39
2.3 Aspectos biológicos ................................................................................................... 42
2.4 Detecção de características locais .............................................................................. 45
2.4.1 Detecção de pontos dominantes .............................................................................. 47
2.5 Conclusão do capítulo ................................................................................................ 57
Capítulo 3 – Fundamentação teórica ........................................................................................ 61
3.1 Introdução .................................................................................................................. 61
3.2 Difusão ....................................................................................................................... 62
3.3 Entropia ...................................................................................................................... 66
3.4 Relações entre PSF e difusão ..................................................................................... 71
3.5 PSF neural, produção de entropia e diferença de Gaussianas .................................... 75
3.6 Conclusão do capítulo ................................................................................................ 82
Capítulo 4 – Núcleo de convolução proposto ........................................................................... 83
4.1 Introdução .................................................................................................................. 83
4.2 Desvantagens da suavização Gaussiana .................................................................... 83
4.3 O núcleo proposto para a computação de entropia .................................................... 85
4.4 O núcleo proposto para a DoG .................................................................................. 94
4.5 Conclusão do capítulo .............................................................................................. 102
Capítulo 5 – Proposta do detector EML ................................................................................. 105
5.1 Introdução ................................................................................................................ 105
5.2 Fase 1 – computação da entropia na menor escala .................................................. 109
5.3 Fase 2 – computação multiescala dos candidatos .................................................... 112
5.4 Fase 3 – análise da evolução dos candidatos através das escalas ............................ 112
5.5 Fase 4 – determinação dos pontos dominantes ........................................................ 124
5.6 Conclusão do capítulo .............................................................................................. 128
Capítulo 6 – Proposta do detector CLP .................................................................................. 129
6.1 Introdução ................................................................................................................ 129
6.2 Conclusão do capítulo .............................................................................................. 137
Capítulo 7 – Proposta do detector DoG_zero. ........................................................................ 141
7.1 Introdução ................................................................................................................ 141
7.2 Funcionamento do DoG_zero .................................................................................. 146
7.3 Conclusão do capítulo .............................................................................................. 156
Capítulo 8 – Resultados .......................................................................................................... 157
8.1 Introdução ................................................................................................................ 157
8.2 Comparando as saídas dos detectores propostos ..................................................... 157
8.3 Comparando as respostas dos detectores propostos com um ground-truth ............. 161
8.4 Comparação entre os detectores propostos e outros disponíveis na literatura ......... 165
8.5 Discussão ................................................................................................................. 168
Capítulo 9 – Conclusões e trabalhos futuros .......................................................................... 175
9.1 Conclusões ............................................................................................................... 175
9.3 Trabalhos futuros ..................................................................................................... 178
9.3 Publicações .............................................................................................................. 182
Referências ............................................................................................................................. 185
ANEXO A – Imagens utilizadas ............................................................................................ 209
Capítulo 1 – Introdução
1.1 Considerações Iniciais
O tema desta tese está inserido no contexto da visão computacional. Uma disciplina
que incorpora o conhecimento de diferentes áreas, com o intuito final de construir sistemas
capazes de enxergar, seja no espectro visível ou em outras frequências.
Uma das grandes linhas de pesquisa em visão computacional é a análise de formas.
Esta tese trata diretamente com formas bidimensionais, mais precisamente com as
propriedades que podem auxiliar em sua percepção e distinção.
O conceito de forma tem sido de importância central na reflexão científica e filosófica
desde o seu princípio (ALBERTAZZI, 1999). Em visão computacional e em visão natural há
muita pesquisa dedicada à compreensão das formas. Em geral, o objetivo do primeiro está na
detecção e reconhecimento de objetos, de seres vivos, de tumores, de lesões, de
comportamento, de emoções, de gestos, de caracteres, ou de verificar se determinado produto
possui a forma adequada para a sua comercialização.
Embora os objetos do mundo real sejam tridimensionais, suas projeções na retina (ou
numa matriz de fotorreceptores artificiais) possuem, apenas, duas dimensões. Contudo,
transportam informação suficiente para caracterizar a forma geral de um objeto.
Em visão computacional há um grande esforço dedicado à pesquisa em análise de
formas bidimensionais. Um dos objetivos é buscar maneiras para simplificar a forma, sem
distorcer o seu aspecto geral. A finalidade disto é descrever a forma usando-se, somente, os
seus detalhes relevantes. As formas precisam ser representadas de maneira única e completa a
fim de permitir a distinção entre objetos similares. Porém, a representação requer
simplicidade, evitando detalhes desnecessários que possam dificultar os processos
computacionais de comparação, armazenamento ou transmissão.
Não há definição precisa para o conceito genérico de forma. Num dicionário da língua
portuguesa, esta palavra é definida como sendo os limites exteriores da matéria de que é
constituído um corpo, e que conferem a este um feitio, uma configuração, um aspecto
particular (AURÉLIO, 1999). Na literatura de análise de formas, o conceito de forma costuma
ser definido como a informação que se mantém invariante às transformações geométricas de
rotação, translação e variação de escala (DRYDEN; MARDIA, 1998). As imagens binárias,
INTRODUÇÃO 25
ou silhuetas, se adaptam bem a essas definições e costumam ser a modalidade de imagens
escolhida para o estudo da forma. Esta tese trabalha apenas com imagens binárias.
De acordo com a definição dada pelo dicionário, os limites exteriores se referem ao
contorno do objeto, embutindo a ideia de quanto e em qual direção a matéria se expandiu, ou
se contraiu para formar cada uma das saliências do objeto. Na segunda definição, a ideia de
invariância à escala sugere que a forma geral do objeto é dada pelas grandes saliências, que se
mantêm visíveis, mesmo que se aumente a distância em que o objeto é observado.
Uma saliência é uma dada região da imagem cujo aspecto a faz se sobressair em
relação às regiões vizinhas. No contexto de formas bidimensionais, as saliências são
protuberâncias e reentrâncias no contorno. Nos pontos do contorno onde se inicia uma
saliência ocorre uma mudança de direção. Ao mudar a direção é criado um ângulo entre a
direção atual e a direção anterior. Assim, a ideia de se procurar por mudanças de direção, ou
ângulos ao longo do contorno é bastante útil para descrever a forma de um objeto. A variação
na direção pode ser medida pela curvatura, quanto mais rápida é a variação na direção, maior
é a magnitude da curvatura.
A maioria das técnicas envolvidas com a simplificação de formas lida com a busca por
pontos de alta curvatura ao longo de contornos, por exemplo, em Mokhtarian e Mackworth
(1986). Tais técnicas também levam em consideração o tamanho das saliências delimitadas
pelos pontos de alta curvatura detectados.
As palavras convexidade e concavidade são mais adequadas para se referir às
saliências geradas a partir de expansões ou contrações de matéria. O vértice de uma
convexidade, ou de uma concavidade é um ponto do contorno onde ocorre uma mudança
abrupta na direção. Tais pontos são conhecidos na literatura pertinente como corners de
contorno. Caso a saliência observada tenha importância no aspecto global da forma, o corner
de contorno pode receber a denominação de ponto dominante.
Pode-se dizer, então, que para se descrever a forma geral de um objeto, as técnicas de
simplificação de formas buscam por vértices de convexidades e de concavidades relevantes
do contorno.
Embora as ideias sugeridas pelas definições acima pareçam ser perfeitamente lógicas,
não foram elas que inspiraram as técnicas de detecção de curvaturas em contornos. O marco
no qual se baseia a maior parte dessas técnicas é o trabalho de Attneave (1954), onde são
relatados experimentos psicofísicos, com a finalidade de comprovar certas leis da Gestalt1 e
1 Gestalt (“forma” em alemão) é uma linha da psicologia que se destina a estudar a percepção humana.
26 INTRODUÇÃO
cujos resultados foram fundamentados pela teoria da informação. Esses experimentos
mostraram que a incerteza sobre a direção do contorno é maior nos pontos onde a direção
varia mais acentuadamente, pois causam uma ruptura de continuidade2. Esses raros pontos de
mudança abrupta na direção, sozinhos, são perfeitamente capazes de aproximar o aspecto
geral da forma. Necessitando, apenas, que sejam unidos com segmentos de retas ou arcos.
A associação de incerteza com alta curvatura motivou a construção de muitos
algoritmos de detecção de pontos dominantes fundamentados na análise de curvaturas. No
entanto, o aspecto da incerteza recebeu muito menos importância na detecção de tais pontos.
Os resultados apresentados nesta tese mostram que explorar o aspecto da incerteza é mais
natural, mais simples e mais preciso do que as técnicas envolvidas com cálculos de curvatura.
Attneave utilizou a entropia de Shannon (SHANNON, 1948) para medir a incerteza na
“adivinhação3” dos pontos do contorno (ATTNEAVE, 1954) e relacionou as mudanças de
direção com valores altos de entropia. Isto significa que num segmento de alta curvatura é
necessário mais informação para decidir a direção correta do contorno.
A entropia computada nas respostas desses experimentos está relacionada ao estado
“consciente” do observador, pois decisões envolvem raciocínio. Contudo, antes da forma de
um objeto se tornar consciente, a sua imagem sofre diferentes processamentos ao longo do
caminho visual, incluindo a detecção de ângulos de contorno. “Poderia, então, o sistema
visual utilizar algo semelhante à entropia para detectar curvaturas?”
As técnicas utilizadas para saber se uma saliência é importante, ou melhor, para
verificar se a saliência sobrevive ao aumento de escala, são conhecidas como técnicas
multiescala. Uma delas é o espaço-escala Gaussiano. Em Koenderink (1984) é feita uma
equiparação entre o espaço-escala Gaussiano e a difusão do calor. Até então, o autor desta
tese pensava em espaço-escala como uma iteração de suavizações, uma mera ferramenta de
processamento de imagens. Isto desencadeou uma série de indagações, tais como: “é possível,
na Natureza, ocorrer a difusão de uma imagem? O que é difundido nesse processo? Por que
existe essa difusão? Quais as suas consequências na percepção das imagens?”
Percebeu-se que as questões sobre entropia e difusão mencionadas nos dois últimos
parágrafos estão fortemente relacionadas. Uma das características de uma imagem binária é
que as regiões de fundo e de objeto estão bem definidas, isto é, não há dúvidas sobre a qual
2 Continuidade é uma das leis da Gestalt. 3 Nos experimentos de Attneave, apenas uma pequena região da imagem ficava visível ao observador. A tarefa deste era a de prever a cor, ou a direção do contorno das regiões adjacentes, a partir da porção visível da imagem.
INTRODUÇÃO 27
região um determinado pixel possa pertencer. A suavização Gaussiana é uma instância de um
processo de difusão. O efeito de uma suavização desse tipo, numa imagem binária, é o de
transferir “partículas de cor” do objeto para o fundo e vice-versa. Esta transferência
bidirecional, ou mistura de partículas, introduz incerteza nos pixels da fronteira entre o objeto
e o fundo. Quanto mais acentuada for a suavização (aumentando-se a abertura da Gaussiana
ou repetindo-se o processo de suavização), mais intenso se torna o grau de incerteza, bem
como a sua abrangência, trazendo um número de pixels cada vez maior para o estado de
incerteza. Este processo de suavização pode ser continuado até que todos os pixels da imagem
apresentem o mesmo nível de cinza. A partir deste instante não há mais sentido em continuar
a suavização, pois não ocorrerá qualquer modificação adicional. Diz-se que o sistema
(imagem) entrou em seu estado de equilíbrio.
Portanto, onde há difusão, também pode haver o aumento de incerteza. Esta tem início
a partir da fronteira, onde é mais intensa, e se propaga em duas frentes com sentidos opostos.
Uma em direção ao interior do objeto e a outra em direção às partes do fundo mais afastadas
da fronteira. A concentração da incerteza na fronteira está em harmonia com os resultados
relatados em Attneave (1954), onde se diz que o contorno é a parte menos redundante da
imagem, ou seja, onde se encontra mais variação, mais diferenças, mais contraste.
A difusão pode ser medida através do cálculo de entropia e, em alguns casos, pela
entropia de configuração (configurational entropy) (LAMBERT, 2007), principalmente,
quando se fala em aumento de desordem ou de baralhamento. A entropia de configuração não
considera a dinâmica das partículas, apenas a distribuição espacial das mesmas e a sua
equação é a mesma da entropia de Shannon.
Havendo relação entre difusão e incerteza, abre-se o caminho para verificar onde pode
ocorrer difusão, ou suavização, num sistema de visão, bem como a possibilidade de inferir
curvaturas ao longo de contornos, medindo-se a incerteza causada por tais processos.
A simples observação de uma cena através de um sistema óptico natural ou artificial
introduz incerteza. A informação contida na cena e a informação obtida com o aparato óptico
não são idênticas. A imagem sempre será uma suavização da cena real, independentemente
da precisão do sistema utilizado. A causa dessa distorção se deve, principalmente, ao
comportamento da luz ao interagir com a abertura do sistema (difração) e com o material das
lentes (refração). O efeito de suavização resultante é a resposta impulsiva do sistema ou,
equivalentemente, a função de espalhamento pontual (FEP ou PSF do inglês point spread
function). Em geral, a abertura de um sistema óptico é circular, o que produz difração circular
28 INTRODUÇÃO
e um efeito de suavização circularmente simétrica na imagem (COLE; JINADASA; BROWN,
2011; SMITH, 1997).
Um pixel de uma imagem representa uma região minúscula da cena em observação,
que a partir de agora será chamada de região mínima. Hipoteticamente, esta região pode ser
homogênea possuindo relevo e propriedades físicas idênticas em toda a sua extensão. Isto
pode significar que a luz refletida por essa região mínima transporta informação de um único
tipo. No caso da região mínima ser heterogênea, haverá informações distintas transportadas
pela luz refletida.
Um pixel só pode ter um único valor, ele é o menor item de informação em uma
imagem, não há como representar duas ou mais informações distintas simultaneamente num
mesmo pixel. Para o caso de uma região mínima homogênea, o valor do pixel representa
fielmente a informação transportada pelo reflexo desta região. No entanto, para que o valor de
um pixel represente as informações refletidas por uma região mínima heterogênea, tais
informações precisam ser combinadas. Considera-se, aqui nesta tese, que as regras de
combinação (as ponderações) são ditadas pela PSF do sistema.
Aproximando-se a PSF com uma distribuição bidimensional circularmente simétrica e
considerando-se uma cena hipotética composta por um objeto de cor preta num fundo branco,
a aquisição da imagem poderá produzir os seguintes comportamentos:
a) As regiões homogêneas da cena, isto é, o interior do objeto e o interior do
fundo não sofrem qualquer modificação com a suavização da PSF;
b) A suavização produzirá seus efeitos mais notáveis na fronteira entre o objeto e
o fundo;
c) Quando a PSF estiver centrada na fronteira, o efeito da suavização variará de
acordo com as feições da fronteira, ou melhor, de acordo com as porções
convexas e côncavas do objeto (ou do fundo).
Essas ideias ficam mais claras observando-se a Figura 1.1. As circunferências
demarcam a janela de observação do sistema óptico, o qual é representado por um cilindro.
Este possui a sua PSF, representada por uma Gaussiana. O sistema varre a cena, a qual é
representada por uma estrela com superfície homogênea preta e um fundo homogêneo branco.
Considera-se que a vizinhança demarcada por círculos (região mínima da cena) seja pequena
o suficiente para ser representada por um único pixel de saída, o qual é um dos retângulos da
grade de saída. Para cada configuração espacial de região mínima haverá um valor de saída
próprio (pixel de saída). Se a região mínima for homogênea, isto é, composta apenas por
INTRODUÇÃO 29
objeto preto, ou apenas por fundo branco, o valor de saída para essa região mínima será
idêntico ao valor de entrada, não ocorrendo mistura alguma. Este é o caso dos círculos 1 e 2
desta figura. A combinação de informações (mistura) ocorre quando a região mínima da
cena compreende, simultaneamente, informações de objeto e de fundo. A janela de
observação centrada num ponto da fronteira faz com que o sistema produza um pixel cujo
valor representa as proporções de objeto e de fundo da região mínima. Devido à distribuição
de pesos da PSF ser bidimensional e circularmente simétrica, o valor do pixel de saída está
fortemente atrelado à configuração espacial da região mínima. É muito importante observar
que ao se deslocar a janela de observação ao longo do contorno, as proporções de objeto e
fundo só podem variar de uma única maneira, que é através da variação de setores circulares.
Figura 1.1- Possível efeito da PSF sobre os detalhes do objeto. Os círculos numerados correspondem às configurações de entrada do sistema óptico, o qual produz um pixel com uma tonalidade correspondente ao
detalhe observado. A forma de sino ao lado do cilindro é a representação da PSF do sistema.
Os ângulos dos setores circulares definem o aspecto da interface entre o objeto e o
fundo, isto é, se a fronteira forma uma borda em linha reta, uma concavidade ou uma
convexidade. Isto pode ser observado nos círculos 3, 4 e 5 da Figura 1.1. Em outras palavras,
está sendo sugerido que a suavização circularmente simétrica pode fornecer informações que
possibilitem inferir os ângulos do contorno de um objeto.
Anteriormente foi mencionado que a suavização causa incerteza, produzindo dúvidas
se um pixel pertence ao objeto ou ao fundo. Se a região mínima for homogênea, tem-se a
30 INTRODUÇÃO
certeza de que ela pertence exclusivamente ao objeto (ou exclusivamente ao fundo). Neste
caso não há produção de incerteza em seus pixels de saída. O que era um “ponto” do objeto na
cena continua sendo um “ponto” do objeto na imagem. Porém, nos “pontos” sobre a fronteira,
a formação de suas imagens produz incerteza nos pixels de saída, a qual varia com o tipo de
interface que o objeto forma com o fundo. A proporção de objeto capturada pela janela de
observação é o fator que determina o grau de incerteza produzido.
A incerteza, então, pode ser usada para quantificar a suavização produzida, em
imagens binárias e consequentemente caracterizar o ângulo de cada ponto do contorno.
Porém, a incerteza não é a única maneira de se medir o efeito da suavização. Pode-se, por
exemplo, usar somente o peso estatístico do objeto contido na região mínima e associá-lo ao
ângulo do contorno. Quanto menor for o peso, mais agudo é o ângulo. Na verdade este
procedimento é uma simplificação do cálculo da entropia de Shannon.
Outra maneira de quantificar a suavização produzida é através da diferença de
Gaussianas (Difference of Gaussians - DoG), por exemplo, a diferença entre a versão
suavizada e a versão original. Esta operação informa quanto a imagem foi modificada pela
suavização em cada um de seus pixels, isto é, a subtração informa onde houve mistura e qual
foi a sua intensidade.
Quando a abertura do núcleo de suavização é estreita, o resultado da subtração é zero
em todos os pixels, exceto nos pixels da fronteira. Vale notar que as células ganglionares da
retina são modeladas como DoG e, em geral, são chamadas de detectores de bordas.
Nesta tese foram construídos três detectores de corners de contorno, cada um usando
uma das ideias mencionadas acima: entropia, probabilidades e DoG.
Para detectar corners de contorno válidos (pontos dominantes) é necessário verificar o
tamanho da saliência do contorno e não apenas o seu ângulo. Para isso é necessário utilizar
alguma técnica multiescala. Nesta tese optou-se em desenvolver um método multiescala
próprio, cujas características principais são:
a) Apenas os candidatos a pontos dominantes, detectados em baixa escala, são
observados em escalas mais altas;
b) As escalas são discretas e de quantidade limitada;
INTRODUÇÃO 31
c) O núcleo de convolução4 é uma modificação da distribuição Gaussiana para
evitar o efeito de achatamento5.
A característica do item c é essencial para se obter uma relação ordenada entre a
abertura do ângulo e a sua entropia (incerteza). Os itens a e b da Figura 1.2 demonstram essa
relação ordenada. A entropia decresce monotonicamente com o aumento da abertura do setor.
Vale salientar que o setor de interesse pode ser o de cor preta ou o de cor branca. Isto produz
dois pontos de vista diferentes, porém complementares. Independentemente da cor escolhida,
a diminuição da abertura do setor produzirá um pixel de saída com maior entropia. Isto ocorre
devido à distribuição de pesos adotada, cujo peso central é muito alto em relação aos outros, e
sempre pertencerá à região que está sendo observada (objeto ou fundo). Ou seja, quanto
menor for a abertura do setor, mais próximo se estará da configuração de equiprobabilidade, a
qual produz máxima entropia.
O achatamento da Gaussiana torna impossível criar uma relação confiável entre o
ângulo do setor e a sua entropia. Especificamente, o achatamento permite que dois ou mais
ângulos diferentes tenham o mesmo valor de entropia, invalidando a detecção angular. A
solução para este problema foi o uso de mistura de Gaussianas para gerar a distribuição
desejada, a qual possui o centro sempre íngreme, independentemente da escala utilizada. A
mistura de Gaussianas foi manipulada para que a distribuição resultante possua uma relação
equiprovável entre o peso do centro (0.5) e o peso total da periferia (0.5), o que confere
entropia máxima (valor igual a 1) para as configurações mostradas no item c da Figura 1.2.
Num sistema de visão natural, o estágio seguinte ao da aquisição de imagens é
formado por um banco de filtros, o qual é composto por células retinais de diferentes tipos. As
células do tipo bipolar e ganglionar se destacam por possuírem campos receptivos compostos
por regiões de sensibilidade antagonistas, dispostas de forma concêntrica. Este tipo de campo
receptivo é chamado de center-surround. Um modelo para este tipo de campo utiliza a
diferença entre Gaussianas (DoG) (RODIECK , 1965; ENROTH-CUGELL; ROBSON,
1966). Pode-se dizer que o campo receptivo de uma célula é a janela de observação da célula.
No entanto, esta janela não recebe luz, mas sinais elétricos provenientes de outras células. De
4 Núcleo de convolução é a janela de observação que é deslocada ponto a ponto ao longo da cena. Matematicamente, é uma distribuição estatística cujos pesos são combinados aos pontos da cena através de produto interno. 5 A distribuição Gaussiana possui uma forma de sino. Aumentar a escala significa alargar a base desse sino, o que implica num ajuste interno dos pesos que diminui a altura do sino. O achatamento da altura deixa os pesos com valores muito próximos, que ao serem multiplicados pelos pontos da cena (ou imagem) deixam as regiões com valores muito parecidos, dificultando a sua distinção – perda de localização espacial.
32 INTRODUÇÃO
qualquer maneira, permanece idêntica a ideia de se capturar um conjunto de valores de
entrada e transformá-lo num único valor de saída. Neste caso, não se usa a PSF para ponderar
a combinação dos sinais, mas a “sensibilidade” do campo receptivo, que também é distribuída
de maneira circularmente simétrica (ou quase), por isso o uso de Gaussianas em sua
modelagem.
As células ganglionares formam o último estágio de processamento dentro da retina.
Seus axônios formam o nervo óptico, por onde a informação processada na retina é enviada
ao cérebro. As ganglionares respondem aos estímulos com trens de pulsos, cuja frequência
(ou outra característica) está associada ao estímulo de entrada. Isto é, existe um vocabulário,
um código neural, que representa diferentes instâncias de alguma informação presente no
estímulo. Acredita-se que uma dessas informações é o contraste, ou melhor, a borda entre
duas regiões contrastantes, que é uma característica possível de ser extraída pela arquitetura
center-surround.
Figura 1.2- Relação ângulo-entropia. a) a incerteza em relação à abertura do setor circular, a qual pode ser
vista tanto pelo lado da porção preta quanto da porção branca; b) valores de entropia para os ângulos do item a; c) as configurações de entropia máxima (1) para o núcleo de convolução proposto; d) configurações de entropia
mínima (0), não há incerteza sobre o ponto pertencer ao objeto ou ao fundo.
A forma é um conceito de alto nível, o qual, necessariamente, deriva do
processamento de contraste que ocorre na retina. Nos estágios iniciais não existe a ideia de
forma, apenas regiões homogêneas contrastantes. A forma a ser gerada em níveis mais altos
do cérebro pode ser produzida pela região escura, ou pela região clara da cena. A escolha
dependerá da estrutura que for mais semelhante aos itens armazenados na memória do
INTRODUÇÃO 33
sistema. Há casos em que ambas as regiões podem ter significado para o observador,
causando um chaveamento mental entre as duas formas, isto pode ser percebido na Figura 1.3.
Da retina ao cérebro existem caminhos específicos para conduzir o código neural que
descreve as regiões clara e escura. Assim, sinais que representam ambas as regiões são
enviados, em paralelo, ao córtex visual para decidir a classe de cada região. Os caminhos que
levam essas informações são formados por duas variações de um mesmo tipo de célula
ganglionar. Um dos caminhos é formado pelas células on-center off-surround, que são
sensíveis a objetos claros em fundo escuro. O outro caminho é composto pelas células off-
center on-surround sensíveis a objetos escuros em fundo claro (SODERQUIST, 2002).
Voltando à Figura 1.2, no item a, é possível encontrar essa ideia de processamento
simultâneo para objetos pretos e brancos (a produção de incerteza pode ser medida
separadamente para os dois tons). Uma semelhança ainda mais sugestiva está nos itens c e d
da mesma figura. As configurações de entropia máxima e mínima coincidem com as respostas
máximas e mínimas das células ganglionares. As células on-center off-surround apresentam
sua resposta máxima quando se ilumina apenas o centro. As células off-center on-surround
apresentam a sua resposta máxima quando apenas a periferia é iluminada. Os dois tipos de
célula quando completamente iluminados, ou completamente obscurecidos, apresentam
resposta mínima.
Essas semelhanças sugerem a possibilidade de que na retina exista o mecanismo
necessário para inferir as curvaturas ao longo de contornos. A proposta de um detector de
corners baseado em um modelo semelhante (DoG) ao das células ganglionares corrobora essa
possibilidade.
Figura 1.3- Ilusão face-vaso. Adaptado de Vases and Faces (2016)
34 INTRODUÇÃO
Supondo-se que existam células ganglionares que gerem código neural para
representar “valores de curvatura”, o sistema visual precisará enfrentar um novo problema: a
natureza isotrópica dos campos receptivos torna o valor detectado invariante à rotação. Isto é,
têm-se as coordenadas espaciais do ponto, o “valor” do seu ângulo, porém não se sabe a
orientação deste. O ângulo detectado pode estar em qualquer posição ao redor do círculo. Sem
conhecer a orientação, não é possível reconstruir a forma do objeto observado.
Nesta tese, em trabalhos futuros, são apresentados os rudimentos de um modelo que
sugere uma solução para a falta de uma convenção que informe onde se situa o ângulo 0° e
qual o sentido para o seu crescimento. Para isso, é apresentada a hipótese de que a orientação
de um ângulo pode ser obtida alinhando-o, simultaneamente, com um ângulo imediatamente
anterior e com um ângulo imediatamente posterior, da mesma maneira como ocorre com os
ângulos internos de figuras geométricas planas. Propõe-se que o mecanismo de alinhamento
encontra-se, em sua maior parte, no córtex visual primário (V1) composto por estruturas
conhecidas como hipercolunas. A criação da hipótese foi motivada pelo efeito conhecido por
ilusão de Kanizsa (KANIZSA, 1955), na qual o alinhamento de ângulos faz surgir uma figura.
Considera-se, aqui, que tal ilusão é o reflexo do funcionamento desse mecanismo de
alinhamento angular.
A Figura 1.4 mostra o surgimento de uma figura a partir do alinhamento angular. No
item a, apenas os vértices das convexidades do objeto são utilizados. No item b são
considerados os vértices das convexidades e concavidades do objeto. No item c são utilizados
os vértices das convexidades do objeto e das convexidades do fundo. Este se baseia na
existência dos canais on-center e off-center, o que permite reduzir a representação angular
para a faixa de 0o a 180º no código neural. Ao se observar as Figuras 1.1 e 1.2, percebe-se
que um vértice de convexidade do objeto também pode ser o vértice de uma concavidade do
fundo, e vice-versa. A restrição da faixa angular para 180º reduz a redundância e
consequentemente reduz o consumo de energia metabólica, evitando que recursos do sistema
sejam utilizados desnecessariamente. Além disso, a representação de um vocabulário menor
torna o código menos complexo.
INTRODUÇÃO 35
Figura 1.4 – Ilusões de Kanizsa. a) a ilusão é gerada apenas por vértices de convexidade do objeto; b) a ilusão é gerada por vértices de convexidade e concavidade do objeto e c) a ilusão é gerada por vértices de convexidades
do objeto e do fundo.
Em resumo, o trabalho desenvolvido nesta tese lida com a detecção de corners de
contorno, que é um processamento fundamental para fornecer subsídios para tarefas de visão
computacional de nível mais alto, por exemplo, o reconhecimento de objetos. Os métodos de
detecção desenvolvidos foram baseados no estudo da física da luz e nos resultados das
pesquisas em visão biológica. Em essência, a principal hipótese é de que o efeito de
suavização isotrópica embute a informação necessária para se inferir as curvaturas do
contorno da imagem bidimensional de um objeto.
1.2 Objetivos
O objetivo principal desta pesquisa é comprovar que a suavização do tipo Gaussiana é
essencial para distinguir os detalhes fronteiriços entre duas regiões homogêneas contrastantes,
funcionando como uma espécie de marcador, similar aos marcadores biológicos utilizados
para realçar as características de alguma célula. Para comprovar essa hipótese são propostos
três detectores de pontos dominantes fundamentados na mesma ideia: a suavização Gaussiana.
Como objetivo secundário é sugerido, com base nos ótimos resultados obtidos, que a
detecção de curvaturas pode ser realizada na retina.
1.3 Contribuições
São propostos três métodos inovadores para a detecção de corners de contorno,
principalmente por se basearem num conceito muito simples e de uso corriqueiro em visão
36 INTRODUÇÃO
computacional e processamento de imagens, que é a suavização de imagens com núcleos de
convolução circularmente simétricos.
A utilização da soma de Gaussianas, ou mistura de Gaussianas em escala, também é
inovadora no sentido de utilizá-la para evitar o efeito de achatamento associado ao aumento
de escala. Da mesma forma, é inovadora a utilização da produção de entropia máxima como
um guia para obter a distribuição ideal a partir dessa soma de Gaussianas. A entropia máxima
numa configuração circularmente simétrica é obtida quando os pesos central e periférico são
equiprováveis.
A associação da produção de entropia com a diferença de Gaussianas é uma
contribuição muito interessante, pois permitiu idealizar campos receptivos do tipo center-
surround como mecanismos que obedecem à produção máxima de entropia. Em outras
palavras, sugere-se que o peso probabilístico do centro da distribuição seja igual, ou maior
que a totalização dos pesos de sua periferia. Esta ideia permitiu tornar o modelo DoG em um
detector de curvaturas.
Assim, esta tese também contribui com novas ideias para a visão natural, indicando a
possibilidade de ocorrer detecção de curvaturas na retina, o que poderia explicar, por
exemplo, a ilusão de Kanizsa como o reflexo de um mecanismo de alinhamento angular
situado no córtex, necessário para reconstruir a forma a partir dos ângulos detectados.
1.4 Organização do texto
O presente trabalho é composto por mais oito capítulos:
O capítulo 2 apresenta uma revisão bibliográfica contendo as principais ideias usadas
na detecção de pontos dominantes nos últimos quarenta anos, incluindo aspectos psicofísicos
e biológicos.
O capítulo 3 apresenta os fundamentos básicos a respeito de difusão, difração, entropia
da termodinâmica e entropia da informação, com as possíveis relações entre elas, bem como
aspectos básicos de visão biológica.
O capítulo 4 apresenta a proposta do núcleo de convolução, bem como todos os
aspectos biológicos que motivaram a sua construção.
Os capítulos 5, 6 e 7 respectivamente descrevem os métodos propostos para a detecção
de pontos dominantes baseado em entropia, computação local de pesos e diferença de
Gaussianas.
O capítulo 8 apresenta os resultados com suas respectivas discussões.
INTRODUÇÃO 37
O capítulo 9 apresenta as conclusões, trabalhos futuros e produção bibliográfica.
Capítulo 2 – Revisão bibliográfica
2.1 Introdução
O interesse em descobrir quais são os aspectos que mais influenciam na percepção de
formas é bastante antigo, há quase mil anos Alhazen, o “pai da óptica moderna”, declarou que
as concavidades e convexidades ao longo do contorno de um objeto desempenham um papel
de grande importância na percepção de sua forma (NORMAN; PHILLIPS; ROSS, 2001).
Pode-se dizer que a necessidade em compreender o funcionamento da percepção de
formas guiou a pesquisa científica através de três caminhos distintos: experimentos
psicofísicos, investigações biológicas e visão computacional.
O objetivo deste capítulo é apresentar uma revisão bibliográfica a respeito de pontos
dominantes, sua fundamentação psicofísica, os possíveis mecanismos biológicos mencionados
na literatura e algumas das várias implementações em visão computacional, desenvolvidas a
partir da década de 1970.
2.2 Aspectos psicofísicos
A Psicofísica é a primeira e mais antiga disciplina do campo da psicologia
experimental, estuda a relação entre os estímulos físicos (entrada) e a experiência sensorial
(saída). Por exemplo, uma determinada luminosidade produz uma determinada sensação de
claridade (BERNARDINO, 2015). É uma abordagem não invasiva para estudar os processos
sensoriais, comparando modelos teóricos com a experiência visual das pessoas (BRUCE;
GREEN; GEORGESON, 2003).
Em Attneave (1954) foram conduzidos experimentos psicofísicos sobre a percepção
visual, em especial sobre a capacidade humana em prever as direções em um contorno. Foi
constatado que a informação a respeito de uma forma bidimensional se concentra em seu
contorno, porém não de maneira uniforme. Os pontos do contorno que concentram a maior
parte da informação são aqueles onde a sua direção muda abruptamente.
De acordo com a lei da Gestalt de “boa continuidade”, os elementos arranjados numa
reta ou curva são percebidos como mais relacionados entre si do que aqueles que não estão
nessas configurações, permitindo reduzir a incerteza e destacar grupos correlacionados em
meio a uma grande quantidade de elementos aleatórios (WAGEMANS et al., 2012). Isto é,
40 REVISÃO BIBLIOGRÁFICA
permite a previsão das direções em um contorno. Aquilo que pode ser previsto é considerado
redundante, com baixo teor informativo e consequentemente não necessita ser representado. O
fator que limita tais previsões é a surpresa causada por uma mudança abrupta na direção,
tornando as posições de incerteza (ou surpresa) como as mais informativas de um contorno.
Visto que, matematicamente, uma mudança de direção corresponde a uma alta curvatura,
tornou-se corriqueiro o fato de que os pontos de alta curvatura concentram a maior parte da
informação a respeito de uma forma bidimensional.
O experimento relatado acima teve seus resultados analisados sob o ponto de vista da
teoria da informação de Shannon (SHANNON, 1948). Aliás, esse experimento de Attneave é
uma adaptação, para contornos, do experimento de Shannon sobre a capacidade humana em
prever a próxima letra de uma palavra. Shannon escolhia um livro aleatoriamente em sua
estante, o qual era aberto em uma página qualquer, da qual era escolhida aleatoriamente uma
palavra. Esta era parcialmente coberta com o dedo e era indagado ao observador (a esposa de
Shannon) qual seria(m) a(s) letra(s) oculta(s) (GLEICK, 2011).
A ideia de Attneave em fundamentar seus resultados com a teoria da informação
produziu um aumento de confiabilidade na Gestalt que já estava a ponto de ser “sepultada”,
pelo menos na América do Norte. Seu trabalho (ATTNEAVE, 1954) tornou-se altamente
referenciado em visão computacional e percepção visual. A Figura 2.1 apresenta o gato de
Attneave, o qual é uma aproximação poligonal a partir dos 38 pontos de maior curvatura do
contorno da imagem de um gato.
Os vértices (corners) são características importantes para o sistema visual humano,
remove-los das imagens reduz drasticamente o desempenho da tarefa de reconhecimento, o
que não ocorre se for removida grande parte das informações de borda (BIEDERMANN,
1987). Na Figura 2.2 são confrontadas imagens de objetos que tiveram parte de seus
contornos removidos. Na coluna central (b), as regiões removidas não incluem vértices, o que
não modifica significativamente a capacidade humana em reconhecer os objetos. Na coluna
da direita (c), as regiões removidas incluem os vértices dos contornos, causando um aumento
de incerteza no reconhecimento dos objetos. Pode-se ter a falsa impressão de que o
reconhecimento baseado em (c) é tão fácil quanto em (b). Mostrando apenas o item (c), peça
para que alguém reconheça os objetos. Repita o teste mostrando o item (b).
REVISÃO BIBLIOGRÁFICA 41
Figura 2.1 – O gato de Attneave. Adaptada de Attneave (1954).
Figura 2.2 – Importância dos vértices para o reconhecimento de objetos. a) contorno intacto; b)
remoção de partes do contorno não incluindo vértices; c) remoção de vértices. Figura adaptada de Biedermann (1987).
42 REVISÃO BIBLIOGRÁFICA
Em Norman, Phillips e Ross (2001) é reportado um experimento onde os participantes
deveriam marcar em cada uma das doze imagens apresentadas (sombras de batatas doces) os
dez pontos mais salientes. A análise dos resultados indicou que os participantes marcaram
consistentemente as regiões de maior curvatura absoluta, confirmando os resultados em
Attneave (1954).
Em De winter e Wagemans (2008) foi realizado um experimento com 161
participantes e 260 contornos de objetos do dia a dia. Os resultados indicaram a importância
dos extremos de curvatura.
Em Wolfe, Yee e Friedman-Hill (1992) são apresentados vários experimentos
associados à busca visual. Os resultados suportam a hipótese de que a curvatura se comporta
como uma característica (feature) básica nesses processos de busca, sugerindo que em algum
lugar no sistema visual deva existir um mecanismo especifico para a detecção de curvaturas.
2.3 Aspectos biológicos
Não se sabe ao certo onde estão localizados os mecanismos de detecção de curvatura,
nem se estes existem de forma explícita. Há uma tendência em acreditar que as informações
de curvatura sejam extraídas a partir das informações de orientação. Uma parte da literatura
tende a considerar as células endstopped (ou hipercomplexas) da área V2 do córtex visual
como detectores de curvatura. Em Dobbins, Zucker, e Cynader (1987, 1989) foi proposto que
as células endstopped serviriam como base para a estimação de curvaturas. Em Versavel,
Orban e Lagae (1990) propuseram a existência de três tipos de células relacionadas com o
sistema de detecção de curvatura derivada da orientação, sendo que o conjunto de células
sensível a altas curvaturas seria formado por células endstopped, as quais são sintonizadas a
orientação e ao tamanho do estímulo. Em Rodríguez-Sánchez e Tsotsos (2011, 2012) é
apresentado um modelo computacional onde as células endstopped desempenham um papel
crítico na seletividade de formas via computação de curvaturas.
Outra parte considerável da literatura relata a sensibilidade que os neurônios da área
V4 têm em relação às curvaturas. Alguns dos trabalhos envolvidos nessas investigações são
encontrados em: Gallant, Braun e Van Essen (1993); Gallant et al. (1996); Pasupathy e
Connor (1999, 2001); Habak et al. (2004); Oliveira, Costa e Roque (2005); Connor, Brincat e
Pasupathy (2007); Yue et al. (2014); Rodríguez-Sánchez, Neumann e Piater (2014).
A Figura 2.3 resume a localização das áreas do córtex visual envolvidas no
reconhecimento de objetos, nas quais pode ocorrer a detecção de curvaturas. As investigações
REVISÃO BIBLIOGRÁFICA 43
fisiológicas sugerem a existência de uma bifurcação no processamento de objetos. O caminho
dorsal é responsável em produzir sensações de orientação espacial, de percepção de
profundidade, de localização, de direção, de movimento e de velocidade de um objeto no
espaço (CORTICAL PATHWAYS, 2015). O caminho ventral é especializado em reconstruir
e identificar os objetos a partir de suas características.
Figura 2.3 – Os caminhos corticais. Adaptado de Bachatene; Bharmauria e Molotchnikoff (2012).
Parece não haver muito interesse em investigar se ocorre detecção de curvaturas na
retina, talvez exista a certeza de que ali a detecção não seja factível. Até onde se pesquisou, só
foram encontradas quatro referências (três dos mesmos autores) em que se menciona a
possibilidade de detecção de corners, de ângulos ou de curvaturas nas células da retina. No
entanto, é mostrado nesta tese que a estrutura center-surround dos campos receptivos da
retina fornece o mecanismo fundamental para se extrair informações angulares, sugerindo que
as células retinais possam codificar valores angulares de convexidades e concavidades do
contorno de objetos.
Em Lettvin et al.(1959) foram investigadas as informações no nervo óptico de um
sapo, dentre elas encontrou-se informações sobre convexidades. Em Troncoso, Macknik e
Martinez-conde (2005, 2009) e Troncoso et al. (2007) foram conduzidos experimentos
psicofísicos com base na ilusão de Vasarely, mostrando que os corners são mais salientes que
44 REVISÃO BIBLIOGRÁFICA
bordas em linha reta e que quanto mais agudo é o ângulo de um corner, maior é a sua
saliência. Os autores, então, sugerem a possibilidade de que os campos receptivos da retina
(do tipo center-surround) tenham evoluído para extrair a informação angular a partir do
contraste. A Figura 2.4 apresenta uma ilusão de quadrados aninhados “do tipo Vasarely”. O
importante é perceber a formação (ilusão) de linhas diagonais com intensidade do brilho
destacada. Este realce na intensidade é o indicativo de que os corners se sobressaem em
relação às bordas em linha reta. Quanto mais agudo for o ângulo, mais destacada se torna a
intensidade. Pode ser interessante observar que há certa semelhança entre este tipo de ilusão e
o resultado de transformadas como a grassfire transform e a medial axis transform, que
geram os esqueletos das imagens (skeletonization). Alguns detalhes a respeito dessas
transformadas podem ser encontrados em Costa e Cesar (2001).
Figura 2.4 – Quadrados aninhados. Figura adaptada de Troncoso, Macknik e Martinez-conde (2005).
REVISÃO BIBLIOGRÁFICA 45
2.4 Detecção de características locais
Em aplicações comuns de visão computacional, um estágio fundamental, após o
tratamento da imagem, é a extração de informações que a representem de uma maneira
apropriada para a realização de uma tarefa específica. Em geral, essas informações ou padrões
são chamados de características ou feições da imagem (image features). Alguns tipos de
características são bordas, contornos, corners, junções e blobs. Ou seja, em vez de se usar a
imagem como um todo se usa um vetor de características para representa-la.
A literatura sobre detecção de características locais é muito vasta. As investigações a
esse respeito iniciaram-se a partir dos resultados dos experimentos relatados em Attneave
(1954), os quais indicaram a importância dos pontos de alta curvatura. Assim, inicialmente, a
ideia era buscar por características locais ao longo de contornos de imagens, as quais estavam
associadas a mudanças abruptas na direção local de um contorno, isto é, onde se formavam
esquinas ou cantos. Os algoritmos que realizam tal busca são chamados de detectores de
corners. Devido a esse aspecto angular, a definição comum para corner é a interseção entre
duas bordas (PATEL; PANCHAL, 2014). Nesta categoria de detecção surgiu o termo ponto
dominante, que se refere ao corner mais importante de uma dada região do contorno.
Uma desvantagem da detecção de corners em contornos é a necessidade prévia de
segmentação da imagem, ou de detecção de bordas. Para tornar essa etapa desnecessária, as
investigações evoluíram para a busca de corners diretamente em imagens em tons de cinza.
As características importantes são posições na imagem onde ocorrem mudanças significativas
de sinal. Para detectá-las não é necessário localizar fronteiras entre regiões, como mencionado
acima, a busca por altas curvaturas é feita diretamente no gradiente da imagem. A ideia básica
é computar as diferenças de brilho em torno de uma pequena localidade da imagem. Se as
diferenças forem irrelevantes em todas as direções, pode significar que a localidade é interna a
uma região homogênea da imagem. Se as diferenças forem grandes numa única direção e
irrelevantes nas outras, pode significar que a localidade se encontra numa borda. Se as
diferenças forem grandes em quase todas as direções, pode significar que a localidade é um
corner. No entanto, nem sempre as grandes variações ao redor de uma localidade
caracterizam um corner. Tais variações podem estar indicando a existência de um blob, uma
pequena região que se destaca do seu entorno, por exemplo, uma mancha clara em meio a
uma região escura, ou vice-versa. Então, os resultados produzidos por esses detectores podem
indicar a presença de corners, blobs e bordas. Devido a essa variedade, os algoritmos
receberam o nome de detectores de pontos de interesse, ou de pontos interessantes. Porém, a
46 REVISÃO BIBLIOGRÁFICA
tradição fez com que continuassem a ser chamados de detectores de corners. Um exemplo
típico é o detector Harris (HARRIS; STEPHENS, 1988).
Outra classe de detectores de características tem o interesse em detectar pequenas
regiões distintas da imagem, isto é, a detecção de blobs com a subsequente análise de seu
comportamento interno, por exemplo, a direção principal de sua textura. Uma ideia
fundamental é obter características que se mantenham invariantes a diferentes tipos de
modificações que venham a ser produzidas na imagem, por exemplo, mudanças de escala e
deformações geométricas. Essas regiões são chamadas de pontos chave (keypoints). Em
Tuytelaars e Mikolajczyk (2007) são avaliados diferentes algoritmos envolvidos nesse tipo de
detecção. Um exemplo típico desta categoria de detectores é o SIFT, descrito em Lowe
(2004).
Percebe-se, então, que há uma nomenclatura um tanto confusa. Por exemplo, um
detector de corners pode ser usado para detectar blobs, os quais podem ser pontos
interessantes, ou pontos chave. A confusão pode aumentar devido à proximidade dos
significados linguísticos dos termos pontos interessantes, pontos chave e pontos dominantes.
Todos transportam a ideia sobre a importância de um ponto. Embora a ideia de ponto só exista
matematicamente, este se torna ainda mais inapropriado para se referir aos blobs,
principalmente quando funcionam como pontos chave, pois são tratados explicitamente como
regiões.
Apesar da nomenclatura confusa, em geral, a detecção de cada tipo de característica
local tem detectores e finalidades específicas. A detecção de corners em contornos, ou em
silhuetas e a subsequente escolha dos pontos dominantes estão diretamente relacionadas com
análise e percepção de formas, que compõe o assunto de interesse desta tese.
Revisões e avaliações sobre técnicas de detecção de corners em contornos (ou curvas
planas), conhecidos por boundary based corner detectors, podem ser encontradas em: Teng,
Najmus Sadat e Lu (2015); Awrangjeb (2008); Awrangjeb, Lu e Frase (2010, 2012);
Awrangjeb e Lu (2013); Kahaki, Nordin e Ashtari (2014); Mokhtarian e Mohanna (2006);
Tuytelaars e Mikolajczyk (2007);
Uma excelente revisão sobre detecção de características locais, incluindo keypoints,
está em Tuytelaars e Mikolajczyk (2007). Revisões e avaliações sobre técnicas de detecção de
pontos de interesse são encontradas em: Chen et al. (2009); Patel e Panchal (2014);
Tissainayagam e Suter (2004); Rockett (2003); Dutta, Chatterjib e Kar (2008); Zukal e Cika
(2012); Zheng, Wang e Khwang Teoh (1999); Schmid, Mohr e Bauckhage (1998, 2000);
REVISÃO BIBLIOGRÁFICA 47
Existem, também, revisões de detectores com o propósito específico em verificar qual
é o mais apropriado para uma dada aplicação. Em Li, Liu e Gong (2013) são comparados
alguns detectores de pontos interessantes e detectores de corners para aplicações de
reconhecimento de linguagens de sinais. Em Lee, Lee e Xu (2014) é proposto um método
geométrico para detecção de veias em imagens de retina, o qual é comparado com detectores
de pontos de interesse e detectores baseados em keypoints. Em Cumani e Guiducci (2009) são
avaliados alguns detectores baseados em keypoints para uso em hodometria visual, isto é, o
acúmulo de movimentos relativos, estimados a partir de características da cena enquanto um
veículo, provido de visão estéreo, se movimenta. Em Zukal et al. (2013) são avaliados
detectores de pontos interessantes para uso em imagens médicas de ultrassom. Em Nowicki e
Skrzypczynski (2014) são avaliados detectores baseados em keypoints para navegação visual
usando smartphones.
Devido à existência de grande quantidade de métodos de detecção de corners, é
necessário organizá-los em grupos para que se tenha uma noção geral dos trabalhos já
desenvolvidos. A figura 2.5 mostra uma possível organização.
Figura 2.5 – Classes de métodos de detecção de corners. Adaptado de (AWRANGJEB, 2008).
2.4.1 Detecção de pontos dominantes
Nesta tese, o objetivo é determinar quais são os pontos mais salientes ao longo de
contornos de formas bidimensionais (de silhuetas). A saliência dos pontos de um contorno foi
48 REVISÃO BIBLIOGRÁFICA
quantificada por seu conteúdo informativo, com base na teoria da informação, em Attneave
(1954), Singh (2015), Feldman e Singh (2005). Outros trabalhos em psicofísica, que
utilizaram mais participantes e mais imagens, reforçaram a ideia de que os pontos mais
salientes ao longo de um contorno são os pontos de mais alta curvatura (DE WINTER;
WAGEMANS, 2008; NORMAN; PHILLIPS; ROSS, 2001).
Uma revisão de detectores de corners (corners de contorno e pontos interessantes) em
imagens digitais listou cento e catorze algoritmos diferentes, desenvolvidos no período de
1977 a 2006, dos quais cinquenta e quatro se dedicam à detecção de corners em contornos
realizada no domínio espacial (DUTTA; KAR; CHATTERJI, 2008). Algumas publicações
mais recentes, que incluem detecção de pontos dominantes, são encontradas em
(AWRANGJEB; LU; FRASER, 2010; PARVEZ; MAHMOUD, 2010; ZHU; WANG; LIU,
2010; NGUYEN; RENNESSON, 2011; PEDROSA; BARCELOS; BATISTA, 2011; PAULA
et al., 2011; PRASAD, 2012; TAHAEI et al., 2012; POTOČNIK, 2012; BACKES; BRUNO,
2013; SARFRAZ; SWATI, 2013; LIU; LI, 2013; LABOURE; AZEMA; FOURNEL, 2014).
A grande maioria dos algoritmos estima as curvaturas ao longo de contornos (ou
curvas planas). O maior problema da computação da curvatura é a sua sensibilidade a ruídos e
pequenas perturbações (KERAUTRET; LACHAUD; NAEGEL, 2008). Estimar curvaturas,
bem como localizar precisamente a sua posição espacial são tarefas muito difíceis, mesmo em
contornos perfeitamente digitalizados (UTCKE, 2003).
O termo ponto dominante foi utilizado pela primeira vez em Rosenberg (1972). Um
ponto dominante é um marco onde a natureza da curva se modifica significativamente (ponto
de alta curvatura). Pontos dominantes representam características importantes de um objeto e
desempenham um papel importante na percepção de formas (ASADA; BRADY, 1986). Em
Guru, Dinesh e Nagabhushan (2004) é declarado que a informação sobre a forma está
concentrada nos pontos dominantes, os quais são primitivas descritivas para a representação
de formas e interpretação de imagens. Os termos ponto dominante, corner, ponto crítico e
break point são usados na literatura como tendo o mesmo significado (ZHANG; ZHAO,
1997). Um ponto dominante é um corner especial, é o vértice da estrutura mais importante de
uma dada vizinhança. A importância ou saliência de tal estrutura é dada pela combinação de
sua curvatura e seu tamanho. Este último é identificado pela quantidade de escalas em que a
estrutura se mantém proeminente.
De acordo com Awrangjeb, Lu e Fraser (2010) os pontos dominantes apresentam
algumas vantagens em relação aos pontos interessantes, são elas: a) são visualmente
distinguíveis (intuitivos) e mais robustos que os pontos interessantes; b) a quantidade de
REVISÃO BIBLIOGRÁFICA 49
pontos dominantes é muito menor que a de pontos interessantes; c) os pontos dominantes
podem ser ordenados de acordo com sua importância (saliência); d) a quantidade de pontos
dominantes pode ser controlada por limiar. A principal desvantagem na detecção de corners
em contornos é a necessidade de segmentação prévia, que aumenta o tempo de processamento
e pode gerar formas distorcidas.
Ao se refletir sobre a questão apresentada em Mandelbrot (1967), percebe-se que o
problema de se medir uma zona costeira é o mesmo de se medir o contorno de um objeto,
ambos podem apresentar quantidades imensas de protuberâncias e reentrâncias, limitadas,
apenas, pela capacidade tecnológica em observá-las. Isto pode conferir à forma uma
complexidade infinita, tornando impossível (ou quase) encontrar dois objetos que sejam
idênticos em seus mínimos detalhes. Em aplicações de reconhecimento ou classificação de
formas, duas ou mais formas costumam ser comparadas. Se cada detalhe de contorno for
utilizado na comparação, concluir-se-á que todas as formas são distintas. Isto faz da detecção
de pontos dominantes um problema não trivial, pois os ângulos gerados por ruído ou por
detalhes insignificantes têm que ser distinguidos daqueles que representam mudanças
significativas na direção das curvas (LIU; SRINATH, 1990). A detecção de falsos positivos e
falsos negativos, descrita em vários artigos, é um indicativo da dificuldade enfrentada pelos
detectores ao realizar essa tarefa. A ideia, então, é a de se evitar a descrição desses pequenos
detalhes, isto é, tornar a forma o mais suave possível sem distorcê-la significativamente. Para
isso, tornou-se imprescindível a utilização de esquemas multiescala embutidos nos detectores.
Os corners são invariantes a translação, rotação e mudanças de escala, por isso são
largamente usados em representação e análise de imagens. A detecção de pontos dominantes é
uma operação de baixo nível, cuja saída pode alimentar aplicações de nível superior. Alguns
exemplos são: casamento de imagens (SMITH et al., 1998; VINCENT; LAGANIRE, 2005),
decomposição de curvas digitais (ABE et al., 1993; MARJI; KLETTE; SIY, 2004:
SARFRAZ, 2008), aproximação poligonal ou segmentação linear por partes (SARFRAZ;
ASIM; MASOOD, 2004; MARCONDES; COSTA, 1995), visão estéreo (LI, 2007;
VINCENT; LAGANIRE, 2001), recuperação de imagens baseada em conteúdo (CBIR)
(TORRES; FALCÃO, 2007) e rastreamento de movimento (DRESCHLER; NAGEL, 1982;
WANG; BRADY, 1995). Um dos principais usos de pontos dominantes é a simplificação da
análise de formas, reduzindo a quantidade de dados a serem processados e ao mesmo tempo
preservando as informações importantes sobre o objeto (LIU; SRINATH, 1990). Outros
indicativos da importância da detecção de corners em contornos são:
50 REVISÃO BIBLIOGRÁFICA
Considera-se que a extração de contornos seja uma das primeiras tarefas realizadas
pelo sistema visual de recém-nascidos. Em Salapatek e Kessen (1966) foi observado
que os movimentos dos olhos de crianças com poucos dias de idade se concentram
sobre contornos ou corners.
Uma quantidade de teorias sobre reconhecimento de objetos sugere que os seres
humanos codificam as formas em termos de suas partes constituintes, as quais, por
sua vez, coincidem com os valores máximos das convexidades encontradas em
contornos (HAUSHOFER et al., 2008).
Basicamente existem duas abordagens diferentes para a detecção de corners ao longo
de contornos. A primeira é conhecida como aproximação poligonal, cujo propósito é ajustar
segmentos de reta às diferentes direções de um contorno. Para isso é definido um limiar para a
distância máxima entre uma região do contorno e o segmento de reta que o aproxima.
Exemplos são encontrados em Ramer (1972); Douglas e Peucker (1973); Pavlidis e Horowitz
(1974); Sklansky e Gonzalez (1980); Wall e Danielsson (1984); Rosin e West (1989); Ray e
Ray (1991); Aoyama e Kawagoe (1991); West e Rosin (1991). Nesta abordagem, os corners
(breaking points) são os vértices do polígono ajustado ao contorno.
Na segunda abordagem, os corners surgem em conseqüência da estimação de
curvatura (ou o seu equivalente) ao longo do contorno, os quais, eventualmente, podem ser
usados como breaking points em aplicações de aproximação poligonal. Dentre o elevado
número de algoritmos propostos para detecção de pontos dominantes baseada em curvatura,
pode-se citar Rosenfeld e Johnston (1973); Rosenfeld e Weska (1975); Freeman e Davis
(1977); Asada e Brady (1986); Mokhtarian e Mackworth (1986); The e Chin (1989);
Rattarangsi e Chin (1992); He e Yung (2004).
As duas abordagens mencionadas podem se tornar interdependentes em alguns
métodos, obscurecendo a fronteira entre elas. Sendo assim, é válido incluir as seguintes
observações:
a) É possível detectar pontos dominantes através de aproximação poligonal. Em virtude da
quantidade de ruído de quantização presente em contornos digitais, a aproximação
poligonal pode ser desejável, pois é mais confiável detectar retas do que corners.
Referências clássicas são encontradas em Ramer (1972); Pavlidis e Horowitz (1974).
b) É possível realizar uma aproximação poligonal após o processo de detecção de corners.
Isto é, os corners servirão como breaking points para gerar um contorno simplificado, o
qual pode ser utilizado em tarefas de nível mais alto. A compreensão tácita nesta
REVISÃO BIBLIOGRÁFICA 51
abordagem é a seguinte: visto que os pontos dominantes concentram a maior parte da
informação existente na curva, é de se esperar que a união destes por segmentos de reta
represente a curva de maneira desejável. Um exemplo de aplicação é encontrado em
Garrido, Perez e Garca-Silvente (1998), onde as aproximações poligonais foram usadas
para iniciar modelos deformáveis.
c) É possível realizar uma detecção de corners intermediários (via detecção de curvatura),
chamados de anchor points, e então aplicar alguma técnica de aproximação poligonal
para encontrar os pontos dominantes. As técnicas que usam essa abordagem são
chamadas de híbridas (ANSARI; DELP, 1991; ANSARI; HUANG, 1991; WU; WANG,
1993);
A Figura 2.6 mostra a aproximação poligonal realizada pelos algoritmos
desenvolvidos em Ramer (1972) e em Pavlidis e Horowitz (1974), as quais são comparadas a
uma aproximação poligonal realizada após a detecção de corners. As três técnicas apresentam
um problema em comum, que é a análise feita em uma única escala, tornando a detecção de
corners dependente da escala de observação.
Ao contrário das outras duas, a aproximação baseada em curvatura não sofre
modificações significativas com a rotação da imagem. Ocorre, apenas, o deslocamento de
alguns pontos, porém a causa está no reajuste do contorno à grade de amostragem e não na
detecção dos corners.
Os principais problemas com a detecção baseada em aproximação poligonal são: a
falta de invariância à escala, a dependência da escolha dos breaking points de entrada e a
sensibilidade à rotação da imagem. Revisões e comparações de técnicas de aproximação
poligonal são encontradas em The e Chin (1989) e em Rosin (1997).
Podem existir outros algoritmos diferentes das abordagens descritas acima. Um
exemplo é tratar o conjunto de pontos, que aproxima o contorno, como se fosse um grafo e
aplicar as propriedades pertinentes. Em Backer e Bruno (2013) é empregada a propriedade de
vertex betweenness para alcançar a melhor aproximação poligonal.
De acordo com Awrangjeb (2008), em geral, as técnicas de detecção de pontos
dominante baseadas em curvaturas são compostas de cinco estágios:
Detecção de bordas e extração do contorno a partir da imagem em tons de cinza;
Suavização do contorno;
Estimação das curvaturas;
52 REVISÃO BIBLIOGRÁFICA
Determinação dos pontos dominantes e
Rastreamento dos pontos dominantes da alta escala em direção à escala mais baixa, a
fim de melhorar a localização dos mesmos (válido somente para multiescala).
Figura 2.6 – Aproximação poligonal. a) contorno original, b) contorno original com rotação, c) contorno
original aumentado. Na segunda linha (d,e,f) a aproximação poligonal é realizada após a detecção de curvatura. A terceira linha (g,h,i) apresenta a aproximação poligonal descrita em Ramer (1972), e na quarta linha (j,k,l) a
aproximação é feita com o algoritmo split–and-merge (PAVLIDIS; HOROWITZ, 1974). As setas apontam para as distorções nas aproximações.
Discutir o estágio de segmentação ou detecção de bordas está fora do escopo desta
tese. Porém é digno de nota que muitos dos detectores de pontos dominantes utilizam o
detector de bordas de Canny.
Além do problema da escala, que é inerente a qualquer processo de detecção de
corners, as técnicas que se baseiam em análise de curvatura necessitam enfrentar a falta de
REVISÃO BIBLIOGRÁFICA 53
definição para curvatura de curvas digitais. Os processos de amostragem e quantização
envolvidos na digitalização requerem que a imagem de um objeto seja encaixada numa grade
não isotrópica. Isto faz com que as informações exatas sobre o objeto sejam perdidas.
Portanto, a curvatura não pode ser calculada com exatidão, apenas estimada.
Em geometria diferencial existem três conceitos inter-relacionados para definir
curvatura de curvas planas. Os conceitos são baseados no recíproco do raio de círculos
osculadores, variação do ângulo que a tangente forma com o eixo x (Figura 2.7), e uma
equação criada a partir da parametrização da curva em relação ao comprimento de arco (s), a
qual considera a variação do vetor tangente unitário em cada ponto da curva (equação 2.1).
Esta equação tem sido bastante usada nos algoritmos de detecção de curvaturas, como os
apresentados em Mokhtarian e Mackworth (1986) e Marcondes e Costa (1995).
As técnicas de detecção de pontos dominantes que estimam diretamente a curvatura
não apresentam bons resultados (WORRING; SMEULDERS, 1993). Exemplos são
encontrados em Rosenfeld e Johnston (1973); Rosenfeld e Weska (1975); Freeman e Davis
(1977); Asada e Brady (1986); Mokhtarian e Mackworth (1986); Ansari e Huang (1991);
Chetverikov e Szabo (2003); Sarfraz, Rasheed e Muzaffar (2005). No entanto, a técnica
desenvolvida em Mokhtarian e Mackworth (1986) e usada em Mokhtarian, Abbasi e Kittler
(1996) foi considerada como a melhor escolha para o MPEG-7 (MARTINEZ; KOENEN;
PEREIRA, 2002; MARTINEZ; 2002b). Porém, em Zhang e Lu (2003) são apresentadas
algumas falhas nos testes comparativos.
Figura 2.7 – Conceitos de curvatura: a) círculos osculadores - a curvatura em T1 é k1=1/R1 em T2 é k2=1/R2,
com sinal inverso ao de k1; b) variação angular da tangente.
54 REVISÃO BIBLIOGRÁFICA
2/322 ))()((
)().()().()(
sysx
sysxsysxsK
(2.1)
O ambiente hostil criado pela grade de amostragem faz com que os pesquisadores
busquem por soluções diferentes. O Algoritmo descrito em Marcondes e Costa (1995) aplica a
transformada de Fourier no contorno parametrizado, e então computa a curvatura utilizando a
equação 2.1 associada às propriedades de derivada desse domínio. Outros pesquisadores
fazem uso de técnicas que computam indiretamente a curvatura. Deve-se ressaltar que
algumas dessas técnicas se originaram na abordagem de aproximação poligonal, a qual, de
certa forma, estimava indiretamente a curvatura. Em Awrangjeb (2008) as técnicas indiretas
são agrupadas em:
a) Técnicas que utilizam a vizinhança à esquerda e à direita de cada ponto – é escolhida
uma quantidade k de pontos vizinhos de cada lado do ponto do qual se deseja estimar
a curvatura. Diferentes maneiras foram propostas para analisar essa vizinhança. Por
exemplo, em Wu (2003) foi analisada a energia de dobramento dos braços à esquerda
e à direita de cada ponto. Chama-se de braço a reta que une o ponto em análise ao
ponto extremo de cada vizinhança.
b) Técnicas que utilizam distância arco-corda – são computadas as distâncias do arco
(pontos do contorno) a uma corda (braço). Exemplos são encontrados em Han e
Poston (2001); Marji, Klette e Siy (2004) e Awrangjeb e Lu (2008).
c) Técnicas que utilizam ajuste de curvas - em vez de aproximação poligonal, o ajuste é
feito de maneira mais suave através de splines. Exemplos de técnicas baseadas em
spline estão em Medioni e Yasumoto (1987) e em Park e Lee (2007).
Muitos dos algoritmos de detecção de pontos dominantes têm como entrada um
contorno codificado em chain code. Em termos gerais essa codificação é uma forma de
representação de percurso, indicando o sentido que se deve seguir ao longo do contorno. A
Figura 2.8 compara o chain code às direções de uma rosa dos ventos e mostra um exemplo de
contorno codificado por essa técnica. Em Liu e Srinath (1990) são comparadas algumas
técnicas que usam codificação chain code antes de realizarem a detecção de corners.
REVISÃO BIBLIOGRÁFICA 55
Figura 2.8 – O chain code: o seu equivalente em rosa-dos-ventos e um contorno codificado em chain code.
Os primeiros algoritmos de detecção de pontos dominantes (baseados em curvatura)
tinham como preocupação principal a precisão na estimação da curvatura. No entanto,
constatou-se que o tamanho do detalhe do contorno onde está localizada a curvatura
detectada, também, é de grande importância. O tamanho desse detalhe é comparável ao
tamanho da região de suporte, isto é, ao comprimento dos segmentos de reta utilizados para
computar os ângulos ao longo do contorno. Esses segmentos de reta, chamados de braços, se
interceptam no ponto onde se deseja computar um ângulo. A Figura 2.9 esclarece esta ideia.
Os braços podem ter comprimentos de mesmo tamanho (simétricos) ou serem
assimétricos; podem ter comprimento fixo ou adaptativo. Se os braços forem de comprimento
fixo, a escolha de comprimentos longos acarretará na detecção dos detalhes maiores, enquanto
os menores passarão despercebidos, assim como os ruídos de digitalização. Se a escolha for
por braços muito curtos, todos os detalhes serão detectados, inclusive os ruídos.
A ideia de braço de comprimento fixo é equivalente à ideia de se observar a cena em
uma escala fixa. Métodos que utilizam comprimentos adaptativos, ou esquemas multiescala,
têm como objetivo a obtenção de imunidade a ruídos e ao mesmo tempo serem capazes de
detectar todos os detalhes importantes do contorno. O primeiro trabalho a identificar a
necessidade de se detectar ângulos em diferentes escalas foi o de Larry Davis em Davis
(1977), o qual é a provável semente do espaço escala de curvaturas (CSS).
56 REVISÃO BIBLIOGRÁFICA
Figura 2.9 – Região de suporte (RoS) do ângulo θik: Neste exemplo, os segmentos de reta (braços) são simétricos com tamanho de k pontos.
Uma categoria especial de algoritmos de detecção de corners aplica o conceito de
representação espaço-escala para lidar com ruídos e detalhes de diferentes tamanhos. O
espaço-escala de curvaturas é construído através da convolução de um contorno (1D) com
uma família de funções Gaussianas (1D), cujo desvio padrão (σ) representa a escala. Os
ruídos e detalhes do contorno com tamanho inferior ao da escala (σ) de filtragem são
totalmente dissolvidos ao longo dos pixels vizinhos, deixando o contorno mais suave. A
curvatura é computada em cada nível do espaço-escala e através do exame dos cruzamentos
por zero, as convexidade e concavidades do contorno são encontradas. Cada escala de
suavização possui o seu próprio conjunto de corners detectados. O espaço escala usado desta
maneira gerou uma classe de detectores conhecidos por curvature scale space (CSS). Um dos
algoritmos que recebeu maior destaque na literatura foi o apresentado em Mokhtarian e
Mackworth (1986). Exemplos de esquemas de espaço-escala de curvatura são encontrados em
Asada e Brady (1986); Rattarangsi e Chin (1992); Pei e Lin (1992); He e Yung (2004);
Garrido, Perez e Garca-Silvente (1998); Mokhtarian e Mackworth (1992); Mokhtarian (1995);
Marcondes e Costa (1995); Mokhtarian e Abbasi (2001); Zhang et al. (2007); Zhong e Liao
(2007); Awrangjeb, Lu e Murshed (2007).
A deformação no contorno causada pela suavização Gaussiana fez com que se
buscasse por outros métodos multiescala. O espaço escala morfológico, cuja modificação de
escala é causada pelo tamanho do elemento estruturante, tem a característica de manter o
contorno com sua forma original através das escalas. Técnicas de detecção utilizando o
espaço-escala morfológico são encontradas em Leymarie e Levine (1988); Jalba, Wilkinson e
Roerdink (2006).
REVISÃO BIBLIOGRÁFICA 57
Outro esquema multiescala é a transformada wavelet. As técnicas de detecção de
corners que o utilizam são encontradas em Lee, Sun e Chen (1995); Antoine et al. (1997);
Quddus e Fahmy (1999); Quddus e Gabbouj (2002); Gao et al.(2007); Paula Jr et al. (2011).
Além dos detectores de corners pertencentes aos grupos já apresentados, existem
vários outros que possuem características próprias e não possuem uma classe definida. Em
Zhu e Chirlian (1995) são usados algoritmos não lineares; em Tsai, Hou e Su (1999) os
autovalores de matrizes de covariância são associados à ideia de curvatura. Existem, também,
os detectores que se baseiam em mecanismos dos sistemas naturais de visão, por exemplo, em
Hansen e Neumann (2002); Xu et al. (2010).
2.5 Conclusão do capítulo
Neste capítulo foi abordado o tema central desta tese, que é a detecção de pontos
dominantes. Foram apresentadas revisões bibliográficas sobre os aspectos psicofísicos,
fisiológicos e sobre algoritmos computacionais de detecção de corners/pontos dominantes,
salientando-se alguns dos problemas enfrentados pelos detectores, como a estimação da
curvatura em grade retangular e a observação em escala fixa. Foram mencionadas as técnicas
utilizadas para estimar a curvatura bem como os esquemas multiescala adotados.
A detecção de pontos dominantes é uma área ativa de pesquisa com dezenas de
métodos publicados, porém não foi proposto, ainda, um detector capaz de funcionar bem em
todas as condições de ruído e deformações geométricas, tampouco conciliar velocidade de
processamento e complexidade dos esquemas multiescala. Dentre os vários métodos
existentes, os que mais se destacam são os baseados em CSS (espaço-escala de curvaturas).
58 REVISÃO BIBLIOGRÁFICA
As estrelas e as galáxias se apagaram e morreram, o espaço tornou-se negro após dez trilhões de anos de atividade.
Um a um, o Homem fundiu-se ao AC, cada corpo físico perdendo a sua identidade mental, acontecimento que era de alguma forma, benéfico.
A última mente humana parou antes da fusão, olhando para o espaço vazio a não ser pelos restos de uma estrela negra e um punhado de matéria extremamente rarefeita, agitada aleatoriamente pelo calor que aos poucos se dissipava, em direção ao zero absoluto.
O Homem disse, “AC, este é o fim? Não há como reverter este caos? Não pode ser feito?”.
O AC disse, “ainda não há dados suficientes para uma resposta significativa”.
ISAAC ASIMOV
What we call the past is built on bits.
What we call reality, arises in the last analysis from the posing of yes-no
questions.
All things physical are information-theoretic in origin, and this is a
participatory universe. The whole universe is thus seen as a computer—a
cosmic information-processing machine.
Tomorrow, we will have learned to understand and express all of physics in
the language of information. Every it—every particle, every field of force,
even the space-time continuum itself—derives its function, its meaning, its
very existence … from bits.
JOHN ARCHIBALD WHEELER
The more energy, the faster the bits flip. Earth, air, fire, and water in the end
are all made of energy, but the different forms they take are determined by
information. To do anything requires energy. To specify what is done
requires information.
SETH LLOYD
Capítulo 3 – Fundamentação teórica
3.1 Introdução
A finalidade deste capítulo é introduzir alguns conceitos fundamentais tratados por
esta tese, não de forma a reproduzir o conteúdo dos livros texto disponíveis, mas para associá-
lo às ideias propostas neste trabalho.
Este capítulo está organizado de tal forma a representar a sequência de procedimentos
usados para tentar responder, pelo menos, parcialmente às principais questões que guiaram
esta pesquisa, as quais estão citadas abaixo:
A ideia de Attneave que relaciona curvaturas e incerteza pode ser transportada para os
estados iniciais da visão e usada na percepção de formas?
É possível, na Natureza, ocorrer difusão de imagens?
o O que é difundido nesse processo?
o Por que existe essa difusão?
o Quais as suas consequências na percepção de formas?
As principais publicações que fizeram surgir tais questões foram os trabalhos onde o
espaço-escala Gaussiano é equiparado à difusão (KOENDERINK, 1984) e onde a incerteza é
associada aos ângulos de contorno (ATTNEAVE, 1954). Esses artigos foram estudados com o
objetivo de se entender os efeitos resultantes da aplicação do cálculo de entropia em imagens
binárias.
A divulgação informal do conceito de entropia é, às vezes, rodeada de mistério e pode
provocar sentimentos de desolação e terror, principalmente se o leitor for uma criança. Por
exemplo, em (ASIMOV, 1975) a entropia é associada à extinção do universo. Que entidade
seria essa, capaz de estar presente em um fenômeno tão assombroso e ao mesmo tempo em
resultados de processamento de imagens?
Num dado experimento, observou-se que ao filtrar uma imagem binária com filtros
Gaussianos, a entropia se manifesta mais intensamente ao longo dos contornos, apresentando
valores extremos (máximos e mínimos) nos pontos onde o contorno muda de direção. Isto fez
perceber a existência de três elementos que se relacionam: entropia, filtragem Gaussiana e
detecção de corners.
62 FUNDAMENTAÇÃO TEORICA
A finalidade da Figura 3.1 é de mostrar quais os assuntos que são estudados neste
capítulo, bem como indicar a entropia como o elo entre a difusão e a detecção de corners de
contorno. Por um lado a entropia pode ser vista como uma medida de difusão e pelo outro
pode ser usada para medir a incerteza a respeito da direção da fronteira num ponto, isto é, a
curvatura de um segmento do contorno. Os itens destacados por cor são os tópicos abordados
neste capítulo. No lado esquerdo da Figura 3.1 e no mesmo nível estão os itens que se
relacionam com a difusão. A função de espalhamento de ponto (PSF) foi mencionada em
Koenderink (1984) como um núcleo de convolução para obter difusão, o que serviu como
indicação de onde poderia ocorrer, naturalmente, a difusão de uma imagem. Os campos
receptivos da retina também são vistos como fonte natural de difusão de imagens (ROMENY;
FLORAK, 2000). O estudo da entropia tem como finalidade entender os seus conceitos do
ponto de vista da difusão e da teoria da informação, e confirmar a possibilidade de utilizar a
equação da entropia de Shannon tanto para medir a incerteza, quanto para medir a difusão em
imagens binárias.
Figura 3.1 – Relação entre os conceitos abordados nesta tese.
3.2 Difusão
A difusão é um processo espontâneo de mistura decorrente do movimento aleatório de
moléculas. Um processo pelo qual a matéria é deslocada de uma posição espacial para outra.
Quando o transporte é de energia, o processo é chamado de condução de calor ou difusão
térmica. Existem outras formas de se misturar substâncias ou conduzir calor, mas quando se
fala de difusão, o transporte de energia ou matéria é causado exclusivamente por movimento
molecular.
FUNDAMENTAÇÃO TEÓRICA 63
Não existe uma direção preferida para o movimento das moléculas, tornando
imprevisível o caminho que uma determinada partícula irá percorrer. Porém, é possível
afirmar que na média, o fluxo ocorrerá de lugares com alta concentração de partículas em
direção a lugares com menor concentração (CRANK, 1975). Se for considerado o calor, a sua
condução ocorre de regiões mais quentes para regiões mais frias.
Esse movimento aleatório é chamado de movimento Browniano em homenagem a
Robert Brown (1773-1858) por ter observado, com microscópio, o movimento aleatório de
partículas de pólen sobre a água. Em 1905, Albert Einstein publicou um artigo dando um
embasamento atômico para o movimento Browniano, reforçando a teoria da existência do
átomo (MEHRER, 2007), a qual sofria grande opressão dos cientistas mais conservadores
daquela época.
O deslocamento errático das moléculas é mais facilmente descrito por uma
distribuição estatística de deslocamento. Esta serve para descrever a proporção de moléculas
que se move numa direção específica e numa distância específica (HAGMANN et.al., 2006).
Quanto maior for o intervalo de tempo dedicado à observação da difusão, maior será o
deslocamento das moléculas. É comum, em muitos meios, não haver “preferências” pela
direção de deslocamento, as moléculas se movem em todas as direções com igual
probabilidade. É um deslocamento isotrópico, o qual costuma ser modelado por distribuição
Gaussiana. A abertura da Gaussiana (variância) é proporcional ao intervalo de tempo em que
a difusão foi considerada.
Então, pode-se dizer que para cada intervalo de tempo imaginável haverá uma
distribuição circularmente simétrica, cujo raio de alcance (onde se encontram as moléculas
que mais se afastaram) é proporcional ao intervalo decorrido. Em outras palavras, há um
conjunto contínuo, em escala, de distribuições Gaussianas. Onde a área (espaço) afetada pela
difusão está associada à escala (abertura) da Gaussiana. Esta ideia forma a base do conceito
de espaço-escala Gaussiano. Quanto maior for a escala de observação, maior será a
quantidade de informação espacial misturada pela difusão.
A difusão pode ser representada pela equação 3.1, onde u representa a matéria e D é o
coeficiente de difusão (ou de condução). Este representa o efeito de um conjunto de
propriedades da matéria, as quais facilitam ou dificultam a difusão e definem se esta ocorre
igualmente em todas as direções (isotrópica), ou se é dependente de direção (anisotrópica).
Na difusão Gaussiana, o processo ocorre em todas as direções sem qualquer controle,
suavizando objetos, deteriorando bordas e fundindo regiões até que toda a estrutura da
64 FUNDAMENTAÇÃO TEORICA
imagem seja dissolvida, e todos os seus pixels apresentem o mesmo nível de cinza (o mesmo
macro estado).
Nesta difusão isotrópica, o coeficiente D se torna um valor escalar, que depende do
tipo de matéria em difusão. No caso específico de imagens, o valor do coeficiente de difusão
D pode ser considerado igual a 1. Ainda na equação 3.1,u representa a concentração de
matéria (gradiente). O divergente (div) do gradiente é equivalente ao Laplaciano do campo
escalar sobre o qual o gradiente foi computado (KREYSZIG, 1993). O Laplaciano pode ser
considerado como uma generalização da derivada segunda para dimensões mais altas,
servindo como uma ferramenta para caracterizar a concavidade de uma função (TANG,
2007).
).( uDdivut (3.1)
Do ponto de vista do processamento de imagens, o Laplaciano realiza uma
comparação entre o valor do pixel central com a média de sua vizinhança. Isto informa o
sentido e a quantidade de “partículas de brilho” a serem deslocadas, a fim de equalizar suas
concentrações.
Portanto, a equação 3.1 diz que a taxa de variação das “partículas de luminância” por
unidade de tempo é proporcional ao Laplaciano da luminância. Se o Laplaciano for zero,
nenhuma alteração irá ocorrer na vizinhança, indicando que esta tem luminância homogênea
(único nível de cinza). Se o Laplaciano for negativo, ocorrerá um fluxo de partículas do centro
em direção à vizinhança. Se o Laplaciano for positivo, indicará que a vizinhança tem maior
concentração e por isso o fluxo será no sentido de aumentar a concentração do pixel central,
isto é, da periferia em direção ao centro.
A luminância ou brilhância é uma medida fotométrica da intensidade luminosa, que
descreve a quantidade de luz emitida ou refletida por uma determinada área. Isto é, diz quão
brilhosa é uma superfície. Numa imagem binária há uma região com presença de intensidade
luminosa e outra com ausência desta. Ao se permitir a difusão, cria-se um fluxo de luminância
da região clara para a região escura. Ao passo que a região escura se torna mais clara por
receber “partículas de brilho”, a região clara se torna mais escura por tê-las cedido.
Aparentemente, este fluxo cessará após não haver mais vestígios de concentração de
brilho, o que determina o instante em que o sistema entra em equilíbrio e o núcleo difusor se
torna incapaz de produzir qualquer modificação macroscopicamente perceptível. O
FUNDAMENTAÇÃO TEÓRICA 65
movimento das partículas não cessa (exceto se a difusão for desativada) e sua recombinação
espacial continua indefinidamente. Porém, a grande quantidade de micro combinações 6, as
quais produzem uma mesma percepção macroscópica, cria a sensação de que o sistema se
tornou estático. Quando o sistema atinge esse ponto de equilíbrio, diz-se que ele atingiu o seu
estado de entropia máxima. A figura 3.2 mostra uma imagem binária e seu estado de
equilíbrio após 17.025 suavizações com um filtro Gaussiano (σ=1,5). Deste ponto em diante,
quaisquer suavizações adicionais não produzirão alterações macroscópicas.
Figura 3.2 – Difusão isotrópica: a) imagem original; b) núcleo de convolução (σ=1,5), o qual foi aplicado iterativamente 17.025 vezes, até obter a imagem estabilizada; c) imagem estabilizada (único nível de cinza).
No presente trabalho não há interesse por essa difusão completa e contínua, mas por
uma difusão controlada, que permita, em cada escala selecionada, observar e quantificar a
dissolução dos detalhes ao longo do contorno de um objeto.
Inicialmente, quando a abertura do núcleo de convolução é pequena (baixa escala), a
difusão se concentra na área ao longo da fronteira entre as regiões homogêneas. No entanto, a
quantidade difundida não é igual em todos os seus pontos. Devido à variação de direções,
cada vizinhança centrada ao longo da fronteira pode ser composta por quantidades diferentes
de região homogênea, o que implica em quantidades difundidas distintas. A Figura 1.1 no
capítulo 1 pode auxiliar na compreensão destas afirmações.
A ideia de difusão, em visão computacional, teve início com a introdução do espaço
escala (no mundo ocidental) em Witkin (1983). A partir deste, muitas variações foram
introduzidas e combinadas com outras ideias. Entre essas variações estão: difusões
anisotrópicas (PERONA; MALIK, 1990; WEICKERT, 1995), difusões não lineares
6 A quantidade de micro combinações que geram um mesmo macroestado é chamada de multiplicidade, que é a quantidade medida pela entropia.
66 FUNDAMENTAÇÃO TEORICA
(ROMENY, 1994; WEICKERT, 1997; WEICKERT, 2000), equações diferenciais parciais
(PDE) (KIMMEL; SOCHEN; WEICKERT, 2005) e métodos level-set (OSHER; SETHIAN,
1988).
Até onde se tem conhecimento, dentre todas as técnicas e aplicações baseadas em
difusão, somente uma se dedicou à detecção de ângulos (CINQUE; LOMBARDI;
ROSENFELD, 1995). No entanto, a abordagem utilizada no referido trabalho difere da
abordagem adotada nesta tese. Algumas diferenças são:
É utilizada a difusão Gaussiana cuja evolução é do tipo usado em equações
diferenciais, onde o tempo (ou quantidade de iterações) é que determina a extensão da
difusão. Além disso, o coeficiente de difusão D é variável;
O objeto e o fundo são sistemas isolados um do outro, não ocorre difusão do objeto
para o fundo ou vice-versa. O processo de difusão (condução do calor) ocorre do
contorno do objeto em direção ao seu interior e as temperaturas são medidas durante
essa evolução. O valor dos ângulos é dado em faixa de temperaturas;
A imagem, mesmo sendo binária, necessita de um pré-processamento com filtros de
Sobel para determinar o contorno, e dar aos seus pontos o valor inicial da temperatura;
Não é utilizada a capacidade da difusão em determinar fronteiras.
A associação de difusão à forma (ou a curvaturas) parece estar latente no pensamento
científico há anos. Em meio às justificativas para exaltar a importância de se estudar o calor,
Fourier fez a seguinte declaração: “The forms of bodies are infinitely varied; the distribution
of the heat which penetrates them seems to be arbitrary and confused; but all the inequalities
are rapidly cancelled and disappear as time passes on” (FREEMAN, 1878, p. 8).
Então, parece que a difusão é uma maneira natural de se perceber a estrutura
geométrica dos objetos. Se isto for verdade, a quantificação da difusão é necessária para
distinguir as particularidades de cada um deles. O cálculo de entropia é uma das maneiras de
se quantificar a difusão.
3.3 Entropia
Acima foi exposto que a suavização Gaussiana pode ser vista como uma instância de
difusão, que o seu efeito em imagens é a mistura de regiões de cor diferente e que essa
mistura é dependente de características espaciais da imagem (concavidades, convexidades e
fronteiras em linha reta). Portanto, caso se deseje distinguir as características espaciais da
FUNDAMENTAÇÃO TEÓRICA 67
imagem é necessário encontrar maneiras de quantificar a mistura. A medida entropia é usada
na difusão do calor (MAXWELL, 1902), bem como em avaliação de misturas de substâncias
(CAMESASCA; KAUFMAN; MANAS-ZLOCZOWER, 2006). Assim, o objetivo desta
seção é compreender a entropia e verificar se é uma medida válida para o problema de
detecção de curvaturas.
Lembrando-se do que foi exposto no capítulo 1, a região mínima de uma cena é
representada por um pixel da imagem. Devido à falta de resolução infinita dos sistemas de
aquisição de imagens, os detalhes da região mínima não podem ser distinguidos, causando a
mistura dessas informações num único pixel. Consequentemente, a localização espacial de
tais detalhes é destruída. Então, pode-se dizer que o pixel percebido é gerado, apenas, pelas
proporções de brilho da região mínima. A inexistência de informação de localização espacial
implica na possibilidade de haver várias distribuições espaciais distintas capazes de produzir o
mesmo brilho percebido. Em outras palavras, há incerteza a respeito de qual seria a
configuração espacial exata da vizinhança “absorvida” pelo pixel.
Uma maneira simples de se passar as ideias de estados microscópicos e macroscópicos
é através da Figura 3.3, a qual representa uma técnica de pintura iniciada no final do século
XIX conhecida por pontilhismo, uma técnica semelhante ao “dithering” da computação
gráfica. A distribuição espacial de pontos de cores diferentes produz a cor percebida de uma
determinada região aparentemente homogênea. Para que surja a percepção dessa região, o que
importa são as proporções de pontos coloridos e não a ordem em que estão distribuídos. Isto
implica na existência de diferentes distribuições capazes de produzir o mesmo efeito
percebido. As diferentes distribuições de pontos coloridos podem ser chamadas de
microestados e a cor resultante é o seu macroestado correspondente.
Outro exemplo que pertence à mesma classe das situações expostas acima é o jogo de
dados. Seja o caso onde se considera a soma dos resultados de dois dados. Os possíveis
resultados são 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12. Cada um dos resultados pode ser chamado de
macroestado, enquanto que o par de valores que o produziu pode ser chamado de
microestado. Deve-se perceber que, excetuando-se os resultados extremos (2 e 12), todos os
outros podem ser produzidos por dois ou mais pares diferentes. O resultado 7, por exemplo,
pode ser produzido por qualquer um dos seguintes pares (1,6), (2,5), (3,4), (4,3), (5,2), (6,1).
O macroestado 7 é o que possui a maior quantidade de microestados, o que lhe confere a
maior probabilidade de ocorrer (16,67%).
68 FUNDAMENTAÇÃO TEORICA
Figura 3.3 – Pintura com pontilhismo de George Seurat, "Un dimanche après-midi à l'Île de la Grande
Jatte" (1884-1886).
Na escala atômica, quantidades inimagináveis de partículas se combinam de diferentes
maneiras para formar o universo macroscópico que pode ser medido ou sentido. A visão, o
olfato, o tato, o paladar ou a audição não possuem resolução infinita, obrigando os seres vivos
a experimentarem o universo como uma média ponderada de partículas e de seus
movimentos. Seja, por exemplo, um contêiner contendo um gás ideal. Cada uma de suas
moléculas, num dado instante, se movimenta com uma determinada velocidade e num
determinado sentido. Não se tem resolução, muito menos memória e processamento
suficientes para rastrear individualmente cada molécula. O que se pode fazer é medir as
variáveis de estado macroscópicas, por exemplo, a temperatura e a pressão do gás como um
todo. Os valores destas medidas estão associados à energia cinética das moléculas. Cada
molécula tem a sua própria energia cinética, que varia a todo instante devido aos constantes
choques com as outras partículas e com as paredes do contêiner.
Quando tal sistema, que está isolado do universo, entra em equilíbrio termodinâmico,
as variáveis macroscópicas estacionam num valor constante. No entanto, a hostilidade de seu
ambiente atômico-molecular não diminui, o movimento é incessante e os valores individuais
de energia cinética continuam variando. Isto indica que as energias cinéticas de sextilhões de
moléculas podem se combinar em quantidades extraordinárias e, mesmo assim, produzir o
mesmo macroestado de equilíbrio. Este é o macroestado de maior probabilidade em que o
sistema pode ser encontrado, pois possui a maior multiplicidade, isto é, a maior quantidade de
microestados. A probabilidade de que o sistema saia desse estado é praticamente zero.
FUNDAMENTAÇÃO TEÓRICA 69
Um sistema chega ao estado de equilíbrio devido à difusão térmica, na qual parte da
energia das moléculas mais agitadas é transferida às menos agitadas, isto é, a difusão gera a
dissipação da energia. Num processo bastante semelhante, a Figura 3.2 (a) foi transformada
na Figura 3.2(c).
Os exemplos citados acima: o brilho de um pixel, a cor aparente de uma região criada
com pontilhismo, os resultados de um jogo de dados e a temperatura de um gás apresentam
uma característica em comum: a incerteza sobre qual configuração microscópica exata é a
responsável por gerar o estado macroscópico percebido. Quanto maior for a multiplicidade de
um macroestado, maior será a incerteza de encontrar o microestado exato que o produziu.
Esta incerteza pode ser medida através da entropia de Shannon (SHANNON, 1948)
representada na equação 3.2, onde ak pode ser um determinado símbolo, ou nível de cinza, e
p(ak) é a sua frequência de ocorrência.
N
kkk apapH
12 ))((log).( (3.2)
Visto que nesta tese se trabalha, apenas, com os níveis branco e preto, cujas
probabilidades são complementares, a equação 3.2 é transformada na equação 3.3.
. 1 . 1 (3.3)
A palavra entropia foi utilizada pela primeira vez por Rudolf Clausius em meados do
século XIX para se referir a uma variável macroscópica de sistemas termodinâmicos, que
indicava a quantidade de energia não disponível para o trabalho (perdas com a dissipação
térmica) (CLAUSIUS, 1879; MAXWELL, 1902), por exemplo, para movimentar pistões de
máquinas a vapor. Um pouco mais tarde Josiah Willard Gibbs e Ludwig Boltzmann chegaram
a equações similares, que explicavam a entropia de Clausius como probabilidades associadas
às energias cinéticas de moléculas (JAYNES, 1965). Tais equações são muito semelhantes à
entropia de Shannon (equação 3.2). A diferença é que esta não utiliza grandeza energética. Há
várias passagens históricas em que se interpretam as entropias de Gibbs e Boltzmann como
medidas de incerteza, de maneira bastante semelhante aos exemplos apresentados nesta seção.
Atualmente, parece haver uma forte tendência em admitir que a quantidade medida pela
entropia seja, de fato, a incerteza associada ao macroestado, colocando a teoria da informação
70 FUNDAMENTAÇÃO TEORICA
em primeiro plano para explicar os fenômenos do universo (GLEICK, 2011; BEN-NAIM,
2008; BEN-NAIM, 2007; YU, 2000).
As palavras informação e incerteza estão fortemente associadas. De acordo com
Shannon, sua entropia mede a quantidade de informação transmitida. Quanto maior é a
multiplicidade de um dado macroestado, menor é a probabilidade de se encontrar o
microestado correto (o espaço de busca é maior). Portanto, a quantidade de informação
necessária para encontrá-lo é maior. Deste ponto de vista, a informação é inversamente
proporcional à probabilidade de se encontrar o microestado correto, por isso o sinal negativo
aparece no início da equação 3.2. A Figura 3.4 mostra o comportamento da entropia em
relação à probabilidade de ocorrência de um evento com duas possibilidades (pixel de cor
preta ou branca). Quando as possibilidades do evento possuírem a mesma probabilidade de
ocorrer, a entropia, a incerteza ou a surpresa serão máximas, ou seja, é uma situação
absolutamente imprevisível.
Figura 3.4 – Entropia para duas possibilidades com probabilidades p e (1-p). Figura adaptada de Shannon (1948).
Imaginando-se as regiões de uma imagem binária (objeto e fundo) como contêineres
isolados, o processo de suavização se torna o mecanismo que os conecta, permitindo a troca
de partículas entre os mesmos. Este é um cenário semelhante àqueles comumente encontrados
na literatura onde a entropia é aplicada. Cada vizinhança da fronteira, que se pretende medir,
possui sua própria concentração de objeto e fundo. Em outras palavras, cada vizinhança
contém probabilidades próprias de objeto e fundo, implicando em entropia própria para cada
FUNDAMENTAÇÃO TEÓRICA 71
uma delas. Isto torna a entropia uma medida viável para caracterizar o tipo de fronteira, se é
em linha reta, ou se forma uma concavidade ou convexidade.
A afirmação acima não é uma verdade completa, pois podem existir várias
configurações objeto-fundo capazes de produzir a mesma entropia. Há maneiras de se
restringir essa quantidade de configurações. Nesta tese foram associadas três ideias: 1) definir
as configurações espaciais que são possíveis de existir ao longo de fronteiras e excluindo-se
aquelas que não se encaixam neste grupo; 2) utilizar vizinhanças pequenas fornece menos
espaço para variações; 3) se a vizinhança for a menor possível, a utilização de uma
distribuição de probabilidades circularmente simétrica garante que, para um dado valor de
entropia, só exista uma configuração espacial. Os detalhes a respeito dessas ideias são
apresentados ao longo do capítulo 5, dedicado ao detector de corners de contorno baseado em
entropia.
Até o momento foram apresentados: o conceito de difusão, a noção de que em seus
estágios iniciais a difusão isotrópica se concentra ao longo das fronteiras e que é possível
utilizar a entropia, ou melhor, a incerteza para medi-la. Entre as questões que guiaram a
pesquisa desta tese estão: “onde uma imagem pode, naturalmente, sofrer difusão?” e “o que
está sendo difundido?”.
3.4 Relações entre PSF e difusão
De acordo com Thibos (1989), o processamento de imagens pelo olho é composto pela
concatenação de filtros lineares passa-baixas. O primeiro filtro é óptico, caracterizado por
uma PSF óptica e o segundo filtro é neural, caracterizado por uma PSF neural. Esta seção lida
exclusivamente com a PSF óptica, deixando a PSF neural para a seção seguinte.
O funcionamento da difusão molecular faz surgir a ideia de que a difusão em imagens
possa estar relacionada à natureza corpuscular da luz. Ao encontrar a entrada de um sistema
óptico ou uma fenda num anteparo qualquer, os fótons da luz refletida por um objeto sofrem
perturbações ao interagir com a matéria que compõe as paredes da fenda. A perturbação é tal,
que um fóton capturado numa dada posição no plano da imagem pode não corresponder,
exatamente, à mesma posição na superfície do objeto de onde o fóton foi emitido. Isto é, a
trajetória dos fótons é modificada, resultando num espalhamento da luz (scattering), o qual é
representado pela PSF do sistema óptico, ou da fenda (BERGÉ, 2013; WESTHEIMER, 2009;
SUPPES; DE BARROS, 1994).
72 FUNDAMENTAÇÃO TEORICA
Embora exista uma semelhança em termos de distribuição de probabilidades, não se
está afirmando que as modificações de trajetória dos fótons é uma difusão. Devido ao
comportamento exótico da luz e à complexidade envolvida em seu estudo, será considerada,
apenas, a aproximação da PSF com uma distribuição de probabilidades, que é capaz de
produzir suavização circularmente simétrica.
A resposta impulsiva de um sistema óptico é conhecida por função de espalhamento
de ponto (PSF). É a medida do poder de resolução de um sistema óptico, quanto mais estreita
for a sua PSF, melhor será a sua resolução, isto é, menor será o detalhe da cena capaz de ser
reproduzido na imagem. A PSF pode representar o efeito combinado de diferentes fenômenos,
como, difração, refração ou aberrações de lentes. Simplificadamente, o seu efeito é
transformar um ponto da cena em uma pequena mancha circular na imagem, como se o brilho
do ponto fosse dissipado do centro em direção à periferia. Este efeito é consequência da
filtragem espacial. Na propagação da luz entre uma cena e a sua imagem, as componentes de
alta frequência são filtradas, impedindo que o ponto seja reconstruído com precisão total
(NOVOTNY; HECHT, 2006). A convolução de cada ponto da cena com a PSF do sistema
produz uma versão suavizada da cena, isto é, a sua imagem.
Em um sistema óptico ideal, o qual possui lentes perfeitas, ou não possui lentes (é
apenas uma entrada ou fenda), o espalhamento da luz é um resultado exclusivo do fenômeno
de difração. Neste caso, a PSF do sistema representa a difração, a qual costuma ser explicada
através do modelo ondulatório da luz. A explicação baseada em ondas não impede que exista
difração em partículas (POLLOCK, 1993; SUPPES; DE BARROS, 1994). O padrão de
difração, ou figura de difração, representa a probabilidade de se detectar fótons no plano da
imagem. Então, a PSF pode ser vista como uma função de distribuição espacial de
probabilidades de se registrar fótons (LARSON, 2010). A Figura 3.5 mostra o padrão de
difração gerado pela passagem da luz através de uma abertura circular. O disco central da
difração (ou lobo central) concentra 84% da intensidade óptica total (ZAPPE, 2010;
DRAGESCO, 1995). Este padrão foi descrito matematicamente, pela primeira vez, pelo
astrônomo e matemático inglês George Biddell Airy (1801-1892). Por isso, o disco central é
chamado de disco de Airy e os anéis concêntricos de padrão de Airy.
FUNDAMENTAÇÃO TEÓRICA 73
Figura 3.5 – Difração em uma abertura circular. O disco central, limitado pelo primeiro anel escuro, é
conhecido por disco de Airy. O quadro a direita mostra a difração em 3D. O lobo central (disco de Airy) se assemelha a uma distribuição Gaussiana.
É comum aproximar a PSF com uma distribuição Gaussiana (BARTEN, 1999; HE,
2011; HUSSEIN, 2011; ZHANG et al., 2007; ELLIOTT; JENKINS, 1990; ZHANG;
ZERUBIA; OLIVO-MARIN, 2006; ROTH, 2006). Aproximar a PSF com distribuições
circularmente simétricas embute a ideia de que um sistema óptico não trata igualmente a
informação transportada pela luz. A informação que flui no centro de um feixe de luz sofre
menos espalhamento, o qual vai aumentando gradativamente em direção à periferia do feixe.
Um peso maior para o centro pode significar que a informação ali presente representa com
maior fidelidade o ponto da cena que está sendo observado.
Pode-se dizer, então, que a PSF de uma abertura circular e a difusão isotrópica
possuem distribuições de probabilidades similares. Na difusão as partículas são
“embaralhadas” por movimento térmico. Num sistema óptico, a luz que o penetra tem seus
fótons embaralhados em virtude de sua interação com as paredes da abertura. Trocando o
verbo embaralhar pelo sinônimo misturar, pode-se dizer que os fótons são misturados
obedecendo às regras da PSF. Isto é, de acordo com suas probabilidades distribuídas de forma
circularmente simétrica.
Supondo-se que as distribuições da difusão e da difração (PSF) sejam realmente
semelhantes, acredita-se que a entropia usada para avaliar a difusão, também seja útil para
avaliar a difração. A seguir são apresentadas algumas referências que reforçam essas ideias:
Quando a imagem de um objeto, iluminado por luz incoerente, é capturada por um
sistema óptico, cada ponto luminoso (x,y) na superfície do objeto gera uma
74 FUNDAMENTAÇÃO TEORICA
distribuição de intensidades (a imagem difração do ponto) na superfície da imagem
(LINFOOT, 1955).
A distribuição de intensidades através de uma imagem, ou a PSF, pode ser
interpretada como funções de densidade de probabilidade, desde que sejam
adequadamente normalizadas (TORRABA; RABAL; RUIZ, 1992).
Na superfície da retina onde se encontram os cones, a PSF se torna a densidade de
probabilidade que indica a possibilidade de onde um fóton surgirá (DEERING, 2005).
De certa forma, é possível interpretar a expansão espacial do ponto, causada pela
difração, como um aumento de entropia (BARAKAT, 1998).
A entropia pode ser considerada como o estudo das distribuições de probabilidade.
Neste sentido, a PSF devidamente normalizada apresenta as propriedades formais de
uma função de densidade de probabilidade (PDF) e pode ser tratada com análise
entrópica (BARAKAT, 1998).
Um aspecto bastante interessante dos sistemas visuais biológicos, pelo menos nos
vertebrados, é que há reproduções aproximadas da PSF pelas redes neurais da retina,
chamadas de PSFs neurais. Seria uma maneira de a Natureza biológica tentar entender a
Natureza da luz? Ou seriam as distribuições circularmente simétricas uma ocorrência comum
na Natureza, e as PSFs óptica e neural não têm qualquer relação uma com a outra? No caso de
haver essa relação, como os sistemas biológicos tomariam consciência da existência de uma
PSF óptica, visto que a realidade perceptiva está depois da abertura do sistema óptico, isto é, a
cena suavizada é a fundação sobre a qual a realidade perceptiva é construída? Os sistemas
visuais biológicos levam tempo para amadurecer. Seria esse amadurecimento um tipo de
calibração entre os sistemas sensoriais, permitindo averiguar discrepâncias entre as realidades
perceptivas e físicas?
Infelizmente, da mesma forma que a compreensão da Natureza da luz, a compreensão
da existência da PSF neural está fora do escopo desta tese. Relembra-se que o objetivo deste
capítulo é constatar que existe suavização da cena e que isto promove um aumento de
incerteza. O que será visto na seção seguinte é que as ideias expostas anteriormente sobre
difusão e entropia, também, são válidas para a PSF neural. A teoria de espaço-escala tem
como base a PSF neural (ROMENY, 2003) e o entendimento sobre difusão e entropia poderia
ter sido explorado diretamente sobre esta PSF.
FUNDAMENTAÇÃO TEÓRICA 75
3.5 PSF neural, produção de entropia e diferença de Gaussianas
Num sistema visual biológico, o plano da imagem é a retina, uma película composta
por dois tipos de fotorreceptores e uma variedade de células neurais dispostas em camadas.
Sobre essa película é projetada a versão suavizada da cena. Cada um dos fotorreceptores se
encarrega da transdução da luz em sinal neural, ou seja, a imagem é quebrada em pequenos
pedaços (amostras) e uma nova representação da informação é enviada às camadas seguintes.
Deve-se considerar que um fotorreceptor também tem uma entrada, o que causa difração
local, isto é, em cada fotorreceptor será promovida uma “mistura” de fótons.
Em geral os fotorreceptores se conectam às células neurais da camada seguinte numa
relação de muitos para um. Assim os valores neurais provenientes de uma vizinhança de
fotorreceptores são conduzidos para uma única célula. Isto permite que a célula possua uma
“janela visual” maior, composta pelas janelas de vários fotorreceptores. Esta janela é
conhecida por campo receptivo da célula.
Os sinais neurais provenientes de uma vizinhança de fotorreceptores são tratados de
forma ponderada pela célula neural. Isto é, o fotorreceptor no centro da vizinhança recebe o
maior peso, e os mais distantes do centro recebem pesos cada vez menores. A Figura 3.6
mostra a conexão parcial entre fotorreceptores e uma célula bipolar, bem como a distribuição
dos pesos da conexão, a qual é modelada como uma distribuição Gaussiana.
Os fotorreceptores se conectam às células bipolares através de conexões diretas, como
as da Figura 3.6, e através de conexões indiretas via células horizontais. As Figuras 3.6, 3.7 e
3.8 são construções didáticas para mostrar a existência desses dois tipos de conexões e como
são tratadas pela célula. As células bipolares distinguem as conexões diretas das indiretas
atribuindo sinais opostos7 às mesmas.
7 Biologicamente, a atribuição de sinal positivo ou negativo advém de processos eletroquímicos no interior da célula conhecidos respectivamente por despolarização e hiperpolarização.
76 FUNDAMENTAÇÃO TEORICA
Figura 3.6 – Simplificação da conexão entre fotorreceptores e uma célula bipolar.
Figura 3.7 – Simplificação da conexão entre fotorreceptores e uma célula horizontal.
O campo receptivo da célula bipolar, então, é o resultado da combinação das
distribuições Gaussianas que modelam as conexões diretas e indiretas, cujos sinais opostos
geram duas regiões concêntricas com comportamentos antagônicos. Esse campo receptivo é
dito ser do tipo center-surround (HARTLINE, 1940; KUFFLER, 1952; WIESEL, 1960;
BARLOW, 1953; HUBEL; WIESEL, 1960; BARLOW; HILL; LEVICK, 1964; GRAHAM;
CHANDLER; FIELD, 2006), e o seu esquema simplificado é mostrado na Figura 3.8. Deve-
se considerar que todos os fotorreceptores se conectam com a célula horizontal, permitindo a
sua modelagem com uma Gaussiana, como é mostrado na Figura 3.7. O tamanho da
vizinhança (ou do campo receptivo) é demarcado por esta célula
FUNDAMENTAÇÃO TEÓRICA 77
As células bipolares podem ser classificadas quanto à relação antagônica das regiões
que compõem seus campos receptivos. O tipo on-center responde ativamente quando a região
central é estimulada com luz, e a região periférica com ausência de luz. O tipo off-center
funciona de maneira inversa, respondendo ativamente quando a região periférica é iluminada
e o centro é mantido no escuro. Como foi dito acima, os campos center-surround são
modelados através da combinação das Gaussianas que representam as distribuições de pesos
das duas regiões, usando-se o modelo de diferença de Gaussianas (DoG) (RODIECK, 1965;
ENROTH-CUGELL; ROBSON, 1966). O item b da Figura 3.8 mostra a DoG de um campo
receptivo off-center e o item c mostra a DoG do on-center.
Figura 3.8 – Campo receptivo center-surround para células bipolares: a) conexões diretas (seta azul) e
indiretas (seta vermelha) entre uma vizinhança de fotorreceptores e uma célula bipolar; b) resultado da diferença entre Gaussianas para uma célula bipolar off-center e c) idem para uma célula on-center.
A camada seguinte de células neurais da retina é composta por células ganglionares e
células amácrinas. As ganglionares também têm a sua janela visual, a qual é fornecida por
uma ou mais células bipolares, permitindo que a ganglionar tenha acesso a uma área maior da
imagem. Um padrão de conexões semelhante ao anterior, também, é encontrado nesta
camada. As células bipolares trazem a informação da imagem para as células ganglionares,
através de conexões diretas, ou indiretas via células amácrinas, fazendo uso do mesmo tipo de
78 FUNDAMENTAÇÃO TEORICA
ponderação radial, o que gera o mesmo tipo de campo receptivo center-surround. As células
ganglionares também funcionam nas modalidades on-center e off-center.
Deve-se perceber que sinais provenientes de uma vizinhança de entrada são
combinados de forma radialmente ponderada para formar um único sinal de saída. Este, por
sua vez, é combinado de forma radialmente ponderada com outros sinais de saída, com a
finalidade de criar uma vizinhança de entrada para a camada seguinte. Um processo que
lembra a auto similaridade fractal, que se repete desde os reflexos provenientes da cena até a
última camada de células que desembocam no córtex visual. O que é sempre encontrado nessa
repetição são as distribuições circularmente simétricas, as mesmas que se encontram em
difusões isotrópicas.
Então, pode-se considerar que um campo receptivo realiza um processo de suavização
devido a sua característica de combinar muitos valores de entrada em um único de saída. No
entanto, os campos do tipo center-surround não são apenas suavizações. Estes são modelados
com diferença entre Gaussianas, ou melhor, com diferença entre suavizações. O que esses
campos querem obter com tal procedimento? A resposta fica muito mais clara através de
figuras. A Figura 3.9 mostra a diferença entre duas versões suavizadas de uma imagem
homogênea. A quantidade de suavização, ditada pelo desvio padrão (), é irrelevante para
regiões homogêneas, pois a suavização não causa modificação alguma. Isto significa que
campos receptivos center-surround não respondem a regiões homogêneas.
Figura 3.9 – A diferença entre Gaussianas para uma imagem homogênea é zero.
A Figura 3.10 mostra o resultado de diferença entre Gaussianas quando a imagem é
composta por duas regiões homogêneas (objeto preto sobre fundo branco). Nesta figura, a
Gaussiana mais fechada (menor desvio padrão) é a componente negativa da DoG, isto é, a
região central é negativa e a periférica é positiva, simulando uma célula off-center. Pode ser
percebido que um campo receptivo center-surround responde bem ao contraste entre regiões,
FUNDAMENTAÇÃO TEÓRICA 79
detectando a fronteira entre elas (foi necessário retocar o contorno da imagem devido ao baixo
contraste).
Figura 3.10 – Detecção de bordas com DoG off-center.
A Figura 3.11 apresenta uma DoG modelando as respostas de células on-center, cuja
componente negativa é a região periférica. Neste caso, também, ocorre detecção de bordas,
porém aparecem deslocadas, as quais não são consideradas como parte do objeto, mas
pertencentes ao fundo (foi necessário retocar o contorno da imagem devido ao baixo
contraste).
Figura 3.11 – Detecção de bordas com DoG on-center.
As duas modalidades de célula (on-center e off-center) detectam bordas. As células
on-center respondem ao contraste positivo e as off-center respondem ao contraste negativo. A
detecção de cada tipo de contraste depende, apenas, do posicionamento das células. Se a
80 FUNDAMENTAÇÃO TEORICA
região branca estiver projetada sobre o centro da célula on-center e a região escura sobre a sua
periferia, o contraste positivo é detectado. Se a região escura estiver projetada sobre o centro
de uma célula off-center e a região clara cair sobre a sua periferia, o contraste negativo é
detectado. Visto que todo o plano da imagem está coberto por campos receptivos das células
on-center e off-center, certamente os dois contrastes serão detectados. Por isso existem duas
bordas em posições diferentes, uma pertencente ao objeto e a outra pertencente ao fundo. No
caso específico de objeto escuro em fundo claro, a borda deslocada é detectada pela célula on-
center. Quando o objeto for claro e o fundo for escuro, a borda deslocada será detectada pelas
células off-center. A Figura 3.12 mostra mais nitidamente essas duas bordas.
Figura 3.12 – Ampliação de parte das bordas detectadas por DoG off-center e on-center. O pixel do vértice
do retângulo foi marcado com um circulo e as bordas reforçadas para melhor visualização e percepção da diferença de posicionamento das bordas detectadas por cada modalidade de DoG.
Então, o que a DoG (ou campos receptivos center-surround) realiza é a busca por
modificações causadas pela suavização. Tais modificações só ocorrem se houver regiões em
contraste. Se as suavizações forem fracas, ou melhor, de curto alcance (desvio padrão baixo),
as modificações se concentrarão ao longo da fronteira entre as regiões. Pode-se dizer, que a
DoG quantifica a suavização produzida, e a detecção de bordas é uma consequência disso.
FUNDAMENTAÇÃO TEÓRICA 81
É muito importante observar que a DoG e a entropia servem para a mesma finalidade,
quantificar a difusão (ou suavização). Ao longo desta tese já foi mencionado que a difusão
tem início a partir da fronteira entre duas regiões. Porém, uma fronteira, em geral, tem um
comportamento variado. Em determinadas posições aparecem convexidades e em outras
concavidades. Tais reentrâncias diferem entre si em ângulo e tamanho. Se a configuração
espacial da fronteira varia, a sua difusão também irá variar. Nas Figuras 3.10 e 3.12 é possível
perceber essa diferença no brilho da fronteira, que é mais intenso nos vértices e permanece
constante nas direções horizontal e vertical. O quadro de valores da DoG off-center,
apresentado na Figura 3.12, indica numericamente essa diferença. A produção de suavização
no vértice é quase o dobro da produzida nas direções horizontal e vertical.
A Figura 3.13 mostra a imagem entropia gerada pelo detector de corners de contorno
baseado em entropia, que está sendo proposto nesta tese. O detector foi aplicado na mesma
imagem binária das Figuras 3.10 e 3.11. Pode-se observar na imagem entropia a existência de
uma fronteira (contorno) com espessura dupla (dois pixels). Na realidade são duas fronteiras,
uma externa e outra interna, que correspondem exatamente às fronteiras obtidas com DoG on-
center e off-center (compare com as ampliações da Figura 3.12). A entropia registra
simultaneamente os dois fluxos de partículas gerados pela suavização, um que vai do objeto
para o fundo e outro que vai do fundo para o objeto. Embora não sejam os mesmos valores, a
entropia tem comportamento idêntico ao da DoG. Nos vértices há difusão mais intensa do que
nas direções horizontal e vertical.
Figura 3.13 – Contorno duplo na imagem entropia.
82 FUNDAMENTAÇÃO TEORICA
Nesta seção, as descrições biológicas foram mantidas ao mínimo, a fim de evidenciar,
apenas, os processos de suavização existentes na retina. É importante acrescentar que existem
diferentes tipos de células bipolares e uma quantidade ainda maior de tipos de células
ganglionares (GOLLISCH; MEISTER, 2010), e que todas têm em comum a característica de
possuir as modalidades on-center e off-center, formando dois caminhos diferentes até o córtex
(SODERQUIST, 2002). A quantidade de células off-center é quase o dobro de on-center.
3.6 Conclusão do capítulo
Neste capítulo a principal preocupação foi a de fundamentar teoricamente as ideias a
respeito de como a difusão poderia ocorrer num sistema visual, como seria o seu aspecto,
como poderia ser medida e como poderia ser utilizada para derivar medidas a respeito das
curvaturas ao longo de contornos.
Foi mostrado que medir a produção de suavização permite detectar o contraste entre
regiões homogêneas, bem como de caracterizar os detalhes da fronteira entre elas. A diferença
entre Gaussianas (DoG) e a entropia de Shannon são ferramentas viáveis para caracterizar os
detalhes de contornos.
Capítulo 4 – Núcleo de convolução proposto
4.1 Introdução
Todos os detectores que estão sendo propostos nesta tese são baseados na
quantificação de produção de suavização, seja através da entropia, ou da diferença entre
suavizações. Isto indica que ocorre algum tipo de suavização durante o processo de detecção
de corners de contorno. Visto que as funções de espalhamento de ponto (PSF) costumam ser
aproximadas com distribuição Gaussiana, esta, inicialmente, foi admitida como núcleo de
convolução. A distribuição Gaussiana se mostrou bastante adequada enquanto se mantinha
baixo o seu desvio padrão, isto é, para escalas muito baixas. No entanto, os detalhes
associados a baixas escalas não são representativos. É necessário observá-los em escalas mais
altas, a fim de verificar se possuem relevância na descrição global da forma do objeto em
estudo. Sendo assim, outra distribuição de probabilidades deveria ser escolhida. Este capítulo
tem o objetivo de mostrar como se chegou à distribuição definitiva.
4.2 Desvantagens da suavização Gaussiana
Um dos principais usos da suavização Gaussiana é a eliminação de ruídos. Se o ruído
estiver presente na forma de pequenas estruturas, este será atenuado, porém, a Gaussiana não
difere ruídos de estruturas reais da imagem. Quanto mais abrangente for o núcleo Gaussiano,
isto é, quanto maior for a sua escala , maior serão as estruturas atenuadas.
Sabe-se que a suavização Gaussiana e a precisão na localização de bordas são
incompatíveis. Os detectores de borda baseados em derivadas (Laplaciano) são muito
sensíveis a ruídos, por isso são combinados com uma suavização Gaussiana resultando no
Laplaciano da Gaussiana (LoG). O deslocamento de bordas é comum na resposta de
detectores que fazem uso dessa suavização (SHEN; CASTAN, 1992; LU; JAIN, 1992).
Outro efeito indesejável da suavização Gaussiana é a contração de contornos (contour
shrinking), afetando diretamente na estimação de curvaturas (COSTA; CESAR Jr., 2001).
Visto que as distribuições Gaussianas, usadas como núcleo de convolução, são
normalizadas, a amplitude está vinculada à abertura. Não há como aumentar a escala sem
reduzir a amplitude. A suavização com uma Gaussiana de baixa amplitude tende a igualar os
valores de uma vizinhança (é o efeito da difusão em destruir concentrações). Obviamente, tal
84 NÚCLEO DE CONVOLUÇÃO PROPOSTO
equalização reduz a distinção entre os pontos de uma vizinhança, causando a perda de
localização, além da atenuação do detalhe ali existente.
Especificamente para as detecções de corners de contorno aqui realizadas, a
suavização Gaussiana, a partir de uma escala relativamente baixa (em torno de =0,8),
introduz ambiguidades nas relações ângulo-entropia. Ou seja, o achatamento da Gaussiana
impede a associação correta entre a suavização produzida e os ângulos de setores circulares. A
Figura 4.1 facilita a compreensão do que está sendo relatado. O gráfico da relação ângulo-
entropia computada com o núcleo proposto (Figura 4.1.b) decresce monotonicamente, isto é,
cada ângulo só possui um valor de entropia e a cada valor de entropia só é associado um
ângulo. No entanto, quando esta mesma relação é computada usando-se um núcleo Gaussiano
(Figura 4.1.c), um valor de entropia pode ser associado a dois ângulos distintos. Os setores
circulares do item a desta figura são produzidos ao centrar o núcleo de convolução sobre a
fronteira das regiões clara e escura.
Figura 4.1 – Relação ângulo-entropia: núcleo proposto versus núcleo Gaussiano. a) ângulos da; b) Relação ângulo-entropia gerada com o núcleo proposto; c) Relação ângulo-entropia gerada com um núcleo Gaussiano.
NÚCLEO DE CONVOLUÇÃO PROPOSTO 85
4.3 O núcleo proposto para a computação de entropia
Considerando-se que o problema na construção de uma relação ângulo-entropia válida
reside no vínculo entre a escala (σ) da Gaussiana normalizada e a sua amplitude central, a
solução é a busca por distribuições de probabilidades não suscetíveis à contração de
amplitude. No entanto, a Gaussiana e suas derivadas apresentam uma quantidade de
características muito especiais que permitem o modelamento das aberturas através das quais
os seres vivos e os instrumentos ópticos observam o universo. Em Romeny e Florak (2000)
destaca-se o seguinte parágrafo:
[…] All partial derivatives of the Gaussian kernel are solutions too of the diffusion equation. So the first important result is that we have found the Gaussian kernel and all of its partial derivatives as the unique kernel for a front-end visual system that satisfies the constraints "no preference for location, scale and orientation" and linearity. We have found a one-parameter family of kernels, where the scale is the free parameter. This is a general feature of the biological visual system: the exploitation of ensembles of aperture functions, which are mathematically modeled by families of kernels for a free parameter, e.g. for all scales, derivative order, orientation, stereo disparity, motion velocity etc. The Gaussian kernel is the unique kernel that generates no spurious resolution (e.g. the squares so familiar with zooming in on pixels). It is the physical point operator, the Gaussian derivatives are the physical derivative operators.
Diante da importância dos núcleos Gaussianos decidiu-se não buscar por novas
distribuições, mas modificá-los de tal forma que mantivessem alta amplitude independente da
escala adotada. Para isso é necessário que a amplitude e a abertura da Gaussiana sejam
desvinculadas.
Uma maneira simples de resolver o problema é a utilização de soma de Gaussianas
(SoG – Sum of Gaussians) para aproximar a curva desejada. Esse tipo de aproximação faz
parte das técnicas estatísticas conhecidas como finite mixture models ou Gaussian mixture
models (GMM) (GOSHTASBY; ONEILL, 1994; MCLACHLAN; PEEL, 2000). Para os
casos desta tese, o parâmetro que varia é a escala (). A ideia, então, é somar duas Gaussianas
de escalas distintas, uma larga com a escala suficiente para encobrir a vizinhança desejada e a
outra estreita para garantir que a amplitude do núcleo resultante se mantenha íngreme. Desta
forma a abertura do núcleo e a sua amplitude se tornam independentes, interrompendo os
efeitos indesejáveis produzidos pela a suavização Gaussiana. Ademais, as características
desejáveis da Gaussiana são mantidas, visto que a soma de Gaussianas produz outra
Gaussiana (WEISSTEIN, 2016).
86 NÚCLEO DE CONVOLUÇÃO PROPOSTO
Os detectores propostos nesta tese funcionam em multiescala, o que implica na
utilização de vários núcleos de convolução, uma família de núcleos. Visto que cada um deles
é construído com a soma de duas Gaussianas, optou-se por padronizar essa construção. Como
foi mencionado acima, cada Gaussiana que compõe o núcleo possui uma área de atuação bem
definida. A influência da Gaussiana mais larga se concentra na região periférica do núcleo,
enquanto a Gaussiana estreita influencia na região central.
Essas duas regiões do núcleo gerado com a SoG faz lembrar os campos receptivos
center surround, porém sem o uso de sinais opostos. Neste tipo de configuração, a entropia
máxima (igual a 1) é obtida quando o somatório dos pesos8 da região periférica se iguala ao
somatório dos pesos da região central. Assim, decidiu-se usar esta restrição de
equiprobabilidade para guiar a construção dos núcleos de convolução. Então,
independentemente do tamanho do núcleo, o seu ponto central possuirá valor igual a 0,5,
assim como o somatório de todos os outros pontos do núcleo.
Para a construção do núcleo deve-se obedecer a seguinte lista de passos:
1. Construir a Gaussiana na escala (σlarga) desejada.
2. Descobrir a escala (σestreita) da segunda Gaussiana, que somada à primeira produzirá
uma terceira distribuição cujo peso central tem valor 1;
3. Normalizar a terceira distribuição, isto é, dividir por dois. O que produzirá o núcleo
desejado com valor central igual a 0,5.
O passo número 2 descreve uma tarefa que consome tempo e paciência, pois o valor
adequado para σestreita se obtém através de tentativa e erro. Por isso, é proposto, também, um
algoritmo capaz de modificar uma distribuição Gaussiana. Este algoritmo produz um núcleo
muito semelhante ao construído a partir de soma de Gaussianas e com todas as suas
características desejáveis. A ideia se resume em “puxar para cima” o peso central da
Gaussiana até que este atinja o valor 0,5, sem que a escala seja alterada. Puxar para cima
significa aumentar o valor do peso central, o que torna o peso total da distribuição maior do
que a unidade. Isto exige que a distribuição resultante sofra normalização. As equações 4.1,
4.2 e 4.3 descrevem como obter o valor a ser adicionado ao peso central da Gaussiana.
De acordo com a restrição adotada de entropia máxima, o peso central (Cf), da
distribuição desejada, precisa apresentar valor 0,5, então é necessário somar um valor ao
8 A palavra peso deve ser subentendida como peso probabilístico de uma distribuição de probabilidades. Por isso, logo após, se usou o termo equiprobabilidade.
NÚCLEO DE CONVOLUÇÃO PROPOSTO 87
peso central atual (Ca). Para calcular o valor de é necessário considerar que o peso final (Cf
= 0,5) só é obtido após a normalização da nova distribuição (dividir por N). O valor de N
corresponde à totalização dos pesos da nova distribuição não normalizada, a qual corresponde
à totalização da distribuição Gaussiana original, acrescida do valor . A equação 4.3 surge da
combinação das equações 4.1 e 4.2. Os pesos Ca e Cf estão ilustrados na Figura 4.2.
5,0N
Ca
Cf (4.1)
1 ∆ (4.2)
Ca 21 (4.3)
A sequência de passos para modificar uma Gaussiana e gerar a distribuição desejada
está listada a seguir:
1. Construir a Gaussiana na escala desejada;
2. Verificar o valor do peso central atual;
3. Determinar o valor de ;
4. Somar ao valor central atual;
5. Normalizar a distribuição.
A aproximação realizada pelo algoritmo descrito acima gera um núcleo muito
semelhante ao núcleo gerado pela soma de Gaussianas (SoG). A Figura 4.3 apresenta uma
comparação visual entre as suavizações produzidas pelas duas versões do núcleo de
convolução proposto. As imagens nos itens b e c desta figura são praticamente iguais. A
maior diferença produzida pela subtração destas é 0,00028. Tal semelhança não é uma
surpresa, visto que a componente mais estreita (≤0,5) utilizada nas SoGs se concentra quase
que totalmente em um único pixel. É quase uma soma entre uma Gaussiana e um impulso
localizado no pixel central. É exatamente a ideia de puxar o centro da Gaussiana para cima.
88 NÚCLEO DE CONVOLUÇÃO PROPOSTO
Figura 4.2 – Modificação de Gaussiana para obter a distribuição desejada. O peso central da Gaussiana (Ca)
é incrementado por um valor e após a normalização é obtida a distribuição desejada com o peso central Cf=0,5.
Figura 4.3 – Comparações entre os resultados das suavizações com SoG e com Gaussiana modificada. a)
Imagem original; b) Suavização com SoG (1=23,833 e 2 = 0,1952); c) Suavização com Gaussiana modificada (=23,833); d) Suavização com Gaussiana (=23,833); e) Ampliação da região do bico do avião, os valores são
válidos para as suavizações em b e c.
NÚCLEO DE CONVOLUÇÃO PROPOSTO 89
Pode-se perceber através dos itens b e c da Figura 4.3 que o núcleo proposto não serve
para filtrar ruídos ou dissolver detalhes do contorno do objeto, como ocorre no item d. Aqui, o
objetivo da suavização é produzir um “fluxo de partículas de brilho” do fundo para o objeto,
ou vice-versa, mantendo a localização original de cada pixel. Assim, utilizando-se a entropia é
possível quantificar a mistura de brilho que ocorre individualmente em cada um dos pixels da
imagem. O valor dessa quantificação depende da configuração espacial da vizinhança na qual
o pixel está inserido. Por exemplo, se o pixel estiver no vértice de uma convexidade do objeto,
a sua entropia será alta. Isto pode ser inferido a partir da Figura 4.1, observando-se os itens a e
b.
Os esquemas multiescala, como o espaço-escala, levam em conta que numa cena
coexistem elementos de várias escalas. Por exemplo, na cena de uma floresta é possível
observar a floresta, uma de suas árvores, as folhas desta árvore, ou ainda, as nervuras de cada
folha.
Para se enxergar tais nervuras, o sistema visual necessita estar bem próximo à folha.
Neste caso é dito que o sistema está ajustado à baixa escala, na qual os campos receptivos da
retina integram apenas as informações locais da folha. Ao afastar o sistema visual, a escala
aumenta, e também aumenta a quantidade de informação integrada pelos campos receptivos.
Isto faz com que os pequenos detalhes exerçam menos influência na integração de uma
vizinhança grande e, assim, vão sendo atenuados com o aumento da escala.
Em termos de núcleo Gaussiano, quanto maior é a sua escala (), maior é a vizinhança
de pixels abrangida, e maior é a suavização produzida. Os pequenos detalhes de uma
vizinhança tendem a desaparecer com o aumento de escala. Assim, a observação multiescala
permite descobrir quais são os detalhes relevantes da forma de um objeto.
Os detectores propostos funcionam em multiescala, mas os detalhes do contorno do
objeto não desaparecem com o esquema utilizado. Nos itens b e c da Figura 4.3, os menores
detalhes permanecem visíveis apesar da suavização com um núcleo bastante amplo. Porém,
com a evolução multiescala, os seus valores de entropia indicam a perda gradual de
proeminência. Este assunto será melhor discutido no capítulo 5, que apresenta o detector
baseado em entropia.
Embora seja um assunto comum em processamento de imagens, é interessante mostrar
como é feita a adaptação de uma distribuição Gaussiana a uma janela quadrada. Em
probabilidade e estatística é dito que 99,7% dos pesos de uma distribuição Gaussiana se
concentram na faixa de seis desvios-padrão (6σ), como pode ser visto na Figura 4.4. Isto
significa que é “permitido” utilizar a extensão de 6σ como o diâmetro da distribuição. Para
90 NÚCLEO DE CONVOLUÇÃO PROPOSTO
descobrir o valor do desvio padrão (σ) para uma determinada janela quadrada, basta dividir a
dimensão desta janela pelo diâmetro da distribuição. No entanto, nada impede que se ajuste a
distribuição a uma janela maior que 6σ. Isto só aumentará a precisão do ajuste.
Figura 4.4 – Ajuste de distribuição Gaussiana em janela quadrada.
O esquema multiescala adotado utiliza sete escalas, as quais são produzidas pelos
núcleos de convolução, do tipo SoG, listados na Tabela 4.1. Esta quantidade de escalas não é
obrigatória, e tampouco fixa. Nada impede que sejam adotadas mais escalas, ou menos. Na
realidade, é interessante que a escala máxima seja adaptativa à área do objeto. Por exemplo,
poder-se-ia circunscrever um retângulo ao objeto, calcular a sua área em pixels, extrair a raiz
quadrada e gerar a escala máxima a partir dessa informação.
Tabela 4.1 – Núcleos de convolução (SoG).
Núcleo (identificação)
Dimensões σestreita σperiférico
H3 3x3 0,50000 0,65375 H5 5x5 0,43300 0,83333 H9 9x9 0,35450 1,50000 H17 17x17 0,30700 2,83333 H35 35x35 0,26900 5,83333 H71 71x71 0,23000 11,83333 H143 143x143 0,2286861 23,83333
NÚCLEO DE CONVOLUÇÃO PROPOSTO 91
A Figura 4.5 apresenta diferentes estágios de evolução na escala, isto é, suavizações de
uma mesma imagem com os sete núcleos da Tabela 4.1. O objetivo desta figura é mostrar o
fundo cedendo partículas de brilho ao objeto, sem que ocorra perda de localização ou
destruição de detalhes da fronteira. A região do fundo que cede partículas se torna mais
escura, e a região do objeto que as recebe se torna mais clara (a mesma ideia da difusão de
calor). No canto superior esquerdo está a imagem original.
Figura 4.5 – Suavizações de uma imagem binária com os núcleos da Tabela 4.1.
Na Figura 4.6 é mostrada a distribuição de cones na retina, observe que a concentração
na fóvea é muito maior do que na periferia, apesar da área periférica ser maior. Em outras
palavras, o peso estatístico do centro é superior ao da periferia. Pode-se notar que essa
descrição é bem semelhante ao núcleo proposto. Comparando as Figuras 4.6 e 4.7, não é
difícil perceber a semelhança entre os núcleos de escala mais alta e a distribuição dos cones
na retina. Provavelmente, um objeto observado a uma distância relativamente grande manterá
sua forma reconhecível graças à alta concentração de cones na fóvea. Com esta distribuição é
possível ter uma visão abrangente e detalhada simultaneamente. Por exemplo, a Figura 4.8
mostra objetos a uma distância razoavelmente grande, no entanto seus pequenos detalhes
ainda se mantêm visíveis, como é o caso dos mastros das embarcações e os postes da ponte. A
92 NÚCLEO DE CONVOLUÇÃO PROPOSTO
Figura 4.9 é o resultado da suavização desta mesma cena com o núcleo H143 (Tabela 4.1). A
Figura 4.10 mostra a suavização com uma Gaussiana na escala = 2,8333, que é bem menor
que a escala de H143. Os mastros e os postes continuam visíveis na Figura 4.9, o que não
ocorre na Figura 4.10. Isto está indicando que a restrição de pesos equiprováveis utilizada no
núcleo proposto pode ter um fundamento biológico.
Figura 4.6 – Distribuição de fotorreceptores na retina. Adaptado de Osterberg (1935).
Figura 4.7 – Núcleos de convolução gerados por SoG.
NÚCLEO DE CONVOLUÇÃO PROPOSTO 93
Figura 4.8 – Imagem original de uma cena com objetos distantes.
Figura 4.9 – Versão suavizada com o núcleo H143 (=23,8333). Os objetos distantes ainda mantêm os seus detalhes visíveis.
94 NÚCLEO DE CONVOLUÇÃO PROPOSTO
Figura 4.10 – Versão suavizada com Gaussiana (=2,8333).
4.4 O núcleo proposto para a DoG
No capítulo 3 foi mencionado que a diferença entre Gaussianas mede a produção de
suavização de uma escala para outra. Na secção acima foi apresentado um núcleo baseado em
soma de Gaussianas (SoG), cuja caraterística é a de se manter íngreme em qualquer escala.
Utilizando-se algum recurso capaz de medir o efeito de sua suavização, por exemplo, a
entropia, obtém-se um método que permite estimar curvaturas. Percebe-se, então, que o uso
da entropia e da operação de subtração, realizada na DoG, têm o mesmo objetivo de medir os
efeitos provocados pela suavização. Além disso, os núcleos SoG e DoG são gerados pelos
mesmos elementos, porém com sinais invertidos. Tais semelhanças levam a crer que a
equiparação em magnitude do núcleo DoG com o SoG pode torna-lo imune à perda de
localização e capacitá-lo a estimar curvaturas. Visto que os campos receptivos center-
surround podem ser modelados com DoG, é possível que tenham a finalidade de detectar
curvaturas ao longo de fronteiras entre regiões homogêneas.
O sucesso obtido com o núcleo SoG se deve à imposição de restrição de
equiprobabilidade. A área de atuação da Gaussiana central, praticamente, se limita ao pixel do
centro, isto é, todo o peso estatístico (0,5) está concentrado nesse pixel, garantindo a correta
NÚCLEO DE CONVOLUÇÃO PROPOSTO 95
localização de qualquer ponto da fronteira, independentemente do aumento da escala da
Gaussiana periférica.
O sentido da palavra localização, mencionada acima, se relaciona ao grau de certeza
de que o ponto observado pertence ao objeto. Porém, há outro sentido de maior importância,
que é o da referência. Por exemplo, uma carta náutica mostra com certeza as regiões que
pertencem à terra firme. No entanto, para o navegador determinar com boa precisão onde o
seu navio se localiza naquele momento, ele não usa qualquer ponto de terra como referência.
Os cálculos de navegação são baseados em pontos salientes de terra como pontas ilhas, ou de
protuberâncias da costa. É necessário que seja uma característica que se destaque do resto,
mesmo que seja algo artificial como um farol.
Há muitos exemplos que mostram a importância dos pontos de referência.
Hipoteticamente, uma pessoa perdida no deserto do Saara, mesmo possuindo um meio de
comunicação teria muita dificuldade em identificar sua posição a uma possível equipe de
resgate, dada a homogeneidade do deserto. Caso essa pessoa conseguisse chegar ao litoral
(fronteira entre duas regiões homogêneas), a busca se restringiria às regiões litorâneas do
Atlântico, do Mediterrâneo ou do mar Vermelho, mesmo assim, muito tempo e energia seriam
gastos devido à falta de um bom ponto de referência. Em um exemplo do mundo infantil, a
característica principal de um mapa do tesouro é a identificação de uma grande quantidade de
pontos de referência. Num exemplo menos fantasioso, uma empresa de entrega de
mercadorias, mesmo de posse do endereço do destinatário, exige um ponto de referência.
Se a imagem da cena fosse conectada diretamente ao cérebro, toda a informação
estaria ao seu dispor, isto é, ele estaria vendo a cena diretamente. No entanto, a arquitetura do
sistema de visão é outra, na qual a retina é a responsável em fazer um resumo sobre as regiões
e suas localizações na cena, e transmiti-lo ao cérebro. A retina possui bastante poder de
fotorrecepção, porém sua capacidade de transmissão é cem vezes menor. Esta discrepância
requer processos de compressão da informação. A detecção de contrastes, ou de fronteiras
entre regiões homogêneas, efetuada pelos campos receptivos da retina, é uma maneira de
reduzir a quantidade de informação. Porém, tal redução pode ser mais efetiva se for
considerada a ideia de que a forma de um objeto pode ser aproximada através de pontos de
alta curvatura (ATTNEAVE, 1954). Para isso, é necessário supor que os campos receptivos
sejam especializados em detectá-los.
A retina não é capaz de identificar o que é o objeto, ou o que é o fundo. Sendo assim,
neste nível não há como saber o que é uma convexidade ou concavidade. Porém, seus
circuitos têm capacidade para detectar contrastes negativos e positivos. A Figura 4.11
96 NÚCLEO DE CONVOLUÇÃO PROPOSTO
apresenta os estímulos usados para produzir as respostas mínimas e máximas dos campos
receptivos de células ganglionares on-center e off-center (HUBEL, 1995). Estas duas
modalidades de célula ganglionar são dedicadas, respectivamente, a contrastes positivos
(objeto claro em fundo escuro) e a contrastes negativos (objeto escuro em fundo claro). As
respostas mínimas são obtidas quando as regiões central e periférica são excitadas com o
mesmo estímulo (tudo escuro, ou tudo claro). A Figura 4.12 mostra o comportamento de uma
célula ganglionar em relação à área ocupada pelo estímulo. Se, por exemplo, a célula for on-
center, a resposta vai se tornando mais forte à medida que o estímulo ocupa uma fração maior
da área central. Ao ocupar esta área por completo, a resposta é máxima. Se o estímulo
continuar aumentando, invadindo a área periférica a resposta será atenuada, até atingir seu
valor mínimo, que coincide com a iluminação total do campo receptivo (ou a escuridão total).
Figura 4.11 – Respostas dos campos receptivos center-surround de células ganglionares. As regiões com
sinal positivo respondem a estímulos claros, e as com sinal negativo respondem à ausência de luz. As células do tipo on-center são representadas com sinal positivo na região central. As do tipo off-center, o sinal central é
negativo.
NÚCLEO DE CONVOLUÇÃO PROPOSTO 97
Figura 4.12 – Respostas das células ganglionares em relação ao tamanho da área excitada pelo estímulo
luminoso.
Em imagens binárias existe uma relação complementar entre as duas regiões que a
formam. Com isto, uma convexidade do objeto pode ser interpretada como uma concavidade
do fundo e vice-versa. A Figura 1.3 do capítulo 1 facilita entender essa dualidade.
Considerando-se que ocorra sobreposição de campos receptivos na retina, esta característica
complementar permite que se reduza ainda mais a quantidade de informação a ser transmitida
ao cérebro, visto que apenas as convexidades necessitam ser transmitidas. A Figura 4.13
ilustra esta ideia. Os itens a e b apresentam a mesma vizinhança local de uma imagem, na
qual não se sabe qual é a intensidade que representa o objeto, ou o fundo. O ponto vermelho
situado, aproximadamente, no centro da vizinhança representa o centro de um campo
receptivo. No item a, o campo receptivo é do tipo on-center. A resposta deste é composta pela
ativação total do center somada à ativação quase total do surround. No item b, o campo é do
tipo off-center, cuja resposta é a soma da ativação total do center com a atenuação quase total
do surround. Os itens c e d desta mesma figura são explicados de forma semelhante. Isto
sugere que a resposta mais forte é apresentada pelo campo receptivo cujo tipo (on-center ou
off-center) coincide com o tipo de contraste (positivo ou negativo) da convexidade local.
Deve-se observar que a transmissão da informação extraída das configurações representadas
pelos itens a e c pode tornar desnecessária a transmissão da informação obtida em b e d.
É importante mencionar que os movimentos microsacádicos podem compor um
mecanismo com o objetivo de ajustar a imagem aos campos receptivos, para obter a melhor
resposta, conciliando o tipo do campo com o tipo de contraste. Afirma-se em Martinez-
98 NÚCLEO DE CONVOLUÇÃO PROPOSTO
Conde, Macknik e Hubel (2000) que campos receptivos do córtex estriado respondem
ativamente após esses movimentos. É como se estivesse buscando pela melhor relação
posição/resposta.
Figura 4.13 – Relação complementar entre convexidades e concavidades. Projeções de regiões contrastantes
(convexas/côncavas) sobre campos receptivos on-center e off-center sobrepostos. Haverá redução de redundância se apenas os valores mais altos forem considerados. Do ponto de vista da convexidade (itens a e c),
as saídas são mais altas.
A importância que os pontos de referência possuem em descrever a localização de
algo; a capacidade que um ponto de alta curvatura tem em servir como referência de uma
vizinhança local; a semelhança entre os modelos SoG e o DoG e a capacidade de compressão
da informação que os pontos de alta curvatura oferecem, permitem sugerir que os campos
receptivos center-surround tenham a competência de distinguir vértices de concavidades, de
convexidades e pontos pertencentes a fronteiras em linha reta. Ou seja, o modelo DoG tem a
capacidade latente de distinguir curvaturas nas duas modalidades de contraste (positivo e
negativo).
Supõe-se, então, que em consequência9 da estreiteza do nervo óptico, a imagem
apresentada aos circuitos da retina necessita ser varrida em busca de contrastes, os quais
poderão servir como pontos de referência (pontos de alta curvatura) para capacitar o cérebro a
construir a sua versão da cena observada.
9 Foi utilizada a palavra consequência, mas é possível que a detecção de contraste tenha ditado a largura do canal de comunicação e não o contrário.
NÚCLEO DE CONVOLUÇÃO PROPOSTO 99
Um ponto de referência necessita ser diferente do resto de sua vizinhança, por isso, o
processo de suavização deve ser usado com cautela, visto que esta tende a igualar os vizinhos
em consequência de seu efeito de achatamento.
Em visão computacional, os detectores de borda derivativos buscam por pontos
distintos através do processo de diferenciação. Alguns embutem um processo de suavização
como parte da detecção. O Laplaciano da Gaussiana (LoG), por exemplo, faz parte dessa
classe de detectores, o qual utiliza a suavização Gaussiana para filtrar ruídos de alta
frequência gerados pela diferenciação (MARR; HILDREDTH, 1979).
A observação das Figuras 4.3, 4.5, 4.8 - 4.10 faz surgir a questão: as células da retina,
especificamente as que compõem a região da fóvea, utilizam a suavização apenas para a
filtragem de ruídos?
Talvez seja necessária uma nova interpretação para a fase de suavização do modelo
DoG, a fim de harmonizá-la com a ideia de ponto de referência distinguível. Talvez a palavra
marcar deva substituir a palavra suavizar. Os pesquisadores da área biológica e os
profissionais da área médica costumam lidar com processos de marcação. O objetivo é
detectar padrões específicos excitando-se alguma propriedade do tecido em estudo. Pode-se
citar, por exemplo, aplicação de contraste para exames de ressonância magnética e
marcadores biológicos para identificação de células ou características genéticas. Inspirando-se
nesta ideia, sugere-se que a suavização Gaussiana possa agir como um processo de marcação,
o qual é imprescindível para que ocorra a detecção de contraste.
Metaforicamente, a suavização Gaussiana funcionaria como um “pulverizador de
brilho adaptativo”. Para cada vizinhança local da imagem seria construída uma intensidade de
brilho própria, utilizando-se a média ponderada obtida pelo produto interno entre a janela
Gaussiana e o brilho atual da vizinhança. Não há qualquer inovação neste procedimento: o
pixel de saída é gerado a partir da média ponderada da vizinhança de entrada. No entanto,
deve-se enfatizar que o valor do pixel de saída depende da configuração espacial da
vizinhança de entrada (da intensidade de cada pixel que forma a vizinhança). Se esta for uma
região homogênea, o pixel de saída terá o mesmo valor do pixel de entrada. Porém, se a
vizinhança de entrada estiver centrada na fronteira entre duas regiões homogêneas, o valor do
pixel de saída refletirá a configuração espacial dessa localidade da fronteira.
No capítulo 3 é feita a associação entre a difusão térmica e a suavização de imagens.
O calor flui de uma região quente para uma região adjacente de menor temperatura. Esta se
torna mais quente e a primeira mais fria. De maneira similar a “pulverização Gaussiana”
ocorre da região clara para a região escura. Obedecendo a “conservação de brilho”, o pixel
100 NÚCLEO DE CONVOLUÇÃO PROPOSTO
que cede brilho se torna mais escuro, e o pixel que o recebe se torna mais claro. A quantidade
de brilho recebido ou cedido reflete o tipo de vizinhança do pixel. Se for uma região
homogênea, não haverá perda ou ganho. Se for região de fronteira, a perda, ou o ganho de
brilho dependerá da configuração espacial da vizinhança.
Uma vez que cada pixel da imagem foi marcado de forma adaptativa, resta determinar
a quantidade de marcação que cada um recebeu (do ponto de vista do contraste negativo), ou
cedeu (do ponto de vista do contraste positivo). Então, o processo de diferenciação na DoG
seria a quantificação de quanto brilho cada pixel cedeu ou recebeu. A Figura 4.11 mostra que
um campo receptivo center-surround responde fortemente a regiões contrastantes e
fracamente a regiões homogêneas, isto significa que esses campos “gostam” de diferenças, e
estas precisam ser fortes o suficiente para gerar uma resposta do campo.
No modelo DoG tradicional não há qualquer restrição às escalas das Gaussianas que
serão subtraídas. A subtração pode ser feita, por exemplo, entre duas versões fortemente
suavizadas de uma imagem. Para a função de marcação aqui proposta, há dois problemas com
esse modelo. O primeiro, e mais óbvio, é que ambas as versões já perderam a localização de
seus pontos de fronteira, e a diferença entre elas continuará a apresentar essa perda. O
segundo se relaciona à diminuição da diferença absoluta entre as versões suavizadas. Para que
a marcação funcione da melhor maneira possível, o valor modificado deve ser comparado
com o seu valor original. Isto é, o interessante é comparar a versão suavizada da imagem com
a sua versão original.
Na fóvea, o centro do campo receptivo das células ganglionares do tipo midget é
composto por um único cone (KAPLAN; LEE; SHAPLEY, 1990). Caso este cone concentre,
pelo menos, a metade do peso sináptico do campo receptivo, então será possível inferir que as
células ganglionares do tipo midget têm a configuração ideal para comparar as versões
suavizada e original de uma imagem.
Devido ao modelo de diferença entre Gaussianas adotado nesta tese exigir que a escala
de uma delas tenha valor próximo à zero (imagem original), este será referido por DoG_zero.
Este compõe o núcleo central de um dos detectores de corners de contorno aqui propostos. A
ideia básica de funcionamento do modelo DoG_zero é suavizar uma imagem binária com uma
Gaussiana de qualquer escala e, então, efetuar a subtração entre as versões original e
suavizada. A Figura 4.14 compara a detecção de um vértice entre a DoG e a DoG_zero. Para a
versão DoG, a subtração foi realizada entre as imagens suavizadas com = 2,833 e com =
1,5. Para a versão DoG_zero, a subtração foi entre a imagem suavizada com = 2,833 e a
NÚCLEO DE CONVOLUÇÃO PROPOSTO 101
imagem original ( 0). Nesta figura, um dos vértices do retângulo tem as coordenadas
espaciais 103,70. Deve-se perceber: 1) a perda de localização gerada pela suavização (item a)
e a subsequente recuperação da localização promovida pela DoG_zero (item e); 2) a versão
DoG_zero produz um vértice com valor alto e distinto (0,67) (item e). Na versão DoG o valor
do vértice é muito baixo, menor que outros valores do objeto (item c).
Figura 4.14 – Comparação de detecção de vértices entre DoG e DoG_zero.
A versão DoG não é capaz de recuperar a localização, exceto se uma das imagens for
suavizada com escala bastante reduzida. Como pode ser visto na Tabela 4.1, ao se aumentar a
escala da Gaussiana periférica, é necessário reduzir a escala da Gaussiana central, a fim de
que se mantenha a equiprobabilidade de pesos probabilísticos entre o centro e a periferia da
SoG. Por exemplo, o núcleo H143 é composto por uma Gaussiana central cuja escala é =
0,228. Isto significa que a Gaussiana ocupa uma área menor do que 1,5 pixels. Este não
causa mudanças na imagem. Sendo assim, não era necessário que se construíssem núcleos de
convolução, bastaria somar a imagem original com uma versão suavizada qualquer
(Gaussiana de qualquer escala), seguida por uma normalização (dividir cada intensidade por
102 NÚCLEO DE CONVOLUÇÃO PROPOSTO
dois), para que se obtivessem resultados semelhantes. No entanto, o núcleo SoG foi
construído para ser usado num detector que utiliza os pesos do SoG para computar a entropia
local.
A DoG_zero também poderia ser construída na forma de núcleos de convolução. Para
isso, seriam utilizadas as Gaussianas listadas na tabela 4.1, porém em vez de somá-las, deve-
se subtraí-las. No entanto, a informação que se deseja extrair é fornecida diretamente pela
diferença, o que torna mais prático e mais fácil suavizar a imagem com uma Gaussiana,
seguida da operação de subtração entre este resultado e a imagem original.
4.5 Conclusão do capítulo
Neste capítulo é mostrada a importância da suavização na detecção de curvaturas ao
longo de fronteiras entre regiões homogêneas. A qual é imaginada como sendo um processo
de marcação, a fim de facilitar a detecção e distinção dos valores de contraste. Porém, para
que a suavização possua essa propriedade de marcação de pixels é necessário que a
localização destes não seja perdida.
Foram identificadas duas maneiras de se quantificar a suavização efetuada. Uma é
através do cálculo da entropia de Shannon e a outra através da diferença de Gaussianas
(DoG).
Independente do método de quantificação utilizado é necessário manter a localização
dos pixels intacta, não importando a escala considerada. Para o método de entropias foi
proposto um núcleo construído a partir da soma de duas Gaussianas (SoG). Uma delas, a de
maior abertura, é quem determina a escala e a outra, de menor abertura (quase sem efeito de
suavização), é responsável em manter a localização dos pixels. Esta ideia é estendida para o
modelo DoG, através da restrição de que uma das imagens não deve sofrer suavização, isto é,
a diferença é realizada entre a versão suavizada da imagem e a imagem original.
Em meio à discussão do modelo DoG foram feitas alusões aos campos receptivos da
retina, os quais poderiam ter capacidade de detectar curvaturas, o que auxiliaria na redução da
quantidade de informação a ser transmitida ao córtex visual. Também foi dito que as duas vias
de transmissão, baseadas em contraste positivo e negativo, podem estar relacionadas com a
dualidade convexidade/concavidade existente em imagens binárias, e que isto reduziria ainda
mais a quantidade de informação a ser transmitida, visto que os contrastes de convexidades
produzem as respostas mais fortes, tornando desnecessária a transmissão de contrastes de
concavidades. Para obter essas respostas mais fortes é necessário que os vértices das
NÚCLEO DE CONVOLUÇÃO PROPOSTO 103
convexidades coincidam com os centros dos campos receptivos apropriados para aquele
contraste. Foi sugerido que a sobreposição dos campos receptivos e os movimentos micro
sacádicos contribuem para que ocorra essa coincidência.
104 NÚCLEO DE CONVOLUÇÃO PROPOSTO
Capítulo 5 – Proposta do detector EML
5.1 Introdução
Como mencionado nos capítulos 3 e 4, o processo de difusão em imagens binárias
(silhuetas), inicialmente, produz modificações (mistura das cores do fundo e do objeto) mais
acentuadas ao longo da fronteira entre o objeto e o fundo. Também foi visto que tais
modificações têm maior ou menor intensidade de acordo com a configuração espacial da
fronteira. Os pixels do contorno de uma convexidade do objeto sofrem maior modificação que
aqueles que estão numa fronteira em linha reta. Estes, por sua vez, sofrem maior modificação
que os pixels de uma concavidade.
O detector de corners proposto neste capítulo se fundamenta na ideia de que a entropia
pode ser usada para quantificar as modificações causadas por suavização. Este detector possui
o seu próprio esquema multiescala, que o torna capaz de identificar os corners mais
importantes ao longo do contorno. O núcleo multiescala utilizado pelo detector foi proposto
no capítulo 4.
Vale mencionar que existem muitos trabalhos que utilizam o cálculo de entropia para
analisar ou detectar determinadas características de uma imagem (CHAMOLI; KUKREJA;
SEMWAL, 2014). Um trabalho que pode trazer dúvidas quanto à originalidade do detector
aqui proposto é o relatado em Kadir e Brady (2001). O referido trabalho não relaciona valores
angulares com valores de entropia, não há a preocupação com análise de formas e a entropia é
calculada a partir da distribuição local dos níveis de cinza, ou seja, há uma distribuição
diferente para cada vizinhança. No detector aqui proposto, a entropia é calculada sobre a
distribuição de probabilidades imposta pelo núcleo de convolução. A cada pixel do contorno
da imagem é associado um valor de entropia, o qual está diretamente relacionado com o
ângulo local onde está situado o pixel.
Neste capítulo é apresentado um detector de pontos dominantes multiescala cujo
funcionamento se baseia na quantificação da suavização através da entropia de Shannon. Para
facilitar as referências, o detector é chamado de EML - Entropia da Mistura Local. O termo
mistura vem da combinação das intensidades do objeto e do fundo em virtude da suavização.
106 PROPOSTA DO DETECTOR EML
Basicamente, o EML é composto de quatro fases. São elas:
1. Computação da entropia na escala mais baixa – O núcleo de convolução de escala
mais baixa, ajustado a uma janela 3x3, é deslocado pixel a pixel pela imagem. A
distribuição de probabilidades do núcleo é usada para determinar as probabilidades de
fundo e de objeto contidos na vizinhança 3x3. Essas probabilidades são usadas para
computar a entropia de cada pixel da imagem. Os pixels da imagem resultante com
valores de entropia característicos de convexidades e concavidades serão considerados
candidatos a pontos dominantes.
2. Computação multiescala dos candidatos – As coordenadas dos candidatos, obtidos na
fase anterior, são usadas como ponteiros para que apenas estes sejam observados em
escalas mais altas. Assim, para cada candidato é computada a entropia utilizando-se
núcleos maiores. Então, para cada candidato é produzida uma lista contendo os seus
valores de entropia computados em uma quantidade finita de escalas.
3. Análise da evolução do candidato através das escalas – A lista contendo as entropias
do candidato é analisada com o objetivo de verificar possíveis decaimentos de
saliência. Nesta fase são separados os verdadeiros candidatos daqueles que
representam pequenos detalhes ou ruídos. A saída desta fase é uma lista dos possíveis
pontos dominantes com seus respectivos valores de entropia e coordenadas espaciais.
4. Determinação dos pontos dominantes – O objetivo é determinar as regiões que
possuem mais de um provável ponto dominante e compará-los para que reste apenas
um em cada região.
É necessário considerar a restrição imposta pela fronteira entre duas regiões
homogêneas às possíveis configurações espaciais locais. Isto é, nem todas as combinações de
pixels brancos e pretos são válidas na região do contorno. Para determinar quais são as
possíveis configurações, foi feita uma análise das possíveis combinações em uma matriz 3x3.
Do total de 512 (29) combinações diferentes, a grande maioria não pôde ser considerada como
uma fronteira entre objeto e fundo. As configurações possíveis estão representadas na Figura
5.1 e seus valores listados na Tabela 5.1. Deve-se notar que essas configurações podem sofrer
rotação em torno do pixel central, mantendo seus valores de entropia inalterados.
A ideia original era a de promover o mesmo estudo em janelas maiores, porém
mostrou-se impraticável devido a grande quantidade de configurações a serem analisadas.
Optou-se, então, por avaliar em escalas mais altas as mesmas configurações mostradas na
PROPOSTA DO DETECTOR EML 107
Figura 5.1. Os valores resultantes estão listados na Tabela 5.1. Este conjunto de valores é
utilizado como referência para auxiliar na terceira fase do EML, quando se avalia a evolução
da entropia do candidato através das escalas. Este conjunto é denominado, aqui, por ângulos
padrão.
Na Figura 5.1 percebe-se a existência de ângulos (90º e 180º) que possuem dois
valores distintos de entropia. Isto ocorre devido à grade de amostragem não ser isotrópica,
tornando a representação na direção diagonal diferente das representações nas direções
horizontal e vertical. As versões na diagonal recebem o sufixo “Diag”, como pode ser visto na
Tabela 5.1.
A Figura 5.2 representa mais claramente o efeito da grade de amostragem. O ajuste do
núcleo de convolução a uma grade digital pode gerar comportamentos indesejáveis na relação
ângulo-entropia. Quanto menor forem as dimensões da grade, maior será a diferença entre as
entropias da borda horizontal e da borda diagonal. Isto acontece devido à baixa granularidade
dos pesos na baixa escala. O aumento de escala promove o aumento da diversidade de pesos
probabilísticos, o que permite uma melhor aproximação do núcleo Gaussiano ao mundo
discreto.
A Figura 5.3 mostra a Tabela 5.1 na forma de gráfico. Nesta, Pode ser percebido que
os ângulos formados por diagonais (90Diag, 180Diag e 270º) não têm um bom
comportamento inicial. Por esse motivo, a avaliação da evolução nas escalas (fase 3) exclui a
escala inicial. Também pode ser percebido que o aumento da escala atenua o problema da
falta de isotropia da grade de amostragem.
Tabela 5.1 – Ângulos padrão e suas entropias em 7 escalas diferentes.
Ângulo Entropia de Referência
3x3 5x5 9x9 17x17 35x35 71x71 143x143(1) 45o 0,95443 0,95765 0,96815 0,97803 0,98326 0,98604 0,98738(2) 90o Diag. 0,94276 0,92374 0,92792 0,93879 0,94595 0,95012 0,95226(3) 90o 0,83405 0,87514 0,90695 0,93002 0,94184 0,94820 0,95134(4) 135o 0,81127 0,81827 0,84194 0,86607 0,88006 0,88797 0,89199(5) 180o Diag. 0,78679 0,74882 0,75701 0,77870 0,79336 0,80209 0,80664(6) 180o H/V 0,58397 0,65780 0,71666 0,76115 0,78491 0,79806 0,80467(7) 225o 0,54356 0,55595 0,59803 0,64134 0,66676 0,68129 0,68871(8) 270o 0,50021 0,43271 0,44733 0,48584 0,51185 0,52730 0,53535
108 PROPOSTA DO DETECTOR EML
Figura 5.1 – Ângulos padrão em uma janela 3x3.
Figura 5.2 – Influência da grade de amostragem. a) aspectos da borda em diagonal e horizontal; b) núcleo de convolução: a soma dos pesos em amarelo (0.2351) corresponde ao fundo quando o núcleo está centrado sobre uma diagonal, e a soma dos pesos em rosa (0.1399) corresponde ao fundo quando o núcleo está centrado sobre
uma borda horizontal (ou vertical); c) o motivo por haver pesos diferentes é que uma fração de cada um dos pixels mais externos na direção diagonal não está incluída na distribuição circular.
PROPOSTA DO DETECTOR EML 109
Figura 5.3 – Entropia dos ângulos padrão por escala.
5.2 Fase 1 – computação da entropia na menor escala
As imagens utilizadas são binárias, a região escura (nível 0) representa o objeto e a
região clara (nível 255) representa o fundo. O tipo de dados usado para representar os valores
das imagens é o tipo real (double). Antes de executar qualquer processamento na imagem é
feito um padding para permitir que os pixels que estejam nos limites da imagem sejam
trabalhados pelo núcleo de convolução. A construção do núcleo está descrita no capítulo 4.
O núcleo é deslocado pixel a pixel, varrendo toda a imagem. Em cada vizinhança
delimitada pela janela 3x3, o operador determina quais são os pixels pertencentes ao objeto e
quais os pertencentes ao fundo. No EML, isto foi implementado como uma operação lógica
“E” entre a matriz da vizinhança (w) e o núcleo (H), produzindo a matriz lógica wl.
^
Se todos os valores de wl forem de fundo (0), ou de objeto (1), será fornecido
automaticamente o valor zero à entropia do pixel de saída. Para detectar essas situações, basta
somar os valores de wl, como é mostrado nas seguintes expressões:
110 PROPOSTA DO DETECTOR EML
,
0
← 0
Quando a vizinhança envolvida pelo núcleo de convolução for mista, isto é, possuir
pixels de fundo e de objeto, torna-se necessário contabilizar as concentrações de cada tipo
para usá-las na equação de entropia de Shannon (3.3). As expressões a seguir descrevem
como as probabilidades de objeto (pobjeto) e fundo (pfundo) foram obtidas. O operador “.*”
representa uma multiplicação matricial ponto a ponto, conhecida como produto de Hadamard.
Visto que wl é uma matriz de valores lógicos, a multiplicação ponto a ponto com o núcleo (H)
irá evidenciar os pesos estatísticos referentes ao fundo. Para descobrir o peso total do fundo,
basta somar os valores da matriz resultante wp. Sabendo-se que o núcleo (H) é normalizado, o
peso do objeto é o complemento do peso do fundo. As palavras peso, probabilidade e
concentração estão sendo usadas, aqui, como sinônimos.
∙∗
,
1
∙ log ∙ log
A imagem de saída do processamento descrito acima será o contorno do objeto. Aliás,
serão apresentados dois contornos paralelos. O mais externo representa a entropia a partir do
ponto de vista do fundo. O mais interno representa a entropia a partir do ponto de vista do
objeto. O contorno de interesse é este último. Para se livrar do contorno externo, basta subtrair
a imagem original da imagem entropia. A Figura 5.4 mostra resultado deste processamento
aplicado à imagem de um quadrado preto em fundo branco. Nesta são mostradas as imagens
de saída com dois contornos e a imagem final contendo apenas o contorno interno, o qual é
formado pelos pixels limítrofes do objeto. Vale mencionar que os números mostrados na
ampliação são os valores de entropia, os quais correspondem aos ângulos 180º e 90º da Tabela
5.1.
PROPOSTA DO DETECTOR EML 111
Figura 5.4 – Imagem entropia gerada pelo EML na escala mais baixa de operação. A parte superior é a imagem resultante com contorno duplo, e sua região de vértice ampliada. A parte inferior contém apenas o
contorno do objeto e a ampliação da região do vértice.
Após a detecção dos pixels de maior entropia, os quais compõem o contorno do
objeto, resta selecionar aqueles que representam os vértices das concavidades e convexidades
existentes nesta escala. Os dois intervalos de valores de entropia que representam essas
saliências de contorno são respectivamente:
0,58 , 0,50
1 , 0,787
O produto final desta fase é uma lista contendo os valores compreendidos nesses intervalos,
bem como suas coordenadas espaciais. Esses pontos são os candidatos a pontos dominantes.
112 PROPOSTA DO DETECTOR EML
5.3 Fase 2 – computação multiescala dos candidatos
O esquema multiescala adotado no EML aplica-se somente aos candidatos a ponto
dominante. Cada candidato é observado em seis escalas adicionais, suas entropias são
computadas e anexadas à lista de candidatos criada na primeira fase.
A janela quadrada de dimensões 3x3 é a menor janela que apresenta simetria em torno
do pixel central (possui dimensões ímpares). Esta abriga o núcleo de menor escala ( = 0,5)
usado no EML. Adotou-se o critério de que a janela do núcleo seguinte deveria ser
(aproximadamente) o dobro da anterior. Esta decisão não é baseada cientificamente, apenas
define uma padronização. No entanto, não se pode negar que houve influência das pirâmides
Gaussianas e Laplacianas descritas, por exemplo, em Burt e Adelson (1983) e Lowe (2004).
Embora, ao contrário destas, a pirâmide aqui utilizada é criada a partir do ponto de vista do
tamanho da abertura de observação, e não do tamanho da imagem que se reduz com a
distância. Assim foram gerados núcleos para as seguintes janelas: 5x5, 9x9, 17x17, 35x35,
71x71 e 143x143, cujas escalas são, respectivamente, 0,8333; 1,5; 2,8333; 5,8333; 11,8333 e
23,8333. A relação janela-escala foi discutida no capítulo 4 e obedece à relação
“largura_da_janela = 6”. As dimensões da janela de maior escala (143x143)
correspondem, aproximadamente, à metade do tamanho médio das imagens que foram
utilizadas nos experimentos (em torno de 300 x 300 pixels).
Nesta fase o funcionamento do EML se restringe a:
1. Utilizar as coordenadas dos candidatos para localizá-los na imagem original;
2. Gerar suas vizinhanças de acordo com as dimensões das janelas dos núcleos e
3. Computar suas entropias seguindo o método usado na primeira fase.
5.4 Fase 3 – análise da evolução dos candidatos através das escalas
Antes de iniciar a explicação do funcionamento da fase 3, é necessário que se faça
algumas observações a respeito das distorções produzidas pela acomodação de objetos à grade
digital.
Ao observar o comportamento do gráfico apresentado na Figura 5.3, percebe-se que a
entropia de uma mesma configuração angular varia de uma escala para outra. A partir da
equação da entropia de Shannon (SHANNON, 1948), a qual é baseada em probabilidades,
deduz-se que tal comportamento não está correto. No EML, as probabilidades são traduzidas
PROPOSTA DO DETECTOR EML 113
como quantidades de preto e branco contidas em uma vizinhança circular. Quando esta
vizinhança está centrada na fronteira, obrigatoriamente, haverá duas partes, dois setores. Um
preto e outro branco. A expansão ou contração de tal vizinhança, mantendo a sua
configuração angular constante, não pode alterar a razão entre os setores, ou melhor, o peso
probabilístico de cada setor não pode ser alterado. Isto está ilustrado na Figura 5.5. Tal ideia
parece não estar de acordo com os valores crescentes de entropia de uma escala para outra.
Qual será a causa dessa discrepância?
Ao se observar o comportamento das entropias dos ângulos 90Diag e 90º, e dos
ângulos 180Diag e 180º, percebe-se que quanto maior é a escala, mais próximas se tornam as
entropias das versões diagonal e horizontal/vertical. Quanto maior é a escala, maior é o
tamanho do núcleo e consequentemente maior é a quantidade de pixels para representá-lo.
Como cada pixel representa uma subdivisão para abrigar um peso probabilístico, a precisão na
representação do núcleo aumenta. Em outras palavras, há uma maior granularidade dos pesos,
permitindo um melhor ajuste dos mesmos à forma circular. Então, o aumento de escala causa
aumento de precisão na aproximação da distribuição circular. Este mesmo efeito é válido para
a aproximação dos setores circulares.
Figura 5.5 – Diferentes escalas de uma mesma configuração angular. Não importa a escala, a área do setor
preto equivale a ¼ da área do círculo.
Supõe-se, então, que essa variação nos valores de entropia é causada pela acomodação
à grade digital. Assim, decidiu-se eliminar esse efeito. Para isso, assume-se que os valores de
entropia para os ângulos padrão devam se manter constantes através das escalas. Isto pode ser
feito, por exemplo, elegendo-se o valor da entropia da última escala como o “valor correto”,
obrigando todos os valores obtidos nas escalas anteriores a serem “empurrados” para cima
114 PROPOSTA DO DETECTOR EML
através da multiplicação por um fator. Este é obtido pela razão entre a entropia da última
escala (143x143) e cada uma das entropias das escalas anteriores (5x5 a 143x143). A razão é
computada para cada ângulo padrão separadamente. Esta correção foi efetuada nos ângulos
padrão que representam convexidades.
Para os ângulos padrão que representam concavidades fez-se o inverso. Os valores
foram puxados para baixo, igualando-os ao valor obtido na escala 5x5 ( = 0,8333). A Tabela
5.2 apresenta os fatores de correção para os ângulos padrão.
Os valores de entropia dos candidatos são corrigidos com base na classificação feita na
escala 3x3 ( = 0,5). Por exemplo, se um candidato detectado na escala 3x3 possui um valor
de entropia igual ao do ângulo padrão 135º, então seus valores de entropia em escalas mais
altas serão corrigidos com o fator135 da Tabela 5.2.
Tabela 5.2 – Fator de correção de entropia por ângulo e escala.
Fator de correção
5x5 9x9 17x17 35x35 71x71 143x143
Fator45 1,031045 1,019863 1,00956 1,00419 1,001359 1 Fator90D 1,030874 1,026231 1,014348 1,006671 1,002252 1 Fator90 1,087072 1,048944 1,022924 1,010087 1,003312 1 Fator135 1,090093 1,059446 1,029928 1,013556 1,004527 1 Fat180D 1,077215 1,065561 1,03588 1,016739 1,005673 1 Fat180HV 1 0,917869 0,864219 0,838058 0,824249 0,817478 Fator225 1 0,929636 0,866857 0,833808 0,816025 0,807234 Fator270 1 0,967317 0,890643 0,845384 0,820614 0,808275
Aqui, a análise multiescala se destina a caracterizar a saliência de um ponto
(candidato) baseando-se nas suas variações de entropia ao longo das escalas. O aumento de
escala aumenta a vizinhança incluindo novos pixels, o que produz modificações em sua
configuração angular.
Tais modificações ocorrem até mesmo em figuras geométricas bem definidas. Seja,
por exemplo, o vértice do retângulo preto sobre fundo branco mostrado na Figura 5.6, onde os
anéis concêntricos representam as escalas de observação. Percebe-se que do menor anel até
aquele identificado pelo número 4, os setores circulares permanecem constantes em 90º (o
setor de cor preta). Porém, o quinto e o sexto anéis apresentam um aumento considerável de
área branca, alterando as concentrações (ou probabilidades) das duas cores e,
PROPOSTA DO DETECTOR EML 115
consequentemente, modificando o valor de entropia. O gráfico da Figura 5.7 mostra essa
variação refletida nos valores de entropia (já corrigidos pela Tabela 5.2).
Figura 5.6 – O vértice de um retângulo observado através de seis janelas circulares. As janelas 5 e 6 apresentam variações na configuração angular em relação às quatro janelas menores, as quais se mantêm
constantes em 90º.
Figura 5.7 – Variação de entropia do vértice observado na Figura 5.6.
É interessante notar que o aumento de espaço (fundo branco), que ocorre nos anéis 5 e
6 da Figura 5.6, se assemelha ao aumento de volume de um recipiente. É comum encontrar na
literatura sobre entropia, por exemplo, em Ben-Naim (2007), experimentos indicando que o
aumento de volume de um recipiente contendo gás ideal produz aumento de entropia. Tanto
na imagem, quanto no gás, o aumento de entropia acontece devido ao aumento de
microestados. O item 3.3 pode esclarecer tal ideia.
116 PROPOSTA DO DETECTOR EML
O objetivo desta terceira fase é analisar a evolução da entropia de cada candidato, a
fim de obter dados válidos que permitam realizar um julgamento justo a respeito de sua
saliência.
Com o aumento de escala, uma estrutura pode revelar-se como um pequeno detalhe,
que rapidamente perde a sua saliência, ou como uma característica com importância mais
global, a qual mantém a sua saliência por várias escalas.
Um ruído, ou pequeno detalhe, situado numa borda em linha reta apresenta forte
saliência nas escalas mais baixas, porém sua saliência é drasticamente reduzida com o
aumento da escala. Neste caso o aspecto global da região (reta) facilita a detecção do ruído.
No entanto, os “ruídos” podem aparecer em qualquer tipo de região. Quando o ruído e
a região possuem comportamentos semelhantes, por exemplo, quando um ruído convexo está
localizado numa convexidade, a sua saliência é intensificada com o aumento de escala. Em
casos extremos, a saliência do ruído pode superar a do ponto dominante verdadeiro. O mesmo
pode ocorrer com pequenas estruturas côncavas situadas em uma concavidade mais global.
Assim, por mais sutis que possam parecer, deve-se analisar todas as modificações
causadas na saliência (variações de entropia) de uma estrutura. Isto significa que as
informações pertencentes às diferentes escalas são importantes para escolher os bons
candidatos a pontos dominantes. Isto tornou necessário analisar o comportamento de cada
candidato e confrontá-lo com o comportamento de pontos dominantes reais obtidos via
ground-truth10. A seguir são apresentados alguns exemplos de como a inclusão de
informações de escalas mais altas podem interferir na saliência das estruturas.
A Figura 5.8 compara a evolução de dois pontos dominantes convexos e seus
respectivos vizinhos, que são pequenas estruturas convexas situadas em regiões convexas. Em
d, o eixo das escalas inicia na escala 5x5 representada por 1 e termina na escala 143x143
representada por 6. O ponto dominante1, na escala 3x3 (não representada) possui
configuração angular idêntica ao ângulo padrão 90Diag (item 2 da Figura 5.1). A entropia
desta configuração inicial evoluiu suavemente para um valor, que representa o aspecto global
da região, um ângulo em torno de 73° (medido sem muita precisão). Na vizinhança do
dominante1 encontra-se o ruído1, o qual, na escala 3x3, foi classificado como um ângulo de
90°. Esta pequena estrutura tende a perder a sua saliência, pois é apenas um detalhe em uma
borda em linha reta. Sua entropia deveria decair até o valor que representa 180°, porém em
meio ao decaimento, a entropia cresce até atingir um valor que representa um ângulo mais 10 Ground-truth ou verdade absoluta são pontos marcados por observadores humanos. Em geral, são eleitos os pontos que receberam o maior número de votos.
PROPOSTA DO DETECTOR EML 117
agudo que 90°. Isto ocorre devido à influência exercida pela configuração global da região.
Em geral, um ruído tende a perder sua saliência, mesmo momentaneamente, antes de tirar
proveito das características globais da região observada.
O par (determinante2, ruído2) possui comportamento semelhante ao do par anterior. O
determinante2 foi classificado inicialmente como um ângulo de 135°, por isso tem um
crescimento acentuado da 1ª à 3ª escala, e a partir desta começa a estabilizar no ângulo global
da região (75°).
Figura 5.8 – Evolução multiescala de convexidades: ponto dominante versus ruído. a) Imagem original com marcações de duas regiões convexas; b) e c) Ampliações das regiões convexas indicadas em a; d) Evolução em
escala dos pontos dominantes e seus respectivos vizinhos ruidosos.
A Figura 5.9 mostra a perda de saliência de pequenas estruturas convexas situadas em
bordas retas. O gráfico mostra, até à quinta escala (71x71), um comportamento decrescente e
idêntico para os dois pontos rotulados como ruído1 e ruído2. Desta escala em diante os
valores voltam a crescer e com intensidades distintas. O crescimento ocorre devido à região
em linha reta apresentar, superiormente, uma mudança em sua inclinação. Numa escala
superior à mencionada, a vizinhança é composta, também, por parte desta região inclinada, o
118 PROPOSTA DO DETECTOR EML
que reduz a proporção de pixels pretos em relação aos pixels brancos. O resultado é uma
entropia mais alta. Visto que o ruído1 está mais próximo dessa inclinação, os pesos ocupados
pelos pixels brancos são ligeiramente mais significativos11.
Figura 5.9 – Evolução multiescala de ruídos convexos localizados em borda em linha reta.
Na Figura 5.10 são comparados os comportamentos multiescala do ponto dominante
de uma região côncava e de um ruído côncavo vizinho. Inicialmente, na escala 3x3 (não
representada), o ponto dominante foi classificado como uma configuração angular de 270°
(item 8 da Figura 5.1). Com o aumento da escala a configuração local foi se ajustando à
configuração global da região côncava, a qual possui um ângulo aproximado de 290°.
Em relação à pequena estrutura côncava (ruído), esta é limitada pelos pixels rotulados
como ruído1 e ruído2. Ambos podem servir como vértice da estrutura. Inicialmente, ambos
foram classificados como vértices de uma configuração angular de 225° (item 7 da Figura
5.1). O aumento paulatino da escala incluiu mais pixels brancos do que pretos, fazendo com
11 Isto ocorre devido à distribuição do núcleo ser circularmente simétrica, com os valores dos pesos diminuindo do centro para a periferia.
PROPOSTA DO DETECTOR EML 119
que a entropia aumentasse e se aproximasse cada vez mais da configuração de 180° (reta).
Porém, em torno da quarta escala, a janela do núcleo de convolução iniciou a inclusão de
pixels pretos pertencentes ao lado oposto da abertura, o que trouxe para baixo os valores de
entropia.
No caso de concavidades, o aumento de entropia significa perda de saliência. A perda
de saliência inicial pode indicar que o ponto observado se trata de um ruído.
Figura 5.10 – Evolução multiescala de concavidades: ponto dominante versus ruído.
As Figuras 5.6 a 5.10 demonstram o comportamento comum de estruturas submetidas
ao processamento multiescala. Em geral, uma estrutura mantém a sua configuração angular,
mais ou menos, inalterada enquanto as suas dimensões forem maiores, ou iguais às dimensões
do núcleo de convolução. Quando o núcleo se torna maior que a estrutura, esta tende a se
“ajustar” à configuração angular da sua região hierarquicamente superior. Isto é, o aspecto da
região maior, onde se situa a estrutura, é quem ditará o comportamento nas próximas escalas
de observação. Por exemplo, na Figura 5.9 as pequenas estruturas convexas só se mantiveram
“ativas” na escala inicial. Nas escalas seguintes, o decaimento de saliência foi ditado pela
região em linha reta onde se situavam tais estruturas.
120 PROPOSTA DO DETECTOR EML
Embora em muitos casos a estrutura seja maior, ou do mesmo tamanho que o núcleo
de convolução, o percurso multiescala dos valores de entropia pode destoar do esperado.
Percebeu-se que além da interferência hierárquica mencionada no parágrafo acima, existe a
interferência entre estruturas adjacentes, que altera a quantidade de pixels de objeto envolvida
pelo núcleo de convolução, e consequentemente altera os valores de entropia. Na imagem
usada pelas Figuras 5.8-5.10 a interferência adjacente é mínima, o que é mostrado na Figura
5.11.
Figura 5.11 – Interferência de regiões adjacentes no comportamento multiescala.
Na Figura 5.11, a circunferência inscrita em um quadrado representa o núcleo de
convolução ajustado à janela quadrada 143x143, que é a maior escala utilizada pelo EML.
Esta janela está centrada no vértice de uma região convexa, envolvendo-a quase que
totalmente, bem como uma parte da estrutura adjacente, a qual está realçada com uma textura
diferente e indicada como área de interferência. Isto significa que ao computar a entropia do
vértice nesta escala, parte dos pixels que formam a estrutura adjacente será incluída no
cálculo. Embora a área realçada pareça ser significativa, nesta escala, os pesos que a
compõem possuem valores extremamente baixos, que variam de 10-8 a 10-6. Assim, o peso
PROPOSTA DO DETECTOR EML 121
total da área de interferência não alcança 0,1% do peso total. Então, pelo menos para o vértice
observado, a interferência adjacente não causa problemas.
A Figura 5.12 mostra um exemplo mais representativo da ação das interferências.
Nesta são apresentados os comportamentos dos pontos de maior saliência de uma região
(turbina do avião): o ponto dominante de uma extremidade e “seu gêmeo”, o ponto dominante
da outra extremidade e dois ruídos centrais.
Com as Figuras já apresentadas (5.6 a 5.10), percebe-se que para gerar um valor capaz
de representar um candidato a ponto dominante é necessário que se combine informações de
todas as escalas. O somatório das entropias de cada escala, a princípio, parece ser uma boa
solução. Pelo menos, para os ângulos padrão, esta solução funciona bem, principalmente para
a criação de limiares para aceitar ou rejeitar os ângulos dos candidatos. No entanto, a
aplicação dessa totalização nos pontos da Figura 5.12 faz com que os ruídos sejam mais
salientes em comparação a um dos pontos dominantes, devido aos seus totais serem mais
altos.
Desta maneira, percebe-se que não se pode aplicar a totalização de entropias sem um
tratamento prévio. As figuras anteriores também ajudaram a perceber que as estruturas
pequenas tendem a apresentar decaimentos de saliência nas escalas iniciais. Assim, bastaria
identificar se um candidato possui crescimento negativo nessas escalas (escalan+1 – escalan).
No entanto, isto não pode ser considerado uma regra. Para constatar, basta observar o
comportamento do ponto determinante2 na Figura 5.12. Visivelmente, este ponto é o centro
de uma configuração de 90°, porém, com o crescimento inicial da escala, a região composta
pelos dois ruídos é abrangida pelo núcleo de convolução, o que aumenta a quantidade de
pixels pretos na configuração e, consequentemente, reduz o valor da entropia. Tal
comportamento inicial é semelhante ao comportamento de ruídos. Sendo assim, a exclusão de
candidatos que apresentem decaimento inicial, também é uma solução que não pode ser
aplicada diretamente.
122 PROPOSTA DO DETECTOR EML
Figura 5.12 – Interferência de regiões adjacentes na comparação de candidatos.
A circunferência centrada no ponto dominante1, apresentada na Figura 5.12, está
representando a quarta escala (35x35). Para os pontos dominante1 e gêmeo, que estão mais
próximos à fuselagem do avião, a quarta escala é a primeira a sofrer interferências dessa
região, como se pode constatar no gráfico da figura. Os outros três pontos só recebem
interferências significativas a partir da quinta escala. Isto deixa o ponto dominante1 e seu
gêmeo em desvantagens. Para piorar a situação, os ruídos têm decaimentos comparáveis ao
decaimento do dominante2, impedindo que sejam excluídos. Para este caso, a única solução
encontrada para evitar que ruídos sobrepujem pontos dominantes é compará-los usando
apenas as escalas que não sofrem interferências de regiões adjacentes. Ou seja, a cada
candidato se associa o número da última escala livre dessa interferência. Assim, quando
chegar o momento de determinar a dominância de uma região (na fase-4 do EML), as
entropias do grupo de candidatos em disputa serão totalizadas somente até a menor escala
livre de interferências de regiões adjacentes encontrada no grupo.
As ações utilizadas no EML para a criação de um valor justo para a representação de
candidatos são as seguintes:
PROPOSTA DO DETECTOR EML 123
1. Verificar se a queda de saliência nas três primeiras escalas é maior do que os limiares
definidos empiricamente para cada uma delas (para a exclusão de ruídos);
2. Verificar se há queda significativa de saliência nas últimas escalas;
3. Informar a última escala livre de interferência de regiões adjacentes;
4. Totalizar as escalas úteis e verificar se esta representa um ângulo significativo.
O objetivo do item-1 é excluir os candidatos que representam pequenas estruturas
(ruídos). Tais candidatos apresentam forte redução de saliência inicial (nas escalas 1, 2, e 3).
A escolha dos limiares, que definem o que é uma “forte redução”, se baseou na observação do
comportamento multiescala de diversos candidatos dominantes e não dominantes. Os valores
escolhidos para os limiares não são ótimos, mas apresentam bom funcionamento. O valor para
a “forte redução” é relativo à quantidade e à combinação de escalas envolvidas. Isto é, quanto
menor o número de escalas que apresente decaimento de saliência, mais tolerante se torna o
limiar.
Os itens 2, 3 e 4 trabalham em conjunto na tentativa de não incluir interferências
externas à região em estudo. É como se isolasse tal região do restante da imagem para avaliar
seus pontos de forma equânime.
Da mesma maneira como foi feito no item-1, no item-2 buscou-se a compreensão do
que seria uma “forte redução”, a fim de se determinar limiares adequados para aceitar ou não
a inclusão de uma, ou mais escalas finais. Isto é feito da terceira escala (17x17) em diante.
Estruturas menores que 17 pixels são consideradas muito pequenas pelo EML.
Uma vez que as escalas úteis são identificadas, realiza-se o somatório de suas
entropias e identifica-se o total obtido com o número da última escala útil incluída na
operação. Esta identificação é necessária em duas operações posteriores. Numa delas a
identificação é usada para determinar qual limiar será usado para aceitar ou rejeitar o
candidato. A outra operação faz parte da fase-4 do EML, quando os candidatos a ponto
dominante de uma região são comparados entre si.
Além de se excluir candidatos por serem identificados como ruídos, também se
excluem aqueles que não apresentam um ângulo significativo. Para convexidades, o EML
considera ângulos significativos aqueles com valor igual ou menor que 135°. Para
concavidades, os ângulos precisam ser iguais ou maiores que 225°. A totalização dos valores
de entropia desses ângulos é feita de acordo com a informação sobre a última escala útil do
candidato em estudo. Por exemplo, se a última escala livre de interferências de um candidato
124 PROPOSTA DO DETECTOR EML
convexo for a escala-4, o limiar utilizado para averiguar a sua aceitação será construído
somando-se os valores de entropia da primeira à quarta escala do ângulo padrão 135°.
Visto que os ângulos 135° e 225° podem ser muito restritivos e, também, pela
existência de incerteza na precisão dos ângulos dos candidatos, foram criados parâmetros de
tolerância para abrandar os limiares.
O algoritmo usado é baseado em instruções estáticas convencionais, resultando numa
grande quantidade de instruções de desvio condicional (IF/ELSEIF), em especial na
implementação do item-1. Deve-se reconhecer que a melhor estratégia seria o uso de técnicas
de aprendizagem automática, o que será considerado em futuras versões deste detector.
Em suma, o primeiro procedimento é manter separados os candidatos convexos e os
candidatos côncavos, pois o decaimento de saliência funciona de forma inversa para cada tipo.
Para convexidades, o decaimento de entropia de uma escala para outra reflete a perda de
saliência. Para concavidades a perda de saliência ocorre quando há aumento de entropia.
O núcleo desta fase é a análise de decaimentos de saliência. O comportamento dos
decaimentos influencia diretamente na construção do valor final que representa o candidato.
As funções do algoritmo desenvolvido para a fase 3 são:
1. Detectar decaimentos de saliência;
2. Verificar a quantidade de decaimentos;
3. Verificar como os decaimentos estão arranjados ao longo das escalas, isto é, se estão
organizados de forma adjacente ou intercalados, se estão concentrados nas escalas
iniciais ou finais;
4. Verificar a magnitude dos decaimentos;
5. Somar as entropias do candidato, levando-se em conta os aspectos observados nos
itens anteriores;
6. Comparar a soma obtida no item 5 com um limiar;
7. Aceitar ou rejeitar o candidato baseado na comparação acima.
5.5 Fase 4 – determinação dos pontos dominantes
A entrada para esta fase é uma lista contendo os candidatos mais prováveis a pontos
dominantes. Esta é composta pelas coordenadas de cada candidato, seis valores de entropia
(um para cada escala), um número indicando a última escala útil, e a totalização das entropias
até a escala indicada.
PROPOSTA DO DETECTOR EML 125
O procedimento básico é selecionar um candidato da lista, definir uma região de
disputa em torno deste, verificar se há outros candidatos que possuem coordenadas na região e
eleger o candidato mais saliente como o ponto dominante.
Em relação à definição da região de disputa, existem dois problemas a serem
resolvidos. Um é como definir o tamanho da região. O outro é definir o tipo de região, isto é,
se é bidimensional ou unidimensional.
A definição do tamanho da região foi solucionada fornecendo-se um parâmetro para o
usuário interagir com o EML, indicando o tamanho desejado em pixels. Em relação ao tipo de
região, optou-se pelo tipo unidimensional, visto que pode ocorrer disputa entre candidatos de
regiões adjacentes ao se utilizar janelas 2D. Sendo assim, nesta fase ocorre extração de
contornos.
Possuindo-se a lista de candidatos definitivos, o valor do parâmetro (j) que determina
o tamanho da região e a lista de coordenadas que compõem o contorno da imagem, os passos
seguintes são:
Escolher um candidato da lista;
Localizar o candidato no contorno;
Verificar se na região de tamanho j (onde o candidato escolhido é o centro) há outros
candidatos;
Comparar os candidatos e escolher o dominante.
Devido às regiões de disputa (j) serem construídas a partir da localização dos
candidatos, existe a possibilidade de que se sobreponham parcialmente umas às outras. Isto
torna necessária a ordenação das listas de candidatos. A ordenação deve ser feita pela entropia
total (nas seis escalas). No caso dos candidatos convexos a ordenação é crescente e no caso de
candidatos côncavos a ordem é decrescente. Se a comparação de candidatos for feita de
maneira aleatória, será maior a chance de que um candidato mais fraco seja eleito como
dominante. A Figura 5.13 esboça essa ideia, onde está havendo a comparação entre três
candidatos. O ponto central está localizado na interseção entre duas regiões. A ordem em que
são feitas as comparações influencia no resultado final.
Iniciar as comparações pelos candidatos com menor saliência evita que se cometa
injustiça na eleição do ponto dominante. Lembrando-se que no caso de convexidades, os
candidatos de menor saliência apresentam menor entropia. Nas concavidades, menor saliência
126 PROPOSTA DO DETECTOR EML
significa maior entropia. Por isso a ordenação da lista de convexos deve ser inversa a dos
côncavos.
Figura 5.13 – A sequência das comparações interfere no resultado. Se a sequência das comparações iniciar em A e seguir para B, o resultado será a eleição de dois pontos dominantes. Se a sequência for de B para A, só
haverá um único dominante.
Considerando-se a lista de candidatos já ordenada, o processo de determinação dos
pontos dominantes funciona da seguinte maneira:
1. Seleciona-se da lista de candidatos o menos saliente;
2. Localiza-se o candidato no contorno;
3. Define-se a região de disputa: j/2 pixels antes do candidato e j/2 pixels depois;
4. Cria-se um grupo com todos os candidatos que têm coordenadas na região de disputa;
5. Verifica-se qual é o candidato do grupo que possuí a menor escala útil;
6. Totalizam-se as entropias, de cada candidato do grupo, até a menor escala útil;
7. Exclui-se da lista de candidatos, aquele que foi eleito o menos saliente;
8. Repete-se o procedimento (1-7) até que todos os candidatos da lista tenham sido
examinados. Os que não forem excluídos são os pontos dominantes.
Para finalizar este capítulo, são apresentados os resultados de cada fase do EML. A
Figura 5.14 apresenta o resultados dos candidatos computados no fim da fase 2 (item a) e da
PROPOSTA DO DETECTOR EML 127
fase 3 (item b). A fase 3 garante a redução da quantidade de candidatos, deixando apenas os
mais prováveis para disputar a dominância das regiões. Deve-se perceber que no item b, todos
os candidatos se concentram em áreas côncavas ou convexas.
Figura 5.14 – Saídas das fases 2 e 3 do EML: a) Saída da fase-2, todos os candidatos; b) Saída da fase-3,
apenas os candidatos prováveis a pontos dominantes.
Figura 5.15 – Fase-4: pontos dominantes eleitos.
128 PROPOSTA DO DETECTOR EML
5.6 Conclusão do capítulo
Neste capítulo foi descrito o funcionamento do EML, um detector de corners de
contornos, o qual se baseia na medição das modificações causadas pelo processo de
suavização multiescala de imagens binárias. A medição utilizada pelo detector é a entropia de
Shannon.
A forma circular dos núcleos de convolução, o tipo de imagem utilizada (binária) e o
tipo de corner em estudo (situado em contornos) permitiram a construção de uma relação
entre ângulos de setores circulares e a entropia produzida pela suavização dos mesmos.
Além do funcionamento do detector, foram expostos os diferentes problemas
enfrentados em cada fase e como foram solucionados. Por exemplo, as distorções causadas
pela grade de amostragem e as interferências entre regiões em virtude do aumento de escala.
Este último se assemelha ao problema conhecido por escala natural de curvas, discutido em
Rosin (1998).
Capítulo 6 – Proposta do detector CLP
6.1 Introdução
A criação do detector baseado na computação local de pesos , o CLP, deriva dos
estudos realizados sobre difusão e entropia durante o desenvolvimento do detector EML
(descrito no capítulo 5). O núcleo desses dois assuntos é a concentração de substâncias. O
efeito da difusão é a dissolução das concentrações, e a entropia é usada para medir a difusão
com base nas concentrações existentes. Assim, supôs-se que a concentração de uma
substância é a principal informação e, por isso, seria possível descartar a computação do
logaritmo que compõe a equação de entropia, reduzindo a complexidade computacional do
algoritmo do detector. Ou seja, o CLP é, basicamente, o EML que não computa logaritmos.
No caso de imagens binárias, entende-se por concentração a quantidade de objeto
presente numa dada vizinhança. As concentrações de objeto e fundo são complementares. A
concentração de objeto depende da quantidade e da localização dos pesos ocupados pelos
pixels do objeto dentro da vizinhança. Os pesos são distribuídos espacialmente, respeitando a
distribuição circularmente simétrica do núcleo de convolução. Os termos concentração, peso e
probabilidade são tratados, aqui, como sinônimos.
O CLP é composto pelas mesmas quatro fases que compõem o EML. São elas:
1. Computação do peso na escala mais baixa – O núcleo de convolução ajustado a uma
janela 3x3 é deslocado pixel a pixel pela imagem. A distribuição de probabilidades do
núcleo é usada para determinar o peso do objeto contido na vizinhança 3x3. O peso
encontrado é usado para classificar o pixel como reta, candidato convexo ou côncavo.
2. Computação multiescala dos candidatos – As coordenadas dos candidatos, obtidos na
fase anterior, são usadas como ponteiros para que apenas estes sejam observados em
escalas mais altas. Assim, para cada candidato é computado o seu peso considerando-
se vizinhanças maiores, com distribuição de pesos baseada em núcleos maiores. Então,
para cada candidato é produzida uma lista contendo seus pesos computados em uma
quantidade finita de escalas.
3. Análise da evolução do candidato através das escalas – A lista produzida na fase-2 é
analisada com o objetivo de verificar possíveis decaimentos de saliência. Nesta fase
são separados os verdadeiros candidatos daqueles que representam pequenos detalhes
130 PROPOSTA DO DETECTOR CLP
ou ruídos. A saída desta fase é uma lista dos possíveis pontos dominantes com seus
respectivos pesos e coordenadas espaciais.
4. Determinação dos pontos dominantes – O objetivo é determinar as regiões que
possuem mais de um provável ponto dominante e compará-los para que reste apenas
um em cada região.
O CLP utiliza os mesmos ângulos padrão que o EML, os quais são mostrados na
Figura 5.1 (capítulo 5). Os pesos multiescala de tais ângulos são mostrados na Tabela 6.1. A
Figura 6.1 mostra o comportamento multiescala dos pesos dos ângulos padrão. Tanto a Tabela
6.1, quanto a Figura 6.1 representam os valores originais, os quais necessitam ser
linearizados. A Figura 6.2 apresenta a versão linearizada da evolução multiescala dos pesos.
A Tabela 6.2 informa o valor do fator de linearização que deve ser aplicado a cada candidato
em cada escala. Para escolher o fator, faz-se exatamente como no EML, verifica-se qual é o
ângulo do candidato na escala 3x3.
Com o uso de pesos, em vez de entropia, a relação com os ângulos fica bem mais
intuitiva. Por exemplo, quanto menor o peso, menor é o ângulo. A Figura 6.3 reflete esta
ideia.
Tabela 6.1 – Ângulos padrão e seus pesos em 7 escalas diferentes.
Ângulo Pesos de Referência
3x3 5x5 9x9 17x17 35x35 71x71 143x143(1) 45o 0,62500 0,62050 0,60470 0,58700 0,57600 0,56940 0,56600
(2) 90o Diag. 0,63990 0,66110 0,65670 0,64460 0,63600 0,63070 0,62790
(3) 90o 0,73510 0,70500 0,67760 0,65450 0,64100 0,63320 0,62910
(4) 135o 0,75000 0,74550 0,72970 0,71200 0,70100 0,69440 0,69100
(5) 180o Diag. 0,76490 0,78610 0,78170 0,76960 0,76100 0,75570 0,75290
(6) 180o H/V 0,86010 0,83000 0,80260 0,77950 0,76600 0,75820 0,75410
(7) 225o 0,87500 0,87050 0,85470 0,83700 0,82600 0,81940 0,81600
(8) 270o 0,88990 0,91110 0,90670 0,89460 0,88600 0,88070 0,87790
PROPOSTA DO DETECTOR CLP 131
Figura 6.1 – Comportamento multiescala dos ângulos padrão (sem correção).
Figura 6.2 – Comportamento multiescala dos ângulos padrão (linearizados).
132 PROPOSTA DO DETECTOR CLP
Tabela 6.2 – Fatores para a linearização de pesos.
Classe do candidato Na escala 3x3
Valor do Fator por Escalas 5x5 9x9 17x17 35x35 71x71 143x143
45o 0,9121676 0,936001 0,964225 0,982639 0,994029 1
90o Diag. 0,9497807 0,956144 0,974092 0,987264 0,99556 1
90o 0,8923404 0,928424 0,961192 0,981435 0,993525 1
135o 0,9268947 0,946965 0,970506 0,985735 0,995104 1
180o Diag. 0,9577662 0,963157 0,9783 0,989356 0,996295 1
180o H/V 0,9085542 0,939571 0,967415 0,984465 0,994592 1
225o 0,9373923 0,954721 0,97491 0,987893 0,995851 1
270o 0,9635605 0,968236 0,981332 0,990858 0,996821 1
Figura 6.3 – Relação ângulo – peso do objeto (preto). Quanto maior é o ângulo, maior é o peso.
Pode-se perceber pelas Figuras 6.1, 6.2 e 6.3 que há uma inversão no comportamento
dos valores em relação ao EML. Agora, as convexidades têm valor baixo (pois têm menos
objeto) e as concavidades têm valores altos. Para converter o algoritmo do EML em CLP,
além da modificação do cálculo de entropia por cálculo de pesos, foi necessário refazer os
PROPOSTA DO DETECTOR CLP 133
limiares para se adequarem ao comportamento invertido. A Figura 6.4 faz uma comparação
entre o gráfico da entropia e o gráfico de pesos. Ambos representam a evolução multiescala
dos mesmos pontos mostrados na Figura 5.12. Basta rebater um dos gráficos em relação ao
eixo horizontal para obter o outro gráfico.
Figura 6.4 – Evolução multiescala: entropia versus peso. a) Gráfico da entropia copiado da Figura 5.12; b)
Gráfico da evolução dos pesos, relativos aos mesmos pontos da Figura 5.12.
134 PROPOSTA DO DETECTOR CLP
A Tabela 6.3 apresenta os ângulos padrão com seus valores já linearizados.
Tabela 6.3 – Ângulos padrão ajustados pelo fator de linearização.
Ângulo Pesos de Referência
5x5 9x9 17x17 35x35 71x71 143x143 (1) 45o 0,566 0,566 0,566 0,566 0,566 0,566
(2) 90o Diag. 0,6279 0,6279 0,6279 0,6279 0,6279 0,6279
(3) 90o 0,6291 0,6291 0,6291 0,6291 0,6291 0,6291
(4) 135o 0,691 0,691 0,691 0,691 0,691 0,691
(5) 180o Diag. 0,7529 0,7529 0,7529 0,7529 0,7529 0,7529
(6) 180o H/V 0,7541 0,7541 0,7541 0,7541 0,7541 0,7541
(7) 225o 0,816 0,816 0,816 0,816 0,816 0,816
(8) 270o 0,8779 0,8779 0,8779 0,8779 0,8779 0,8779
Todas as considerações e suposições feitas na terceira fase do EML (item 5.4),
também, são válidas para o CLP, incluindo interferências entre regiões adjacentes e busca
pela escala adequada para comparar os candidatos de uma mesma região. Também é válido,
aqui, o que foi feito na quarta fase do EML (item 5.5), a ordenação dos candidatos antes de
compará-los. Por isso, tais descrições não serão repetidas aqui. No entanto, é válido que
algumas ideias sejam reapresentadas. São elas:
Decaimentos de saliência nas escalas iniciais podem indicar ruídos. Porém, isto não é
uma regra, pois bons pontos podem ter decaimentos iniciais. A escolha dos limiares
que excluirão tais estruturas precisa ser feita cuidadosamente. Tornando necessário o
estudo de uma grande quantidade de pontos em diferentes imagens, a fim de entender
as diferenças entre os bons e maus candidatos.
Decaimentos nas escalas finais podem indicar que a estrutura é menor que essas
escalas, ou está sofrendo interferências de estruturas adjacentes. Aqui também é
necessário avaliar cuidadosamente a magnitude desses decaimentos. Pequenas
flutuações não devem ser consideradas.
Uma vez que esses decaimentos forem determinados, deve-se prover o candidato com
a última escala usada na totalização de seus valores multiescala. Candidatos de uma
mesma região estão sujeitos às mesmas influências, porém algum pode ser
influenciado mais intensamente. Assim, na disputa pela dominância de uma região é
PROPOSTA DO DETECTOR CLP 135
necessário totalizar até a escala do candidato mais influenciado, isto é, aquele que tem
a sua existência limitada pela menor escala. Por exemplo, na Figura 6.4 alguns
candidatos sobrevivem até a quinta escala. Outros sobrevivem até a quarta escala. Ao
compará-los é necessário que, antes, todas as totalizações sejam feitas até a quarta
escala.
Em termos de algoritmos computacionais, a terceira fase do CLP difere do EML. No
detector baseado em entropia foi usada uma abordagem mais complexa, onde se tentou
representar todas, ou quase todas as combinações de variações que os candidatos poderiam
apresentar ao longo das escalas. Isto gerou uma grande quantidade de instruções de desvio
aninhadas. Na terceira fase do CLP são realizadas as seguintes ações:
1. Linearização dos candidatos – aplicação da Tabela 6.2
2. É verificado se a saliência do candidato se mantém suficientemente forte em cada uma
das seis escalas. Isto é, o peso em cada escala é comparado com um limiar obtido
empiricamente, o qual embute uma tolerância de 2,5% em relação aos pesos dos
ângulos de 135° e 225°. No EML há um parâmetro de tolerância disponível ao
usuário. No CLP optou-se por fixá-la em 2,5% de acordo com os experimentos
realizados.
a. Para convexidades, o peso em cada escala deve ser menor que 1,025 do peso
do ângulo de 135°.
b. Para concavidades, o peso em cada escala deve ser maior que 0,975 do peso do
ângulo de 225°.
3. Para os candidatos não reprovados é verificado se houve decaimento significativo de
saliência nas escalas 5 e 6.
a. Se o decaimento for fraco, as seis escalas do candidato são totalizadas.
b. Se o decaimento for significativo, computa-se a média até a última escala sem
decaimento (escala 4 ou 5), a qual é multiplicada por seis para simular a
totalização.
c. Este passo (3) é executado para evitar que bons candidatos sejam excluídos no
passo 4. Em geral, decaimentos abruptos nas escalas finais indicam
interferências de estruturas adjacentes.
4. A totalização das escalas de cada candidato é comparada a um limiar obtido
empiricamente.
136 PROPOSTA DO DETECTOR CLP
a. Para convexidades, a totalização das escalas deve ser menor que 1,023 da
totalização do ângulo de 135°.
b. Para concavidades, a totalização das escalas deve ser maior que 0,99 da
totalização do ângulo de 225°.
5. Para os candidatos que restarem, verifica-se o decaimento de saliência nas escalas 1 a
4. Tais decaimentos podem indicar que a estrutura em observação é um “ruído”. Os
limiares usados foram obtidos experimentalmente.
a. Para convexidades a queda acumulada não pode ultrapassar o valor 0,31.
b. Para concavidades a queda acumulada não pode ser menor que o valor -0,17 e
a média do candidato tem que ser superior ao peso do ângulo de 225°.
As respostas dos detectores EML (entropia) e CLP (peso) são quase idênticas. A
Figura 6.5 mostra a comparação de suas respostas. Para a imagem da aeronave, todos os
pontos coincidem.
Figura 6.5 – Saída da quarta fase dos detectores EML e CLP.
O CLP não utiliza parâmetros de tolerância para os limiares escolhidos, isto é, os
limiares são fixos e idênticos para todas as imagens. Isto pode tornar o CLP mais permissivo,
deixando que mais candidatos sejam aceitos para a fase de disputa de dominância, como é o
caso da Figura 6.6. Nos itens a e b desta imagem, o parâmetro que define a região de disputa
para candidatos convexos foi ajustado em 11 pixels. No EML, essa distância de 11 pixels foi
o suficiente para escolher um único dominante na região. Uma consequência negativa da
PROPOSTA DO DETECTOR CLP 137
fixação do parâmetro de tolerância é a possibilidade de que candidatos localizados em regiões
não salientes sejam aceitos para a fase de disputa de dominância. A solução, então, é gerar
grandes regiões de disputa, para que os bons candidatos possam eliminar os maus candidatos
remanescentes. No item c da Figura 6.6, o tamanho da região de disputa foi ajustado em 50
pixels, o que permitiu a eliminação de quase todos os maus candidatos apontados no item b.
Figura 6.6 – “Divergências” entre detectores EML e CLP: a) e b) distância de disputa ajustada em 11 pixels;
c) distância de disputa ajustada em 50 pixels.
6.2 Conclusão do capítulo
Neste capítulo é descrito o funcionamento do CLP, um detector de corners de
contornos, o qual se baseia na computação do peso probabilístico da região do objeto
abarcada pelo núcleo de convolução. O CLP deriva do EML (detector descrito no capítulo 5)
e apresenta vantagens sobre este, são elas:
Funcionamento mais intuitivo, pois o peso do objeto é diretamente proporcional ao
espaço que ocupa dentro da vizinhança. Na entropia, essa relação é inversamente
proporcional.
Não há computação de logaritmos, reduzindo o esforço computacional.
138 PROPOSTA DO DETECTOR CLP
As vantagens descritas acima não se relacionam com a essência do método, isto é,
medir a modificação causada pela suavização. Neste sentido, os detectores têm o mesmo
comportamento. Outro aspecto que os diferencia está na forma de analisar seu comportamento
multiescala. A decisão de reduzir parâmetros de entrada (tolerâncias de decaimentos de
saliência), fixando-os de acordo com limiares obtidos experimentalmente tem a vantagem de
aumentar a automatização do funcionamento. Porém, maus candidatos, cujas localizações
estão distantes das regiões salientes, podem ser aceitos para a fase de disputa de dominância.
As consequências podem ser a necessidade de se aumentar exageradamente a região de
disputa e a admissão de falsos positivos. Isto pode tornar o CLP menos preciso que o EML.
PROPOSTA DO DETECTOR CLP 139
Capítulo 7 – Proposta do detector DoG_zero.
7.1 Introdução
Os primeiros testes realizados com o EML mostraram que a computação da entropia
causava a extração de bordas, basta observar a Figura 5.4. Haja vista a existência de
detectores de bordas derivativos, como o Laplaciano da Gaussiana, imaginou-se que poderia
haver uma relação matemática entre a entropia e a derivação. Deve-se confessar que muito
tempo infrutífero foi dedicado à busca dessa relação.
No entanto, ao se concentrar no significado físico das expressões “diferença de
Gaussianas” e “entropia produzida”, concluiu-se que são maneiras distintas de se quantificar
as modificações produzidas pela suavização Gaussiana.
Uma imagem binária sofre modificações quando suavizada por uma Gaussiana. De
acordo com que já foi mencionado nos capítulos 3 e 4, tais modificações se concentram ao
longo das fronteiras entre o fundo e o objeto. Nesses mesmos capítulos, foi visto que a
entropia é uma ferramenta adequada para detectar modificações causadas por suavização.
Na mesma situação descrita acima, isto é, uma imagem binária e a sua versão
suavizada, se for computada a subtração entre elas, o resultado será o mesmo que o da
entropia. Devido às diferenças nos processos matemáticos, os valores computados pela
entropia e pela subtração são distintos, porém identificam exatamente as mesmas regiões
modificadas pela suavização.
Neste capítulo está sendo proposto um detector multiescala baseado em diferença de
Gaussianas. Porém, uma das parcelas da subtração é a imagem original. Esta ideia já foi
discutida no capítulo 4, em especial nos itens 4.3 e 4.4. A Figura 7.1 mostra o resultado da
diferença entre uma imagem binária suavizada com Gaussiana (=0,5) e a sua versão original
não suavizada. Percebe-se a intensidade mais forte nos pontos mais salientes, por exemplo,
nos cantos das turbinas, no bico da aeronave e em todos os “ruídos convexos”.
142 PROPOSTA DO DETECTOR DoG_zero
Figura 7.1 – Resultado da diferença: “imagem suavizada (=0,5) – imagem original”.
A Figura 7.2 apresenta a resposta da DoG para seis escalas adicionais, as mesmas
empregadas nos detectores propostos nos capítulos anteriores. Deve-se observar que a
subtração da imagem original garante a exata localização dos pixels do contorno,
independentemente da escala considerada.
Figura 7.2 – Resultado da diferença: “imagem suavizada– imagem original” em seis escalas diferentes. a)
=0,8333; b) =1,5; c) =2,8333; d) =5,8333; e) =11,8333; f) =23,8333.
PROPOSTA DO DETECTOR DoG_zero 143
Para facilitar, este detector será chamado de “DoG_zero”. O seu funcionamento básico
se assemelha aos outros apresentados nos capítulos anteriores. As saliências são detectadas na
escala mais baixa, verifica-se a sua evolução multiescala e, então, compara-se os candidatos
que ocupam uma mesma região a fim de se determinar os pontos dominantes.
O DoG_zero tem fortes influências biológicas, então, pretende-se manter uma certa
fidelidade ao possível funcionamento dos campos receptivos das células ganglionares da
retina. O básico desta fidelidade é não supor a existência de inteligência nesse nível, isto é, as
células não são capazes de discernir, a partir dos sinais que chegam às suas entradas, o que é
objeto, ou o que é fundo. Como mencionado no capítulo 4, em relação à capacidade de
detecção de contraste, tais células são classificadas em dois tipos. O tipo off-center que
detecta objeto escuro em fundo claro, e o tipo on-center que detecta objeto claro em fundo
escuro.
Diretamente associado ao tipo de célula ganglionar, pode estar a noção de
convexidade e concavidade. Numa imagem binária, designar o que é concavidade ou
convexidade depende do referencial adotado. O vértice de uma concavidade escura pode ser
também, o vértice de uma convexidade clara, ou vice-versa. Por exemplo, na Figura 7.3, quais
são as concavidades e quais são as convexidades? Da mesma forma, qual região representa o
objeto e qual região representa o fundo? É bem possível que este seja o tipo de problema
enfrentado pela retina. A ideia, então, é detectar o que for mais relevante e deixar para os
estágios superiores do processamento visual, a decisão sobre o que é objeto, ou o que é o
fundo, num processo conhecido por figure-ground organization (WAGEMANS, 2015).
Neste estágio do sistema visual (retina), o mais relevante é a detecção de respostas
fortes de contraste. As respostas de contraste dos campos receptivos costumam ser modeladas
por diferença de Gaussianas (DoG). No caso do detector DoG_zero, as respostas fortes de
contraste identificam ângulos estreitos, ou altas curvaturas (vértices de convexidades claras ou
escuras), como pode ser visto na Figura 7.4.
O esquema on-center / off-center fornecido pelas células ganglionares resolve o
problema da detecção de contraste negativo e positivo, e, também, a dualidade concavidade/
convexidade. Em relação à eletrofisiologia das células ganglionares é possível que esse
esquema facilite a criação de um código neural imune ao ambiente ruidoso do nervo óptico,
porém não é relevante para esta tese.
O detector DoG_zero incorpora o esquema on-center / off-center através da simples
comutação das parcelas de subtração. Para detectar as convexidades escuras (ou concavidades
claras) faz-se a subtração “imagem suavizada - imagem original” e para detectar as
144 PROPOSTA DO DETECTOR DoG_zero
convexidades claras (ou as concavidades escuras) faz-se a subtração “imagem original -
imagem suavizada”.
Figura 7.3 – Concavidade versus convexidade.
Figura 7.4 – Comportamento multiescala das respostas do DoG_zero para os ângulos padrão: a) valores
não linearizados; b) valores linearizados.
PROPOSTA DO DETECTOR DoG_zero 145
A Figura 7.5 apresenta o resultado do DoG_zero para a imagem da Figura 7.3. Em
7.5.a é mostrada a resposta do esquema off-center, que marca mais intensamente os vértices
das convexidades escuras, que coincidem com os vértices das concavidades claras. Em 7.5.b é
mostrada a resposta do esquema on-center, que marca mais intensamente os vértices das
convexidades claras, que coincidem com os vértices das concavidades escuras.
Outra indicação da dualidade convexidade/concavidade está na existência de dois
contornos, ou duas fronteiras. Um contorno é interno, o qual é formado pelos pixels
pertencentes ao objeto. O outro é externo, formado pelos pixels do fundo. Por exemplo, em
7.5.b, as circunferências vermelhas mostram as convexidades do contorno externo, as quais
estão deslocadas um pixel para cima em relação aos “mesmos pontos” (concavidades da
região preta) em 7.5.a.
Figura 7.5 – Resposta do DoG_0 para a imagem da Figura 7.3: a) convexidades da saída off-center; b)
convexidades da saída on-center.
146 PROPOSTA DO DETECTOR DoG_zero
Ao admitir a hipótese de que a visão biológica possa seguir a ideia de detecção de
convexidades exposta acima, o leitor poderá indagar-se a respeito da possibilidade da não
detecção, caso a imagem da cena não seja projetada sobre os detectores corretos.
Visto que os campos receptivos estão fixos (hardwired) na retina, se a cena não for
projetada exatamente sobre o tipo correto de detector de contraste, isto é, se o contraste
negativo for projetado “erroneamente” sobre as células on-center e o contraste positivo sobre
as células off-center, haverá a probabilidade de que os vértices das convexidades não sejam
detectados.
Contudo, para reduzir tal preocupação, pode ser dito que nos últimos anos tem havido
um interesse crescente em entender as vibrações que ocorrem no olho (MARTINEZ-CONDE;
OTERO-MILLAN; MACKNIK, 2013; TIAN; CHEN, 2015; MEYBERG et al., 2015).
Algumas pesquisas observaram que os movimentos microsacádicos podem estar relacionados
com a tentativa de “encaixar” a cena nos circuitos corretos. Em Martinez-Conde, Macknik e
Hubel (2000) observou-se que os sinais transmitidos pelas células ganglionares são mais
representativos após os movimentos microsacádicos.
7.2 Funcionamento do DoG_zero
Exatamente como foi feito nos detectores propostos nos capítulos anteriores, detecta-
se os pontos candidatos na escala mais baixa. Neste, uma Gaussiana com desvio padrão de
meio pixel (=0,5) é adaptada a uma janela quadrada de dimensões 3x3 pixels. Com este
núcleo, suaviza-se a imagem binária.
O próximo passo é obter os candidatos a vértices das convexidades da região preta e
da região branca. Para o primeiro caso utiliza-se o método off-center, que é implementado
através da subtração da “imagem suavizada - imagem original”. Para o segundo caso, utiliza-
se o método on-center, efetuando-se a subtração “imagem original – imagem suavizada”. Para
cada caso cria-se uma lista de candidatos aos vértices das convexidades. As listas serão
compostas pelos pontos que apresentarem valores superiores ao valor que representa o ângulo
de 180° (180Diag), o qual está listado na Tabela 7.1. Os valores desta tabela estão
representados graficamente na Figura 7.4.a.
PROPOSTA DO DETECTOR DoG_zero 147
Tabela 7.1 – Ângulos padrão e suas DoG_zero para 7 escalas diferentes.
Ângulo Respostas DoG_zero
3x3 5x5 9x9 17x17 35x35 71x71 143x143 (1) 45o 0,2855 0,5839 0,7345 0,8072 0,8439 0,8601 0,8677 (2) 90o Diag. 0,2741 0,5224 0,6378 0,695 0,7245 0,7377 0,744 (3) 90o 0,2017 0,4528 0,599 0,6744 0,7145 0,7328 0,7415 (4) 135o 0,1903 0,3913 0,5023 0,5622 0,5951 0,6104 0,6178 (5) 180o Diag. 0,179 0,3299 0,4055 0,45 0,4757 0,488 0,494 (6) 180o H/V 0,1065 0,2603 0,3667 0,4294 0,4657 0,4831 0,4916 (7) 225o 0,0952 0,1988 0,27 0,3172 0,3463 0,3607 0,3679 (8) 270o 0,0838 0,1373 0,1733 0,2049 0,2269 0,2383 0,2441
Uma vez que os candidatos estão identificados, o procedimento de subtração on-center
e off-center é repetido para núcleos Gaussianos de escalas maiores (= 0,8333; 1,5; 2,8333;
5,8333; 11,8333 e 23,8333) adaptados a janelas quadradas de dimensões maiores (5x5, 9x9,
17x17, 35x35, 71x71 e 143x143). Lembrando-se que a subtração é sempre feita entre a
imagem suavizada e a imagem original. Os valores dos candidatos nas novas escalas são
incluídos nas listas.
A próxima fase é a de analisar a evolução de cada candidato através da escala. Para
amenizar a complexidade dessa análise, são usadas as mesmas facilitações discutidas nos dois
detectores propostos nos capítulos 5 e 6. Uma é a “linearização” dos valores, isto é,
transformar as curvas do gráfico apresentado na Figura 7.4.a em segmentos de retas que
compõem o gráfico da Figura 7.4.b. A outra facilitação é deixar de incluir a escala inicial
(3x3) na análise multiescala.
Para obter a linearização, o valor de cada escala de um candidato é multiplicado por
um determinado fator de correção. O conjunto de fatores de correção usado para um dado
candidato é decidido de acordo com a classificação angular que o candidato obteve na escala
3x3. Ou seja, o candidato quando é detectado na escala mais baixa, ele possui um dos quatro
valores listados na primeira coluna da Tabela 7.1, que corresponde a um dos ângulos 45°,
90Diag, 90° ou 135°. Nesta escala, uma convexidade só pode possuir um desses quatro
valores. Tal restrição foi discutida no início do capítulo 5. Sabendo-se a classificação do
candidato, escolhe-se o conjunto de linearização. A Tabela 7.2 apresenta esses fatores de
correção. Esta tabela apresenta valores de correção para não convexidades, porém não são
usados.
148 PROPOSTA DO DETECTOR DoG_zero
Tabela 7.2 – Fator de correção de resposta DoG_zero por ângulo e escala.
Fator de correção
5x5 9x9 17x17 35x35 71x71 143x143
Fator45 1,486042 1,181348 1,07495 1,028202 1,008836 1 Fator90D 1,424196 1,16651 1,070504 1,026915 1,00854 1 Fator90 1,637588 1,237896 1,099496 1,037789 1,011872 1 Fator135 1,57884 1,229942 1,098897 1,038145 1,012123 1 Fat180D 1,497423 1,218249 1,097778 1,03847 1,012295 1 Fat180H 1,88859 1,340605 1,144853 1,055615 1,017595 1 Fator225 1,850604 1,362593 1,159836 1,062374 1,019961 1 Fator270 1,777859 1,40854 1,191313 1,075804 1,024339 1
Toda a complexidade relatada no item 5.4 é válida aqui também. A Figura 7.6 faz uma
comparação entre o gráfico da entropia e o gráfico do DoG_zero. Ambos representam a
evolução multiescala dos mesmos pontos mostrados na Figura 5.12. Uma parte da figura
contendo os candidatos foi reproduzida para facilitar a observação.
Figura 7.6 – Evolução multiescala: entropia versus DoG_zero. a) Gráfico da entropia copiado da Figura 5.12;
b) Gráfico da evolução DoG_zero, relativos aos mesmos pontos da Figura 5.12.
PROPOSTA DO DETECTOR DoG_zero 149
O algoritmo desenvolvido para avaliar a evolução multiescala dos candidatos no
DoG_zero difere dos algoritmos usados no EML e no CLP. Consequentemente, podem surgir
diferenças na detecção dos pontos dominantes, embora sejam mínimas. Porém, deve-se
insistir que tais diferenças independem da teoria básica envolvida nos três detectores. A
diferença está na forma como são interpretadas as variações de valores multiescala.
O algoritmo da análise multiescala do DoG_zero é composto de três partes. A primeira
realiza a totalização dos valores multiescala dos candidatos, mas desconsiderando qualquer
tipo de interferência que possa favorecer, ou desfavorecer o candidato. A segunda parte
computa as perdas de saliência sofridas pelo candidato e a terceira verifica a velocidade da
perda inicial de saliência. A seguir, essas três partes são discutidas mais detalhadamente.
Totalização dos valores multiescala
A direção de uma função pode ser determinada pelo sinal de sua derivada. A mudança
de direção pode ser indicada pela troca do sinal da derivada, isto é, nos pontos de mínimos
locais ou de máximos locais. Por exemplo, o gráfico da evolução do candidato dominante2 na
Figura 7.6.b pode ser encarado como uma função, a qual decai suavemente da escala 1 para a
escala 3, onde atinge um mínimo local. A partir deste, a função cresce até um máximo na
escala 5 e, então, decresce vertiginosamente para escala 6, onde atinge o seu mínimo global.
O alto valor inicial do ponto dominante2 é consequência do ângulo de 90°. O
decaimento suave que este sofre se deve a inclusão dos pixels ruído_A e ruído_B na janela do
núcleo. O crescimento a partir da escala 3 se deve à maior quantidade de pixels de fundo12,
em relação à quantidade de objeto, envolvida pela janela do núcleo. O decaimento final é
devido à janela de alta escala envolver boa parte da estrutura da asa e da fuselagem,
aumentando consideravelmente a quantidade de objeto no interior da janela.
No relato acima está implícito que a interferência da vizinhança local (ruído_A e
ruído_B) é válida, isto é, faz parte da estrutura observada (turbina). No entanto, as variações
posteriores na direção da função indicam interferências de estruturas adjacentes (aumento da
quantidade de objeto ou de fundo). Estas devem ser evitadas para que uma dada estrutura do
objeto seja avaliada isoladamente.
Assim, computa-se a derivada de cada candidato (diferenças entre as escalas) e
determina-se a primeira modificação do sinal (mínimo local ou máximo local). O valor do 12 Deve-se perceber que o DoG_zero tem o mesmo comportamento do EML, quanto mais fundo (menos objeto) presente na vizinhança, mais convexa se torna a região do objeto.
150 PROPOSTA DO DETECTOR DoG_zero
mínimo local, ou do máximo local é, então, repetido nas escalas seguintes. Isto é, o valor do
extremo é propagado até a última escala. O total do candidato é a soma dos valores anteriores
ao extremo local com as repetições desse extremo. A Figura 7.7 mostra como ficou o gráfico
da Figura 7.6.b após a repetição dos extremos. Observe como o comportamento final dos
pontos dominantes ficou semelhante, assim como a dos candidatos considerados como ruídos.
Figura 7.7 – A propagação do primeiro extremo aplicada à Figura 7.6.b: a) evolução multiescala original; b)
modificação usando a propagação do primeiro extremo detectado em cada candidato.
PROPOSTA DO DETECTOR DoG_zero 151
Deve-se notar que a propagação de extremos busca uma maneira de tornar mais justa a
disputa pela dominância de uma região. A função da totalização é a de criar um valor único
para que os candidatos possam ser confrontados entre si, bem como para criar um limiar
capaz de excluir os candidatos menos salientes. Neste detector é disponibilizado um
parâmetro para que o usuário ajuste o limiar (o parâmetro de tolerância usado no EML e
abolido no CLP). Quando menor é o limiar, mais permissivo ele é, mais candidatos são
admitidos para a disputa, inclusive candidatos que se encontram distantes das regiões
convexas (ou côncavas). Tal distância pode comprometer a disputa, de forma a não incluir o
candidato distante no confronto e, assim, aceita-lo como dominante de uma região não
saliente. A solução (não desejável) seria estender o tamanho da região de disputa a fim de
eliminá-lo.
Mesmos os ruídos podem ter valores representativos, por exemplo, os ruídos A e B da
Figura 7.7.b são considerados bons candidatos, pois se mantém tão salientes quanto um
ângulo de 135°. Os ruídos que apresentam valores altos somente são eliminados durante a
disputa pela dominância, isto se os mesmos estiverem próximos a uma saliência real, para
serem enquadrados pela janela de disputa.
Não é raro encontrar ruídos que possuam boa totalização multiescala e se encontrem
distantes de uma saliência real. Por isso, foi necessário buscar novas maneiras de eliminá-los.
O DoG_zero inclui duas novas avaliações. Uma computa o acúmulo de perdas de saliência de
cada candidato e a outra computa a velocidade desta perda entre a primeira e a segunda
escala.
Acúmulo de perdas de saliência
Observou-se que as primeiras escalas definem a validade de um candidato, pois estas
delimitam a vizinhança local, os limites da estrutura observada. Com base nisto, detecta-se o
valor mínimo das quatro primeiras escalas e computa-se a diferença entre o valor da escala
inicial e esse mínimo. Em média, um bom candidato tem perdas abaixo de 0,05, mas não é um
valor ideal para ser transformado em um limiar para todas as imagens, assim, o acúmulo de
perdas é comparado com um parâmetro ajustável, que na maioria das vezes terá o valor 0,05.
152 PROPOSTA DO DETECTOR DoG_zero
Velocidade de decaimento
Em geral, o decaimento de saliência de um ruído é mais acentuado do que o de um
bom candidato, principalmente na evolução da primeira para a segunda escala. Então,
computa-se a diferença entre o valor da segunda escala e o da primeira e compara-se a um
limiar. Em geral, para os ruídos, a magnitude dessa diferença é maior que 0,05. Então, este é
mais outro parâmetro ajustável utilizado pelo DoG_zero.
A Figura 7.8 apresenta o resultado do uso dos três parâmetros de eliminação de
“maus” candidatos. O item a da figura é o resultado da totalização baseada em propagação de
extremos utilizando o limiar 3,58. Todos os pontos dominantes marcados num ground-truth
estão presentes nessa imagem, bem como outros não dominantes, incluindo ruídos afastados
de saliências reais, os quais estão apontados por setas. Estes últimos não poderiam ser
eliminados num confronto de disputa de dominância, exceto se fosse usada uma janela de
disputa muito grande, o que poderia eliminar pontos dominantes de outras regiões. O item b
da figura mostra o resultado da eliminação de candidatos que possuem acúmulo de
decaimento superior a 0,05. Com este limiar, os ruídos distantes foram eliminados, porém
pontos dominantes verdadeiros (do ground-truth) também foram excluídos (apontados pelas
setas). A avaliação baseada em velocidade de decaimento não surtiu efeitos neste exemplo.
Figura 7.8 – Resultados do algoritmo de avaliação multiescala: a) contém os candidatos que possuem totalização superior a 3,58; b) contém os candidatos que possuem decaimento acumulado abaixo de 0,05.
PROPOSTA DO DETECTOR DoG_zero 153
Como pode ser percebido a partir da Figura 7.8, ainda não se obteve uma interpretação
ideal a respeito da evolução multiescala. É comum encontrar pontos do ground-truth que
possuem as mesmas propriedades de candidatos que não foram escolhidos como dominantes.
Isto obriga a fazer escolhas: ou se considera o “ruído” como um ponto dominante, ou deixa-se
de marcar o ponto dominante que possui as mesmas propriedades do ruído. A Figura 7.9
ilustra bem essa ideia. Deve-se notar que o comportamento nas quatro primeiras escalas é o
mesmo e os ângulos dos pontos são muito próximos (138° e 134°), aliás, o ângulo do ruído é
mais saliente. Os parâmetros utilizados pelo DoG_zero são incapazes de distinguir tais
pontos.
A subjetividade do julgamento humano, a capacidade de decidir quais parâmetros são
adequados numa dada posição da imagem, a liberdade de usar parâmetros diferentes em outra
posição da imagem, incapacitam a construção de decisões artificiais que se comparem às
decisões humanas, pelo menos, da maneira de como os estudos foram conduzidos para
interpretar a evolução multiescala dos candidatos. É possível que o uso de alguma técnica de
machine learning obtenha um melhor desempenho.
Figura 7.9 – Semelhanças entre pontos do ground-truth e ruídos.
154 PROPOSTA DO DETECTOR DoG_zero
Na construção dos detectores EML e CLP foram escritos algoritmo diferentes para a
detecção de convexidades e para a detecção de concavidades. No DoG_zero é utilizado o
mesmo algoritmo, pois só se detecta convexidades. Porém, se detecta as convexidades do
objeto e as convexidades do fundo. Assim, tudo o que é feito para o objeto é feito para o
fundo, no entanto os valores dos parâmetros não são idênticos. Por exemplo, para se detectar
os bons candidatos de fundo da imagem apresentada na Figura 7.8, foi utilizado o limiar de
totalização igual a 3,50 e limiar de decaimento = 0,05. A Figura 7.10, mostra os pontos
detectados. Nesta imagem, o decaimento acumulado e a velocidade de decaimento não
surtiram efeito na eliminação de candidatos. Todos os candidatos estão bem localizados e
produzirão, após a disputa, pontos dominantes idênticos aos apontados pelo ground-truth.
Decisão sobre a dominância
Uma vez que todos (ou quase todos) os maus candidatos foram eliminados, resta,
apenas, comparar os bons candidatos e decidir quem é o ponto dominante de uma dada região
da imagem.
O algoritmo adotado aqui é o mesmo utilizado no EML e no CLP. A única diferença é
a necessidade da extração de dois contornos. O contorno do objeto e o contorno do fundo. Os
candidatos a vértices de convexidades do objeto são identificados no contorno do objeto.
Então, estipula-se uma janela unidimensional com centro em cada candidato, por exemplo,
seis pixels antes do candidato e seis pixels depois. Dentro deste intervalo averígua-se a
existência de outros candidatos e suas totalizações são comparadas. O mais fraco é
eliminado.
Como foi explicado no EML, no item 5.5, há a preocupação de que o posicionamento
da janela obedeça a uma ordem crescente. Isto é, a janela é colocada, primeiro, sobre o
candidato com a menor totalização, depois no candidato com a segunda menor totalização e
assim sucessivamente, até que chegue a vez do candidato com a maior totalização. Este
procedimento evita que eliminações fora de ordem excluam pontos dominantes reais.
Os mesmos procedimentos adotados para a determinação de pontos dominantes no
contorno do objeto (convexidades do objeto) são utilizados na determinação de pontos
dominantes no contorno do fundo (concavidades do objeto). A imagem 7.11 mostra o
resultado da detecção de pontos dominantes usando o DoG_zero.
PROPOSTA DO DETECTOR DoG_zero 155
Figura 7.10 – Resultados do algoritmo de avaliação multiescala para as convexidades do fundo branco.
Figura 7.11 – Pontos dominantes detectados pelo DoG_zero. As setas marcam falsos positivos.
156 PROPOSTA DO DETECTOR DoG_zero
7.3 Conclusão do capítulo
Neste capítulo é proposto e descrito o funcionamento do detector DoG_zero, um
detector de corners de contornos baseado no modelo de diferença de Gaussianas (DoG). A
única diferença em relação ao modelo DoG é que uma das parcelas da diferença é a própria
imagem binária (não suavizada).
A diferença entre uma imagem binária e sua versão suavizada revela as modificações
causadas pela suavização da imagem, as quais são mais intensas nas protuberâncias convexas,
que podem ser do fundo ou do objeto. Para detectar cada tipo, basta comutar as parcelas da
diferença.
Indiretamente este capítulo sugere um modelo para as células ganglionares da retina,
mostrando que estas teriam a capacidade de detectar convexidades ao longo de fronteiras
entre regiões claras e escuras.
As respostas do detector DoG_zero e do detector EML não são idênticas devido às
diferenças no algoritmo que interpreta o comportamento multiescala. Porém, no que se refere
ao cerne dos detectores, isto é, todo o processo anterior às decisões multiescala, as respostas
só diferem nos valores, porém o comportamento é idêntico. Isto indica que a suavização pode
ser imprescindível (na visão biológica) para a detecção de corners ao longo da fronteira entre
regiões contrastantes.
Capítulo 8 – Resultados
8.1 Introdução
Este capítulo apresenta os resultados obtidos com a aplicação dos detectores de
corners (EML, CLP e DoG_Zero), propostos nesta tese, em um conjunto de imagens binárias.
Este conjunto totaliza cinquenta e nove imagens diferentes e foi montado a partir da
combinação de três bases de imagens distintas. Destas, oito imagens foram utilizadas em
vários experimentos ao longo dos últimos quarenta anos e podem ser obtidas em Sarfraz
(2008), juntamente com seu o ground truth e os resultados de comparações entre alguns
detectores que as utilizaram. Das cinquenta e uma imagens restantes, vinte foram extraídas da
base de imagens em MPEG-7 (2013) e trinta e uma extraídas de Gestalt ReVision (2016). A
combinação de diferentes bases de imagens gerou um conjunto bastante heterogêneo, cujos
objetos contidos nas imagens possuem tamanhos variados. As imagens maiores, em geral
possuem “ruídos” maiores, o que pode levar os detectores a não desprezá-los.
Neste capítulo são conduzidos três testes. O primeiro busca mostrar a equivalência nas
respostas dos três detectores. O segundo compara as respostas dos três detectores com um
ground truth, cujo objetivo é averiguar a semelhança entre suas respostas e as respostas de
observadores humanos. No terceiro teste, outro ground truth é confrontado com as respostas
dos detectores propostos e de outros detectores publicados na literatura de visão
computacional.
8.2 Comparando as saídas dos detectores propostos
O objetivo principal da tese é mostrar que a suavização Gaussiana, em imagens
binárias, fornece tudo o que é necessário para se detectar curvaturas ao longo das fronteiras
entre fundo e objeto. O processo de suavização “marca” com intensidades distintas as
características encontradas ao longo do contorno (concavidades, segmentos de reta e
convexidades) essenciais para o entendimento de formas. Os detectores EML, CLP e
DoG_zero são três maneiras distintas para ler tais marcações.
Esses detectores possuem o mesmo núcleo de convolução. No caso do DoG_zero, o
núcleo embute o método de detecção, o qual é composto de Gaussianas cujas aberturas são as
mesmas usadas na construção dos outros dois detectores. Nos capítulos 6 e 7, principalmente
158 RESULTADOS
em relação às Figuras 6.4 e 7.6, afirmou-se que as respostas dos três métodos seriam muito
próximas. Assim, este teste tem a função de mostrar essa semelhança. Se dois detectores
quaisquer realizam eficientemente suas funções, suas respostas devem ser semelhantes, porém
imagina-se que os erros de detecção não sejam os mesmos, exceto se trabalharem sobre a
mesma base teórica.
O funcionamento dos três detectores propostos se baseia na ideia de quantificação de
suavização. Porém, a interpretação das respostas multiescala pode ser feita de muitas
maneiras diferentes. Ao longo do desenvolvimento dos detectores, muitos algoritmos foram
testados em busca de melhores resultados, porém, ainda não se chegou a um método ideal
capaz de interpretar cada modificação produzida pela suavização multiescala. Cada detector
proposto possui o seu algoritmo próprio para a análise multiescala. Isto dificulta a
comparação com o intuito de mostrar a sua base teórica comum. A ideia, aqui, não é de obter
a melhor detecção de pontos dominantes, mas a de mostrar que até os ruídos detectados são os
mesmos para os três detectores.
As Tabelas 8.1 a 8.4 mostram as respostas coincidentes na detecção de pontos
dominantes (e ruídos não eliminados) para os três detectores. Algumas das respostas são
mostradas na Figura 8.1. Nesta, pode-se observar que a quantidade e a localização dos “erros”
de detecção e dos vértices das regiões convexas são bem semelhantes. A Figura 8.1 está
organizada em colunas, contendo as respostas dos detectores CLP, DoG_zero e EML,
respectivamente.
RESULTADOS 159
Tabela 8.1 – Interseção das respostas dos três detectores Imagem EML CLP DoG_zero Coincidências 002aviao 13 13 13 13 003jacare 17 15 14 14 007braço 8 8 8 8 008seta 5 5 5 5 012machado 6 6 6 6 028pardal 12 9 11 9 049gato 13 10 9 9 106luva 9 9 9 9 d.gif 19 17 17 17 device0-10 22 20 22 20 E.gif 10 11 9 9 f.gif 16 15 15 15 g.gif 21 20 21 20 h.gif 19 17 17 17 shape1.gif 17 17 15 15
Total de pontos detectados = 208 pontos, interseção = 186 pontos -> 89,42%
Tabela 8.2 – Interseção das respostas dos detectores EML e CLP Imagem EML CLP Coincidências 002aviao 13 13 13 003jacare 17 15 15 007braço 8 8 8 008seta 5 5 5 012machado 6 6 6 028pardal 12 9 9 049gato 13 10 10 106luva 9 9 9 d.gif 19 17 17 device0-10 22 20 20 E.gif 10 11 10 f.gif 16 15 15 g.gif 21 20 20 h.gif 19 17 17 shape1.gif 17 17 17
Total de pontos detectados = 208, interseção = 191 pontos -> 91,83%
Tabela 8.3 – Interseção das respostas dos detectores EML e DoG_zero (continua) Imagem EML DoG_zero Coincidências 002aviao 13 13 13 003jacare 17 14 14 007braço 8 8 8 008seta 5 5 5 012machado 6 6 6 028pardal 12 11 11 049gato 13 9 9 106luva 9 9 9 d.gif 19 17 17 device0-10 22 22 22 E.gif 10 9 8
160 RESULTADOS
Imagem EML DoG_zero Coincidências f.gif 16 15 15 g.gif 21 21 21 h.gif 19 17 17 shape1.gif 17 15 15
Total de pontos detectados = 207, interseção = 190 pontos -> 91,79% (conclusão)
Tabela 8.4 – Interseção das respostas dos detectores CLP e DoG_zero Imagem CLP DoG_zero Coincidências 002aviao 13 13 13 003jacare 15 14 14 007braço 8 8 8 008seta 5 5 5 012machado 6 6 6 028pardal 9 11 9 049gato 10 9 9 106luva 9 9 9 d.gif 17 17 17 device0-10 20 22 20 E.gif 11 9 9 f.gif 15 15 15 g.gif 20 21 20 h.gif 17 17 17 shape1.gif 17 15 15
Total de pontos detectados = 197, interseção = 186 pontos -> 94,42%
Figura 8.1 – Semelhança na detecção de vértices de convexidades e ruídos.
RESULTADOS 161
8.3 Comparando as respostas dos detectores propostos com um ground-truth
A precisão de qualquer detector de pontos dominantes só pode ser julgada se as suas
reais posições na imagem forem conhecidas. Um ground-truth foi criado para as cinquenta e
uma imagens utilizadas neste teste. Seis observadores com idades variando de 12 a 60 anos,
incluindo o próprio autor, marcaram os pontos do ground-truth. Os pontos mais votados
foram os escolhidos.
As respostas dos três detectores propostos são confrontadas com esse ground-truth. Os
resultados das comparações são avaliados com as medidas de efetividade precisão, revocação
e acurácia, as quais são representadas pelas equações 8.1, 8.2 e 8.3 respectivamente. O
parâmetro MP é a quantidade de pontos coincidentes entre o detector e o ground-truth, TD é a
quantidade de pontos detectados e GT é a quantidade total de pontos do ground-truth (1143
pontos).
O valor perfeito para a precisão é 1.0, significando que cada ponto detectado é
relevante. No entanto, este valor não possui qualquer significado ao se considerar a detecção
de todos os pontos verdadeiros. Isto é, existe uma grande diferença entre afirmar que todos os
pontos detectados são verdadeiros e afirmar que todos os pontos verdadeiros foram
detectados.
Da mesma forma, o valor perfeito para arevocação é 1.0, significando que todos os
pontos verdadeiros foram detectados. Porém nada é informado a respeito da detecção de
pontos falsos. Assim, realizar comparações entre detectores utilizando, apenas, essas duas
medidas não é ideal.
A medida acurácia (MOKHTARIAN; MOHANNA, 2006) informa o quanto as
respostas do detector estão próximas às respostas do ground-truth. O Valor ideal para a
acurácia é 100%. Este indica que todos os pontos verdadeiros e somente os pontos
verdadeiros foram detectados.
ã (8.1)
çã (8.2)
á 100 ã çã (8.3)
162 RESULTADOS
A Tabela 8.5 apresenta os resultados dessas medidas para os três detectores propostos.
As Tabelas 8.6 a 8.8 apresentam os pontos detectados por imagem e por detector, listando
seus respectivos pontos coincidentes com o ground-truth, bem como os falsos positivos e
falsos negativos. Tais valores são usados na construção da Tabela 8.5.
Tabela 8.5 – Resultados das comparações das respostas dos detectores propostos com o ground-truth. Detector Falsos
Positivos Falsos Negativos
Precisão Revocação Acurácia
DoG_zero 33 127 0,968541 0,888889 92,87% EML 54 160 0,947927 0,860017 90,40% CLP 45 208 0,954082 0,818023 88,61%
Tabela 8.6 – Respostas do detector EML. (continua) Imagem Pontos do Ground-Truth Pontos Coincidentes Falsos Positivos Falsos Negativos
002aviao 25 19 0 6 003jacare 28 22 2 6 004ancor 23 14 4 9 007braço 13 11 0 2 008seta 7 7 0 0 012machado 8 8 0 0 013carrinho 23 20 0 3 024barata 28 26 0 2 028pardal 14 11 1 3 040Borbol 16 15 3 1 043camelo 25 21 5 4 048cenoura 27 23 3 4 049gato 16 13 0 3 088dedo 8 5 0 3 089peixe 20 16 0 4 105oculos 20 11 0 9 106luva 16 14 0 2 112revolver 17 15 1 2 114martelo 8 7 0 1 118chapeu 6 5 0 1 120helicpt 46 41 0 5 126canguru 26 22 0 4 134perna 9 6 0 3 169pinguim 15 12 1 3 174cachimbo 6 5 0 1 176alicate 8 8 0 0 177tomada 14 14 0 0 245guardchuva 12 11 1 1 256moinho 21 21 3 0 258taça 8 7 0 1 bat-4 28 25 0 3 bone-8 20 15 0 5 device0-7 10 10 0 0 device0-8 20 16 0 4 device0-9 20 13 0 7 device0-10 40 40 0 0 device0-11 80 74 0 6
RESULTADOS 163
Imagem Pontos do Ground-Truth Pontos Coincidentes Falsos Positivos Falsos Negativos device0-12 93 81 12 12 device0-13 59 42 5 17 device0-16 20 16 0 4 device0-18 15 15 0 0 device1-4 79 78 5 1 device4-10 4 3 5 1 device5-3 16 16 0 0 elephant-2 33 26 0 7 fish-a026 19 18 0 1 fork-19 22 19 1 3 hammer-11 11 8 0 3 ja3-4 10 10 0 0 key-15 17 16 2 1 misk-11 14 12 0 2 Totais: 1143 983 54 160 (conclusão)
Tabela 8.7 – Respostas do detector CLP. (continua)
Imagem Pontos do
Ground-Truth Pontos
Coincidentes Falsos Positivos Falsos Negativos
002aviao 25 19 0 6 003jacare 28 17 2 11 004ancor 23 14 4 9 007braço 13 11 0 2 008seta 7 7 0 0 012machado 8 8 0 0 013carrinho 23 19 0 4 024barata 28 25 1 3 028pardal 14 11 1 3 040Borbol 16 14 2 2 043camelo 25 18 1 7 048cenoura 27 19 2 8 049gato 16 13 2 3 088dedo 8 4 0 4 089peixe 20 15 0 5 105oculos 20 12 0 8 106luva 16 14 0 2 112revolver 17 15 2 2 114martelo 8 7 0 1 118chapeu 6 4 0 2 120helicpt 46 34 0 12 126canguru 26 22 1 4 134perna 9 6 0 3 169pinguim 15 12 1 3 174cachimbo 6 4 0 2 176alicate 8 6 0 2 177tomada 14 10 0 4 245guardchuva 12 10 1 2 256moinho 21 20 4 1 258taça 8 6 0 2 bat-4 28 24 0 4 bone-8 20 14 0 6 device0-7 10 10 0 0 device0-8 20 16 0 4 device0-9 20 10 0 10 device0-10 40 40 0 0
164 RESULTADOS
Imagem Pontos do
Ground-Truth Pontos
Coincidentes Falsos Positivos Falsos Negativos
device0-11 80 76 0 4 device0-12 93 77 7 16 device0-13 59 44 5 15 device0-16 20 18 0 2 device0-18 15 15 2 0 device1-4 79 76 1 3 device4-10 4 4 4 0 device5-3 16 16 0 0 elephant-2 33 27 2 6 fish-a026 19 14 0 5 fork-19 22 19 0 3 hammer-11 11 7 0 4 ja3-4 10 8 0 2 key-15 17 15 0 2 misk-11 14 9 0 5 Totais: 1143 935 45 208 (conclusão)
Tabela 8.8 – Respostas do detector DoG_zero. (continua) Imagem Pontos do
Ground-Truth Pontos
Coincidentes Falsos Positivos Falsos Negativos
002aviao 25 25 0 0 003jacare 28 23 0 5 004ancor 23 16 3 7 007braço 13 12 0 1 008seta 7 7 0 0 012machado 8 8 0 0 013carrinho 23 20 4 3 024barata 28 23 0 5 028pardal 14 12 0 2 040Borbol 16 14 0 2 043camelo 25 22 1 3 048cenoura 27 22 1 5 049gato 16 14 0 2 088dedo 8 4 1 4 089peixe 20 15 0 5 105oculos 20 11 0 9 106luva 16 14 0 2 112revolver 17 15 1 2 114martelo 8 7 0 1 118chapeu 6 6 0 0 120helicpt 46 38 0 8 126canguru 26 23 0 3 134perna 9 9 0 0 169pinguim 15 13 2 2 174cachimbo 6 6 0 0 176alicate 8 8 0 0 177tomada 14 14 0 0 245guardchuva 12 12 1 0 256moinho 21 21 2 0 258taça 8 8 0 0 bat-4 28 25 1 3 bone-8 20 20 0 0 device0-7 10 10 0 0 device0-8 20 20 0 0
RESULTADOS 165
Imagem Pontos do Ground-Truth
Pontos Coincidentes
Falsos Positivos Falsos Negativos
device0-9 20 20 0 0 device0-10 40 40 0 0 device0-11 80 80 2 0 device0-12 93 77 8 16 device0-13 59 42 0 17 device0-16 20 20 0 0 device0-18 15 15 0 0 device1-4 79 71 1 8 device4-10 4 4 2 0 device5-3 16 16 0 0 elephant-2 33 27 2 6 fish-a026 19 19 1 0 fork-19 22 20 0 2 hammer-11 11 9 0 2 ja3-4 10 10 0 0 key-15 17 17 0 0 misk-11 14 12 0 2 Totais: 1143 1016 33 127 (conclusão)
O ground-truth utilizado neste teste é apresentado no anexo A.
8.4 Comparação entre os detectores propostos e outros disponíveis na literatura
Neste teste é utilizado o ground-truth disponível em Sarfraz (2008), construído para
um conjunto de oito imagens. Tanto os detectores propostos, quanto os detectores que tiveram
seus resultados publicados neste mesmo conjunto de imagens são confrontados com o
ground-truth. A Figura 8.2 apresenta o ground-truth utilizado (as marcações foram
realçadas). As Figuras 8.3 a 8.5 mostram os resultados dos detectores EML, CLP e DoG_zero
respectivamente, porém são mostradas apenas as imagens que não obtiveram resultado
idêntico ao ground-truth.
Os detectores EML, CLP e DoG_zero têm seus resultados comparados com dez
detectores diferentes cujos resultados estão publicados em Zhang et al (2010), Sarfraz (2008),
Sobania e Evans (2005), Chetverikov e Szabo (1999), Smith e Brady (1997), Shi e Tomasi
(1994), Beus e Tiu (1997), Freeman e Davis (1977), Rosenfeld e Weska (1975) e Rosenfeld e
Johnston (1973). Os resultados das comparações estão registrados na Tabela 8.9. Para facilitar
o entendimento, na Tabela 8.9 é registrado o nome do primeiro autor de cada trabalho.
166 RESULTADOS
Figura 8.2 – O ground-truth das oito imagens.
Figura 8.3 – Os erros de detecção do EML. As setas indicam os falsos positivos (FP) e os falsos negativos
(FN).
RESULTADOS 167
Figura 8.4 – Os erros de detecção do CPL. As setas indicam os falsos positivos (FP) e os falsos negativos
(FN).
Figura 8.5 – Os erros de detecção do DoG_zero. As setas indicam os falsos positivos (FP) e os falsos
negativos (FN).
168 RESULTADOS
Tabela 8.9 – Resultados das comparações das respostas de 13 detectores com o ground-truth. Detector Falsos
Positivos Falsos Negativos
Precision Recall Accuracy
DoG_zero 4 3 0,960784 0,970297 96,55% EML 6 3 0,942308 0,970297 95,63% CLP 7 3 0,933333 0,970297 95,18% Sarfraz 7 2 0,9346 0,980392 95,75% Zhang 25 3 0,7984 0,970588 88,45% Chetverikov 27 12 0,7692 0,882353 82,58% Beus 10 29 0,8795 0,715686 79,76% Freeman 15 28 0,8315 0,72549 77,85% Rosenfeld 75 37 25 0,6754 0,754902 71,52% Rosenfeld 73 37 30 0,6606 0,705882 68,32% Sobania 17 10 0,6909 0,791667 74,13% Shi 36 33 0,6571 0,676471 66,68% Smith 464 5 0,1729 0,95098 56,19%
8.5 Discussão
O primeiro teste apresentado no item 8.2 mostra um forte relacionamento entre as
respostas dos três detectores propostos: 89,42% do total de pontos detectados possui a mesma
localização para os três detectores. A princípio, esta porcentagem pode parecer baixa, porém é
necessário considerar a diferença nos intervalos numéricos utilizados por cada detector. A
seleção dos pontos é baseada em limiares, o que define a quantidade de pontos aceitos como
corners. Embora se tenha buscado por uma equivalência entre os limiares adotados nos
detectores, não se obteve uma perfeita interpretação de como funciona a variação numérica
dentro de cada intervalo. Por exemplo, todas as comparações onde o EML está presente, a
quantidade de pontos coincidentes é menor (89,43%, 91,83% e 91,79% contra 94,42%).
Conjectura-se que a função logarítmica utilizada na equação de entropia seja responsável por
modificar a velocidade em que os números variam dentro do intervalo, tornando difícil obter
um limiar proporcional aos usados nos outros detectores.
O segundo e o terceiro testes apresentados nos itens 8.3 e 8.4, mostraram bons
resultados ao serem comparados com seus respectivos ground-truth. A maneira de como
utilizar e combinar as informações multiescala interfere diretamente na escolha dos pontos
dominantes. Por exemplo, na Figura 8.6 reproduz-se a imagem F do ground-truth, todos os
três detectores deixaram de mostrar o ponto dominante indicado pela letra X. Este ponto é
visível aos três detectores, porém possui uma vida útil curta, sua saliência decai quase
totalmente a partir da terceira escala (17x17). Deve-se observar que o ponto em questão é o
vértice de uma pequena convexidade, a qual está imersa em uma concavidade, significando
que toda a estrutura adjacente a esta região interfere negativamente em sua evolução
RESULTADOS 169
multiescala. Uma das funções do algoritmo é permitir, ou não, que pontos desse tipo sejam
aceitos. A implementação utilizada nestes testes não admite pontos com esse comportamento,
o que não significa a incapacidade de detectá-lo. O funcionamento dos três métodos parte da
escala mais baixa para a mais alta, isto significa que qualquer pequeno ruído é detectado. Os
limiares adotados definem quais os pontos permanecerão “vivos” até o momento da disputa
pela dominância. A Figura 8.7 mostra a evolução multiescala do ponto X nos três detectores.
Alguns fatores podem influenciar na construção do ground-truth, como a vivência de
cada observador, as instruções dadas aos observadores de como devem ser escolhidos os
pontos, a subjetividade e a liberdade de decisão humana.
Como um exemplo de vivência do observador é apresentado a Figura 8.8. Nesta é
mostrada a ampliação de parte da imagem H do ground-truth (Figura 8.2). Um observador
com boas noções de simetria, ou um aeromodelista, teria muita resistência em marcar o ponto
A como o ponto dominante da região (o ponto A foi o escolhido para o ground-truth), o mais
provável é que escolhesse o ponto B. Em versões anteriores do algoritmo para a análise
multiescala, o ponto B era o escolhido. Para isso, bastava considerar o decaimento de
saliência inicial que o ponto A apresenta. Para esse mesmo tipo de observador com
experiência em desenho de aeronaves, a marcação do ponto C implicaria na marcação do
ponto D. Para o ground-truth o ponto D é um falso positivo.
A Figura 8.9 mostra a evolução multiescala dos pontos A, B e Z nos três detectores
propostos. O ponto Z é o simétrico do ponto B, o qual está marcado no ground-truth. Deve-se
observar a semelhança nos comportamentos dos pontos B e Z ao longo de todas as escalas. O
ponto A tem um comportamento inicial completamente destoante dos outros dois pontos. A
perda de saliência inicial é comum em ruídos ou em estruturas bem pequenas. A saliência é
perdida até que se chegue à “escala natural” da região. A partir da quarta escala todos os
pontos iniciam perda de saliência. Isto ocorre devido à janela de convolução envolver uma
concentração de fundo maior que a concentração de objeto, o que caracteriza uma
convexidade. Então, o ponto que se inicia como um vértice de concavidade em baixa escala
pode se transformar em um ponto qualquer de uma região convexa de alta escala.
Dependendo das instruções dadas aos observadores, é possível induzi-los a não marcar
pontos em segmentos de arcos. Em relação à Figura 8.10, o que motivaria um observador a
marcar o ponto R e não marcar o ponto S ou o ponto T? De forma bastante correlacionada,
está a subjetividade e a liberdade das decisões humanas. Os limiares utilizados por um
observador podem variar de região para região. Para tomar decisões semelhantes, um
algoritmo teria que assumir limiares locais em vez de globais. Por exemplo, na Figura 8.11
170 RESULTADOS
uma análise local permitiria a marcação do M sem a obrigação de marcar o ponto N. Com o
uso de limiar global, a não aceitação do ponto N acarreta a não aceitação do ponto M. Isto
provocou um falso negativo nas respostas dos três detectores para o ponto M. Deve-se
perceber que o ponto N é o vértice de um ângulo mais saliente do que o ponto M, embora
diferença seja desprezível. O mesmo se aplica para a Figura 8.10, Não há como permitir a
seleção do ponto R sem permitir a seleção dos pontos S e T.
Figura 8.6 – O ground-truth da imagem F.
RESULTADOS 171
Figura 8.7 – Evolução multiescala do ponto X da Figura 8.6 sob o ponto de vista dos três detectores
propostos.
Figura 8.8 – Ampliação de parte da imagem H.
172 RESULTADOS
Figura 8.9 – Evolução multiescala dos pontos A, B e Z da Figura 8.8.
Figura 8.10 – O ground-truth da imagem E.
RESULTADOS 173
Figura 8.11 – A explicação de um falso negativo da imagem F.
174 RESULTADOS
CONCLUSÕES E TRABALHOS FUTUROS 175
Capítulo 9 – Conclusões e trabalhos futuros
9.1 Conclusões
Esta tese apresenta o desenvolvimento de três detectores multiescala de pontos
dominantes, os quais têm seu funcionamento baseado na quantificação das modificações
causadas pelo processo de suavização Gaussiana.
A detecção de pontos dominantes é um processamento primário, de baixo nível, cujos
resultados podem ser aproveitados em diferentes tarefas de nível mais alto em análise de
formas, por exemplo, a recuperação de imagens por conteúdo em uma base de dados de
imagens (CBIR).
No desenvolvimento deste trabalho houve a preocupação em buscar embasamentos
físicos, psicofísicos e biológicos. Pode-se dizer, então, que os detectores aqui propostos são
inspirados e fundamentados em processos naturais.
Os resultados apresentados no capítulo 8 mostram que o contraste entre duas regiões
homogêneas disponibiliza outras informações além da classificação de brilho de um pixel.
Com a utilização de um núcleo de convolução adequado é possível extrair informações
angulares, ou de curvatura, ao longo da fronteira entre as regiões contrastantes. Permitindo
classificar cada um dos pixels fronteiriços como vértices de concavidades, de convexidades,
ou como pertencentes a um segmento de reta. Ou seja, toda a informação necessária para se
descrever a forma bidimensional de um objeto.
A teoria que embasa todo o trabalho pode ser resumida na afirmação de que a
suavização Gaussiana pode ter outra função além da tradicional filtração. A suavização pode
ser utilizada como um processo de marcação, “pintando” cada pixel com a “tinta” obtida a
partir da média ponderada de sua vizinhança local. Se o valor do pixel não sofre modificação
é porque pertence a uma região homogênea. A quantidade de modificação que um pixel pode
sofrer é gradual e proporcional à quantidade de pixels de mesmo valor existentes na
vizinhança considerada. Se houver poucos pixels de um tipo e muitos de outro, a modificação
será grande. Uma modificação grande significa que naquela vizinhança existe uma
concavidade ou uma convexidade.
Uma vez que a marcação Gaussiana foi realizada, basta quantifica-la para identificar
as características da fronteira. Os três detectores propostos representam os tipos de
quantificação vislumbrados. O primeiro se baseia na computação da entropia de Shannon
176 CONCLUSÕES E TRABALHOS FUTUROS
(SHANNON,1948), a qual só foi utilizada após a comprovação de que poderia ser usada para
quantificar misturas de brilho em imagens. No capítulo 3 é apresentado um estudo mostrando
que o seu uso é apropriado.
Os outros dois detectores foram construídos a partir da compreensão do
funcionamento do primeiro. No segundo (CLP), em vez de se computar a entropia, computa-
se apenas as proporções de objeto e fundo presentes na vizinhança. O procedimento é idêntico
ao do primeiro, só não se calcula os logaritmos presentes na equação de entropia, o que pode
ser computacionalmente mais vantajoso.
O terceiro detector é baseado numa pequena modificação do modelo DoG, que obriga
uma das Gaussianas envolvidas na subtração a possuir um desvio padrão bem baixo, próximo
à zero. A suavização de imagens com Gaussianas muito estreitas (desvio padrão abaixo de
0,5) produz modificações desprezíveis. Por isso, a imagem suavizada com a Gaussiana mais
estreita é substituída pela imagem binária original. Assim, a DoG se transforma na
DoG_Zero, onde a subtração é feita entre uma versão suavizada da imagem e a própria
imagem binária original.
Os resultados descritos no capítulo 8 indicam que o objetivo principal deste trabalho
foi atingido. A suavização pode ser considerada como um meio necessário para se extrair as
informações angulares de pixels de fronteira.
Os detectores propostos nesta tese possuem núcleos de convolução semelhantes. No
EML e no CLP, o núcleo é baseado na soma de Gaussianas. No DoG_zero, o núcleo é
baseado na diferença de Gaussianas. Porém é comum a todos, a restrição de que uma das
Gaussianas deva ser bem estreita para promover a correta localização das características,
independentemente da escala considerada.
Grande parte do trabalho, aqui apresentado, lida com a análise multiescala. Esta é
necessária para identificar as estruturas da imagem que possuem real influência no aspecto
global da forma. A técnica multiescala proposta para os detectores, bem como os núcleos de
convolução são inovadores. A análise multiescala é realizada somente nos pontos que
possuem a capacidade de se tornarem vértices de estruturas importantes da forma
bidimensional. São usadas sete escalas que variam de 0,5 a 23,8333. Estas permitem avaliar
adequadamente as estruturas contidas em imagens de até 512 x 512 pixels. Em imagens
maiores, as estruturas pequenas ocupam muitos pixels. Para avalia-las mais precisamente seria
necessário aumentar o desvio padrão para além de 23,83. É desejável a criação de um
algoritmo que determine o tamanho do objeto contido na imagem e define as escalas a serem
usadas.
CONCLUSÕES E TRABALHOS FUTUROS 177
A análise da evolução do candidato ao longo das escalas permite perceber quais os
tipos de variação que podem ocorrer. Foram detectados dois tipos de variação. O primeiro
ocorre devido à acomodação do candidato à configuração dominante da região em que este se
situa. Esta configuração define o valor do candidato em sua escala mais alta. Por exemplo, um
candidato situado sobre uma fronteira em linha reta apresenta decaimentos sucessivos até o
seu valor se aproximar ao valor que representa o ângulo de 180°. O segundo tipo de variação
é causada pela interferência de estruturas adjacentes. Esta ocorre quando a janela de
suavização cresce além dos limites da estrutura observada, incluindo parte de outras estruturas
adjacentes. A interpretação dada a esta interferência é a de que se está obtendo o limite da
estrutura observada. Algo similar à escala natural da estrutura. Também foi identificada uma
variação causada pela acomodação da distribuição dos pesos estatísticos do núcleo de
convolução à grade digital. Esta foi neutralizada.
A ideia da suavização como um marcador de características de fronteira foi aplicada
na detecção de pontos dominantes. Embora, os resultados apresentados coloquem os
detectores propostos entre os melhores detectores de pontos dominantes disponíveis na
literatura, ainda há muito que aperfeiçoar para se chegar aos resultados apresentados por
observadores humanos. Foi percebido que para se detectar o ponto mais importante de uma
região, os observadores humanos utilizam processos cognitivos, que ocorrem em estágios
superiores do cérebro. Não é uma mera detecção, são comparações e decisões baseadas em
experiências acumuladas. Pode-se conjecturar que a grande quantidade de detectores
propostos na literatura e a não existência de um detector ótimo, sejam consequências da
complexidade envolvida no processo de decisão humana.
A construção do núcleo se baseou na combinação de ideias extraídas da difração em
aberturas circulares, do funcionamento dos campos receptivos center-surround da retina e da
distribuição de cones na retina (os capítulos 3 e 4 apresentam os detalhes a esse respeito).
Sendo assim, é possível que a retina possua a capacidade de extrair informações de curvatura
a partir do contraste. Se essa hipótese for verdadeira, será necessário reinterpretar como o
córtex visual trata as informações que chegam pelo nervo óptico. Este será o objetivo do
próximo trabalho, elaborar um modelo capaz de receber informações angulares, alinhá-las e
reconstruir a forma observada na cena. Na seção de trabalhos futuros são apresentados os
rudimentos desse modelo.
178 CONCLUSÕES E TRABALHOS FUTUROS
9.3 Trabalhos futuros
Ao supor que a retina transmite informações angulares ao córtex, surge a primeira
questão: O sistema visual possui alguma referência que indique onde inicia o 0° e qual é o
sentido do crescimento do ângulo? A comunicação olho – córtex pode ser comparada com a
comunicação via telefone entre duas pessoas. Imagine que uma pessoa necessite descrever
para outra, via telefone, a forma bidimensional de um objeto. Imagine, também, que ambas
possuam as coordenadas cartesianas dos pontos. Não se podem conectar os pontos com
segmentos de retas, pois não se sabe a sequência das conexões. A cada coordenada cartesiana
é associado um ângulo. Infelizmente, não há uma convenção preestabelecida entre os
interlocutores a respeito de onde se inicia a contagem do ângulo e para qual direção ele
cresce. Assim, o receptor tem as coordenadas, bem como o ângulo em cada uma delas. Este é
um possível cenário para o córtex visual. Quais ações poderiam ser tomadas para solucionar o
problema de reconstruir a forma a partir dessas informações?
Uma solução possível seria a de desenhar cada ângulo (como feixes de luz) em todas
as possíveis direções e determinar aquela em que o ângulo se alinha aos ângulos adjacentes. A
repetição deste processo para todos os ângulos alcançará o alinhamento do conjunto completo.
Aqui, levanta-se a hipótese de que algumas células do córtex visual implementam um
sistema de alinhamento angular, e que a ilusão conhecida por contornos ilusórios, ou de
Kanizsa seja o reflexo do funcionamento desse sistema. A Figura 9.1 apresenta alguns
exemplos de contornos ilusórios. Deve-se observar que dependendo do alinhamento angular
as bordas podem ser segmentos de retas ou arcos, podendo até representar circunferências.
Vale mencionar que os detectores propostos são capazes de detectar corners em arcos e
circunferências.
Imagens de ressonância magnética funcional (FMRI) incluindo mapeamento de
populações de campos receptivos permitiram verificar, com clareza, que os contornos
ilusórios ativam as células do córtex visual primário (V1) (KOK; DE LANGE, 2014).
O córtex visual primário é organizado em hipercolunas, onde várias células sensíveis a
diferentes direções representam um único pixel do campo visual (URSINO; LARA, 2004). A
Figura 9.2 mostra essa organização colunar. Deve-se notar que essa é uma organização
apropriada para a implementação da ideia de se desenhar um mesmo ângulo em diferentes
direções.
CONCLUSÕES E TRABALHOS FUTUROS 179
Figura 9.1 – Contornos ilusórios (adaptado de Yang, Yue e Wu (2015)).
Figura 9.2 – Hipercolunas do córtex visual V1 (adaptado de Ursino e Lara (2004)).
Na Figura 9.1, deve-se considerar que existem duas cores competindo por resposta,
isto é, as duas estão ativando os campos receptivos da retina, a cor branca do papel e a cor
preta dos indutores (pacman). Ambos são “enxergados”. Se os indutores não estiverem
alinhados, serão enxergados como quatro objetos quaisquer num fundo branco. Porém, com o
alinhamento, o fundo recebe uma limitação, tornando-o um candidato a objeto. Quanto mais
180 CONCLUSÕES E TRABALHOS FUTUROS
próximos estiverem os indutores alinhados, maior é a probabilidade de o espaço branco ser
enxergado como um objeto. Caso os indutores alinhados se toquem mutuamente, o espaço
branco estará totalmente limitado, isto é, se torna um objeto e deixa de ser ilusão. A Figura
9.3 mostra como a aproximação dos indutores torna a ilusão mais forte.
As Figuras 9.4 e 9.5 mostram uma possível arquitetura do córtex e a sua resposta às
informações angulares que chegam da retina. Os itens a e b da Figura 9.4 podem ser uma
possível representação da informação angular em quatro corners detectados na retina. Não se
considerou as informações de borda entre os vértices para facilitar a representação de uma
ideia ainda não muito clara. O item c desta mesma figura é uma visão de topo da ativação do
córtex visual em quatro hipercolunas. A Figura 9.5 é uma representação de perfil do item c da
Figura 9.4. A intenção é mostrar que o mesmo ângulo (90°) é ativado em níveis diferentes de
cada hipercoluna, visto que cada nível representa a direção do ângulo na cena. Deve ficar
claro que os prolongamentos que se interconectam nas Figuras 9.4 e 9.5 não representam
dendritos de uma célula específica, mas um emaranhado de células simples interconectadas.
Está sendo considerado que o corner detectado é o vértice do ângulo. Os lados do
ângulo são as bordas da convexidade, as quais podem ser representadas por uma sequência de
informações angulares próximas a 180°.
Figura 9.3 – A proximidade dos indutores fortalece a ilusão.
CONCLUSÕES E TRABALHOS FUTUROS 181
Figura 9.4 – A ativação dos ângulos no córtex visual V1: a e b) possíveis estímulos angulares; c) resposta no
córtex (vista de topo).
Figura 9.5 – A ativação dos ângulos nas hipercolunas: para que os níveis ficassem visíveis, a conexão entre
eles foi feita com um único “cabo” de maior diâmetro.
182 CONCLUSÕES E TRABALHOS FUTUROS
A proposta de um trabalho futuro dando continuidade ao que foi desenvolvido não
implica em aceitar o trabalho realizado até o momento como imutável. Os resultados mostram
exatamente o contrário, novas abordagens deverão ser utilizadas para melhorar os algoritmos
de análise multiescala, bem como entender completamente as variações que ocorrem com a
mudança de escala. Além disso, é necessário promover um estudo a respeito de como os
sistemas visuais utilizam a cor para analisar cenas reais.
9.3 Publicações
LOURO, A.; MACHADO, W.; GONZAGA, A. Smoothing: A natural way to detect contour
features. Multimedia Tools and Applications, v. 70, n. 3, p. 2111–2124, 2012.
LOURO, A.; GONZAGA, A. Multiscale Detection of Convexities and Concavities Based on
Local Computation of Weights. X WVC - Workshop de Visão Computacional. Anais... ,
2014.
LOURO, A.; GONZAGA, A. Detecção de corners baseada na produção de entropia. VIII
WVC - Workshop de Visão Computacional. Anais... , 2012.
CONCLUSÕES E TRABALHOS FUTUROS 183
Referências
ABDEL-DAYEM, A.; EL-SAKKA, M. Fuzzy Entropy Based Detection of Suspicious Masses in Digital Mammogram Images. In: INTERNATIONAL CONFERENCE OF THE IEEE ENGINEERING IN MEDICINE AND BIOLOGY SOCIETY, p. 4017-4022, Shanghai, China, 2005. ABE, K. et al. Comparison of methods for detecting corner points from digital curves-a preliminary report. In: PROCEEDINGS OF THE 2ND INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION, 1993, Tsukuba, Japan. p. 854-857, 1993. ALBERTAZZI, L. (Ed.). Shapes of forms: from Gestalt psychology and phenomenology to ontology and mathematics. Netherlands: Springer, 1999. 378 p. (Synthese library: studies in epistemology, logic, methodology, and philosophy of science, 275). ISBN 978-90-481-5098-4 ANSARI, N.; DELP, E. On detecting dominant points. Pattern Recognition, v. 24, n. 5, p. 441-451, 1991. ANSARI, N.; HUANG, K.-W. Non-parametric dominant point detection. Pattern Recognition, v. 24, n. 9, p. 849-862, 1991. ANTOINE, J.-P. et al. Shape characterization with the wavelet transform. Signal Processing, v. 62, p. 265-290, 1997. AOYAMA, H.; KAWAGOE, M. A piecewise linear approximation method preserving visual feature points of original figures. CVGIP: Graphical Model Image Process, v. 53, p. 435-446, 1991. ASADA, H.; BRADY, M. The curvature primal sketch. IEEE Trans. Pattern Analysis and Machine Intelligence, v. 8, p. 2-4, 1986. ASIMOV, I. Nove amanhãs: a última pergunta. Rio de Janeiro: Expressão e Cultura, 1975. ATTNEAVE, F. Some informational aspects of visual perception. Psychological Review, v. 61, n. 3, p. 183-193, 1954.
186 REFERÊNCIAS
AURÉLIO ELETRÔNICO SÉCULO XXI: Software versão 3.0 – 1999. MGB Informática Ltda. AWRANGJEB, M.; LU, G.; MURSHED, M. An affine resilient curvature scale-space corner detector, in: PROC. OF THE IEEE INT. CONF. ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL. 1, Hawaii, USA, 2007, p. 1233-1236. AWRANGJEB, MOHAMMAD. Contour-based Corner Detection and Robust geometric Point Matching Techniques. 2008. 206. doutorado, tese - Monash University, Victoria, Austrália, 2008. AWRANGJEB, M.; LU, G.. Robust image corner detection based on the chord-to-point distance accumulation technique. IEEE Trans. Multimedia. v. 10, n.6, p. 1059–1072, 2008. AWRANGJEB, M.; LU, G.; FRASER, C. A comparative study on contour-based corner detectors. In: DIGITAL IMAGE COMPUTING: TECHNIQUES AND APPLICATIONS, 2010, Los Alamitos. IEEE Computer Society, p. 92-99. AWRANGJEB, M.; LU, G.; FRASER, C. S. Performance comparisons of contour-based corner detectors. IEEE transactions on image processing : a publication of the IEEE Signal Processing Society, v. 21, n. 9, p. 4167–79, 2012. IEEE. AWRANGJEB, M.; LU, G. A Performance Review of Recent Corner Detectors. 2013 International Conference on Digital Image Computing: Techniques and Applications (DICTA). Anais... . p.1–8, 2013. IEEE. BACHATENE, L.; BHARMAURIA, V.; MOLOTCHNIKOFF, S. (Ed.). Visual Cortex - Current Status and Perspectives: Adaptation and Neuronal Network in Visual Cortex. InTech, 2012. DOI: 10.5772/46011. Disponível em: http://www.intechopen.com/books/visual-cortex-current-status-and-perspectives/adaptation-and-neuronal-network-in-visual-cortex BACKES, A.R.; BRUNO, O. M. Polygonal approximation of digital planar curves through vertex betweenness. Information Sciences, v. 222, p. 795-804, 2013. BALASUBRAMANIAN, V.; BERRY, M.J. Metabolically efficient codes in the retina. arXiv:cond-mat/0105128v1 [cond-mat.soft] 6 May 2001. BALASUBRAMANIAN, V.; STERLING, P. Receptive fields and functional architecture in the retina. J Physiol, v. 587, n.12, p. 2753–2767, 2009.
REFERÊNCIAS 187
BARAKAT, R. Some entropic aspects of optical diffraction imagery. Optics Communications, v. 156, p.235–239, 1998. BARLOW, H.B. Summation and inhibition in the frog’s retina. Journal of Physiology-London, v. 119, p. 69–88, 1953. BARLOW, H.B.; LEVICK W.R. the mechanism of directionally selective units in rabbit's retina. J. Physiol., v. 178, p. 477-504, 1965. BARTEN, P. Contrast Sensitivity of the Human Eye and Its Effects on Image Quality, SPIE Press Book, 1999. BATTIATO, S.; GALLO, G. An Information-Theoretical Approach to Saliency Maps Construction. IN PROCEEDINGS OF EUFIT98, p. 1375-1380, Aachen, 1998. BEN-NAIM, A. Entropy demystified : the second law reduced to plain common sense. Singapore: World Scientific Publishing, 2007. ISBN-13 978-981-270-052-0 BEN-NAIM, A. A farewell to entropy: statistical thermodynamics based on information. Singapore: World Scientific Publishing, 2008. ISBN-13 978-981-270-706-2 BERGÉ, J. et al. An ultra-fast image generator (UFig) for wide-field astronomy. Astronomy and Computing, v. 1, p. 23-32, 2013. BERNARDINO, L. Percepto: O que é Psicofísica? Disponível em: <http://www.blogpercepto.com/2010/11/o-que-e-psicofisica.html>. Acesso em: 24/9/2015. BIEDERMAN, I. Recognition by components: A theory of human image understanding. Psychological Review, v. 94, n. 2, p. 115-147, 1987. BLAKEMORE, C.; OVER, R. Curvature detectors in human vision? Perception, v. 3, n. 1, p. 3–7, 1974. SAGE Publications. BRUCE, V.; GREEN, P. R.; GEORGESON, M. A. Visual Perception: Physiology, Psychology, & Ecology. New York: Psychology Press, 2003. ISBN 184169-237-9 BURT, P.; ADELSON, E. The Laplacian Pyramid as a Compact Image Code. IEEE Transactions on Communications, v. 31, n. 4, p. 532–540, 1983. IEEE.
188 REFERÊNCIAS
CAMESASCA, M.; KAUFMAN, M.; MANAS-ZLOCZOWER, I. Quantifying Fluid Mixing with the Shannon Entropy. Macromolecular Theory and Simulations, v.15, n.8, p. 595–607, 2006.
CHAMOLI, N.; KUKREJA, S.; SEMWAL, M. Survey and Comparative Analysis on Entropy Usage for Several Applications in Computer Vision. International Journal of Computer Applications, v. 97, n. 16, p. 1–5, 2014. CHANG, C.-I.; DU, Y.; WANG, J.; GUO, S.-M.; THOUIN, P.D. Survey and comparative analysis of entropy and relative entropy thresholding techniques. Vision, Image and Signal Processing, v. 153, n. 6, p. 837 – 850, 2006. CHEN, J.; ZOU, L.; ZHANG, J.; DOU, L. The Comparison and Application of Corner Detection Algorithms. Journal of Multimedia, v. 4, n. 6, p. 435–441, 2009. CHETVERIKOV, D.; SZABO, Z. A simple and efficient algorithm for detection of high curvature points in planner curves. In: PROC. OF 23RD WORKSHOP OF AUSTRALIAN PATTERN RECOGNITION GROUP, 1999, Steyr, p. 175–184, 1999. CINQUE, L.; LOMBARDI, L.; ROSENFELD, A. Evaluating digital angles by a parallel diffusion process. Pattern Recognition Letters, v. 16, p. 1097–1104, 1995. CLAUSIUS, R. The mechanical theory of heat. London: Macmillan and CO., 1879. COLE, R. W.; JINADASA, T.; BROWN, C. M. Measuring and interpreting point spread functions to determine confocal microscope resolution and ensure quality control. Nature protocols, v. 6, n. 12, p. 1929–41, 2011. CONNOR, C. E.; BRINCAT, S. L.; PASUPATHY, A. Transformation of shape information in the ventral pathway. Current Opinion in Neurobiology, v. 17, n. 2, p. 140–147, 2007. CORTICAL PATHWAYS. In: Neuroscience online an electronic textbook for the neurosciences. Disponível em:< http://neuroscience.uth.tmc.edu/s2/chapter15.html>. Acesso em 04 out. 2015. COSTA, L.F.; CESAR Jr., R.M. Shape analysis and classification: theory and practice. Boca Raton: CRC Press, 2001. (Image Processing Series). ISBN 0-8493-3493-4. CRANK, J. The mathematics of diffusion. Oxford: Clarendon Press, 1975.
REFERÊNCIAS 189
CUMANI, A.; GUIDUCCI, A. Selecting feature detectors for accurate visual odometry. WSEAS Transactions on Circuits and Systems, v. 8, n. 10, p. 822–831, 2009. World Scientific and Engineering Academy and Society (WSEAS). DAVIS, L. S., Understanding shape: angles and sides. IEEE Transactions on Computers. v. C-26, n. 3, 1977. DE WINTER, J.; WAGEMANS, J. Perceptual saliency of points along the contour of everyday objects: A large-scale study. Perception & Psychophysics, v. 70, n. 1, p. 50–64, 2008. DEERING, M. F. A photon accurate model of the human eye. In: PROCEEDINGS OF ACM SIGGRAPH 2005, SESSION: PERCEPTION, 2005, p. 649-658. DOBBINS, A.; ZUCKER, S. W.; CYNADER, M. S. Endstopped neurons in the visual cortex as a substrate for calculating curvature. Nature, v. 329, n. 6138, p. 438–441, 1987. DOBBINS, A.; ZUCKER, S. W.; CYNADER, M. S. Endstopping and curvature. Vision Research, v. 29, n. 10, p. 1371–1387, 1989. DOUGLAS, D.; PEUCKER, T. Algorithms for the reduction of the number of points required to represent a digitized line or its caricature. Cartographica: The International Journal for Geographic Information and Geovisualizatio, v. 10, n. 2, 1973. DRAGESCO, J. High resolution astro photography. New York: Cambridge University Press, 1995. ISBN 521415888. DRESCHLER, L.; NAGEL, H. On the selection of critical points and local curvature extrema of region boundaries for interframe matching. In: PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION, ICPR, 1982, p. 542-544, 1982. DRYDEN, I.L.; MARDIA, K.V. Statistical Shape Analysis. Chichester: John Wiley and Sons, 1998. ISBN 0-471-95816-6. DUTTA A.; KAR, A.; CHATTERJI, B.N. Corner detection algorithms for digital images in last three decades. IETE Tech Rev, v. 25, n. 3, p. 123–132, 2008. DUTTA, A.; CHATTERJIB, B. N.; KAR, A. Comparing and Evaluating Intensity Based Spatial Domain Corner Detectors. International Journal of Information Processing, v. 2, n. 4, p. 48–55, 2008.
190 REFERÊNCIAS
ELLIOTT, D.F.; JENKINS, L. Convolutional relationships in EO sensors. In: CONF. RECORD TWENTY-FOURTH ASILOMAR COG. SIGNALS, SYSTEMS & COMPUTERS, 1990, p. 88-92. ELLLIOTT, D.F. et al. Accuracy of Gaussian approximation for simulating EO sensor response. In: CONFERENCE RECORD OF THE THIRTIETH ASILOMAR ON SIGNALS, SYSTEMS AND COMPUTERS, 1996, v. 2, n. 3-6, p. 868 – 872. ENROTH-CUGELL, C.; ROBSON, J.G. the contrast sensitivity of retinal ganglion cells of the cat. J. Phy8iol., v. 187, p. 517-552, 1966. FERRARO, M; BOCCIGNONE, G.; CAELLI, T. On the representation of image structures via scale space entropy conditions. Pattern Analysis and Machine Intelligence, IEEE Transactions on, v. 21, n. 11, p. 1199 – 1203, 1999. FERRARO, M; BOCCIGNONE, G. Image contrast enhancement via entropy production. Real-Time Imaging, v. 10, n. 4, p. 229-238, 2004. FIELD, D.J.. Relations between the statistics of natural images and the response profiles of cortical cells. Journal of Optical Society America, v. 4, p. 2379–2394, 1987. FIELD, D. J.; HAYES, A.; HESS, R. F. Contour integration by the human visual system: evidence for a local “association field”. Vision research, v. 33, n. 2, p. 173–93, 1993. FREEMAN, A. Fourier: The analytical theory of heat – translated with notes. Edited for the syndics of the university press. Cambridge: UNIVERSITY PRESS. 1878. FREEMAN, H.; DAVIS, L.S. A corner-finding algorithm for chain-coded curves. IEEE Transactions on Computers, v. 26, p. 297–303, 1977. FRIEDEN, B. R. How well can a lens system transmit entropy? Journal of the Optical Society of America, v. 58, n.8, p. 1105-1112, 1968. GALLANT, J.; BRAUN, J.; VAN ESSEN, D. Selectivity for polar, hyperbolic, and Cartesian gratings in macaque visual cortex. Science, v. 259, n. 5091, p. 100–103, 1993. GALLANT, J. L.; CONNOR, C. E.; RAKSHIT, S.; LEWIS, J. W.; VAN ESSEN, D. C. Neural responses to polar, hyperbolic, and Cartesian gratings in area V4 of the macaque monkey. Journal of neurophysiology, v. 76, n. 4, p. 2718–39, 1996. GAO, X. et. al. Multiscale contour corner detection based on local natural scale and wavelet transform. Image and Vision Computing, v. 25, p. 890–898, 2007.
REFERÊNCIAS 191
GARRIDO, A.; PEREZ, N.; GARCA-SILVENTE, M. Boundary simplification using a multiscale dominant-point detection algorithm. Pattern Recognition, v. 31, p. 791–804, 1998. GESTALT_PSYCHOLOGY. In: WIKIMEDIA FOUNDATION. Disponível em: <https://en.wikipedia.org/w/index.php?title=Gestalt_psychology&oldid=680321607>. Acesso em: 25/9/2015. GESTALT REVISION - De Winter & Wagemans, BRMIC, 2004. Stimuli-sets & Datasets. Disponível em: <http://www.gestaltrevision.be/en/resources/supplementary-material/129-de-winter-a-wagemans-brmic-2004-stimuli-sets-a-datasets>. Acesso em: 11/2/2016. GLEICK, J.; The information: a history, a theory, a flood. New York: Pantheon Books, 2011. eISBN 978-0-307-37957-3. GOLLISCH, T.; MEISTER, M. Eye smarter than scientists believed: Neural computations in circuits of the retina. Neuron, v. 65, n. 2, p.150-164, 2010. GOSHTASBY, A.; ONEILL, W.D. Curve Fitting by a Sum of Gaussians, CVGIP: Graphical Models and Image Processing, v. 56, n. 4, p. 281-288, 1994. GRAHAM, D.J.;CHANDLER, D.M.; FIELD, D.J. Can the theory of “whitening” explain the center-surround properties of retinal ganglion cell receptive fields? Vision Res., v.46, n.18, p. 2901–2913, 2006. GRAHS, T.H.; SONAR,T.H. Discrete nonlinear filters for the numerical treatment of conservation laws. PAMM, v. 1, n. 1, p. 426–427, 2002. GURU, D. S.; DINESH, R.; NAGABHUSHAN, P. Boundary-based corner detection and localization using new “cornerity” index: a robust approach. In: PROCEEDINGS OF 1ST CANADIAN CONFERENCE ON COMPUTER AND ROBOTIC VISION, CRV04, p. 417-423, 2004. HABAK, C.; WILKINSON, F.; ZAKHER, B.; WILSON, H. R. Curvature population coding for complex shapes in human vision. Vision research, v. 44, n. 24, p. 2815–23, 2004 HAGMANN, P. et al. Understanding diffusion MR imaging techniques: from scalar diffusion-weighted imaging to diffusion tensor imaging and beyond. RadioGraphics, v.26, p. s205-s223, 2006.
192 REFERÊNCIAS
HAN, J.H.; POSTON, T.. Chord-to-point distance accumulation and planar curvature: a new approach to discrete curvature. Pattern Recognition Letters. v. 22, p. 1133–1144, 2001. HANSEN, T.; NEUMANN, H. A biologically motivated scheme for the robust detection of junctions. In H. H. BÜLTHOFF, S.-W. LEE, T. A. POGGIO, & C. WALLRAVEN (EDS.), BIOLOGICALLY MOTIVATED COMPUTER VISION (BMCV 2002), p. 16–26. LNCS 2525. Berlin: Springer-Verlag, 2002. HARRIS, C.; STEPHENS, M. A combined corner and edge detector. In Proc. of Fourth Alvey Vision Conference. Anais... . p.147–151, 1988. HARTLINE, H.K. The nerve messages of the fibres of the visual pathway. J. Opt. Soc. Am., v. 30, p.239–247, 1940. HAUSHOFER J.; BAKER C.I.;. LIVINGSTONE, M.S; KANWISHER, N. Privileged Coding of Convex Shapes in Human Object-Selective Cortex. J. Neurophysiol. v. 100, n. 2, p. 753-762, 2008. HE, B. B. Two-dimensional X-Ray Diffraction. New Jersey: John Wiley & Sons, 2011, p.426. ISBN: 978-0-470-22722-0 HE, N.H.C.; YUNG, X.C. Curvature scale space corner detector with adaptive threshold and dynamic region of support. In: IEEE PROCEEDINGS OF THE 17TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION, ICPR 04, Cambridge, 2004, v. 2, p. 791–794. 2004. HEAT EQUATION. In: WIKIPÉDIA, a enciclopédia livre. Flórida: Wikimedia Foundation, 2014. Disponível em:< http://en.wikipedia.org/wiki/Heat_equation>. Acesso em: 16 jun. 2015. HUBEL, D.H.; WIESEL,T,N. Receptive fields of optic nerve fibres in the spider monkey. J.Phy8iol., v.154, p.572-580, 1960. HUBEL, D.H. Eye, brain and vision. W. H. Freeman; 2nd edition (May 15, 1995). Scientific American Library Series (Book 22). P.256. ISBN 978-0716760092. HUSSEIN, E.M.A.Computed radiation imaging: physics and mathematics of forward and inverse problems. Walthan: Elsevier inc, 2011. ISBN 9780123877772.
REFERÊNCIAS 193
ITO, M.; GODA, N. Mechanisms underlying the representation of angles embedded within contour stimuli in area V2 of macaque monkeys. The European journal of neuroscience, v. 33, n. 1, p. 130–42, 2011. ITO, M.; KOMATSU, H. Representation of angles embedded within contour stimuli in area V2 of macaque monkeys. The Journal of neuroscience : the official journal of the Society for Neuroscience, v. 24, n. 13, p. 3313–24, 2004. JALBA, C., WILKINSON, M. H. F.; ROERDINK J. B. T. M. Shape representation and recognition through morphological curvature scale-spaces. IEEE Transactions on Image Processing, v. 15, n. 2, 2006. JAYNES, E.T. Gibbs vs Boltzmann Entropies. American Journal of Physics, v. 33, n. 5, p. 391-398, 1965. KADIR, T.; BRADY, M. Saliency, Scale and Image Description. International Journal of Computer Vision, v. 45, n. 2, p. 83–105, 2001. KAHAKI, S. M. M.; NORDIN, M. J.; ASHTARI, A. H. Contour-based corner detection and classification by using mean projection transform. Sensors (Basel, Switzerland), v. 14, n. 3, p. 4126–43, 2014. KAPLAN, E.; LEE, B. B.; SHAPLEY, R. M. New views of primate retinal function. Progress in Retinal Research, v. 9, p. 273-336, 1990. KERAUTRET, B.; LACHAUD, J.-O.; NAEGEL, B. CURVATURE BASED CORNER DETECTOR FOR DISCRETE, NOISY AND MULTI-SCALE CONTOURS. International Journal of Shape Modeling, v. 14, n. 02, p. 127–145, 2008. KIMMEL, R.; SOCHEN, N.; WEICKERT, J. (ED). Scale-space and PDE methods in computer vision. In: PROCEEDINGS OF THE 5TH INTERNATIONAL CONFERENCE, SCALE-SPACE 2005. Springer, 2005. ISBN: 978-3-540-25547-5. 634p. KOENDERINK, J.J. The structure of images. Biological Cybernetics, v. 50, p. 363–370, 1984. KOK, P.; DE LANGE, F. P. Shape perception simultaneously up- and downregulates neural activity in the primary visual cortex. Current biology : CB, v. 24, n. 13, p. 1531–5, 2014.
194 REFERÊNCIAS
KREYSZIG, E. Advanced engineering mathematics. USA: John Wiley & Sons, 1993. KUFFLER, S.W. Discharge patterns and functional organization of the mammalian retina. Journal of Neurophysiology, v. 16, p. 37–68, 1953. LABOURE, M. J.; AZEMA, J.; FOURNEL, T. Detection of dominant points on a digital closed curve. Acta Stereologica, 2. dez. 2014 LAMBERT, F.L. Configurational entropy revisited. Journal of Chemical Education, v. 84, n. 9, p. 1548-1550, 2007. LARSON, D.R. The economy of photons, Nature Methods, v. 7, p. 357-359, 2010. LEE, J.S.; SUN, Y.N.; CHEN, C.H. Multiscale corner detection by using wavelet transform. IEEE Trans. Image Process., v. 4, n. 1, p. 100–104, 1995. LEE, J. A.; LEE, B. H.; XU, G.; et al. Geometric corner extraction in retinal fundus images. Conference proceedings : ... Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering in Medicine and Biology Society. Annual Conference, v. 2014, p. 158–61, 2014. IEEE. LETTVIN, J.; MATURANA, H.; MCCULLOCH, W.; PITTS, W. What the Frog’s Eye Tells the Frog's Brain. Proceedings of the IRE, v. 47, n. 11, p. 1940–1951, 1959. LEYMARIE, F.; LEVINE, M. D. Curvature morphology. Technical Report, TR-CIM-88-26, Center for Intelligent Machines, McGill University, Montreal, Dec. 1988. LI, H. Feature matching based on corner and edge constraints. Electronic Imaging & Signal Processing, SPIE Newsroom. DOI: 10.1117/2.1200705.0541, 2007. LI, L.; LIU, Y.; GONG, H. Comparison and Evaluation on the Methods of Corner Detectors Used in Sign Language Recognition - ProQuest. International Journal of Digital Content Technology and its Applications, v. 7, n. 5, p. 943–951, 2013. LINFOOT, E. H. Information Theory and Optical Images. JOSA, v. 45, n. 10, p. 808-818, 1955.
REFERÊNCIAS 195
LIU, G. S.; LI, B. L. Extraction of Optimal Contour Dominant Points Based on ICT Images in Reverse Engineering. Applied Mechanics and Materials, v. 423-426, p. 2570–2575, 2013. LIU, H. C.; SRINATH, M. D. Corner detection from chain-code. Pattern Recognition, v. 23, n. 1-2, p. 51-68, 1990. LONCARIC, S. A survey of shape analysis techniques. Pattern Recognition, v. 31, n. 8, p. 983–1001, 1998. LOWE, D. G. Distinctive Image Features from Scale-Invariant Keypoints. International Journal of Computer Vision, v. 60, n. 2, p. 91–110, 2004. Lu, Y.; Jain, R., Reasoning about edges in scale space. Pattern Analysis and Machine Intelligence, IEEE Transactions on , v.14, n.4, p.450-468, 1992. MANDELBROT, B. How long is the coast of Britain? Statistical self-similarity and fractional dimension. Science (New York, N.Y.), v. 156, n. 3775, p. 636–638, 1967. MARCONDES R.; COSTA, L. Piecewise linear segmentation of digital contours in O(N.Log(N)) through a technique based on effective digital curvature estimation. Real-Time Imaging, v. 1, n. 6, p. 409-417, 1995. MARJI, M.; KLETTE, R.; SIY, P. Corner detection and curve partitioning using arc-chord distance. In: INTERNATIONAL CONFERENCE ON COMBINATORIAL IMAGE ANALYSIS 10, 2004, Auckland. v. 3322, p. 512-521, 2004. MARR, D.; HILDREDTH, E. Theory of edge detection. Technical report A.I. memo no. 518. MIT, 1979. 64 p. MARTÍNEZ, J.M.; KOENEN, R.; PEREIRA, F. Overview of MPEG-7: the generic multimedia content description standard. IEEE Multimedia, v. 9, n. 2, pp. 78-87, 2002. MARTÍNEZ, J.M. Mpeg-7: Overview of mpeg-7 description tools, part 2. IEEE multimedia, v. 9, n. 2, p. 83-93, 2002B. MARTINEZ-CONDE, S.; MACKNIK, S. L.; HUBEL, D. H. Microsaccadic eye movements and firing of single cells in the striate cortex of macaque monkeys. Nature Neuroscience, v. 3, n. 3, pp. 251-258, 2000.
196 REFERÊNCIAS
MARTINEZ-CONDE, S.; OTERO-MILLAN, J.; MACKNIK, S. L. The impact of microsaccades on vision: towards a unified theory of saccadic function. Nature reviews. Neuroscience, v. 14, n. 2, p. 83–96, 2013. MAXWELL, J. C. Theory of heat. London: Longmans, Green, and CO., 1902. MCARTHUR, J.A.; MOULDEN, B. A two-dimensional model of brightness perception based on spatial filtering consistent with retinal processing. Vision Research, v. 39, p. 1199–1219, 1999. MCLACHLAN, G. J.; PEEL, D. Finite mixture models. New York: Willey and Sons inc., 2000. ISBN 047100626-2. MEDIONI, G.; YASUMOTO, Y. Corner Detection and Curve Representation Using Cubic B-Splines. Computer Vision, Graphics and Image Processing, v. 39, n. 3, p. 267-278, 1987. MEHRER, H. Diffusion in solids: fundamentals, methods, materials, diffusion-controlled processes. Heidelberg: Springer, 2007. Springer Series in solid-state sciences 155. ISBN 978-3-540-71486-6. MEYBERG, S.; WERKLE-BERGNER, M.; SOMMER, W.; DIMIGEN, O. Microsaccade-related brain potentials signal the focus of visuospatial attention. NeuroImage, v. 104, p. 79–88, 2015. MIAO, L. ; QI, H ; SZU, H. A Maximum Entropy Approach to Unsupervised Mixed-Pixel Decomposition. Image Processing, IEEE Transactions on, v. 16, n. 4, p. 1008 – 1021, 2007 MOKHTARIAN, F.; MACKWORTH A. Scale-based description and recognition of planar curves and two-dimensional shapes. IEEE Trans. Pattern Analysis and Machine Intelligence, v. 8, n. 1, p. 34-43, 1986 MOKHTARIAN, F.; MACKWORTH, A.K. A theory of multiscale-based shape representation for planar curves. IEEE Transactions on Pattern Analysis and Machine Intelligence, v. 14, p. 789–805, 1992. MOKHTARIAN, F. Silhouette-based isolated object recognition through curvature scale space. IEEE Transactions on Pattern Analysis and Machine Intelligence, v. 17, p. 539–544, 1995.
REFERÊNCIAS 197
MOKHTARIAN, F; ABBASI, S.; KITTLER, J. Efficient and robust retrieval by shape content through curvature scale space. In: PROCEEDINGS OF THE INTERNATIONAL WORKSHOP ON IMAGE DATABASES AND MULTIMEDIA SEARCH, 1996, Amsterdam, p. 35–42, 1996. MOKHTARIAN, F.; ABBASI, S. Affine Curvature Scale Space with Affine Length Parametrisation. Pattern Anal. Appl., v. 4, n. 1. p. 1-8, 2001. MOKHTARIAN, F.; MOHANNA, F. Performance evaluation of corner detectors using consistency and accuracy measures. Computer Vision and Image Understanding, v. 102, n. 1, p. 81–94, 2006. MPEG-7 Shape Part B database, http://www.imageprocessingplace.com/root_files_V3 /image_databases.htm. Accessed on Mar 2013. NGUYEN, T.P.; DEBLED-RENNESSON, I. A discrete geometry approach for dominant point detection. Pattern Recognition, v. 44, n. 1, p. 32-44, 2011 NORMAN, J. F.; PHILLIPS, F.; ROSS, H. E. Information concentration along the boundary contours of naturally shaped solid objects. Perception, v. 30, n. 11, p. 1285–94, 2001. NOWICKI, M.; SKRZYPCZYNSKI, P. Performance comparison of point feature detectors and descriptors for visual navigation on Android platform. 2014 International Wireless Communications and Mobile Computing Conference (IWCMC). Anais... . p.116–121, 2014. IEEE. NOVOTNY, L.; HECHT, B. Principles of nano-optics. New York: Cambridge University Press, 2006. ISBN 978-0-521-83224-3. OLIVEIRA, R. F.; COSTA, L. DA F.; ROQUE, A. C. A possible mechanism of curvature coding in early vision. Neurocomputing, v. 65-66, p. 117–124, 2005. OLSHAUSEN, B.A.; FIELD, D.J. Vision and the Coding of Natural Images. American Scientist, v. 88, n. 3, p. 238-245, 2000. OSHER, S.J., SETHIAN, J.A. Fronts propagating with curvature dependent speed: algorithms based on Hamilton–Jacobi formulations. J. Comput. Phys., v. 79, p. 12–49, 1988.
198 REFERÊNCIAS
OSTERBERG, G. Topography of the layer of rods and cones in the human retina. Acta ophthal. suppi., v.6, p. 11-97, 1935. PARK, H; LEE, J-H. B-spline curve fitting based on adaptive curve refinement using dominant points. Computer-Aided Design, v. 39, n. 6, p. 439-451, 2007. PARVEZ, M.T.; MAHMOUD S.A. Polygonal approximation of digital planar curves through adaptive optimizations. Pattern Recognition Letters, v. 31, p. 1997–2005, 2010. PASUPATHY, A.; CONNOR, C. E. Responses to contour features in macaque area V4. Journal of neurophysiology, v. 82, n. 5, p. 2490–502, 1999. PASUPATHY, A.; CONNOR, C. E. Shape representation in area V4: position-specific tuning for boundary conformation. Journal of neurophysiology, v. 86, n. 5, p. 2505–19, 2001. PATEL, T. P.; PANCHAL, S. R. Corner Detection Techniques: An Introductory Survey. IJEDR v. 2, n. 4, p. 3680-3686, 2014. PAULA, I.; MEDEIROS, F.N.S.; BEZERRA, F.N.; USHIZIMA, D.M. Corner detection within a multiscale framework. In: PROCEEDINGS OF SIBGRAPI 2011 XXIV CONFERENCE ON GRAPHICS, PATTERNS AND IMAGES, Maceió, Brasil, 2011. PAVLIDIS, T.; HOROWITZ, S. L. Segmentation of plane curves. IEEE Transactions on Computers, v. C23, n. 8, p. 860-870, 1974. PEDROSA, G.V.; BARCELOS, C.A.Z.; BATISTA, M.A. An image retrieval system using shape salience points. IN: PROCEEDINGS OF 2011 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEM (ISCAS 2011), Rio de Janeiro, Brazil, pp. 2797–2800, 2011. PEI, S.-C.; LIN, C.-N. The detection of dominant points on digital curves by scale-space filtering. Pattern Recognition, v. 25, n. 11, p. 1307-1314, 1992. PRASAD, D. Assessing Error Bound For Dominant Point Detection. International Journal of Image Processing, V. 6, n. 5, 2012. PERONA, P.; MALIK J. Scale-space and edge detection using anisotropic diffusion. IEEE Transactions on Pattern Analysis and Machine Intelligence, V. 12 (7), p. 629-639. Jul. 1990.
REFERÊNCIAS 199
POTOČNIK, B. Automated landmark points detection by using a mixture of approaches: the vole-teeth case. Signal, Image and Video Processing, v. 9, n. 1, p. 93–104, 2012. QUDDUS, A.; FAHMY, M. Binary text image compression using overlapping rectangular partitioning. Pattern Recognition Letters, v. 20, n. 1, p. 81-88, 1999. QUDDUS, A.; GABBOUJ, M. Wavelet-based corner detection technique using optimal scale. Pattern Recognition Letters, v. 23, n. 1-3, p. 215-220, 2002. RAMER, U. An interactive procedure for the polygonal approximation of plane curves. Computer Graphics and Image Processing, v. 1, p. 244-256, 1972. RATLIFF, F. Mach Bands: quantitative studies on neural network in the retina. San Francisco, CA: Holden-Day, 1965 RATTARANGSI, A.; CHIN, R.T. Scale-based detection of corners of planar curves. IEEE Trans. Pattern Anal. Machine Intelligence, v. 14, p. 430–449, 1992. RAY, B. K.; RAY, K. S. A new approach to polygonal approximation. Pattern Recognition Letters, v. 12, n. 4, p. 229-234, 1991. ROCKETT, P. I. Performance assessment of feature detection algorithms: a methodology and case study on corner detectors. IEEE transactions on image processing : a publication of the IEEE Signal Processing Society, v. 12, n. 12, p. 1668–76, 2003. IEEE. RODIECK, R.W. Quantitative analysis of cat retinal ganglion cell response to visual stimuli. Vision Research, v. 5, n. 12, p. 583–601, 1965. RODRÍGUEZ-SÁNCHEZ, A. J.; TSOTSOS, J. K. The roles of endstopped and curvature tuned computations in a hierarchical representation of 2D shape. PloS one, v. 7, n. 8, p. e42058, 2012. RODRIGUEZ-SANCHEZ, A. J.; TSOTSOS, J. K. The importance of intermediate representations for the modeling of 2D shape detection: Endstopping and curvature tuned computations. CVPR 2011. Anais... . p.4321–4326, 2011. IEEE. RODRÍGUEZ-SÁNCHEZ, A.; NEUMANN, H.; PIATER, J. Beyond Simple and Complex Neurons: Towards Intermediate-level Representations of Shapes and Objects. KI - Künstliche Intelligenz, v. 29, n. 1, p. 19–29, 2014.
200 REFERÊNCIAS
ROMENY, B. et al (Ed). Scale-space theory in computer vision: Proceedings of the first international conference, Scale-Space'97. Springer Berlin Heidelberg, 1997. ISBN 978-3-540-63167-5. ROMENY, B. M. H. (Ed). Geometry-dirven diffusion in computer vision. Dordrecht: Kluwer Academic Publishers, 1994. (Computational Image and Vision, 1). ISBN 0-7923-3087-0. ROMENY, B. M. H. Front-end vision and multi-scale image analysis: Multi-scale computer vision theory and applications, written in mathematica. Netherlands: Springer Science + Business Media B.V., 2003. ISBN 978-1-4020-1507-6. ROMENY, B. M. H.; FLORAK, L. M. J. Front-end vision, a multiscale geometry engine (lecture notes in computer science). In First IEEE International Workshop on Biologically Motivated Computer Vision, p. 1-35, 2000. ROSENFELD, A.; JOHNSTON, E. Angle detection on digital curves. IEEE Transactions on Computers, v. C-22, p. 875–878, 1973. ROSENFELD, A.; WESKA, J.S. An improved method of angle detection on digital curves. IEEE Transactions on Computers, v. C-24, p. 940–941, 1975. ROSIN, P.L. Techniques for assessing polygonal approximations of curves. Pattern Analysis and Machine Intelligence, IEEE Transactions on, v. 19, n. 6, p. 659-666, 1997. ROSIN, P. L. Determining local natural scales of curves. Pattern Recognition Letters, v. 19, n. 1, p. 63–75, 1998. ROSIN, P. L.; West, G. A. W. Segmentation of edges into lines and arcs. Image Vision Computing, v. 7, n. 2, p. 109-114, 1989. ROTH, M. PSF-fitting techniques for crowded field 3D spectroscopy. New Astronomy Reviews, v. 49, n. 10-12, p. 573–581, 2006. RUDERMAN, D.L.; BIALEK, W. Statistics of natural images: scaling in the woods. Physical Review Letters, v. 73, n. 6, p. 814–817, 1994. SALAPATEK,CP.; KESSEN, W. Visual scanning of triangles by the human newborn. Journal of Experimental Child Psychology, v. 3, p. 113-122, 1966.
REFERÊNCIAS 201
SARFRAZ, M. Interactive curve modeling and image processing with applications to computer graphics, vision and image processing. London: Springer-Verlag, 2008. ISBN 978-1-84628-870-8. SARFRAZ, M.; ASIM, M.R.; MASOOD, A. Piecewise polygonal approximation of digital curves. In: PROCEEDINGS OF THE 8TH INTERNATIONAL CONFERENCE ON INFORMATION VISUALIZATION, IV 04, 2004, p. 991-996, 2004. SARFRAZ, M.; RASHEED, A.; MUZAFFAR, Z. A Novel Linear Time Corner Detection Algorithm. Computer Graphics, Imaging and Visualization – New Trends, Sarfraz, M., Wang, Y., and Banissi, E. (Eds.), ISBN: 3-7695-2392-7, IEEE Computer Society, USA, 2005, pp. 191-196. SARFRAZ, M.; SWATI, Z. N. K. Mining Corner Points on the Generic Shapes. Open Journal of Applied Sciences, v. 03, n. 01, p. 10–15, 2013. SCHMID, C.; MOHR, R.; BAUCKHAGE, C. Comparing and evaluating interest points. Sixth International Conference on Computer Vision (IEEE Cat. No.98CH36271). Anais... . p.230–235. Narosa Publishing House. 1998. SCHMID, C.; MOHR, R.; BAUCKHAGE, C. Evaluation of Interest Point Detectors. International Journal of Computer Vision, v. 37, n. 2, p. 151–172. 2000. SCHROEDER, D.V. Introduction to thermal physics. USA: Addison Wesley Longman, 1999. 435 p. ISBN: 0-201-38027-7 SHANNON, C. E. A Mathematical Theory of Communication. Bell System Technical Journal, v. 27, n. 3, p. 379–423, 1948. SHEN, J; CASTAN, S. An optimal linear operator for step edge detection. CVGIP: Graphical Models and Image Processing, v. 54, n. 2, p. 112-133, 1992. SKLANSKY, J.; GONZALEZ, V. Fast polygonal approximation of digitized curves. Pattern Recognition, v. 12, p. 327-331, 1980. SIMONCELLI, E.P.; OLSHAUSEN, B.A. Natural image statistics and neural representation. Annual Review of Neuroscience, v. 24, p. 1193-1216, 2001.
202 REFERÊNCIAS
SMITH, P. et al. Effective corner matching. In: PROCEEDINGS OF 9TH BRITSH MACHINE VISION CONFERENCE, 1998, v. 2, p. 545-556. Edited by Lewis, P.H. and Nixon, M.S. SODERQUIST, D.R. Sensory processes. California: SAGE Publications Inc, 2002. 400 p. ISBN 0-7619-2333-0. SRIKANTH, M. Image Indexing and Retrieval using the Cross-Entropy Measures. In: PROCEEDINGS OF THE HKK CONFERENCE, Waterloo, Ontario, Canada, 1999. SRINIVASAN, M.V.; LAUGHLIN, S.B.; DUBS, A. Predictive Coding: A Fresh View of Inhibition in the retina. Proc. R. Soc. Lond. B, v. 216, p. 427-459, 1982. SUPPES, P.; DE BARROS, J. A. Diffraction with well-defined photon trajectories: a foundational analysis. Foundations of Physics Letters, v. 7, n. 6, 1994. TAHAEI, M. S.; HASHEMI, S. N.; MOHADES, A.; GHEIBI, A. Geometric algorithm for dominant point extraction from shape contour. Pattern Analysis and Applications, v. 17, n. 3, p. 481–496, 2012. TANG, K.T. Mathematical methods for engineers and scientists 3: fourier analysis, partial differential equations and variational methods. New York: Springer-Verlag Berlin Heidelberg, 2007. TENG, S. W.; NAJMUS SADAT, R. M.; LU, G. Effective and efficient contour-based corner detectors. Pattern Recognition, v. 48, n. 7, p. 2185–2197, 2015. THE, C.H.; CHIN, R.T. On the detection of dominant points on digital curves. IEEE Trans. Pattern Anal. Mach. Intell., v. 11, p. 859–872, 1989. THIBOS, L. N. Image Processing by the Human Eye. Proc. SPIE 1199, Visual Communications and Image Processing IV, 1148 (November 1, 1989); doi:10.1117/12.970124. TIAN, X.; CHEN, C.-Y. Probing perceptual performance after microsaccades. The Journal of neuroscience : the official journal of the Society for Neuroscience, v. 35, n. 7, p. 2842–4, 2015.
REFERÊNCIAS 203
TISSAINAYAGAM, P.; SUTER, D. Assessing the performance of corner detectors for point feature tracking applications. Image and Vision Computing, v. 22, n. 8, p. 663–679, 2004. TORROBA, R,; RABAL, H; RUIZ, B. An Entropy Approach to Light Propagation. Journal of Modern Optics, v. 39, n. 9, p. 1939-1946, 1992. TORRES, R.S.; FALCAO, A.X. Contour salience descriptors for effective image retrieval and analysis. Image and Vision Computing, v. 25, n. 1, p. 3-13, 2007. TRONCOSO, X. G.; MACKNIK, S. L.; MARTINEZ-CONDE, S. Novel visual illusions related to Vasarely’s “nested squares” show that corner salience varies with corner angle. Perception, v. 34, n. 4, p. 409–20, 2005. TRONCOSO, X. G.; TSE, P. U.; MACKNIK, S. L.; et al. BOLD activation varies parametrically with corner angle throughout human retinotopic cortex. Perception, v. 36, n. 6, p. 808–20, 2007. TRONCOSO, X.; MACKNIK, S.; MARTINEZ-CONDE, S. Corner salience varies linearly with corner angle during flicker-augmented contrast: a general principle of corner perception based on Vasarely’s artworks. Spatial Vision, v. 22, n. 3, p. 211–224, 2009. TSAI, D-M.; HOU, H-T.; SU, H-J. Boundary-based corner detection using eigenvalues of covariance matrices. Pattern Recognition Letters, v. 20, p. 31-40 1999. TUYTELAARS, T.; MIKOLAJCZYK, K. Local Invariant Feature Detectors: A Survey. Foundations and Trends® in Computer Graphics and Vision, v. 3, n. 3, p. 177–280, 2007. Now Publishers Inc. URSINO, M.; LA CARA, G. E. A model of contextual interactions and contour detection in primary visual cortex. Neural networks : the official journal of the International Neural Network Society, v. 17, n. 5-6, p. 719–35, 2004. UTCKE, S. Error-Bounds on Curvature Estimation. In: L. D. Griffin; M. Lillholm (Orgs.); Scale Space Methods in Computer Vision, Lecture Notes in Computer Science. v. 2695, p.657–666, 2003. Berlin, Heidelberg: Springer Berlin Heidelberg. VASES and FACES. Disponível em: <https://agilewarrior.wordpress.com/2014/03/16/vases-and-faces-an-exercise-for-the-double-brain/>. Acesso em: 19/5/2016.
204 REFERÊNCIAS
VINCENT, E.; LAGANIRE R. Matching featuring points in stereo pairs: a comparative study of some matching strategies. Machine Graphics and Vision Journal, v. 10, p. 237-259, 2001. VINCENT, E.; LAGANIRE, R. Matching featuring points. Journ. Visual Commun. Image Representation, v. 16, n. 1, p. 38-54, 2005. XU ET AL. A biologically motivated corner detection method based on the oriented receptive fields of simple cortical cells. In: PROCEEDINGS OF IEEE INT. CONF. ON BIOMEDICAL ENGINEERING AND COMPUTER SCIENCE (ICBECS 2010), 2010. XUAN,Y.; WANHAI,Y. Adaptive multiscale edge detection using neighborhood entropy. in: SIGNAL PROCESSING PROCEEDINGS, 2000. WCCC-ICSP 2000. 5TH INTERNATIONAL CONFERENCE ON, v. 3, p. 1440 – 1443. YANG, J.; YUE, Z.; WU, X. Independence of the completion effect from the noncompletion effect in illusory contour perception. Journal of vision, v. 15, n. 14, p. 6, 2015. The Association for Research in Vision and Ophthalmology. YU, F.T.S. Entropy and Information Optics. Marcel-Dekker, New-York, 2000. YUE, X.; POURLADIAN, I. S.; TOOTELL, R. B. H.; UNGERLEIDER, L. G. Curvature-processing network in macaque visual cortex. Proceedings of the National Academy of Sciences of the United States of America, v. 111, n. 33, p. E3467–75, 2014. WAGEMANS, J.; ELDER, J. H.; KUBOVY, M.; et al. A century of Gestalt psychology in visual perception: I. Perceptual grouping and figure-ground organization. Psychological bulletin, v. 138, n. 6, p. 1172–217, 2012. WAGEMANS, J. (ORG.). The Oxford Handbook of Perceptual Organization. Oxford University Press, 2015. ISBN 9780199686858. WEISSTEIN, E. W. Normal Sum Distribution. . Wolfram Research, Inc. Disponível em: <http://mathworld.wolfram.com/NormalSumDistribution.html>. Acesso em: 23/5/2016. WALL, K.; DANIELSSON, P. E. A fast sequential method for polygon approximation of digitized curves. Computer Vision, Graphics and Image Processing, v. 28, p. 220-227, 1984.
REFERÊNCIAS 205
WANG, F. ET AL. Cumulative Residual Entropy, A New Measure of Information & its Application to Image Alignment. In: NINTH INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV2003), Nice, France, p. 548-553, 2003. WANG, H.; BRADY, M. Real-time corner detection algorithm for motion estimation, Image Vision Computing, v. 13, n. 9, p. 695-703, 1995. WEICKERT, J. A review of nonlinear diffusion filtering. Berlin: Springer, 1997, p. 3-28, 1997. (LNCS 1252-Scale-Space Theory in Computer Vision). Edited by B. ter Haar Romeny, L. Florack, Koenderink, J. and Viergever, M. WEICKERT, J. Applications of nonlinear diffusion in image processing and computer vision. In: PROCEEDINGS OF ALGORITMY 2000, Acta Math. Univ. Comenianae, v. 70, n. 1, p. 33–50, 2000. WEICKERT, J.; ISHIKAWA, S.; IMIYA, A. Linear scale-space has first been proposed in Japan. J. Math. Imag. Vision, v. 10, p. 237-252, 1999. WEICKERT, J.; ISHIKAWA, S.; IMIYA, A. On the history of Gaussian scale-space axiomatics. Dordrecht: Kluwer, p. 45-59, 1997. (Gaussian scale-space theory). WEST, G. A. W.; ROSIN, P. L.. Techniques for segmenting image curves into meaningful descriptions. Pattern Recognition, 24(7): 643-652, 1991. WESTHEIMER, G. Visual acuity: Information theory, retinal image structure and resolution thresholds. Progress in Retinal and Eye Research, v. 28, n. 3, p. 178-186, 2009. WIESEL, T. N. Receptive fields of ganglion cells in the cat's retina. J Physiol., v. 153, n. 3, p. 583–594, 1960. WITKIN, A.P. Scale-space filtering. In: PROCEEDINGS OF THE 8TH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE, 1983, Karlsruhe, p. 1019–1021. WOLFE, J. M.; YEE, A.; FRIEDMAN-HILL, S. R. Curvature is a basic feature for visual search tasks. Perception, v. 21, n. 4, p. 465–480, 1992. WORRING, M.; SMEULDERS, A. W. M. Digital curvature estimation. CVGIP: Image Understanding, v. 58, p. 366–382, 1993.
206 REFERÊNCIAS
WU, W-Y.; WANG, M-J. Detecting the dominant points by curvature-based polygonal approximation. Graphical Models and Image Processing, v. 55, n. 2, p. 79-88, 1993. WU, W.Y.. Dominant point detection using adaptive bending value. Image and Vision Computing, v. 21, n. 6, p. 517-525, 2003. ZAPPE, H. Fundamentals of micro-optics. New York: Cambridge University Press, 2010. ISBN 978-0-521-89542-2. ZARSLAN, E.; VEMURI, B.C.; MARECI, T.H. Generalized scalar measures for diffusion MRI using trace, variance, and entropy. Magnetic Resonance in Medicine, v. 53, p. 866–876, 2005. ZHANG, X.; ZHAO, D. A parallel algorithm for detecting dominant points on multiple digital curves. Pattern Recognition, v. 30, n.2, p. 239-244, 1997. ZHANG, D.; LU, G. Evaluation of MPEG-7 shape descriptors against other shape descriptors. Multimedia Systems, v. 9, p. 15–30, 2003. ZHANG, D; LU, G. Review of shape representation and description techniques. Pattern Recognition , v. 37, p. 1 – 19, 2004. ZHANG, X. ET AL. Multi-scale curvature product for robust image corner detection in curvature scale space. Pattern Recognition Letters, v. 28, n. 5, p. 545-554, 2007. ZHANG, W. ET AL. Point spread function characteristics analysis of the wavefront coding system. Optics Express, v. 15, n. 4, p. 1543-1552, 2007. ZHANG, B; ZERUBIA, J.; OLIVO-MARIN, J.C. A study of Gaussian approximations of fluorescence microscopy PSF models, Three-Dimensional and Multidimensional Microscopy. In: IMAGE ACQUISITION AND PROCESSING XIII, PROCEEDINGS OF THE SPIE, v. 6090, 2006, p. 104-114, 2006. ZHENG, Z.; WANG, H.; KHWANG TEOH, E. Analysis of gray level corner detection. Pattern Recognition Letters, v. 20, n. 2, p. 149–162, 1999. ZHONG, B.; LIAO, W. Direct curvature scale space: theory and corner detection. IEEE Trans. Pattern Anal. Mach. Intell, v. 29, n. 3, p. 508–512, 2007.
REFERÊNCIAS 207
ZHU, P.; CHIRLIAN, P.M. On critical point detection of digital shapes. IEEE Transactions on Pattern Analysis and Machine Intelligence, v. 17, n. 8, p. 737-748, 1995. ZHU, Q; WANG, Y; LIU, H. Auto-Corner Detection Based on the Eigenvalues Product of Covariance Matrices over Multi-Regions of Support. Journal of Software, v. 5, n. 8, p. 907-914, 2010. ZHU , S.C.; WU, Y.N.; MUMFORD, D.B. Minimax Entropy Principle and Its Applications to Texture Modeling. Neural Computation, v. 9, n. 8, p. 1627-1660, 1997. ZUKAL, M.; CIKA, P. Corner detectors: Evaluation of information content. 2012 35th International Conference on Telecommunications and Signal Processing (TSP). Anais... . p.763–767, 2012. IEEE. ZUKAL, M.; BENES, R.; CIKA, P.; QIU, X. Robustness evaluation of corner detectors for use in ultrasound image processing. 2013 36th International Conference on Telecommunications and Signal Processing (TSP). Anais... . p.763–767, 2013. IEEE.
208 REFERÊNCIAS
ANEXO A – Imagens utilizadas
210 IMAGENS UTILIZADAS
IMAGENS UTILIZADAS 211
212 IMAGENS UTILIZADAS
IMAGENS UTILIZADAS 213