de dados - repositorio.ufrn.br · liliane ribeiro da silva uma plataforma intervalar para...
TRANSCRIPT
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
CENTRO DE CIÊNCIAS EXATAS E DA TERRA
DEPTO. DE INFORMÁTICA E MATEMÁTICA APLICADA
PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO
Liliane Ribeiro da Silva
Uma Plataforma Intervalar para Agrupamentos
de Dados
Orientador: Prof. Dr. Regivan Hugo Nunes Santiago
Co-orientadora: Prof. Dr. Anne Magaly de Paula Canuto
Natal- RN
2015
Liliane Ribeiro da Silva
Uma Plataforma Intervalar para Agrupamentos
de Dados
Orientador: Prof. Dr. Regivan Hugo Nunes Santiago
Co-orientadora: Prof. Dr. Anne Magaly de Paula Canuto
Tese de Doutorado apresentada ao Programa
de Pós-Graduação em Sistemas e Computa-
ção da UFRN como parte dos requisitos para
obtenção do título de Doutor em Ciências.
Área de Concentração: Teoria da Compu-
tação
Natal - RN
2015
2
Catalogação da Publicação na Fonte. UFRN / SISBI / Biblioteca Setorial Centro de Ciências Exatas e da Terra – CCET.
Silva, Liliane Ribeiro da. Uma plataforma intervalar para agrupamentos de dados / Liliane Ribeiro da Silva. - Natal, 2015.
116 f. : il.
Orientador: Prof. Dr. Regivan Hugo Nunes Santiago. Coorientadora: Profa. Dra. Anne Magaly de Paula Canuto. Tese (Doutorado) – Universidade Federal do Rio Grande do Norte. Centro de
Ciências Exatas e da Terra. Programa de Pós-Graduação em Ciência da Computação.
1. Algoritmos de agrupamento – Tese. 2. Distância intervalar – Tese. 3. Medida
de similaridade – Tese. 4. Índices de validação – Tese. 5. Agregações de i-distâncias – Tese. I. Santiago, Regivan Hugo Nunes. II. Canuto, Anne Magaly de Paula. III.Título.
RN/UF/BSE-CCET CDU: 004.421: 004.275
3
4
Agradecimentos
A Deus que é onipresente, onisciente e onipotente;
Ao meu orientador, Prof. Dr. Regivan Hugo Nunes Santiago, pela opor-
tunidade, dedicação, paciência e motivação durante todo o processo de ela-
boração dessa tese;
A minha coorientadora, Prof. Dr. Anne Magaly de Paula Canuto, pela
orientação e amizade durante todo o processo de construção dessa tese;
A minha mãe Tereza Ribeiro da Silva, pelo amor e apoio incondicional.
Por entender minha ausência em muitos momentos durante o curso e por
nunca medir esforços para que tivesse sempre o dinheiro da passagem para
chegar todos os dias na universidade, muitas vezes emprestando dos parentes
e até mesmo dos vizinhos;
Aos meus tios, Manoel do Carmo e José Ribeiro pelo apoio durante toda
a minha vida acadêmica e pessoal;
Ao meu esposo Luiz Ranyer de Araújo Lopes pelo amor, apoio, com-
panheirismo e principalmente pela paciência nessa etapa tão importante na
minha vida;
Ao meu amigo Ronildo Moura pela parceria durante os estudos e experi-
mentos;
Aos meus amigos do Doutorado (porão) que zeram os dias sem sol serem
mais leves;
5
Aos professores do Dimap pela contribuição na minha formação como
aluna e pessoa;
Aos funcionários do Dimap por facilitarem a minha vida;
Aos vizinhos e parentes não só por emprestaram o dinheiro da minha
passagem durante o curso de graduação, mas por contribuírem, de alguma
forma, com a minha evolução acadêmica;
Aos meus amigos, que de alguma forma contribuíram para manter essa
pessoa sã, na medida do possível.
6
"A dúvida permite extrair um núcleo de cer-
teza, que cresce à medida que ela se radicaliza;
é indubitável que, se duvido, penso."
Descartes
Resumo
Este trabalho propõe uma plataforma para métodos de agrupamento de
dados do tipo intervalar e uma solução para dados híbridos que contém esse
tipo de dados. O principal objetivo do uso de dados com natureza inter-
valar é representar informações numéricas dotadas de imprecisões, que são
normalmente capturadas a partir de medidas do mundo real. Para isso, é
necessário adaptar técnicas de valores reais para serem utilizadas em dados
intervalares. Para aplicações de agrupamento intervalares, por exemplo, é
necessário propor uma distância intervalar e também adaptar algoritmos de
agrupamento para serem utilizados nesse contexto. E mais, para trabalhar
com dados híbridos uma investigação inicial sobre funções de agregações de
i-distâncias é realizada. Neste caso, é adaptada uma distância intervalar,
chamada dkm, e são propostos algoritmos de agrupamento intervalares e três
índices de validação intervalares. Para validar a estrutura proposta, uma
análise empírica é realizada com conjuntos de dados sintéticos e reais. A
análise empírica é baseada em um índice de validade de cluster externo,
Correct Rand, e seis índices de validação interna, sendo que para três deles
são necessárias adequações para serem utilizados com dados intervalares. E
mais, é realizada uma análise comparativa entre os resultados existentes na
literatura e os resultados obtidos.
1
Palavras-chaves: Distância intervalar; Medida de similaridade;
Algoritmos de agrupamento; Índices de Validação; Agregações de
i-distâncias.
Sumário
Resumo 1
Lista de Siglas 6
Lista de Tabelas 8
Lista de Figuras 9
I Fundamentação 10
1 Introdução 11
2 Intervalos e i-Métricas 16
2.1 Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Análise Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Ordem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 Métricas e i-métricas . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.1 i-Métrica e i-Métrica dkm . . . . . . . . . . . . . . . . . 25
2.5 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . 29
3 Análise de Agrupamento de Dados 31
3.1 Agrupamento de Dados . . . . . . . . . . . . . . . . . . . . . . 32
3
3.2 Algoritmos para Agrupamento de Dados . . . . . . . . . . . . 34
3.2.1 K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.2 Fuzzy C-Means . . . . . . . . . . . . . . . . . . . . . . 38
3.2.3 Outros Métodos de Agrupamentos para Dados Inter-
valares . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2.4 Métodos Usando Abordagens Fuzzy Para Dados Inter-
valares . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
II Métodos Propostos 45
4 Métodos Propostos para Dados Intervalares 46
4.1 Matriz de Pertinência Intervalar . . . . . . . . . . . . . . . . . 47
4.2 Algoritmo Intervalar Baseado no Fuzzy C-means - IbFcM . . . 52
4.3 Algoritmo Fuzzy Intervalar Baseado no Ck-Means - IbckM . . 55
4.4 Validação de Agrupamentos Intervalares . . . . . . . . . . . . 57
5 Métodos Propostos para Dados Híbridos 61
5.1 Algoritmos Intervalares Baseados no K-Means - IbKM . . . . 63
5.2 Algoritmo K-Means Intervalar Híbrido - IbKMH . . . . . . . . 65
5.3 Agregação de i-métricas e Algoritmos Híbridos . . . . . . . . . 66
III Experimentos e Resultados Obtidos 73
6 Experimentos e Resultados 74
6.1 Conjuntos de Dados . . . . . . . . . . . . . . . . . . . . . . . 76
6.1.1 Conjuntos de Dados Sintéticos Intervalares . . . . . . 76
6.1.2 Conjuntos de Dados Sintéticos Híbridos . . . . . . . . . 77
6.1.3 Conjuntos de Dados Reais . . . . . . . . . . . . . . . . 78
4
6.2 Resultados Obtidos com Dados Intervalares . . . . . . . . . . 81
6.2.1 Conjuntos de Dados Sintéticos . . . . . . . . . . . . . 82
6.2.2 Conjuntos de Dados Reais . . . . . . . . . . . . . . . . 85
6.3 Análise Comparativa Para Dados Intervalares . . . . . . . . . 89
6.4 Análises e Resultados Obtidos com os Algoritmos IbKM, IbKMH
e IbKMHsup . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.4.1 Resultados e Análises dos Dados Sintéticos Híbridos . 93
6.4.2 Resultados e Análises dos Dados Reais Híbridos . . . 95
7 Conclusões e Perspectivas Futuras 97
Referências Bibliográcas 109
Lista de Siglas
FCM - Fuzzy c-means
IbckM - Interval Based ckmeans
IbFcM - Interval based Fuzzy C-Mens
IbKM - Interval based k-Means
IbKMH - Interval based hybrid k-Means
poset - partially ordered set
VID - Valoração de i-distâncias
SOM - Self-organizing maps
FKCN - fuzzy Kohonen clustering network
IFKCN - Interval fuzzy Kohonen clustering network
IFKCN-FD - IFKCN based on a xed Euclidean distance
IFKCN-NAD - IFKCN based on a non-adaptive squared Euclidean
IFCM-H - IFCM based on a Hausdorrf L1 distance
IAFCM-L1 - Interval adaptive fuzzy c-means on a L1 distance
IAFCM-L2 - Interval adaptive fuzzy c-means on a L2 distance
IAFCM-H - Interval adaptive fuzzy c-means on a Hausdor distance
6
Lista de Tabelas
6.1 Descrição das quatros bases articiais . . . . . . . . . . . . . . 76
6.2 Classicação do conjunto de dados Temperatura . . . . . . . . 79
6.3 Descrição do conjunto de dados Carro . . . . . . . . . . . . . . 80
6.4 Classicação do conjunto de dados Peixe . . . . . . . . . . . . 81
6.5 Resultado dos algoritmos de agrupamento intervalares para os
conjuntos de dados sintéticos- Média(Std) . . . . . . . . . . . 82
6.6 p-valores para Teste t de Student's para os conjuntos de dados
sintéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.7 p-valores para Teste t de Student's para os conjuntos de dados
sintéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.8 Número de grupos preferidos para vários índices de validação
dos dados sintéticos. . . . . . . . . . . . . . . . . . . . . . . . 85
6.9 Resultado dos algoritmos de agrupamentos intervalares para
os dados reais. . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.10 p-valores para o Teste t de Student's para os conjuntos de
dados reais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.11 Números preferidos de grupos para vários índices de validação
nos conjuntos de dados reais . . . . . . . . . . . . . . . . . . . 88
6.12 Resultados dos algoritmos de agrupamentos baseados em in-
tervalos para o conjunto de dados Temperatura. . . . . . . . . 90
7
6.13 Resultados dos algoritmos de agrupamentos baseados em in-
tervalos para o conjunto de dados Carro. . . . . . . . . . . . . 91
6.14 Resultados dos algoritmos de agrupamentos baseados em in-
tervalos para o conjunto de dados Peixe. . . . . . . . . . . . . 92
6.15 Resultado dos algoritmos de agrupamento crisp com os con-
juntos de dados sintéticos híbridos - CR(Std) e Tempo. . . . . 94
6.16 Resultados dos algoritmos de agrupamento crisp com o con-
junto de dados real híbrido- CR(Std) e Tempo . . . . . . . . . 96
8
Lista de Figuras
6.1 Ilustra os conjuntos de dados 2Dim e Sun. . . . . . . . . . . . 77
6.2 Ilustra os conjuntos de dados 3Dim e 5Dim. . . . . . . . . . . 78
6.3 O gráco descreve a relação entre tempo a porcentagem de
atributos reais, utilizando os algoritmos IbKM e IbKMH. . . . 95
9
Parte I
Fundamentação
10
Capítulo 1
Introdução
Nos últimos anos houve um aumento signicativo na quantidade de dados
que são disponibilizados. Esses dados são oriundos das mais diversas áreas,
como medicina, física, pesquisa de mercado, ciências, etc.
A grande quantidade de informações presentes nesses dados nem sempre
está de uma forma organizada que seja possível extrair uma determinada
informação de imediato. Assim, essa diculdade em extrair informações ou
até mesmo condensar informações gera uma necessidade de desenvolver cada
vez mais ferramentas computacionais para organizar e analisar dados, ob-
jetivando encontrar padrões que possam ser considerados como informações
úteis para uma determinada área de conhecimento. Dentre essas várias áreas
de conhecimento, podemos citar: mineração de dados [6] e [60], análise de
expressão gênica [36], segmentação de imagens [74] e processamento de lin-
guagem natural [72]. Uma das principais áreas que vem sendo largamente
investigada por diversos pesquisadores é a Mineração de Dados, onde são
utilizados algoritmos de aprendizado de máquina para obter esses conheci-
mentos.
Por denição, agrupamento de dados é um conjunto de técnicas que visa
11
dividir objetos em grupos, de tal forma que os objetos (instâncias) em um
mesmo grupo (cluster) possuem uma maior semelhança do que objetos em
grupos diferentes. Em outras palavras, essas técnicas têm como objetivo
encontrar uma divisão dos objetos, em que exista uma alta similaridade entre
objetos de um grupo e uma alta dissimilaridade entre objetos de grupos
diferentes [37].
Existem vários algoritmos de agrupamento propostos na literatura os
quais podem ser divididos em duas categorias: crisp e fuzzy. Nos agrupamen-
tos crisp, uma instância pertence a um e somente um grupo, enquanto no
agrupamento fuzzy, uma instância pode pertencer a mais de um grupo com
um certo grau de pertinência a cada um deles. Nesta tese, são trabalhados
algoritmos de agrupamento fuzzy e crisp.
A caracterização de um problema de agrupamento é representada por um
conjunto de dados (conjunto de informações organizadas, resultante de um
experimento ou observação), que está frequentemente relacionada a proble-
mas encontrados diariamente. Esses conjuntos de dados contém algumas ca-
racterísticas (atributos) que descrevem um determinado problema. Algumas
dessas informações presentes nos problemas, podem ser melhor representa-
das se forem descritas como intervalos. Devido a esse fato, recentemente, a
comunidade cientíca tem voltado a sua atenção para dados que represen-
tam informações numéricas dotadas de imprecisões como, por exemplo, com
dados intervalares.
As primeiras investigações no campo de intervalos foram realizadas por
Sunaga e R. Moore [45] e [52]. No entanto, de forma independente em 1956,
Warmus, sugeriu formas de calcular intervalos, porém foi Moore que encon-
trou as primeiras aplicações não-triviais. Uma das principais vantagens de
utilizarmos dados intervalares é a sua capacidade de codicar a quantidade
12
de imprecisões envolvidas e a oportunidade de trabalhar com uma aritmética
que é capaz de controlar os erros nos cálculos. No entanto, apesar de um
intervalo poder ser visto como um número dotado de imprecisões, a noção de
distância, que retorna um intervalo como valor, em vez de um número real,
só foi investigada a partir dos trabalhos de Trindade, Vargas e Bedregal [70]
e [27].
Em 2011, Santana e Santiago [61] observaram a necessidade de denir
uma estrutura abstrata para distâncias essencialmente intervalares. A ideia
é que esses valores contém mais informações do que os números reais e po-
dem ser usados para informar a distância entre dois pontos. É utilizada a
KM-métrica que é uma das i-métricas propostas em [24] para aplicações em
agrupamentos de dados intervalares. Assim a imprecisão dos dados intervalos
é preservada durante o processo de medição da distância, a qual é perdida
ao obter um número real quando operamos dois intervalos, resultante do uso
de uma distância usual (por exemplo, Distância de Moore, [53]).
Para técnicas de agrupamento baseadas em intervalos, os autores propu-
seram em [28] uma nova maneira de calcular os centros dos aglomerados no
algoritmo FCM (Fuzzy c-means), chamado ckMeans, e em [27] isso foi apli-
cado à conjuntos de dados intervalares. No entanto, nenhum índice interno
foi proposto e alguns problemas foram detectados nesse algoritmo.
Neste trabalho, o objetivo é oferecer uma plataforma para aplicações em
agrupamentos usando dados baseados em intervalos, incluindo medida de
distância, algoritmos de agrupamento e índices de validação. E mais um
estudo inicial foi realizado sobre funções de agregações, onde são investigadas
as agregações de i-distâncias. Para este propósito, são propostos algoritmos
de agrupamento fuzzy , Interval Based ckmeans (IbckM) e Interval based
Fuzzy C-Mens (IbFcM), que são adaptações dos algoritmos ckMeans e FCM
13
para trabalhar com dados intervalares de uma forma eciente e algoritmos de
agrupamento crisp, Interval Based k-Means (IbKM), Interval Based hybrid
k-Means (IbKMH) e IbKMHsup, que são adaptações do algoritmo K-Means.
Além disso, aplicamos a distância teoricamente proposta em [61] para ser
utilizada em agrupamentos de dados intervalares. Foram também utilizados
três índices internos para trabalhar com conjuntos de dados intervalares,
apresentados na dissertação de [16].
É importante ressaltar que, diferentemente da maioria dos estudos com
dados baseados em intervalos, a medida de distância aplicada aqui retorna
um intervalo, em vez de um número real, como no caso da distância de Moore,
na qual a distância entre dois intervalos é denida pela maior distância em
módulo entre os extremos, [53].
A m de avaliar o desempenho das técnicas propostas, uma análise em-
pírica é conduzida. Nessa análise, são utilizados conjuntos de dados reais
e sintéticos, e para avaliar o desempenho dos algoritmos de agrupamento
utilizamos o índice externo chamado Correct Rand (CR) e seis índices inter-
nos. Sendo que três índices internos são adaptados para trabalhar com os
conjuntos de dados intervalares, como mencionado acima.
Para efeito de comparação, alguns algoritmos de agrupamento baseados
em intervalos são utilizados nesta análise, [18], [40], [17] e [19] . Esta análise
comparativa é feita unicamente em termos da medida do CR, uma vez que
não foi possível encontrar na literatura resultados internos na maioria dos
trabalhos que utilizam bases de dados intervalares.
Esta tese está dividida em 3 partes, sendo organizada da seguinte forma:
• Na primeira parte é feito um estudo teórico sobre os principais conceitos
utilizados neste trabalho. Assim, no segundo capítulo é dada uma
fundamentação teórica sobre matemática intervalar e sobre métricas
14
intervalares. No terceiro capítulo é apresentada uma introdução sobre
análise de agrupamento, onde são introduzidos os algoritmos que serão
utilizados como base para os algoritmos propostos.
• Na segunda parte são expostos os métodos propostos neste trabalho.
No quarto capítulo são apresentados os métodos propostos para dados
intervalares e os índices de validação intervalares. No capítulo 5 são
exibidos os métodos propostos para trabalhar com dados híbridos e são
expostos os estudos sobre funções de agregações de i-distâncias e um
exemplo de função de agregação de i-métricas.
• Na terceira parte, no capítulo 7 são exibidos os conjuntos de dados
sintéticos e reais que são utilizados nos experimentos, bem como os
resultados alcançados e a análise comparativa realizada. No oitavo e
último capítulo são apresentadas as conclusões dessa pesquisa e suas
perspectivas futuras.
15
Capítulo 2
Intervalos e i-Métricas
O conceito fundamental que suporta os algoritmos de agrupamento é o
de Espaço Métrico e o tipo de dados sobre o qual essa tese se desenvolve é o
de Intervalos. Este é o capítulo dedicado a esses dois conceitos.
2.1 Espaços Métricos
A noção de distância entre dois pontos oriunda da Geometria pode ser
formalizada como uma função d : R2 × R2 → R. Ela pode ser generalizada
para conjuntos quaisquer M da seguinte maneira:
Denição 2.1 (Métrica) Uma métrica em um conjunto não vazio M é
uma função d : M ×M → R que satisfaz:
1. d(x, y) ≥ 0;
2. d(x, y) = d(y, x);
3. d(x, y) = 0 se, e somente se, x = y;
4. d(x, z) ≤ d(x, y) + d(y, z) (desigualdade triangular).
16
O par (M,d), onde d é uma métrica, é chamado espaço métrico.
Exemplos:
• Métrica Usual da Reta: Considerando o conjunto dos números reais R,
a função d : R× R → R dada por d(x, y) = |x− y| é uma métrica em
R.
• Métrica Euclidiana: ConsiderandoM = R2, a função de : R2×R2 → R
dada por de(x, y) =√
(x1 − y1)2 + (x2 − y2)2 é uma métrica em R2.
• Métrica do Máximo: Considerando o conjunto R2, a função dmax :
R2 × R2 → R dada por dmax(x, y) = max|x1 − y1|, |x2 − y2|, onde
x = (x1, x2) e y = (y1, y2) é uma métrica em R2.
Todas essas métricas são denidas sobre o conjunto dos números reais
ou sobre o plano Euclideano (Produto Cartesiano Binário do conjunto dos
números reais). Ou seja, se pensarmos em termos de tipos de dados, temos
métricas para o tipo de dados real e para o tipo produto do tipo de dados
real. Uma métrica que foge a esse padrão e que está ligada a outro tipo de
dados é a métrica de Levenshtein. Ela é denida sobre o tipo de dados string,
dessa forma, assim como podemos medir a distância entre números e entre
pontos, podemos também medir a distância entre strings.
A distância de Levenshtein entre duas strings a, b é dada por leva,b(|a|, |b|),
onde
leva,b(i, j) =
max(i, j) se min(i, j) = 0,
min
leva,b(i, j)(i− 1, j) + 1
leva,b(i, j)(i, j − 1) + 1
leva,b(i, j)(i− 1, j − 1) + 1(a1 6=bj)
caso contrário.
17
onde 1(ai 6=bj) é a função indicador igual a 0 quando ai = bj e igual a 1
caso contrário.
Por exemplo distância entre as palavras kitten e siting é 3, pois com
apenas 3 edições conseguimos transformar uma palavra na outra.
1. kitten
2. sitten (substituição de 'k' por 's')
3. sittin (substituição de 'e' por 'i')
4. sitting (inserção de 'g' no nal).
A teoria de espaços métricos é suciente para suportar os algoritmos
de agrupamento, inclusive os heterogêneos. Entretanto quando o dado em
questão registra a imprecisão nele contida a noção usual de métrica deixa de
ser eciente, pois dois dados imprecisos não podem dá origem a uma distância
exata e manter a informação de imprecisão nesse valor de distância.
Essa tese pretende fundamentar aplicações que utilizem um tipo de dados
com essa característica, a saber intervalos, e aplica a generalização de métrica
proposta por Santana em [61, 24] para esse tipo de dados. No que segue
apresenta-se resumidamente a Análise Intervalar proposta por Moore [52] e
Sunaga [45] em meados de 1950 e a generalização de métricas proposta por
Santana.
2.2 Análise Intervalar
Em meados dos anos de 1950, Sunaga [45] e Moore [52] propuseram o que
hoje conhecemos como Matemática Intervalar. O passo fundamental dessa
Matemática foi a criação de uma Aritmética para operar intervalos.
18
Denição 2.2 Dados x, x ∈ R, tal que x ≤ x o conjunto:
X = [x, x] = x ∈ R/x ≤ x ≤ x,
é chamado intervalo fechado limitado inferiormente por x e superiormente
por x. Ao longo de todo esse texto, conjuntos desse tipo serão chamados sim-
plesmente de intervalos. Denota-se por I(R) o conjunto de todos os intervalos
desse tipo.
Um intervalo X é dito não-negativo, X ≥ 0, quando x ≥ 0 e é dito
negativo se, X < 0, se x < 0. Se x = x, então X é chamado intervalo
degenerado.
Ao realizar de operações sobre intervalos (operações intervalares) pretende
captar a seguinte ideia: um intervalo [a, b] representa qualquer um de seus
elementos, já uma operação intervalar, F , é adequada para representar uma
operação real f , se o intervalo F ([a, b]) contiver a imagem f([a, b]). Essa
propriedade chama-se corretude e foi investigada por Santiago e Bedregal em
[62]. Eles chamaram de representações intervalares as funções que satisfaziam
essa propriedade, o que foi formalizado da seguinte maneira:
Denição 2.3 (Representação Intervalar- [62]) Uma função intervalar
F é correta com respeito a uma função real f se é satisfeita a seguinte con-
dição:
x ∈ [a, b]⇒ f(x) ∈ F ([a, b])
A denição que segue formaliza a noção da melhor representação inter-
valar possível.
Denição 2.4 (Representação Canônica Intervalar - CIR [62]) Seja
f : R→ R uma função sem assíntotas verticais, então para cada [a, b] ∈ I(R),
19
CIR(f)[a, b] é o menor intervalo contendo a imagem de f([a, b]):
CIR(f)([a, b]) = [min f([a, b]),max f([a, b])]. (2.1)
Portanto, a função intervalar CIR é bem denida e além disso é a melhor
representação intervalar de f. Essa propriedade chama-se Optimalidade [35]
e se refere ao fato de que nenhuma outra função produz intervalos mais
precisos.
A Aritmética sobre intervalos, conhecida como Aritmética de Moore se-
gue esse paradigma, i.e., X♦Y = x y : x ∈ Xey ∈ Y . A seguir são
apresentadas as operações da aritmética de Moore:
Denição 2.5 Sejam X, Y ∈ I(R),
1. Adição: X + Y = [x+ y, x+ y];
2. Pseudo Inverso Aditivo: −X = [−x,−x];
3. Subtração: X + Y = [x− y, x− y];
4. Multiplicação: X · Y = [min(xy, xy, xy, xy),max(xy, xy, xy, xy)];
5. Pseudo Inverso Multiplicativo: 1X
=[1x, 1x
]se 0 /∈ X
6. Divisão: XY
=[min
(xy, xy, xy, xy
),max
(xy, xy, xy, xy
)], onde 0 /∈ Y .
7. Potência: Dado n ∈ N,
Xn=
[xn, xn] se x < 0 e n for par (2.2a)
[0,max(xn, xn)] se x < 0 < x n for par (2.2b)
[xn, xn]Caso contrário. (2.2c)
8. Dado n ∈ N,
n√X =
[
n√x,
n√x]se n for ímpar ou x ≥ 0 (2.3a)
indenido, Caso contrário. (2.3b)
20
Denição 2.6 (Diâmetro de um intervalo) Seja X ∈ I(R) um inter-
valo, chama-se diâmetro ou amplitude do intervalo X o número real não-
negativo,
Diam(X) = x− x.
O Diâmetro de um intervalo é a medida da qualidade do intervalo em ter-
mos de representação de números reais que ele contém, i.e., quanto maior o
diâmetro, maior a imprecisão existente, e, portanto, pior a representação (in-
tervalo) utilizada. Assim, as funções intervalares interessantes, serão aquelas
funções que preservarem a qualidade da representação, i.e.
X ⊆ Y ⇒ F (X) ⊆ F (Y ). Essas funções são denidas a seguir:
Denição 2.7 Uma função intervalar n-ária g de variáveis X1, X2, · · · , Xn
e Y1, Y2, · · · , Yn é uma inclusão monotônica se
Yi ⊆ Xi ⇒ g(Y1, Y2, · · · , Yn) ⊆ g(X1, X2, · · · , Xn). (2.4)
Denição 2.8 (Módulo de um Intervalo) Dado X ∈ I(R) chama-se mó-
dulo do intervalo X como o número real não-negativo:
|X| = max(|x|, |x|),
que corresponde à maior distância de elementos de X a zero.
2.3 Ordem
Na seção anterior, foram apresentadas algumas operações intervalares que
são fundamentais para aplicações envolvendo intervalos. Assim como elas
são contrapartida de operações reais a noção de ordem sobre números reais
também possui contrapartida intervalar.
21
Denição 2.9 Seja A um conjunto não-vazio. Uma relação binária ≤ sobre
A é chamada pré-ordem, se ela satisfaz as seguintes condições, ∀x, y ∈ A
1. Reexividade: x ≤ x;
2. Transitividade: Se x ≤ y e y ≤ z, então x ≤ z;
O par 〈A,≤〉, onde ≤ é uma pré-ordem em A, é chamado conjunto
pré-ordenado. Uma pré-ordem sobre A chama-se ordem parcial, se ela
satisfaz:
3. Anti-simetria: Se x ≤ y e y ≤ x, então x = y.
Neste caso, o par 〈A,≤〉 é chamado conjunto parcialmente ordenado ou
poset (abreviatura do inglês partially ordered set).
Uma ordem parcial em A é chamada de cadeia ou ordem total, se para
quaisquer x, y ∈ A tivermos x ≤ y ou y ≤ x.
Denição 2.10 Considere o poset 〈A,≤〉. Se A possui um elemento ⊥ tal
que ⊥≤ x,∀x ∈ A, então este elemento chama-se menor elemento ou bottom
e a estrutura 〈A,≤,⊥〉 chama-se ordem parcial com menor elemento.
Existem várias ordens que podem ser denidas sobre o conjunto dos in-
tervalos. Dentre elas a de maior importância para este trabalho chama-se
ordem de Kulisch-Miranker [43] apresentada abaixo:
Denição 2.11 Dados X, Y ∈ I(R):
X ≤KM Y ⇔ x ≤ y e x ≤ y (2.5)
Como mencionado, a ordem de Kulisch-Miranker [43] tem um maior des-
taque dentre as demais ordens. Pelo fato de que essa ordem tem a ideia
natural de que se X ≤KM Y , então X está à esquerda de Y na reta
22
real. Outro ponto de destaque sobre a ordem ≤KM é o fato que a estrutura
〈I(R),≤KM , [0, 0]〉 é um reticulado com menor elemento [0, 0].
Em conjuntos fuzzy intervalares, até recentemente, apenas uma ordem
total era considerada, chamada de Xu e Yager [76]:
Denição 2.12 Sejam X, Y ∈ I(R). A ordem Xu e Yager [76] é denida
pela equação:
X ≤XY Y ⇔ x+ x < y + y ∨ (x+ x = y + y ∧ x− x ≤ y − y) (2.6)
Em 2013, Bustince et al. [9] apresentaram um framework baseado em
funções de agregações para construir um novo conceito de ordem, chamado
ordens admissíveis. Ordens admissíveis são ordens lineares que incluem a
ordem de Kulisch-Miranker, porém apenas para o espaço [0, 1]. A denição
de ordens admissíveis é dada por:
Denição 2.13 Seja 〈L([0, 1]),≺〉 uma ordem parcial, onde L([0, 1]) = [x, x]|0 ≤
x ≤ x ≤ 1. A ordem ≺ é chamada de ordem admissível, se satisfazer:
1. ≺ é uma cadeia em L([0, 1]);
2. para quaisquer X, Y ∈ L([0, 1]) temos X≺Y sempre que X ≤KM Y .
Denida uma ordem sobre os intervalos podemos continuar com a noção
de distância.
2.4 Métricas e i-métricas
A noção geométrica de distância entre dois pontos pode ser generalizada
de uma função que mapeia dois pontos do plano Euclideano num número
real não negativo para uma função (com certas propriedades) que mapeia
dois objetos quaisquer num número real não negativo.
23
Essas funções são chamadas de métricas e são as entidades matemáti-
cas que fundamentam os algoritmos de agrupamento. Em 2012 Santana [24]
propôs uma generalização da noção de métrica de forma que o valor da dis-
tância entre dois objetos pudessem ser um objeto qualquer que pertencesse
a um conjunto que satiszesse algumas condições. Essas funções foram cha-
madas de i-métricas.
Um caso particular de i-métrica que mostrou-se eciente em algoritmos de
agrupamento de dados intervalares [66], [64] e [65] é uma função que retorna
um intervalo como resultado da medida de distância entre dois intervalos.
Essa i-métrica recebeu o nome de i-métrica KM, dkm.
Essa seção tem como objetivo apresentar os conceitos de métrica e i-
métrica, em especial a i-métrica dkm. Assim como as métricas fundamentam
os algoritmos usuais de agrupamento (baseados em métricas) a i-métrica dkm
fundamenta os algoritmos de agrupamento que envolvam dados intervalares.
A noção de distância é uma ferramenta matemática utilizada em vários
campos do conhecimento. Algoritmos de agrupamento usam a noção de
distância no cálculo da similaridade (dissimilaridade) para relacionar esses
objetos aos protótipos dos grupos. Em I(R), a métrica canônica é a chamada
distância de Moore [51]:
Denição 2.14 Sejam X, Y ∈ I(R), a distância de Moore é a função, dM :
I(R)× I(R)→ R+ dada por:
dM(X, Y ) = max(|x− y|, |x− y|), (2.7)
Observe que o módulo de um intervalo é um caso particular dessa distância,
ou seja: dM(X, [0, 0]) = |X|.
Muitos trabalhos, [24, 70], criticam a métrica de Moore, devido ao fato
dela não preservar a informação de imprecisão existente nos seus argumen-
24
tos, pois o valor que resultante, assim como de qualquer métrica, será um
número real. Em 1991, Acioly [1] apresentou um dos primeiros trabalhos que
questiona sobre a existência de métricas que preservassem tal informação.
Em 2006, Chakraborty et al. [14] defenderam que a distância entre duas
medidas imprecisas não poderia ser um valor exato, por isso propuseram
uma distância fuzzy para números fuzzy, tal distância tem a capacidade de
preservar a nebulosidade existente nos seus argumentos.
Em 2009, Trindade [70] apresentou os primeiros resultados na denição
de uma métrica intervalar. O objetivo foi promover uma distância intervalar
que preservasse a propriedade de inclusão e a informação de imprecisão. Essa
distância foi utilizada em processamento digital de sinais. Nesse trabalho,
características importantes foram apresentadas: d(X,X) = [0,max(x−x, x−
x)], garantindo apenas que 0 ∈ d(X,X).
Em 2010, foi apresentado o primeiro trabalho que aplicava uma distância
valorada em intervalos na área de agrupamento de dados, por Vargas e Be-
dregal [27]. Nesse trabalho, os autores propuseram um algoritmo chamado
ckMeans e uma nova distância intervalar, enunciada a seguir:
Denição 2.15 (Distância intervalar [27]) Sejam X, Y ∈ I(R). A i-
distância é a função denotada por dI : I(R)× I(R)→ I(R)+ denida por:
dI(X, Y ) = [minde(x, y), de(x, y); maxde(x, y), de(x, y)], (2.8)
onde de é a distância euclidiana.
2.4.1 i-Métrica e i-Métrica dkm
Em 2011 e 2012, Santana e Santiago [24, 61] propuseram uma genera-
lização no conceito de métrica, com modicação nos axiomas e no espaço
25
de valoração dando origem ao conceito de i-métrica. Além de fundamen-
tar algumas distâncias que possuíam valores que não eram números reais,
eles também apresentaram a i-métrica dkm, que sustentará os algoritmos de
agrupamento para dados intervalares.
Denição 2.16 (Conjunto d-dirigido) Seja 〈A,≤〉 um conjunto pré-ordenado,
um conjunto D ⊆ A, D chama-se conjunto d-dirigido, se para cada x, y ∈ D,
existe z ∈ D, tal que z ≤ x, y. Uma relação binária R sobre A é chamada
relação semi-auxiliar para ≤ sempre que:
1. Se xRy, então x ≤ y;
2. Se x ≤ y, yRz e z ≤ w então xRw.
3. Se 〈A,R,≤〉 possui menor elemento, ⊥, então ⊥ Rx para todo x ∈
A− ⊥.
Um conjunto pré-ordenado, 〈A,≤,⊥〉, munido de uma relação semi-auxiliar
R, possui menor elemento separável, sempre que A é d-dirigido e para cada
par de elementos x, y ∈ A, com ⊥ Rx e ⊥ Ry existe z ∈ A tal que z ≤ x, y
e ⊥ Rz.
A denição que segue fornece uma estrutura matemática que generaliza
o conjunto dos números reais não negativos como espaço de valores de dis-
tâncias.
Denição 2.17 (Valoração de i-Distâncias [24]) Uma Valoração de i-
distâncias (VID) é uma ordem parcial 〈A,≤, R,⊥〉 tal que R é uma relação
semi-auxiliar para ≤ com menor elemento separável ⊥.
Uma VID bem conhecida é a valoração das métricas usuais:
〈[0,+∞),≤, <, 0〉.
26
Após generalizar o espaço de valoração de distâncias, Santana e Santiago
propuseram, a generalização da noção de distância, dando origem à noção de
i-métricas.
Denição 2.18 (i-Métrica [24]) Seja M um conjunto não-vazio e
Ω = 〈A,≤, R,⊥〉 uma VID. Uma função d : M × M → A é chamada
i-métrica Ω-valorada, ou simplesmente i-métrica, quando ela satisfaz:
1. d(a, b) =⊥ se, e somente se, a = b;
2. d(a, b) = d(b, a), para quaisquer a, b ∈M ;
3. Se d(a, b)Rε, para algum ε ∈ A com ⊥ Rε, então existe δ ∈ A, com
⊥ Rδ, tal que d(b, c)Rδ ⇒ d(a, c)Rε, ∀c ∈M .
A tripla (M,d,Ω) é chamada de espaço i-métrico.
Em 2011, Santana e Santiago [61] propuseram algumas VID's dando ori-
gem as i-métricas baseadas em intervalos. Uma VID dessas, construída so-
bre a ordem de Kulisch-Miranker tornou-se interessante para a aplicação em
agrupamento de dados intervalares. No que segue, apresenta-se essa VID e a
i-métrica associada.
Denição 2.19 SejaM um conjunto não vazio e Ω = 〈I(R)+,≤km, R, [0, 0]〉
uma VID. A função d : M × M → Ω é chamada i-métrica intervalar ou
simplesmente i-métricas (neste trabalho), se:
1. d(x, y) = [0, 0] se, e somente se, x = y;
2. d(x, y) = d(y, x), para quaisquer x, y ∈M ;
3. Se d(x, y)Rε para algum ε ∈ I(R)+−[0, 0], então existe σ ∈ I(R)+−
[0, 0] no qual se z ∈ I(R) e d(y, z)Rσ, então d(x, z)Rε.
27
Nesse caso, a tripla (M,d,Ω) é chamada de espaço i-métrico aqui,
(neste trabalho) abrevia i-métrico intervalar, uma vez que se subentende que
os valores da i-métrica são intervalos.
Denição 2.20 (Essencialmente abaixo- [24]) Considere um conjunto pré-
ordenado〈A,≤〉. Diz-se que x está essencialmente abaixo de y, o que é
denotado por x y, se para todo conjunto dirigido D ⊆ A com ao menos
um supremóide s tal que y ≤ s, existe d ∈ D tal que x ≤ d.
Proposição 2.1 (Proposição 5.5, [24]) Seja a relação essencialmente
abaixo estrita para ≤KM em I(R)+:
1. [0, 0] X, para todo X ∈ I(R)+;
2. Se x, y > 0, então [0, x] [0, y]⇔ x < y;
3. Se x, x, y, y > 0, então X Y ⇔ (x < y) ∧ (x < y).
Denição 2.21 ([24]) Dados X, Y ∈ I(R), dena X ∗ Y ⇔ X Y e
Y 6= [0, 0].
Teorema 2.1 ([61]) A estrutura 〈I(R)+,≤KM ,∗, [0, 0]〉 é uma VID.
Teorema 2.2 ([24, 61]) Sejam dois intervalos X, Y ∈ I(R) e uma métrica
qualquer, considere o conjunto das distâncias entre os elementos de X e de
Y representado por DXY = d(x, y) : x ∈ X e y ∈ Y . Então, a função
dkm : I(R)× I(R)→ 〈I(R)+,≤km,, [0, 0]〉 denida abaixo é uma i-métrica.
dkm(X, Y ) =
[0, 0] , se X = Y
[min(DXY ),max(DXY )] , se X 6= Y. (2.9)
28
Observe que o conjunto DXY tem o mesmo princípio de um conjunto
X♦Y = x♦y : x ∈ X ∧ y ∈ Y , onde ♦ é uma operação sobre números
reais, ou seja, ele tem o resultado do cálculo da distância entre todos os
elementos de X com todos os elementos de Y . Entretanto, essa representação
do conjunto DXY não é calculável, é necessário que seja provida uma outra
representação para que se possa calcular dkm(X, Y ):
Teorema 2.3 Dados X, Y ∈ I(R), temos:
dkm(X, Y ) =
[0, 0] , se X = Y
[d(x, y), d(x, y)] , se x < y
[dx, y), d(x, y)] , se y < x
[0, d(x, y)] , se X <km Y e X ∩ Y 6= ∅
[0, d(x, y)] , se Y <km X e X ∩ Y 6= ∅
[0,max(d(x, y); d(x, y))] , se X 6= Y e (X ⊂ Y ouY ⊂ X)
.
(2.10)
2.5 Considerações Finais
A ideia principal que motivou este estudo foi a necessidade de distâncias
capazes de capturar as imprecisões. Incertezas essas que as métricas clássicas
não conseguem manter ao calcular a distância entre dois dados intervalares.
Assim, a investigação desse tipo de métrica dentro do contexto de agru-
pamento de dados tornou-se uma questão importante e o alvo desta tese.
O Teorema que segue encerra este capítulo e, apesar de simples, demons-
tra que qualquer distância que seja usada em algoritmos usuais de agrupa-
mento pode ser simulada pela i-métrica dkm, simplesmente aplicando uma
coerção dos argumentos reais para intervalos degenerados, e em seguida apli-
car a i-métrica. Isso signica que intervalos munidos da i-métrica dkm são um
29
ambiente onde a computação usando agrupamentos (pontuais) está imersa.
Teorema 2.4 Seja d : R2 → R uma métrica e i : R → I(R) a inclusão
canônica, i. e. i(x) = [x, x]. Então,
d(x, y) = z ⇔ dkm[i(x), i(y)] = i(z).
Demonstração:
Seja d : R2 → R uma métrica qualquer e i : R → I(R) denida por
i(x) = [x, x].
(⇒) Suponha que d(x, y) = z
Caso x = y, então d(x, y) = 0 e dkm(i(x), i(y))def
= [0, 0] = i(0).
Caso x < y, então i(x) = x < y = i(y) e
dkm(i(x), i(y))def
= [d(i(x), i(y)), d(i(x), i(y))] = [d(x, y), d(x, y)] = [z, z] = i(z)
Caso x > y, a prova é análoga. (⇐) Suponha que dkm(i(x), i(y)) = i(z), en-
tão dkm([x, x], [y, y]) = [z, z]. Caso [x, x] = [y, y], então x = y, dkm(i(x), i(y)def
=
[0, 0] = i(0) e d(x, y) = 0. Os casos dkm(x, y) = [0, d(x, y)] e dkm(x, y) =
[0, d(x, y)] são análagos ao anterior. Nos casos x < y e y < x, dkm(i(x), i(y))def
=
[d(x, y), d(x, y)] = [z, z]. Portanto, de acordo com a igualdade de intervalos,
temos d(x, y) = z.
30
Capítulo 3
Análise de Agrupamento de
Dados
Este capítulo realiza uma revisão da área Agrupamento de Dados. Nele
são descritos os métodos de agrupamento que servem de base para os algo-
ritmos propostos neste trabalho.
Atualmente, vive-se em um mundo com diversos tipos de dados que são
oriundos de todos os tipos de observação. Busca-se encontrar padrões de
similaridade (ou dissimilaridade) entre os objetos para efetuar classicações
ou mesmo, obter informações especícas.
Para buscar esses padrões de similaridade é necessário fazer uma aná-
lise para que seja possível tomar qualquer decisão sobre os objetos e/ou
fenômenos envolvidos. Uma das formas de efetuar classicações de dados
é utilizando o conhecimento de um especialista. No entanto, esse tipo de
prossional normalmente é muito caro. Assim, uma outra forma eciente é
realizar análise desses dados por meio dos métodos de agrupamento de dados.
31
3.1 Agrupamento de Dados
Agrupamento de dados é um campo que tem sido largamente estudado
em aprendizagem de máquina. O principal objetivo é organizar os objetos em
grupos. Por denição, agrupamento de dados é um conjunto de técnicas que
visa dividir os objetos em grupos, de tal forma que os objetos (instâncias) do
mesmo grupo (cluster) são considerados semelhantes e os objetos em grupos
distintos considerados dissemelhantes. Em outras palavras, estas técnicas
têm como objetivo encontrar uma divisão dos objetos em que há grande
similaridade entre os objetos de um mesmo grupo e alta dissimilaridade entre
objetos de grupos diferentes [37].
Existem vários algoritmos de agrupamento propostos na literatura. Eles
são divididos em agrupamentos particionais e agrupamentos hierárquicos
[2, 39, 50, 69, 75]. Este estudo é direcionado apenas para agrupamentos
particionais.
Os agrupamentos particionais podem ser divididos em duas categorias:
Crisp e Fuzzy. No agrupamento crisp, uma instância pertence a um e somente
um cluster, enquanto que o agrupamento fuzzy permite que uma instância
pode pertencer a mais de um cluster com um grau de pertinência uij ∈ [0, 1].
A notação uij ∈ [0, 1] representa o grau de pertinência da j-ésima instância
ao i-ésimo cluster.
Nesta tese são estudados algoritmos de agrupamento fuzzy para dados
intervalares e algoritmos de agrupamento crisp para dados híbridos que con-
tenham dados intervalares e dados cuja medida de distância sejam números
reais.
Não existe na literatura uma denição unicada para descrever agrupa-
mento. Isso pode ser reexo do fato de que, no geral, não existe informação
prévia sobre a estrutura dos dados e nem existe uma única medida de simi-
32
laridade capaz de diferenciar grupos em todas as situações [25, 32]. Como
mencionado, algoritmos de agrupamento formam grupos distintos de obje-
tos;esses grupos são formados com base em uma medida que visa estabelecer
a similaridade entre tais objetos [39].
Por esse motivo, Agrupamento de Dados é comumente reduzido à agru-
par objetos em grupos apropriadamente. Porém, algumas questões funda-
mentais se tornam pertinentes quando a análise de agrupamentos é necessária
[34]:
1. Como medimos a similaridade?
2. Como formamos os agrupamentos?
3. Quantos grupos formamos?
Geralmente três tipos de medidas de similaridade são utilizadas: medidas
correlacionais, medidas baseadas em distância e medidas de associação [34].
As duas primeiras estão ligadas a dados numéricos, já a última a dados não-
numéricos.
As medidas mais utilizadas são baseadas em métricas e, dentre estas, a
mais utilizada é a conhecida métrica Euclidiana.
No caso dos dados intervalares, várias medidas foram propostas ao longo
do tempo: Distância Hausdorf, L1, L2, Euclidiana [15, 17, 18, 21, 26].
Existem outras medidas tais como: distância de Mahalanobis, que faz
uma normalização em relação à variância; similaridade usando cossenos, que
é usada para a classicação de textos e outros dados de alta dimensão; a Cor-
relação de Pearson muito usada em bioinformática, entre outras. No entanto,
não é suciente medir a similaridade, é necessário haver um procedimento
para agrupar os dados mais similares em grupos.
33
O agrupamento crisp é insuciente em certas situações, por exemplo:
como agrupar um conjunto de carros pela cor? Normalmente um tom de
verde é diferente de outro e nem por isso deixou de ser verde. Para lidar com
esse tipo de situação o agrupamento fuzzy é aplicado, pois, nesta abordagem,
um determinado objeto pode pertencer a mais de um cluster com um grau
de pertinência. No caso de classicarmos um carro no grupo dos carros de
cor verde estaremos denindo o grau de pertinência do mesmo com relação
ao grupo de carros de cor verde.
A formação dos clusters necessitam de uma grande atenção quanto ao
terceiro questionamento. O número de grupos não é facilmente respondido,
pois na maioria dos casos não sabemos, a priori, o número de grupos.
Ao se aplicar agrupamento em dados rotulados nem sempre os grupos for-
mados coincidirão com os rótulos conhecidos, pois o objetivo de agrupamento
não é apenas classicar dados, mas encontrar grupos que tenham um signi-
cado relevante [31]. No entanto, existem na literatura heurísticas que guiam
a escolha da quantidade de grupos baseada na estrutura do agrupamento
formado [34].
O que buscamos é o menor número de grupos e a maior homogeneidade
dos objetos em cada grupo. Uma das formas de atingir isso é aplicando
métodos para agrupamentos de dados, que são tratados na próxima seção.
3.2 Algoritmos para Agrupamento de Dados
Apesar do grande potencial da maioria dos métodos de agrupamento,
não existe um único método que seja capaz de obter um bom desempenho
em todos os problemas, portanto se faz necessário escolher qual o melhor
algoritmo de agrupamento para um determinado conjunto de dados, dentro
34
da nalidade da aplicação em questão.
De uma forma geral, os algoritmos são classicados em hierárquicos e
particionais. Para maiores detalhes veja [2, 50, 69, 75].
Algoritmos hierárquicos são utilizados nas mais diversas áreas, desde a
economia [8] até a genética [30]. Esses algoritmos produzem uma série de
partições baseadas no critério de aglomeração ou no critério de divisão que
estão relacionados com a medida de similaridade. Os algoritmos aglomera-
tivos iniciam com cada objeto formando um grupo e durante as interações
os pares de grupos mais próximos são combinados até que todos os objetos
estejam em apenas um grupo.
A abordagem divisiva vai na direção contrária, todos os objetos pertencem
a um único grupo que iterativamente divide-se em grupos que estão mais
afastados um do outro, até que ao nal cada objeto forma um grupo unitário.
Algoritmos de agrupamento hierárquico produzem uma partição para
cada valor de c = 1, ..., n sendo n o número total de objetos [75].
No caso dos algoritmos particionais, são calculadas diretamente as par-
tições ao minimizar uma função de otimização. Uma função de otimização
muito utilizada é a função custo, a qual potencializa a dissimilaridade en-
tre os grupos e a similaridade dentro de cada grupo. Os algoritmos par-
ticionados têm sua estrutura centrada nos protótipos. Os algoritmos mais
conhecidos são: K-Means, Fuzzy c-Means, Possibilistic C-Means e Mapas
auto-organizáveis [3, 41, 42, 44]. Fuzzy C-Means (FCM), introduzido por
Bezdek em 1981 [3], é um dos primeiros e mais populares algoritmos de
agrupamento fuzzy. A partir dele inúmeras variações foram criadas. Outro
algoritmo muito utilizado e com diversas versões é o K-Means. Pelo fato
dos algoritmos aqui apresentados derivarem desses dois algoritmos, vamos
apresentá-los mais detalhadamente.
35
Para entender o funcionamento desses algoritmos é importante ter clara a
representação dos objetos. No caso, cada objeto de entrada para o algoritmo
é representado por um vetor de atributos. Por exemplo, considere o conjunto
de dados das amostras de informações clínicas de n pacientes (objetos), X =
x1, x2, · · · , xi, · · · , xn. Cada paciente xi possui um vetor de características,
tais como: peso, idade, sexo, altura, cor da pele, tipo de doença, entre outras.
Assim, o que algoritmos baseados no K-Means e no FCM buscam é criar
grupos com maior homogeneidade entre elementos do mesmo grupo e maior
heterogeneidade entre elementos de grupos diferentes.
Portanto, algoritmos baseados no K-Means e no FCM minimizam uma
função objetivo na forma:
J(U, V ) =c∑
i=1
n∑k=1
umik‖−→xk −−→vi ‖2 − P (U) (3.1)
sendo a partição [uik] = U pertencente a Mhcn, a Mfcn ou a Mpcn. Os pro-
tótipos dos grupos são representados pelo vetor V = −→v1 , · · · ,−→vc ∈ Rd×c,
c é o número de grupos, n o número de objetos, m o parâmetro de fuz-
zicação, sendo m = 1 para K-Means e m ∈ (1,+∞] para métodos fuzzy
e possibilístico, e P é uma função de penalidade, usada em agrupamentos
possibilísticos.
O cálculo da distância entre o objeto k e o protótipo i é geralmente
realizado pela distância euclidiana, ‖−→xk−−→vi ‖ =√∑p
j=1(xjk − v
pi )2 e pode ser
representado por d(−→xk,−→vi ). Os protótipos dos grupos podem ser calculados
da seguinte forma:−→vi =
∑nk=1(uik)m−→xk∑nk=1(uik)m
(3.2)
Para obter a matriz de partição, os algoritmos K-Means e FCM efetuam
seus cálculos de formas diferentes, assim as subseções seguintes descrevem
cada um desses algoritmos.
36
3.2.1 K-Means
No algoritmo K-Means, cada objeto é atribuído a um único grupo, e o
cálculo da matriz de partição é dado por
uik =
0 caso dik > min1≤j≤cdjk
1 caso contrário.(3.3)
O algoritmo K-Means é inicializado ao escolhermos aleatoriamente os cen-
tros iniciais dos clusters. O Algoritmo 1 apresenta os passos do algoritmo
K-Means.
Algoritmo 1: Algoritmo K-Means [44]Entrada: X - Conjunto de dados, c - número de grupos, ε - Tolerância
Dados: U - matriz de partição, onde uik indica se o objeto k está no
grupo i.
Saída: U e V
Inicialize V repitaCalcular U usando equação (3.3); Atualizar os c protótipos usando
a equação (3.2)
até ‖Vnew −Vold‖ ≤ ε;
Existem diversos problemas que envolvem o K-Means, tais como: os clus-
ters nais não representam uma otimização global mas apenas local e clus-
ters diferentes podem surgir a partir da diferença na escolha inicial aleatória
dos protótipos; o parâmetro c deve ser escolhido antecipadamente ou vários
valores devem ser testados até encontrar o melhor; os dados devem ser nu-
méricos e devem ser comparados através da distância Euclideana; o algoritmo
trabalha melhor com dados que contêm clusters esféricos; clusters com ou-
tras geometrias podem não ser encontrados; o algoritmo é sensível a outliers,
37
esses pontos podem distorcer a posição do centroide e deteriorar a qualidade
das partições.
3.2.2 Fuzzy C-Means
O FCM é baseado na lógica fuzzy [77], onde cada instância não pertence
apenas a um cluster, mas, ao invés disso, possui um grau de pertinência
para cada cluster existente no processo. U é uma matriz de partição (n ×
c) chamada matriz de pertinência. Todas as partições fuzzy satisfazem as
seguintes restrições:
µik ∈ [0, 1], (1 ≤ i ≤ n), (1 ≤ k ≤ c), (3.4)c∑
k=1
µik = 1, (1 ≤ i ≤ n), (3.5)
n∑i=1
µik > 0, (1 ≤ k ≤ c). (3.6)
Para o algoritmo FCM, a partição fuzzy é calculada por:
uik =
[∑cj=1
(‖xk−vi‖‖xk−vj‖
) 1m−1
]−1Se djk 6= 0 ∀j
1 Se dik = 0
0 Se dik 6= 0 e djk = 0 para algum j.
(3.7)
O cálculo do protótipo, Eq. (3.2), e da atualização da partição, Eq.
(3.7), são alternados até convergirem. O algoritmo FCM, assim como o K-
Means, sofre com a inicialização aleatória dos centros iniciais dos clusters.
O Algoritmo 2 apresenta os passos do algoritmo FCM.
Um ponto fraco do FCM é o fato dele ser computacionalmente mais caro
que o K-Means. E assim como o K-Means, o FCM é sensível a outliers. Assim
como esses algoritmos serviram de base para os algoritmos propostos neste
38
Algoritmo 2: Algoritmo FCM [3]Entrada: X - Conjunto de dados, c - número de grupos, ε- Tolerância
Dados: U - matriz de partição, onde uik é o grau de pertinência do
objeto k no grupo i.
Saída: U e V
Inicialize V repitaCalcular U usando a equação (3.7 ); Atualizar os c protótipos pela
equação (3.2);
até ‖Vnew −Vold‖ ≤ ε;
trabalho, muitos outros algoritmos são encontrados na literatura partindo
do FCM e K-Means, dentre esses vamos apresentar na próxima seção os que
usam dados intervalares.
3.2.3 Outros Métodos de Agrupamentos para Dados In-
tervalares
Nesta subseção vamos apresentar os métodos de agrupamentos para dados
intervalares, pois este trabalho é voltado para métodos particionais usando
dados intervalares.
Em 2000, Bock and Diday [5] propuseram uma maneira de trabalhar
com dados intervalares, o qual é conhecida como o método do centro. Neste
método é calculada a média aritmética dos valores mínimos e máximos para
cada dado intervalar de entrada e em seguida é feito o agrupamento usando
o FCM. Em 2003, Bock [4] construiu o algoritmo SOM (do inglês, Self-
organizing maps) baseado na distância dos vértices para visualizar dados
intervalares.
Em 2004, Souza e Carvalho [26] propuseram dois algoritmos de agrupa-
39
mento dinâmico para dados intervalares: o primeiro faz uma extensão para
intervalos usando city-block e o segundo é uma versão adaptada com uma ou
duas componentes. Ainda em 2004, Souza et al. [26], propuseram dois algo-
ritmos de agrupamento dinâmico usando a distância de Mahalanobis: sendo
que no primeiro método, a distância é igual para todos os grupos; no outro
algoritmo proposto é utilizada uma versão adaptativa da distância.
Em 2006, Sato-Ilic and Jain [63] zeram uma extensão do método desen-
volvido por Bock and Diday [5]. Nessa extensão, os dados são decompostos
em dois conjuntos de dados: um com os valores mínimos e o outro com os
valores máximos, onde, são atribuídos pesos para essas séries de dados nos
valores mínimos e máximos. Carvalho et al. [21] propuseram um algoritmo
de agrupamento dinâmico para dados intervalares usando a distância adap-
tativa de Hausdorf, onde a distância altera a cada iteração que depende da
estrutura de cada grupo.
Em 2007 Zang et al. [78] propuseram uma extensão do algoritmo FCM
para o processamento de dados intervalares. Nesse trabalho os autores re-
alizaram simulações com um conjunto de dados reais que foram obtidos de
um sistema de transporte real. O algoritmo permite processar conjuntos de
dados intervalares e ainda mostra que a proposta desse algoritmo pode ser
usada para extrair regras de intervalos fuzzy tipo 2 [54].
Carvalho [18], propôs um algoritmo não-adaptativo e adaptativo baseado
no FCM que utiliza a distância Euclideana entre vetores de intervalos. Em
[38], Irpino e Verde, propuseram uma nova distância,Wasserstein, para dados
intervalares e também implementaram um algoritmo dinâmico.
Em 2010, Carvalho e Tenório em [22], propuseram um algoritmo fuzzy
k-Means que é baseado em distâncias quadráticas e a distância muda a cada
iteração, podendo ser a mesma para todos os grupos ou uma para cada grupo.
40
Em [17], o autor propôs um algoritmo fuzzy SOM para dados intervalares que
é baseado no algoritmo SOM seguindo o mesmo modelo do algoritmo FCM e
o algoritmo combina a matriz de pertinência fuzzy com a taxa de aprendizado.
No contexto de dados intervalares e distâncias essencialmente intervalares
(distâncias cujos valores são intervalos), Vargas em [29] propôs uma extensão
do ckMeans baseado no FCM para dados intervalares, usando uma distância
essencialmente intervalar.
Na próxima subseção, são detalhados os métodos usados para o estudo
comparativo dos métodos propostos.
3.2.4 Métodos Usando Abordagens Fuzzy Para Dados
Intervalares
Em 2007, utilizando as estratégias adaptativa e não-adaptativa, Carvalho
[18] apresentou duas versões do FCM. Para o método não-adaptativo, cha-
mado de IFCM, foi utilizada a distância euclidiana em uma versão adaptada
do FCM que utiliza a seguinte função para calcular os protótipos.
vi = [vi, vi], onde vi =
∑nk=1(uik)mxk∑nk=1(uik)m
e
∑nk=1(uik)mxk∑nk=1(uik)m
, 1 ≤ i ≤ c. (3.8)
No método adaptativo o algoritmo busca que ao nal de cada etapa de
associação, a distância entre os objetos e os protótipos seja a menor possível,
para isso o algoritmo associa uma distância diferente para cada grupo. Nos
métodos, o autor, procura minimizar a seguinte função:
J(U, V, dA) =c∑
i=1
n∑k=1
umikd2A(xk, vi) (3.9)
onde U é a matriz de partição, V é o vetor dos protótipos, dA é uma distância
adaptativa que mede a dissimilaridade entre o protótipo vi e o objeto xk.
41
Nos métodos de agrupamentos dinâmicos são considerados pesos, λ, para
cada cálculo de distância. Esses pesos podem variar ao considerar o resultado
do agrupamento ao nal de cada iteração. E mais, eles podem considerar a
informação advinda dos grupos como também de cada objeto. O fato da
distância não ser única para todos os grupos e também o fato de que a cada
iteração deve ser medida a qualidade da soma das distâncias, são fatos muito
importantes. A distância dA(xk, vi) é denida por:
dA(xk, vi) =
√√√√ p∑j=1
λji [(xk − vi)2 + (xk − vi)2] (3.10)
sendo dA a parametrização da distância pelo vetor de pesos λi onde 1 ≤ i ≤ c,
e é alterado em cada iteração.
Observe que a equação (3.10) é a distância Euclidiana ponderada para
cada protótipo i e dimensão j pelo pesos λji . Esses pesos são atualizados
usando a seguinte equação:
λji =[Πp
h=1(∑n
k=1(uik)m((xhk − vh
i )2 + (xhk − vh
i )2))]1p∑n
k=1(uik)m((xjk − vj
i )2 + (xj
k − vji )
2), (1 ≤ j ≤ p), (1 ≤ i ≤ c)
(3.11)
onde Πpj=1λ
ji = 1, (1 ≤ i ≤ c).
O Algoritmo 3 descreve os passos do IFCMADC, ele é iniciado com a
escolha aleatória de U e alterna em três passos até obter a convergência.
Vargas e Bedregal [27] apresentaram a primeira versão de um algoritmo
que utiliza uma distância essencialmente intervalar. Nesse estudo, os autores
criaram uma versão intervalar do algoritmo ckMeans modicando a distância
proposta em [71]. Esse algoritmo, tem a capacidade de considerar graus de
pertinência intervalar. De acordo com Bedregal e Vargas em [27], o algoritmo
ckMeans segue a mesma estrutura do algoritmo FCM, no entanto, a única
mudança é sobre a forma de como calcular o centro dos grupos. Por isso, é
42
Algoritmo 3: Algoritmo IFCMADC [18]Entrada: X - Conjunto de dados, c - número de grupos, ε
Dados: U - matriz de partição fuzzy, λ - vetor de pesos.
Saída: U e V
Inicialize U
repitaCálculo de V é obtido pela equação 3.8. Os pesos são atualizados
utilizando a equação (3.11)
Atualiza a matriz de pertinência uik com equação:
uik =
[c∑
j=1
(dA(xk,vi)
dA(xk,vj)
) 1m−1
]−1
até ‖Jnew − Jold‖ ≤ ε;
criada uma nova matriz,chamada Ucrisp, contendo os valores 0 ou 1. Cada
linha desta nova matriz tem 1 na posição do maior valor desta linha na matriz
U e 0 nas outras posições da linha. O algoritmo ckMeans muda o método de
calcular os protótipos, já que ele não utiliza a matriz U , e sim uma matriz
Ucrisp, que é obtida a partir de U , pela equação abaixo:
µcrispij =
µijc
maxl=1
µlj
, (3.12)
e o cálculo dos centros em ckMeans usa a matriz Ucrisp, na equação:
vj =
n∑i=1
µcrispijxi
n∑i=1
µcrispij
, 1 ≤ j ≤ c. (3.13)
No ponto de vista das funções do algoritmo, a versão intervalar não sofreu
nenhuma alteração em relação à versão pontual desse algoritmo. Porém,
43
em [27] foi proposta uma nova forma de atualizar a matriz de pertinência
intervalar, onde foi obtido um intervalo mais estrito, uma vez que a divisão
entre dois intervalos iguais não é necessariamente igual ao intervalo [1,1],
para obter isso, foi feita a seguinte substituição: toda vez que a divisão é
entre intervalos iguais é substituído pelo intervalo [1,1], ao invés de realizar
a divisão.Algoritmo 4: Algoritmo ckMeans Intervalar [29]Entrada: X - Conjunto de dados, c - número de grupos, ε
Dados: U - matriz de partição fuzzy
Saída: U e V
Inicialize U
repitaCalcular Ucrisp usando a Equação (3.12).
Calcular V com vi = [vi,vi],
vi =
∑nk=1(ucrispik)mxk∑nk=1(ucrispik)m
e vi =
∑nk=1(ucrispik)mxk∑nk=1(ucrispik)m
, (1 ≤ i ≤ c).
(3.14)
Atualizar a matriz de pertinência uik com
uik =
i−1∑j=1
(dI(xk,vi)
dI(xk,vj)
) 1m−1
+ [1, 1] +
(c∑
j=i+1
dI(xk,vi)
dI(xk,vj)
) 1m−1
−1
até ‖dI(Jnew,Jold)‖ ≤ ε;
Esse algoritmo encerra essa parte onde os métodos atuais de agrupamento
são apresentados. A próxima seção apresenta os métodos desenvolvidos nessa
tese.
44
Parte II
Métodos Propostos
45
Capítulo 4
Métodos Propostos para Dados
Intervalares
Neste capítulo, são apresentados algumas das contribuições deste traba-
lho. É fornecida uma plataforma para a realização de agrupamento com da-
dos intervalares, incluindo medida de distância, algoritmos de agrupamento
fuzzy e índices de validação. Para isso, é formalizada a ideia de uma distância
baseada em intervalos.
Em seguida, são apresentados as adaptações necessárias para denir dois
algoritmos de agrupamento fuzzy para dados baseado em intervalos, os quais
são inspirados pelos algoritmos FCM e ckMeans. Ainda neste capítulo, serão
apresentados os índices de validação adaptados para dados intervalares, CIh,
FSh e XBh.
Seja Ω = x1, · · · , xn um conjunto com n objetos, sendo cada objeto xk
descrito por s variáveis intervalares, obtém-se um vetor de intervalos xk =
(x1k, · · · , xsk), onde xjk = [xjk, xjk] ∈ I(R), para todo j = 1, · · · , s.
Considere um conjunto de c clusters que também podem ser representa-
dos por um vetor de intervalos vi = (v1i , · · · , vsi ), onde vji = [vji , v
ji ] ∈ I(R),
46
para todo j = 1, · · · , s.
De acordo com a Denição 2.18, podemos denir uma distância baseada
em intervalos, d : 〈I(R)+, [0, 0]〉s × 〈I(R)+, [0, 0]〉s −→ 〈I(R)+, [0, 0]〉.
Seja dV ID uma i-métrica descrita na Denição 2.18, assim a distância
baseada em intervalos para dados s-dimensionais pode ser denida como:
d(xk, vi) =
√√√√ s∑j=1
dV ID(xjk, vji )
2. (4.1)
que representa a distância do objeto xk para o protótipo vi, onde xk e vi são
representados como um vetor de intervalos.
Para utilizar dados intervalares são denidos alguns algoritmos de agru-
pamentos fuzzy. Na próxima seção, apresentamos as adaptações necessárias
para a construção da matriz de pertinência para intervalos, U, para trabalhar-
mos com distância baseada em intervalos que também carreguem o conceito
de representação intervalar [62].
4.1 Matriz de Pertinência Intervalar
Para trabalhar com algoritmos de agrupamentos fuzzy que utilizam dados
intervalares é preciso também que o grau de pertinência seja intervalar, µik.
Portanto, a matriz U , precisa ser adaptada. Assim, considere agora a
matriz de pertinência intervalar U = [uik] ∈ I([0, 1])n×c, onde I([0, 1]) = x ∈
I(R) | 0 ≤ x ≤ x ≤ 1. As restrições descritas nas Eqs. (3.4), (3.5) e (3.6)
47
podem ser adaptadas, respectivamente, para U nas seguintes equações:
uik ∈ I([0, 1]), (1 ≤ k ≤ n), (1 ≤ i ≤ c) (4.2)c∑
i=1
uik = [1, 1], (1 ≤ k ≤ n) (4.3)
n∑k=1
uik > [0, 0], (1 ≤ i ≤ c) (4.4)
Portanto, para ser capaz de utilizar a distância baseada em intervalos,
equação (4.1), duas importantes questões devem ser consideradas: é neces-
sário vericar se a equação (3.7) satisfaz todas as restrições descritas nas
equações (4.2), (4.3) e (4.4); e é necessário fazer adequações na equação (3.7)
para os casos em que 0 ∈ dik e dik 6= [0, 0].
Primeira questão. A m de obtermos uma adaptação para pertinência
intervalar, uik, a ideia geral é calcular o maior e menor valor possível de todos
os graus de pertinências exatos µik. Em outras palavras, para cada intervalo
obtido pela distância baseada em intervalos, o grau de pertinência pontual ,
µik, é calculado para cada um dos elementos que são utilizados para construir
o grau de pertinência intervalar: uik.
Para isso, é importante mencionar que o cálculo do grau de pertinência
µik na equação (3.7) não depende apenas da distância de xk para o protótipo
vi, mas também depende das distâncias de xk para todos os outros valores
do vetor V .
Ao adaptar a equação (3.7) para uma distância intervalar é usado o vetor
de todas as distâncias, Dk, entre xk e os protótipos de V . Este vetor está
no domínio de uma função que fornece a maior distância relativa para os
elementos do vetor V . Essa função retorna o conjunto com a maior distância
(limite superior do intervalo) entre o objeto xk para o i ésimo protótipo e
a menor distância (limite inferior do intervalo) para os demais elementos de
48
Dk. Da mesma forma, é possível denir uma função que fornece a menor
distância relativa.
Formalmente, considere Dk = [dik, dik]|i = 1, . . . , c como uma distân-
cia intervalar obtida pela equação (4.1) apartir de xk para um conjunto
de valores do vetor V . As funções gmin : 〈I(R)+, [0, 0]〉c −→ 〈R+, 0〉c e
gmax : 〈I(R)+, [0, 0]〉c −→ 〈R+, 0〉c são a menor e a maior distância rela-
tiva para cada protótipo, respectivamente, e podem ser denidos como se
segue:
gmin(Dk) = dik∪djk | j ∈ 1, . . . , i−1, i+1β, . . . , c | 1 ≤ i ≤ c1 (4.5)
gmax(Dk) = dik ∪ djk | j ∈ 1, . . . , i− 1, i+ 1, . . . , c | 1 ≤ i ≤ c (4.6)
Seja f uma função que calcula a matriz de pertinência fuzzy para da-
dos pontuais e F a melhor representação intervalar de f , ver [62], ou seja,
F (Dk) = [min f(Dk),max f(Dk)].
De acordo com [62], F é isotônica e retorna o intervalo ótimo contendo a
imagem de f . No entanto, a pertinência fuzzy uik (similaridade) deve diminuir
à medida que a distância (dissimilaridade) dik aumenta, em outras palavras,
uik < µip ⇐⇒ dik > dip, para todo k, p, i. Portanto, min f(Dk) é o mesmo que
f(maxDk). Como o algoritmo de agrupamento c-means aplica distância re-
lativa, o mesmo é feito aqui, ou seja,
max f(Dk) = f(minDk) = f(gmin(Dk)).
Para calcular as funções intervalares é necessário deni-las em termos dos
extremos. Para atingir isso, é preciso redenir a função F (Dk) = [f(gmax(Dk)), f(gmin(Dk))]
da seguinte forma: Substituindo gmax e gmin na Eq. (3.7) obtemos umaxik e
1Nota-se que gmin(Dk) é a imagem direta gmin sob Dk. O mesmo é válido para gmax(Dk).
49
uminik do seguinte modo.
uminik =
k−1∑j=1
(dikdij
) 2m−1
+
(dik
dik
) 2m−1
+c∑
j=k+1
(dikdij
) 2m−1
−1 ,(4.7)
umaxik =
[k−1∑j=1
(dik
dij
) 2m−1
+
(dik
dik
) 2m−1
+c∑
j=k+1
(dik
dij
) 2m−1
]−1.
(4.8)
Simplicando as equações acima, obtém-se:
uminik =1
k−1∑j=1
(dikdij
) 2m−1
+ 1 +c∑
j=k+1
(dikdij
) 2m−1
(4.9)
umaxik =1
k−1∑j=1
(dik
dij
) 2m−1
+ 1 +c∑
j=k+1
(dik
dij
) 2m−1
(4.10)
Observe que as equações (4.7) e (4.8) evitam a aplicação da divisão in-
tervalar, que é diferente de 1 sempre que os seus operados não são intervalos
degenerados. Por outro lado,dikdik
= dikdik
= 1, garantem que o denominador
será sempre maior do que 1, obtendo os valores no intervalo (0, 1).
Segunda questão. Para lidar com essa questão, é necessário incluir
os casos em que 0 ∈ dik e dik 6= [0, 0] no cálculo do grau de pertinência
intervalar. Assim, a matriz intervalar U = [uik], tal que uik = [uik, uik], pode
ser obtida seguindo a representação baseada em intervalos da equação (3.7).
50
Essa matriz pode ser obtida para todos os casos, como segue:
uik =
[uminik , umaxik ] ,se Ik = ∅ e Ek = ∅
[0, umaxik ] ,se Ik 6= ∅ e i /∈ Ik e Ek = ∅
[uminik , 1]
,se Ik 6= ∅ e i ∈ Ik e Ek = ∅ e |Ik| = 1[0, 1]
,se Ik 6= ∅ e i ∈ Ik e Ek = ∅ e |Ik| > 1[0, 0]
,se Ek 6= ∅ e i /∈ Ek e Ik = ∅[1
|Ek|,
1
|Ek|
],se Ek 6= ∅ e i ∈ Ek e Ik = ∅[
0,1
1 + |Ek|
],se Ik 6= ∅ e Ek 6= ∅ e i ∈ Ik[
1
|Ik|+ |Ek|,
1
|Ek|
],se Ik 6= ∅ e Ek 6= ∅ e i ∈ Ek
(4.11)
Onde: Ik = i|0 ∈ dik and dik 6= [0, 0] e Ek = i|dik = [0, 0], assim
como |Ik| e |Ek| são as cardinalidades desses conjuntos, respectivamente.
Em (4.11) observe que uik ∈ U não satisfaz a restrição da equação (4.3)
que é uma das condições do primeiro questionamento. De fato, considere
o conjunto de intervalos [a1, a1], . . . , [aj, aj], . . . , [ac, ac],c∑
j=1
aj =c∑
j=1
aj se
e somente se aj = aj ∀j. Em outras palavras, uma soma de intervalos é
degenerada se, e somente se, todos os intervalos são degenerados. Portanto,
embora esse aspecto não seja satisfeito, os aspectos principais do primeiro
questionamento são.
Diferente do informado em [29], a diferença entre as funções modicadas
(4.7) e (4.8) e a clássica (3.7) para intervalos, não é meramente obter um
intervalo mais estreito, mas a versão clássica não é adequada para dados
intervalos. Contudo, a intuição do autor em modicar a divisão intervalar
do termo dik/dik pelo intervalo degenerado [1, 1], se mostrou acertada, pois
a modicação de uma operação, nesse caso a divisão intervalar para uma
mais estreita, levanta alguns questionamentos sobre a corretude, e nenhuma
informação sobre as consequência disso foi apresentada pelo autor. De fato,
51
vericar a corretude das operações intervalares é uma das motivações desta
pesquisa, ao propor uma versão intervalar da matriz de pertinência seguindo
o paradigma da Representação Intervalar [18]. O outro fator que motivou
esta pesquisa é a falta de informação dos casos excepcionais da Equação (3.7),
em outras palavras, o trabalho [29] não fez a adaptação quando 0 ∈ dik para
algum i ou k.
As próximas seção descrevem os algoritmos de agrupamentos fuzzy base-
ados em intervalos.
4.2 Algoritmo Intervalar Baseado no Fuzzy C-
means - IbFcM
IbFcM é um método intervalar baseado no comportamento do algoritmo
fuzzy c-means (FCM). Possui a mesma estrutura do FCM, apresentada na
subseção 3.2.2, mas a principal diferença é que são estendidas todas as fun-
ções usadas em FCM para intervalos. Além disso, é criada uma matriz de
pertinência U que contém intervalos degenerados de U de tal modo que a
proporção entre todos os intervalos sejam preservados na nova matriz. Essa
nova matriz U tem sido denida desde que U não satisfaça uma restrição da
equação (4.3), como indicado na seção anterior.
Apesar de estarmos transformando a matriz de pertinência intervalar U
em uma pontual U, a principal diferença das outras propostas [18, 21, 20,
40, 67], com agrupamentos intervalares é o ponto em que é feito essa trans-
formação para pontual. Aqui é feito após o cálculo da matriz de pertinência
intervalar, diferentemente das outras propostas que realizam esse processo
quando é realizado o cálculo da distância. Assim, a incerteza presente nos
dados são preservadas mais que nos outros métodos, o que tem um efeito
52
positivo quando tratamos com a natureza imprecisa dos dados.
Portanto, a função objetivo intervalar é apresentada a seguir, equação
(4.12), e o cálculo dos centros na equação (4.14) foi adaptado para utilizar
U em vez da original U.
Jm(U, V ) =n∑
k=1
c∑i=1
wmikd(xk, vi)
2, (4.12)
onde: n é o tamanho dos dados intervalares; c é o número de clusters que o
algoritmo considera; m é o parâmetro de fuzzicação, sendo m > 1; wik é o
grau de pertinência (intervalo degenerado) que xk em vi; xk é o k-ésimo dado
intervalar; vi é o centro (intervalar) do i-ésimo agrupamento e d(xk, vi) é a
distância intervalar (i-métrica) entre xk e vi. O grau de pertinência intervalar
degenerado, wik é obtido de uik por uma função que preserva a proporção
entre os pontos extremos de todos os intervalos da matriz de pertinência.
Então, sejam uik e uir ∈ U para todo k 6= r. Considere agora wik e wir ∈ U
e α1, α2 ∈ R, podemos manter a proporção entre as extremidade, de tal
maneira que se [uik, uik] = [α1uir, α2uir], então wik = wir · (α1 +α2)/2 ∀k 6= r
e i = (1, . . . , n), de tal modo que∑c
k=1wik = 1. Essa função é descrita pela
equação 4.13.
Os passos principais do algoritmos são descritos a seguir:
53
Algoritmo 5: Algoritmo IbFCM [66]Entrada: X- Conjunto de Dados; c é o número de clusters; m é o
parâmetro de fuzzicação, m > 1;ε é uma constante
pré-determinada
Saída: U e V
Inicialize V repitaCalcular U, usando a equação 4.11;
Calcular U que contém intervalos degenerados usando U:
wik =
uik
2c∑
j=1
ujk
+uik
2c∑
j=1
ujk
,c∑
j=1
uik 6= 0
uikc∑
j=1
uij
, caso contrário;(4.13)
Calcular Jm usando a equação (4.12); Calcular o novo protótipo do
grupo j. O valor vi é um intervalo [vi, vi]:
vi =
∑nk=1w
mik xk∑n
k=1wmik
vi =
∑nk=1w
mik xk∑n
k=1wmik
; (4.14)
até max(||Jm,new − Jm,old|| ≤ ε);
54
4.3 Algoritmo Fuzzy Intervalar Baseado no Ck-
Means - IbckM
IbckM é um algoritmo baseado no ck-Means intervalar proposto em [27].
A principal diferença entre eles está na função que calcula os valores de per-
tinência. Ao contrário do ckMeans intervalar, em nosso algoritmo proposto,
consideramos os casos 0 ∈ dik e usamos a melhor representação intervalar da
função de pertinência pontual.
Assim como o ckMeans intervalar, o IbckM constrói Ucrip que é baseada na
U. No entanto, IbckM usa uma técnica diferente para comparar os intervalos.
A maioria das medidas à base de intervalo existentes não usam ordem total,
como em Moore [52] e Kulisch-Miranker [24].
Em [9, 10], os autores armam que uma ordem admissível pode ser utili-
zada para comparar qualquer par de intervalos. É basicamente uma ordem
total que estende a ordem de Kulisch-Miranker. Ao nal do processo de agru-
pamento é necessário atribuir um elemento para um cluster, o paradigma
fuzzy baseado em intervalos atinge altos valores de uik para cada xi, quando
uij ∈ U. Se faz necessário utilizar uma ordem total admissível e, neste caso,
a ordem lexicográca é uma opção.
Os passos principais são descritos a seguir:
55
Algoritmo 6: Algoritmo IbckM [66]Entrada: X- Conjunto de Dados; c é o número de clusters; m é o
parâmetro de fuzzicação, m > 1;ε é uma constante
pré-determinada
Saída: U e V
Inicialize V repitaCalcular U, usando a equação 4.11;
Calcular Ucrisp que contém valores 1 ou 0; Calcular Jm usando a
equação (4.15);
Jm(U, V ) =n∑
k=1
c∑i=1
(µcrispik)md(xk, vi)2, (4.15)
Calcular o novo protótipo do grupo j. O valor vi é um intervalo
[vi, vi]:
vi =
∑nk=1(µcrispik) xk∑nk=1(µcrispik)
vi =
∑nk=1(µcrispik) xk∑nk=1(µcrispik)
; (4.16)
até max(||Jm,new − Jm,old|| ≤ ε);
56
Observa-se que os valores da matriz Ucrisp são 1 ou 0 e que cada linha
desta nova matriz tem 1 na posição do maior valor desta linha na matriz U
e 0 nas outras posições da linha. Em seguida, é utilizada uma ordem total
admissível para comparar os intervalos.
Ao calcular Jm, utilizando a equação (4.15), note que existe uma pequena
diferença em relação ao algoritmo ckMeans intervalar [29]. No ckMeans in-
tervalar, ao calcular Jm, é utilizada U ao invés de Ucrisp. No entanto, ao
fazer isso, é impossível satisfazer todas as restrições da equação (4.3), como
já dito. Portanto, Ucrisp é usada em IbckM.
4.4 Validação de Agrupamentos Intervalares
Como já mencionado, algoritmos de agrupamento baseado em intervalos
tomam como entrada uma matriz de pertinência intervalar e produzem pelo
menos uma partição U. Neste caso, Ucrisp e U consistem em matreizes com
intervalos degenerados, para ambos algoritmos ckMeans baseados em inter-
valos e FCM baseado em intervalos, respectivamente. Assim, qualquer índice
de validação que leva que considera apenas U como entrada, como PC e PE,
pode ser usado diretamente com algoritmos de agrupamento fuzzy baseados
em intervalos.
No entanto, os índices de validação que consideram X ou V como en-
tradas, não podem ser aplicados diretamente em agrupamentos intervalares
devido à exigência de uma aritmética intervalar.
Por exemplo, C-índice, estimador de coesão, tem seus valores no intervalo
[0, 1] e, se a menor soma das distâncias de todos os pares (considerando todos
os grupos) for igual à soma das distâncias dos pares considerando apenas
objetos do mesmo agrupamento, então obtém-se o ajuste perfeito. Em outras
57
palavras, C-índice é igual 0.
Na aritmética intervalar de Moore, no entanto, é possível que para Y ∈
I(R), Y − Y 6= [0, 0] , uma vez que a adição padrão de Moore e a multipli-
cação não são operações invertíveis. Para contornar esse problema, tivemos
que encontrar algumas operações inversas que podem ser utilizadas aqui. A
diferença Hukuhara, proposta em [37], tem esse comportamento e será usada.
H-diferença é denido da seguinte forma:
AB = C ⇔ A = B + C. (4.17)
H-diferença é única, mas uma condição necessária para A B existir é
que A contenha a translação de B , ou B contenha uma translação de A.
Em muitas aplicações, isso pode ter muitas restrições. Em [68], o autor
generalizou H-diferença e H-divisão, as quais passaram a se chamar gH-
diferença e gH-divisão, denidas pelas equações (4.18) e (4.19) a seguir:
AgH B =C ⇐⇒
(i) A = B + C,
ou (ii) B = A+ (−1)C.(4.18)
A÷gH B =C ⇐⇒
(iii) A = B × C,
ou (iv) B = A× C−1.(4.19)
Ao utilizar gH-diferença, [a, a]g [b, b] = [c, c], onde [c, c] é sempre denida
por c = mina− b, a− b, e c = maxa− b, a− b.
Para gH-divisão é necessário considerar seis casos, descritos na denição
a seguir.
Denição 4.1 (gH-divisão) O intervalo A÷gB para A = [a, a] e B = [b, b]
com 0 6= B, é denido por:
Caso 1: Se 0 ≤ a e b < 0, então Se a.b ≥ a.b =⇒ A ÷g B =[ab, ab
]Se a.b ≤ a.b =⇒ A÷g B =
[ab, ab
];
58
Caso 2: Se 0 ≤ a e 0 < b, então Se a.b ≤ a.b =⇒ A ÷g B =[ab, ab
]Se a.b ≥ a.b =⇒ A÷g B =
[ab, ab
];
Caso 3: Se a < 0 e b < 0, então Se a.b ≤ a.b =⇒ A ÷g B =[ab, ab
]Se a.b ≥ a.b =⇒ A÷g B =
[ab, ab
];
Caso 4: Se a < 0 e 0 < b, então Se a.b ≤ a.b =⇒ A ÷g B =[a
b, ab
]Se a.b ≤ a.b =⇒ A÷g B =
[ab, ab
];
Caso 5: Se a ≤ 0, a ≥ 0 e b < 0, então a solução não depende de b.
A÷g B =[ab, ab
]e,
Caso 6: Se a ≤ 0, a ≥ 0 e 0 < b, então a solução não depende de b.
A÷g B =[a
b, ab
].
Seguem as versões intervalares dos índices, FS, XB e CI, e a distância
usatilizada é uma i-métrica, obtemos então d(X, Y ) ∈ I(R) com X, Y ∈ I(R)
e J =c∑
j=1
n∑i=1
µmijd(xi, vj)
2 ∈ I(R). Portanto, esses índices, usando as operações
de Hukuhara, são denidos a seguir:
1. FSh: Seja K =c∑
j=1
n∑i=1
µmijd(vj, v)2 ∈ I(R) com v =
[c∑
i=1
vic,
c∑i=1
vic
]. O
índice FSh utilizando as operações de Hukuhara é denido da seguinte
forma:
FSh =[minJ −K, J −K,maxJ −K, J −K
](4.20)
2. XBh Seja S = n ·mini 6=j
d(vi, vj)2 ∈ I(R) O índice XBh usando as opera-
ções de Hukuhara, é denido por:
Caso 0 /∈ J e 0 /∈ S:
XBh =
[J
S,J
S
]se J · S ≤ J · S e (iii) (4.21a)[
J
S,J
S
]se J · S ≥ J · S e (iv) (4.21b)
59
Caso 0 ∈ J e 0 /∈ S:
XBh =
[J
S,J
S
](4.22)
Note queXBh não é denida para todos os valores, principalmente para
a distância baseada em intervalos, é possível que 0 ∈ d(vi, vj). Para os
valores elevados de c é possível haver sobreposições dos centros, assim
0 ∈ d(vi, vj). Esta propriedade contribui para eliminar a tendência da
monotonicidade, que ocorre quando c cresce.
3. (CIh): Considerando S, Smin e Smax valores intervalares denidos na
equação 4.23. Assim sejam A e B como abaixo:
A =[minS − Smin, S − Smin; maxS − Smin, S − Smin
]B =
[minSmax − Smin, Smax − Smin; maxSmax − Smin, Smax − Smin
]O C-índece usando as operações de Hukuhara são denidos por:
Caso 0 /∈ A e 0 /∈ B:
CIh =
[A
B,A
B
]se AB ≤ AB e (iii) (4.23a)[
A
B,A
B
]se AB ≥ AB e (iv) (4.23b)
Caso 0 ∈ A and 0 /∈ B:
CIh =
[A
B,A
B
](4.24)
Dessa forma, foram apresentados os métodos de agrupamento fuzzy para
dados intervalares, bem como os índices utilizados nas análises que são exi-
bidas nessa tese. No próximo capítulo serão introduzidos os algoritmos para
dados híbridos que contém dados reais e intervalares.
60
Capítulo 5
Métodos Propostos para Dados
Híbridos
No mundo real podemos observar que exite uma grande variedade de tipos
de dados categóricos, numéricos, fuzzy, intervalares, etc. além de propostas
de medidas de similaridade para eles. No entanto, na maioria das vezes, os
dados obtidos envolvem mais de um tipo de dados, por exemplo um mesmo
dado pode conter CPF, Nome, Faixa de Renda. O que normalmente é feito
nesses casos é transformar os dados que possuem uma determinada natureza
para uma única natureza, a m de obter uma base de dados homogênea.
Esse tipo de transformação pode acarretar em perda de informação,(por
exemplo, imprecisão), ou no aumento do custo computacional. Assim, é ne-
cessário obter uma maneira de medir similaridade sem transformar os dados.
O que é geralmente encontrado na literatura de algoritmos para agrupa-
mento de dados híbridos são combinações de algoritmos que atuam em cada
campo do dado. Chandra [73] propôs um método de agrupamento híbrido,
Hierarchical Ordered Partitioning And Collapsing Hybrid (HOPACH), que
é uma árvore de clusters. Existem diversos outros trabalhos desse tipo na
61
literatura [55].
Em 2012, a pesquisa realizada em [56] mostrou que existem poucos mé-
todos que são capazes de extrair conhecimento a partir de dados híbridos.
O autor em questão lidou com dados híbridos que são compostos por da-
dos convencionais (numéricos e textuais) e dados geográcos (pontos, linhas
e polígonos). Além de desenvolver algoritmos capazes de lidar com dados
geográcos, o autor relata o problema encontrado ao trabalhar com dados
híbridos:
Algoritmos que sejam capazes de manipular diretamente ba-
ses de dados híbridas, sem um pré-processamento ou uma estru-
tura particular de representação destes dados, não foram encon-
trados na literatura. Uma base de dados híbrida é composta por
atributos convencionais (e.g. numéricos, textuais, lógicos) e não
convencionais (e.g. geográcos). Geralmente, os algoritmos que
manipulam dados híbridos adotam algum tipo de estrutura par-
ticular para representar os atributos não convencionais.[56]
Essa abordagem é alterada neste trabalho. Ao invés de aplicar-se uma
coersão nos dados para um único tipo e uma medida de similaridade, esse
trabalho propõe que aplique-se cada medida de similaridade ligada aos da-
dos originais a cada campo (o resultado, até aqui, serão números reais ou
intervalos) e em seguida transforma-se esses valores para intervalos a m de
aplicar i-métricas. Assim, o resultado dessas medições não será mais um
único número real, mas uma tupla de intervalos. Essa abordagem é funda-
mentada pelo teorema e pelos comentários do nal do capítulo 2. No nal
será aplicado o que chamamos de agregação de i-métricas a m de produzir
um único intervalo como medida de similaridade.
62
Na seção a seguir, apresentamos uma variação do algoritmo K-Means,
chamado K-Means Intervalar, para dados híbridos que contém dados inter-
valares e reais. E na seção 5.2, é apresentado um algoritmo intervalar híbrido
também baseado no K-Means, ou seja, busca-se trabalhar apenas com um al-
goritmo e dentro desse algoritmo utilizamos diferentes distâncias. Cada uma
ligada a um atributo em questão, por exemplo: se os dados são reais pode-se
utilizar a distância Euclidiana, se forem dados intervalares pode-se utilizar a
KM-distância, se forem strings pode-se utilizar a distância de Levenshtein.
5.1 Algoritmos Intervalares Baseados no K-Means
- IbKM
O K-Means é um algoritmo iterativo que repete dois passos: no primeiro
passo cada ponto é atribuído ao centróide mais próximo baseado em uma
métrica especíca escolhida; no segundo passo, uma vez que os grupos são
formados, os centróides de cada grupo são atualizados. Assim, o algoritmo
repete de forma iterativa esses dois passos até que os seus centróides não
mudem.
Sendo F (C), a função objetivo do K-Means Intervalar e seguindo o pa-
radigma de representação intervalar [62]. Assim, F (C) pode ser obtido por
F = [minSSE(C),maxSSE(C)] e pode ser chamado a melhor represen-
tação intervalar, pois possui a propriedade de inclusão e a de optimalidade
(optimality).
Portanto, a função objetivo baseada no intervalo é dada por:
F (C) =
[min
K∑k=1
∑xi∈Ck
dIMV(xi,vk)2; maxK∑k=1
∑xi∈Ck
dIMV(xi,vk)2
](5.1)
onde vk é o protótipo do grupo Ck.
63
O Algoritmo K-Means Intervalar inicializa seus centros aleatoriamente,
onde K é o número de grupos, então cada objeto é atribuido ao centro mais
próximo, para realizar essa decisão uma ordem admissível total é utilizada.
Em seguida é feita a atualização dos centroídes, sendo vk o novo centroíde
calculado pela equação (5.2), onde seu centro é um intervalo. Esse processo
se repete iterativamente até que uma tolerança, ε seja satisfeita.Algoritmo 7: Intervalar k-MeansEntrada: X - Conjunto de dados, K - números de grupos, ε -
tolerança
Saída: C = C1, . . . , CK
Inicializa aleatoriamente os K centros: v0 = v01, . . . , v0K
repitaClassique: Na iteração t, atribui cada objeto (i ∈ 1, . . . , N)
para o agrupamento com o protótipo mais próximo:
Ct(i)← arg minkdIMV(xi, vk)2 ; // Usando uma ordem
admissível total
Atualização do protótipos: vk é o centroide dos novos conjuntos:
vt+1k = [vt+1
k , vt+1k ] =
∑xi∈Ct
k
xi
| Ctk |
;
∑xi∈Ct
k
xi
| Ctk |
(5.2)
até ‖ct gH ct−1‖ ≤ ε;
64
Na próxima seção será apresentado o K-Means Intervalar Híbrido, dife-
rente do K-Means Intervalar ele não transforma os dados reais para dados
intervalares.
5.2 Algoritmo K-Means Intervalar Híbrido - IbKMH
Uma outra extensão para o algoritmo K-Means é obtida para trabalhar
com conjuntos de dados híbridos, neste caso, dados que contém atributos
intervalares e reais, e busca-se otimizar o tempo computacional do processo,
pois no caso de bases híbridas o que é usualmente realizado é uma trans-
formação de um tipo dado em outro para uma homogeneidade do conjunto
de dados. Por exemplo, quando utilizados dados reais e intervalares para
não perder as informações presentes nos dados intervalares é realizado uma
intervalização dos dados reais, ou seja, transformado em intervalos degene-
rados. Esse processo preserva as imprecisões presentes nesses dados porém
torna o processo muito mais caro computacionalmente. Assim uma forma
de trabalhar com dados híbridos sem a necessidade de intervalizar os dados
reais, por exemplo, é por meio de um algoritmo que seja capaz de identicar
o tipo de dado e assim utilizar a distância que é computacionalmente mais
adequada, ou seja, mais "barata".
Seja m < s. Um conjunto de dados híbridos x1,x2, . . . ,xn−1,xn,
onde cada objeto xi é descrito por s variáveis (m variáveis reais e s − m
variáveis intervalares), é representado como um vetor xi = (x1i , . . . , xsi ),
j ∈ 1, 2, . . . , s, com xji = [xji , xji ] ∈ IR sendo xji ,≤ xji , e x
ji ∈ R por j
pertencendo ao conjunto de atributos reais.
d(xi,vk) =
√√√√ s∑j=1
dIMVh(xj
i , vjk)
2. (5.3)
Assim, diferentemente do que é feito no algoritmo K-Means intervalar,
65
ao calcularmos a dIMVh, não é feita a transformação dos dados reais para
intervalos degenerados. Assim, o algoritmo IbKMH sofre a alteração entre
duas funções de distâncias quando se é calculada a dIMVh, sendo neste caso
é a dkm , 2.10, e a distância Euclidiana, de.
Ao vericar que podemos trabalhar com diferentes métricas em um algo-
ritmo, um novo estudo sobre funções de agregações para i-métricas é apre-
sentado na próxima seção, chamado agregação de i-métricas.
5.3 Agregação de i-métricas e Algoritmos Hí-
bridos
Primeiramente esta seção faz uma breve introdução sobre funções de agre-
gação de métricas, a seguir ela introduz a noção de função de agregação de
i-métricas e por m, provê um exemplo de uma função de agregação de i-
métricas.
A noção de função de agregação de métricas foi introduzida por Borsik e
Dobos [7], onde eles buscavam resolver o problema de fundir várias métricas
numa única. Em [57, 58, 59] Pradera et al. propuseram, no espírito de Borsik
e Dobos, uma solução geral para o problema da fusão de dados representados
por meio de uma família de distâncias generalizadas e de pseudo-distâncias.
Com o objetivo de fundir um número nito de distâncias, em [13] os auto-
res analisaram os operadores de agregação dados: máximo, média ponderada,
soma ponderada e norma euclidiana ponderada, de modo a aplicar algumas
de suas propriedades para a comparação de sequências biológicas. Em 2005,
os mesmos autores relacionaram os operadores de agregações com aplicações
para o problema do diagnóstico em medicina [12].
Em 2010 Mayor e Valero [49], ampliaram o trabalho original de Borsík e
66
Dobos [7] ao contexto de quase-métricas dando uma descrição geral de como
mesclar duas quase-métricas em um única, através de uma função que eles
nomearam como função de agregação de quase-métricas.
Em 2012, Massanet e Valero [48], estenderam o artigo [47] para o caso de
quase-métrica valorada na reta estendida.
Em 2013, Martin et al. [46] provaram o teorema do ponto xo para um
novo tipo de contrações, que foram chamadas de Φ-contrações projetivas, de-
nidas entre espaços quase-métricos, obtidas por meio das chamadas funções
de agregação quase-métricas.
No que segue, apresenta-se resumidamente o trabalho proposto por Borsik
e Dobos em 1981.
Denição 5.1 ([7]) Seja T um conjunto de índices. Seja d = (dt)t∈T uma
família de funções dt : A2t → Bt, em que (At)t∈T e (Bt)t∈T são coleções de
conjuntos. Dene-se as seguintes funções e conjuntos:
1. %d : (∏
t∈T At)2 →
∏t∈T Bt por %d(x, y))(t) = dt(x(t), y(t)) para cada
x, y ∈∏
t∈T At, t ∈ T , e
2. σd : (∏
t∈T At)3 → (
∏t∈T Bt)
3 por σd(x, y, z) = (%d(x, y), %d(x, z), %d(y, z))
para cada x, y, z ∈∏
t∈T At;
3. Ed = %d(x, x) : x ∈∏
t∈T At e Fd = %d(x, y) : x, y ∈∏
t∈T At, x 6=
y.
Teorema 5.1 Dados B ⊃ Im%d (onde Imf = f(x) : x ∈ X, para cada
mapeamento f : X → Y ) e uma função f : B → R, a função h = f %d é
uma métrica se, e somente se, as três seguintes condições são satisfeitas:
1. Ed ∩ Fd = ∅,
67
2. ∀x ∈ Im%d : f(x) = 0⇔ x ∈ Ed,
3. ∀x, y, z ∈ Im%d : (x, y, z) ∈ Imσd ⇒ f(x) 5 f(y) + f(z)
Nos termos do teorema e Denição anteriores, a função f é chamada agre-
gação de métrica. Esse Teorema caracteriza as propriedades que uma função
h deve possuir para ser uma agregação de métricas. A partir disto, vários
autores apresentaram propostas para a agregação de alguns tipos de métricas
generalizadas, por exemplo, E. Castiñeira, A. Pradera e E. Trillas propuseram
uma solução para o problema da agregação de métricas C-generalizadas, dis-
tâncias e pseudometricas S-generalizadas em [57, 59, 58]. Mais recentemente,
em [48], os autores apresentaram o conceito de agregação de quase-métricas.
Dessa forma, motivado pelo uso das i-métricas em dados intervalares e
dados híbridos que contém dados intervalares [66, 65, 64], e pelo trabalho
de Borsik e Dobos [7], é introduzida, a seguir, a noção de agregação de i-
métricas.
Denição 5.2 SejamI um conjunto nito de índices, Xi, di,Ωi∈I uma fa-
mília de espaços i-métricos com o mesmo IMV, Ω = 〈A,≤, R,⊥〉. Seja AI
o conjunto de todas as funções a : I → A. Se a ∈ AI , é utilizada a nota-
ção ai para representar a(i). Considere o conjunto X =∏
i∈I Xi, se x ∈ X
indica-se por xi o elemento xi, (x ∈ X signica que x(i) ∈ Xi,∀i ∈ I). De-
nindo a função %d : X × X → AI , onde %d(x, y) : I → A é denida por
%d(x, y)(i) = di(xi, yi). Uma função φ : AI → A é chamada agregação de
i-métricas para Ω sempre que a função φ %d : X ×X → A é uma i-métrica.
68
Teorema 5.2 Seja φ : AI → A uma função. Se φ satisfaz:
1. φ(a) = ⊥ ⇔ a : I → A, é denida por: ai = ⊥, ∀i ∈ I,
2. Dados ai ∈ AI e ε ∈ A, com ⊥Rε, ∀i ∈ I, aiRε⇔ φ(a)Rε
então, ela é uma função de de agregação de i-métricas.
Demostração:
Suponha que φ satisfaz (1) e (2).
Dada a família (Xi, di,Ω)i∈I de espaços i-métricos, vamos mostrar que
φ %d é uma i-métrica.
(i) Sejam x, y ∈ X. Se x = y então xi = yi, ∀i ∈ I ⇒ di(xi, yi) = ⊥,
∀i ∈ I, ou seja, %d(x, y)(i) = ⊥,∀i ∈ I, logo %d(x, y) = ⊥, portanto, de (1)
segue que φ %d(x, y) = ⊥. Agora, suponha que φ %d(x, y) = ⊥. De (1),
segue que %d(x, y) = ⊥ ⇔ di(xi, yi) = ⊥,∀i ∈ I ⇒ xi = yi,∀i ∈ I ⇒ x = y
(ii) φ %d(x, y) = φ %d(y, x), ∀ x, y ∈ X.
(iii) Suponha φ %d(x, y)Rε, para algum ⊥Rε. De (2) segue que ∀i ∈
I, di(xi, yi)Rε,. Assim, para cada li ∈ I, existe δi ∈ A, com ⊥Rδi, tal
que di(xi, zi)Rδi ⇒ di(xi, zi)Rε. Como A possui menor elemento separável,
temos que existe δ ∈ A, com ⊥Rδ, tal que δ ≤ δi,∀i ∈ I. Dessa forma, se
φ %d(y, z)Rε, então pela condição (2), temos que di(yi, zi)Rε, ∀i ∈ I, logo
di(yi, zi)Rδi, ∀i ∈ I ⇒ di(xi, zi)Rε, ∀i ∈ I ⇒ φ %d(x, z)Rε ou seja, vale a
desigualdade triangular de i-métrica, (Denição 2.18).
No que segue, apresentamos um exemplo de agregação de i-métricas e em
seguida um algoritmo que lança mão dessa agregação para lidar com dados
híbridos.
Proposição 5.1 Considere o IMV Ω = 〈I(R)+,≤KM ,∗, [0, 0]〉, e seja I =
1, 2, ..., n um conjunto nito de índices e a função φ : ΩI → Ω, denida
69
por φ(X1, · · · , Xn) = supX1, · · · , Xn. Essa função é uma agregação i-
métricas. Demonstração: Seja a = (X1, · · · , Xn) ∈ I(R)n,
1. Suponha que φ(a) = ⊥, ou seja, φ(Xi, · · · , Xn) = Sup(Xi, · · · , Xn) =
[0, 0]. Como [0, 0] é o menor elemento de I(R)+, então ∀i ∈ I, Xi =
[0, 0]. Se Xi = [0, 0], ∀i ∈ I, então Sup(Xi, · · · , Xn) = [0, 0].
2. Suponha que φ(X1, · · · , Xn)∗ ε, com [0, 0]∗ ε, ou seja, supX1, · · · , Xn ∗
ε. Assim, para todo i ∈ I, Xi ≤ supX1, · · · , Xn ∗ ε, logo Xi ∗
ε, ∀i ∈ 1, 2 · · · , n. Agora, suponha que Xi ∗ ε, ∀i ∈ 1, 2 · · · , n,
ou seja, Xi = [xi, xi] ∗= [e, e], assim xi < e, ∀i ∈ 1, 2 · · · , n logo
maxi∈1,··· ,nxi < e. Se e = 0, então xi = 0,∀i ∈ 1, 2 · · · , n, logo
maxi∈1,··· ,nxi = 0⇒ supX1, · · · , Xn = [maxi∈1,··· ,nxi,maxi∈1,··· ,nxi]∗
ε. Se e > 0, então xi < e,∀i ∈ 1, 2 · · · , n logo maxi∈1,··· ,nxi < e,
portanto supX1, · · · , Xn ∗ ε. QED
Dessa proposição pode-se denir um algoritmo híbrido baseado no K-
Means, chamado IbKMHsup, em que a função Sup é usada para agregar as
distâncias aplicadas em cada componente do dado híbrido. Ou seja, pode-
se aplicar o seguinte esquema de cálculo para dados híbridos exemplicado
abaixo:
Examplo 5.1 Imagine que se queira agregar dados com os atributos: string,
real e intervalar. Assumindo, respectivamente, as distâncias de Levenshtein,
dL, a euclidiana, de, além da i-métrica KM, pode-se pensar no seguinte es-
quema de cálculo de distâncias usando a agregação de i-métricas sup:
70
Segue o algoritmo utilizando a função Supremo.
71
Algoritmo 8: K-Means Híbrido utilizando a função de agregação i-
métricas - supremoEntrada: X - Conjunto de dados, K - números de grupos, ε -
tolerança
Saída: C = C1, . . . , CK
Inicializa aleatoicamente os K centros: v0 = v01, . . . , v0K
repitaClassique: Na iteração t, atribui cada objeto (i ∈ 1, . . . , N)
para o agrupamento com o protótipo mais próximo:
Ct(i)← arg minksupX1, X2, · · · , XN
Atualização do protótipos, usando a média dos objetos de cada
grupo. Utiliza-se de para dados reais e dIMV para dados
intervalares.até ‖Ct gH Ct−1‖ ≤ ε;
Esse capítulo introduziu o conceito de agregação de i-métricas, propôs
um esquema de utilização de duas agregações através do supremo e forneceu
um algoritmo para aplicar essa agregação em agrupamento de dados.
72
Parte III
Experimentos e Resultados
Obtidos
73
Capítulo 6
Experimentos e Resultados
Este capítulo apresenta uma análise dos experimentos. Ele é dividido
em dois momentos. Primeiramente, nesta análise a distância dkm é aplicada
aos dois algoritmos de agrupamento fuzzy propostos: IbFcM e IbckM. Além
disso, usamos o parâmetro de fuzzicação nos algoritmos fuzzy, m, igual a 2 e
o critério de parada de [1e−4, 1e−4]. E mais, a ordem lexicográca é utilizada
para comparar os intervalos, quando necessário. Para ns de comparação,
nos algoritmos fuzzy também será usada uma outra distância baseada em
intervalos, proposta em [29]. Além disso, vamos comparar os resultados
obtidos por esses métodos com alguns trabalhos existentes na literatura.
Na metodologia de índices internos, calculamos o número ideal de grupos
para cada índice interno. Este número ideal de grupos representa o melhor
valor ao longo de todas as partições obtidas pelo algoritmo de agrupamento,
para cada índice interno.
Para obtermos esse número ideal de grupos, variamos o número de grupos
c sendo, cmin ≤ c ≤ cmax, e para todos os conjuntos de dados o valor mínimo
de C é igual a 2 e o valor máximo para c é igual a 10, cmin = 2 e cmax = 10.
Em seguida, selecionamos o número de grupos com o melhor valor do índice.
74
Por m, são realizados 31 diferentes execuções e o número ideal de grupos é
aquele com maior frequência.
Um teste estatístico foi aplicado, chamado o teste de hipótese (teste-t)
[27]. Esse teste é utilizado neste trabalho para determinar se dois conjuntos
de dados são signicativamente diferentes um do outro. Para realizarmos
esse teste, um conjunto de amostras (resultado dos classicadores), obtidos
a partir de dois métodos, deve ser utilizado para calcular o erro, a média e
o desvio padrão. Com base nas informações fornecidas, juntamente com o
número de amostras, a diferença da signicância entre os dois conjuntos de
amostras, baseado no grau de liberdade (α), é denido. O nível de conança
adotada é de 95% (α = 0, 05)
No segundo momento são avaliados os algoritmos IbKM, IbKMH e IbKMHsup,
sendo a principal análise relacionada ao custo computacional entre as diferen-
tes formas de tratar os dados híbridos que contém atributos dos tipos reais
e intervalares.
Assim, de uma forma geral, os resultados obtidos pelos algoritmos de
agrupamento são avaliados utilizando o índice externo chamado Corrigido
Rand (CR). Este índice não sofre adaptações para lidar com dados baseados
em intervalos. Nesta metodologia, realizamos 100 repetições e, em seguida,
os valores de CR são calculados. Para cada repetição o melhor, a média e o
desvio-padrão dos valores (std) são selecionados. Outra forma de avaliar a
qualidade dos agrupamentos utilizando apenas os dados originais (instâncias
ou matriz de similaridade) é usando os índices internos.
Os algoritmos foram implementados em Python (www.python.org) usando
a biblioteca MPMATH (Http://docs.sympy.org/dev/modules/mpmath) para
representar os dados intervalares. Tivemos que ter cuidado ao usar o ordem
padrão de biblioteca MPMATH, pois a mesma utiliza a ordem de Kulisch-
75
Miranker. Em nossos métodos propostos é usada a ordem lexicográca a
qual estende a ordem Kulisch-Miranker.
6.1 Conjuntos de Dados
Usamos 7 conjuntos de dados, sendo 4 conjunto de dados sintéticos e 3
reais, os quais são: 2Dim, 3Dim, 5Dim, Sun, temperatura, peixe e carro.
Para o caso dos dados híbridos temos as bases sintéticas: 10R90I, 30R70I,
50R50I, 70R30I e 10R90I que foram geradas através do experimento Monte
Carlo. E uma base real híbrida: carro.
6.1.1 Conjuntos de Dados Sintéticos Intervalares
Recriamos o conjunto de dados propostos em [11] para testarmos os algo-
ritmos propostos, para tal são utilizados quatro conjuntos de dados articiais
dos sete propostos em [11]: 2Dim, 3Dim, 5Dim e Sun. Nos conjuntos de dados
3Dim e 5Dim, ao contrário do que foi em [11], o número de pontos utilizados
é 300. A Tabela 6.1 apresenta uma breve descrição dos conjuntos de dados
articiais utilizados em nossos experimentos.
Tabela 6.1: Descrição das quatros bases articiais
Base de dados Número de Número de Número de
nome pontos grupos dimensões
2Dim 200 2 2
3Dim 300 4 3
5Dim 300 4 5
Sun 195 5 2
A Figura 6.1 ilustra uma representação gráca dos conjuntos de dados
76
2Dim e Sun. Onde o conjunto de dados 2Dim consiste em dois grupos de 200
pontos de dados em cada grupo, linearmente separados em duas dimensões.
O conjunto de dados Sun consiste em cinco grupos orientados de diferentes
formas. Esse conjunto de dados contém 195 pontos em duas dimensões.
Figura 6.1: Ilustra os conjuntos de dados 2Dim e Sun.
A Figura 6.2, representa gracamente os conjuntos de dados 3Dim e 5Dim,
onde o conjunto de dados 3Dim consiste em quatro grupos de tamanhos iguais
dispostos nos vértices de um tetraedro em um espaço tridimensional. Ambos
os conjuntos de dados contêm 300 pontos. Finalmente, no conjunto de dados
5Dim, os grupos são de vários formatos e tamanhos, em um espaço com cinco
dimensões.
6.1.2 Conjuntos de Dados Sintéticos Híbridos
Inicialmente, um conjunto de dados clássicos quantitativos no R10 são
gerados através de uma distribuição normal. Esse conjunto de dados contém
500 pontos dispersos em cinco classes de tamanhos iguais. Deste conjunto de
dados foram criados cincos conjuntos de dados híbridos (real-intervalar).
77
Figura 6.2: Ilustra os conjuntos de dados 3Dim e 5Dim.
Os cincos conjunto de dados híbridos possuindo 10 %, 30%, 50%, 70%
ou 90% de dados reais, são nomeados por: 10R90I, 30R70I, 50R50I, 70R30I
e 90R10I. Para os conjuntos de dados híbridos, cada ponto xi do conjunto
de dados clássicos quantitativo é usado como "semente"para tipo intervalo,
denido como [xi − zi/2, xi + zi/2] onde o parâmetro zi foi selecionado alea-
toriamente do intervalo [1, 5].
Na estrutura de simulação chamada Monte Carlo, 100 replicações são
consideradas para cada conjunto de dados. A média do índice Correct Rand
é calculada entre estas 100 replicações. Em cada replicação um método de
agrupamento é executado 100 vezes e o melhor resultado é selecionado de
acordo com o critério do método.
6.1.3 Conjuntos de Dados Reais
1. Temperatura: O conjunto de dados temperatura foi proposto origi-
nalmente em [33], esse conjunto representa a temperatura em diferentes
cidades ao redor do mundo. Essas cidades foram colocadas em grupos
usando o conhecimento de um especialista. O que resultou em qua-
tro conjuntos de cidades, [33]. As cidades pertencentes ao grupo 1 são
78
localizados entre 0 e 40 graus de latitude e as cidades que estão clas-
sicados no grupo 2 estão localizados entre 40 e 60 graus de latitude.
Maurício e Teerã são classicados como membros das classes 3 e 4, res-
pectivamente. Tabela 6.2 apresenta a distribuição de cluster baseado
no observador humano, que originalmente criou este conjunto de dados.
Tabela 6.2: Classicação do conjunto de dados Temperatura
No dos Grupos Nomes
I Bahraim Bombay Cairo Calcutta Colombo
Dubai Hong Kong Kula Lampur Madras
Manila Mexico Nairobi New Delhi Sydney
II Amsterdam Athens Copenhagen Frankfurt
Geneva Lisbon London Madrid Moscow Munich
New York Paris Rome San Francisco Seoul
Stockholm Tokyo Toronto Vienna Zurich
III Mauritius
IV Tehran
Para cada cidade (instância), temos 12 atributos intervalares e cada
um representa o mínimo e o máximo da temperatura da cidade em um
mês especíco.
2. Carros: O conjunto de dados carro considera um conjunto de 33 mo-
delos de carros descritos por oito variáveis intervalares e uma variável
categórica. É dividido em quatro classes: utilitário, berlina, esportivo e
de luxo, com 10, 8, 8 e 7 instâncias, respectivamente, conforme descrito
na Tabela 6.3. O valor das variáveis intervalares são preço, capacidade
do motor, velocidade, aceleração, step, comprimento, largura e altura.
79
Tabela 6.3: Descrição do conjunto de dados Carro
Variáveis Potência do Motor ... Altura Categoria
Alfa 145 [1370, 1910] ... [143, 143] Utilitário
Alfa 156 [1598, 2492] ... [142,142] Sedam
... ... ... ... ...
Porsche 25 [3387, 3600] ... [131,131] Esportivo
Rover 25 [1119, 1994] ... [142,142] Utilitário
Passat [1595, 2496] ... [146,146] Luxuoso
Nessa base, 4 variáveis são intervalos degenerados. Dessa forma, está
base também será utilizada no experimento com bases híbridas. Assim,
seus intervalos degenerados serão representados por um número real
sem que haja perda de informações.
3. Peixe: O conjunto de dados peixe representa 12 espécies de água doce,
onde cada espécie de peixe é descrita por 13 variáveis intervalares, são
estas: comprimento, peso, músculo, intestino, estômago, brânquias, fí-
gado, rins, fígado/muscular, rins/muscular, brânquias/muscular, intes-
tino/muscular e estômago/muscular. Essas espécies são agrupadas em
quatro classes: carnívoros, detritívoros, onívoros e herbívoros. A clas-
sicação original é apresentada na tabela 6.4, e é indicado pelo suxo
associado à denominação espécie de água doce.
80
Tabela 6.4: Classicação do conjunto de dados Peixe
Classes Espécies de Peixe
Carnivorous 1-Ageneiosusbrevili
2-Cynodongibbus
3-Hopliasa mara
4-Potamotrygonhystrix
Detritivorous 7-Dorasmicropoeus
8-Platydorascostatus
9-Pseudoancistrusbarbatus
10-Semaprochilodusvari
Omnivorous 5-Leporinusfasciatus
6-Leporinusfrederici
Herbivorous 11-Acnodonoligacanthus
12-Myleusrubripinis
6.2 Resultados Obtidos com Dados Intervala-
res
Como dito anteriormente, nesta análise empírica, os algoritmos fuzzy de
agrupamento propostos usam as distâncias intervalares adaptadas neste tra-
balho ( IbckMdkm , IbFcMdkm) e a distância à base intervalo proposta por
Vargas em [27] (IbckMdI , IbFcMdI ). Os resultados obtidos são expostos a
seguir.
81
6.2.1 Conjuntos de Dados Sintéticos
Nesta subseção, são apresentados os resultados dos algoritmos fuzzy de
agrupamento quando aplicados aos conjuntos de dados articiais: 2Dim,
3Dim, 5Dim e Sun. A Tabela 6.5 apresenta os resultados dos valores de
média dos CR e desvio padrão obtidos pelos dois algoritmos agrupamento
propostos (IbckM e IbFcM), utilizando a distância proposta dkm e a distân-
cia proposta em [27]. Todos os valores estão relacionados com os conjuntos
de dados sintéticos, 2Dim, 3Dim, 5Dim e Sun. Nesta tabela, os números
em negrito representam os melhores valores do CR que são estatisticamente
signicativos em relação aos outros valores do CR.
Tabela 6.5: Resultado dos algoritmos de agrupamento intervalares para os
conjuntos de dados sintéticos- Média(Std)
Algoritmos 2Dim 3Dim 5Dim Sun
IbckMdkm 1 0.820184 0.762843 0.897907
(0) (0.188877) (0.195350) (0.130803)
IbFcMdkm 1 1 0.908170 0.911790
(0) (0) (0.127516) (0.091005)
IbckMdI 1 0.816693 0.771111 0.897520
(0) (0.195730) (0.200871) (0.153709)
IbFcMdI 1 1 0.843905 0.924147
(0) (0) (0.1661116) (0.098020)
Da Tabela 6.5, pode-se observar que todas as quatro versões dos algorit-
mos propostos são capazes de produzir boas partições de dados intervalares,
já que os valores de CR correspondentes estão perto de 1 (as partições ob-
tidas estão perto da partição ideal). Para o conjunto de dados 2Dim, por
exemplo, foram obtidos valores do CR iguais a 1, para todas a versões pro-
82
postas dos algoritmos. Esse conjunto de dados pode ser considerado como
simples e a partição ideal pode ser facilmente obtida (classes são facilmente
separáveis). Para os outros três conjuntos de dados, apesar de não obterem
os valores dos CR iguais à 1 em todas as versões, são 1 ou muito próximo de
1. É importante notar que, no caso em que a nossa distância proposta, dkm ,
não alcançou o maior valor do CR (conjunto de dados Sun), forneceu valores
elevados do CR.
A análise estatística é feita utilizando o Teste t de Student, onde os resul-
tados são considerandos signicativos quando os valores de p são inferiores a
0,05. O teste foi realizado comparando o desempenho dos algoritmos, IbckM
e IbFcM, as duas primeiras linhas da Tabela 6.6, e das distâncias dkm e di,
as duas últimas linhas da Tabela 6.6. Nesta tabela, os números em negrito
representam os valores estatisticamente signicativos.
Tabela 6.6: p-valores para Teste t de Student's para os conjuntos de dados
sintéticos2Dim 3Dim 5Dim Sun
IbckMdkm × IbFcMdkm 1 6,240E-018 2,754E-009 0,384
IbckMdI × IbFcMdI 1 1,73E-017 0,0057 0,145
IbckMdkm × IbckMdI 1 0,898 0,768 0,984
IbFcMdkm × IbFcMdI 1 1 0,002 0,356
Tabela 6.7: p-valores para Teste t de Student's para os conjuntos de dados
sintéticos
A partir da tabela 6.6, podemos observar que a hipótese nula foi rejeitada,
na maioria dos casos. Em outras palavras, não há evidência estatística al-
guma para armar em que o desempenho dos dois algoritmos são diferentes,
para a maioria dos casos analisados. Nas duas primeiras linhas da Tabela
6.6, quando se comparam os algoritmos propostos, foi comparado o primeiro
83
algoritmo, IbckM, contra o segundo, IbFcM. Portanto, se o valor p é menor
que 0,05, isso signica que o primeiro algoritmo é estatisticamente diferente
do segundo. Podemos observar que o desempenho dos algoritmos de agrupa-
mento são diferentes em 4 casos analisados (de 8), a partir de um ponto de
vista estatístico. Neste caso, foram comparados os resultados do IbFcM com
IbckM em casos de dois-a-dois, usando as duas distâncias. Como resultado,
pode-se observar que o desempenho de IbFcM foi estatisticamente maior do
que IbckM em quatro casos, para os conjuntos de dados 3Dim e 5Dim. Nos
quatro casos restantes,ambos os algoritmos tiveram desempenho semelhante,
a partir de um ponto de vista estatístico.
Na comparação entre as duas distância intervalares, dkm e di, as duas
últimas linhas da Tabela 6.6, podemos observar um cenário diferente, em
que ambos os algoritmos proporcionam um desempenho semelhante, na mai-
oria dos casos analisados, a partir de um ponto de vista estatístico. A única
exceção é o conjunto de dados 5Dim, em que a distância proposta dkm pro-
porciona desempenho superior a distância di, usando o algoritmo IbFcM, a
partir de um ponto de vista estatístico.
Agora, a tabela 6.8 apresenta os resultados dos índices internos para os
conjuntos de dados sintéticos. Nesta tabela, representamos o número ideal de
grupos para cada índice interno. Os números entre parênteses representam o
número de vezes que o número ideal de grupos foi selecionado. Por exemplo,
5 (22), para o conjunto de dados Sun com o índice de CR, arma que o
número ideal de grupos é 5, e este número foi selecionado 22 vezes, das 31
corridas. A última linha desta tabela mostra o número total de vezes em
que o número ideal de grupos representa o número correto de classes. E na
última linha desta tabela, os números em negrito representam os índices que
obtiveram os valores corretos em todos os conjuntos de dados.
84
Tabela 6.8: Número de grupos preferidos para vários índices de validação dos
dados sintéticos.Dados Classes CR CIh FSh MPC PC PE XBh
2Dim 2 2(31) 2(31) 4(9) 2(31) 2(31) 2(31) 2(31)
3Dim 4 4(31) 4(31) 4(29) 4(31) 4(31) 4(31) 4(31)
5Dim 4 4(21) 4(21) 6(12) 4(21) 2(31) 2(31) 4(13)
Sun 5 5(22) 5(22) 4(26) 4(28) 4(31) 2(31) 5(22)
Total 4 4 1 3 2 2 4
A partir desta tabela, podemos ver que os melhores índices de desempenho
global para os quatro conjuntos de dados sintéticos foram CR, CIh e XBh. É
importante notar que os índices CR, CIh eXBh obtiveram 100% de acurácia,
selecionando o número correto de classes em todos os 4 conjuntos de dados
articiais.
Por outro lado, o índice MPC selecionado corretamente o número ideal de
grupos em 3 conjuntos de dados (2Dim, 3Dim 5Dim e conjuntos de dados),
atingindo 75% de acurácia, o que é um resultado signicativo. Contudo, os
índices de PC e PE alcançam apenas 50% de acurácia e o índice FS obteve
um baixo desempenho obtendo apenas 25% dos casos. É importante salien-
tar que dois dos índices interno propostos, forneceram as maiores acurácias.
Mostrando que a adaptação intervalar proposta é positivo para os índices
CIh e XBh.
6.2.2 Conjuntos de Dados Reais
Nesta subseção, são mostrados os resultados dos algoritmos de agrupa-
mento, quando aplicados a três conjuntos de dados com valores reais inter-
85
valares. São eles: temperatura, peixes e carro. A Tabela 6.9 mostra os
resultados dos valores do CR, média e o desvio padrão, obtidos com a dis-
tância dkm, e a distância proposta em Vargas [27], quando aplicados aos dois
algoritmos de agrupamento propostos (IbckM e IbFcM).
Tabela 6.9: Resultado dos algoritmos de agrupamentos intervalares para os
dados reais.Temperatura Peixe Carro
Algoritmos Melhor Melhor Melhor
Média (std) Média (std) Média (std)
IbckMdkm 0.915846 0.767278 0.724621
0.561(0.161277) 0.299(0.190870) 0.584(0.080535)
IbFcMdkm 0.657397 0.767278 0.680207
0.477(0.109553) 0.299(0.157102) 0.622(0.042386)
IbckMdI 0.883152 0.621656 0.680207
0.502(0.091141) 0.224(0.124540) 0.575(0.100857)
IbFcMdI 0.517390 0.558931 0.680207
0.455(0.066153) 0.266(0.110088) 0.566(0.020559)
Na Tabela 6.9, podemos observar que a distância proposta, dkm, obteve
excelentes resultados, proporcionando o maior CR em todos os casos estu-
dados, quando comparada com a distância di. Em particular, o algoritmo
IbckM usando a distância dkm, pode ser visto como a melhor opção, neste
trabalho, uma vez que forneceu o maior valor do CR em todos os conjuntos
de dados reais utilizados nesta análise empírica.
A tabela 6.10 apresenta os p-valores obtidos quando aplicado o teste es-
tatístico. Consideram-se os resultados signicativos quando os valores de p
são inferiores a 0,05. Nesta tabela, os números em negrito representam os
valores estatisticamente signicativos. Similar ao conjunto de dados artici-
86
Tabela 6.10: p-valores para o Teste t de Student's para os conjuntos de dados
reaisPeixe Carro Temperatura
IbckMdkm × IbFcMdkm 0,969 3,545E-005 0,000002
IbckMdI × IbFcMdI 0,0129 0,424 4,63E-005
IbckMdkm × IbckMdI 0,00126 0,486 0,0016
IbFcMdkm × IbFcMdI 0,0798 8,609E-025 0,0915
ais, o teste foi realizado comparado o desempenho dos algoritmos, IbckM e
IbFcM, e das distâncias utilizadas dkm e di. No geral, a partir da Tabela 6.10,
podemos notar que a hipótese nula foi rejeitada em 8 dos 12 casos analisados.
Ao comparar os algoritmos propostos com as duas distâncias, as duas
primeiras linhas da Tabela 6.10, podemos observar que o desempenho dos
algoritmos foram estatisticamente diferentes em 4 casos (de 6 casos). Especi-
almente, podemos observar que o desempenho de IbckM foi estatisticamente
superior ao IbFcM em todas as duas distâncias para conjunto de dados tem-
peratura. Para os outros dois conjuntos de dados, IbckM foi estatisticamente
superior ao IbFcM em um caso, dkm para o conjunto de dados carro e di para
o conjunto de dados peixe. Portanto, com base nos resultados obtidos, pode-
se armar que o IbckM forneceu melhor desempenho, quando se analisa o
índice CR, do que o outro algoritmo proposto, IbFcM, para os conjuntos de
dados analisados.
Na comparação entre as duas distâncias intervalares, dkm e di, as duas
últimas linhas da Tabela 6.10, podemos observar que há diferença de desem-
penho em três casos (um caso para cada conjunto de dados), de 6, em que o
algoritmo de agrupamento usando dkm proporcionou maior desempenho do
que os que usam di. Além disso, podemos observar que a escolha da distância
87
tem um maior impacto no desempenho do IbckM, uma vez que proporcio-
nou resultados estatisticamente signicativos em dois casos (terceira linha da
Tabela 6.10).
A tabela 6.11 contém os resultados dos índices internos sobre os dados
reais. A mesma metodologia da subseção anterior é adotada aqui. A última
linha desta tabela apresenta o número de vezes que cada índice seleciona o
número de classes como o número ideal de grupos.
Tabela 6.11: Números preferidos de grupos para vários índices de validação
nos conjuntos de dados reais
Dados Classes CR CIh FSh MPC PC PE XBh
Peixe 4 5(8) 8(11) 10(27) 10(24) 10(24) 10(22) 10(21)
Carro 8 4(29) 6(15) 6(9) 3(31) 2(31) 2(31) 10(26)
Temperatura 4 2(30) 4(25) 10(9) 2(21) 2(31) 2(31) 3(15)
Total 0 1 0 0 0 0 0
Ao contrário dos conjuntos de dados articiais, o número ideal de grupos
denidos pelos índices internos não corresponde ao número correto de gru-
pos para as bases de dados reais, na maioria dos casos. Esse é um resultado
esperado uma vez que o procedimento de agrupamento é geralmente feito
por um especialista e usando algumas instâncias. Esses fatos podem fazer
deste procedimento uma tarefa difícil. Para o conjunto de dados de tempe-
ratura, por exemplo, temos dois grupos solitários (grupos com apenas uma
instância) e esta partição é muito difícil de conseguir. Além disso, o CIh é
o único índice interno que escolhe com sucesso 4 grupos para o conjunto de
dados temperatura, que é o único resultado correto na Tabela 6.11. Existem
estudos na literatura, [23] por exemplo, que utilizam o conjunto de dados de
temperatura, com apenas duas classes, o que pode parecer ser um resultado
mais plausível. Isso é justicado pelo fato de que o número ideal de grupos
88
igual a 2 foi selecionado por quatro índices internos em Tabela 6.11.
6.3 Análise Comparativa Para Dados Interva-
lares
Para avaliar o desempenho dos algoritmos propostos, também realizamos
uma análise comparativa das abordagens propostas com algoritmos existen-
tes na literatura. Para esta análise, foi utilizado o melhor valor do CR obtido
a partir de 100 repetições. Ao contrário da análise anterior, usamos o melhor
valor do CR, onde só encontramos o melhor valor do CR da literatura dos
algoritmos analisados. A m de realizar uma comparação justa, nós também
apresentamos o melhor valor do CR dos algoritmos propostos. Nas tabelas
6.12 e 6.13, são apresentados os valores do CR obtidos pelos algoritmos de
agrupamento em que foram aplicados para os conjuntos de dados tempera-
tura, carro e peixe, respectivamente.
89
Tabela 6.12: Resultados dos algoritmos de agrupamentos baseados em inter-
valos para o conjunto de dados Temperatura.
Algoritmos CR
IbFcMdkm 0.657
IbckMdkm 0.915
IbFcMdI 0.517
IbckMdI 0.657
IFCM [18] 0.46
IFCMADC [18] 0.50
ICAE[40] 0.47
ICAH[40] 0.49
IFKCN-FD[17] 0.285
IFCM-NAD[17] 0.257
IFKCN-WD[17] 0.271
IFCM-AD[17] 0.345
Na Tabela 6.12, podemos observar que os métodos propostos obtiveram
resultados promissores, oferecendo os mais altos CR's, de todos os métodos
analisados. Acreditamos que, como usamos uma distância intervalar para
dados intervalares, representamos de forma mais eciente a imprecisão dos
dados intervalares, o que foi conrmado na tabela 6.12. Note que o CR obtido
pelo algoritmo IbckMdkm é de 0,915 e o melhor CR encontrado na literatura,
é de 0,50, [18].
Em outras outras palavras, obtivemos uma diferença nos valores de CR
de 0,415 entre o CR obtido pelo método proposto e o CR encontrado na
literatura, [18]. É importante ressaltar que todos os valores obtidos por
todas as quatro congurações propostas obtiveram maiores valores de CR do
90
que todos os métodos comparados.
Tabela 6.13: Resultados dos algoritmos de agrupamentos baseados em inter-
valos para o conjunto de dados Carro.
Algorithms Carro CR
IbFcMdkm 0.680
IbckMdkm 0.725
IbFcMdI 0.680
IbckMdI 0.680
IFCMADC [18] 0.52
IFKCN-FD[17] 0.110
IFCM-NAD[17] 0.097
IFCM-L1[19] 0.392
IFCM-L2[19] 0.254
IFCM-H[19] 0.402
IAFCM-L1[19] 0.499
IAFCM-L2[19] 0.525
IAFCM-H[19] 0.562
A Tabela 6.13 ilustra os melhores valores do CR para o conjunto de da-
dos Carro. Novamente, podemos observar que todos os quatros algoritmos
obtiveram maiores valores do CR do que todos os algoritmos existentes ana-
lisados. É importante destacar que mesmo a pior abordagem proposta, 0,68
(IbFcMdkm), obteve CR maior que todos os algoritmos analisados, cerca de
12% maior do que o melhor algoritmo existente, IAFCM-H,[19].
Finalmente, a Tabela 6.14 ilustra os valores do CR para o conjunto de
dados peixe. Os resultados nesta tabela mostram que, mais uma vez, a
qualidade das partições obtidas de todos os quatro métodos propostos são
91
Tabela 6.14: Resultados dos algoritmos de agrupamentos baseados em inter-
valos para o conjunto de dados Peixe.
Algoritmos Peixe CR
IbFcMdkm 0.767
IbckMdkm 0.767
IbFcMdI 0.559
IbckMdI 0.622
IFCMADC [18] 0.5
IFKCN-FD[17] 0.209
IFCM-NAD[17] 0.116
IFCM-L1[19] 0.033
IFCM-L2[19] -0.14
IFCM-H[19] -0.0002
IAFCM-L1[19] 0.157
IAFCM-L2[19] 0.274
IAFCM-H[19] 0.396
maiores do que todas os outros algoritmos comparados. Para as melhores
abordagens propostas, IbFcMdkm e IbckMdkm , a melhoria nos valores do CR
é em torno de 26%, quando comparados com o melhor algoritmo existente,
IFCMADC [18].
Em síntese, para todas as bases de dados reais intervalares, os resultados
obtidos mostraram que o CR das abordagens propostas, superou todos os
algoritmos existentes na literatura, em todos os casos. Esses resultados são
promissores, uma vez que podem serem vistos como uma maneira ecaz para
tratar conjunto de dados intervalares. O uso de mais conjuntos de dados
e também dados híbridos do tipo real-intervalar e uma análise comparativa
92
mais ampla são uns dos objetivos desta tese. Assim o próximo capítulo trata
de dados híbridos do tipo real-intervalar.
6.4 Análises e Resultados Obtidos com os Al-
goritmos IbKM, IbKMH e IbKMHsup
Para esta análise empírica, o algoritmo proposto, IbKM, utiliza as dis-
tâncias dkm e dI , (IbKMdkm , IbKMdI ). E os algoritmos híbridos, IbKMH e
IbKMHsup, utilizam a distância euclidiana, de para medir os dados do tipo
real e as distâncias dkm e dI , (IbKMHdkm , IbKMdI , IbKMHsupdIe IbKMHsupdkm
).
Os resultados obtidos são apresentados em duas seções: a primeira para da-
dos sintéticos e a segunda para o conjunto de dados real, carro.
Uma análise comparativa para a base real carro é realizada. No entanto,
a análise comparativa com outros resultados sintéticos da literatura não foi
possível de ser realizada, uma vez que não foram encontrados resultados
utilizando abordagens similares na literatura e também nenhuma base de
dados sintética híbrida que contenha somente dados reais e intervalares.
6.4.1 Resultados e Análises dos Dados Sintéticos Hí-
bridos
Nesta seção, são apresentados os resultados obtidos e as análises obtidas
utilizando os algoritmos de agrupamentos crisp quando aplicados aos conjun-
tos de dados sintéticos híbridos: 10R90I, 30R70I, 50R50I, 70R30I e 90R10I.
A tabela 6.15 abaixo, contém os resultados dos valores e o tempo gasto pelos
algoritmos propostos, IbKM e IbKMH, utilizando as distâncias dkm, de e dI .
Da tabela 6.15 podemos concluir que o tempo computacional realmente
93
Tabela 6.15: Resultado dos algoritmos de agrupamento crisp com os conjun-
tos de dados sintéticos híbridos - CR(Std) e Tempo.
Algoritmos 10R90I 30R70I 50R50I 70R30I 90R10I
IbkMdkm 1(0) 1(0) 1(0) 1(0) 1(0)
14.751 14.412 14.140 14.204 13.736
IbKMdI 1(0) 1(0) 1(0) 1(0) 1(0)
14.675 14.548 14.206 14.261 13.649
IbkMHde,dkm 1(0) 1(0) 1(0) 1(0) 1(0)
13.175 10.433 7.982 5.465 2,83
IbKMHde,dI 1(0) 1(0) 1(0) 1(0) 1(0)
12.9501 10.6188 8.0670 5.567 2.822
diminui signicativamente quando o algoritmo híbrido é utilizado. Na Se-
gunda coluna da tabela 6.15 pode-se observar que a diferença existe apesar
de pequena. No entanto na última coluna da tabela, é possível notar que o
tempo diminui signicativamente. Uma melhor forma de observar esse ganho
de tempo computacional pode ser visto na gura 6.3.
Da gura 6.3 pode-se observar que a melhor maneira de manter as incer-
tezas presentes nos dados intervalares e não aumentar o custo computacional
transformando os dados reais em intervalos é utilizando algoritmos híbridos.
94
Figura 6.3: O gráco descreve a relação entre tempo a porcentagem de atri-
butos reais, utilizando os algoritmos IbKM e IbKMH.
6.4.2 Resultados e Análises dos Dados Reais Híbridos
Nesta seção, são apresentados os resultados dos algoritmos de agrupa-
mento crisp, quando aplicado a base de dados carro que contém valores reais
e intervalares .
A tabela a seguir mostra os resultados dos valores do CR(std) e o tempo
computacional, obtidos com as distâncias dkm, de e dI aplicados aos algorit-
mos IbKM, IbKMH e IbKMHsup.
95
Tabela 6.16: Resultados dos algoritmos de agrupamento crisp com o conjunto
de dados real híbrido- CR(Std) e Tempo
.
Algoritmos Carro
IbkMdkm 0.792(0.1082)
0,9267
IbKMdI 0.724(0.0781)
1.4325
IbkMHde,dkm 0.7927(0.1283)
0.4648
IbKMHde,dI 0.792(0.1248)
0.5399
IbKMHsupde,dkm0.792(0.0937)
0.548
IbKMHsupde,dI0.7727(0.1024)
(0.616)
Podemos observar que a distância proposta dkm obteve bons resultados,
proporcionando os maiores CR's. Em relação ao tempo computacional os
algoritmos híbridos, de fato, obtiveram bons resultados. Pode-se vericar na
Tabela 6.16 que os valores em relação ao tipo de algoritmos tiveram uma
queda de mais de 50% no tempo, quando comparados com a mesma base
aplicada aos algoritmos intervalares, IbKMdkm e IbKMdI .
96
Capítulo 7
Conclusões e Perspectivas Futuras
Foram propostos métodos de agrupamento, crisp e fuzzy, utilizando algo-
ritmos com distâncias intervalares. Em comparação aos métodos de agrupa-
mento baseados em intervalos, a abordagem proposta possui a vantagem de
possibilitar a utilização de distâncias intervalares,as quais mantem as impre-
cisões presentes nos dados intervalares por mais tempo, durante o processo.
Este tipo de medida de dissimilaridade é adequado quando trabalhamos com
dados intervalares, levando a uma melhora no desempenho dos algoritmos.
A utilidade dos algoritmos propostos foi demonstrada através de experi-
mentos numéricos com conjuntos de dados sintéticos e conjuntos de dados
reais. É possível observar que os métodos propostos obtiveram resultados
promissores, oferecendo os mais altos CR's de todos os métodos analisados.
Pelos resultados obtidos, é possível armar que a melhor forma de análise
de dados intervalares é utilizando distâncias intervalares, o que é conrmado
nas tabelas 6.12, 6.13 e 6.14.
Outro ponto forte foi o uso de algoritmos híbridos para trabalhar com
bases de dados que contenham dados reais e intervalares. Os resultados
obtidos mostram um ganho computacional em relação ao tempo sem perder
97
a qualidade das partições.
O estudo sobre funções de agregações de i-métricas é novo, mas se mostrou
muito promissor. Uma vez que os resultados obtidos experimentalmente
foram signicativos ao compara-lós aos demais. O uso do supremo se mostrou
uma boa agregação de i-métricas.
Todos os resultados indicam que os modelos propostos conseguiram en-
contrar boas partições sobre todos os dados. Em relação aos conjuntos de
dados reais, foi mostrado que é adequado utilizar i-métricas para agrupamen-
tos de dados que contém dados intervalares.
Diante de todos os resultados, é possível armar que esta tese contribuiu
para o enriquecimento da área de agrupamento objetos dotados de impreci-
sões.
A seguir alguns dos possíveis trabalhos futuros:
• Uma das principais questões quando lidamos com dados intervalares é
como lidar com a questão da ordem entre intervalos. Uma análise mais
direcionada para vericar a importância da ordem é questionada.
• Quando trabalhomos com algoritmos fuzzy, o parâmetro de fuzzicação,
m, é um valor real. Uma pesquisa mais profunda desse parâmetro
é almejada, uma vez que é de interesse vericar seu comportamento
quando ele é do tipo intervalar.
• Investigar novas agregações de i-métricas. Aplicar em dados híbridos
para vericar as partições obtidas pelos algoritmos usando essas novas
agregações.
• Outro aspecto interessante para uma análise aprofundada é a diferença
computacional utilizando uma Big Data nos algoritmos híbridos.
98
Referências Bibliográcas
[1] B. M. Acioly. Fundamentação Computacional da Matemática Intervalar.
PhD thesis, Universidade Federal do Rio Grande do Sul Instituto de
Informática, 1991.
[2] P. Berkhin. A survey of clustering data mining techniques. In Grouping
multidimensional data, pages 2571. Springer, 2006.
[3] J. C. Bezdek. Pattern Recognition with Fuzzy Objective Function Algo-
rithms. Kluwer Academic Publishers, Norwell, MA, USA, 1981.
[4] H. Bock. Clustering algorithms and kohonen maps for symbolic data
(symbolic data analysis). Journal of the Japanese Society of Computa-
tional Statistics, 15(2):217229, 2003.
[5] H. Bock and E. Diday. Analysis of symbolic data: exploratory methods
for extracting statistical information from complex data. Springer, 2000.
[6] V. Boginski, S. Butenko, and P. M. Pardalos. Mining market data:
a network approach. Computers & Operations Research, 33(11):3171
3184, 2006.
[7] J. Borsík and J. Dobo². On a product of metric spaces. Mathematica
Slovaca, 31(2):193205, 1981.
99
[8] J.M. Bouroche and G. Saporta. L'Analyse des données. Que sais-je ?
Presses Universitaires de France - PUF, 1987.
[9] H. Bustince, J. Fernandez, A. Kolesárová, and R. Mesiar. Generation of
linear orders for intervals by means of aggregation functions. Fuzzy Sets
and Systems, 220(0):69 77, 2013.
[10] H. Bustince, M. Galar, B. Bedregal, A. Kolesarova, and R. Mesiar. A
new approach to interval-valued choquet integrals and the problem of
ordering in interval-valued fuzzy set applications. Fuzzy Systems, IEEE
Transactions on, 21(6):11501162, Dec 2013.
[11] G. Cabanes, Y. Bennani, R. Destenay, and A. Hardy. A new topological
clustering algorithm for interval data. Pattern Recognition, 46(11):3030
3039, 2013.
[12] J. Casasnovas and F. Roselló. Midpoints as average representations of
pairs of descriptions by means of fuzzy subsets. In Proceedings of the
Information Processing and Management of Uncertainty in Knowledge-
Based Systems International Conference, pages 21572164. Citeseer,
2005.
[13] J. Casasnovas and F. Rosselló. Averaging fuzzy biopolymers. Fuzzy Sets
and Systems, 152(1):139158, 2005.
[14] C. Chakraborty and D. Chakraborty. A theoretical development on a
fuzzy distance measure for fuzzy numbers. Mathematical and Computer
Modelling, 43(3):254261, 2006.
[15] M. Chavent and Y. Lechevallier. Dynamical clustering of interval data:
Optimization of an adequacy criterion based on hausdor distance. In
100
K. Jajuga, A. Sokolowski, and H. Bock, editors, Classication, Cluste-
ring, and Data Analysis, Studies in Classication, Data Analysis, and
Knowledge Organization, pages 5360. Springer Berlin Heidelberg, 2002.
[16] R. P. de A. Moura. Algoritmos de Agrupamentos Fuzzy Intervalares e
Índices de Validação para Agrupamento de Dados Simbólicos do Tipo
Intervalo . PhD thesis, Programa de Pós-Graduação em Sistemas e
Computação. Universidade Federal do Rio Grande do Norte, Natal-RN,
Fevereiro 2014.
[17] C. W.D. de Almeida, R. M. C. R. de Souza, and A. L.B. Candeias.
Fuzzy kohonen clustering networks for interval data. Neurocomputing,
99(0):65 75, 2013.
[18] F. de A.T. de Carvalho. Fuzzy c-means clustering methods for symbolic
interval data. Pattern Recognition Letters, 28(4):423 437, 2007.
[19] F. de A.T. de Carvalho. Some partitioning fuzzy clustering algo-
rithms for interval-valued data. In Workshop on Symbolic Data Analy-
sis:Fundamentals and Applications, No.43, Sec. 4, Keelung Rd., Da'an
Dist., Taipei City 106, Taiwan, 2012.
[20] F. de A.T. de Carvalho, P. Brito, and H. Bock. Dynamic clustering for
interval data based on l2 distance. Computational Statistics, 21(2):231
250, 2006.
[21] F. de A.T. de Carvalho, R.M.C.R. de Souza, M. Chavent, and Y. Leche-
vallie. Adaptive hausdor distances and dynamic clustering of symbolic
interval data. Pattern Recognition Letters, 27(3):167 179, 2006.
101
[22] F. de A.T. de Carvalho and C. P. Tenorio. Fuzzy k-means clustering al-
gorithms for interval-valued data based on adaptive quadratic distances.
Fuzzy Sets and Systems, 161(23):2978 2999, 2010.
[23] F.de A.T. de Carvalho and C. P. Tenório. Fuzzy k-means clustering al-
gorithms for interval-valued data based on adaptive quadratic distances.
Fuzzy Sets and Systems, 161(23):2978 2999, 2010.
[24] F. L. de Santana. Generalizações do Conceito de Distância, i-Distâncias,
Distâncias Intervalares e Topologia. PhD thesis, Programa de Pós-
Graduação em Sistemas e Computação. Universidade Federal do Rio
Grande do Norte, Natal-RN, Nov 2012.
[25] M. C. P. De Souto, D.S.A de Araujo, IG. Costa, R.G.F. Soares, T.B.
Ludermir, and A. Schliep. Comparative study on normalization procedu-
res for cluster analysis of gene expression datasets. In Neural Networks,
2008. IJCNN 2008. (IEEE World Congress on Computational Intelli-
gence). IEEE International Joint Conference on, pages 27922798, June
2008.
[26] R. M. C. R. de Souza and F. de A. T. de Carvalho. Clustering of
interval data based on cityblock distances. Pattern Recognition Letters,
25(3):353 365, 2004.
[27] R. R. de Vargas and B. R.C. Bedregal. Interval ckmeans: An algorithm
for clustering symbolic data. In Aleksandar Lazinica, editor, Fuzzy In-
formation Processing Society (NAFIPS), 2011 Annual Meeting of the
North American. InTech, 2010.
[28] R. R. de Vargas and B.R.C. Bedregal. A comparative study between
fuzzy c-means and ckmeans algorithms. In Fuzzy Information Processing
102
Society (NAFIPS), 2010 Annual Meeting of the North American, pages
16, 2010.
[29] R.R. de Vargas. Uma nova forma de calcular os centros dos clusters em
algoritmos de agrupamento tipo Fuzzy C-Means. PhD thesis, Universi-
dade Federal do Rio Grande do Norte Centro de Tecnologia, 2012.
[30] J. Dopazo, E. Zanders, I. Dragoni, G. Amphlett, and F. Falciani.
Methods and approaches in the analysis of gene expression data. Journal
of Immunological Methods, 250(12):93 112, 2001. Gene Expression
Technologies.
[31] J. Friedman, T. Hastie, and R. Tibshirani. The elements of statistical
learning: Data mining, inference, and prediction. Springer Series in
Statistics, 2009.
[32] E. Gokcay and J.C. Principe. Information theoretic clustering. Pattern
Analysis and Machine Intelligence, IEEE Transactions on, 24(2):158
171, Feb 2002.
[33] D.S. Guru, B. B. Kiranagi, and P. Nagabhushan. Multivalued type
proximity measure and concept of mutual similarity value useful for
clustering symbolic patterns. Pattern Recognition Letters, 25(10):1203
1213, 2004.
[34] J. F. Hair, W. C. Black, B. J Babin, R. E. Anderson, and R. L. Tatham.
Análise multivariada de dados. Bookman, 2007.
[35] T. Hickey, Q. Ju, and M. H. Van Emden. Interval arithmetic: From
principles to implementation. J. ACM, 48(5):10381068, sep 2001.
103
[36] D. J. Higham, G. Kalna, and J. K. Vass. Spectral analysis of two-
signed microarray expression data. Mathematical Medicine and Biology,
24(2):131148, 2007.
[37] M. Hukuhara. Intégration des applications mesurables dont la valeur
est un compact convexe. Funkcial. Ekvac, 10:205223, 1967.
[38] A. Irpino and R. Verde. Dynamic clustering of interval data using a
wasserstein-based distance. Pattern Recognition Letters, 29(11):1648
1658, 2008.
[39] A. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering: A review.
ACM Comput. Surv., 31(3):264323, September 1999.
[40] J. T. Jeng, Chuang C. C., and C. W. Tao. Interval competitive ag-
glomeration clustering algorithm. Expert Syst. Appl., 37(9):65676578,
September 2010.
[41] T. Kohonen, T. Huang, and M. Schroeder. Self-organizing maps, 2000.
[42] R. Krishnapuram and J. M. Keller. A possibilistic approach to cluste-
ring. Fuzzy Systems, IEEE Transactions on, 1(2):98110, 1993.
[43] U. W. Kulisch and W. L. Miranker. Computer arithmetic in theory and
practice. Academic Press, Inc., 1981.
[44] J. MacQueen et al. Some methods for classication and analysis of
multivariate observations. In Proceedings of the fth Berkeley symposium
on mathematical statistics and probability, volume 1, pages 281297.
Berkley, CA, USA., 1967.
104
[45] S. Markov and K. Okumura. The contribution of t. sunaga to interval
analysis and reliable computing. In T. Csendes, editor, Developments
in Reliable Computing, pages 167188. Springer Netherlands, 1999.
[46] J. Martín, G. Mayor, and O. Valero. On quasi-metric aggregation func-
tions and xed point theorems. Fuzzy Sets and Systems, 228:88104,
2013.
[47] J. Martín, G. Mayor, and O. Valero. On the symmetrization of quasi-
metrics: An aggregation perspective. In Aggregation Functions in The-
ory and in Practise, pages 319331. Springer, 2013.
[48] S. Massanet and O. Valero. On aggregation of metric structures: the
extended quasi-metric case. International Journal of Computational In-
telligence Systems, 6(1):115126, 2013.
[49] G. Mayor and O. Valero. Aggregation of asymmetric distances in com-
puter science. Information Sciences, 180(6):803812, 2010.
[50] B. Mirkin. Mathematical classication and clustering: From how to what
and why. Springer, 1998.
[51] R. Moore. Methods and applications of interval analysis. SIAM, 1979.
[52] R. E. Moore. Interval Arithmetic and Automatic Error Analysis in Di-
gital Computing. Technical report (Stanford University. Applied Mathe-
matics and Statistics Laboratory). Department of Mathematics, Stan-
ford University., 1962.
[53] R.E. Moore. Interval analysis, volume 4. Prentice-Hall Englewood Clis,
1966.
105
[54] G. Nieradka and B. Butkiewicz. A method for automatic membership
function estimation based on fuzzy measures. In Foundations of Fuzzy
Logic and Soft Computing, pages 451460. Springer, 2007.
[55] Taher Niknam, Elahe Taherian Fard, Narges Pourjafarian, and Alireza
Rousta. An ecient hybrid algorithm based on modied imperialist
competitive algorithm and k-means for data clustering. Engineering
Applications of Articial Intelligence, 24(2):306317, 2011.
[56] M. de A. Pereira. Classicação de Dados Híbridos Através de Algoritmos
Evolucionários. PhD thesis, Universidade Federal de Minas Gerais, 2012.
[57] A. Pradera and E. Trillas. A note on pseudometrics aggregation. Inter-
national Journal of General Systems, 31(1):4152, 2002.
[58] A. Pradera, E. Trillas, and E. Castiñeira. On distances aggregation.
In Proceedings of the Information Processing and Management of Un-
certainty in Knowledge-Based Systems International Conference, page
693700, 2000.
[59] A. Pradera, E. Trillas, and E. Castiñeira. On the aggregation of some
classes of fuzzy relations. In Technologies for Constructing Intelligent
Systems 2, pages 125136. Springer, 2002.
[60] C. J. Romanowski, R. Nagi, and M. Sudit. Data mining in an engineering
design environment: Or applications from graph matching. Computers
& operations research, 33(11):31503160, 2006.
[61] F. Santana and R. Santiago. Interval metrics, topology and continu-
ous functions. Computational and Applied Mathematics, 32(3):459470,
2013.
106
[62] R. H. Nunes Santiago, B. R. Callejas Bedregal, and B. M. Acioly. Formal
aspects of correctness and optimality of interval computations. Formal
Aspects of Computing, 18(2):231243, 2006.
[63] M. Sato-Ilic and L. C. Jain. Innovations in fuzzy clustering: Theory and
applications, volume 205. Springer, 2006.
[64] L. Silva, R. Moura, A. Canute, R. Santiago, and B. Bedregal. Fuzzy
clustering algorithm with h-operator applied to problems with interval-
based data. In Fuzzy Systems (FUZZ-IEEE), 2014 IEEE International
Conference on, pages 237244. IEEE, 2014.
[65] L. Silva, R. Moura, A. Canute, R. Santiago, and B. Bedregal. New ways
to calculate centers for interval data in fuzzy clustering algorithms. In
Norbert Wiener in the 21st Century (21CW), 2014 IEEE Conference
on, pages 16. IEEE, 2014.
[66] L. Silva, R. Moura, A. Canuto, R. Santiago, and B. Bedregal. An
interval-based framework for fuzzy clustering applications. Fuzzy Sys-
tems, IEEE Transactions on, PP(99):11, 2015.
[67] R.M.C.R. Souza, F. A. T. de Carvalho, C.P. Tenorio, and Y. Lecheval-
lier. Dynamic cluster methods for interval data based on mahalanobis
distances. In D. Banks, F. R. McMorris, P. Arabie, and W. Gaul, edi-
tors, Classication, Clustering, and Data Mining Applications, Studies
in Classication, Data Analysis, and Knowledge Organisation, pages
351360. Springer Berlin Heidelberg, 2004.
[68] L. Stefanini. A generalization of hukuhara dierence and division for
interval and fuzzy arithmetic. Fuzzy Sets and Systems, 161(11):1564
1584, 2010.
107
[69] P.N. Tan, M. Steinbach, and V. Kumar. Introduction To Data Mining.
Addison-Wesley, 2005.
[70] R. M. P. Trindade. Uma fundamentação matemática para processamento
digital de sinais intervalares. PhD thesis, Universidade Federal do Rio
Grande do Norte, 2009.
[71] R. M. P. Trindade, Bedregal B. R. C., A. D. D. Neto, and B. M. Acioly.
An interval metric. In New Advanced Technologies, pages 16. IEEE,
2011.
[72] A. Ushioda and J. Kawasaki. Hierarchical clustering of words and ap-
plication to nlp tasks. In Proceedings of the Fourth Workshop on Very
Large Corpora, pages 2841, 1996.
[73] Mark J Van der Laan and Katherine S Pollard. A new algorithm for hy-
brid hierarchical clustering with visualization and the bootstrap. Journal
of Statistical Planning and Inference, 117(2):275303, 2003.
[74] Z. Wu and R. Leahy. An optimal graph theoretic approach to data
clustering: Theory and its application to image segmentation. Pattern
Analysis and Machine Intelligence, IEEE Transactions on, 15(11):1101
1113, 1993.
[75] R. Xu and D. Wunsch. Survey of clustering algorithms. Neural Networks,
IEEE Transactions on, 16(3):645678, 2005.
[76] Z. Xu and R. R. Yager. Some geometric aggregation operators based
on intuitionistic fuzzy sets. International journal of general systems,
35(4):417433, 2006.
[77] L.A. Zadeh. Fuzzy sets. Information and Control, 8(3):338 353, 1965.
108
[78] Wei-bin Zhang, Huai-zhong Hu, and Wen-jiang Liu. Rules extraction
of interval type-2 fuzzy logic system based on fuzzy c-means clustering.
In Fuzzy Systems and Knowledge Discovery, 2007. FSKD 2007. Fourth
International Conference on, volume 2, pages 256260. IEEE, 2007.
109