feature selection. introdução estudo de metodologias relacionadas a seleção de atributos ...

20
FEATURE SELECTION

Upload: sofia-lobo-leal

Post on 07-Apr-2016

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

FEATURE SELECTION

Page 2: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

Introdução Estudo de metodologias relacionadas a

seleção de atributos Maldição da dimensionalidade

O número de atributos do desenvolvedor do sistema de classificação é geralmente muito grande

Necessidade de reduzir o número de atributos a um mínimo suficiente Complexidade Computacional Duas características : individual x combinada Grande número de parâmetros dos classificadores

Page 3: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

Preprocessing Outlier Removal

Um outlier é definido como um ponto que está muito longe da média da variável aleatória correspondente

Normalização dos dados Normalizar os atributos de modo que seus

valores fiquem dentro de um intervalo similar Dados desconhecidos

Tornar o número de dados válidos os mesmos para todos os atributos Descartar Substituir

Page 4: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

Seleção de atributos a partir de Testes de Hipótese Testar cada atributo individualmente

Sua capacidade discriminatória para o problema em questão Descartar facilmente más escolhas Utilizar as técnicas mais elaboradas

x : variável aleatória representando um atributo. Verificaremos se seus valores para classes diferentes se diferem significativamente H I : Os valores se diferem significativamente Ho: Os valores não se diferem significativamente

Page 5: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

Seleção de atributos a partir de Testes de Hipótese Iremos calcular a diferença pl - p2 entre as médias dos

valores de um atributo em duas classes. Se xi, i = 1,2, . . . , N, são os valores de um atributo na

classe 1 e possuem média µ1. De maneira correspondente, temos µ2 para a classe 2. Assuma que a variância dos valores do atributo nas duas

classes é igual a 1² = ² = ². Para tomar a decisão baseados na proximidade dos

valores das duas médias, iremos realizar um teste de hipótese:

Page 6: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

Exemplo de AplicaçãoExemplo de valores de duas classes:

Esse atributo possui informações suficientes? Iremos testar quando os valores do atributo nas duas

classes diferem de maneira significativa. O nível de significância é p = 0.05.

Em seguida temos:

Para N = 10 nós temos:

Retirados da tabela...

Page 7: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor
Page 8: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

Exemplo de Aplicação D = [-xp, xp] = [-3.2, 3.2] Visto que 4.25 reside fora do intervalo D,

decidimos a favor de HI; isto é, o valor das médias diferem significantemente no nível 0.05.

Logo, o atributo é selecionado.

Page 9: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

The Receiver Operating Characteristics CROC Curve Análise de informações sobre a

sobreposição de duas classes.

Essa decisãoé associada a um erro de probabilidade, a, por obter uma decisão errada em relação à classe (a probabilidade de uma decisão correta é 1 – a) e corresponde à área sombreada na curva.

Page 10: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

The Receiver Operating Characteristics CROC Curve Quanto menor a sobreposição das

classes, maior a área entre a curva e a linha reta.

Page 11: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

Medidas de Separação de Classes Alguns atributos possuem dependência

ou influência sobre os valores de outros. Os métodos de discriminação de

atributos não levam em conta as co-relações entre atributos.

Classificação acaba sendo influenciada pela aparente falta de relação entre atributos.

Como medir a efetividade da discriminação dos vetores de atributos.

Page 12: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

Divergência Regra de Bayes.

Dadas duas classes e e um vetor de características x, selecionamos se:

Logo, a razão pode nos mostrar informações úteis a respeito da capacidade disriminatória associada ao vetor x.

Para classes completamente sobrepostas essa razão é igual a zero.

Page 13: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

Divergência Já que x pode assumir diferentes

valores…

A soma d12 = D12 + D21 é conhecida como divergência. As medidas de separação das classes ,

em relação ao vetor x.

Page 14: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

Divergência Para um problema com várias classes a divergência

é calculada para cada par de classes, i e j. Assumindo que as funções de densidade são

Gaussianas N(i, ∑i ) e N(j, ∑j ) respectivamente, o cálculo da divergência pode ser simplificado: Se as matrizes de covariância das duas

distribuições Gaussianas são iguais, então ∑ i = ∑ j = ∑e

Page 15: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

Divergência Não é possível, para distribuições mais gerais, uma

relação direta da divergência com o erro bayesiano. Dependências específicas do valor da divergência entre

os vetores médios pode levar a resultados equivocados. Para evitar isso, uma variação da divergência foi criada,

é chamada de divergência transformada:

Page 16: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

Limite de Chernoff O mínimo erro de classificação alcançado pelo

classificador de Bayes para duas classes 1 e 2 é:

Um limite superior pode ser derivado baseado na igualdade:

Combinando as duas expressões chegamos à expressão conhecida como Limite de Chernoff.

Page 17: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

O limite mínimo pode ser calculado minimizando ECB em relação a s. Uma forma especial desse limite é encontrada para s = ½ :

Para as distribuições gaussianas N(i, ∑i ) e N(j, ∑j ) e após alguns cálculos, obtemos:

O termo B é conhecido como Distância de Bhattacharyya e é usado como uma medida de separação de classes. e corresponde ao Limite de Chernoff otimizado quando ∑i = ∑j

Distância de Bhattacharyya

Page 18: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

Scatter Matrices Isso é bruxaria!

Page 19: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

Seleção de Subconjuntos de Características

Após definir os critérios, temos que selecionar um subconjunto de l atributos.

Scalar Feature Selection Adotar qualquer critério de medida de

separabilidade de classes. O valor do critério C(k) é computado para cada

atributo, k =1, 2, . . ., m. Os atributos são ordenados em ordem

decrescente de valores do C(k). Os l melhores valores são selecionados para

formar o feature vector.

Page 20: FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor

Seleção de Subconjuntos de Características

Scalar Feature Selection Divergência unidimensional é um critério para

computar o C(k). Esse critério é executado para todos pares de

classes. Para cada um dos atributos, o C(k)

correspondente é igual a: que é o menor divergence value de todas as classes