Download - Weka Report Presentation
![Page 1: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/1.jpg)
Relatório de Utilização da Ferramenta Weka
Francisco Glaubos
9 de junho de 2014
1 / 21
![Page 2: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/2.jpg)
A base de dados
I Nome: Breast CancerI Fonte: Instituto de Oncologia, Iuguslávia.I Objetivo: Mostrar pacientes com câncer de mama que
possuem ou não, recorrência de sintomas após o tratamento.I 286 instâncias e nove atributos.
2 / 21
![Page 3: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/3.jpg)
I Class: Não-Recorrência ou Recorrência de sintomas do câncerde mama nos pacientes após o tratamento.
I age: Idade do paciente no momento do diagnóstico.I menopause: Estado de menopausa do paciente no momento
do diagnóstico.I tumor-size: O tamanho do tumor em milímetros.I inv-nodes: Faixa de 0 a 39 linfonodos auxiliares, que mostram
o câncer de mama no momento do exame histológico.I nodes-cap: A penetração do tumor na cápsula do linfonodo
ou não.
3 / 21
![Page 4: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/4.jpg)
I deg-malign: Faixa de grau 1 a 3, que define o grauhistológico do tumor, o nível de malignidade do tumor.
I breast: O câncer poder ocorrer em qualquer mama.I breast-quad: Se for considerado o mamilo como um ponto
central, a mama pode ser dividida em quatro quadrantes.I irradiat: Se o paciente possui ou não histórico de terapia de
radiação (raio-x).
4 / 21
![Page 5: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/5.jpg)
Classificação
I Nayve BayesI IBKI J48I Configuração padrão: Cross-validation folds = 10
5 / 21
![Page 6: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/6.jpg)
Nayve BayesI classificou corretamente 205 e incorretamente 81 instânciasI 33 classificadas como reccurence-events ⇒
no-reccurence-eventsI 48 classificadas como no-reccurence-events ⇒
recurrence-events
6 / 21
![Page 7: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/7.jpg)
IBKI 1o teste: A classe atribuída é a predominante entre um ponto
P e o vizinho mais próximo. K = 1.
Figura : Resultados do método IBK com k=1.
7 / 21
![Page 8: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/8.jpg)
1 2 3 4 5 6
72.5
73
73.5
74
74.5
k-vizinhos mais próximos
instâncias
corretam
ente
classificadas
(%)
8 / 21
![Page 9: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/9.jpg)
Figura : Resultados do método IBK com k=4.
9 / 21
![Page 10: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/10.jpg)
J48I minNumObj = 2 e fator de confiança = 0.3I 214 classificadas corretamente e 72 incorretamente.
Figura : Árvore gerada pela ferramenta Weka após a execução do J48.10 / 21
![Page 11: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/11.jpg)
I Seja c : fator de confiança e f (c) qualidade da classificação.I Hipótese: limc→0 f (c) = 75.52. A ferramenta Weka não
permitiu valores muito pequenos para c.
69 70 71 72 73 74 75 760
0.2
0.4
0.6
quantidade de instâncias corretamente classificadas (%)
valordo
confi
dencefactor
11 / 21
![Page 12: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/12.jpg)
Comparação: Classificação Global X Classificação Local
Figura : Desempenho global dos classificadores
12 / 21
![Page 13: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/13.jpg)
Figura : Desempenho local dos classificadores em relação a classeno-recurrence-events
13 / 21
![Page 14: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/14.jpg)
Regras de Associação
I Abordagem AprioriI 1o Teste: Modelo Suporte/ConfiançaI supMin=0.5 Confiança=0.9
1. R1: inv − nodes = 0− 2, irradiat = no,Class = no − recurrence − events ⇒ node − caps = noconfiança:(0.99)
2. R2: inv − nodes = 0− 2, irradiat = no ⇒ node − caps = noconfiança:(0.97)
3. R3: node − caps = no, irradiat = no,Class = no − recurrence − events ⇒ inv − nodes = 0− 2confiança:(0.96)
Obs.: Dificuldade de extrair classe como consequente.Confiança=0.5
14 / 21
![Page 15: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/15.jpg)
Lift
1. R4: inv − nodes = 0− 2⇒ node − caps = no, irradiat = noconf:(0.83) lift:(1.26)
2. R5: node − caps = no, irradiat = no ⇒ inv − nodes = 0− 2conf:(0.94) lift:(1.26)
3. R6: node − caps = no ⇒ inv − nodes = 0− 2, irradiat = noconf:(0.8) lift:(1.25)
I Lift > 1I Da regra R4: os itens inv − nodes = 0− 2 e
node − caps = no, irradiat = no possuem dependênciapositiva (o suporte real da regra é 1.26 vezes maior que osuporte esperado).
15 / 21
![Page 16: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/16.jpg)
Leverage, Conviction
I leverage: 0 a 0.25, Conviction: min=0.9
1. R7: inv − nodes = 0− 2⇒ node − caps = no, irradiat = noconf:(0.83) lift:(1.26) < lev:(0.13)> conv:(1.97)
2. R8: node − caps = no, irradiat = no ⇒ inv − nodes = 0− 2conf:(0.94) lift:(1.26) < lev:(0.13)> conv:(4)
3. R9: inv − nodes = 0− 2⇒ node − caps = no conf:(0.94)lift:(1.22) <lev:(0.12)> conv:(3.67)
I Dependência mais frequente: inv − nodes = 0− 2 enode − caps = no
I R7=R4, R8=R5 e a regra R9 tomou a posição que era de R6
16 / 21
![Page 17: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/17.jpg)
Clusterização: SimpleKmeans
I Número de clusters (K=2).I Distância Euclidiana. (Distância de Manhattan não alterou os
resultados)
I Alguns atributos não distinguiram bem os clusters
17 / 21
![Page 18: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/18.jpg)
1 1.5 2 2.5 3 3.5 4
80
100
120
140
160
valor do parâmetro K
instâncias
incorretam
ente
clusteriz
adas
Figura : Qualidade da clusterização em função da variância do K.
Conclusão: Execuções com K6=2 clusterizam pior que K=2. Amedida que se aproxima de K=2, a clusterização melhora. 18 / 21
![Page 19: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/19.jpg)
DBSCANI Após alguns testes, o melhor valor para epsilon foi 1.5I 1a Conclusão Parcial: A medida que se incrementa o
minPoints, menos instâncias são clusterizadas incorretamente.
2 3 4 5 6 750
60
70
80
valor do minPoints
instâncias
incorretam
ente
clusteriz
adas
Figura : Qualidade da clusterização com epsilon fixo em 1.5.
19 / 21
![Page 20: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/20.jpg)
I 2a Conclusão Parcial: Menos instâncias foram clusterizadas
2 3 4 5 6 710
20
30
40
50
60
valor do minPoints
instâncias
nãoclusteriz
adas
Figura : Instâncias não clusterizadas com epsilon fixo em 1.5.
20 / 21
![Page 21: Weka Report Presentation](https://reader031.vdocuments.pub/reader031/viewer/2022020123/55979a591a28ab566d8b4872/html5/thumbnails/21.jpg)
DBSCAN: Conclusão Final
1. A clusterização realmente melhora com o incremento dosminPoints?
2. o Método garante a qualidade das clusterizadas e nãoclusteriza outras?
21 / 21