reduksi dimensi fitur menggunakan algoritma aloft untuk...

26
Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk Pengelompokan Dokumen MAMLUATUL HANI’AH 5114201027 DOSEN PEMBIMBING Dr. Eng. Chastine Fatichah, S.Kom, M.Kom Diana Purwitasari, S.Kom, M.Sc

Upload: others

Post on 03-Nov-2020

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk Pengelompokan Dokumen

MAMLUATUL HANI’AH 5114201027

DOSEN PEMBIMBINGDr. Eng. Chastine Fatichah, S.Kom, M.KomDiana Purwitasari, S.Kom, M.Sc

Page 2: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

LATAR BELAKANG

Penumpukan Informasi

Sulit menemukan informasi yang relevan

Diperlukan pengelolaan informasi

Pengelompokan dokumen

?

Page 3: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

LATAR BELAKANG

Pengelompokan Dokumen

Prepocessing

Semakin besar dokumen

Vector Space Model (VSM)

tokenizing, stopword removal, dan stemming

Stemming bahasa IndonesiaTidak terpotong dengan

sempurna (Arifin, et al., 2009)

Pembentukan kata dasar menggunakan produk Kateglo

(kamus, tesaurus, dan glosarium)

Semakin Banyak Fitur

Page 4: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

LATAR BELAKANG

Pengelompokan Dokumen

Prepocessing

Semakin besar dokumen

Representasi teks (VSM)

Semakin Banyak Fitur

performa buruk dari algoritma clustering

Reduksi Dimensi(Bharti & Singh, 2014) (Bharti & Singh, 2015) (Tabakhi, et al., 2014) (Song &

Park, 2009)

Page 5: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

Reduksi Dimensi Seleksi Fitur

Wrapper

Filter

membutuhkan biaya yang tingggiberulang kali melakukan

pengujian dengan machine learning

(Liu, et al., 2007), (Alelyani, et al., 2013 )

Cepat dan lebih efisien,Penentuan relevansi fitur dengan

perhitungan statistik(Liu, et al., 2007), (Alelyani, et al.,

2013 )

LATAR BELAKANG

145

316

395

461

0

100

200

300

400

500

D1 D1+D2 D1+D2+D3 D1+D2+D3+D4

JUM

LAH

FIT

UR

DOKUMEN

Fitur dokumen

Page 6: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

LATAR BELAKANG

Metode Filter memilih k fitur teratas (VR)

• Nilai k dari masukan pengguna

• Nilai k berbeda mungkin akan menghasilkankelompok dokumen yang berbeda

ALOFT

• ALOFT metode seleksi fitur untuk klasifikasi dokumen

• Menghasilkan sejumlah set fitur secara otomatis tanpa parameter masukan dari pengguna

• Memiliki performa yg lebih bagus (Pinheiro, et al., 2012)

Metode filter pada algoritma ALOFT membutuhkanlabel kelas sehingga metode filter tersebut tidakdapat digunakan untuk pengelompokan dokumen

Page 7: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

USULAN

Metode Filter ALOFT

Document Frequency (DF), Term Contributtion(TC), Term variance quality (TVQ), Term

Variance (TV), Mean Absolute Difference(MAD), Mean Median (MM), Arithmetic Mean

Geometric Mean (AMGM)

• Mengetahui kombinasi metode filter pada ALOFTyang menghasilkan kualitas cluster terbaik

• Diharapkan dapat meningkatkan performa danefisiensi dari algoritma clustering

Pengelompokan dokumen

Page 8: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

RUMUSAN MASALAH1. Bagaimana pengaruh kata dasar dengan menggunakan kata

turunan pada Kateglo terhadap hasil cluster.

2. Bagamaina reduksi dimensi fitur yang menggunakan variasi metode filter pada ALOFT.

3. Bagaimana kualitas cluster yang dihasilkan setelah dilakukan reduksi dimensi.

Page 9: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

Tujuan dan Manfaat Penelitian

Mengelompokkan dokumen berita dengan memanfaatkan teknik reduksi dimensi fitur menggunakan variasi metode filter pada algoritma ALOFT.

TUJUAN

Diharapkan hasil dokumen yang sudah terkelompokkan dapat memperbaiki efektifitas dan efisiensi dalam pencarian informasi yang relevan.

MANFAAT

Page 10: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

Kontribusi PenelitianReduksi dimensi fitur dengan menggunakan variasi metode filter pada algoritma ALOFT untuk mengelompokkan dokumen.

Page 11: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

• Data yang digunakan pada kategori ekonomi, olahraga, politik

DATA

• Dokumen berita berbahasa Indonesia dari situs berita online www.kompas.com

• Jumlah dokumen yang digunakan sebanyak 1000 dokumen

Data yang dimanfaatkan adalah judul berita dan isi dari berita

Page 12: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

Diagram Alir Sistem

Dokumen Berita

Pembersihan data

TokenizingStopword removal

Pembentukan kata dasar

Preprocessing

Pembobotan Tfidf

Perhitungan relevansi fitur dengan metode

filter

Pemilihan fitur dengan ALOFT

Clustering dokumen

Page 13: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

Metode FilterPada penelitian ini digunakan tujuh buah metode filter

a. Document Frequency (DF)

b. Term Contribution (TC)

c. Term Variance Quality (TVQ)

d. Term Variance (TV)

e. Mean Absolute Difference (MAD)

f. Mean Median (MM)

g. Arithmetic Mean Geometric Mean (AMGM)

Perhitungan relevansi fitur dengan metode

filter

Pemilihan fitur dengan ALOFT

Clustering dokumen

Semakin tinggi nilai filter dari sebuah fitur maka semakin relevan fitur tersebut

Page 14: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

ALOFT (At Least One FeaTure)

Setidaknya terdapat satu fitur yang mewakili dokumen

Perhitungan relevansi fitur dengan metode

filter

Pemilihan fitur dengan ALOFT

Clustering dokumen

Untuk setiap dokumen dipilih fitur terbaik

Fitur terbaik = nilai relevansi tertinggi

Fitur terbaik disimpan ke dalam vektor fitur yang baru( tidak ada fitur yang sama )

Page 15: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

Pengelompokan Dokumen

Menggunakan 2 Algoritma clustering

K-means

Hierarchical Agglomerative Clustering

Page 16: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

Uji Coba:• Uji Coba 1 : Pengujian dengan Kata Dasar• Uji Coba 2 : Pengujian tanpa Kata Dasar

Skenario uji cobaCluster dievaluasi dengan menggunakan metode silhouette untuk mengetahui kualitas dari hasil pengelompokan dokumen.

Parameter estimasi :• Nilai k : Jumlah cluster yang akan dibentuk untuk algoritma k-means dan HAC

Skenario 8 : Filter TV + ALOFT + HAC (dengan beberapa variasi nilai k)

Skenario 9 : Filter MAD + ALOFT + Kmeans (dengan beberapa variasinilai k)

Skenario 10 : Filter MAD + ALOFT + HAC (dengan beberapa variasi nilaik)

Skenario 11 : Filter MM + ALOFT + Kmeans (dengan beberapa variasinilai k)

Skenario 12 : Filter MM + ALOFT + HAC (dengan beberapa variasi nilai k

Skenario 13 : Filter AMGM + ALOFT + Kmeans (dengan beberapa variasinilai k)

Skenario 14 : Filter AMGM + ALOFT + HAC (dengan beberapa variasinilai k)

Skenario 1 : Filter DF + ALOFT + Kmeans (dengan beberapa variasi nilaik)

Skenario 2 : Filter DF + ALOFT + HAC (dengan beberapa variasi nilai k)

Skenario 3 : Filter TC + ALOFT + Kmeans (dengan beberapa variasi nilaik)

Skenario 4 : Filter TC + ALOFT + HAC (dengan beberapa variasi nilai k)

Skenario 5 : Filter TVQ + ALOFT + Kmeans (dengan beberapa variasinilai k)

Skenario 6 : Filter TVQ + ALOFT + HAC (dengan beberapa variasi nilai k)

Skenario 7 : Filter TV + ALOFT + Kmeans (dengan beberapa variasi nilaik)

Page 17: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

UJI COBA 1Dilakukan 50 kali uji coba untuk mendapatkan hasil terbaik

Hasil terbaik didapatkan pada k =3 pada metode MAD , dengan jumlah fitur 15

k

Rata – rata Silhouette Coefficient (ASW) Cosine Similarity K-means

DF +

ALOFT

TC +

ALOFT

TV +

ALOFT

TVQ +

ALOFT

MAD +

ALOFT

MM +

ALOFT

AMGM

+ ALOFT

2 0,350 0,401 0,401 0,411 0,415 0,258 0,120

3 0,487 0,534 0,534 0,544 0,553 0,280 0,145

4 0,478 0,503 0,503 0,544 0,526 0,238 0,141

5 0,399 0,501 0,501 0,511 0,526 0,245 0,131

6 0,428 0,511 0,428 0,527 0,542 0,256 0,143

7 0,386 0,445 0,445 0,417 0,476 0,265 0,151

8 0,401 0,330 0,330 0,416 0,363 0,272 0,158

9 0,409 0,335 0,335 0,439 0,374 0,278 0,159

10 0,419 0,331 0,334 0,435 0,369 0,285 0,164

........... ..// .... .... ..... ..... ..... .....

25 0,363 0,321 0,310 0,443 0,339 0,361 0,224

Jumlah

fitur19 16 15 16 15 168 119

Page 18: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

UJI COBA 1

nilai rata – rata rata -rata silhouette (ASW)terbaik untuk semua metode filter terdapat pada k yang berbeda –beda.

k

rata - rata silhouette (ASW) cosine similarity − HAC

DF + ALOFT TC + ALOFT TV + ALOFT TVQ + ALOFTMAD +

ALOFT

MM +

ALOFT

AMGM +

ALOFT

2 0,104 0,082 0,260 0,107 0,204 0,102 0,030

3 0,004 -0,065 0,220 -0,042 0,384 -0,016 -0,014

4 -0,016 -0,004 0,129 -0,092 0,346 -0,025 -0,018

5 -0,037 -0,036 0,126 -0,094 0,426 -0,029 -0,022

6 -0,069 0,042 0,215 0,136 0,423 -0,030 -0,023

7 -0,011 0,174 0,258 0,117 0,436 -0,031 -0,036

8 0,105 0,186 0,145 0,283 0,460 -0,029 -0,037

9 0,106 0,260 0,184 0,323 0,387 -0,029 -0,033

10 0,225 0,317 0,211 0,338 0,369 -0,028 -0,042

.... .... ..... .... ..... ..... ..... ....

25 0,327 0,226 0,273 0,351 0,283 0,181 -0,007

Jumlah fitur 19 16 15 16 15 168 119

Page 19: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

Perbandingan dengan metode VR

Perbandingan dilakukan pada k = 3. dimana pada nilai ini

didapatkan nilai silhouette tertinggi

0,553

0,0

0,1

0,2

0,3

0,4

0,5

0,6

DF TC TV TVQ MAD MM AMGM

rata

-ra

ta S

ilho

uet

te C

oef

isie

n (

ASW

)

Metode Filter

Perbandingan Nilai Rata - rata Silhouette (ASW) antar Metode Filter pada K-means

ALOFT VR

Page 20: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

Perbandingan dengan metode VR

Perbandingan dilakukan pada k = 3. dimana pada nilai ini

didapatkan nilai silhouette tertinggi

0,384

-0,100

0,000

0,100

0,200

0,300

0,400

0,500

0,600

DF TC TV TVQ MAD MM AMGM

Rat

a -

rata

Silh

ou

ette

Co

efis

ien

(A

SW)

Metode Filter

Perbandingan Nilai Rata - rata Silhouette (ASW) antar Metode Filter pada HAC

ALOFT VR

Page 21: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

Pengaruh kata dasar

Pencarian kata dasar tidak terlalu berpengaruh

0,553

0,0

0,1

0,2

0,3

0,4

0,5

0,6

DF TC TV TVQ MAD MM AMGM

Rat

a -

rata

Silh

ou

ette

Co

efis

ien

(A

SW)

Metode Filter

Pengaruh Kata Dasar Terhadap Metode Usulan Menggunakan K-means

Kata dasar Tanpa kata dasar

0,384

-0,2

0,0

0,2

0,4

0,6

DF TC TV TVQ MAD MM AMGM

Rat

a -

rata

Silh

ou

ette

Co

efis

ien

(A

SW)

Metode Filter

Pengaruh Kata Dasar Terhadap Metode Usulan Menggunakan HAC

Kata dasar Tanpa kata dasar

Page 22: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

Analisis Kata Turunan KategloKekurangan Contoh

Awalan di (-) dan akhiran (-i) dipakai, ditutupi, dijalani, dipadati, dipanasi, dll

imbuhan lebih dari satu dan akhiran lebih dari satu

mempermainkannya, memperbanyak, memperjuangkannya, dll

kata berisisipan jelajah, geligi, selidik, melaju, dll

Akhiran (-i) Fasilitasi, tanami, sukai, abadi, dll

AKIBATnilai rata – rata silhouette yang dimiliki beberapa metode filter tidak

berpengaruh signifikan

antara fitur term yang dilakukan pencarian kata dasar dengan fitur term yang tidak dilakukan pencarian kata dasar tidak banyak berbeda

Dengan pencarian kata dasar 14.165 fitur Tanpa kata dasar 16.348. terdapat selisih 2.183

Page 23: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

Analisa hasil cluster

DF +

ALOFT

TC +

ALOFT TV + ALOFT

TVQ +

ALOFT

MAD +

ALOFT

MM +

ALOFT

AMGM +

ALOFT

K -means

euclidean 0,634 0,906 0,866 0,444 0,842 0,064 0,255

cosine 0,897 0,950 0,979 0,946 0,970 0,774 0,846

HAC

euclidean 0,104 0,498 0,139 0,048 0,517 0,002 0,020

cosine 0,013 0,007 0,147 0,024 0,592 0,019 0,010

Tujuan evaluasi adjusted rand index : mengetahui apakah himpunan fitur akhir yang sudah terpilih dapat mewakili dokumen aslinya.dilakukan pada hasil pengelompokan pada k = 3 sesuai dengan ground truthnilai adjusted rand index tertinggi pada penggunaan k-means dan perhitungan kemiripannya dilakukan dengan menggunakan cosine similarity

Page 24: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

KesimpulanPenggunaan produk Kateglo untuk proses pembentukan kata dasar dapat meningkatkan kualitas cluster pada beberapa metode filter, akan tetapi peningkatan kualitas cluster yang dihasilkan tidak terlalu signifikan.

Hasil uji coba pengelompokan dokumen berita online menunjukkan kualitas cluster pada nilai k = 3 memiliki kriteria “Baik” untuk filter TC, TV, TVQ, dan MAD dengan rata – rata silhouette lebih dari 0,5. Sedangkan untuk filter DF mimiliki kriteria “Cukup Baik” dengan rata – rata silhouette lebih dari 0,4.

Hasil uji coba pengelompokan dokumen berita online menunjukkan bahwa metode reduksi dimensi fitur menggunakan variasi metode filter pada ALOFT mendapatkan hasil yang optimal dengan menggunakan algoritma k-means dan Perhitungan kemiripan cosine similarity.

Page 25: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100

Saran1. penggunaan kombinasi dari beberapa metode filter sehingga nilai relevansi dari sebuah term

tidak hanya tergantung pada satu metode filter saja

Page 26: Reduksi Dimensi Fitur Menggunakan Algoritma ALOFT untuk ...repository.its.ac.id/71894/3/5114201027-presentationpdf.pdfdimana pada nilai ini didapatkan nilai silhouettetertinggi 0,384-0,100