klasifikasi pada text mining -...

17
4/2/13 Text dan Web Mining FTI UKDW BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision Tree Menjelaskan implementasi algoritma klasifikasi pada text corpus. Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2

Upload: trinhtram

Post on 27-Mar-2019

233 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: KLASIFIKASI PADA TEXT MINING - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu5.pdf · KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW

4/2/13  

Text  dan  Web  Mining  -­‐  FTI  UKDW  -­‐  BUDI  SUSANTO   1  

KLASIFIKASI PADA TEXT MINING Budi Susanto

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1

Tujuan • Memahami konsep dasar sistem klasifikasi • Memahami beberapa algoritma klasifikasi:

•  KNN •  Naïve Bayes •  Decision Tree

• Menjelaskan implementasi algoritma klasifikasi pada text corpus.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2

Page 2: KLASIFIKASI PADA TEXT MINING - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu5.pdf · KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW

4/2/13  

Text  dan  Web  Mining  -­‐  FTI  UKDW  -­‐  BUDI  SUSANTO   2  

Pendahuluan • Masalah klasifikasi adalah bagaimana menentukan suatu

objek masuk ke suatu class yang sebenarnya. •  Dalam text mining, suatu class lebih bersifat area subjek umum.

(disebut juga Topik). •  Pekerjaan klasifikasi disebut sebagai text classification, text

categorization, topic classification, atau topic spotting.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 3

Contoh Implementasi •  Identifikasi bahasa suatu dokumen • Mendeteksi encoding dokumen • Mendeteksi otomatis halaman/email spam • Sentiment detection • Personal email sorting •  Topic-specific (vertical search)

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 4

Page 3: KLASIFIKASI PADA TEXT MINING - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu5.pdf · KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW

4/2/13  

Text  dan  Web  Mining  -­‐  FTI  UKDW  -­‐  BUDI  SUSANTO   3  

Machine Learning • Klasifikasi dilakukan berdasar pembelajaran dari

kumpulan dokumen untuk mendapatkan suatu pola tiap class. •  Pola dapat berupa suatu rule

• Pembelajaran untuk mendapatkan pola atau kriteria keputusan suatu class oleh komputer dilakukan dengan cara “mempelajari” secara otomatis dari data pelatihan (training data). •  Jika menggunakan metode statisik, disebut statistical text

classification.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 5

Machine Learning • Diperlukan sejumlah dokumen (training document) yang

sangat baik untuk tiap class. •  Harus dilakukan dengan cara manual terkait pemberian label class

tiap training document. •  Aktifitas ini disebut labeling

• Semua algoritma klasifikasi dalam text mining mewakili dokumen dalam suatu ruang dimensi yang tinggi. •  Untuk mengifisiensikan, diperlukan pengurangan dimensi

•  Disebut dengan feature selection.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 6

Page 4: KLASIFIKASI PADA TEXT MINING - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu5.pdf · KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW

4/2/13  

Text  dan  Web  Mining  -­‐  FTI  UKDW  -­‐  BUDI  SUSANTO   4  

Konsep Dasar • Supervised learning

• Setelah mempelajari , kita dapat menerapkannya untuk himpunan dokumen test.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 7

C→Χ:γγ

Proses Klasifikasi

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 8

Page 5: KLASIFIKASI PADA TEXT MINING - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu5.pdf · KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW

4/2/13  

Text  dan  Web  Mining  -­‐  FTI  UKDW  -­‐  BUDI  SUSANTO   5  

Naïve Bayes Text Classification • Menurut metode multinomial Naïve Bayes, probabilitas

suatu dokumen, d, sebagai bagian dari anggota class c dihitung sebagai:

•  P(tk|c) adalah probabilitas kondisi kemunculan term tk dalam sebuah dokumen class c. •  Seberapa yakin tk berkontribusi bahwa c adalah kelas yang benar

•  P(c) adalah probabilitas kemunculan sebuah dokumen dalam kelas c.

•  <t1, t2, …, tnd> adalah token-token dalam d.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 9

Naïve Bayes Text Classification • Sebuah dokumen test terpilih masuk sebagai anggota suatu class terbaik jika memiliki maximum a posteriori (MAP) kelas cmap:

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 10

Page 6: KLASIFIKASI PADA TEXT MINING - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu5.pdf · KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW

4/2/13  

Text  dan  Web  Mining  -­‐  FTI  UKDW  -­‐  BUDI  SUSANTO   6  

Naïve Bayes Text Classification

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 11

Contoh

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 12

Page 7: KLASIFIKASI PADA TEXT MINING - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu5.pdf · KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW

4/2/13  

Text  dan  Web  Mining  -­‐  FTI  UKDW  -­‐  BUDI  SUSANTO   7  

Feature Selection •  Feature Selection adalah proses pemilihan sebuah subset

term yang muncul dalam himpunan training. •  Klasifikasi teks hanya akan menggunakan hasil feature selection. •  Alasan:

•  Agar metode pengklasifikasian lebih efisien dengan mengurangi ukuran vocabulary.

•  Meningkatkan akurasi klasifikasi dengan membuang feature noise.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 13

Feature Selection • Algoritma dasar:

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 14

Page 8: KLASIFIKASI PADA TEXT MINING - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu5.pdf · KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW

4/2/13  

Text  dan  Web  Mining  -­‐  FTI  UKDW  -­‐  BUDI  SUSANTO   8  

Feature Selection: Mutual Information • A(t,c) nilai mutual information dari term t dan class c.

• MI mengukur seberapa besar kontribusi ada/tidaknya suatu term, t, dalam pembuatan keputusan klasifikasi yang benar, c.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 15

Contoh MI • Class poultry dan term export:

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 16

Page 9: KLASIFIKASI PADA TEXT MINING - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu5.pdf · KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW

4/2/13  

Text  dan  Web  Mining  -­‐  FTI  UKDW  -­‐  BUDI  SUSANTO   9  

Feature Selection: • Pada statistik, test digunakan untuk menguji

independensi antar dua kejadian. •  Dua kejadian, A dan B, dikatakan independen jika P(AB)=P(A)P(B).

•  A adalah kemunculan term •  B adalah kemunculan class

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 17

2χ2χ

Contoh • Berdasar contoh data slide 16

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 18

Page 10: KLASIFIKASI PADA TEXT MINING - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu5.pdf · KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW

4/2/13  

Text  dan  Web  Mining  -­‐  FTI  UKDW  -­‐  BUDI  SUSANTO   10  

Feature Selection: Frequency-based • Memilih term-term yang paling umum dalam kelas. •  Frekuensi dapat didefinisikan sebagai frekuensi dokumen

•  Jumlah dokumen dalam kelas, c, yang mengandung term, t.

•  Frekuensi dapat didefinisikan sebagai frekuensi koleksi •  Jumlah token-token, t, yang muncul di dokumen-dokumen dalam

kelas, c. •  Lebih cocok untuk Naïve Bayes classifier.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 19

Decision Tree • Decision Tree dibangun dengan cara membagi data

pelatihan sehingga hasil subset adalah pure. •  pure subset adalah salah satu yang berisi contoh pelatihan dari

suatu kelas tunggal.

• Sebuah decision tree dapat diubah menjadi himpunan aturan if-then. •  Setiap aturan yang dihasilkan bersifat mutually exclusive dan

lengkap. •  Setiap instan data dicakup oleh sebuah aturan tunggal.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 20

Page 11: KLASIFIKASI PADA TEXT MINING - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu5.pdf · KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW

4/2/13  

Text  dan  Web  Mining  -­‐  FTI  UKDW  -­‐  BUDI  SUSANTO   11  

Algoritma Decission Tree

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 21

Decision Tree • Salah satu hal terpenting dalam pembentukan decission

tree adalah pemilihan impurity function. •  Fungsi yang meminimalkan impurity setelah pembagian.

•  Impurity function yang terkenal: •  Information gain dan information gain ratio.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 22

Page 12: KLASIFIKASI PADA TEXT MINING - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu5.pdf · KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW

4/2/13  

Text  dan  Web  Mining  -­‐  FTI  UKDW  -­‐  BUDI  SUSANTO   12  

Information Gain (IG) •  Diberikan himpunan data, D, hitung impurity D dengan entropy(D):

•  Evaluasi tiap atribut untuk menemukan atribut mana yang terpilih mengurangi impurity.

•  Hitung IG atribut A

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 23

Contoh

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 24

Page 13: KLASIFIKASI PADA TEXT MINING - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu5.pdf · KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW

4/2/13  

Text  dan  Web  Mining  -­‐  FTI  UKDW  -­‐  BUDI  SUSANTO   13  

Contoh •  Entropy(D) = entropy([9,5]) = 0.940 bit •  Entropy(Aoutlook, D) = (5/14) × 0.971 + (4/14) × 0 + (5/14) × 0.971 =

0.693 bit •  Gain(outlook) = Entropy(D) - Entropy(Aoutlook, D) = 0.247 bit •  Hitunglah IG untuk atribut yang lain:

•  Gain(temperature) = ? •  Gain(humidity) = ? •  Gain(windy) = ?

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 25

k-NN • Pada kNN, setiap dokumen dimasukkan dalam satu kelas

yang muncul terbanyak di antara k tetangga terdekatnya. • Sebuah dokumen uji, d, diharapkan memiliki label kelas

yang sama dengan dokumen latih yang berada pada satu area lokal disekitar d.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 26

Page 14: KLASIFIKASI PADA TEXT MINING - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu5.pdf · KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW

4/2/13  

Text  dan  Web  Mining  -­‐  FTI  UKDW  -­‐  BUDI  SUSANTO   14  

k-NN •  Terdapat alternatif probabilistik untuk memperkirakan

keanggotaan kelas sebuah dokumen uji. •  P(lingkaran|bintang) = 1/3 •  P(X|bintang) = 2/3 •  P(diamond|bintang) = 0

• Pemilihan nilai k disarakan bernilai ganjil, k=3 dan k=5 umum digunakan. •  Namun nilai k besar juga digunakan, antara 50-100.

• Penghitungan dokumen latih yang dekat dengan dokumen uji dapat digunakan Euclidean, Minkowski Distance.

• Untuk mengukur bobot “vote” untuk k-NN, dapat digunakan cosine.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 27

Algoritma k-NN

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 28

Page 15: KLASIFIKASI PADA TEXT MINING - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu5.pdf · KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW

4/2/13  

Text  dan  Web  Mining  -­‐  FTI  UKDW  -­‐  BUDI  SUSANTO   15  

Contoh Dnggi   berat   label  160   80   O  150   45   N  145   44   N  148   75   O  158   56   N  175   80   O  165   70   ???  

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 29

Evaluasi • Accuracy

•  (Jumlah terklasifikasi benar/total dokumen)*100

• Metode evaluasi: •  Holdout set (test set)

•  D=Dtrain ∪ Dtest, dan Dtran ∩ Dtest = ∅ . •  Biasanya 50-50, atau 2/3 train dan 1/3 test.

•  n-fold Cross-validation

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 30

Page 16: KLASIFIKASI PADA TEXT MINING - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu5.pdf · KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW

4/2/13  

Text  dan  Web  Mining  -­‐  FTI  UKDW  -­‐  BUDI  SUSANTO   16  

Evaluasi •  Jika pengklasifikasian dilakukan terhadap topik tertentu,

misalnya positif jika benar masuk ke topik, dan negatif jika tidak. •  Pengukuran akurasi dipandang tidak optimal, jika ternyata terdapat

dokumen uji yang “mengganggu”

• Pengukuran Recall dan Precision lebih optimal. •  Menghitung seberapa tepat dan lengkap klasifikasi terhadap kelas

positif. •  Menggunakan confusion matrix

•  Berisi informasi hasil aktual dan prediksi yang dihasilkan oleh pengklasifikasi.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 31

Evaluasi • Confusion Matrix

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 32

Page 17: KLASIFIKASI PADA TEXT MINING - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/genap12/twm/Minggu5.pdf · KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW

4/2/13  

Text  dan  Web  Mining  -­‐  FTI  UKDW  -­‐  BUDI  SUSANTO   17  

Evaluasi • Contoh confusion matrix

• Presisi •  Ukuran akurasi terhadap suatu class yang telah diprediksi.

•  PresisiA = 25/(25+3+1)

• Recall •  Ukuran kemampuan model prediksi untuk memilih data pada class

tertentu dari dataset. •  RecallA = 25/(25+5+2)

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 33

Prediksi Class Class Aktual

A B C A 25 5 2 B 3 32 4 C 1 0 15

TERIMA KASIH. Akhir pertemuan #5

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 34