seputar perkuliahan - stmik akakom yogyakarta mining/data...• buku: data mining: concepts and...

Post on 03-Mar-2021

6 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

Seputar Perkuliahan• Dosen: Ariesta Damayanti

• Email: riestamaya@gmail.com

• Komunikasi: via email, wa

• Keterlambatan tugas diakomodasi 1 minggu setelah pertemuan

• Sistem Penilaian: 30 % tugas+presentasi, 35% UTS, 35% UAS

• Batas Nilai: A:80, B:65, C:49, D:30

• Buku: Data Mining: Concepts and Techiques, Jiawei Han dan beberapa referensi lain

Data Mining :

menemukan pola-pola tersembunyi

maupun hubungan-hubungan dalambasis data yang besar

menghasilkan pengetahuan / aturan-aturan yang digunakan untukmemperkirakan perilaku di masa medatang

3

4

Data Informasi Pengetahuan

Masuk Sekolah

jam 07.00

Jarak dari rumah ke

sekolah 30 menit

Supaya tidak terlambat berangkat ke

sekolah maksimal jam 06.30

Data Pelanggan,

Data Produk,

Data Transaksi

Penjualan

Daftar pelanggan,

daftar produk, daftar

produk yang paling

laris

- kelompok pelanggan yang

menguntungkan (frekuensi

pembelian sering atau jumlah

pembelian sangat banyak)

- pola pembelian produk

Contoh Perbedaan Data, Informasi, Pengetahuan

5

6

7

Benarkah prediksi tersebut ?* gold-standar : pakar, alat

◦ Data mining: the core of knowledge discovery process.

Data Cleaning

Data Integration

Databases

Preprocessed

Data

Task-relevant Data

Data transformations

Selection

Data Mining

Knowledge Interpretation

12/74

Mengapa Data Diproses Awal?

Data dalam dunia nyata kotor◦ Tak-lengkap: nilai-nilai atribut kurang, atribut

tertentu yang dipentingkan tidak disertakan, atauhanya memuat data agregasi

Misal, pekerjaan=“”◦ Noisy: memuat error atau memuat outliers (data

yang secara nyata berbeda dengan data-data yang lain)

Misal, Salary=“-10”

13/74

Mengapa Data Diproses Awal?

◦ Tak-konsisten: memuat perbedaan dalam kode atau nama

Misal, Age=“42” Birthday=“03/07/1997” Misal, rating sebelumnya “1,2,3”,

sekarang rating “A, B, C” Misal, perbedaan antara duplikasi record

Data yang lebih baik akan menghasilkan data mining yang lebih baik

Data preprocessing membantu didalam memperbaiki presisi dan kinerja data mining dan mencegah kesalahan didalam data mining.

14/74

Mengapa Data Kotor?

Ketaklengkapan data datang dari

◦ Nilai data tidak tersedia saat dikumpulkan

◦ Perbedaan pertimbangan waktu antara saat data

dikumpulkan dan saat data dianalisa.

◦ Masalah manusia, hardware, dan software

Noisy data datang dari proses data

◦ Pengumpulan

◦ Pemasukan (entry)

◦ Transmisi

15/74

Mengapa Data Kotor?

Ketak-konsistenan data datang dari

◦ Sumber data yang berbeda

◦ Pelanggaran kebergantungan fungsional

1

6/

7

4

MengapaPemrosesan Awal Data Penting?

• Kualitas data tidak ada, kualitas hasil mining tidak ada!

– Kualitas keputusan harus didasarkankepada kualitas data

•Misal, duplikasi data atau data hilangbisa menyebabkan ketidak-benaranatau bahkan statistik yang menyesatkan.

– Data warehouse memerlukan kualitasintegrasi data yang konsisten

1

7/

7

4

Bentuk-Bentuk Dari Pemrosesan Awal Data

Pembersihan Data

Integrasi Data

Transformasi Data

Reduksi Data

1

8/

7

4

Data Hilang

Data tidak selalu tersedia◦ Misal, banyak tuple atau record tidak memiliki nilai

yang tercatat untuk beberapa atribut, seperticustomer income dalam data sales

Hilangnya data bisa karena◦ Kegagalan pemakaian peralatan◦ Ketak-konsistenan dengan data tercatat lainnya dan

karenanya dihapus◦ Data tidak dimasukkan karena salah pengertian◦ Data tertentu bisa tidak dipandang penting pada saat

entry

◦ Tidak mencatat history atau tidak mencatatperubahan data

Kehilangan data perlu disimpulkan

19/74

Bagaimana Menangani Data Hilang?

Mengabaikan tuple atau record: mudah tetapi tidak efektif, dan merupakan metoda terakhir◦ Biasanya dilakukan saat label kelas hilang

◦ Tidak efektif bila persentasi dari nilai-nilai yang hilang per atribut sungguh-sungguh bervariasi.

Mengisi nilai-nilai yang hilang secara manual: ◦ Paling baik

◦ Membosankan

◦ Paling mahal biayanya

◦ Tak mungkin dilakukan dalam banyak hal!

20/74

Bagaimana Menangani Data Hilang? Mengisi nilai-nilai yang hilang secara

otomatis menggunakan:◦ Suatu konstanta global: misal, “unknown”, “Null”,

atau suatu kelas baru?!

Suatu pola yang memuat “unknown” atau“Null” adalah buruk

◦ Gunakan rata-rata atribut◦ Pengempisan data ke mean/median◦ Rata-rata atribut untuk seluruh sampel yang masuk

kedalam kelas yang sama

Lebih cerdas, dan suatu metoda yang baik

◦ Gunakan informasi yang paling banyakdari data yang ada untuk memprediksi

21/74

Noisy Data

Noise: error acak atau variansi dalam suatu variabel terukur

Nilai-nilai atribut tak benar mungkin karena◦ Kegagalan instrumen pengumpulan data◦ Problem pemasukan data◦ Problem transmisi data◦ Keterbatasan teknologi◦ Ketak-konsistenan dalam konvensi penamaan

Problem data lainnya yang memerlukan pembersihan data◦ Duplikasi record ◦ Data tak lengkap◦ Data tidak konsisten

22/74

Transformasi Data: Normalisasi

Normalisasi min-max

Normalisasi z-score (saat Min, Max tak

diketahui)

Normalisasi dengan penskalaan desimal

j

vv

10' dimana j adalah integer terkecil sehingga Max(| |)<1'v

23/74

Transformasi Data

Penghalusan: menghilangkan noise dari data

Agregasi: ringkasan, konstruksi kubus data

Generalisasi: konsep hierarchy climbing

Normalisasi: diskalakan agar jatuh didalam

suatu range kecil yang tertentu

◦ Normalisasi min-max

◦ Normalisasi z-score

◦ Normalisasi dengan penskalaan desimal

Konstruksi atribut/fitur

◦ Atribut-atribut baru dibangun dari atribut-atribut

yang ada

Tujuan :

1. Mempermudah memahami data sehingga mempermudah pemilihan teknik dan metode data mining

2. Meningkatkan kualitas data sehingga hasil data mining menjadi lebih baik

3. Meningkatkan efisiensi dan kemudahan proses penambangan data

24

- Pembersihan

- Integrasi

- Reduksi

- Penambahan

- Transformasi

25

Data dikatakan tidak bersih jika masih mengandung nilai kosong dan atau derau dan atau pencilan/outlayer dan atau inkonsitensi.

Cara membersihkan data :

- Mengisi nilai yang kosong

- Menghaluskan data berderau

- Membuang pencilan/outlayer

- Memperbaiki inkosistensi

26

1. Abaikan tuple tersebut

2. Isi atribut kosong secara manual

3. Gunakan konstanta global

4. Gunakan nila tendensi sentral (rata-rata atau median)

5. Gunakan nilai dari regresi atau inferensi (Bayesian atau Decision Tree)

27

1. Binning (pewadahan)

2. Regresi

3. Clustering

28

Data-data pencilan dapat ditemukan menggunakan tendensi sentral, boxplot dll

29

Inkosistensi karena :

-kurang bagusnya form data

-kesalahan operator

-data kadaluarsa

-kesalahan pengisi data

Memperbaiki :

-Manual

-Tools (ETL)

30

31

Database(s) Dataset Dataset

DL dan DV

Latih dan validasi

Hasil model

32

Dataset

Data latih – 70%

Data uji —30%

What is not Data

Mining?

– Look up phone

number in phone directory

– Query a Web

search engine for information about “Amazon”

What is Data Mining?

– Certain names are more

prevalent in certain US locations (O’Brien, O’Rurke, O’Reilly… in Boston area)

– Group together similar documents returned by search engine according to their context (e.g. Amazon rainforest, Amazon.com,)

34

Bidang Contoh

Pemasaran Mengidentifikasi pembelian yang dilakukan

konsumen

Menemukan hubungan di antara karakteristik

demografi pelanggan

Memperkirakan tanggapan penawaran melalui

surat

Bank Mendeteksi pola penyalahgunaan kartu kredit

Mengidentifikasi tingkat loyalitas pelanggan

Asuransi Analisis klaim

Memperkirakan pelanggan yang akan membeli

produk baru

© Prentice Hall 35

Query◦ Well defined◦ SQL

Query◦ Poorly defined

◦ No precise query language

Output

– Precise

– Subset of database

Output

– Fuzzy

– Not a subset of database

© Prentice Hall 36

Database

Data Mining

– Find all customers who have purchased milk

– Find all items which are frequently purchased with milk. (association rules)

– Find all credit applicants with last name of Smith.– Identify customers who have purchased more than $10,000 in the last month.

– Find all credit applicants who are poor credit risks. (classification)– Identify customers with similar buying habits. (Clustering)

Statistik

Jaringan saraf (neural network)

Logika kabur (fuzzy logic)

Algoritma genetika

SVM

dll

37

© Prentice Hall 38

39

Increasing potential

to support

business decisions End User

Business

Analyst

Data

Analyst

DBA

Making

Decisions

Data Presentation

Visualization Techniques

Data Mining

Information Discovery

Data Exploration

OLAP, MDA

Statistical Analysis, Querying and Reporting

Data Warehouses / Data Marts

Data Sources

Paper, Files, Information Providers, Database Systems, OLTP

Increasing potential

to support

business decisions End User

Business

Analyst

Data

Analyst

DBA

Making

Decisions

Data Presentation

Visualization Techniques

Data Mining

Information Discovery

Data Exploration

OLAP, MDA

Statistical Analysis, Querying and Reporting

Data Warehouses / Data Marts

Data Sources

Paper, Files, Information Providers, Database Systems, OLTP

© Prentice Hall 40

Classification maps data into predefined groups or classes◦ Supervised learning◦ Pattern recognition◦ Prediction

Regression is used to map a data item to a real valued prediction variable.

Clustering groups similar data together into clusters.◦ Unsupervised learning◦ Segmentation◦ Partitioning

© Prentice Hall 41

Summarization maps data into subsets with associated simple descriptions.◦ Characterization

◦ Generalization

Link Analysis uncovers relationships among data.◦ Affinity Analysis

◦ Association Rules

◦ Sequential Analysis determines sequential patterns.

© Prentice Hall 42

Example: Stock Market Predict future values Determine similar patterns over time Classify behavior

Supervised learning (classification)

◦ Supervision: Data pelatihan mengandung label

kelas.

◦ Data diklasifikasikan menggunakan model.

Unsupervised learning (clustering)

◦ Data pelatihan tidak mengandung label kelas

◦ Mencari kelas atau cluster di dalam data

Pada pembelajaran ini kumpulan input yang digunakan, output-outputnya telahdiketahui.

Perbedaan antara output-output aktualdengan output-output yang diinginkandigunakan untuk menghitung akurasi

Contoh : KNN, Naïve Bayes, Decision Tree

◦ Pada pembelajaran ini, data2 mengorganisasidirinya sendiri untuk membentuk vektor-vektorinput yang serupa, tanpa menggunakan data ataucontoh-contoh pelatihan.◦ Contoh : Kmeans

Diadaptasi dari slide Jiawei Han http://www.cs.uiuc.edu/~hanj/bk2/

yudi@upi.edu / Okt 2012

Classification◦ Memprediksi kelas suatu item◦ Membuat model berdasarkan data pelatihan dan

data uji, digunakan untuk mengklasifikasi data.

Prediction ◦ Memprediksi nilai yang belum diketahui

Aplikasi◦ Persetujuan kredit◦ Diagnosis penyakit◦ Target marketing◦ Fraud detection

Input: data mahasiswa

Output: dua kelas (lulus_tepat_waktu dan lulus_terlambat)

Bagaimana kalau diberikan data input mahasiswa, sistem secara otomatis menentukan mhs tersebut akan lulus tepat waktu atau terlambat?

Data

Pelatihan

NAMA IPK Sem 1 Matdas tepat_waktu

Budi 3 A yes

Wati 1.5 E no

Badu 2 A yes

Rudi 3.5 C yes

Algoritma

Klasifikasi

IF IPK > 3

OR MATDAS =A

THEN tepat_waktu =

‘yes’

Classifier

(Model)

Classifier

(MODEL)

Testing

Data

NAMA IPK_SEM1 MADAS TEPAT_WAKTU

Akhmad 3.2 A yes

Intan 3.3 B no

Indah 2.3 C yes

Ujang 1.7 E no Sejauh mana

model tepat

meramalkan?

Classifier

(MODEL)

Data Baru

(Tatang, 3.0, A)

Lulus tepat waktu?

Proses pembuatan model◦ Data latihan Model Klasifikasi

Proses testing model◦ Data testing Apakah model sudah benar?

Proses klasifikasi◦ Data yang tidak diketahui kelasnya kelas data

Data cleaning

◦ Preprocess data untuk mengurangi noise dan

missing value

Relevance analysis (feature selection)

◦ Memilih atribut yang penting

◦ Membuang atribut yang tidak terkait atau

duplikasi.

Data transformation

◦ Generalize and/or normalize data

54

55

56

57

58

59

100

101

102

103

104

No Tes Bhs Inggris Tes Akademik

1 8 9

2 7 7

3 ( C1) 9 8

4 7 8

5 6 7

6 ( C2) 7 7

7 10 5

105

top related