bab 2 pre processing

Data PreProcessing (PraProses Data)

[email protected]

Diambil dari slide Jiawei Han

Agenda

• Mengapa mem-praproses data?

• Rangkuman data

• Pembersihan data

• Integrasi dan transformasi data

• Pengurangan data

• Diskretisasi dan pembangkitan hirarki konsep

• Rangkuman

Mengapa Praproses Data?

• Data di dunia nyata “kotor”– Tidak lengkap: atribut hilang, atau hanya

berisi agregat data. Contoh: pekerjaan_ortu =“”

– Noisy (error): Mengandung kesalahan. Contoh: gaji_ortu = “1000”

– Tidak konsisten: Ketidak cocokan dalam kode dan nama. Contoh:

• Umur 33, lahir tahun 92• Ketidakcocokan antara duplikat record.

Mengapa data Kotor?

• Data yang tidak lengkap dapat disebabkan oleh:– Tidak tersedia saat pengumpulan– Tadinya dianggap tidak penting– Masalah: Manusia/Soft/Hardware

• Data salah:– Kesalahan alat pengumpul data– Kesalahan manusia/computer saat entri data– Kesalahan saat pengiriman data

• Data yang tidak konsisten:– Sumber data yang berbeda– Ref integrity yang dilanggar

• Duplikasi data juga perlu dibersihkan

Mengapa Praproses Data diperlukan?

• Garbage in garbage out data jelek, hasil mining jelek– Quality decision berdarkan quality data– Data warehouse membutuhkan integrasi data

yang berkualitas

• Ekstraksi data, pembersihan dan transformasi merupakan bagian terbesar pembentukan data warehouse.

Ukuran Data yang Berkualitas

• Akurasi• Lengkap• Konsisten• Timeliness• Masuk akal• Memberi nilai tambah• Dapat diterjemahkan• Dapat diakses

Kegiatan dalam Praproses Data

• Pembersihan data– Isi data yang hilang, haluskan noisy data, identifikasi dan buang

outliers dan selesaikan ketidakkonsistenan

• Integrasi data– Integrasi dari multi database

• Transformasi data– Normalisasi dan agregasi

• Pengurangan data– Data lebih sedikit tapi hasil statistik sama

• Diskretisasi– Untuk data numerik

Bentuk Praproses Data

Agenda


• Rangkuman deskripsi data

• Pembersihan data (data cleaning)




• Rangkuman

Karakteristik Data Deskriptif

• Central tendecy– Rata-rata, median, modus

• Karakteristik ketersebaran:

– Quartiles, outliers dan boxplots

Central Tendency

• Rata-rata (mean)

• Median– 1,5,6,7,7,8,10,12,15,18,20

• Modus: paling sering muncul

• “Ada orang dewasa tenggelam di kolam yang kedalaman rata-ratanya 50 cm”

Modus, Rata-Rata, Median

Ketersebaran

• Quartil: Q1 (25%), Q3 (75%)

• Inter-quartile range: IQR = Q3 – Q1

• Lima angka penting: min, Q1, Median, Q3, Max

• Outlier: biasanya lebih kecil atau besar dari 1.5 x IQR

• Boxplot: dibatasi oleh quartil, median ditandai

• Varian

• Standard deviasi (kuadrat varian)

Analisis Boxplot

Min

Q1

Q3

Median

Max

Contoh Boxplot

Agenda







• Rangkuman

Data Cleaning

• Mengapa?– “Data cleaning is one of the three biggest

problems in data warehousing”—Ralph Kimball

– “Data cleaning is the number one problem in data warehousing”—DCI survey

Task Pada Data Cleaning

• Isi data yang hilang

• Identifikasi outlier dan perhalus noisy data

• Koreksi data yang tidak konsisten

• Selesaikan duplikasi akibat integrasi data

Data yang hilang

• Data tidak selalu ada– Contoh penghasilan ortu (segan, tidak bersedia)

• Sebab data hilang– Kerusakan mesin– Tidak konsisten dan dihapus– Tidak dimasukan karena salah paham– Tidak dianggap penting– Perubahan data tidak dicatat

• Data yang hilang mungkin harus diinferensi (dikira-kira)

Bagaimana cara menangani data yang hilang??

• Abaikan record• Isi secara manual. (feasible?)• Isi secara otomatis:

– Isi dengan “Tidak-Diketahui”– Rata-rata dari isi field itu– Rata-rata dengan field yang sekelas (di

klasifikasi dulu)– Nilai yang paling mungkin (bayesian, decision

tree)

Noisy Data

• Noise: kesalahan pengisian data (random). Contoh: umur 120 tahun.

• Penyebab:– Kesalahan Instrumen pengumpul data– Masalah data entry– Masalah transmisi data– Keterbatasan teknologi– Tidak konsisten dalam penamaan (contoh:

Jogja vs Yogya)

Bagaimana Cara Menangani Noisy Data?

• Binning Method: Urutkan dan bagi data dalam “ember” dalam frekuensi yang sama (bin)– Haluskan: smooth by bin means, smooth by bin

median dst.

• Regresi• Clustering

– Deteksi dan buang outlier

• Kombinasi komputer+manusia– Deteksi data mencurigakan tangani oleh manusia

Contoh Binning Methods Urutkan data harga (dalam dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26,

28, 29, 34* Bagi dengan frekuensi yang sama: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34* Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29* Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34

Regresi

x

y

y = x + 1

X1

Y1

Y1’

Analisis Cluster

Agenda







• Rangkuman

Integrasi Data

• Integrasi Data: – Menggabungkan data dari sumber yang beragam

• Integrasi Schema : contoh: A.nama B.nama_depan+ B.nama_belakang

• Identifikasi entitas:– Identifikasi entitas dari source yang beragam. Con:

Bill Clinton = William Clinton

• Deteksi dan memperbaiki nilai yang konflik– Contoh: cm vs feet, kg vs pound

Penanganan Redundancy

• Data redundan (duplikasi yang tidak perlu) dapat muncul saat integrasi: – Atribut yang sama dapat memiliki nama yang

berbeda

– Derivable data: Data berasal dari atribut lain. Contoh: Data Jumlah

• Atribut redundan dapat dideteksi dengan analisis korelasi

Analisis Korelasi (data numerik)

• Correlation coefficient (Pearson’s product moment coefficient)

BABA n

BAnAB

n

BBAAr BA )1(

)(

)1(

))((,

• Jika rA,B > 0, A and B are berkorelasi positif (A naik, B naik). Makin tinggi makin

kuat korelasi

• rA,B = 0: independent; rA,B < 0: berkorelasi negatif

Contoh: (http://www.mnstate.edu/wasson/ed602pearsoncorr.htm)

Analisis Korelasi(Categorical Data)

• Semakin besar Χ2 value semakin besar kemungkinan keduanya terkait

• Korelasi belum tentu berarti sebab-akibat– Jumlah rumah sakit dan jumlah pencuri mobil bekorelasi

positif

– Dua-duanya berhubungan dengan variabel ketiga: populasi

• Χ2 (chi-square) test

Expected

ExpectedObserved 22 )(

Contoh

• Contoh soal: http://www.mste.uiuc.edu/patel/chisquare/keyprob.html

Transformasi Data

• Smoothing: membuang noise dari data

• Agregasi

• Generalisasi (jalan kota)

• Normalisasi: transformasi nilai menjadi skala yang lebih kecil– min-max

– z-score

– decimal scaling

• Pembentukan atribut baru

Normalisasi

• Min-max normalization: ke [new_minA, new_maxA]

– Contoh, gaji $12,000 sd $98,000 di normaliasi [0.0, 1.0]. Maka $73,000

dipetakan ke

• Z-score normalization (μ: mean, σ: standard deviation):

– Contoh μ = 54,000, σ = 16,000. maka

• Normalisai dengan decimal scaling (dibagi 10j) sehingga nilai

maksimum <1

AAA

AA

A

minnewminnewmaxnewminmax

minvv _)__('

716.00)00.1(000,12000,98

000,12600,73

A

Avv

'

225.1000,16

000,54600,73

Data Preprocessing







• Rangkuman

Strategi Reduksi Data

• Mengapa reduksi data?– Database/datawarehouse dapat menyimpan Tera/Peta Data.– Analisis/mining kompleks dapat membutuhkan waktu yang

sangat lama jika menggunakan seluruh data.• Reduksi data:

– Mendapatkan versi data yang volumenya jauh lebih kecil tetapi menghasilkan hasil analisis yang sama (atau hampir sama)

• Strategi Reduksi Data– Agregasi Data

• Contoh: pendapatan harian jadi pendapatan bulanan– Reduksi dimensi pembuangan atribut– Kompresi data– Numerosity reduction– Diskretisasi dan pembangkitan konsep hirarki.

Subset Atribut

• Pemilihan atribut– Pilih himpunan minimal dari atribut yang tetap

representatif.

• Metode heuristik (karena terlalu banyak)– Step-wise forward selection– Step-wise backward elimination– Kombinasi forward selection dan backward

elimination– Decision-tree induction

Pemilihan atribut secara heuristik

• Ada 2d kemungkinan untuk d atribut• Beberapa cara:

– Atribut terbaik (berdasarkan tes signifikanikansi)– Step wise:

• Pilih atribut terbaik• Dari sisa langkah pertama, ambil atribut terbaik

berikutnya– Step-wise feature elimination:

• Secara berurutan hilangkan atribut yang terburuk.– Kombinasi pemilihan dan penghilangan atribut– Optimal branch and bound:

• Eliminasi dan backtracking

Kompresi Data

Original Data Data Terkompresi

lossless

Original Data(Diperkirakan)

lossy

Kompresi Data• Kompresi String

– Ada beberapa algoritma

• Kompresi Audio/video– Biasanya lossy compression– Sometimes small fragments of signal can be

reconstructed without reconstructing the whole

• Time sequence – Pendek-pendek, dan bervariasi dalam jangka waktu

lama

Dimensionality Reduction:Wavelet Transformation

• Discrete wavelet transform (DWT): proses sinyal

• Compressed approximation: simpan bagian terkuat dari wavelet coefficient.

• Mirip dengan discrete Fourier transform (DFT), tapi lebih baik

Numerosity Reduction

• Kurangi data dengan memilih bentuk alternatif yang lebih kecil.

• Parametric– Asumsikan data cocok dengan model,

perkiarakan parameter model, lalu buang datanya.

• Non-parametric methods – Tidak ada asumsi model– histograms, clustering, sampling

Diskretisasi

• Tiga jenis atribu7t:

– Nominal — (tidak terurut) Contoh ., warna, pekerjaan

– Ordinal — (terurut) Contoh: pangkat

– Continuous — real atau angka integer

• Discretization:

– Bagi range pada data continuous dalam interval

– Masukan data ke dalam interval

Konsep Hirarki

• Secara rekursif mengurangi data dengan

cara mengganti konsep rendah (low level)

dengan yang lebih tinggi.

– Contoh, Umur:

• Dalam tahun 30,21,33,17,2

• Menjadi kategori: bayi, balita, remaja, dewasa, tua

bab 2 pre processing

Documents