bab 2 pre processing
TRANSCRIPT
Agenda
• Mengapa mem-praproses data?
• Rangkuman data
• Pembersihan data
• Integrasi dan transformasi data
• Pengurangan data
• Diskretisasi dan pembangkitan hirarki konsep
• Rangkuman
Mengapa Praproses Data?
• Data di dunia nyata “kotor”– Tidak lengkap: atribut hilang, atau hanya
berisi agregat data. Contoh: pekerjaan_ortu =“”
– Noisy (error): Mengandung kesalahan. Contoh: gaji_ortu = “1000”
– Tidak konsisten: Ketidak cocokan dalam kode dan nama. Contoh:
• Umur 33, lahir tahun 92• Ketidakcocokan antara duplikat record.
Mengapa data Kotor?
• Data yang tidak lengkap dapat disebabkan oleh:– Tidak tersedia saat pengumpulan– Tadinya dianggap tidak penting– Masalah: Manusia/Soft/Hardware
• Data salah:– Kesalahan alat pengumpul data– Kesalahan manusia/computer saat entri data– Kesalahan saat pengiriman data
• Data yang tidak konsisten:– Sumber data yang berbeda– Ref integrity yang dilanggar
• Duplikasi data juga perlu dibersihkan
Mengapa Praproses Data diperlukan?
• Garbage in garbage out data jelek, hasil mining jelek– Quality decision berdarkan quality data– Data warehouse membutuhkan integrasi data
yang berkualitas
• Ekstraksi data, pembersihan dan transformasi merupakan bagian terbesar pembentukan data warehouse.
Ukuran Data yang Berkualitas
• Akurasi• Lengkap• Konsisten• Timeliness• Masuk akal• Memberi nilai tambah• Dapat diterjemahkan• Dapat diakses
Kegiatan dalam Praproses Data
• Pembersihan data– Isi data yang hilang, haluskan noisy data, identifikasi dan buang
outliers dan selesaikan ketidakkonsistenan
• Integrasi data– Integrasi dari multi database
• Transformasi data– Normalisasi dan agregasi
• Pengurangan data– Data lebih sedikit tapi hasil statistik sama
• Diskretisasi– Untuk data numerik
Bentuk Praproses Data
Agenda
• Mengapa mem-praproses data?
• Rangkuman deskripsi data
• Pembersihan data (data cleaning)
• Integrasi dan transformasi data
• Pengurangan data
• Diskretisasi dan pembangkitan hirarki konsep
• Rangkuman
Karakteristik Data Deskriptif
• Central tendecy– Rata-rata, median, modus
• Karakteristik ketersebaran:
– Quartiles, outliers dan boxplots
Central Tendency
• Rata-rata (mean)
• Median– 1,5,6,7,7,8,10,12,15,18,20
• Modus: paling sering muncul
• “Ada orang dewasa tenggelam di kolam yang kedalaman rata-ratanya 50 cm”
Modus, Rata-Rata, Median
Ketersebaran
• Quartil: Q1 (25%), Q3 (75%)
• Inter-quartile range: IQR = Q3 – Q1
• Lima angka penting: min, Q1, Median, Q3, Max
• Outlier: biasanya lebih kecil atau besar dari 1.5 x IQR
• Boxplot: dibatasi oleh quartil, median ditandai
• Varian
• Standard deviasi (kuadrat varian)
Analisis Boxplot
Min
Q1
Q3
Median
Max
Contoh Boxplot
Agenda
• Mengapa mem-praproses data?
• Rangkuman deskripsi data
• Pembersihan data (data cleaning)
• Integrasi dan transformasi data
• Pengurangan data
• Diskretisasi dan pembangkitan hirarki konsep
• Rangkuman
Data Cleaning
• Mengapa?– “Data cleaning is one of the three biggest
problems in data warehousing”—Ralph Kimball
– “Data cleaning is the number one problem in data warehousing”—DCI survey
Task Pada Data Cleaning
• Isi data yang hilang
• Identifikasi outlier dan perhalus noisy data
• Koreksi data yang tidak konsisten
• Selesaikan duplikasi akibat integrasi data
Data yang hilang
• Data tidak selalu ada– Contoh penghasilan ortu (segan, tidak bersedia)
• Sebab data hilang– Kerusakan mesin– Tidak konsisten dan dihapus– Tidak dimasukan karena salah paham– Tidak dianggap penting– Perubahan data tidak dicatat
• Data yang hilang mungkin harus diinferensi (dikira-kira)
Bagaimana cara menangani data yang hilang??
• Abaikan record• Isi secara manual. (feasible?)• Isi secara otomatis:
– Isi dengan “Tidak-Diketahui”– Rata-rata dari isi field itu– Rata-rata dengan field yang sekelas (di
klasifikasi dulu)– Nilai yang paling mungkin (bayesian, decision
tree)
Noisy Data
• Noise: kesalahan pengisian data (random). Contoh: umur 120 tahun.
• Penyebab:– Kesalahan Instrumen pengumpul data– Masalah data entry– Masalah transmisi data– Keterbatasan teknologi– Tidak konsisten dalam penamaan (contoh:
Jogja vs Yogya)
Bagaimana Cara Menangani Noisy Data?
• Binning Method: Urutkan dan bagi data dalam “ember” dalam frekuensi yang sama (bin)– Haluskan: smooth by bin means, smooth by bin
median dst.
• Regresi• Clustering
– Deteksi dan buang outlier
• Kombinasi komputer+manusia– Deteksi data mencurigakan tangani oleh manusia
Contoh Binning Methods Urutkan data harga (dalam dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26,
28, 29, 34* Bagi dengan frekuensi yang sama: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34* Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29* Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34
Regresi
x
y
y = x + 1
X1
Y1
Y1’
Analisis Cluster
Agenda
• Mengapa mem-praproses data?
• Rangkuman deskripsi data
• Pembersihan data (data cleaning)
• Integrasi dan transformasi data
• Pengurangan data
• Diskretisasi dan pembangkitan hirarki konsep
• Rangkuman
Integrasi Data
• Integrasi Data: – Menggabungkan data dari sumber yang beragam
• Integrasi Schema : contoh: A.nama B.nama_depan+ B.nama_belakang
• Identifikasi entitas:– Identifikasi entitas dari source yang beragam. Con:
Bill Clinton = William Clinton
• Deteksi dan memperbaiki nilai yang konflik– Contoh: cm vs feet, kg vs pound
Penanganan Redundancy
• Data redundan (duplikasi yang tidak perlu) dapat muncul saat integrasi: – Atribut yang sama dapat memiliki nama yang
berbeda
– Derivable data: Data berasal dari atribut lain. Contoh: Data Jumlah
• Atribut redundan dapat dideteksi dengan analisis korelasi
Analisis Korelasi (data numerik)
• Correlation coefficient (Pearson’s product moment coefficient)
BABA n
BAnAB
n
BBAAr BA )1(
)(
)1(
))((,
• Jika rA,B > 0, A and B are berkorelasi positif (A naik, B naik). Makin tinggi makin
kuat korelasi
• rA,B = 0: independent; rA,B < 0: berkorelasi negatif
Contoh: (http://www.mnstate.edu/wasson/ed602pearsoncorr.htm)
Analisis Korelasi(Categorical Data)
• Semakin besar Χ2 value semakin besar kemungkinan keduanya terkait
• Korelasi belum tentu berarti sebab-akibat– Jumlah rumah sakit dan jumlah pencuri mobil bekorelasi
positif
– Dua-duanya berhubungan dengan variabel ketiga: populasi
• Χ2 (chi-square) test
Expected
ExpectedObserved 22 )(
Contoh
• Contoh soal: http://www.mste.uiuc.edu/patel/chisquare/keyprob.html
Transformasi Data
• Smoothing: membuang noise dari data
• Agregasi
• Generalisasi (jalan kota)
• Normalisasi: transformasi nilai menjadi skala yang lebih kecil– min-max
– z-score
– decimal scaling
• Pembentukan atribut baru
Normalisasi
• Min-max normalization: ke [new_minA, new_maxA]
– Contoh, gaji $12,000 sd $98,000 di normaliasi [0.0, 1.0]. Maka $73,000
dipetakan ke
• Z-score normalization (μ: mean, σ: standard deviation):
– Contoh μ = 54,000, σ = 16,000. maka
• Normalisai dengan decimal scaling (dibagi 10j) sehingga nilai
maksimum <1
AAA
AA
A
minnewminnewmaxnewminmax
minvv _)__('
716.00)00.1(000,12000,98
000,12600,73
A
Avv
'
225.1000,16
000,54600,73
Data Preprocessing
• Mengapa mem-praproses data?
• Rangkuman deskripsi data
• Pembersihan data (data cleaning)
• Integrasi dan transformasi data
• Pengurangan data
• Diskretisasi dan pembangkitan hirarki konsep
• Rangkuman
Strategi Reduksi Data
• Mengapa reduksi data?– Database/datawarehouse dapat menyimpan Tera/Peta Data.– Analisis/mining kompleks dapat membutuhkan waktu yang
sangat lama jika menggunakan seluruh data.• Reduksi data:
– Mendapatkan versi data yang volumenya jauh lebih kecil tetapi menghasilkan hasil analisis yang sama (atau hampir sama)
• Strategi Reduksi Data– Agregasi Data
• Contoh: pendapatan harian jadi pendapatan bulanan– Reduksi dimensi pembuangan atribut– Kompresi data– Numerosity reduction– Diskretisasi dan pembangkitan konsep hirarki.
Subset Atribut
• Pemilihan atribut– Pilih himpunan minimal dari atribut yang tetap
representatif.
• Metode heuristik (karena terlalu banyak)– Step-wise forward selection– Step-wise backward elimination– Kombinasi forward selection dan backward
elimination– Decision-tree induction
Pemilihan atribut secara heuristik
• Ada 2d kemungkinan untuk d atribut• Beberapa cara:
– Atribut terbaik (berdasarkan tes signifikanikansi)– Step wise:
• Pilih atribut terbaik• Dari sisa langkah pertama, ambil atribut terbaik
berikutnya– Step-wise feature elimination:
• Secara berurutan hilangkan atribut yang terburuk.– Kombinasi pemilihan dan penghilangan atribut– Optimal branch and bound:
• Eliminasi dan backtracking
Kompresi Data
Original Data Data Terkompresi
lossless
Original Data(Diperkirakan)
lossy
Kompresi Data• Kompresi String
– Ada beberapa algoritma
• Kompresi Audio/video– Biasanya lossy compression– Sometimes small fragments of signal can be
reconstructed without reconstructing the whole
• Time sequence – Pendek-pendek, dan bervariasi dalam jangka waktu
lama
Dimensionality Reduction:Wavelet Transformation
• Discrete wavelet transform (DWT): proses sinyal
• Compressed approximation: simpan bagian terkuat dari wavelet coefficient.
• Mirip dengan discrete Fourier transform (DFT), tapi lebih baik
Numerosity Reduction
• Kurangi data dengan memilih bentuk alternatif yang lebih kecil.
• Parametric– Asumsikan data cocok dengan model,
perkiarakan parameter model, lalu buang datanya.
• Non-parametric methods – Tidak ada asumsi model– histograms, clustering, sampling
Diskretisasi
• Tiga jenis atribu7t:
– Nominal — (tidak terurut) Contoh ., warna, pekerjaan
– Ordinal — (terurut) Contoh: pangkat
– Continuous — real atau angka integer
• Discretization:
– Bagi range pada data continuous dalam interval
– Masukan data ke dalam interval
Konsep Hirarki
• Secara rekursif mengurangi data dengan
cara mengganti konsep rendah (low level)
dengan yang lebih tinggi.
– Contoh, Umur:
• Dalam tahun 30,21,33,17,2
• Menjadi kategori: bayi, balita, remaja, dewasa, tua