statistik deskriptif
TRANSCRIPT
Dr. Auditya Purwandini Sutarto
TujuanMeringkas Data
Tipe Data
StatistikDeskriptif
Penyajian Data Secara Grafis
41 39 88 81 60 8 22 35 95 2 49 72 10 84 7 76 51 80 8 15 5 33 29 75 1 38
6 49 60 63 64 43 93 42 71 32 33 91 2 43 51 90 69 75 6 23 14 2 78 81 39
39 13 67 42 51 36 63 29 41 82 33 96 57 83 94 16 77 76 60 74 13 82 16 37
52 43 81 27 93 81 28 39 53 45 86 15 23 32 43 46 29 97 98 24 47 27 40 41
35 27 47 36 95 37 87 8 88 79 79 14 47 97 56 78 13 47 2 0 94 53 31 4 57
84 16 6 24 76 23 52 60 57 24 25 59 20 65 66 36 88 63 48 16 91 24 15 33
99 79 95 31 75 17 60 68 20 28 21 74 73 42 35 62 56 61 67 80 18 73 12 51
32 35 80 65 16 20 78 46 43 96 81 25 31 3 9 5 24 2 67 20 76 36 3 88 74
51 8 18 2 99 68 88 80 55 45 18 59 99 50 13 18 63 39 22 98 48 45 55 85
59 58 6 33 4 11 33 82 27 89 80 76 7 40 45 68 19 54 91 4 25 70 96 58 11
77 38 26 62 66 33 26 90 5 80 97 2 81 91 32 41 74 76 99 46 65 64 84 47 6
11 97 33 11 92 43 83 49 5 33 8 40 30 76 60 80 51 65 18 79 26 68 29 35
23 36 15 31 77 74 31 64 30 53 90 65 58 45 13 61 34 80 32 40 6 56 60 12
51 46 94 6 78 81 4 70 59 61 80 70 94 90 8 27 96 48 27 87 53 92 52 18 85
44 31 28 48 1 24 33 38 57 62 50 26 26 22 50 65 80 73 86 3 100 45 90 50
Meringkas data
Menerapkan konsep yang dapat dipahami(menunjukkan ada suatu pola dasar tertentu)
Mengkomunikasikan pola yang pokok/yang mendasari
Menggeneralisir hasil dari sampel pada populasi
Meringkas Data Harga rata-rata PC merek Gateway $2,489
Range harga $999 hingga $4,678
Modus $2,200
Menunjukkan pola dasar dalam data 30% pembelian pada harga ≤ $1,500
50% pembelian terjadi pada harga $1,500 - $2,500
20% pembelian pada harga > $2,500
Mengintepretasikan pola tersebut Mayoritas pembeli Gateway membeli dengan
harga kurang ≤ $2,500
Menggeneralisir pola tersebut padapopulasi 95% dari seluruh pembeli Gateway membayar
membeli PC dengan harga antara $2,000 - $3,000
VARIABEL: suatu sifat atau karakteristik daribeberapa obyek, kejadian, atau orang yang nilainya dapat bervariasi dan dapat dihitungatau diukur
Jenis kelamin
Tinggi badan
DATA : Unit dalam variabel
Variabel
Numerik / Kuantitatif
Kontinu Diskrit
Kategori / Kualitatif
Kategori Biasa Ordinal
DATA
Numerik / Kuantitatif
Kontinu Diskrit
Kategori / Kualitatif
Biner
2 kategori
Nominal
> 2 kategori
Ordinal
Urutanpenting
Data Kontinu
Data kontinu yaitu data yang diperoleh dari hasil pengukuran. Data kontinu dapat dikelompokkan menjadi: Data interval yaitu data yang jaraknya sama tetapi tidak
mempunyai nilai nol absolut (mutlak). Misal nol derajat Celcius.
Data rasio yaitu data yang jaraknya sama dan mempunyai nilai nol absolut. Misal hasil pengukuran panjang (m), berat (kg), dsbnya
Data Diskrit
Data diskrit yaitu data yang diperoleh dari hasil menghitung atau membilang. Misal jumlah meja ada 20 buah , jumlah orang ada 12 dsbnya
Data biner (dichotomous data) Ya vs Tidak
Data Nominal Data yang hanya meghasilkan satu dan hanya
satu-satunya kategori. Contoh pendidikan, jeniskelamin
Data ordinal Data yang memiliki tingkatan data, urutan data
• Data kualitatif adalah data yang tidak memiliki interpretasi secara kuantitatif, yaitu data hanya dapat diklasifikasikan ke dalam kategori-kategori.
• Dalam aplikasi sehari-hari data kualitatif berbentuk kalimat, kata, atau gambar, jika diinginkan pengolahan secara kuantitatif, data ini dapat diangkakan (skoring).
Statistik Deksriptif
Ukuran Kecenderungan Pusat
Mean
Median
Modus
Ukuran Penyebaran(Variabilitas
Range
Inter Quartile Range
Standar Deviasi
Variansi
Mean = Rataan
Median = Nilai Tengah
Modus
Suatu ukuran atau informasi yang menggambarkan sebagian besar jawaban atassuatu pertanyaan
Median = nilai tengah distribusi (persentil 50)
Modus = nilai pengamatan yang paling sering keluar
Rataan merupakan ukuran terbaik untukdistribusi simetris tanpa outlier
Median lebih bagus digunakan untukdistribusi data yang mencong (skew) atau data dengan outlier
Mean = 3
Median = 3
Mean = 4
Median = 3
Left Skew (Mencong Kiri) Right Skew (Mencong Kanan)
Digunakan untuk menjelaskan perbedaan khasantara nilai-nilai dalah suatu himpunan nilai
Variansi Sampel
Deviasi Standar: simpangan seluruh data di sekitar rataan
Range = Max - Min
Mengapa dalam mencari variansidikuadratkan?
Agar negatif dan positif tidak salingmembatalkan satu sama lain
Penyimpangan yang lebih besarakan mendapatkan bobot lebihbesar
Manakah diantara himpunan mobil berikutyang memiliki variabilitas jarak tempuh lebihbesar?
Quartil pertama, Q1 adalah nilai dimana 25% pengamatan lebih kecil dan 75% lebih besar
Quartil kedua atau Q2 sama dengan median, 50% lebih kecil dan 50% lebih besar
Quartil 3 , Q3, hanya 25% pengamatan lebihbesar
Secara umum persentil ke-n adalah nilaisedemikian rupa n% dari pengamatan terletakdibawah nilai tersebut
Contoh Penggunaan: Untuk merancang tinggi pintu maka kita
menggunakan persentil 95 dari populasi
Untuk merancang tinggi letak stop kontak, kitamenggunakan persentil 5 atau 10 panjang jangkauantangan ke atas
μσ2
σs2
s
POPULASI
SAMPEL
x
Pie Chart
Untuk menggambarkan proporsi variabel kualitatif(kategori).
Membagi lingkaran ke dalam bagian-bagian (slices) yang masing-masing berhubungan dengan setiapkategori. Sudut tengah bagian tersebut proporsionalterhadap frekuensi relatif kategori.
Bar Chart (Grafik Batang)
Untuk menggambarkan variabel kualitatif
Grafik batang memberikan frekuensi (atau frekuensirelatif) yang berkaitan dengan setiap kategori, dengan tinggi menyatakan proporsional batangterhadap frekuensi kategori (frekuensi relatif)
Kategori Frekuensi Frekuensi Relatif
NegaraBanyaknya Reaktor
NuklirProporsi
Belgia 4 0.0408
Perancis 22 0.2245
Finlandia 2 0.0204
Jerman 7 0.0714
Belanda 1 0.0102
Jepang 11 0.1123
Swedia 3 0.0306
Swiss 1 0.0102
Amerika Serikat 47 0.4796
TOTAL 98 1.000
4
22
2
7
1
11
31
47
0
5
10
15
20
25
30
35
40
45
50
4%
23%
2%
7%
1%11%3%
1%
48%
Belgia
Perancis
Finlandia
Jerman
Belanda
Jepang
Swedia
Swiss
Amerika Serikat
Dot Plot
Termasuk grafik paling sederhana, cocok untuk data kecil. Nilai numerik dari pengamatan diletakkanpada skala horisontal dengan menempatkan suatutitik pada nilai yang bersesuaian. Jika nilai tersebutberulang, maka titik-titik ditempatkan diatasnya, membentuk semacam tumpukan
Box Plot
Untuk menunjukkan frekuensi atau proporsi suatuvariabel kategori dalam setiap kategori
Digunakan untuk menekankan adanya outlier, median, dan IQR
Stem-Leaf Plot (Diagram Tangkai-Daun)
Membantu memvisualisasikan bentuk distribusidata
Histogram
Memberikan gambaran kepadatan (density) data
Digunakan untuk menggambarkan suatu distribusi(bentuk, pusat, range, variasi) dari variabel kontinu
Ukuran Bin penting
Scatterplot
Untuk menunjukkan hubungan antara dua variabelkontinu
Line Graphs
Untuk menggambarkan variabel kuantitatif menurutruntun waktu
Kemencongan / Skewness
Modalitas
Tinjau kembali data Life Expectancy vs Income Per person
Sampel DataUsia Aki (dalam tahun), n = 40
2.2 4.1 3.5 4.5 3.2 3.7 3.0 2.6
3.4 1.6 3.1 3.3 3.8 3.1 4.7 3.7
2.5 4.3 3.4 3.6 2.9 3.3 3.9 3.1
3.3 3.1 3.7 4.4 3.2 4.1 1.9 3.4
4.7 3.8 3.2 2.6 3.9 3.0 4.2 3.5
Bagilah setiap pengamatan dalam sekumpulan data ke dalam dua bagian, yaitu stem (tangkai) dan leaf (daun). Kita akan menandakan digit pertama usia aki mobil sebagai stem (digit yang berada disebelah kiri titik desimal) dan menamakan dua digit terakhir sebagai leaf. Sebagai contoh, untuk data usia aki mobil misalkan 3.7 maka bagian stem adalah 3 dan leaf untuk 7.
Daftarlah seluruh stem dalam urutan sebuah kolom, diawali dengan stem terkecil dan berakhir dengan yang terbesar
Lakukan untuk seluruh set data, tempatkan daun untuk setiap pengamatan dalam barisan stem yang tepat menurut urutan naik. Display stem-leaf yang lengkap ditunjukkan dalam tabel berikut
Stem Leaf Frekuensi
1 69 2
2 25669 5
3 0011112223334445567778899 25
4 11234577 8
Kasus diatas hanya terdiri dari empat stem sehingga belum dapat memberikan gambaran seperti apa bentuk distribusinya. Untuk mengatasi hal ini, kita dapat menambahkan banyaknya tangkai (stem) dalam plot tersebut. Cara sederhana untuk ini adalah menuliskan nilai tangkai sebanyak dua kali dan mencatat daun 0, 1, 2, 3, dan 4 berseberangan dengan nilai stem yang tepat dimana nilai itu muncul pertama kali, dan daun 5, 6, 7, 8, dan 9 berseberangan dengan nilai tangkai dimana nilai itu muncul untuk kedua kali. Modifikasi plot double-stem-and-leaf digambarkan dalam tabel berikut, dimana stem yang berkaitan dengan daun 0 sampai 4 dikodekan dengan simbol * dan stem yang berkaitan dengan daun 5 sampai dengan 9 disimbolkan dengan -
Stem Leaf Frekuensi
1 69 2
2* 2 1
2- 5669 4
3* 001111222333444 15
3- 5567778899 10
4* 11234 5
4- 577 3
Hitung jarak (range) data
Range = Pengamatan terbesar – Pengamatan terkecil
Range untuk data tabel usia aki mobil
Range = 4.7 – 1.6 = 3.1
Bagilah range tersebut ke dalam 5 – 20 kelas yang sama.
Banyaknya kelas sembarang, tetapi gambaran yang lebih bagus akan diperoleh jika menggunakan sedikitkelas untuk banyak data yang kecil dan sejumlahbesar kelas untuk sekumpulan data yang lebih besar.
Banyaknya kelas juga dapat ditentukan menggunakanrumus
Untuk data tabel usia aki mobil digunakan 7 kelas (jikamenggunakan rumus diperoleh 6.28 yang dapatdibulatkan ke atas) sehingga pendekatan untuk lebarkelas adalah
Banyaknya Pengamatan dalamSekumpulan Data
Banyaknya Kelas
Kurang dari 25 5 atau 6
25 – 50 7 – 14
Lebih dari 50 15 - 20
Batas kelas terkecil (pertama) sebaiknya diletakkandibawah pengukuran terkecil, dan lebar kelas dipilihsedemikian rupa sehingga tidak ada pengamatanyang tepat berada pada batas kelas.
Hasil ini dibulatkan keatas, selanjutnya digunakan suatukelas dengan lebar 0.44. Hasil interval kelas ditunjukkandalam tabel berikut
44.07
1.3
7
rangekelaslebar pendekatan
Kelas Interval
Kelas
Titik tengah
Kelas
Frekuensi
Kelas
Frekuensi
Kelas Relatif
1 1.5 – 1.9 1.7 2 0.05
2 2.0 – 2.4 2.2 1 0,025
3 2.5 – 2.9 2.7 4 0.100
4 3.0 – 3.4 3.2 15 0.375
5 3.5 – 3.9 3.7 10 0.250
6 4.0 – 4.4 4.2 5 0.125
7 4.5 – 4.9 4.7 3 0.075
n =40 1.00
Untuk setiap kelas, hitung banyaknya pengamatan untuk yang masuk dalam kelas tersebut. Hasil perhitungan ini disebut frekuensi kelas yaitu
Frekuensi kelas dan frekuensi relatif data dari tabel ditunjukkan masing-masing dalam kolom 4 dan 5 di tabel di atas
Histogram pada prinsipnya merupakan suatu grafik batang yang menggambarkan kategori kelas-kelas. Dalam suatu histogram frekuensi, tinggi batang ditentukan oleh frekuensi kelas. Serupa dengan hal tersebut, dalam suatuhistogram frekuensi relatif, tinggi batang ditentukan olehfrekuensi kelas relatif . Histogram frekuensi relatif untukdata usia aki mobil ditunjukkan dalam gambar berikut
pengukuran banyaknya Total
kelas frekuensi Totalkelas relatif frekuensi
Grafik yang Baik Menyajikandata secara akurat dan jelas
Grafik yang Buruk
Menggambarkan informasi yang sedikit
Mengaburkan apa yang hendakdisampaikan (dengan chart “sampah’)
Menggunakan pie chart (terutamadalam warna dan 3 dimensi)
Menggunakan skala yang tidak tepat
Hitunglah rataan, median, Q1 (persentil 25), Q3 (persentil 75), range, danvariansi untuk data penurunan berat badandalam tabel
Berikut ini adalah data yang diurutkan dari kecil kebesar 25, 26, 26, 30, y, y, y, 33, 150
a. Apakah rataannya lebih besar dari mediannya?b. Apakah 26 merupakan nilai modusnya?c. Manakah yang merupakan outlier (pencilan) data?