modul 10 transformasi dan distribusi sampling
TRANSCRIPT
MODUL X
TRANSFORMASI DAN DISTRIBUSI SAMPLING
A. TRANSFORMASI
Distribusi empirik yaitu berupa histogram, batang daun, dan boxplot, yang akan
memberikan gambaran aantara lain tentang kesimetrisan, kecondongan, pemusatan,
penyebaran dari data pengamatan.
Salah satu sifat penting dari distribusi normal yaitu kesimetrisan. Distribusi
normal ini sangat penting karena banyak metode statistik yang dipakai (uji hipotesis
dan uji selang kepercayaan) dengan anggapan distribusi empirik data menghampiri
distribusi normal. Bagaimana jika data tersebut tidak menghampiri distribusi
normal, dengan kata lain tidak simetri. Transformasi adalah salah satu cara untuk
mengatasi masalah tersebut, dan ada cara lainnya (akan tetapi tidak selalu berhasil).
Transformasi data dilakukan pada data-data yang memiliki bentuk distribusi
empirik tidak simetri sehingga diperoleh bentuk yang simetri atau mendekati
simetri.
Contoh bentuk-bentuk distribusi empirik adalah
Tinggi
x x xx xx xxx
x xx xxxxx xxxxxxxx xxx xxx
xx xxxxx xx xxxxxx x x
xx xx xxx x xxxx
xxx xxxxxxxx
xxxx xxx x x
Rendah
1. Menjurai ke atas, 2. Simetri, 3. Menjurai ke bawah, 4.Hampir simetri berpuncak tunggal berpuncak tunggal berpuncak tunggal berpuncak ganda
Salah satu teknik transformasi pengsimetrisan, adalah dengan :
, , log x, , , , dll.
Tukey menyimpulkannya dengan apa yang dinamakan Tangga Transformasi :
transformasi utk simetri transformasi utkmenjurai ke atas menjurai ke bawah
log x x antilog x
kuat sedang tak berubah sedang kuat
Contoh 1
Distribusi empirik di bawah bersifat tidak empirik karena data yang bernilai kecil
mengumpul (dapat juga dikatakan menjurai ke atas).
Data : N = 60
0.0 sebanyak 10 baris
0.5 sebanyak 19 baris
1.0 sebanyak 14 baris
1.5 sebanyak 3 baris
2.0 sebanyak 5 baris
2.5 sebanyak 2 baris
3.0 sebanyak 4 baris
3.5 sebanyak 1 baris
4.0 sebanyak 1 baris
4.5 sebanyak 0 baris
5.0 sebanyak 0 baris
5.5 sebanyak 1 baris
Langkah-langkah pengerjaan melalui program Minitab:
- Masukkan data-data tsb pada worksheet (sebanyak N = 60) di kolom C1
- Pilih menu Graph > Simple, lalu OK
- Pilih C1 sebagai Graph variables, lalu OK
- Didapat plot Histogram of C1
70
Gambar 10.1 Histogram dari Distribusi Empirik
Jika dibuat transformasi Z = log C2, maka pengerjaan pada program Minitab:
1. Pilih Calc > calculator.
2. Pada kotak dialog calculator seperti pada gambar, masukkan C2 pada kotak
store result in variable.
3. Masukkan fungsi LogT(C1) pada expression, yang artinya C2 =Logten (C1),
lalu OK.
Gambar 10.2 Kotak Dialog Kalkulator
4. Plih Graph > Histogram > simple > OK.
5. Pada kotak dialog histogram masukkan variabel C2 pada kotak graph variable
> OK
Output histogram C2 akan ditunjukkan seperti gambar dibawah.
71
Gambar 10.3 Grafik histogram dari C2 dengan fungsi transformasi y = log (x)
Jika dibuat transformasi y = , maka perintah pada program Minitab sama dengan
diatas, tetapi fungsi yang digunakan C3 = SQRT (C1). Kemudian setelah itu dibuat
histogram dari C3 yang menghasilkan grafik seperti dibawah.
Gambar 10.4 Grafik Histogram dari C3 dengan fungsi transformasi y =
6. Pilih Graph > steam and Leaf
7. Masukkan C3 pada kotak graph variable. > OK
Stem-and-Leaf Display: C3
Stem-and-leaf of C3 N = 60Leaf Unit = 0.10
10 0 0000000000 10 0 10 0 29 0 7777777777777777777 29 0(14) 1 00000000000000 17 1 222 14 1 4444455 7 1 7777 3 1 8 2 2 0 1 2 3
72
Analisa
Pada plot pertama terlihat data sangat jauh dari normal (dikatakan menjurai ke atas).
Lalu dicoba transformasi Z = log x, dan diperoleh plot kedua yang ternyata
membuat data menjadi menjurai ke bawah. Dicoba lagi dengan transformasi y = ,
dan diperoleh plot yang lebih mendekati normal, walaupun dari histogram masih
belum simetri.
Pencarian transformasi yang cocok masih terus dapat dilakukan sehingga dihasilkan
histogram yang simetri (atau mendekati simetri) dan plot normal yang mendekati
garis lurus.
Contoh 2
Jika peubah acak diubah dengan mengalikan atau menambahkan suatu nilai skalar
maka mean juga berubah dengan mengalikan atau menambahkan scalar tersebut.
Untuk variansi, jika peubah acak dikalikan dengan scalar maka variansinya juga
dikalikan dengan kuadrat skalar. Tapi jika ditambahkan dengan skalar maka
variansinya tetap. Ini dikarenakan plot hanya bergeser sejauh pergeseran mean. Jadi,
hanya mean yang berubah.
Langkah yang dilakukan pada Minitab antara lain:
1. Pilih Calc > Random Data > Normal
2. Pada kotak Generate, masukkan 60 data dan mean = 0.4, lalu OK.
3. Pilih Calc > Calculator
4. Pada kotak dialog, masukan fungsi 3*C1 pada kotak expression > OK.
5. Pilih Stat > Basic Statistic > Display Descriptive Statistics
6. Pilih Varibel C1 dan C2 > Statistics
7. Cek Mean,Median,TrMean,Stdev,Semean, Min dan Max. > OK.
Descriptive Statistics: C1, C2
Variable CumN Mean SE Mean TrMean StDev Minimum Median MaximumC1 60 0.427 0.120 0.391 0.932 -1.233 0.299 3.336C2 60 1.280 0.361 1.172 2.795 -3.698 0.897 10.009
B. DISTRIBUSI SAMPLING
73
Misalkan akan diambil kesimpulan mengenai proporsi orang Indonesia yang
merokok. Tentunya tidak mungkin menanyai semua penduduk Indonesia. Karena itu
ada yang dinamakan sample acak, yaitu beberapa data dari populasi diambil secara
acak, dan kemudian dihitung proporsi orang yang merokok (populasi adalah
keseluruhan pengamatan yang akan diteliti). Percobaan ini dilakukan beberapa kali.
Suatu nilai yang dihitung dari sample dinamakan statistik. Karena banyak sampel
maka kita dapatkan banyak nilai statistik yang berbeda dari sampel ke sampel.
Karena itu statistik adalah suatu peubah acak juga. Dalam modul ini, akan dibahas
mengenai distribusi beberapa statistik, khususnya rataan sampel dan variansi
sampel.
Misalkan diambil sampel berukuran n dari suatu populasi, dan diulangi sebanyak k
kali, kemudian dari tiap sampel diambil rataannya, maka rataan sampel itu
mempunyai distribusi, dan disebut distribusi sampling dari rataan. Jika yang diamati
variansinya untuk tiap sampel, maka variansi sampel itu mempunyai distribusi dan
dinamakan distribusi sampling dari variansi.
Misalkan X ~ F sembarang, dengan rataan dan variansi , maka
.
, (karena bebas)
.
Bila populasi yang tidak diketahui distribusinya (berhingga atau tidak), diambil
sampelnya, maka distribusi sampel rataannya akan berdistribusi hampir normal
dengan rataan dan variansinya , asalkan ukuran sampel besar dan ekspetasi dari
sampel acak dan berhingga.
Contoh program simulasi distribusi rataan untuk normal dan binomial.
1. Distribusi rataan untuk N(0,4)
MTB > random 15 C1 – C60MTB > normal 0 2MTB > copy C1 – C60 m1MTB > transpose m1 m2MTB > copy m2 C1 – C15MTB > rmean C1 – C15 C16
74
MTB > histogram C16Histogram of C16 N = 60Midpoint Count
-1.2 3 * * *-0.8 9 * * * * * * * * *-0.4 10 * * * * * * * * * * 0.0 17 * * * * * * * * * * * * * * * * * 0.4 15 * * * * * * * * * * * * * * * 0.8 5 * * * * * 1.2 1 *
MTB > nscore C16 C17MTB > plot C17 C16
MTB > describe C16 N MEAN MEDIAN TRMEAN STDEV SEMEAN
C16 60 -0.0332 0.0429 -0.0258 0.5636 0.0728
MIN MAX 01 03C16 -1.3268 1.3702 -0.4820 0.4704
MTB > boxplot C16
Untuk distribusi rataan dari binomial, gunakan program yang sama, hanya random normal diganti random binomial.
N MEAN MEDIAN TRMEAN STDEV SEMEAN C1 100 -0.169 -0.472 -0.219 3.960 0.396
MIN MAX 01 03C1 -8.905 10.585 -3.042 2.460
Contoh 3Data : N = 100
-8 sebanyak 2
-6 sebanyak 11
-4 sebanyak 13
-2 sebanyak 19
0 sebanyak 16
2 sebanyak 17
75
4 sebanyak 11
6 sebanyak 8
8 sebanyak 2
10 sebanyak 1
Minitab
- Masukkan data-data tsb pada worksheet (sebanyak N = 100) di kolom C1
- Pilih menu Graph > Simple, lalu OK
- Pilih C1 sebagai Graph variables, lalu OK
- Didapat plot Histogram of C1
- Pilih menu Graph > Stem-and-Leaf
- Pilih C1 sebagai Graph variables
- Diperoleh
Stem-and-leaf of C1 N = 100Leaf Unit = 1.0
2 -0 88 13 -0 66666666666 26 -0 4444444444444 45 -0 2222222222222222222(8) -0 00000000 47 0 00000000 39 0 22222222222222222 22 0 44444444444 11 0 66666666 3 0 88 1 1 0
76
- Pilih menu Graph > Boxplot
- Pilih Simple, lalu OK
- Diperoleh
- Pilih menu Calc > Calculator
- Store result in variables C2
- Expression pilih Normal score(C1), lalu OK
- Diperoleh data normal score nya di C2
- Pilih menu Graph > Scatterplot
- Pilih Simple, lalu OK
- Pilih C2 sebagai Y variable dan C1 sebagai X variable, lalu OK
- Diperoleh Scatterplot of C2 vs C1
77
C. LATIHAN
1. Data di bawah ini menyajikan penduduk ke-22 wilayah metropolitan terbesar di
AS pada tahun 1970. Petugas sensus mencoba mendefinisikan wilayah ini sehingga
merupakan satuan populasi yang berarti.
- Diagramkanlah data mentahnya
- Bagaimana bentuk disribusinya (jelaskan)
- Buat juga boxplotnya
- Transformasi apa yang dipakai agar bentuk distribusinya menjadi berbentuk
hampir normal
1420 1390 2071 2754 6979 1385 2064 1556 4200 1985
7032 1404 1814 11529 1857 1359 4818 2401 2363 3110
1422 2861
2. Gunakan data no.1. Bandingkanlah transformasi manakah yang lebih baik antara
akar dua dengan versi kebalikan negatif. Jelaskan!
3. Simulasi sebanyak 20 pengamatan dan diletakkan di 5 kolom, dari N(0,4).
Lakukan percobaan ini sebanyak 3 kali, dan perhatikan histogram dan normal
plotnya. Bagaimana analisa anda!
4. Buat program untuk menset 80 buah rataan (terhadap C1-C30) dari B(x ; 10, 0.2)
dan N(0, 16). Apa yang dapat anda jelaskan dari outputnya!
5. Di bawah ini adalah produk kosmetik bruto per kapita negara belahan bumi barat
tertentu (1971), dla US$, yang diambil dari buku Memahami Data (Erickson dan
Nosanchuk).
Argentina 1260 Jamaica 740Bolivia 219 Meksiko 712Brazil 452 Nikaragua 471Kanada 4317 Panama 782Costa Rica 586 Peru 356Ekuador 306 Uruguay 836Guatemala 371 Amerika Serikat 5121Haiti 110 Venezuela 1151
78
Buat histogram, batang daun, dan normal plotnya. Kemudian ambil log-nya, dan
buat kembali histogram, batang daun, dan normal plotnya. Bandingkan!
Analisalah!
79