Download - TUGAS AKHIR
TUGAS AKHIR PRAKTIKUM ANALISIS DATA KATEGORIK
Disusun oleh :
Nama : Yuni Dwi Setyaningsih
NIM : 121.061.005
Program Studi : Statistika
JURUSAN MATEMATIKA
PROGRAM STUDI STATISTIKA
FAKULTAS SAINS TERAPAN
INSTITUT SAINS DAN TEKNOLOGI AKPRIND
YOGYAKARTA
2013
KATA PENGANTAR
Dengan memanjatkan puji syukur kehadirat Allah SWT, Alhamdulilah penulis
telah menyelesaikan laporan akhir Praktikum Analisis Data Kategorik ini.
Cukup banyak hambatan dan kesulitan yang dihadapi dalam menyelesaikan laporan
akhir ini. Meskipun demikian, atas petunjuk dan limpahan rahmat-Nya hambatan dan
kesulitan tersebut dapat teratasi dengan adanya uluran tangan dan bantuan dari berbagai
pihak. Sehingga pada saatnya laporan akhir ini dapat terwujud meskipun dalam bentuk
sederhana. Untuk itu sudah sepantasnya jika penyusun menyampaikan penghormatan
yang setinggi-tingginya dan ucapan terima kasih yang sebesar-besarnya kepada :
1. Drs. Yudi Setyawan, M.S., M.Sc, selaku dosen pembimbing yang telah
memberikan pengarahan.
2. Ririn Dwi Jayanti, Hermenia Ximenes, Fatikh N Khabibah selaku asisten
Laboratorium Statistika.
3. Kedua orangtua yang telah menyediakan anggaran untuk semua yang berkaitan
dalam penulisan makalah.
4. Teman-teman yang telah memberikan dukungan.
Penulis menyadari bahwa dalam makalah ini terdapat banyak kesalahan dan kekurangan.
Oleh karena itu kepada para pembaca, penulis mengharapkan saran dan kritik yang
sifatnya membangun demi kesempurnaan laporan ini.
Semoga laporan ini dapat bermanfaat bagi para pembaca.
Penyusun
DAFTAR ISI
BAB I
PROPORSI 2 SAMPEL
1.1 LANDASAN TEORI
1.2 SOAL DAN PEMBAHASAN
Soal
Suatu sampel random dengan 200 orang laki-laki umur 50 sampai 65 tahun menunjukkan
banyaknya penderita penyakit gula dan penyakit jantung sebagai berikut :
Penyakit jantung
Penyakit gulaAda Tidak
Ada 16 20
Tidak 32 132
Untuk mengetahui apakah ada perbedaan seseorang berpotensi mempunyai penyakit jantung
terhadap ada tidaknya penyakit gula seseorang. Dengan menggunakan tingkat signifikansi 5%
lakukan pengujian apakah terdapat perbedaan proporsi seseorang berpotensi mempunyai
penyakit jantung?
Pembahasan
(1) Prosedur
Untuk menyelesaikan kasus di atas kita gunakan software R dengan menuliskan
syntaxnya yaitu sebagai berikut :
(2) Analisis
Hipotesis yang digunakan dalam kasus ini adalah :
H0 : proporsi seseorang berpotensi mempunyai penyakit jantung kurang dari atau sama
dengan proporsi seseorang berpotensi mempunyai penyakit gula.
H1 : proporsi seseorang berpotensi mempunyai penyakit jantung lebih dari proporsi
seseorang berpotensi mempunyai penyakit gula.
Nilai signifikansi α = 5% = 0.05
Statistic uji
Dari hasil output di atas diperoleh nilai p value adalah 0.003113
Daerah kritis
H0 ditolak apabila p value < α dan H0 diterima apabila p value > α
Kesimpulan
Karena p value < α atau 0.003113 < 0.05 maka H0 ditolak yang artinya bahwa proporsi
seseorang berpotensi mempunyai penyakit jantung lebih dari proporsi seseorang
berpotensi mempunyai penyakit gula.
BAB II
TABEL KONTINGENSI TIGA ARAH
2.1 LANDASAN TEORI
2.2 SOAL DAN PEMBAHASAN
Soal
Seorang peneliti ingin meneliti banyaknya kematian bayi terhadap jarak kelahiran dan tempat
tinggal. Data hasil penelitian disajikan dalam tabel berikut :
Jarak kelahiran Tempat tinggal
Kematian bayi
Ya Tidak
< 2 tahun Pedesaan 164 30
Perkotaan 93 23
> 2 tahun Pedesaan 40 14
Perkotaan 15 6
Hitung odds ratio dan jelaskan.
Pembahasan
(1) Prosedur
Untuk menyelesaikan persoalan di atas kita gunakan software R yaitu dengan langkah-
langkah sebagai berikut :
Mencari odds ratio :
(2) Analisis
Dari output di atas dapat dilihat bahwa nilai odds ratio untuk jarak kelahiran kurang dari
2 tahun adalah sebesar 1.351971 sedangkan nilai odds ratio untuk jarak kelahiran lebih
dari 2 tahun adalah sebesar 1.142857.
BAB III
GENERALIZED LINEAR MODEL (GLM)
3.1 LANDASAN TEORI
Generalized Linear Models
Model linear tergeneralisir atau Generalized Linear Models (GLM) merupakan
pengembangan dari model linear yang mengakomodir dua hal utama yaitu distribusi respon
yang non normal dan transformasi untuk linearitas.
Variabel respon banyak yang hanya memiliki dua kategori misalnya kelulusan dalam tes
(lulus atau tidak), pengobatan penyakit (sembuh atau tidak) dan lain-lain.
3.2 SOAL DAN PEMBAHASAN
Soal
Teliti hubungan antara IPK dan pengalaman kerja seseorang terhadap penerimaan seseorang
dalam suatu perusahaan ( 0 = tidak, 1 = ya ).
Lakukan evaluasi dari kebaikan model GLM dengan tes statistic Wald. Data hasil penelitian
disajikan dalam tabel berikut :
No.tes IPK Pengalaman Kerja Diterima
1 3.12 1 0
2 3.22 0 0
3 3.45 1 1
4 3.55 1 1
5 3.88 1 1
6 2.98 0 0
7 3.33 1 1
8 3.31 1 0
9 3.09 0 0
10 3.75 0 1
11 3.41 0 0
12 3.83 0 1
13 3.56 0 1
14 2.99 1 1
15 3.10 0 0
Pembahasan
(1) Prosedur
Untuk menyelesaikan kasus di atas gunakan software R dengan langkah-langkah sebagai
berikut :
a) Menginputkan data ke dalam software R :
Klik menu Data >> New Dataset >> ketikkan nama dataset >> OK >> inputkan data di
atas seperti pada tabel berikut :
b) Untuk memulai analisis klik Statistics >> Fit Model >> Generalized Linear Model :
c) Akan muncul kotak dialog berikut :
Akan menghasilkan output regresi logistic sebagai berikut :
> GLM.1 <- glm(diterima ~ IPK + pengalaman_kerja, family=binomial(logit), + data=data)> summary(GLM.1)
Call:glm(formula = diterima ~ IPK + pengalaman_kerja, family = binomial(logit), data = data)
Deviance Residuals: Min 1Q Median 3Q Max -1.69490 -0.36045 0.07326 0.44839 1.84664
Coefficients:
Estimate Std. Error z value Pr(>|z|) (Intercept) -29.116 14.405 -2.021 0.0433 *IPK 8.341 4.141 2.014 0.0440 *pengalaman_kerja 2.671 1.852 1.442 0.1493 ---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 20.728 on 14 degrees of freedomResidual deviance: 10.454 on 12 degrees of freedomAIC: 16.454
Number of Fisher Scoring iterations: 6d) Untuk mengevaluasi kebaikan model GLM yang telah diperoleh klik Models >>
Confidence intervals :
e) Akan muncul kotak dialog :
Kita gunakan confidence level yaitu 0.95 dan menggunakan test Wald Statistic lalu
klik OK.
Maka akan menghasilkan output interval keyakinan dari Statistik Wald :
(2) Analisis
Dari hasil output regresi logistic di atas menunjukkan bahwa IPK berpengaruh
signifikan terhadap penerimaan seseorang dalam suatu perusahaan, sedangkan
pengalaman kerja tidak berpengaruh terhadap penerimaan seseorang dalam suatu
perusahaan. Hal ini ditunjukkan oleh besarnya p value (Pr >|z|) dari uji Z pada kedua
variabel.
Untuk IPK nilai p value sebesar 0.0440 yang artinya kurang dari α =0.05, sedangkan
nilai p value pada variabel pengalaman kerja sebesar 0.1493 yang artinya lebih dari α =
0.05.
Secara matematis model regresi logistic yang diperoleh berdasarkan output di atas
adalah :
μ(X) = atau
log =
dengan X1 adalah variabel IPK dan X2 adalah variabel pengalaman kerja.
Untuk output yang kedua adalah output interval keyakinan statistic Wald yang
menjelaskan bahwa variabel IPK mempunyai pengaruh yang signifikan terhadap
variabel respon (penerimaan seseorang dalam suatu perusahaan), hal ini ditunjukkan
dengan interval keyakinan koefisien dari variabel IPK yang tidak mencakup nilai nol
pada batas bawah (positif) dan batas atasnya (positif). Sedangkan variabel pengalaman
kerja tidak berpengaruh terhadap variabel respon yang ditunjukkan oleh interval
keyakinan koefisien dari variabel pengalaman kerja yang mencakup nilai nol pada
batas bawah (negative) dan batas atasnya (positif).
BAB IV
ANALISIS REGRESI LOGISTIK BERGANDA
4.1 LANDASAN TEORI
4.2 SOAL DAN PEMBAHASAN
Soal
Data di bawah ini adalah data hasil nilai tugas 1, 2, dan 3 dan sukses tidaknya UAS
sekelompok mahasiswa :
Nilai tugas 1 Nilai tugas 2 Nilai tugas 3 Sukses UAS
8 9 9 1
6 5 7 0
5 4 8 0
7 9 7 1
8 8 7 1
4 5 5 0
9 8 7 1
6 9 5 1
7 5 5 0
6 5 4 0
6 7 6 0
9 8 7 1
7 5 8 1
6 7 8 1
Lakukan analisis terhadap data di atas. Variabel bebas mana saja yang berpengaruh secara
signifikansi terhadap sukses tidaknya UAS ?
Pembahasan
1) Prosedur
(a) Membuat desain variabel.Pada Variabel View buat desain variabel seperti tabel berikut ini :
Untuk variabel sukses_UAS pada values isikan 0 untuk “tidak” dan 1 untuk “ya”. Caranya pada kotak dialog berikut isikan pada value : 0 lalu pada label ketik : tidak kemudian Add dan pada value ketik : 1 lalu pada label ketik ya klik Add dan OK.
(b) Menginputkan dataPada Data View inputkan data tersebut seperti berikut :
(c) Lakukan analisis dengan cara klik Analyze >> Regression >> Binary Logistic :
Maka akan muncul kotak dialog :
Pada kolom Dependent isi dengan variabel sukses_UAS dan pada kolom Covariates isi dengan variabel nilai_tugas1, nilai_tugas2 dan nilai_tugas3 lalu klik Options.
Pilih Hosmer Lemeshow goodness of fit lalu klik Continue lalu OK.
Output :
Case Processing Summary
Unweighted Casesa N Percent
Selected Cases Included in Analysis 14 100.0
Missing Cases 0 .0
Total 14 100.0
Unselected Cases 0 .0
Total 14 100.0
a. If weight is in effect, see classification table for the total number of cases.
Dependent Variable Encoding
Original Value Internal Value
Tidak 0
Ya 1
Classification Tablea,b
Observed
Predicted
sukses_UAS
Percentage Correcttidak ya
Step 0 sukses_UAS Tidak 0 6 .0
Ya 0 8 100.0
Overall Percentage 57.1
a. Constant is included in the model.
b. The cut value is .500
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 0 Constant .288 .540 .284 1 .594 1.333
Variables not in the Equation
Score df Sig.
Step 0 Variables nilai_tugas1 6.007 1 .014
nilai_tugas2 8.215 1 .004
nilai_tugas3 3.540 1 .060
Overall Statistics 10.228 3 .017
Omnibus Tests of Model Coefficients
Chi-square df Sig.
Step 1 Step 19.121 3 .000
Block 19.121 3 .000
Model 19.121 3 .000
Model Summary
Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square
1 .000a .745 1.000
a. Estimation terminated at iteration number 20 because maximum iterations
has been reached. Final solution cannot be found.
Hosmer and Lemeshow Test
Step Chi-square Df Sig.
1 .000 8 1.000
Contingency Table for Hosmer and Lemeshow Test
sukses_UAS = tidak sukses_UAS = ya
TotalObserved Expected Observed Expected
Step 1 1 1 1.000 0 .000 1
2 1 1.000 0 .000 1
3 1 1.000 0 .000 1
4 1 1.000 0 .000 1
5 1 1.000 0 .000 1
6 1 1.000 0 .000 1
7 0 .000 1 1.000 1
8 0 .000 1 1.000 1
9 0 .000 1 1.000 1
10 0 .000 5 5.000 5
Classification Tablea
Observed
Predicted
sukses_UAS Percentage
Correcttidak ya
Step 1 sukses_UAS tidak 6 0 100.0
ya 0 8 100.0
Overall Percentage 100.0
a. The cut value is .500
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 1a nilai_tugas1 48.973 1.674E4 .000 1 .998 1.856E21
nilai_tugas2 25.838 7.612E3 .000 1 .997 1.665E11
nilai_tugas3 18.400 1.356E4 .000 1 .999 9.794E7
Constant -601.506 1.015E5 .000 1 .995 .000
a. Variable(s) entered on step 1: nilai_tugas1, nilai_tugas2, nilai_tugas3.
Analisis(a) Uji kelayakan model regresi Hipotesis yang digunakan adalah :
H0 : tidak ada perbedaan signifikansi antara klasifikasi yang diprediksi dan yang diamati.H1 : ada perbedaan signifikansi antara klasifikasi yang diprediksi dan yang diamati.
Signifikansi α = 5% = 0.05 Statistic uji
Hosmer and Lemeshow Test
Step Chi-square df Sig.
1 .000 8 1.000
Hasil output di atas menunjukkan bahwa angka probabilitas pada kolom Sig. sebesar 1.000
Kriteria keputusanJika probabilitas > 0.05 maka H0 tidak ditolakJika probabilitas < 0.05 maka H0 ditolak
KesimpulanKarena probabilitas > α atau 1.000 > 0.05 maka H0 tidak ditolak artinya model regresi biner layak untuk digunakan analisa selanjutnya karena tidak ada perbedaan antara klasifikasi yang diprediksi dan yang diamati.
(b) Uji kelayakan model keseluruhan (Overall Model Fit)Layak dan tidaknya model keseluruhan dapat dilihat dengan menggunakan angka-angka Log Likelihood, dalam perhitungan ini angka tersebut sebesar 0.000.
Model Summary
Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square
1 .000a .745 1.000
a. Estimation terminated at iteration number 20 because maximum iterations
has been reached. Final solution cannot be found.
(a) Uji koefisien regresi
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 1a nilai_tugas1 48.973 1.674E4 .000 1 .998 1.856E21
nilai_tugas2 25.838 7.612E3 .000 1 .997 1.665E11
nilai_tugas3 18.400 1.356E4 .000 1 .999 9.794E7
Constant -601.506 1.015E5 .000 1 .995 .000
a. Variable(s) entered on step 1: nilai_tugas1, nilai_tugas2, nilai_tugas3.
Untuk menguji apakah koefisien regresi layak, kita gunakan angka probabilitas (Sig.) pada tabel Variables in the Equation. Untuk analisis selanjutnya kita gunakan variabel yang memiliki sig. kurang dari α (0.05).Pada hasil output di atas nilai sig. ketiga variabel lebih dari α (0.05) artinya bahwa tidak ada variabel yang mempengaruhi secara signifikan terhadap sukses tidaknya UAS . Sehingga analisis selanjutnya tidak dapat dilanjutkan.
BAB V
KESIMPULAN DAN SARAN
5.1 KESIMPULAN
5.2 SARAN
DAFTAR PUSTAKA