pemodelan statistika dengan metode generalisasi model (glm)
DESCRIPTION
tugas final pemodelan statistikaTRANSCRIPT
Tugas IndividuFinal testRegresi Logistik Biner Dengan Generalised Linier ModelPengaruh Rokok dan Riwayat Kanker Terhadap Kanker Paru
Disusun oleh:
Iswan Rahman (H12112286)
JURUSAN MATEMATIKAFAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAMUNIVERSITAS HASANUDDINMAKASSAR2015
ABSTRAK
Berdasarkan data mengenai kanker paru dari jumlah 200 orang. Mengenai adanya pengaruh dari merokok dan genetik atau riwayat kanker, maka perlu dianalisis. Dalam analisis ini, faktor-faktor yang digunakan sebagai prediktor adalah rokok dan riwayat kanker. Hasil uji regresi logistik biner menunjukkan bahwa kedua variable predictor signifikan berpengaruh terhadap kanker paru.
BAB IPENDAHULUAN1.1 Latar BelakangKanker paru merupakan salah satu jenis kanker yang mempunyai tingkat insidensi yang tinggi di dunia, sebanyak 17% insidensi terjadi pada pria (peringkat kedua setelah kanker prostat) dan 19% pada wanita (peringkat ketiga setelah kanker payudara dan kanker kolorektal).Menurut data WHO tahun 2012, tercatat sebanyak 8,2 juta orang di dunia meninggal akibat kanker, sekitar 1,59 juta diantaranya meninggal karena kanker paru, kanker paru menempati posisi pertama menurut WHO dengan jumlah kematian terbanyak. Menurut WHO faktor resiko utama penyebab kanker paru adalah tembakau. Menurut studi tentang hubungan tembakau dan kanker paru, sekitar 80-90% kanker paru disebabkan karena merokok. Menurut data yang saya dapat dari website tembakau internasional, tercatat bahwa Indonesia merupakan negara dengan angka perokok laki-laki terbanyak di dunia.Tecatat pada tahun 2012, 2 dari 3 laki-laki di Indonesia atau sekitar 67% adalah perokok aktif. Factor lainnya adalah genetik, bahwa riwayat anggota keluarga kanker paru memiliki resiko lebih besar terkena penyakit ini. Bahwa mutasi pada proonton dan gen-gen penekan tumor memiliki arti penting dalam timbul dan berkembangnya kanker paru.1.2 Rumusan MasalahUntuk itu dalam pembahasan ini akan di buktikan apakah ada pengaruh rokok dan riwayat keluarga penderita kanker memberikan pengaruh yang signifikan terhadap penyakit kanker paru.
BAB IITINJAUAN PUSTAKAA. Generalised Linear Model (GLM)Gereralized linear model (GLM) merupakan sebuah metode untuk mengantisifikasi hubungan antar variable respon (bebas) dengan variable predictor (terikat). Dengan menggunakan GLM, kita dapat menjelaskan bagaimana perubahan nilai dari variable respon apabila terdapat perubahan dari variable-variabel predictor. Dua hal yang harus di perhatikan dalam penggunaan GLM ialah:1. Distribusi dari variable respon merupakan anggota dari distribusi keluarga eksponensial .2. Transformasi terhadap nilai mean dari variable respon memiliki hubungan dengan variable-variabel prediktornya.
B. Regresi Logistik BinerRegresi logistik biner adalah suatu metode analisis data yang digunakan untuk mencari hubungan antara variable respon (y) yang bersifat biner dengan variabel prediktor (x) (Hosmer dan Lemeshow, 2000)[2]. Variabel respon y terdiri dari 2 kategori yaitu sukses dan gagal yang dinotasikan dengan y=1 (sukses) dan y=0 (gagal). Dalam keadaan demikian, variabel y mengikuti distribusi Bernoulli untuk setiap observasi tunggal. Fungsi Probabilitas untuk setiap observasi adalah diberikan sebagai berikut.
Dimana jika y = 0 maka f(y) = 1 dan jika y = 1 maka f(y)= . Fungsi regresi logistiknya dapat dituliskan sebagai berikut:
Model regresi logistiknya adalah sebagai berikut
Dimana p = banyaknya variabel predictor Model transformasi logit dari (x) dari persamaan diatas dapat dituliskan sebagai berikut:
Statistic W untuk uji signifikansi parameter regresi losgistik:
Wilayah kritis
Rumus untuk penentuan Odds Ordo
Dimana:P = peluang dari peristiwa yang terjadiP -1= peluang dari peristiwa yang tidak terjadi
BAB IIIMETOLOGI PENELITIAN1.1 Sumber DataData yang digunakan dalam penelitian ini berasal dari data individu dari hasil survei dengan jumlah sampel individu sebanyak 200 orang. Dari data tersebut diperoleh jumlah data individu yang terdiri dari 3 variabel, yaitu perokok dan riwayat kanker sebagai prediktor dan kanker paru sebagai variable respon.1.2 Variabel PenelitianDi mana variabel bebas ada 2 yaitu rokok dan riwayat kanker pada keluarga dan variabel terikatnya adalah kejadian kanker paru. Rokok terdiri dari 2 kategori yaitu "tidak merokok (kode 0)" dan "merokok (kode 1)." Riwayat terdiri dari 2 kategori yaitu "tidak ada riwayat (kode 0)" dan "ada riwayat (kode 1)." Kanker paru terdiri dari 2 kategori yaitu "tidak mengalami kanker (kode 0)" dan "mengalami kanker (kode 1)." Sebagai catatan: kategori yang terburuk diberi kode 1 dan kategori yang terbaik diberi kode 0. 1.3 Langkah AnalisisLangkah-langkah analisis yang digunakan dalam penelitian ini yaitu sebagai berikut:1. Melakukan analisis data dengan statistik deskriptif2. Melakukan uji independensi untuk semua variabel menggunakan uji pearson chi-square.3. Melakukan pengujian parameter secara serentak dan parsial untuk setiap variable4. Melakukan pemilihan model terbaik5. Melakukan uji kesesuaian model6. Melakukan uji ketepatan klasifikasi.7. Melakukan uji kesamaan dua model dalam regresi logistik biner.8. Melakukan estimasi parameter dari variabel yang signifikan
BAB IVHASIL DAN PEMBAHASANTabel Iteration History pada block Saat variabel independen tidak dimasukkan dalam model: N=200 mendapatkan Nilai-2 Log Likelihood: 276,939. DF = N - 1 = 200-1=199. Chi-Square (X2) Tabel Pada DF 199 dan Prob. 0.05 = 232,912. Nilai -2 Log Likelihood(276,939) > X2 tabel (232,912) sehingga menolak H0, maka menunjukkan bahwa model sebelum memasukkan variabel independen adalah tidak fit dengan data.Tabel Classifacation Table: Terlihat bahwa yang "Mengalami Kanker" sebanyak 104.,Sedangkan yang "Tidak mengalami Kanker" sebanyak 96 orang dari sebanyak 200 orang. Sehingga nilaioverall percentagesebelum variabel independen dimasukkan ke dalam model sebesar: 104/200 = 52,0%.Tabel Variables in The Equation: Saat sebelum variabel independen di masukkan ke dalam model. B dari Konstanta adalah sebesar 0,080 dengan Exp(B) sebesar 1,083. Nilai Signifikansi atau p value dari uji Wald sebesar 0,572 > dari nilai alfa 0,05 artinya konstanta tdk layak di masukkan dalam model.Tabel Iteration history Block 1 atau saat variabel independen dimasukkan dalam model: N=200. Degree of Freedom (DF) = N - jumlah variabel independen - 1 = 200-2-1=197. Chi-Square (X2) Tabel Pada DF 197 dan Prob 0.05 = 230,746.Nilai -2 Log Likelihood(207,575) < X2 tabel (230,746) sehingga menerima H0, maka menunjukkan bahwa model dengan memasukkan variabel independen adalah FIT dengan data. Hal ini berbeda denganBlock Beginningdi atas, di mana saat sebelum variabel independen dimasukkan ke dalam model, model tidak fit dengan data.Tabel omnibus tests of model coefficients: Tampak bahwa selisihnya (-2 Log likelihood sebelum variabel independen masukmodel:276,939dikurangi -2 Log likelihood setelah variabel independen masuk model:207,575= 69,364) adalahnilai chi-square69,394.Nilai X269,394> X2 tabel pada DF 2 (jumlah variabel independen 2) yaitu 5,991 atau dengan signifikansi sebesar 0,000 (< 0,05) sehingga menolak H0, yang menunjukkan bahwa penambahan variabel independen dapat memberikan pengaruh nyata terhadap model, atau dengan kata lain model dinyatakan fit.Sehingga jawaban terhadap hipotesis pengaruh simultan variabel independen terhadap variabel dependen adalah menerima H1 dan menolak H0 atau yang berarti ada pengaruh signifikan secara simultan merokok dan riwayat keluarga terhadap kejadian kanker paru oleh karena nilai p value Chi-Square sebesar 0,000 di mana < Alpha 0,05 atau nilai Chi-Square Hitung 69,364 > Chi-Square tabel 5,991.
Tabel model summary: Untuk melihat kemampuan variabel independen dalam menjelaskan variabeldependen, digunakan nilaiCox & Snell R SquaredanNagelkerke R Square.NilaiNagelkerke R Squaresebesar 0,391 danCox & Snell R Square0,293, yang menunjukkan bahwa kemampuan variabelindependendalam menjelaskan variabeldependenadalah sebesar 0,391 atau 39,1%danterdapat 100% - 39,1% = 60,9% faktor lain di luar model yang menjelaskan variabel dependen.Hosmer and Lemeshow Test adalah ujiGoodness of fit test (GoF), yaitu uji untuk menentukan apakah model yang dibentuk sudah tepat atau tidak. Dikatakan tepat apabila tidakada perbedaan signifikan antara model dengan nilai observasinya.NilaiChi Squaretabel untuk df 1 (Jumlah variabel independen - 1) pada taraf signifikansi 0,05 adalah sebesar 3,841. Karena nilaiChi Square Hosmer and Lemeshowhitung 13,671 > Chi Square table 3,841 atau nilai signifikansi sebesar 0,000 (< 0,05) sehingga H0 di tolak, yang menunjukkan bahwa model tidak dapat diterima dan pengujian hipotesis tidak dapat dilakukan sebabada perbedaan signifikan antara model dengan nilai observasinya. Karena nilai Hosmer and Lemeshow Test menolak H0, sebaiknya untuk membuat agar nilai Hosmer and Lemeshow Test menerima H0. Caranya adalah dengan mengubah model persamaan regresi logistik dengan menambahkan variabel interaksi antar variabel independen. Misal pada kasus di sini, dengan menambahkan variabel interaksi antara X1 dan X2. Untuk sementara, seolah-olah hasil uji Hosmer and Lemeshow Test menerima H0.TabelClassification Table: jumlah sampel yang tidak mengalami kanker 78 + 18 = 96 orang.Yang benar-benar tidak mengalami kanker sebanyak 78 orang dan yang seharusnya tidak mengalami kanker namun mengalami, sebanyak 18 orang. Jumlah sampel yang mengalami kanker 27 + 77 = 104 orang.Yang benar-benar mengalami kanker sebanyak 27 orang dan yang seharusnya mengalami kanker namun tidak mengalami, sebanyak 77 orang.Tabel di atas memberikan nilaioverall percentagesebesar (78+77)/200 = 77,5% yang berarti ketepatan model penelitian ini adalah sebesar 77,5%.
Variables in the Equation
BS.E.WalddfSig.Exp(B)
Step 1ax11.837.45516.3011.0006.277
x2.973.4524.6381.0312.645
Constant-1.214.24025.5781.000.297
a. Variable(s) entered on step 1: x1, x2.
Hipotesis:H0= koefisien regresi tidak signifikanH1= koefisien regresi signifikan.Semua variabel independen nilai P value uji wald (Sig) < 0,05, artinya masing-masing variabel mempunyai pengaruh parsial yang signifikan terhadap Y di dalam model. X1 atau merokok mempunyai nilai Sig Wald 0,000 < 0,05 sehingga menolak H0 atau yang berarti merokok memberikan pengaruh parsial yang signifikan terhadap kejadian kanker paru. X2 atau riwayat keluarga mempunyai nilai Sig Wald 0,031 < 0,05 sehingga menolak H0 atau yang berartiriwayat keluargamemberikan pengaruh parsial yang signifikan terhadap kejadian kanker paru.Besarnya pengaruh ditunjukkan dengan nilai EXP (B). Variabel Merokok dengan OR 6,277 maka orang yang merokok, lebih beresiko mengalami kanker paru sebanyak 6,277 kali lipat di bandingkan orangyang tidak merokok. Nilai B = Logaritma Natural dari 6,277 = 1,837. Variabel Riwayat Keluarga dengan OR 2,645 maka orang yang ada riwayat keluarga, lebih beresiko mengalami kanker paru sebanyak2,645kali lipat dibandingkan orangyang tidak ada riwayat keluarga. Nilai B = Logaritma Natural dari2,645= 0,973. Oleh karena nilai B bernilai positif, maka riwayat keluarga mempunyai hubungan positif dengan kejadian kanker.Berdasarkan nilai-nilai B pada perhitungan di atas, maka model persamaan yang dibentuk adalah sebagai berikut:g(X)= -1,214 + 1,837X1 + 0,973X2Atau bisa menggunakan rumus turunan dari persamaan di atas, yaitu:
Misalkan sampel yang merokok dan ada riwayat keluarga, maka merokok=1 dan riwayat keluarga=1. Jika dimasukkan ke dalam model persamaan di atas, maka sebagai berikut:
Karena probabilitas 0,8315 > 0,05 maka nilaiPredicted Group Membershipdari sampel di atas adalah 1. Di mana 1 adalah kode mengalami kanker. Jadi jika sampel merokok (kode 1) dan ada riwayat keluarga (kode 1) maka prediksinya adalah mengalami kanker (kode 1). Jika seandainya sampel yang bersangkutan ternyata faktanya tidak mengalami kanker (kode 0) maka sampel tersebut keluar dari nilai prediksi.
BAB VPENUTUP5.1 KesimpulanModel logit untuk data pengaruh rokok dan riwayat kanker terhadap kanker paru adalah sebagai berikut :Y= -1,214 + 1,837X1 + 0,973X2Merokok dan adanya riwayat keluarga yang menderita kanker mempunyai memberikan pengaruh yang signifikan terhadap terjadinya kanker paru. Dimana orang yang merokok, lebih beresiko mengalami kanker paru sebanyak 6,277 kali lipat di bandingkan orangyang tidak merokok dan orang yang ada riwayat keluarga, lebih beresiko mengalami kanker paru sebanyak2,645kali lipat dibandingkan orangyang tidak ada riwayat keluarga.
5.2 SaranDiharapkan agar kiranya untuk tidak merokok dan berada dekat dengan orang yang merokok, untuk mengurangi resiko terjadinya kanker paru.
LampiranData:No.X1X2YNo.X1X2Y
1.000101.111
2.010102.000
3.100103.111
4.111104.100
5.110105.111
6.000106.000
7.000107.010
8.111108.100
9.001109.111
10.010110.110
11.001111.000
12.110112.000
13.000113.001
14.110114.111
15.100115.001
16.110116.111
17.110117.111
18.111118.010
19.010119.111
20.110120.101
21.000121.111
22.000122.000
23.001123.010
24.111124.100
25.111125.111
26.111126.110
27.111127.000
28.000128.000
29.000129.111
30.111130.111
31.000131.111
32.111132.111
33.111133.000
34.111134.000
35.000135.111
36.011136.000
37.000137.111
38.111138.111
39.101139.111
40.110140.000
41.000141.011
42.111142.000
43.000143.111
44.001144.101
45.001145.110
46.000146.000
47.111147.111
48.001148.000
49.111149.001
50.000150.001
51.111151.000
52.111152.111
53.111153.001
54.000154.111
55.010155.000
56.001156.111
57.001157.111
58.100158.111
59.001159.000
60.000160.010
61.000161.001
62.000162.001
63.111163.100
64.111164.001
65.000165.000
66.000166.000
67.000167.000
68.111168.111
69.000169.111
70.111170.000
71.111171.000
72.000172.000
73.010173.111
74.111174.000
75.111175.111
76.111176.111
77.111177.000
78.000178.010
79.111179.111
80.000180.111
81.000181.111
82.000182.111
83.000183.000
84.001184.111
85.001185.000
86.000186.000
87.111187.000
88.010188.000
89.111189.001
90.000190.001
91.111191.000
92.001192.111
93.111193.010
94.001194.111
95.000195.000
96.000196.111
97.010197.001
98.100198.111
99.111199.001
100.110200.000
Case Processing Summary
Unweighted CasesaNPercent
Selected CasesIncluded in Analysis200100.0
Missing Cases0.0
Total200100.0
Unselected Cases0.0
Total200100.0
a. If weight is in effect, see classification table for the total number of cases.
Dependent Variable Encoding
Original ValueInternal Value
tidak mengalami kanker0
mengalami kanker1
Block 0: Beginning BlockIteration Historya,b,c
Iteration-2 Log likelihoodCoefficients
Constant
Step 01276.939.080
2276.939.080
a. Constant is included in the model.
b. Initial -2 Log Likelihood: 276.939
c. Estimation terminated at iteration number 2 because parameter estimates changed by less than .001.
Classification Tablea,b
ObservedPredicted
yPercentage Correct
tidak mengalami kankermengalami kanker
Step 0ytidak mengalami kanker096.0
mengalami kanker0104100.0
Overall Percentage52.0
a. Constant is included in the model.
b. The cut value is .500
Variables in the Equation
BS.E.WalddfSig.Exp(B)
Step 0Constant.080.142.3201.5721.083
Variables not in the Equation
ScoredfSig.
Step 0Variablesx161.1911.000
x250.2611.000
Overall Statistics64.6052.000
Block 1: Method = EnterIteration Historya,b,c,d
Iteration-2 Log likelihoodCoefficients
Constantx1x2
Step 11208.765-1.0771.621.790
2207.580-1.2081.823.962
3207.575-1.2141.837.973
4207.575-1.2141.837.973
a. Method: Enter
b. Constant is included in the model.
c. Initial -2 Log Likelihood: 276.939
d. Estimation terminated at iteration number 4 because parameter estimates changed by less than .001.
Omnibus Tests of Model Coefficients
Chi-squaredfSig.
Step 1Step69.3642.000
Block69.3642.000
Model69.3642.000
Model Summary
Step-2 Log likelihoodCox & Snell R SquareNagelkerke R Square
1207.575a.293.391
a. Estimation terminated at iteration number 4 because parameter estimates changed by less than .001.
Hosmer and Lemeshow Test
StepChi-squaredfSig.
113.6711.000
Contingency Table for Hosmer and Lemeshow Test
y = tidak mengalami kankery = mengalami kankerTotal
ObservedExpectedObservedExpected
Step 116670.1602520.84091
22011.680513.32025
31014.1607469.84084
Classification Tablea
ObservedPredicted
yPercentage Correct
tidak mengalami kankermengalami kanker
Step 1ytidak mengalami kanker781881.3
mengalami kanker277774.0
Overall Percentage77.5
a. The cut value is .500
Correlation Matrix
Constantx1x2
Step 1Constant1.000-.255-.333
x1-.2551.000-.643
x2-.333-.6431.000
Daftar Pustakahttp://lpkeperawatan.blogspot.com/2014/01/laporan-pendahuluan-ca-paru-kanker-paru.html#.VVh20Lntmkohttp://kesehatan.kompasiana.com/medis/2014/04/14/kanker-paru-tidak-semurah-harga-rokok-647582.htmlhttp://repository.usu.ac.id/bitstream/123456789/25643/5/Chapter%20I.pdfhttp://www.statistikian.com/2015/02/regresi-logistik.html