ordinal regression

Post on 06-Feb-2016

167 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

ORDINAL REGRESSION. KELOMPOK 4 / 3SE1 AKBAR DARMAWAN BAKRI MALIK AHMAD ISMAEL IDHO NAJIBULAH Y. S. KARINA ASTUTI SUNDARI TIARA SETYATI. Seorang kreditor ingin mengetahui apakah peminjam memiliki risiko kredit yang baik Telah diketahui beragam informasi keuangan dan pribadi peminjam - PowerPoint PPT Presentation

TRANSCRIPT

ORDINAL REGRESSIONKELOMPOK 4 / 3SE1•AKBAR DARMAWAN•BAKRI MALIK AHMAD ISMAEL•IDHO NAJIBULAH Y. S.•KARINA ASTUTI•SUNDARI•TIARA SETYATI

Menggunakan Regresi Ordinal dalam Credit scoring model

Seorang kreditor ingin mengetahui apakah peminjam memiliki risiko kredit yang baik

Telah diketahui beragam informasi keuangan dan pribadi peminjam

Dari database nasabah, kreditor menetapkan variabel respon “status account ” dalam lima kategori yaitu :

Tidak ada catatan hutang Tidak sedang berhutang Sedang dalam proses pembayaran hutang Melewati jatuh tempo pembayaran hutang Kritis / Memiliki catatan buruk di Bank

Variabel Prediktor terdiri dari : Usia Banyak kredit di bank Tipe Rumah Jangka waktu berhutang (dalam bulan) Hutang lain yang menjadi tanggungan

Data yang Digunakansampel SPSS : german_credit.sav

Running Data

Klik Analyze >> Regression >> Ordinal

Running Data

• Isikan Variabel Dependen “Account Status”

• Masukkan Variabel kategorik dalam Kotak Factor(s)

• Banyak kredit di bank• Tipe Rumah• Hutang lain yang menjadi

tanggungan• Masukkan Variabel non Kategorik sebagai

kovariat• Usia• Jangka Waktu Pinjaman

Running Data

Pada menu output, centang “Test of parallel lines” untuk mengetahui apakah semua parameter data kategorik memiliki slope/parameter sama

HasilDari hasil, muncul peringatan bahwa terdapat 78,3% cell yang berfrekuensi nol.

Sedangkan tabel di bawah menunjukkan ringkasan data yang diolah.Semua data valid untuk digunakan.

HasilMelalui tabel Model Fitting Information, kita dapat mengetahui apakah model dengan prediktor (model final) memberikan pengaruh yang signifikan terhadap model yang hanya menggunakan intercept saja.Dari tabel di samping, terlihat bahwa p-value kurang dari 0,05; sehingga dapat disimpulkan bahwa model dengan prediktor memberikan hasil yang lebih baik daripada model dengan intercept saja.

Pengujian ini bertujuan untuk menguji apakah data yng diobservasi tidak konsisten dengan model yang di-fitkan. Jika nilai p-value besar, maka dapat disimpulkan bahwa data dan prediksi dari model mirip => model yang dibuat baik.Tetapi karena terdapat banyak sel-sel yang kosong, sehingga tidak dapat dipastikan apakah statistik mengikuti dist. Chi square, memungkinkan nilai p-value yang didapatkan tidak akurat.

HasilPendekatan nilai R2 dengan menggunakan berbagai metode menghasilkan nilai yang tidak terlalu besar. Yang dapat diartikan bahwa variabel respon yang dijelaskan variabel-variabel prediktor tidak terlalu besar.

Terlihat bahwa variabel prediktor yang signifikan mempengaruhi variabel respon adalah:•Jangka waktu berhutang•Usia•Banyak hutang =1•Hutang lain yang menjadi tanggungan

Hasil

Dari pengujian Parallel Lines di atas, telihat bahwa p-value signifikan, dapat disimpulkan bahwa parameter lokasi (koef. slope) tidak sama untuk semua kategori respon. Sehingga asumsi bahwa parameter sama untuk semua kategori tidak berlaku.

Persamaan dan Interptretasi𝑙𝑛𝑃( ≤0/ ( >0)=𝑌 𝑃 𝑌 -4,631-0,011duration+0,0163age-2,007numcred-1,0384othstal-0,188housng

Interpretasi:•Tanda (-) pada variabel duration berarti peminjam yang memiliki jangka waktu berhutang lebih lama memiliki kecenderungan lebih kecil untuk memiliki status account “tidak ada catatan hutang” (dibandingkan minimal status account “kritis”).

•Tanda (-) pada variabel numcred berarti peminjam yang memiliki hutang sebanyak 1, cenderung lebih kecil untuk memiliki status account “tidak ada catatan hutang” (dibandingkan minimal status account “kritis”).

•Tanda (-) pada variabel othstal berarti peminjam yang memiliki hutang lain di bank (kategori 1) memiliki kecenderungan lebih kecil untuk memiliki status account “tidak ada catatan hutang” (dibandingkan minimal status account “kritis”).

•Tanda (-) pada variabel housng berarti peminjam yang status perumahannya sewa (kategori 1) memiliki kecenderungan lebih kecil untuk memiliki status account “tidak ada catatan hutang” (dibandingkan minimal status account “kritis”).

Persamaan dan Interptretasi (2)•Koef. Variabel duration = -0,011, berarti peminjam yang memiliki jangka waktu berhutang lebih lama memiliki kecenderungan sebesar 0,989 untuk memiliki status account “tidak ada catatan hutang” (dibandingkan minimal status account “kritis”).

•Koef. Variabel age = 0,016, peminjam yang memiliki usia lebih tua memiliki kecenderungan 1,016 untuk memiliki status account “tidak ada catatan hutang” (dibandingkan minimal status account “kritis”).

•Koef. Variabel numcred = -0,2007, berarti peminjam yang memiliki hutang sebanyak 1 (kategori 1) memiliki kecenderungan 0,134 untuk memiliki status account “tidak ada catatan hutang” (dibandingkan minimal status account “kritis”).

•Koef. Variabel othstal = -1,038, berarti peminjam yang memiliki pinjaman lain di bank (kategori 1) memiliki kecenderungan 0,354 untuk memiliki status account “tidak ada catatan hutang” (dibandingkan minimal status account “kritis”).

•Koef. Variabel housng = -0,188, berarti peminjam yang memiliki status perumahan sewa (kategori 1) memiliki kecenderungan 0,828 untuk memiliki status account “tidak ada catatan hutang” (dibandingkan minimal status account “kritis”).

Kelompok 1 :

Alzira Doutel Ayu Paramudita Fanisa Dwita Hanggarani Hari Akhiardy Tofri Rezky Mayda Putri Rizki Tri Anggara

Sebuah studi bertujuan untuk melihat faktor-faktor yang mempengaruhi Confidence in Education. Variabel yang di teliti meliputi : Get news from newspapers, Get news from news magazines, Get news from televisions, Get news from radios, dan Get news from internets.

Analisis Logistik Ordinal dgn SPSS

Case Processing Summary

Marginal Percentage bernilai 100% menunjukkan semua data valid digunakan.

Model Fitting Information

Nilai significant sebesar 0,000 < α (α=5 %), menunjukkan bahwa model dengan variabel bebas lebih baik dari model tnpa variabel bebas.

Goodness of Fit

Ho : Model yang digunakan cocok.H1 : Model yang digunakan tidak cocok.

Hasil menunjukkan bahwa nilai significant atau p-value > α, yg berarti model regresi telah cocok.

Pseudo R-Square

Pada hasil terlihat nilai seperti pada OLS.

Parameter Estimates

Get news from newspapers dan Get news from internet significant mempengaruhi Confidence Education.

Test of Parallel Lines

Tujuan dari Test of Parallel Lines adalah untuk menguji apakah koefisien slope sama untuk semua kategori variabel respon.Ho : Koefisien slope sama untuk semua variabel respon.H1 : Koefisien slope tidak sama untuk semua variabel respon.

KELOMPOK 2

• ALIFIA NIDYA HAPSARI (11.6530)

• FARIDATUN NIHAYAH (11.6659)

• EMILIA ANISA (11.6637)

• M. FIKRI ANWAR (11.6792)

• RAISSA SAMANTHA H (11.6851)

• RISMA KARLIA (11.6870)

Regresi Logistik OrdinalData :α = 0,05

Sumber : 1991,General Social Survey

Jenis Kelamin

Pendapatan Kepuasan Pekerjaan(dollars) Sangat

Tidak PuasAgak Tidak

PuasAgak Puas Sangat Puas

Perempuan

<5.000 1 3 11 2

5.000-15.000 2 3 17 3

15.000-25.000 0 1 8 5

>25000 0 2 4 2

Laki-laki

<5.000 1 1 2 1

5.000-15.000 0 3 5 1

15.000-25.000 0 0 7 3

>25.000 0 1 9 6

Variabel Dependent (Respon) : • Kepuasan pekerjaan (Job)

1 = Sangat tidak puas (very dissatisfied)2 = Agak tidak puas ( A little satisfied)3 = Agak puas (moderately satisfied)4 = Sangat puas (very satisfied)

Variabel Independent (Predictors) : • Jenis Kelamin(Gender)

0 = laki-laki (male)1 = perempuan (female)

• Pendapatan (Income)1 = < 5.0002 = 5.000 – 15.0003 = 15.000 – 25.0004 = > 25.000

Output

Semua data valid

Case Processing Summary

    NMarginal

PercentageJob very dissatified 4 3.8%

a little satisfied 14 13.5%moderately satisfied 63 60.6%very satisfied 23 22.1%

Gender male 40 38.5%female 64 61.5%

Income <5000 22 21.2%5000-15000 34 32.7%15000-25000 24 23.1%>25000 24 23.1%

Valid 104 100.0%Missing 0  Total 104  

Output (2)

H0 : Model dengan variabel bebas dan tanpa variabel bebas(hanya intersep) sama baiknya

H1 : Model dengan variabel bebas lebih baik daripada tanpa variabel bebas(hanya intersep)

Nilai sig. sebesar 0.038 < α (0,05) menunjukkan bahwa model dg variabel bebas lebih baik dari model tanpa variabel bebas (hanya intersep).

Model Fitting Information

Model -2 Log Likelihood Chi-Square df Sig.Intercept Only 62.833      Final 52.665 10.168 4 .038

Link function: Logit.      

Output (3)

H0 : Model yang digunakan dapat menjelaskan variabel bebasH1 : Model yang digunakan belum dapat menjelaskan variabel bebas

Karena kedua nilai sig. > α (0,05) maka model yang digunakan dapat menjelaskan variabel bebas

Goodness-of-Fit

  Chi-Square df Sig.Pearson 10.569 17 .878

Deviance 10.505 17 .881

Link function: Logit.  

Output (4)

• Merupakan perkiraan/pendekatan untuk R2 seperti pada regresi OLS pada model non linier. (pada model non linier tidak bisa dihitung R2 scr langsung spt pada model regresi OLS).

• Untuk nilai cox and snell : variabel predictors dapat menjelaskan variasi dari variabel respon sebesar 9,3%

Pseudo R-Square

Cox and Snell.093

Nagelkerke.107

McFadden.047

Link function: Logit.

Output (5)

Beberapa persamaan : • 𝑙𝑛()=-3,956+0,029gender-1,231Pendapatan(1)• 𝑙𝑛()=-2.254+0,029gender-1,231Pendapatan(1)

Parameter Estimates

   Estimate Std. Error Wald df Sig.

95% Confidence Interval

    Lower Bound Upper Bound

Threshold [Job = 1] -3.956 .720 30.225 1 .000 -5.367 -2.546

[Job = 2] -2.254 .563 16.003 1 .000 -3.358 -1.150

[Job = 3] .812 .503 2.603 1 .107 -.174 1.798

Location [Gender=0] .029 .428 .005 1 .945 -.810 .869

[Gender=1] 0a . . 0 . . .

[Income=1] -1.231 .639 3.709 1 .054 -2.484 .022

[Income=2] -1.131 .580 3.809 1 .051 -2.268 .005

[Income=3] .218 .582 .140 1 .708 -.922 1.357

[Income=4] 0a . . 0 . . .

Link function: Logit.              a. This parameter is set to zero because it is redundant.        

Output (6)

H0 : koefisien slope paralelH1 : koefisien slope tidak paralel

Karena nilai sig. 0,892 > α (0,05) maka koefisien adalah paralel atau sama untuk setiap kategori variabel respon sehingga modelnya benar

Test of Parallel Linesa

Model -2 Log Likelihood Chi-Square df Sig.Null Hypothesis 52.665      General 49.069 3.596 8 .892

The null hypothesis states that the location parameters (slope coefficients) are the same across response categories.

a. Link function: Logit.      

MODEL REGRESI LOGISTIK ORDINAL

KELOMPOK 3

Contoh :

Seorang mahasiswa STIS melakukan suatu penelitian yang bertujuan untuk mengetahui faktor-faktor yang dapat mempengaruhi minat belajar mahasiswa pada semester 2. Studi ini dilakukan pada 20 orang mahasiswa. Penilaian terhadap minat tersebut dikualifikasikan menjadi tidak minat,minat dan minat sekali. Beberapa variabel yang awalnya yang dinilai dapat mempengaruhi minat belajar mahasiswa tersebut adalah jenis kelamin,IPK semester 1 dan ikut tidaknya mahasiswa pada kegiatan non akademik.

Variabel-variabel1. Dependent : Minat belajar mahasiswatidak minat (0)minat (1)minat sekali (2)2. Independent : - Jenis kelamin perempuan (0)laki-laki (1)- IP semester 1 (kuantitatif)- kegiatan non akademiktidak ikut (0)ikut (1)

Hasil dan Pembahasan (SPSS)

1

Berdasarkan output SPSS di atas,nilai valid 100% menyatakan bahwa data-data yang ada valid dan dapat dapat diteliti lebih lanjut.

Pemilihan modelHipotesisH0: Model tanpa variabel bebasH1: Model dengan varibel bebas

α = 5 %

Berdasarkan output SPSS di atas,nilai signifikan 0,007 dimana lebih kecil dari nilai α (0,05) berarti keputusannya menolak H0 , yang menunjukkan bahwa model dengan variabel bebas lebih baik daripada model tanpa variabel bebas.

KECOCOKAN MODELHipotesisH0 : Model cocokH1 : Model tidak cocokα=5%

Berdasarkan output SPSS diatas,nilai signifikannya lebih besar dari nilai α,yang berarti model yang digunakan cocok.

Hasil output SPSS di atas merupakan beberapa nilai perkiraan/pendekatan untuk   seperti pada regresi OLS pada model non linier. (pada model non linier tidak bisa dihitung R2 scr langsung spt pada model regresi OLS). Dari output tersebut terlihat bahwa besarnya pengaruh variabel2 independent terhadap variasi dari variabel dependent adalah 45,1% dan sisanya di pengaruhi oleh faktor lain.

Jenis kelamin,IP semester 1 dan keikutsertaan dalam kegiatan non akademik signifikan (pd α = 5%) mempengaruhi minat belajar mahasiswa pada semester 2.

Test of Parallel LinesHipotesisHo : koefisien slopenya sama H1: koefisien slopenya tidak sama

Berdasarkan output SPSS di atas,nilai signifikan lebih besar dari nilai α (0,05),yaitu menerima Ho dimana slope yang digunakan adalah berdasarkan kategori yang cocok atau koefisien yang digunakan sama.

PENULISAN PERSAMAAN DAN INTERPRETASIPersamaan regresi logistik ordinal:

( ≤0/ ( >0)=14,062−1,135 jeniskelamin-0,439kegnonakdmik 𝑙𝑛𝑃 𝑌 𝑃 𝑌+4,675IPKs1

( ≤1/ ( >1)=17,931−1,135jeniskelamin-𝑙𝑛𝑃 𝑌 𝑃 𝑌0,439kegnonakdmik+4,675IPKs1

interpretasi:- mahasiswa pada semester 2 yang memiliki minat belajar tersebut lebih besar exp(3,869) kali dibandingkan mahasiswa yang yang tidak memiliki minat belajar ,dengan tanpa dipengaruhi oleh faktor lain.- tanda (-) pada variabel jenis kelamin berarti mahasiswa yang bejenis kelamin perempuan cenderung lebih besar exp(-1,135)kali minatnya untuk belajar dibandingkan dengan mahasiswa yang berjenis kelamin laki-laki.- tanda (-) pada variabel aktif dalam kegiatan non akademik berarti mahasiswa yang tidak mengikuti kegiatan non akademik minatnya untuk belajar cenderung lebih besar exp(-0,439)kali dibandingkan dengan mahasiswa yang mengikuti kegiatan non akademik. -Tanda (+) pada variabel IP semester 1 berarti semakin besar nilai IP mahasiswa pada semester 1 maka semakin besar pula minat mahasiswa untuk belajar pada semester 2.

TERIMA KASIH

ANALISIS DATA KATEGORIK

MODEL REGRESI LOGISTIK ORDINAL

Kelompok 51. Adelina Namira2. Amelia

Tangdilambi3. Friska S4. Resti Deni Mira5. Teguh Haryono6. Ulfa

CONTOH SOALSebuah studi bertujuan untuk melihat faktor-faktor yang mempengaruhi 30 mahasiswa mudah terkena penyakit selama sebulan terakhir (masing-masing berkode 0=sangat sering, 1=sering, 2=jarang, dan 3=tidak pernah). Variabel yang diteliti ialah banyaknya konsumsi vitC (gram), jumlah jam istirahat, bnyaknya makan nasi per hari (kali), dan jam istirahat malam (masing-masing berkode 0 untuk ≤ pukul 20.00, 1 untuk 20.01-22.00, 2 untuk 22.01-24.00, 3 untuk 00.01-02.00, dan 4 untuk > 02.00)

DATA

OUTPUT

- Valid 100% menyatakan semua data valid

- Pada final terdapat signifikansi sebesar 0.031, yang menyatakan kurang dari alpha 0.05, sehingga menunjukkan bahwa model dengan variabel bebas lebih baik daripada model tanpa variabel bebas

- Untuk menguji hipotesis:Ho: Model cocok vs H1: model tidak cocokHasil menunjukkan terima Ho karena nilai sig p-value > alpha (0.05) yang berarti model regresi cocok

OUTPUT (LANJUTAN)- Nilai Pseudo R-square

merupakan perkiraan/pendekatan untuk Rsquare seperti pada regresi OLS pada model non linear.

- Terdapat banyak jenis pseudo Rsquare, dan masing-masing akan memberikan nilai perkiraan yang berbeda

- Pada nilai parameter estimasi, hanya variabel vitC yang signifikan mempengaruhi seorang mahasiswa terkena penyakit

- Untuk test of parallel lines: Ho: koefisien slope sama untuk setiap kategori variabel respon H1: koefisien slope tidak sama untuk setiap kategori variabel responKeputusan: sig > 0.05. maka terima Ho atau koefisen slope sama untuk setiap kategori variabel respon

PENULISAN PERSAMAANPersamaan regresi logistik ordinal:

ln = 7,029-0,274X1-0,656X2-0,351X3+2,046X40+0,633X41-1,254X42

ln = 8,119-0,274X1-0,656X2-0,351X3+2,046X40+0,633X41-1,254X42

ln = 9,561-0,274X1-0,656X2-0,351X3+2,046X40+0,633X41-1,254X42

ln = 10,469-0,274X1-0,656X2-0,351X3+2,046X40+0,633X41-

1,254X42

INTERPRETASIKoefiesien variabel vitC = -0,274, berarti konsumsi vitC (per gram) mengakibatkan kecendrungan pengaruh sebesar 0.76 kali lebih besar daripada variabel lainnya terhadap menyebabkan penyakit

Koefiesien variabel rata2 jumlah jam tidur = -0,656, berarti rata2 jmlh jam tidur mengakibatkan kecendrungan sebesar 0.519 kali lebih besar dari pada variabel lainnya untuk menyebabkan penyakit

Koefiesien variabel rata2 bnyak makan nasi= -0,351, berarti rata2 bnyak makan nasi mengakibatkan kecendrungan sebesar 0.703 kali lebih besar dari pada variabel lainnya untuk menyebabkan penyakit

INTERPRETASI (LANJUTAN)Koefisien variabel rata2 jam tidur malam pada ≤ pukul 20.00 = 2,046, berarti seseorang yg memiliki rata2 jam tidur ≤ 20.00 memiliki kecendrungan 7,7368 kali lebih besar dibandingkan yang memiliki jam tidur lainnya.

Koefisien variabel rata2 jam tidur malam pada antara pukul 20.01 – 22.00 = 0,633, berarti seseorang yg memiliki rata2 jam tidur antara pukul 20.01 – 22.00 memiliki kecendrungan 1,883 kali lebih besar dibandingkan yang memiliki jam tidur lainnya.

Koefisien variabel rata2 jam tidur malam pada antara pukul 22.01 – 24.00 = -1,254, berarti seseorang yg memiliki rata2 jam tidur antara pukul 22.01 – 24.00 memiliki kecendrungan 0,285 kali lebih besar dibandingkan yang memiliki jam tidur lainnya.

DEWI MAULIZARESTERIA SIAGIAN

JULMIATIMUH. SYAIFULYESDI CALVIN

KELOMPOK 6

Data

Hasil outputWarningsThere are 357 (54,1%) cells (i.e., dependentvariable levels by combinations of predictorvariable values) with zero frequencies.

Menunjukan data kuantitatif/kontinu

Hasil outputCase Processing Summary

   N

Marginal Percentage

apply tidak ingin 220 55,0%keinginan kuat

140 35,0%

sangat kuat 40 10,0%

Valid 400 100,0%Missing 0  Total 400  

Menunjukan semua data valid

Model Fitting InformationModel -2 Log Likelihood Chi-Square df Sig.Intercept Only

557,272

     

Final

533,091 24,180 3 ,000

Sig 0,000 menunjukkan model dengan variabel variabel bebas lebih baik daripada tanpavariabel bebas

Nilai sig lebih besar dari 5%, berarti model regresi cocok

Goodness-of-Fit

 Chi-Square df Sig.

Pearson 400,843 435 ,878

Deviance 400,749 435 ,879

Pseudo R-SquareCox and Snell ,059

Nagelkerke ,070

McFadden ,033

Pared dan gpa signifikanmempengaruhi keinginan melanjutkan studi

Parameter Estimates   

Estimate Std. Error Wald df Sig.

95% Confidence Interval

    Lower Bound

Upper Bound

Threshold [apply = ,00]

2,203 ,784 7,890 1 ,005 ,666 3,741

[apply = 1,00]

4,299 ,809 28,224 1 ,000 2,713 5,885

Location pared 1,048 ,268 15,231 1 ,000 ,522 1,574public -,059 ,289 ,041 1 ,839 -,624 ,507gpa ,616 ,263 5,499 1 ,019 ,101 1,130

Test of Parallel Linesa

Model-2 Log

Likelihood Chi-Square df Sig.Null Hypothesis

533,091

     

General 529,077 4,014 3 ,260

top related