generalized linear models (logistic regression)
Post on 20-Jun-2015
328 Views
Preview:
TRANSCRIPT
GENERALIZED LINEAR MODELS
INDAH NURINA
10110094
DATA
Data asuransi kendaraan bermotor dengan jangka waktu 1 tahun. Berisi 67856 polis, 4624(6.8%) diantaranya memiliki setidaknya 1 claim(Generalized Linear Models for Insurance Data, Piet de Jong dan Gillian
Z. Heller )
Variables:1. Veh_value: Vehicle value (harga kendaraan)2. Clm: occurence of claim (mengajukan klaim/tidak)3. Veh_body: vehicle body (tipe kendaraan)4. Area: Area tempat tinggal pengemudi5. Agecat: Kategori usia pengemudi
Diketahui data Exposure dari masing-masing polis
PEMILIHAN VARIABEL RESPON
Clm (occurence of claim) sebagai variabel respon
(termasuk variabel kategorikal)
Binary outcome ( can take only one of two value 0=No 1=Yes)
Sifat distribusi bernoulli: hanya memiliki 2 kemungkinan (2 mutually exclusive and exhaustive ways)
Clm berdistribusi B(1,π)
Jumlah observasi = jumlah polis= 67856
Tujuan: Mengetahui probabilitas seseorang yang memiliki
karakteristik tertentu untuk mengajukan claim
REGRESI MENGGUNAKAN GLM
• Distribusi Respon (clm) berasal dari distribusi
keluarga eksponensial
• Transformasi dari mean respon (clm) linear
terhadap variabel-variabel prediktornya.
DISTRIBUSI BERNOULI SEBAGAI ANGGOTA KELUARGA DISTRIBUSI EKSPONENSIAL
Bentuk distribusi keluarga eksponensial
Misal y=clm (occurrence of claim), y~B(1,π)
Note slide sebelumnya
• Choice a(theta) determine the actual probability
function----habis menetapkan distribu, taksir
parameter miu dan variansi dari sampel.
(metode momen) atau pake mle, kan y i nya iid.
• Fungsi Variansi (relationship between
variance and mean). Mean kan bervariasi
sesuai eksplanatori variables, karena mean nya
bervariasi, begitu juga variansinya. Mereka
dihubungkan melalui fungsi variansi.
Pemilihan Fungsi Link
• Link kanonik untuk distribusi binomial
Sehingga untuk bernoulli:
Nilai π yang dipilih:
Probability bahwa clm bernilai 1 (Yes)
Note slide sebelumnya
• Link kanonik g(miu)=theta-- parameter
kanonik tujuan buat menyimpelkan estimasi
• Link logit memastikan bahwa pi berada di
interval 0,1 untuk semua x dan beta
Predictor 1
1. Veh_value (vehicle value, in $10,000s)
Jenis variabel: Kontinu
Predictor 1
1. Veh_value (vehicle value, in $10,000s)
Hubungan dengan variabel respon
Predictor
1. Veh_value (vehicle value, in $10,000s)
Hubungan dengan variabel respon:
Penjelasan gambar slide sebelumnya
• Scatter plot smoother menunjukkan hubungan
yang tidak linier. Terlihat bahwa mngkn
hubungannya kuadratik atau kubik
• Ini buat memenuhi asumsi kelinearan antara
fungsi dr respon dengan prediktor
• Model kuadratik punya kelemahan di oddnya.
• Nilai AIC paling kecil g menjamin model paling
oke harus di fit
Banding Vehicle Value
clmvalue(vehicle valuecategory)
1 2 3 4 5 6
0 0,756529 0,155476 0,017287 0,001474 0,000619 0,000472
1 0,053584 0,013101 0,001356 5,89E-05 2,95E-05 1,47E-05
Predictor 2
Veh_body (vehicle body/tipe kendaraan)
Jenis variabel: Kategorikal 1. BUS
2. CONVT = convertible
3. COUPE
4. HBACK = hatchback
5. HDTOP = hardtop
6. MCARA = motorized caravan
7. MIBUS = minibus
8. PANVN = panel van
9. RDSTR = roadster
10. SEDAN
11. STNWG = station wagon
12. TRUCK
13. UTE - utility
Predictor
3. Agecate (kategori usia)
Jenis variabel: Kategorikal
1 2 3 4 5 6
clmAge Category
1 2 3 4 5 6
0 0,077311 0,176005 0,215957 0,222309 0,149169 0,091105
1 0,00731 0,013735 0,016402 0,01627 0,009049 0,005379
Predictor
4. Area (Area tinggal pengemudi)
Jenis variabel: Kategorikal
A B C D E F
clmArea
1 2 3 4 5 6
0 0,224402 0,182386 0,281891 0,113137 0,081437 0,048603
1 0,01599 0,014221 0,020809 0,00731 0,005689 0,004126
Pemilihan Base Level
12 var
5 var
5 var
5 var agecat1 2 3 4 5 6
5742 12875 15767 16189 10736 6547
areaA B C D E F
16312 13341 20540 8173 5912 3578
veh_body
BUS CONVT COPUE HBACK HDTOP MCARA MIBUS
48 81 780 18915 1579 127 717
PANVN RDSTR SEDAN STNWG TRUCK UTE
752 27 22233 16261 1750 4586
valuecat1 2 3 4 5 6
54971 11439 1265 104 44 33
Full model
STEPWISE REGRESSION-WITHOUT EXPOSURE
Agecat entered
STEP 1
AIC = -2 Log L + 2((k-1) + s)
Memberikan Penalti
Likelihood ratio: -2 Log L(null model) - 2 Log L(fitted model)
STEPWISE REGRESSION-WITHOUT EXPOSURE
Veh_body entered
STEP 2
Odds:
Penjelasan slide sebelumnya
• Chi square: Ngetes 1 variabel dengan asumsi
variabel lainnya di step tersebut ada di dlm
model. Distribusi chi square karena variansi
heteroskedastik. Kalo p value sama2 kecil, lihat
nilai score chi square. Significantly different
from 0.
• Yang diuji beta j-0/ variansi beta j. H0: C.Beta
=0 H1: C.Beta tdk=0
• AIC k=jumlah level prediktor s=jumlah prediktor
• Score Chi-Square Test : at least one of the
predictors' regression coefficient is not equal to
zero in the model
STEPWISE REGRESSION-WITHOUT EXPOSURE
STEPWISE REGRESSION-WITHOUT EXPOSURE
Analysis of effect eligible
for enty
Testing global null hipotesis
MLE of Parameter
Odd ratio Estimate
Analysis of effect eligible for removal
STEPWISE REGRESSION SUMMARY-WITHOUT EXPOSURE
STEPEffect
EnteredAIC
0 intercept33.768.78
9
1 agecat33.707.66
8
2 veh_body33.691.34
6
3 valuecat33.684.21
4
4 area33.680.35
6
STEPWISE REGRESSION SELECTED MODEL-WITHOUT EXPOSURE
STEP Effect Entered AIC
0 intercept 33.768.789
1 agecat 33.707.668
2 veh_body 33.691.346
3 valuecat 33.684.214
4 area 33.680.356
Sensitivity: Frekuensi relatif dari memprediksi sebuah kejadian
(claim) ketika kejadian tersebut terjadi
Specificity:Frekuensi relatif dari memprediksi tidak terjadinya
sebuah kejadian ketika kejadian (claim)
tersebut memang tidak terjadi
STEPWISE REGRESSION SELECTED MODEL-WITHOUT EXPOSURE
STEPWISE REGRESSION SELECTED MODEL-WITHOUT EXPOSURE
Hasil Regresi:
Considering the exposure
Exposure (t) : proporsi yang menunjukkan perbandingan jangka waktu polis yang terekspose terhadap jangka waktu polis yang seharusnya.
Clm berdistribusi B(1,π)
Clm berdistribusi B(1,tπ)
EKSPOSURE
Definisikan
Sehingga fungsi inversnya:
note
• Nilai pi bintang akan tetap berada di interval 0 1
karena t kan proporsii..
REGRESSION-WITH EXPOSURE
REGRESSION-WITH EXPOSURE
Hasil Regresi
KESIMPULAN
STEP Effect Entered AIC
0 intercept 33.768.789
1 agecat 33.707.668
2 veh_body 33.691.346
3 valuecat 33.684.214
4 area 33.680.356
Without Exposure With Exposure
top related