bab ii tinjauan pustaka 2.1 pengeluaran per kapita
TRANSCRIPT
10
BAB II
TINJAUAN PUSTAKA
2.1 Pengeluaran Per kapita
Besarnya pendapatan per kapita dapat menggambarkan kesejahteraan suatu
masyarakat. Namun data pendapatan yang akurat sulit diperoleh, sehingga dalam
kegiatan susenas data ini didekati melalui pengeluaran per kapita (BPS, 2010).
Pengeluaran per kapita menunjukkan besarnya pengeluaran setiap anggota
rumah tangga dalam kurun waktu satu bulan (BPS, 2008). Maksud dari rumah
tangga sendiri adalah sekelompok orang yang mendiami sebagian atau seluruh
bangunan fisik dan biasanya tinggal bersama serta makan dari satu dapur. Dimana
pengeluaran per kapita dipengaruhi oleh pendapatan per kapita dipengaruhi oleh
pendapatan per kapitanya. Asumsi ini menjelaskan pada saat pendapatan seseorang
semakin meningkat maka semakin tinggi pula pengeluarannya.
Berdasarkan pedoman pecacah modul konsumsi SUSENAS 2002, dalam
sensus pengeluaran per kapita merupakan pengeluaran untuk rumah tangga/anggota
rumah tangga saja, tidak termasuk pengeluaran untuk keperluan usaha rumah
tangga, atau yang diberikan kepada orang lain. Untuk konsumsi makanan, baik
banyaknya (kuantitas) maupun nilainya yang dicatat adalah betul-betul telah
dikonsumsi selama referensi waktu survey (consumption approach), sedangkan
untuk bukan makanan konsep yang dipakai pada umumnya adalah konsep
pembelian (delivery approach), yaitu dicatat sebagai pengeluaran pada waktu
barang tersebut dibeli/diperoleh, asalkan tujuannya untuk kebutuhan rumah tangga.
Pengeluaran per kapita biasa dirumuskan sebagai berikut:
http://repository.unimus.ac.id
11
y = 𝑃
𝑞
dimana:
y = pengeluaran per kapita
p = pengeluaran rumah tangga sebulan
q = jumlah anggota rumah tangga
(Fausi, 2011)
2.2 Survei Sosial Ekonomi Nasional (SUSENAS)
Susenas merupakan survey yang dirancang untuk mengumpulkan data sosial
kependudukan yang relative sangat luas. Susenas merupakan salah satu survey
yang rutin dilakukan oleh Badan Pusat Statistik (BPS). Melalui Susenas
dikumpulkan data yang berkaitan dengan kondisi sosial ekonomi masyarakat
meliputi kondisi kesehatan, pendidikan, fertilitas, keluarga berencana, perumahan,
dan kondisi sosial ekonomi lainnya. Adapun tujuan penyelenggara susenas antara
lain:
1. Menyediakan data yang berkaitan dengan kondisi social ekonomi
masyarakat meliputi kondisi kesehatan, pendidikan, fertilitas, keluarga
berencana, perumahan dan kondisi sosial ekonomi lainnya. Data dan
indikator dari susenas telah dipergunakan secara luas dan dipandang
sebagai salah satu bukti penting yang dapat berguna untuk perencanaan,
monitoring dan evaluasi program pembangunan pemerintah.
2. Memenuhi kebutuhan pemerintah, khususnya untuk penyediaan data
tingkat kemiskinan dalam interval waktu yang lebih pendek (dari
sebelumnya sekali setahun menjadi dua kali setahun atau lebih), maka
http://repository.unimus.ac.id
12
mulai tahun 2011 BPS melakukan perubahan dalam penyelenggaraan
susenas. Perubahan penting dalam penyelenggaraan susenas 2011, dan
masih diteruskan sampai tahun 2014 yaitu hasil statistik yang dihasilkan
susenas antara lain:
a. Statistik/Indikator Kesejahteraan Rakyat (Kesra) Statistik/Indikator
Kesra yang dapat disusun dari hasil pengumpulan data antara lain
adalah Angka Partisipasi Sekolah, Rata-rata Lama Sekolah, Angka
Melek Huruf (bidang pendidikan), Angka Kesakitan (bidang
kesehatan), Rata-rata Umur Perkawinan Pertama, Angka Partisipasi
KB (bidang fertilitas), Rata-rata Luas Hunian Rumah per kapita,
Persentase Penggunaan Air Bersih (bidang perumahan), data publikasi
wanita dan pria, dan lain-lain.
b. Statistik konsumsi dan pengeluaran statistik yang dapat disuse dari hasil
pengumpulan data dan konsumsi, antara lain rata-rata pengeluaran
penduduk yang dirinci menurut jenis makanan, rata-rata konsumsi
kalori dan protein, angka gini ratio dan jumlah/ persentase penduduk
miskin.
2.3 Pendugaan Area Kecil (Small Area Estimation)
SAE adalah salah satu teknik statistik yang digunakan untuk menduga
parameter subpopulasi dengan ukuran sampel yang relatif kecil. Teknik ini
mengembangkan data survei dan sensus untuk mengestimasi tingkat kesejahteraan
atau indikator lainnya untuk unit geografis seperti kecamatan atau pedesaan
(Davies, 2003). Suatu daerah disebut small area jika daerah tersebut jumlah contoh
http://repository.unimus.ac.id
13
yang terambil kurang besar untuk mendapatkan nilai pendugaan langsung yang
akurat. Nilai pendugaan langsung pada area kecil merupakan penduga tak bias
tetapi memiliki ragam yang besar karena diperoleh dari ukuran contoh yang kecil
(Ramsini et.al (2001) dalam Kurnia dan Notodiputro (2006)).
SAE merupakan pendugaan suatu area yang lebih kecil dengan
memanfaatkan informasi dari luar area. Informasi dari dalam area itu sendiri, dan
dari luar survey (Longford. 2005). Terdapat dua masalah pokok dalam pendugaan
area kecil. Masalah pertama adalah bagaimana menghasilkan suatu dugaan
parameter yang cukup baik dengan ukuran sampel yang kecil pada suatu area kecil.
Masalah kedua adalah bagaimana menduga Mean Square Error (MSE). Solusi
untuk masalah tersebut adalah dengan “meminjam informasi” dari dalam area, luar
daerah, maupun luar survei (Pfefferman 2002).
Pendugaan parameter pada suatu area kecil dapat dilakukan dengan
pendugaan secara langsung (direct estimatoin) maupun pendugaan secara tidak
langsung (indirect estimation). Hasil pendugaan langsung pada suatu daerah kecil
merupakan penduga tak bias meskipun memiliki varian yang besar dikarenakan
dugaannya diperoleh dari ukuran sampel yang kecil (Ramsini et al. 2001).
Sedangkan tak langsung merupakan pendugaan dengan cara memanfaatkan
informasi dari variabel lain yang berhubungan dengan parameter yang diamati.
Proses pendugaan pada suatu area subpopulasi dapat dibagi menjadi dua macam,
yaitu:
1. Penduga Berbasis Rancangan Rao (2003) menyebutkan bahwa
pendugaan pada metode berbasis rancangan merupakan pendugaan pada
http://repository.unimus.ac.id
14
suatu area berdasarkan data contoh dari area tersebut. pada proses
pendugaan tersebut dapat digunakan informasi tambahan (auxiliary
informaton) untuk menduga parameter yang menjadi perhatian.
Pendekatan yang digunakan pada proses pendugaan ini adalah pendekatan
berbasis rancangan. Pada pendugan ini diasumsikan terjadi galat
pengukuran.
2. Penduga Berbasis Model Pendugaan pada metode berbasis model
merupakan pendugaan pada suatu area dengan cara menghubungkan
informasi pada area dengan area lain melalui model yang tepat. Hal ini
berarti bahwa dugaan tersebut mencakup data dari area lain (Kurnia &
Notodiputro 2006). Pendugaan tidak langsung (indirect estimation)
dilakukan dengan cara memanfaatkan informasi peubah lain yang
berhubungan dengan parameter yang diamati. Contoh informasi yang
dapat digunakan adalah catatan sensus ataupun survei pada area tersebut.
Pendugaan tidak langsung baerdasarkan model area kecil (small area
model) dikatakan sebagai penduga berbasis model (Rao 2003). Ramsini
et al.(2001) menyatakan bahwa penduga tidak langsung yang diperoleh
dengan memanfaatkan informasi peubah lain yang berhubungan dengan
parameter yang diamati sering disebut sebagai penduga berbasis model
adalah metode EB (Empirical Bayes), EBLUP (Empirical Best Linear
Unbiased), dan HB (Hierarchical Bayes).
2.3.1 Model Area kecil
Terdapat dua ide utama yang digunakan untuk mengembangkan model
http://repository.unimus.ac.id
15
pendugaan parameter area kecil yaitu:
1. Model pengaruh tetap (fixed effect model) dimana asumsi bahawa
keragaman di dalam area kecil, variabel respon dapat diterangkan
seluruhnya oleh hubungan keragaman yang bersesuaian pada informasi
tambahan.
2. Pengaruh acak area kecil (random effect) dimana asumsi keragaman
spesifik area kecil tidak dapat ditearangkan oleh informasi tambahan.
Gabungan daru kedua asumsi tersebut membentuk suatu model pengaruh
campuran (mixed model). Oleh karena variabel respon diasumsika berdistribusi
normal maka penduga area kecil yang dikembangkan merupakan bentuk khusus
dari General Linear Mixed Model (GLMM).
Model small area biasanya menggunakan model linear campuran dalam
bentuk:
y = Xb + Zu + e (2.1)
dimana X adalah matrix peubah penyerta, Z adalah vektor acak yang biasa dikenal
sebagai pengaruh area kecil, dan e adalah vektor dari galat sampel (Rao, 2003).
Menurut Rao (2003) ada dua model dasar pendugaan area kecil, yaitu basic area
level model dan basic unit level model.
a. Model berbasis area level
Model berbasis area level merupakan model yang didasarkan pada
ketersediaan data pendukung yang hanya ada untuk level area tertentu,
misalkan xi dengan parameter yang akan diduga adalah I yang
diasumsikan mempunyai hubungan dengan xi (Rao, 2003). Data
http://repository.unimus.ac.id
16
i
pendukung tersebut digunakan untuk membangun model I adalah :
xT v ,i 1,...., m (2.2)
Dimana m adalah banyaknya area dengan ꞵ =(ꞵ…….ꞵ)T merupakan vector
px1 koefisien regresi untuk variabel penyerta xi dan vi adalah pengaruh acak area
kecil yang diasumsikan berdistribusi N(0, 2
).
Dapat diketahui estimator 𝜃I dengan mengasumsi bahwa model penduga
langsung ˆ telah tersedia, yaitu:
ˆ e ,i 1,...., m (2.3)
Dengan ei = N(0, ᴪi) dan ᴪi diketahui.
Gabungan antara dua model (2.1) dan (2.2) akan menghasilkan persamaan
model gabungan (mixed model) yang dikenal dengan model Fay-Herriot (Fay dan
Herriot, 1979).
ˆ xt+ v+e,i 1,...., m
(2.4)
Dimana xi adalah vektor pxl variabel penyerta tingkat area vi ~ N(0,𝜎 T
)
dan ei ~N(0,i ), dengan varian i, yang diketahui dari data dimana vi dan ei
saling bebas.
Dimana keragaman variabel respon di dalam area kecil di asumsikan dapat
diterangkan oleh hubungan variabel respon dengan informasi tambahan (variabel
prediktor) yang disebut dengan model pengaruh tetap (fixed effek models). Selain
http://repository.unimus.ac.id
17
v v
terdapat komponen keragaman spesifik area kecil yang tidak bisa diterangkan oleh
informasi tambahan (variabel prediktor), disebut dengan komponen pengaruh acak
area kecil (random effect). Gabungan dua asumsi tersebut membentuk model
pengaruh acak campuran atau model linear campuran (Kurnia, 2009).
Saei dan Chambers (2003) mengemukakan dua ide utama dalam
mengembangkan model SAE yaitu (1) asumsi bahwa keragaman didalam
subpopulasi peubah respon dapat diterangkan seluruhnya oleh hubungan
keragaman yang bersesuaian pada informasi tambahan, disebur model pengaruh
tetap (fixed effect), (2) asumsi keragaman spesifik subpopulasi tidak dapat
diterangkan oleh informasi tambahan dan merupakan pengaruh acak subpopulasi
(random effect). Gabungan daru kedua asumsi tersebut membentuk suatu pengaruh
campuran (mixed effect). Terjadi kelemahan jika model yang dibuat tidak
menggambarkan kondisi wilayah/daerah yang sebenarnya.
b. Model berbasis unit level
Model berbasis unit level merupakan suatu model dimana data-data
pendukung yang tersedia bersesuaian secara individu dengan data respon, nilai xi =
(xij1,xij2,...,xijp) T
, sehingga didapat suatu model regresi tesarang:
y xT + vi + eij , i=1,....,m dan j=1,..., ni (2.5)
Dimana j adalah banyaknya pengeluaran per kapita pada daerah ke-i dengan
vi ~ (0, 2 ) dan ei ~ N(0, 2
).Dimana xij = (x1j1,...,xijp) T
yang merupakan data
penyerta unit tertentu, p adalah variabel predictor, j adalah rata-rata pengeluaran
per kapita pada area ke-I, dan vi = pengaruh acak area yang diasumsikan merupakan
http://repository.unimus.ac.id
18
variabel yang bersifat iid
eia = kia x × �̃�𝑖𝑎
dimana:
kia : konstanta
𝑒 ̃ : variabel acak yang bersifat iid dan bebas terhadap vi, dimana
Em (�̃�𝑖𝑎) = 0
Dan 𝑉휀𝑚 (𝑒 ̃𝑖𝑎) = σε2
vi dan eia seringkali diasumsikan memiliki distribusi peluang normal
Perbedaan mendasar pada kedua model tersebut yaitu pada penggunaan data
pendukung yang tersedia. Pada model SAE level area, data pendukung yang
tersedia hanya untuk level area tertentu. Model ini menghubungkan estimator
langsung dengan variabel penyerta dari domain lain untuk setiap area. Sedangkan
level unit mengasumsikan bahwa variabel penyerta yang tersedia bersesuaian
secara individu dengan variabel respon.
Penelitian ini mengembangkan model berbasis area, yakni model Fay-Herriot
dengan pertimbangan ketersediaan data pada level unit hanya tersedia pada tahun-
tahun pelaksanaan sensus penduduk sehingga sulit untuk melakukan estimasi pada
tahun-tahun lainnya.
2.4 Model Regresi Spline
Regresi nonparametrik merupakan suatu metode statistika yang digunakan
untuk mengetahui hubungan antara variabel respond dan prediktor yang tidak
diketahui bentuk fungsinya, hanya diasumsikan fungsi smooth (mulus) dalam arti
termuat dalam suatu ruang fungsi tertentu, sehingga regresi nonparametric memiliki
http://repository.unimus.ac.id
19
fleksibilitas yang tinggi (Eubank, 1988). Model regresi nonparametrik secara umum
dapat disajikan sebagai berikut:
𝑦𝑖 = m(xi ) +ei , 𝑖 = 1, 2, … , 𝑛 (2.6)
Dengan 𝑦𝑖 adalah variabel respon, fungsi m(xi) adalah fungsi yang smooth
dimana tidak diketahui bentuknya. Variabel 𝑥𝑖 sebagai variabel prediktor dengan
𝑒𝑖~(0, 𝜎 2 ). Agar dapat menangani struktur m(xi) yang tidak linear, didefinisikan
𝐾 buah knot 𝑘1, ⋯ , 𝑘𝑘 dan dengan mengambil basis fungsi polynomial terputus
diperoleh model berikut:
m(𝑥𝑖 ) = 𝛽0 + 𝛽𝑖𝑥𝑖 + ⋯ + 𝛽𝑝𝑥𝑖𝑝 + 𝛴j=1
𝑘 𝛾𝑗(𝑥𝑖 − 𝑘𝑗)+𝑝
Dengan p adalah derajat spline, (𝑥𝑖 − 𝑘𝑗)+ = 𝑚𝑎𝑘𝑠 {0, (𝑥𝑖 − 𝑘𝑗)}, 𝑘𝑗 dimana
𝑗 = 1, .. , K merupakan himpunan titik knot. Dengan menetapkan 𝛽 = = (𝛽0, … , 𝛽𝑝)
T adalah vektor koefisien parametrik, 𝜸=(𝛾1, … , 𝛾𝑘) T adalah vector koefisien
spline, = [1 𝑥𝑖 ⋯ 𝑥𝑝𝑖 ]1≤𝑖≤𝑛 , 𝑍 = [((𝑥𝑖 − 𝑘1 ) ⋯ (𝑥𝑖 − 𝑘𝐾)+
𝑝]]1≤𝑖≤𝑛 ,
Dengan (𝑥𝑖 − 𝑘𝑗)+𝑝
{= (xi − kj)+
𝑝 ≥ 𝑘𝑗
= 0 untuk 𝑥𝑖 < 𝑘𝑗
Sehingga model (2.7) dapat ditulis sebagai berikut:
𝑦𝑖 = 𝛽0 + 𝛽𝑖𝑥𝑖 + ⋯ + 𝛽𝑝𝑥𝑖𝑝 + 𝛴j=1
𝑘 (𝑥𝑖 − 𝑘𝑗)+𝑝
+ 𝑒i
Y = 𝑿𝜷 + 𝒁𝜸 + 𝒆 (2.7)
Dimana Y=(𝑦1, … , 𝑦𝑘)T
Model (2.7) disebut sebagai regresi spline smoothing (Opsomer, 2004). Dari
bentuk matematis fungsi spline pada model tersebut menunjukkan bahwa spline
merupakan model polinomial terputus, tetapi masih bersifat kontinu pada
knotknotnya. Knot dapat diartikan sebagai suatu titik fokus dalam fungsi spline
http://repository.unimus.ac.id
20
sedemikian sehingga kurva yang dibentuk tersegmen pada titik tersebut. Titik knot
merupakan salah satu hal yang sangat penting dalam pendekatan spline. Strategi
yang digunakan untuk memilih dan menentukkan lokasi knot dengan tepat sangat
dibutuhkan agar diperoleh model spline yang optimal. Jika jumlah knot terlampau
banyak maka model yang dihasilkan akan overfitting. Salah satu metode pemilihan
titik knot optimal adalah dengan menggunakan Generalized Cross Validation
(GCV).
Definisi GCV dapat ditulis sebagai berikut:
GCV ((𝑲)= MSE(K)
[n−1trace(I−A(K))]2
Dimana 𝑀𝑆𝐸(𝑲) = 𝑛 −1𝑦 𝑡 (𝑰 − 𝑨(𝑲)) 𝑇 (𝑰 − 𝑨(𝑲))𝒚, 𝑲 = (𝐾1,𝐾2, ⋯ ,𝐾𝑁)adalah
titik knot dan matriks 𝑨(𝑲) diperoleh dari persamaan 𝑦̂ = 𝐴(𝑲)𝒚.
2.5 Regresi Penalized Spline
Regresi penalized spline yaitu regresi yang diperoleh berdasarkan kuadrat
terkecil (least square) dengan penalty kekasaran. Penalized spline mempunyai
banyak kesamaan dengan smoothing spline, tetapi jenis penalty yang digunakan
pada penalized spline lebih umum dibandingkan pada smoothing spline (Ruppert,
2003).
Menurut Hall dan Opsomer (2005), regresi penalized spline merupakan suatu
pendekatan smoothing yang popular karena kesederhanaannya dan fleksibilitasnya.
Pemodelan penalized spline memberikan pemilihan knot yang fleksibel. Salah satu
alternatif untuk mengoptimalkan fit model terhadap data adalah dengan
menambahkan penalty pada parameter spline. Dengan cara ini dapat dipilih jumlah
knot yang banyak dan mencegah overfitting dengan menempatkan kendala
http://repository.unimus.ac.id
21
(constraint).
Terdapat dua komponen penting dalam mengestimasi penalized spline, yang
pertama adalah pemilihan karakter smoothing, sementara yang kedua adalah
pemilihan jumlah knot dan lokasinya (Yao dan Lee, 2008). Pada persamaan (2.6)
dapat dinyatakan ke dalam bentuk matriks yaitu:
𝒚 = 𝑿𝜷 + 𝒁𝜸 + 𝒆
Dimana
y=[
𝑦1
⋮𝑦𝑛
] , 𝑿 = [1 ⋯ 𝑥1 ⋯ 𝑥𝑘
𝑝
⋮ ⋱ ⋮ ⋱ ⋮1 ⋯ 𝑥𝑛 𝑥𝑖 𝑥𝑛
𝑝]],
𝒁 = [(x1 – k1)+
𝑝⋯ (x1 – k𝐾)+
𝑝
⋮ ⋱ ⋮(x𝑛 – k1)+
𝑝⋯ (x1 – k𝐾)+
𝑝],
𝜷=[
βo
⋮βp
], y=[
𝑦1
⋮𝑦𝑘
], dan 𝒆= [
𝑒1
⋮𝑒𝑛
]
Estimator penalized spline diperoleh dengan meminimumkan fungsi
penalized least square (PLS) sebagai berikut:
𝐿 = ‖𝒚 − 𝑿𝛽 − 𝒁𝛾‖ 2 + 𝜆𝜸 𝑇𝜸 (2.8)
Dengan memisalkan 𝑪 = [𝑿, 𝒁] dan Ӫ = [βγ], sehingga persamaan 9 dapat
ditulis sebagai berikut:
𝐿 = ‖𝒚 − 𝑪Ӫ‖ 2 + 𝜆Ӫ 𝑇𝑫Ӫ (2.9)
Dimana diketahui D merupakan matrik penalty
http://repository.unimus.ac.id
22
[ 0 0 0 0 0 ⋯ 0⋮ ⋮ 0 0 0 ⋯ 00 0 1 0 0 ⋯ 00 0 0 1 0 ⋯ 0⋮ ⋮ ⋮ ⋮ ⋮ ⋱ ⋮0 0 0 0 0 ⋯ 1]
= [𝟎(𝑝+1)×2 𝟎(𝑝+1)×𝐾
𝟎𝐾×(𝑝+1)×1 𝑰𝐾×𝐾]
Dengan parameter 𝜆 parameter smoothing, dimana 𝜆 ≥ 0. Suku pertama pada
persamaan 10 adalah jumlah kuadrat error dan suku keduanya adalah penalty
kekasaran. Menurut Djuraidah, et al (2006) Estimator penalized spline yang
diperoleh adalah
Ӫ ̂ = (𝑪 𝑇𝑪 + 𝜆𝑫) −1𝑪 𝑇𝒚 (2.10)
Dengan demikian didapatkan 𝒚 ̂ = 𝑪Ӫ ̂
𝒚 ̂ = (𝑪 𝑻𝑪 + 𝝀𝑫) −𝟏𝑪 𝑻𝒚 (2.11)
Berdasarkan uraian di atas, nilai �̂� bergantung pada parameter smoothing 𝜆.
Jika nilai 𝜆 besar akan menghasilkan bentuk kurva regresi yang sangat halus.
Sebaliknya, jika nilai 𝜆 kecil akan memberikan bentuk kurva regresi yang sangat
kasar. Akibatnya pemilihan parameter smoothing optimal perlu dilakukan. Dengan
menggunakan generalized cross-validation (GCV) yang didefinisikan sebagai
berikut:
GCV (𝜆)= 𝑛−1RSS( λ)
[1−𝑛−1dfλ)2 =
MSE(λ)
[𝑛−1tr(I−𝑆𝑘 )2 (2.12)
Dimana (𝜆) = 𝛴i=1𝑛 (𝑦𝑖 − �̂�𝑖)
2, 𝑑𝑓𝜆 = 𝑡𝑟(𝑺𝜆)
𝑺𝜆 = (𝑪 𝑻𝑪 + 𝝀𝑫) −𝟏𝑪 𝑻 yang disebut dengan matriks smoothing (Ruppert, et al.,
2003; Griggs,2013)
Pada penelitian ini untuk melakukan penentuan jumlah titik knot dapat
dilakukan dengan metode fixed selection method. Tujuan utama untuk semua
http://repository.unimus.ac.id
23
metode pemilihan knot Ƙ adalah untuk memastikan bahwa Ƙ cukup besar agar lebih
fleksibel ketika mengontrol kemulusan kurva yang diestimasi dengan smoothing
parameter. Tujuan lainnya adalah memilih Ƙ yang tidak terlalu besar agar waktu
perhitungan yang dibutuhkan tidak terlalu lama atau MSE yang lebih besar dari
seharusnya. Rumus fixed selection method didefinisikan sebagai berikut:
Ƙ = min( 1
4 ×banyaknya 𝑥𝑖 yang 𝑢𝑛𝑖𝑞𝑢𝑒, 35) (2.13)
Persamaan diatas merupakan metode yang umumnya digunakan untuk
pemilihan jumlah knot dan penentuan lokasi knot yang optimum ditentukkan
melalui kuantil ke-Ƙ𝑘 dari 𝑥𝑖 yang unique, dengan rumus sebagai berikut (Ruppert,
et al., 2003)
Ƙ𝑘 = ( k+1
K+2 ) , 𝑘 = 1,2, … , 𝐾 (2.14)
2.6 Pendugaan Area Kecil dengan Pendekatan Semiparametrik Penalized
Spline
Pendugaan area kecil (SAE) adalah pendekatan yang digunakan untuk
mengungkapkan hubungan antara variabel interest dengan variabel pendukung
sebagai model linear dengan tambahan pengaruh acak area kecil. Dimisalkan 𝜃
merupakan vektor dari parameter small area yang berukuran 𝑚×1 dan diasumsikan
vektor tersebut merupakan estimator langsung �̂�. Jika dinyatakan 𝑚×𝑞 adalah
matriks dari variabel penyerta dari level area 𝒙𝑖 = (𝒙1𝑖,2𝑖,…𝒙𝑝𝑖) 𝑻 sehingga model
SAE berbasis area dapat ditulis seperti persamaan (2.3) adalah sebagai berikut:
𝜽𝑖 = 𝑥𝑖𝑇𝜶 + 𝒃𝑖𝒗𝑖 + ; 𝑖 = 1,2, … , 𝑚 ; 𝑣𝑖~𝑁(0, 𝜎𝑣
2 )
dimana 𝑏𝑖 merupakan konstanta positif yang diketahui, 𝑣𝑖 adalah pengaruh
http://repository.unimus.ac.id
24
acak spesifik yang diasumsikan memiliki distribusi normal 𝑣𝑖~𝑁(0, 𝜎𝑣2 ). Menurut
Giusti et al (2012), model SAE berbasis area ini menghasilkan estimasi small area
yang terpercaya dengan mengkombinasikan model SAE dan model regresi yang
meminjam kekuatan dari domain lain, ketika asumsi ini tidak terpenuhi model SAE
level area menyebabkan estimator bias dari parameter daerah kecil. Spesifikasi
semiparametrik dari model SAE yang memungkinkan yaitu adanya hubungan
nonlinear antara �̂� dan variabel penyerta 𝑿, dapat diperoleh dengan menggunakan
pendekatan penalized spline.
Seperti pada persamaan (2.5), model semiparametrik dengan satu respon 𝑥1
dapat ditulis 𝑚 ̃(𝑥1) dimana fungsi dari 𝑚 ̃(.) tidak diketahui akan tetapi diasumsikan
cukup baik sehingga diberikan fungsi spline adalah sebagai berikut:
(𝑥1 ) = 𝛽0 + 𝛽𝑖𝑥1 + ⋯ + 𝛽𝑝𝑥 1𝑝+ ∑ γ𝑗
𝑘𝑗=1 (𝑥𝑖 − 𝑘𝑗)+
𝑝
Dengan 𝑝 adalah derajat spline, (𝑥𝑖 − 𝑘𝑗)+ = 𝑚𝑎𝑘𝑠 {0, (𝑥𝑖 − 𝑘𝑗)}, 𝑘𝑗 dimana 𝑗
= 1, … ,𝐾 merupakan himpunan titik knot. Dengan menetapkan 𝜷 = (𝛽0, … , 𝛽𝑝) 𝑇
adalah (𝑝 + 1) vektor koefisien fungsi polinomial, 𝜸=(𝛾1, … , 𝛾𝑘) 𝑇 adalah vektor
koefisien spline,
Dengan (𝑥𝑖 − 𝑘𝑗)+𝑝
{= (𝑥𝑖 − 𝑘𝑗)+
𝑝 untuk ≥ 𝑘𝑗
= 0 untuk 𝑥𝑖 < 𝑘𝑗
Menurut opsomer, et al (2008) model tersebut diindikasikan akan
overparameterized sehingga akan menyebabkan overfitting untuk menghindari hal
tersebut ditambahkan penalty pada parameter spline dengan meminimumkan fungsi
penalized least square sehingga didapatkan hasil sesuai dengan persamaan (2.10).
http://repository.unimus.ac.id
25
Pada penelitian ini pendekatan SAE dengan menggunakan penalized spline
sebagai efek random menghasilkan :
𝑦𝑖 = 𝑚(𝑿𝑖 ;𝜷) + 𝜺𝑖
= 𝑿𝑖 ∗ 𝜷+𝜺𝑖
= 𝑿𝑖𝜷 + 𝒁𝑖𝜸 + 𝜺𝑖 (2.15)
Dimana: 𝑿i𝜷 = 𝛽0 + 𝛽1𝑋𝑖 + ⋯ + 𝛽𝑝𝑋𝑖𝑝 (komponen parametrik yang
merupakan fixed component); 𝒁𝑖𝜸 = 𝑍1𝑖𝛾1 + ⋯ + 𝑍𝑘𝑖𝛾𝑘=((𝑋𝑖 − 𝐾1)+𝑝𝛽𝑝𝑖1 + ⋯ + (𝑋𝑖
– K1)+𝑝 𝛽𝑝𝑖𝐾 (deviasi dari komponen parametrik dengan random efek); dan 𝛾 = (𝛾1,
… , 𝛾𝑘 ) yang berasumsi mean 0 dan varians 𝜎𝑣2 . Model penalized spline merupakan
model random effect yang dapat dikombinasikan dengan model SAE berbasis area
agar mendapatkan estimasi pendugaan area kecil secara semiparametrik
berdasarkan linear mixed model. Dari persamaan (2.3) dan persamaan (2.14)
didapatkan model semiparametrik Fay-Herriot dapat ditulis:
sebagai berikut:
�̂� = [ 𝐗𝐗𝟏
][𝛼, 𝛽] + 𝒁𝛾 + 𝒃𝑣 + 𝑒 (2.16)
Menurut Giusti et al (2012), jika terdapat variabel lain yang perlu disertakan
dalam model, variabel tersebut dapat ditambahkan kedalam 𝑋 sebagai matriks efek
tetap. Opsomer (2004) menggunakan penalized spline untuk mengestimasi area
kecil dan menambahkan pengaruh acak kecil pada model sehingga didapatkan
persamaan:
�̂� = 𝑿𝛽 + 𝒁𝛾 + 𝒃𝑣 + 𝑒 (2.17)
http://repository.unimus.ac.id
26
Persamaan diatas terdiri dari fungsi spline yang merupakan fungsi
semiparametrik 𝑿𝛽 + 𝒁𝛾 dan pengaruh acak area kecil (𝒃𝑣). Nilai estimasi pada 𝛽 ̃
untuk regresi semiparametrik penalized spline untuk penduga area kecil dengan
menggunakan (MLE) sehingga didapatkan:
�̂� = (𝑿 𝑻𝑽 −𝟏𝑿) −𝟏𝑿 𝑻𝑽 −𝟏𝒀
Jika komponen varians tidak diketahui, maka setelah estimator 𝛽 dan
prediktor 𝛾 diperoleh, Estimasi komponen varians berdasarkan ML bias, maka
digunakan metode REML (Restricted Maximum Likelihood).
2.7 Best Linear Unbiased Prediction (BLUP) dan Empirical Best Linear
Unbiased Prediction (EBLUP)
Model small area terbagi menjadi model area level dan model unit level.
Metode BLUP dan EBLUP salah satu metode yang digunakan untuk
meminimumkan MSE. Pada metode BLUP, variansi pengaruh acak diasumsikan
telah diketahui. Sedangkan pada metode EBLUP nilai variansi pengaruh acak small
area tidak diketahui sehingga harus ditaksir dengan menggunakan metode
Maximum Likelihood (ML). Misalkan data memenuhi model linear campuran
berikut:
𝒀 = 𝑿𝜷 + 𝒁𝜸 + 𝒆 (2.18)
Dimana:
𝒚 adalah vektor data observasi berukuran 𝑛×1
𝑿 dan 𝒁 adalah matriks berukuran 𝑛×𝑝 dan 𝑛×ℎ yang diketahui
http://repository.unimus.ac.id
27
𝜸 dan 𝒆 adalah berdistribusi saling bebas dengan rataan 0 dan ragam 𝑮 dan 𝑹 yang
tergantung pada parameter 𝜹 = (𝛿1, … , 𝛿𝑞) 𝑇 , diasumsikan bahwa
𝜹 adalah himpunan bagian dari ruang Euclidean sedemikian sehingga:
𝑽𝒂𝒓(𝒚) = 𝑽 = 𝑽(𝜹) = 𝑹 + 𝒁𝑮𝒁 𝑻
Adalah non singular untuk semua 𝛿 yang terdapat dalam himpunan bagian
tersebut, dimana (𝒚) adalah matriks varians covarians dari 𝒚.
Parameter yang akan diduga merupakan kombinasi linear 𝝁 = 1lT𝜷+𝒎𝑻𝒗
(Rao,2003). Vektor 𝟏 dan 𝒎 adalah konstan. Penduga linear dari 𝜇 adalah 𝝁 ̂ = 𝒂
𝑻𝜷 + 𝒃 untuk 𝒂 dan 𝒃 diketahui. Sehingga penduga tak bias 𝝁
𝐸(�̂�) = 𝐸(𝜇)
𝐸 adalah ekpektasi, MSE �̂�didefinisikan sebagai 𝑀𝑆𝐸(�̂�) = 𝐸(�̂�− 𝜇) 2
Jika �̂� adalah penduga tak bias dari 𝜇, maka (�̂�) = (�̂�− 𝜇) 2 = 𝑉𝑎𝑟 (�̂�− 𝜇) 2
Estimator BLUP 𝜇 yang 𝛿 diketahui adalah sebagai berikut:
𝝁 ̃ 𝑯 = (𝜹, 𝒚) = 𝑰 𝑻�̃�+𝒎𝑻𝒗̃ = 𝑰 𝑻�̃� + 𝒎𝑻𝑮𝒁 𝑻𝑽 −𝟏 (𝒚 − 𝑿�̃�) (2.19)
Dimana
𝜷 ̃ = �̃�(𝜹) = (𝑿 𝑻𝑽 −𝟏𝑿) −𝟏𝑿 𝑻𝑽 −𝟏𝒚 (2.20)
merupakan best linear unbiased estimator (BLUE) dari 𝛽 dan
�̃� = 𝒗 ̃(𝜹) = 𝑮𝒁 𝑻𝑽 −𝟏 (𝒚 − 𝑿�̃�) (2.21)
Keterangan 𝐻 pada �̃� adalah Henderson yang mengusulkan persamaan (2.19)
Penduga BLUP tergantung pada ragam 𝛿 yang biasanya tidak diketahui. Jika 𝛿
diduga dengan 𝛿 ̃ = �̃�(𝑦), maka akan diperoleh empirical best linear unbiased
http://repository.unimus.ac.id
28
prediction (EBLUP) yang tetap merupakan penduga tak bias bagi 𝜇. Penduga 𝛿
diperoleh melalui metode ML atau REML (Rumiati, 2012).
Keterangan 𝐻 pada �̃� adalah Henderson yang mengusulkan persamaan (2.19)
Penduga BLUP tergantung pada ragam 𝛿 yang biasanya tidak diketahui. Jika 𝛿
diduga dengan 𝛿 ̃ = �̃�(𝑦), maka akan diperoleh empirical best linear unbiased
prediction (EBLUP) yang tetap merupakan penduga tak bias bagi 𝜇. Penduga 𝛿
diperoleh melalui metode ML atau REML (Rumiati, 2012).
2.8 Pendugaan MSE dengan menggunakan Metode Model Jacknife dan
Pendugaan MSE tidak langsung
Menurut Baillo dan Molina (2009), tujuan dari prosedur dan teknik yang
digunakan dalam SAE adalah untuk memperoleh estimasi dengan tingkat presisi
yang tinggi pada area kecil tersebut. Tingkat presisi estimator ini dapat
digambarkan oleh Mean Square Error (MSE). Penerapan jackknife pada SAE
dilakukan untuk mengkoreksi pendugaan MSE.
Fay dan Herriot (1979) mengembangkan model 𝑦𝑖 = xiT 𝛽 + 𝑣𝑖 + 𝑒𝑖 sebagai
dasar dalam pengembangan SAE. Untuk selanjutnya diasumsikan bahwa 𝛽 dan 𝜎𝑣2
tidak diketahui, akan tetapi 𝜎ei2 diketahui, dengan 𝛽𝑖 = 𝜎ei
2 /(𝜎𝑣2 + 𝜎ei
2 ) maka:
(θ̂i𝐸𝐵𝐿𝑈𝑃
) = (θ̂i𝐸𝐵𝐿𝑈𝑃
− 𝜃𝑖) 2
= (θ̂i𝐸𝐵𝐿𝑈𝑃
) +(𝑏𝑖𝑎𝑠(θ̂i𝐸𝐵𝐿𝑈𝑃
))2
Persamaan tersebut dapat diuraikan menjadi:
(θ̂i𝐸𝐵𝐿𝑈𝑃
) = (θ̂i𝐸𝐵𝐿𝑈𝑃
) + (θ̂i𝐸𝐵𝐿𝑈𝑃
− θ̂i𝐸𝐵𝐿𝑈𝑃
) 2 (2.22)
Metode jackknife pertama kali diperkenalkan oleh tukey pada tahun 1958 dan
http://repository.unimus.ac.id
29
kemudian berkembang sebagai suatu metode untuk mengoreksi bias pada suatu
estimator. Dengan melakukan penghapusan terhadap observasi ke-𝑖 untuk 𝑖 = 1,2,
… , 𝑚 dan kemudian dilakukan pendugaan parameter misal �̂� (𝑖) , maka penduga
bias diduga dengan:
𝑏𝑖𝑎𝑠 (�̂�) = (𝑚 − 1)[�̂� (.) − �̂�]
�̂� (.) = 𝑚−1 ∑ θ̂ (i)𝑚𝑖
Penduga jackknife diperoleh dari
�̂� 𝑗𝑎𝑐𝑘 = �̂� − (�̂�) dan (�̂�) = (n−1
n) ∑ [𝑚
𝑖 θi − 𝜃] 2
Penerapan jackknife pada SAE dilakukan untuk mengkoreksi pendugaan
MSE akibat adanya pendugaan 𝛼 dan 𝜎𝑣 2 . Persamaan (2.19) setara dengan 𝑔1𝑖
(𝜎𝑣 2 ) + (𝑏𝑖𝑎𝑠) 2 jika 𝜎𝑣2 diduga.
Dengan 𝑢 adalah banyak replikasi jackknife dan 𝑖 adalah banyak data, maka
prosedur jackknife (θ̂i𝐸𝐵𝐿𝑈𝑃
) pendugaan tidak langsung berdasarkan persamaan
(2.21) adalah sebagai berikut:
1. 𝑀𝑆𝐸(θ̂i𝐸𝐵𝐿𝑈𝑃
) didekati oleh:
(�̂�𝑖) = ℎ1𝑖 + ℎ2𝑖
2. Menduga variansi 𝑀𝑆𝐸(θ̂i𝐸𝐵𝐿𝑈𝑃
) dengan menghitung:
ℎ1𝑖 = 𝑔1𝑖 (𝑆v2 ) − (
m−1
m ) ∑ [𝑚
𝑢=1 𝑔1(𝑆v2 (−𝑢) − 𝑔1𝑖(𝑆v
2 )]
Dimana 𝑔1(𝑆v2
(−𝑢)) diperoleh dengan menghapus pengamatan ke- 𝑢 pada
himpunan data 𝑔1𝑖(𝑆v2 ) dan 𝑢 = 1,2, … , 𝑚. Dengan:
𝑆v2 = (𝑚 − 1) −1 ∑ 𝑖 (𝑦𝑖 − �̅�) 2 − 𝜎𝑒
2
𝑆v2 (−𝑢) = (𝑚 − 2) −1 ∑I(−𝑢) (𝑦𝑖 − �̅�(−𝑢))
2 − 𝜎𝑒2
http://repository.unimus.ac.id
30
3. Menduga 𝐸(θ̂i𝐸𝐵𝐿𝑈𝑃
− θ̂i𝐸𝐵𝐿𝑈𝑃
) 2 dengan menghitung:
ℎ2𝑖 = (m−1
m ) ∑ [𝑚
𝑢=1 (�̂� (−𝑢)) − (�̂� 𝑖)]2
Dimana (�̂� (−𝑢)) diperoleh dengan menghapus pengamatan ke-𝑢 pada
himpunan data (�̂� 𝑖) Untuk membandingkan hasil estimasi tidak langsung pada
small area estimation dapat menggunakan nilai MSE dengan metode pendugaan
langsung dengan resampling jackknife.
Nilai MSE pendugaan langsung dengan 𝑢 adalah banyak replikasi jackknife
dan 𝑖 adalah banyak data, maka prosedur jackknife pendugaan langsung
berdasarkan persamaan (2.21) adalah sebagai berikut:
1. 𝑀𝑆𝐸 pendugaan langsung didekati oleh:
𝑀𝑆𝐸𝑖 ( ) = ℎ1𝑖 + ℎ2𝑖
2. Menduga variansi 𝑀𝑆𝐸 pendugaan langsung dengan menghitung:
ℎ1𝑖 = 𝑔1𝑖 (𝑆v2 ) − (
m−1
m) ∑ [𝑚
𝑢=1 𝑔1(𝑆v2 (−𝑢) − 𝑔1𝑖(𝑆v
2 )]
Dimana 𝑔1(𝑆v2 (−𝑢) diperoleh dengan menghapus pengamatan ke- 𝑢 pada
himpunan data 𝑔1𝑖 (𝑆v2 ) dan 𝑢 = 1,2, … , 𝑚. Dengan:
𝑆v2 = (𝑚 − 1) −1 ∑ (𝑦𝑖 − �̅�) 2 − 𝜎𝑒 2 𝑖
𝑆v2 (−𝑢) = (𝑚 − 2) −1 ∑I(−𝑢) (𝑦𝑖 − �̅�(−𝑢))
2 − 𝜎𝑒2
3. Menduga nilai ℎ2𝑖 dengan menghitung:
ℎ2𝑖 = − (m−1
m) ∑ [𝑚
𝑢=1 ((−𝑢))− (𝑦𝑖)]2
Dimana ((−𝑢)) diperoleh dengan menghapus pengamatan ke-𝑢 padahimpunan
data ( ). Nilai RMSE diperoleh setelah mendapatkan nilai MSE melalui persamaan
(2.22)
http://repository.unimus.ac.id
31
𝑅𝑅𝑀𝑆𝐸 (�̂� 𝑖) = √𝑀𝑆𝐸 (θ̂ i)
θ̂ i × 100%
http://repository.unimus.ac.id
11
http://repository.unimus.ac.id