bab ii tinjauan pustaka 2.1 pengeluaran per kapita

10

BAB II

TINJAUAN PUSTAKA

2.1 Pengeluaran Per kapita

Besarnya pendapatan per kapita dapat menggambarkan kesejahteraan suatu

masyarakat. Namun data pendapatan yang akurat sulit diperoleh, sehingga dalam

kegiatan susenas data ini didekati melalui pengeluaran per kapita (BPS, 2010).

Pengeluaran per kapita menunjukkan besarnya pengeluaran setiap anggota

rumah tangga dalam kurun waktu satu bulan (BPS, 2008). Maksud dari rumah

tangga sendiri adalah sekelompok orang yang mendiami sebagian atau seluruh

bangunan fisik dan biasanya tinggal bersama serta makan dari satu dapur. Dimana

pengeluaran per kapita dipengaruhi oleh pendapatan per kapita dipengaruhi oleh

pendapatan per kapitanya. Asumsi ini menjelaskan pada saat pendapatan seseorang

semakin meningkat maka semakin tinggi pula pengeluarannya.

Berdasarkan pedoman pecacah modul konsumsi SUSENAS 2002, dalam

sensus pengeluaran per kapita merupakan pengeluaran untuk rumah tangga/anggota

rumah tangga saja, tidak termasuk pengeluaran untuk keperluan usaha rumah

tangga, atau yang diberikan kepada orang lain. Untuk konsumsi makanan, baik

banyaknya (kuantitas) maupun nilainya yang dicatat adalah betul-betul telah

dikonsumsi selama referensi waktu survey (consumption approach), sedangkan

untuk bukan makanan konsep yang dipakai pada umumnya adalah konsep

pembelian (delivery approach), yaitu dicatat sebagai pengeluaran pada waktu

barang tersebut dibeli/diperoleh, asalkan tujuannya untuk kebutuhan rumah tangga.

Pengeluaran per kapita biasa dirumuskan sebagai berikut:

http://repository.unimus.ac.id

11

y = 𝑃

𝑞

dimana:

y = pengeluaran per kapita

p = pengeluaran rumah tangga sebulan

q = jumlah anggota rumah tangga

(Fausi, 2011)

2.2 Survei Sosial Ekonomi Nasional (SUSENAS)

Susenas merupakan survey yang dirancang untuk mengumpulkan data sosial

kependudukan yang relative sangat luas. Susenas merupakan salah satu survey

yang rutin dilakukan oleh Badan Pusat Statistik (BPS). Melalui Susenas

dikumpulkan data yang berkaitan dengan kondisi sosial ekonomi masyarakat

meliputi kondisi kesehatan, pendidikan, fertilitas, keluarga berencana, perumahan,

dan kondisi sosial ekonomi lainnya. Adapun tujuan penyelenggara susenas antara

lain:

1. Menyediakan data yang berkaitan dengan kondisi social ekonomi

masyarakat meliputi kondisi kesehatan, pendidikan, fertilitas, keluarga

berencana, perumahan dan kondisi sosial ekonomi lainnya. Data dan

indikator dari susenas telah dipergunakan secara luas dan dipandang

sebagai salah satu bukti penting yang dapat berguna untuk perencanaan,

monitoring dan evaluasi program pembangunan pemerintah.

2. Memenuhi kebutuhan pemerintah, khususnya untuk penyediaan data

tingkat kemiskinan dalam interval waktu yang lebih pendek (dari

sebelumnya sekali setahun menjadi dua kali setahun atau lebih), maka


12

mulai tahun 2011 BPS melakukan perubahan dalam penyelenggaraan

susenas. Perubahan penting dalam penyelenggaraan susenas 2011, dan

masih diteruskan sampai tahun 2014 yaitu hasil statistik yang dihasilkan

susenas antara lain:

a. Statistik/Indikator Kesejahteraan Rakyat (Kesra) Statistik/Indikator

Kesra yang dapat disusun dari hasil pengumpulan data antara lain

adalah Angka Partisipasi Sekolah, Rata-rata Lama Sekolah, Angka

Melek Huruf (bidang pendidikan), Angka Kesakitan (bidang

kesehatan), Rata-rata Umur Perkawinan Pertama, Angka Partisipasi

KB (bidang fertilitas), Rata-rata Luas Hunian Rumah per kapita,

Persentase Penggunaan Air Bersih (bidang perumahan), data publikasi

wanita dan pria, dan lain-lain.

b. Statistik konsumsi dan pengeluaran statistik yang dapat disuse dari hasil

pengumpulan data dan konsumsi, antara lain rata-rata pengeluaran

penduduk yang dirinci menurut jenis makanan, rata-rata konsumsi

kalori dan protein, angka gini ratio dan jumlah/ persentase penduduk

miskin.

2.3 Pendugaan Area Kecil (Small Area Estimation)

SAE adalah salah satu teknik statistik yang digunakan untuk menduga

parameter subpopulasi dengan ukuran sampel yang relatif kecil. Teknik ini

mengembangkan data survei dan sensus untuk mengestimasi tingkat kesejahteraan

atau indikator lainnya untuk unit geografis seperti kecamatan atau pedesaan

(Davies, 2003). Suatu daerah disebut small area jika daerah tersebut jumlah contoh


13

yang terambil kurang besar untuk mendapatkan nilai pendugaan langsung yang

akurat. Nilai pendugaan langsung pada area kecil merupakan penduga tak bias

tetapi memiliki ragam yang besar karena diperoleh dari ukuran contoh yang kecil

(Ramsini et.al (2001) dalam Kurnia dan Notodiputro (2006)).

SAE merupakan pendugaan suatu area yang lebih kecil dengan

memanfaatkan informasi dari luar area. Informasi dari dalam area itu sendiri, dan

dari luar survey (Longford. 2005). Terdapat dua masalah pokok dalam pendugaan

area kecil. Masalah pertama adalah bagaimana menghasilkan suatu dugaan

parameter yang cukup baik dengan ukuran sampel yang kecil pada suatu area kecil.

Masalah kedua adalah bagaimana menduga Mean Square Error (MSE). Solusi

untuk masalah tersebut adalah dengan “meminjam informasi” dari dalam area, luar

daerah, maupun luar survei (Pfefferman 2002).

Pendugaan parameter pada suatu area kecil dapat dilakukan dengan

pendugaan secara langsung (direct estimatoin) maupun pendugaan secara tidak

langsung (indirect estimation). Hasil pendugaan langsung pada suatu daerah kecil

merupakan penduga tak bias meskipun memiliki varian yang besar dikarenakan

dugaannya diperoleh dari ukuran sampel yang kecil (Ramsini et al. 2001).

Sedangkan tak langsung merupakan pendugaan dengan cara memanfaatkan

informasi dari variabel lain yang berhubungan dengan parameter yang diamati.

Proses pendugaan pada suatu area subpopulasi dapat dibagi menjadi dua macam,

yaitu:

1. Penduga Berbasis Rancangan Rao (2003) menyebutkan bahwa

pendugaan pada metode berbasis rancangan merupakan pendugaan pada


14

suatu area berdasarkan data contoh dari area tersebut. pada proses

pendugaan tersebut dapat digunakan informasi tambahan (auxiliary

informaton) untuk menduga parameter yang menjadi perhatian.

Pendekatan yang digunakan pada proses pendugaan ini adalah pendekatan

berbasis rancangan. Pada pendugan ini diasumsikan terjadi galat

pengukuran.

2. Penduga Berbasis Model Pendugaan pada metode berbasis model

merupakan pendugaan pada suatu area dengan cara menghubungkan

informasi pada area dengan area lain melalui model yang tepat. Hal ini

berarti bahwa dugaan tersebut mencakup data dari area lain (Kurnia &

Notodiputro 2006). Pendugaan tidak langsung (indirect estimation)

dilakukan dengan cara memanfaatkan informasi peubah lain yang

berhubungan dengan parameter yang diamati. Contoh informasi yang

dapat digunakan adalah catatan sensus ataupun survei pada area tersebut.

Pendugaan tidak langsung baerdasarkan model area kecil (small area

model) dikatakan sebagai penduga berbasis model (Rao 2003). Ramsini

et al.(2001) menyatakan bahwa penduga tidak langsung yang diperoleh

dengan memanfaatkan informasi peubah lain yang berhubungan dengan

parameter yang diamati sering disebut sebagai penduga berbasis model

adalah metode EB (Empirical Bayes), EBLUP (Empirical Best Linear

Unbiased), dan HB (Hierarchical Bayes).

2.3.1 Model Area kecil

Terdapat dua ide utama yang digunakan untuk mengembangkan model


15

pendugaan parameter area kecil yaitu:

1. Model pengaruh tetap (fixed effect model) dimana asumsi bahawa

keragaman di dalam area kecil, variabel respon dapat diterangkan

seluruhnya oleh hubungan keragaman yang bersesuaian pada informasi

tambahan.

2. Pengaruh acak area kecil (random effect) dimana asumsi keragaman

spesifik area kecil tidak dapat ditearangkan oleh informasi tambahan.

Gabungan daru kedua asumsi tersebut membentuk suatu model pengaruh

campuran (mixed model). Oleh karena variabel respon diasumsika berdistribusi

normal maka penduga area kecil yang dikembangkan merupakan bentuk khusus

dari General Linear Mixed Model (GLMM).

Model small area biasanya menggunakan model linear campuran dalam

bentuk:

y = Xb + Zu + e (2.1)

dimana X adalah matrix peubah penyerta, Z adalah vektor acak yang biasa dikenal

sebagai pengaruh area kecil, dan e adalah vektor dari galat sampel (Rao, 2003).

Menurut Rao (2003) ada dua model dasar pendugaan area kecil, yaitu basic area

level model dan basic unit level model.

a. Model berbasis area level

Model berbasis area level merupakan model yang didasarkan pada

ketersediaan data pendukung yang hanya ada untuk level area tertentu,

misalkan xi dengan parameter yang akan diduga adalah I yang

diasumsikan mempunyai hubungan dengan xi (Rao, 2003). Data


16

i

pendukung tersebut digunakan untuk membangun model I adalah :

xT v ,i 1,...., m (2.2)

Dimana m adalah banyaknya area dengan ꞵ =(ꞵ…….ꞵ)T merupakan vector

px1 koefisien regresi untuk variabel penyerta xi dan vi adalah pengaruh acak area

kecil yang diasumsikan berdistribusi N(0, 2

).

Dapat diketahui estimator 𝜃I dengan mengasumsi bahwa model penduga

langsung ˆ telah tersedia, yaitu:

ˆ e ,i 1,...., m (2.3)

Dengan ei = N(0, ᴪi) dan ᴪi diketahui.

Gabungan antara dua model (2.1) dan (2.2) akan menghasilkan persamaan

model gabungan (mixed model) yang dikenal dengan model Fay-Herriot (Fay dan

Herriot, 1979).

ˆ xt+ v+e,i 1,...., m

(2.4)

Dimana xi adalah vektor pxl variabel penyerta tingkat area vi ~ N(0,𝜎 T

)

dan ei ~N(0,i ), dengan varian i, yang diketahui dari data dimana vi dan ei

saling bebas.

Dimana keragaman variabel respon di dalam area kecil di asumsikan dapat

diterangkan oleh hubungan variabel respon dengan informasi tambahan (variabel

prediktor) yang disebut dengan model pengaruh tetap (fixed effek models). Selain


17

v v

terdapat komponen keragaman spesifik area kecil yang tidak bisa diterangkan oleh

informasi tambahan (variabel prediktor), disebut dengan komponen pengaruh acak

area kecil (random effect). Gabungan dua asumsi tersebut membentuk model

pengaruh acak campuran atau model linear campuran (Kurnia, 2009).

Saei dan Chambers (2003) mengemukakan dua ide utama dalam

mengembangkan model SAE yaitu (1) asumsi bahwa keragaman didalam

subpopulasi peubah respon dapat diterangkan seluruhnya oleh hubungan

keragaman yang bersesuaian pada informasi tambahan, disebur model pengaruh

tetap (fixed effect), (2) asumsi keragaman spesifik subpopulasi tidak dapat

diterangkan oleh informasi tambahan dan merupakan pengaruh acak subpopulasi

(random effect). Gabungan daru kedua asumsi tersebut membentuk suatu pengaruh

campuran (mixed effect). Terjadi kelemahan jika model yang dibuat tidak

menggambarkan kondisi wilayah/daerah yang sebenarnya.

b. Model berbasis unit level

Model berbasis unit level merupakan suatu model dimana data-data

pendukung yang tersedia bersesuaian secara individu dengan data respon, nilai xi =

(xij1,xij2,...,xijp) T

, sehingga didapat suatu model regresi tesarang:

y xT + vi + eij , i=1,....,m dan j=1,..., ni (2.5)

Dimana j adalah banyaknya pengeluaran per kapita pada daerah ke-i dengan

vi ~ (0, 2 ) dan ei ~ N(0, 2

).Dimana xij = (x1j1,...,xijp) T

yang merupakan data

penyerta unit tertentu, p adalah variabel predictor, j adalah rata-rata pengeluaran

per kapita pada area ke-I, dan vi = pengaruh acak area yang diasumsikan merupakan


18

variabel yang bersifat iid

eia = kia x × �̃�𝑖𝑎

dimana:

kia : konstanta

𝑒 ̃ : variabel acak yang bersifat iid dan bebas terhadap vi, dimana

Em (�̃�𝑖𝑎) = 0

Dan 𝑉휀𝑚 (𝑒 ̃𝑖𝑎) = σε2

vi dan eia seringkali diasumsikan memiliki distribusi peluang normal

Perbedaan mendasar pada kedua model tersebut yaitu pada penggunaan data

pendukung yang tersedia. Pada model SAE level area, data pendukung yang

tersedia hanya untuk level area tertentu. Model ini menghubungkan estimator

langsung dengan variabel penyerta dari domain lain untuk setiap area. Sedangkan

level unit mengasumsikan bahwa variabel penyerta yang tersedia bersesuaian

secara individu dengan variabel respon.

Penelitian ini mengembangkan model berbasis area, yakni model Fay-Herriot

dengan pertimbangan ketersediaan data pada level unit hanya tersedia pada tahun-

tahun pelaksanaan sensus penduduk sehingga sulit untuk melakukan estimasi pada

tahun-tahun lainnya.

2.4 Model Regresi Spline

Regresi nonparametrik merupakan suatu metode statistika yang digunakan

untuk mengetahui hubungan antara variabel respond dan prediktor yang tidak

diketahui bentuk fungsinya, hanya diasumsikan fungsi smooth (mulus) dalam arti

termuat dalam suatu ruang fungsi tertentu, sehingga regresi nonparametric memiliki


19

fleksibilitas yang tinggi (Eubank, 1988). Model regresi nonparametrik secara umum

dapat disajikan sebagai berikut:

𝑦𝑖 = m(xi ) +ei , 𝑖 = 1, 2, … , 𝑛 (2.6)

Dengan 𝑦𝑖 adalah variabel respon, fungsi m(xi) adalah fungsi yang smooth

dimana tidak diketahui bentuknya. Variabel 𝑥𝑖 sebagai variabel prediktor dengan

𝑒𝑖~(0, 𝜎 2 ). Agar dapat menangani struktur m(xi) yang tidak linear, didefinisikan

𝐾 buah knot 𝑘1, ⋯ , 𝑘𝑘 dan dengan mengambil basis fungsi polynomial terputus

diperoleh model berikut:

m(𝑥𝑖 ) = 𝛽0 + 𝛽𝑖𝑥𝑖 + ⋯ + 𝛽𝑝𝑥𝑖𝑝 + 𝛴j=1

𝑘 𝛾𝑗(𝑥𝑖 − 𝑘𝑗)+𝑝

Dengan p adalah derajat spline, (𝑥𝑖 − 𝑘𝑗)+ = 𝑚𝑎𝑘𝑠 {0, (𝑥𝑖 − 𝑘𝑗)}, 𝑘𝑗 dimana

𝑗 = 1, .. , K merupakan himpunan titik knot. Dengan menetapkan 𝛽 = = (𝛽0, … , 𝛽𝑝)

T adalah vektor koefisien parametrik, 𝜸=(𝛾1, … , 𝛾𝑘) T adalah vector koefisien

spline, = [1 𝑥𝑖 ⋯ 𝑥𝑝𝑖 ]1≤𝑖≤𝑛 , 𝑍 = [((𝑥𝑖 − 𝑘1 ) ⋯ (𝑥𝑖 − 𝑘𝐾)+

𝑝]]1≤𝑖≤𝑛 ,

Dengan (𝑥𝑖 − 𝑘𝑗)+𝑝

{= (xi − kj)+

𝑝 ≥ 𝑘𝑗

= 0 untuk 𝑥𝑖 < 𝑘𝑗

Sehingga model (2.7) dapat ditulis sebagai berikut:

𝑦𝑖 = 𝛽0 + 𝛽𝑖𝑥𝑖 + ⋯ + 𝛽𝑝𝑥𝑖𝑝 + 𝛴j=1

𝑘 (𝑥𝑖 − 𝑘𝑗)+𝑝

+ 𝑒i

Y = 𝑿𝜷 + 𝒁𝜸 + 𝒆 (2.7)

Dimana Y=(𝑦1, … , 𝑦𝑘)T

Model (2.7) disebut sebagai regresi spline smoothing (Opsomer, 2004). Dari

bentuk matematis fungsi spline pada model tersebut menunjukkan bahwa spline

merupakan model polinomial terputus, tetapi masih bersifat kontinu pada

knotknotnya. Knot dapat diartikan sebagai suatu titik fokus dalam fungsi spline


20

sedemikian sehingga kurva yang dibentuk tersegmen pada titik tersebut. Titik knot

merupakan salah satu hal yang sangat penting dalam pendekatan spline. Strategi

yang digunakan untuk memilih dan menentukkan lokasi knot dengan tepat sangat

dibutuhkan agar diperoleh model spline yang optimal. Jika jumlah knot terlampau

banyak maka model yang dihasilkan akan overfitting. Salah satu metode pemilihan

titik knot optimal adalah dengan menggunakan Generalized Cross Validation

(GCV).

Definisi GCV dapat ditulis sebagai berikut:

GCV ((𝑲)= MSE(K)

[n−1trace(I−A(K))]2

Dimana 𝑀𝑆𝐸(𝑲) = 𝑛 −1𝑦 𝑡 (𝑰 − 𝑨(𝑲)) 𝑇 (𝑰 − 𝑨(𝑲))𝒚, 𝑲 = (𝐾1,𝐾2, ⋯ ,𝐾𝑁)adalah

titik knot dan matriks 𝑨(𝑲) diperoleh dari persamaan 𝑦̂ = 𝐴(𝑲)𝒚.

2.5 Regresi Penalized Spline

Regresi penalized spline yaitu regresi yang diperoleh berdasarkan kuadrat

terkecil (least square) dengan penalty kekasaran. Penalized spline mempunyai

banyak kesamaan dengan smoothing spline, tetapi jenis penalty yang digunakan

pada penalized spline lebih umum dibandingkan pada smoothing spline (Ruppert,

2003).

Menurut Hall dan Opsomer (2005), regresi penalized spline merupakan suatu

pendekatan smoothing yang popular karena kesederhanaannya dan fleksibilitasnya.

Pemodelan penalized spline memberikan pemilihan knot yang fleksibel. Salah satu

alternatif untuk mengoptimalkan fit model terhadap data adalah dengan

menambahkan penalty pada parameter spline. Dengan cara ini dapat dipilih jumlah

knot yang banyak dan mencegah overfitting dengan menempatkan kendala


21

(constraint).

Terdapat dua komponen penting dalam mengestimasi penalized spline, yang

pertama adalah pemilihan karakter smoothing, sementara yang kedua adalah

pemilihan jumlah knot dan lokasinya (Yao dan Lee, 2008). Pada persamaan (2.6)

dapat dinyatakan ke dalam bentuk matriks yaitu:

𝒚 = 𝑿𝜷 + 𝒁𝜸 + 𝒆

Dimana

y=[

𝑦1

⋮𝑦𝑛

] , 𝑿 = [1 ⋯ 𝑥1 ⋯ 𝑥𝑘

𝑝

⋮ ⋱ ⋮ ⋱ ⋮1 ⋯ 𝑥𝑛 𝑥𝑖 𝑥𝑛

𝑝]],

𝒁 = [(x1 – k1)+

𝑝⋯ (x1 – k𝐾)+

𝑝

⋮ ⋱ ⋮(x𝑛 – k1)+

𝑝⋯ (x1 – k𝐾)+

𝑝],

𝜷=[

βo

⋮βp

], y=[

𝑦1

⋮𝑦𝑘

], dan 𝒆= [

𝑒1

⋮𝑒𝑛

]

Estimator penalized spline diperoleh dengan meminimumkan fungsi

penalized least square (PLS) sebagai berikut:

𝐿 = ‖𝒚 − 𝑿𝛽 − 𝒁𝛾‖ 2 + 𝜆𝜸 𝑇𝜸 (2.8)

Dengan memisalkan 𝑪 = [𝑿, 𝒁] dan Ӫ = [βγ], sehingga persamaan 9 dapat

ditulis sebagai berikut:

𝐿 = ‖𝒚 − 𝑪Ӫ‖ 2 + 𝜆Ӫ 𝑇𝑫Ӫ (2.9)

Dimana diketahui D merupakan matrik penalty


22

[ 0 0 0 0 0 ⋯ 0⋮ ⋮ 0 0 0 ⋯ 00 0 1 0 0 ⋯ 00 0 0 1 0 ⋯ 0⋮ ⋮ ⋮ ⋮ ⋮ ⋱ ⋮0 0 0 0 0 ⋯ 1]

= [𝟎(𝑝+1)×2 𝟎(𝑝+1)×𝐾

𝟎𝐾×(𝑝+1)×1 𝑰𝐾×𝐾]

Dengan parameter 𝜆 parameter smoothing, dimana 𝜆 ≥ 0. Suku pertama pada

persamaan 10 adalah jumlah kuadrat error dan suku keduanya adalah penalty

kekasaran. Menurut Djuraidah, et al (2006) Estimator penalized spline yang

diperoleh adalah

Ӫ ̂ = (𝑪 𝑇𝑪 + 𝜆𝑫) −1𝑪 𝑇𝒚 (2.10)

Dengan demikian didapatkan 𝒚 ̂ = 𝑪Ӫ ̂

𝒚 ̂ = (𝑪 𝑻𝑪 + 𝝀𝑫) −𝟏𝑪 𝑻𝒚 (2.11)

Berdasarkan uraian di atas, nilai �̂� bergantung pada parameter smoothing 𝜆.

Jika nilai 𝜆 besar akan menghasilkan bentuk kurva regresi yang sangat halus.

Sebaliknya, jika nilai 𝜆 kecil akan memberikan bentuk kurva regresi yang sangat

kasar. Akibatnya pemilihan parameter smoothing optimal perlu dilakukan. Dengan

menggunakan generalized cross-validation (GCV) yang didefinisikan sebagai

berikut:

GCV (𝜆)= 𝑛−1RSS( λ)

[1−𝑛−1dfλ)2 =

MSE(λ)

[𝑛−1tr(I−𝑆𝑘 )2 (2.12)

Dimana (𝜆) = 𝛴i=1𝑛 (𝑦𝑖 − �̂�𝑖)

2, 𝑑𝑓𝜆 = 𝑡𝑟(𝑺𝜆)

𝑺𝜆 = (𝑪 𝑻𝑪 + 𝝀𝑫) −𝟏𝑪 𝑻 yang disebut dengan matriks smoothing (Ruppert, et al.,

2003; Griggs,2013)

Pada penelitian ini untuk melakukan penentuan jumlah titik knot dapat

dilakukan dengan metode fixed selection method. Tujuan utama untuk semua


23

metode pemilihan knot Ƙ adalah untuk memastikan bahwa Ƙ cukup besar agar lebih

fleksibel ketika mengontrol kemulusan kurva yang diestimasi dengan smoothing

parameter. Tujuan lainnya adalah memilih Ƙ yang tidak terlalu besar agar waktu

perhitungan yang dibutuhkan tidak terlalu lama atau MSE yang lebih besar dari

seharusnya. Rumus fixed selection method didefinisikan sebagai berikut:

Ƙ = min( 1

4 ×banyaknya 𝑥𝑖 yang 𝑢𝑛𝑖𝑞𝑢𝑒, 35) (2.13)

Persamaan diatas merupakan metode yang umumnya digunakan untuk

pemilihan jumlah knot dan penentuan lokasi knot yang optimum ditentukkan

melalui kuantil ke-Ƙ𝑘 dari 𝑥𝑖 yang unique, dengan rumus sebagai berikut (Ruppert,

et al., 2003)

Ƙ𝑘 = ( k+1

K+2 ) , 𝑘 = 1,2, … , 𝐾 (2.14)

2.6 Pendugaan Area Kecil dengan Pendekatan Semiparametrik Penalized

Spline

Pendugaan area kecil (SAE) adalah pendekatan yang digunakan untuk

mengungkapkan hubungan antara variabel interest dengan variabel pendukung

sebagai model linear dengan tambahan pengaruh acak area kecil. Dimisalkan 𝜃

merupakan vektor dari parameter small area yang berukuran 𝑚×1 dan diasumsikan

vektor tersebut merupakan estimator langsung �̂�. Jika dinyatakan 𝑚×𝑞 adalah

matriks dari variabel penyerta dari level area 𝒙𝑖 = (𝒙1𝑖,2𝑖,…𝒙𝑝𝑖) 𝑻 sehingga model

SAE berbasis area dapat ditulis seperti persamaan (2.3) adalah sebagai berikut:

𝜽𝑖 = 𝑥𝑖𝑇𝜶 + 𝒃𝑖𝒗𝑖 + ; 𝑖 = 1,2, … , 𝑚 ; 𝑣𝑖~𝑁(0, 𝜎𝑣

2 )

dimana 𝑏𝑖 merupakan konstanta positif yang diketahui, 𝑣𝑖 adalah pengaruh


24

acak spesifik yang diasumsikan memiliki distribusi normal 𝑣𝑖~𝑁(0, 𝜎𝑣2 ). Menurut

Giusti et al (2012), model SAE berbasis area ini menghasilkan estimasi small area

yang terpercaya dengan mengkombinasikan model SAE dan model regresi yang

meminjam kekuatan dari domain lain, ketika asumsi ini tidak terpenuhi model SAE

level area menyebabkan estimator bias dari parameter daerah kecil. Spesifikasi

semiparametrik dari model SAE yang memungkinkan yaitu adanya hubungan

nonlinear antara �̂� dan variabel penyerta 𝑿, dapat diperoleh dengan menggunakan

pendekatan penalized spline.

Seperti pada persamaan (2.5), model semiparametrik dengan satu respon 𝑥1

dapat ditulis 𝑚 ̃(𝑥1) dimana fungsi dari 𝑚 ̃(.) tidak diketahui akan tetapi diasumsikan

cukup baik sehingga diberikan fungsi spline adalah sebagai berikut:

(𝑥1 ) = 𝛽0 + 𝛽𝑖𝑥1 + ⋯ + 𝛽𝑝𝑥 1𝑝+ ∑ γ𝑗

𝑘𝑗=1 (𝑥𝑖 − 𝑘𝑗)+

𝑝

Dengan 𝑝 adalah derajat spline, (𝑥𝑖 − 𝑘𝑗)+ = 𝑚𝑎𝑘𝑠 {0, (𝑥𝑖 − 𝑘𝑗)}, 𝑘𝑗 dimana 𝑗

= 1, … ,𝐾 merupakan himpunan titik knot. Dengan menetapkan 𝜷 = (𝛽0, … , 𝛽𝑝) 𝑇

adalah (𝑝 + 1) vektor koefisien fungsi polinomial, 𝜸=(𝛾1, … , 𝛾𝑘) 𝑇 adalah vektor

koefisien spline,

Dengan (𝑥𝑖 − 𝑘𝑗)+𝑝

{= (𝑥𝑖 − 𝑘𝑗)+

𝑝 untuk ≥ 𝑘𝑗

= 0 untuk 𝑥𝑖 < 𝑘𝑗

Menurut opsomer, et al (2008) model tersebut diindikasikan akan

overparameterized sehingga akan menyebabkan overfitting untuk menghindari hal

tersebut ditambahkan penalty pada parameter spline dengan meminimumkan fungsi

penalized least square sehingga didapatkan hasil sesuai dengan persamaan (2.10).


25

Pada penelitian ini pendekatan SAE dengan menggunakan penalized spline

sebagai efek random menghasilkan :

𝑦𝑖 = 𝑚(𝑿𝑖 ;𝜷) + 𝜺𝑖

= 𝑿𝑖 ∗ 𝜷+𝜺𝑖

= 𝑿𝑖𝜷 + 𝒁𝑖𝜸 + 𝜺𝑖 (2.15)

Dimana: 𝑿i𝜷 = 𝛽0 + 𝛽1𝑋𝑖 + ⋯ + 𝛽𝑝𝑋𝑖𝑝 (komponen parametrik yang

merupakan fixed component); 𝒁𝑖𝜸 = 𝑍1𝑖𝛾1 + ⋯ + 𝑍𝑘𝑖𝛾𝑘=((𝑋𝑖 − 𝐾1)+𝑝𝛽𝑝𝑖1 + ⋯ + (𝑋𝑖

– K1)+𝑝 𝛽𝑝𝑖𝐾 (deviasi dari komponen parametrik dengan random efek); dan 𝛾 = (𝛾1,

… , 𝛾𝑘 ) yang berasumsi mean 0 dan varians 𝜎𝑣2 . Model penalized spline merupakan

model random effect yang dapat dikombinasikan dengan model SAE berbasis area

agar mendapatkan estimasi pendugaan area kecil secara semiparametrik

berdasarkan linear mixed model. Dari persamaan (2.3) dan persamaan (2.14)

didapatkan model semiparametrik Fay-Herriot dapat ditulis:

sebagai berikut:

�̂� = [ 𝐗𝐗𝟏

][𝛼, 𝛽] + 𝒁𝛾 + 𝒃𝑣 + 𝑒 (2.16)

Menurut Giusti et al (2012), jika terdapat variabel lain yang perlu disertakan

dalam model, variabel tersebut dapat ditambahkan kedalam 𝑋 sebagai matriks efek

tetap. Opsomer (2004) menggunakan penalized spline untuk mengestimasi area

kecil dan menambahkan pengaruh acak kecil pada model sehingga didapatkan

persamaan:

�̂� = 𝑿𝛽 + 𝒁𝛾 + 𝒃𝑣 + 𝑒 (2.17)


26

Persamaan diatas terdiri dari fungsi spline yang merupakan fungsi

semiparametrik 𝑿𝛽 + 𝒁𝛾 dan pengaruh acak area kecil (𝒃𝑣). Nilai estimasi pada 𝛽 ̃

untuk regresi semiparametrik penalized spline untuk penduga area kecil dengan

menggunakan (MLE) sehingga didapatkan:

�̂� = (𝑿 𝑻𝑽 −𝟏𝑿) −𝟏𝑿 𝑻𝑽 −𝟏𝒀

Jika komponen varians tidak diketahui, maka setelah estimator 𝛽 dan

prediktor 𝛾 diperoleh, Estimasi komponen varians berdasarkan ML bias, maka

digunakan metode REML (Restricted Maximum Likelihood).

2.7 Best Linear Unbiased Prediction (BLUP) dan Empirical Best Linear

Unbiased Prediction (EBLUP)

Model small area terbagi menjadi model area level dan model unit level.

Metode BLUP dan EBLUP salah satu metode yang digunakan untuk

meminimumkan MSE. Pada metode BLUP, variansi pengaruh acak diasumsikan

telah diketahui. Sedangkan pada metode EBLUP nilai variansi pengaruh acak small

area tidak diketahui sehingga harus ditaksir dengan menggunakan metode

Maximum Likelihood (ML). Misalkan data memenuhi model linear campuran

berikut:

𝒀 = 𝑿𝜷 + 𝒁𝜸 + 𝒆 (2.18)

Dimana:

𝒚 adalah vektor data observasi berukuran 𝑛×1

𝑿 dan 𝒁 adalah matriks berukuran 𝑛×𝑝 dan 𝑛×ℎ yang diketahui


27

𝜸 dan 𝒆 adalah berdistribusi saling bebas dengan rataan 0 dan ragam 𝑮 dan 𝑹 yang

tergantung pada parameter 𝜹 = (𝛿1, … , 𝛿𝑞) 𝑇 , diasumsikan bahwa

𝜹 adalah himpunan bagian dari ruang Euclidean sedemikian sehingga:

𝑽𝒂𝒓(𝒚) = 𝑽 = 𝑽(𝜹) = 𝑹 + 𝒁𝑮𝒁 𝑻

Adalah non singular untuk semua 𝛿 yang terdapat dalam himpunan bagian

tersebut, dimana (𝒚) adalah matriks varians covarians dari 𝒚.

Parameter yang akan diduga merupakan kombinasi linear 𝝁 = 1lT𝜷+𝒎𝑻𝒗

(Rao,2003). Vektor 𝟏 dan 𝒎 adalah konstan. Penduga linear dari 𝜇 adalah 𝝁 ̂ = 𝒂

𝑻𝜷 + 𝒃 untuk 𝒂 dan 𝒃 diketahui. Sehingga penduga tak bias 𝝁

𝐸(�̂�) = 𝐸(𝜇)

𝐸 adalah ekpektasi, MSE �̂�didefinisikan sebagai 𝑀𝑆𝐸(�̂�) = 𝐸(�̂�− 𝜇) 2

Jika �̂� adalah penduga tak bias dari 𝜇, maka (�̂�) = (�̂�− 𝜇) 2 = 𝑉𝑎𝑟 (�̂�− 𝜇) 2

Estimator BLUP 𝜇 yang 𝛿 diketahui adalah sebagai berikut:

𝝁 ̃ 𝑯 = (𝜹, 𝒚) = 𝑰 𝑻�̃�+𝒎𝑻𝒗̃ = 𝑰 𝑻�̃� + 𝒎𝑻𝑮𝒁 𝑻𝑽 −𝟏 (𝒚 − 𝑿�̃�) (2.19)

Dimana

𝜷 ̃ = �̃�(𝜹) = (𝑿 𝑻𝑽 −𝟏𝑿) −𝟏𝑿 𝑻𝑽 −𝟏𝒚 (2.20)

merupakan best linear unbiased estimator (BLUE) dari 𝛽 dan

�̃� = 𝒗 ̃(𝜹) = 𝑮𝒁 𝑻𝑽 −𝟏 (𝒚 − 𝑿�̃�) (2.21)

Keterangan 𝐻 pada �̃� adalah Henderson yang mengusulkan persamaan (2.19)

Penduga BLUP tergantung pada ragam 𝛿 yang biasanya tidak diketahui. Jika 𝛿

diduga dengan 𝛿 ̃ = �̃�(𝑦), maka akan diperoleh empirical best linear unbiased


28

prediction (EBLUP) yang tetap merupakan penduga tak bias bagi 𝜇. Penduga 𝛿

diperoleh melalui metode ML atau REML (Rumiati, 2012).

Keterangan 𝐻 pada �̃� adalah Henderson yang mengusulkan persamaan (2.19)

Penduga BLUP tergantung pada ragam 𝛿 yang biasanya tidak diketahui. Jika 𝛿

diduga dengan 𝛿 ̃ = �̃�(𝑦), maka akan diperoleh empirical best linear unbiased

prediction (EBLUP) yang tetap merupakan penduga tak bias bagi 𝜇. Penduga 𝛿

diperoleh melalui metode ML atau REML (Rumiati, 2012).

2.8 Pendugaan MSE dengan menggunakan Metode Model Jacknife dan

Pendugaan MSE tidak langsung

Menurut Baillo dan Molina (2009), tujuan dari prosedur dan teknik yang

digunakan dalam SAE adalah untuk memperoleh estimasi dengan tingkat presisi

yang tinggi pada area kecil tersebut. Tingkat presisi estimator ini dapat

digambarkan oleh Mean Square Error (MSE). Penerapan jackknife pada SAE

dilakukan untuk mengkoreksi pendugaan MSE.

Fay dan Herriot (1979) mengembangkan model 𝑦𝑖 = xiT 𝛽 + 𝑣𝑖 + 𝑒𝑖 sebagai

dasar dalam pengembangan SAE. Untuk selanjutnya diasumsikan bahwa 𝛽 dan 𝜎𝑣2

tidak diketahui, akan tetapi 𝜎ei2 diketahui, dengan 𝛽𝑖 = 𝜎ei

2 /(𝜎𝑣2 + 𝜎ei

2 ) maka:

(θ̂i𝐸𝐵𝐿𝑈𝑃

) = (θ̂i𝐸𝐵𝐿𝑈𝑃

− 𝜃𝑖) 2

= (θ̂i𝐸𝐵𝐿𝑈𝑃

) +(𝑏𝑖𝑎𝑠(θ̂i𝐸𝐵𝐿𝑈𝑃

))2

Persamaan tersebut dapat diuraikan menjadi:

(θ̂i𝐸𝐵𝐿𝑈𝑃

) = (θ̂i𝐸𝐵𝐿𝑈𝑃

) + (θ̂i𝐸𝐵𝐿𝑈𝑃

− θ̂i𝐸𝐵𝐿𝑈𝑃

) 2 (2.22)

Metode jackknife pertama kali diperkenalkan oleh tukey pada tahun 1958 dan


29

kemudian berkembang sebagai suatu metode untuk mengoreksi bias pada suatu

estimator. Dengan melakukan penghapusan terhadap observasi ke-𝑖 untuk 𝑖 = 1,2,

… , 𝑚 dan kemudian dilakukan pendugaan parameter misal �̂� (𝑖) , maka penduga

bias diduga dengan:

𝑏𝑖𝑎𝑠 (�̂�) = (𝑚 − 1)[�̂� (.) − �̂�]

�̂� (.) = 𝑚−1 ∑ θ̂ (i)𝑚𝑖

Penduga jackknife diperoleh dari

�̂� 𝑗𝑎𝑐𝑘 = �̂� − (�̂�) dan (�̂�) = (n−1

n) ∑ [𝑚

𝑖 θi − 𝜃] 2

Penerapan jackknife pada SAE dilakukan untuk mengkoreksi pendugaan

MSE akibat adanya pendugaan 𝛼 dan 𝜎𝑣 2 . Persamaan (2.19) setara dengan 𝑔1𝑖

(𝜎𝑣 2 ) + (𝑏𝑖𝑎𝑠) 2 jika 𝜎𝑣2 diduga.

Dengan 𝑢 adalah banyak replikasi jackknife dan 𝑖 adalah banyak data, maka

prosedur jackknife (θ̂i𝐸𝐵𝐿𝑈𝑃

) pendugaan tidak langsung berdasarkan persamaan

(2.21) adalah sebagai berikut:

1. 𝑀𝑆𝐸(θ̂i𝐸𝐵𝐿𝑈𝑃

) didekati oleh:

(�̂�𝑖) = ℎ1𝑖 + ℎ2𝑖

2. Menduga variansi 𝑀𝑆𝐸(θ̂i𝐸𝐵𝐿𝑈𝑃

) dengan menghitung:

ℎ1𝑖 = 𝑔1𝑖 (𝑆v2 ) − (

m−1

m ) ∑ [𝑚

𝑢=1 𝑔1(𝑆v2 (−𝑢) − 𝑔1𝑖(𝑆v

2 )]

Dimana 𝑔1(𝑆v2

(−𝑢)) diperoleh dengan menghapus pengamatan ke- 𝑢 pada

himpunan data 𝑔1𝑖(𝑆v2 ) dan 𝑢 = 1,2, … , 𝑚. Dengan:

𝑆v2 = (𝑚 − 1) −1 ∑ 𝑖 (𝑦𝑖 − �̅�) 2 − 𝜎𝑒

2

𝑆v2 (−𝑢) = (𝑚 − 2) −1 ∑I(−𝑢) (𝑦𝑖 − �̅�(−𝑢))

2 − 𝜎𝑒2


30

3. Menduga 𝐸(θ̂i𝐸𝐵𝐿𝑈𝑃

− θ̂i𝐸𝐵𝐿𝑈𝑃

) 2 dengan menghitung:

ℎ2𝑖 = (m−1

m ) ∑ [𝑚

𝑢=1 (�̂� (−𝑢)) − (�̂� 𝑖)]2

Dimana (�̂� (−𝑢)) diperoleh dengan menghapus pengamatan ke-𝑢 pada

himpunan data (�̂� 𝑖) Untuk membandingkan hasil estimasi tidak langsung pada

small area estimation dapat menggunakan nilai MSE dengan metode pendugaan

langsung dengan resampling jackknife.

Nilai MSE pendugaan langsung dengan 𝑢 adalah banyak replikasi jackknife

dan 𝑖 adalah banyak data, maka prosedur jackknife pendugaan langsung

berdasarkan persamaan (2.21) adalah sebagai berikut:

1. 𝑀𝑆𝐸 pendugaan langsung didekati oleh:

𝑀𝑆𝐸𝑖 ( ) = ℎ1𝑖 + ℎ2𝑖

2. Menduga variansi 𝑀𝑆𝐸 pendugaan langsung dengan menghitung:

ℎ1𝑖 = 𝑔1𝑖 (𝑆v2 ) − (

m−1

m) ∑ [𝑚

𝑢=1 𝑔1(𝑆v2 (−𝑢) − 𝑔1𝑖(𝑆v

2 )]

Dimana 𝑔1(𝑆v2 (−𝑢) diperoleh dengan menghapus pengamatan ke- 𝑢 pada

himpunan data 𝑔1𝑖 (𝑆v2 ) dan 𝑢 = 1,2, … , 𝑚. Dengan:

𝑆v2 = (𝑚 − 1) −1 ∑ (𝑦𝑖 − �̅�) 2 − 𝜎𝑒 2 𝑖

𝑆v2 (−𝑢) = (𝑚 − 2) −1 ∑I(−𝑢) (𝑦𝑖 − �̅�(−𝑢))

2 − 𝜎𝑒2

3. Menduga nilai ℎ2𝑖 dengan menghitung:

ℎ2𝑖 = − (m−1

m) ∑ [𝑚

𝑢=1 ((−𝑢))− (𝑦𝑖)]2

Dimana ((−𝑢)) diperoleh dengan menghapus pengamatan ke-𝑢 padahimpunan

data ( ). Nilai RMSE diperoleh setelah mendapatkan nilai MSE melalui persamaan

(2.22)


31

𝑅𝑅𝑀𝑆𝐸 (�̂� 𝑖) = √𝑀𝑆𝐸 (θ̂ i)

θ̂ i × 100%


11


bab ii tinjauan pustaka 2.1 pengeluaran per kapita

Documents