Download - THEIL'S METHOD
1
REGRESI LINEAR NON PARAMETRIK
MELALUI METODA THEIL
Oleh
SOEMARTINI , Dra,.MS
JURUSAN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS PADJADJARAN
BANDUNG
2008
2
DAFTAR ISI
BAB I PENDAHULUAN
1.1 Latar Belakang Masalah ................................................................... 1
1.2 Identifikasi Masalah ................................................................................. 2
1.3 Maksud dan Tujuan .................................................................................. 2
BAB II LANDASAN TEORI ....................................................................................3
2.1 Pendahuluan ............................................................................................... 3
2.2 Estimasi Model regresi................................................................................ 3
2.3 Pengujian Model Regresi Secara Overall ................................................... 4
2.4 Pengujian Koefisien Regresi Slope .............................................................5
2.5 Interval Kepercayaan Koefisien Slope ...................................................... 6
BAB III ANALISIS DATA ......................................................................................8
3.1 Penjelasan Data ...........................................................................................8
3.2 Estimasi Model regresi ................................................................................9
3.3 Pengujian Model Regresi Secara Overall ..................................................10
3.4 Pengujian Koefisien Regresi Slope .........................................................11
3.5 Interval Kepercayaan Koefisien Slope .....................................................12
BAB IV KESIMPULAN DAN SARAN ...................................................................13
4.1 Kesimpulan ................................................................................................14
4.2 Saran ..........................................................................................................14
DAFTAR PUSTAKA .................................................................................................15
LAMPIRAN ................................................................................................................16
i
3
BAB I
PENDAHULUAN
1.1 Latar Belakang Masalah
Analisa regresi adalah Analisis statistik yang mempelajari bagaimana
membangun sebuah model fungsional dari data untuk dapat menjelaskan ataupun
meramalkan suatu fenomena alami atas dasar fenomena yang lain. Analisa regresi
merupakan salah satu teknik statistik yang digunakan secara luas dalam ilmu
pengetahuan terapan. Regresi di samping digunakan untuk mengetahui bentuk
hubungan antar peubah regresi, juga dapat dipergunakan untuk peramalan.
Dengan menggunakan n pengamatan untuk suatu model linier sederhana:
0 1 1iY Xβ β= + +Ei
dengan Yi adalah peubah tidak bebas
Xi adalah peubah bebas dengan i = 1,2,...,n
0β dan 1β adalah parameter-parameter yang tidak diketahui
Ei adalah Disturbance error
Diberlakukan asumsi-asumsi model ideal tertentu terhadap galat e yaitu bahwa galat
menyebar NID (0, 2σ ). Dengan pemenuhan terhadap asumsi kenormalan dapat
digunakan regresi parametrik untuk mengetahui bentuk hubungan antar peubah regresi
pada data contoh yang diamati.
Dalam praktek, penyimpangan terhadap asumsi-asumsi itu sering terjadi dan
terkadang peubah acak yang diamati tidak dapat dianggap menyebar normal. Dari segi
statistika persoalan tersebut harus dapat diselesaikan dengan menggunakan teknik
statistika. Dalam statistika parametrik, teknik-teknik yang digunakan berhubungan
dengan pendugaan parameter serta pengujian hipotesis yang berhubungan dengan
parameter-parameternya. Asumsi-asumsi yang digunakan pada umumnya
menspesifikasikan bentuk sebarannya.
4
Salah satu analisis alternatif lain yang dapat digunakan adalah dengan regresi
nonparametric karena dalam regresi nonparametrik tidak diperlukan pemenuhan asumsi
kenormalan.
1.2 Identifikasi masalah
Dalam kenyataanya, penyimpangan terhadap asumsi-asumsi itu sering terjadi
dan terkadang peubah acak yang diamati tidak dapat dianggap menyebar normal.
Dari segi statistika persoalan tersebut harus dapat diselesaikan dengan
menggunakan teknik statistika. Dalam statistika parametrik, teknik-teknik yang
digunakan berhubungan dengan pendugaan parameter serta pengujian hipotesis
yang berhubungan dengan parameter-parameternya. Jadi identifikasi masalah pada
makalah ini adalah untuk mengetahui penyelasian model regresi dengan statistika
non-parametrik
Maksud dan Tujuan
Maksud dan tujuan dari penulisan makalah ini adalah untuk memperoleh model
analisis regresi, pengujian model dan interval kepercayaannya bila asumsi
parametrik tidak terpenuhi. Dalam hal ini metode yang kita ambil adalah
menyelesaikan masalh persamaan regresi non-parametrik dengan menggunakan
Metode Theil.
5
BAB II
LANDASAN TEORI
2.1 Pendahuluan
Menurut Daniel (1989) dalam banyak hal, pengamatan-pengamatan yang akan
dikaji tidak selalu memenuhi asumsi-asumsi yang mendasari uji-uji parametrik
sehingga kerap kali dibutuhkan teknik-teknik inferensial dengan validitas yang tidak
bergantung pada asumsi-asumsi yang kaku. Dalam hal ini, teknik-teknik dalam regresi
nonparametrik memenuhi kebutuhan ini karena tetap valid walaupun tidak diperlukan
pemenuhan asumsi kenormalan galat dan hanya berlandaskan asumsi-asumsi yang
sangat umum.
Conover (1980) menjelaskan bahwa penggunaan regresi nonparametric
dilandasi pada asumsi :
a. contoh yang diambil bersifat acak dan kontinu ;
b. regresi (Y|X) bersifat linier;
c. semua nilai Xi saling bebas.
d.data diasumsikan tidak berdistribusi normal
2.2 Estimasi Model
Metode Theil Untuk Regresi Linier Sederhana Nonparametrik
Misalkan ada n pasangan pengamatan, katakan (X1,Y1 ), (X2,Y2),…..,(Xn,Yn),
persamaan regresi linier sederhana adalah :
i 0 1 1 iY = + X +β β ε
dengan 0β adalah intercept (titik potong)
1β adalah slope (kemiringan) dari garis tersebut
Xi adalah peubah bebas
Yi adalah nilai teramati dari peubah Y (Hines dan Montgomery, 1990).
6
Theil (1950) dalam Sprent (1991) mengusulkan koefisien kemiringan (slope)
garis regresi sebagai median kemiringan dari seluruh pasangan garis dari titik-titik
dengan nilai X yang berbeda, selanjutnya disebut dengan metode Theil. Untuk satu
pasangan (Xi ,Yi ) dan (Xj ,Yj ) koefisien kemiringannya adalah :
j iij
j i
Y Yb
X X
−=
−
untuk i < j dan Xi ≠ Xj .
Penduga bagi 1β kita notasikan dengan 1̂β dinyatakan sebagai median dari nilai-nilai
bij sehingga :
1̂β = median ( ijb )
sedangkan penduga bagi 0β adalah 0β̂
0β̂ = med (Yi) - 1̂β med (Xi)
med(Xi) adalah median dari seluruh pengamatan dan med(Yi) adalah pasangan
nilai pengamatan untuk med(Xi) (Sprent,1991).
2.3 Pengujian Koefisien Regresi Secara Overall
Statistik uji yang digunakan :
0
2(2 5)9 ( 1)
=Koefisien kendall
T
T
T
T
Z
nn n
τ µσ
µ
σ
τ
−=
=
+=−
Hipotesis yang digunakan untuk menguji keberartian model regresi adalah :
1
: 0 tidak terdapat hubungan antara variable XdanY
: 0 terdapat hubungan antara variable XdanYi
i
Ho
H
ββ
= ≈= ≈
7
Z
Kriteria uji : Tolak Ho jika p /2, terima dalam hal lainα≤
2.4 Pengujian Koefisien Slope ( 1β )
Metode Theil untuk Pengujian Koefisien Kemiringan
Daniel (1989) menjelaskan bahwa pengujian koefisien kemiringan dengan
menggunakan metode Theil disusun berdasarkan statistik τ Kendall dan digunakan
untuk mengetahui bentuk hubungan peubah-peubah regresi.
Asumsi-asumsi yang melandasi pengujian pada koefisien kemiringan adalah :
a. persamaan regresinya adalah : i 0 1 1 iY = + X +β β ε , i=1,…,n dengan Xi peubah bebas,
0β dan 1β adalah parameter-parameter yang tidak diketahui;
b. untuk masing-masing nilai X i terdapat nilai Y i ;
c. Y i adalah nilai yang teramati dari Y yang acak dan kontinu untuk nilai X i;
d. semua nilai X i saling bebas dan kita menetapkan X1 < X2 <…< Xn. ;
e. nilai-nilai iε saling bebas dan berasal dari populasi yang sama.
Hipotesis-hipotesis yang melandasi pengujian ini adalah :
a. dua arah : H0 : 0β = 1β (0) H1 : 0β ≠ 1β (0);
Seperti yang telah dijelaskan, prosedur yang diuraikan disusun berlandaskan
statistik τ Kendall, sehingga statistik ujinya adalah :
1 Parsial untuk koefisien regresi
a. tidak ada angka sama:
�̂ 0.5 ( 1)
n banyak pasanganb. ada angka sama:
�̂ 0.5 ( 1) 0.5 ( 1)
n banyak pasangan
0.5 ( 1)
0.5 (
x y
x
y
Uji
Jika
P Qn n
Jika
P Qn n T n n T
T t t
T t t
β
−=−
=
−=− − − −
== −
= −�
1)
t observasi angka sama=�
8
dengan τ̂ = statistik uji τ Kendall
P = banyaknya pasangan berurutan wajar
Q = banyaknya pasangan berurutan terbalik
Kaidah pengambilan keputusan untuk ketiga pasangan hipotesis diatas adalah
sebagai berikut :
a. dua arah : ˆ ( , / 2), tolak Ho
ˆ ( , / 2), terima Ho
n
n
τ τ ατ τ α
>
≤
( , / 2)nτ α adalah harga-harga kritis dalam tabel statistik uji τ Kendall.
Pengujian koefisien kemiringan ini dengan membuat statistik tataan dan
memperbandingkan semua hasil pengamatan menurut nilai-nilai X (Daniel, 1989).
2.5 Interval Kepercayaan Koefisien Regresi Slope
Metode pembentukan interval kepercayaan terhadap koefisien kemiringan ini
dilandaskan pada prosedur pengujian hipotesis Theil untuk 1β , sedangkan asumsi-
asumsi yang mendasari prosedur pengujian hipotesis ini juga berlaku pada
pembentukan interval kepercayaan (1-�) bagi 1β .
Lebih lanjut Daniel(1989) menjelaskan bahwa konstanta untuk interval
kepercayaan adalah :
2 ( , / 2) 2
2n nC S
k α− −=
dengan k = konstanta untuk interval kepercayaan
2n C = banyaknya nilai b ij yang mungkin dari n pasangan pengamatan
( , / 2)nS α = titik kritis τ Kendall untuk n pasangan pengamatan pada taraf � .
Berdasarkan nilai konstanta tersebut akan diperoleh ˆLβ sebagai batas bawah
interval kepercayaan untuk 1β dan ˆUβ sebagai batas atas interval kepercayaan untuk
9
1β . ˆLβ adalah nilai bij ke-k yang dihitung dari nilai yang paling kecil dalam statistik
tataan bagi nilai bij. ˆUβ adalah nilai bij ke-k yang dihitung mundur dari nilai yang paling
besar dalam statistik tataan tersebut.
Interval kepercayaan untuk 1β dengan suatu koefisien kepercayaan (1- �)
adalah:
P( ˆLβ < 1β < ˆ
Uβ ) = 1- � (6)
dengan C adalah kependekan dari confidence (kepercayaan) dan menunjukkan bahwa
ekspresi ini lebih merupakan suatu pernyataan kepercayaan daripada suatu pernyataan
probabilitas (Daniel, 1989).
10
BAB III
ANALISIS DATA
3.1 Penjelasan Data
Data Yang digunakan dalam makalah ini adalah mengenai model ransel
berdasarkan harga yang dipengaruhi ukuran ransel. Data disajikan dalam tabel di
bawah ini. Data di bawah diasumsikan tidak berdistribusi normal dengan �= 5%.
Kemudian. data ini digunakan hanya untuk aplikasi menyelesaikan teori yang sudah
dijelaskan di atas.
Tabel 3.1
No X Y 1 9 17 2 8 14 3 7 15 4 5 16 5 6 18 6 10 19 7 11 20 8 12 21 9 8 25 10 7 24 11 5 18 12 3 14 13 6 14 14 2 9 15 6 16 16 8 23 17 7 18
18 7 12 19 7 12 20 7 17 21 9 15 22 5 10
Keterangan:
Y = Harga Ransel(US $);
X = Ukuran Ransel (Inchi);
11
Metode Estimasi yang digunakan dalam penelitian ini adalah regresi sederhana metoda
theil , dengan spesifikasi model sebagai berikut :
Ýi = β0 + β1 X1 +εi
3.2 Model Regresi
Untuk Mendapatkan Model Regresi non-parametrik kita meggunakan metode Theil
engan rumusan :
j iij
j i
Y Yb
X X
−=
−
untuk i < j dan Xi ≠ Xj .
Di dapat :
1
2
3
11
(17,9 15,8)0.6
(14,1 8, 2)(13.2 14.6)
-0.5(14.2 10.4)(15.1 16.1)
-0.5(14.6 10.6)
............................
...........................(17.7 18.8)
0.6(18.1 14.0)
b
b
b
b
−= =−−= =−−= =−
−= =−
Hasilnya bisa dilihat dalam Lampiran 1
Penduga bagi 1β kita notasikan dengan 1̂β dinyatakan sebagai median dari
nilai-nilai bij sehingga :
1̂β = median ( ijb )
1̂β =-0.6
sedangkan penduga bagi 0β adalah 0β̂
0β̂ = med (Yi) - 1̂β med (Xi)
0β̂ =16.5 - (0.6 x 7)
12
0β̂ = 12.3 Sehingga didapat model :
1ˆ 12.3+0.6 XiY =
Artinya adalah :
1. Bahwa variabel Y atau dalam hal ini adalah Harga ransel rata-rata
sebesar $ 12.3 dengan anggapan variabel lainnya konstan.
2. Setiap penambahan 1 satuan variabel X1 maka Y akan berkurang sebesar
0.6 satuan.
Tetapi model regresi diatas belum dapat dikatakan sebagai model regresi
terbaik. Untuk itu selain harus diidentifikasi terlebih dahulu perlu dilihat apakah
model tersebut koefisiennya berarti atau tidak dengan uji hipotesis.
3.3 Pengujian model secara overall
Hipotesis yang diuji :
1
: 0 tidak terdapat hubungan antara variable XdanY
: 0 terdapat hubungan antara variable XdanYi
i
Ho
H
ββ
= ≈= ≈
Statisitika ujinya:
0
2(2 5)9 ( 1)
=Koefisien kendall
T
T
T
T
Z
nn n
τ µσ
µ
σ
τ
−=
=
+=−
=0.384312142τ
2(2 22 5)0.153522062
9 22(22 1)T
xx
σ += =−
0.384312142 - 02.503302367
0.153522062Z = =
13
Z
z
Kriteria uji : Tolak Ho jika p /2, terima dalam hal lain
p =P(Z=2.5033023)=1-(0.5 x 0.4938)=0.0062
/2=0.025
α
α
≤
Kesimpulan :
Ternyata P= 0.0062 < /2=0.025α maka Ho ditolak artinya model ini bisa
digunakan untuk menyatakan hubungan antara variable harga ransel (x) dan dengan
variable ukuran ransel (y.)
3.4 Pengujian Koefisen Regresi Slope ( 1β )
Hipotesis Yang akan diuji :
H0 : 1β =0 H1 : 1β ≠ 0
Statistik uji
1 Parsial untuk koefisien regresi
a. tidak ada angka sama:
ˆ � 0.5 ( 1)
n banyak pasangan
b. ada angka sama:
ˆ � 0.5 ( 1) 0.5 ( 1)
n banyak pasangan
x y
Uji
Jika
P Qn n
Jika
P Qn n T n n T
β
−=−
=
−=− − − −
=
x
y
T =0.5 t(t-1)
T =0.5 t(t-1)
t =observasi angka sama
�
�
Perhitungannya :
21 15 .... 0 151
0 3 .... 0 69
P
Q
= + + + =
= + + + =�
�
n=22
50
20
Tx
Ty
=
=�
�
14
Hasilnya bisa dilihat pada lampiran 2
151 69ˆ 0.384312142(0.5 22(22 1)) 2 x(0.5 22(22 1)) 8x x
τ −= =− − − −
Kriteria uji :
ˆ ( , / 2), tolak Ho
ˆ ( , / 2), terima Ho
n
n
τ τ ατ τ α
>
≤
(22,0.025)τ =0.190
Kesimpulan :
Ternyata τ̂ =0.384312142 berada di luar interval -0.190 sampai 0.190 , maka
Ho ditolak artinya mengindikasikan bahwa koefisien slope berarti sehingga
kesimpulannya ukuran ransel sangat berpengaruh terhadap harga ransel.
3.5. Interval Kepercayaan Koefisien Regresi Slope
Konstanta untuk interval kepercayaannya adalah :
2 ( , / 2) 2
2n nC S
k α− −=
2n C =11 pasang
( , / 2)nS α =0,190
11 0,190 24.4905
2k
− −= =
Jadi nilai k = 4 hasil pembulatan dari 4,4905
ˆLβ = -0.33333333
ˆUβ =1
Jadi interval kepercayaan untuk 1β adalah diantara -0,333333 sampai 1. artinya kita yakin 95 % bahwa Koefisen regresi slope akan berada dalam interval -0,33333< 1β < 1 .
15
BAB IV
PENUTUP
Dalam dunia statistika terdapat berbagai macam alat untuk menyelesaikan suatu
masalah. Salah satunya adalah mencari model regresi apabila asumsi statistika
parametrik terpenuhi maka kita bisa menggunakan metoda OLS (Ordinary Least Square)
untuk mencari taksirannya tetapi jika data diasumsikan tidak berdistribusi normal yaitu
pelanggran dari parametrik maka kita harus menggunakan non parametrik maka dalam
penyelesaian model regresi non parametriknya dengan meggunakan metode theil.
Walaupun model regresi non parametriknya ada tetapi tidak bisa digunakan sebagai
peramalan. Hasil model non parametrik jika hasilnya Dibandingkan dengan regresi
parametrik hasilnya akan berbeda.
16
DAFTAR PUSTAKA Hj. Ngadiman,Titty dkk.2005.Statistika Tak Parametrik.Bandung.
Daniel,W.W. 1989. Statistika Nonparametrik Terapan, Gramedia, Jakarta.
A Non Parametric Linear Regression With TheiL’s Methods.Internet
Kajian Teori Regresi Parametrik Normal dan Regresi Non Parametrik.Internet
17
Lampiran 1
Tabel X nilai kecil Tabel X nilai besar
No x y
1 2 9
2 3 14
3 5 16
4 5 18
5 5 10
6 6 18
7 6 14
8 6 16
9 7 15
10 7 24
11 7 18
Tabel b ij
No
1 0.6
2 -0.5
3 0.5
4 -1.333
5 5
6 2.5
7 1
8 -0.333
9 1.3333
10 -1
11 0.6
No x y
12 7 12
13 7 12
14 7 17
15 8 14
16 8 25
17 8 23
18 9 17
19 9 15
20 10 19
21 11 20
22 12 21
18
Lampiran 2
Tabel Nilai P dan Q No x y P Q
1 2 9 21 0
2 3 14 15 3
3 5 16 11 7
4 5 18 6 10
5 5 10 17 0
6 6 18 6 9
7 6 14 12 2
8 6 16 9 5
9 7 15 9 3
10 7 24 1 11 11 7 18 5 5 12 7 12 9 0 13 7 12 9 0 14 7 17 5 2 15 8 14 7 0 16 8 25 0 6 17 8 23 0 5 18 9 17 3 1 19 9 15 3 0 20 10 19 2 0 21 11 20 1 0 22 12 21 0 0
total 155 367 151 69 Tabel jumlah angka kembar X Tabel jumlah angka kembar Y
TY
Yi t t(t-1)
12 2 2
14 3 6
15 2 2
16 2 2
17 2 2
18 3 6
Ty 20
TX
Xi t t(t-1)
5 3 6
6 3 6
7 6 30
8 3 6
9 2 2
Tx 50
19
Lampiran 3 (Jurnal )
A Non-Parametric Linear Regression with
Theil's Method
Theory
Whenever the commonly used least-squares regression method is used for fitting an
equation into a set of (x,y)-data points, all errors in the y-direction are normally
distributed (i.e. the follow a gaussian distribution).
Non-parametric (or distribution-free) statistical methods are those, which make no
assumptions about the population distribution from which the data are taken.
A simple, non-parametric approach to fit a straight line to a set of (x,y)-points is the
'Theil's incomplete method', so called to distinguish this approach from another more
complex procedure (the 'complete method') developed by the same author.
Theil's 'Incomplete method' assumes that points (x1, y1), (x2, y2) . . . (xN, yN) are
described by the equation
y = a + bx
The calculation of a and b takes place as follows:
1st step: All N data points are ranked in ascending order of x-values.
2nd step: The data are separated into two equal size (m) groups, the low (L) and the high
(H) group. If N is odd the middle data point is not included to either group (hence: N =
2m or N = 2m+1).
3rd step: The slope bi of the line connecting the i-th point of group L with i-th point of
group H is calculated for all points of each group, i.e.
H Lij
H L
Y Yb
X X−=−
20
4th step: The median of the m slope values b1, b2, . . . bm is calculated and it is taken as
the best estimate of the slope (b) of the line, i.e. b = median(b1, b2, . . . bm).
5th step: For each data point (xi,yi) the value of intercept ai is calculated using the
previously calculated slope b, i.e.
a= med (Yi) - 1̂β med (Xi)
The method described for the estimation of a and b has the following distinct advantages
over the commonly used least-squares linear regression:
(i) It does not assume that all the errors are only in the y-direction.
(ii) It does not assume that either the x- or y-direction errors are normally distributed (i.e.
it is a typical non-parametric method).
(iii) It is not affected by the presence of outlying data points (i.e. it is a 'robust method'').
The main disadvantage of the described non-parametric method is its algorithmic nature,
i.e. no specific equations are provided for the direct calculation of a and b, as in the case
of least-squares regression [see Applet: Least-Squares Polynomial Approximation].
Instead, specific and repetitive steps must be made, a fact that makes manual calculations
tedious. The use of a computer program (e.g. a spreadsheet) is necessary, particularly
when many (x, y)-data points are involved.
Applet
This applet demonstrates the Theil's non-parametric method of fitting the equation y = a
+ bx to manually introduced (x, y)-data points and provides a visual comparison with the
corresponding least-squares method. Simply, the user must left-click N (4�N�200) data
points on the plot area. The corresponding lines (green for the non-parametric regression,
red for the least squares regression) appear soon after 4 data points have been clicked.
The corresponding (for each approach) estimated slope (b) and intercept values (a) are
shown in the corresponding (for each method) text fields.
21
One can test the robustness of the non-parametric regression, by clicking outlying data points. In the figure above is
shown a typical plot, where one outlying data point makes the least-squares line to pass closer to it, whereas the non-
parametric method seems like ignoring its presence.