Download - THEIL'S METHOD

1

REGRESI LINEAR NON PARAMETRIK

MELALUI METODA THEIL

Oleh

SOEMARTINI , Dra,.MS

JURUSAN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS PADJADJARAN

BANDUNG

2008

2

DAFTAR ISI

BAB I PENDAHULUAN

1.1 Latar Belakang Masalah ................................................................... 1

1.2 Identifikasi Masalah ................................................................................. 2

1.3 Maksud dan Tujuan .................................................................................. 2

BAB II LANDASAN TEORI ....................................................................................3

2.1 Pendahuluan ............................................................................................... 3

2.2 Estimasi Model regresi................................................................................ 3

2.3 Pengujian Model Regresi Secara Overall ................................................... 4

2.4 Pengujian Koefisien Regresi Slope .............................................................5

2.5 Interval Kepercayaan Koefisien Slope ...................................................... 6

BAB III ANALISIS DATA ......................................................................................8

3.1 Penjelasan Data ...........................................................................................8

3.2 Estimasi Model regresi ................................................................................9

3.3 Pengujian Model Regresi Secara Overall ..................................................10

3.4 Pengujian Koefisien Regresi Slope .........................................................11

3.5 Interval Kepercayaan Koefisien Slope .....................................................12

BAB IV KESIMPULAN DAN SARAN ...................................................................13

4.1 Kesimpulan ................................................................................................14

4.2 Saran ..........................................................................................................14

DAFTAR PUSTAKA .................................................................................................15

LAMPIRAN ................................................................................................................16

i

3

BAB I

PENDAHULUAN

1.1 Latar Belakang Masalah

Analisa regresi adalah Analisis statistik yang mempelajari bagaimana

membangun sebuah model fungsional dari data untuk dapat menjelaskan ataupun

meramalkan suatu fenomena alami atas dasar fenomena yang lain. Analisa regresi

merupakan salah satu teknik statistik yang digunakan secara luas dalam ilmu

pengetahuan terapan. Regresi di samping digunakan untuk mengetahui bentuk

hubungan antar peubah regresi, juga dapat dipergunakan untuk peramalan.

Dengan menggunakan n pengamatan untuk suatu model linier sederhana:

0 1 1iY Xβ β= + +Ei

dengan Yi adalah peubah tidak bebas

Xi adalah peubah bebas dengan i = 1,2,...,n

0β dan 1β adalah parameter-parameter yang tidak diketahui

Ei adalah Disturbance error

Diberlakukan asumsi-asumsi model ideal tertentu terhadap galat e yaitu bahwa galat

menyebar NID (0, 2σ ). Dengan pemenuhan terhadap asumsi kenormalan dapat

digunakan regresi parametrik untuk mengetahui bentuk hubungan antar peubah regresi

pada data contoh yang diamati.

Dalam praktek, penyimpangan terhadap asumsi-asumsi itu sering terjadi dan

terkadang peubah acak yang diamati tidak dapat dianggap menyebar normal. Dari segi

statistika persoalan tersebut harus dapat diselesaikan dengan menggunakan teknik

statistika. Dalam statistika parametrik, teknik-teknik yang digunakan berhubungan

dengan pendugaan parameter serta pengujian hipotesis yang berhubungan dengan

parameter-parameternya. Asumsi-asumsi yang digunakan pada umumnya

menspesifikasikan bentuk sebarannya.

4

Salah satu analisis alternatif lain yang dapat digunakan adalah dengan regresi

nonparametric karena dalam regresi nonparametrik tidak diperlukan pemenuhan asumsi

kenormalan.

1.2 Identifikasi masalah

Dalam kenyataanya, penyimpangan terhadap asumsi-asumsi itu sering terjadi

dan terkadang peubah acak yang diamati tidak dapat dianggap menyebar normal.

Dari segi statistika persoalan tersebut harus dapat diselesaikan dengan

menggunakan teknik statistika. Dalam statistika parametrik, teknik-teknik yang

digunakan berhubungan dengan pendugaan parameter serta pengujian hipotesis

yang berhubungan dengan parameter-parameternya. Jadi identifikasi masalah pada

makalah ini adalah untuk mengetahui penyelasian model regresi dengan statistika

non-parametrik

Maksud dan Tujuan

Maksud dan tujuan dari penulisan makalah ini adalah untuk memperoleh model

analisis regresi, pengujian model dan interval kepercayaannya bila asumsi

parametrik tidak terpenuhi. Dalam hal ini metode yang kita ambil adalah

menyelesaikan masalh persamaan regresi non-parametrik dengan menggunakan

Metode Theil.

5

BAB II

LANDASAN TEORI

2.1 Pendahuluan

Menurut Daniel (1989) dalam banyak hal, pengamatan-pengamatan yang akan

dikaji tidak selalu memenuhi asumsi-asumsi yang mendasari uji-uji parametrik

sehingga kerap kali dibutuhkan teknik-teknik inferensial dengan validitas yang tidak

bergantung pada asumsi-asumsi yang kaku. Dalam hal ini, teknik-teknik dalam regresi

nonparametrik memenuhi kebutuhan ini karena tetap valid walaupun tidak diperlukan

pemenuhan asumsi kenormalan galat dan hanya berlandaskan asumsi-asumsi yang

sangat umum.

Conover (1980) menjelaskan bahwa penggunaan regresi nonparametric

dilandasi pada asumsi :

a. contoh yang diambil bersifat acak dan kontinu ;

b. regresi (Y|X) bersifat linier;

c. semua nilai Xi saling bebas.

d.data diasumsikan tidak berdistribusi normal

2.2 Estimasi Model

Metode Theil Untuk Regresi Linier Sederhana Nonparametrik

Misalkan ada n pasangan pengamatan, katakan (X1,Y1 ), (X2,Y2),…..,(Xn,Yn),

persamaan regresi linier sederhana adalah :

i 0 1 1 iY = + X +β β ε

dengan 0β adalah intercept (titik potong)

1β adalah slope (kemiringan) dari garis tersebut

Xi adalah peubah bebas

Yi adalah nilai teramati dari peubah Y (Hines dan Montgomery, 1990).

6

Theil (1950) dalam Sprent (1991) mengusulkan koefisien kemiringan (slope)

garis regresi sebagai median kemiringan dari seluruh pasangan garis dari titik-titik

dengan nilai X yang berbeda, selanjutnya disebut dengan metode Theil. Untuk satu

pasangan (Xi ,Yi ) dan (Xj ,Yj ) koefisien kemiringannya adalah :

j iij

j i

Y Yb

X X

−=

−

untuk i < j dan Xi ≠ Xj .

Penduga bagi 1β kita notasikan dengan 1̂β dinyatakan sebagai median dari nilai-nilai

bij sehingga :

1̂β = median ( ijb )

sedangkan penduga bagi 0β adalah 0β̂

0β̂ = med (Yi) - 1̂β med (Xi)

med(Xi) adalah median dari seluruh pengamatan dan med(Yi) adalah pasangan

nilai pengamatan untuk med(Xi) (Sprent,1991).

2.3 Pengujian Koefisien Regresi Secara Overall

Statistik uji yang digunakan :

0

2(2 5)9 ( 1)

=Koefisien kendall

T

T

T

T

Z

nn n

τ µσ

µ

σ

τ

−=

=

+=−

Hipotesis yang digunakan untuk menguji keberartian model regresi adalah :

1

: 0 tidak terdapat hubungan antara variable XdanY

: 0 terdapat hubungan antara variable XdanYi

i

Ho

H

ββ

= ≈= ≈

7

Z

Kriteria uji : Tolak Ho jika p /2, terima dalam hal lainα≤

2.4 Pengujian Koefisien Slope ( 1β )

Metode Theil untuk Pengujian Koefisien Kemiringan

Daniel (1989) menjelaskan bahwa pengujian koefisien kemiringan dengan

menggunakan metode Theil disusun berdasarkan statistik τ Kendall dan digunakan

untuk mengetahui bentuk hubungan peubah-peubah regresi.

Asumsi-asumsi yang melandasi pengujian pada koefisien kemiringan adalah :

a. persamaan regresinya adalah : i 0 1 1 iY = + X +β β ε , i=1,…,n dengan Xi peubah bebas,

0β dan 1β adalah parameter-parameter yang tidak diketahui;

b. untuk masing-masing nilai X i terdapat nilai Y i ;

c. Y i adalah nilai yang teramati dari Y yang acak dan kontinu untuk nilai X i;

d. semua nilai X i saling bebas dan kita menetapkan X1 < X2 <…< Xn. ;

e. nilai-nilai iε saling bebas dan berasal dari populasi yang sama.

Hipotesis-hipotesis yang melandasi pengujian ini adalah :

a. dua arah : H0 : 0β = 1β (0) H1 : 0β ≠ 1β (0);

Seperti yang telah dijelaskan, prosedur yang diuraikan disusun berlandaskan

statistik τ Kendall, sehingga statistik ujinya adalah :

1 Parsial untuk koefisien regresi

a. tidak ada angka sama:

�̂ 0.5 ( 1)

n banyak pasanganb. ada angka sama:

�̂ 0.5 ( 1) 0.5 ( 1)

n banyak pasangan

0.5 ( 1)

0.5 (

x y

x

y

Uji

Jika

P Qn n

Jika

P Qn n T n n T

T t t

T t t

β

−=−

=

−=− − − −

== −

= −�

1)

t observasi angka sama=�

8

dengan τ̂ = statistik uji τ Kendall

P = banyaknya pasangan berurutan wajar

Q = banyaknya pasangan berurutan terbalik

Kaidah pengambilan keputusan untuk ketiga pasangan hipotesis diatas adalah

sebagai berikut :

a. dua arah : ˆ ( , / 2), tolak Ho

ˆ ( , / 2), terima Ho

n

n

τ τ ατ τ α

>

≤

( , / 2)nτ α adalah harga-harga kritis dalam tabel statistik uji τ Kendall.

Pengujian koefisien kemiringan ini dengan membuat statistik tataan dan

memperbandingkan semua hasil pengamatan menurut nilai-nilai X (Daniel, 1989).

2.5 Interval Kepercayaan Koefisien Regresi Slope

Metode pembentukan interval kepercayaan terhadap koefisien kemiringan ini

dilandaskan pada prosedur pengujian hipotesis Theil untuk 1β , sedangkan asumsi-

asumsi yang mendasari prosedur pengujian hipotesis ini juga berlaku pada

pembentukan interval kepercayaan (1-�) bagi 1β .

Lebih lanjut Daniel(1989) menjelaskan bahwa konstanta untuk interval

kepercayaan adalah :

2 ( , / 2) 2

2n nC S

k α− −=

dengan k = konstanta untuk interval kepercayaan

2n C = banyaknya nilai b ij yang mungkin dari n pasangan pengamatan

( , / 2)nS α = titik kritis τ Kendall untuk n pasangan pengamatan pada taraf � .

Berdasarkan nilai konstanta tersebut akan diperoleh ˆLβ sebagai batas bawah

interval kepercayaan untuk 1β dan ˆUβ sebagai batas atas interval kepercayaan untuk

9

1β . ˆLβ adalah nilai bij ke-k yang dihitung dari nilai yang paling kecil dalam statistik

tataan bagi nilai bij. ˆUβ adalah nilai bij ke-k yang dihitung mundur dari nilai yang paling

besar dalam statistik tataan tersebut.

Interval kepercayaan untuk 1β dengan suatu koefisien kepercayaan (1- �)

adalah:

P( ˆLβ < 1β < ˆ

Uβ ) = 1- � (6)

dengan C adalah kependekan dari confidence (kepercayaan) dan menunjukkan bahwa

ekspresi ini lebih merupakan suatu pernyataan kepercayaan daripada suatu pernyataan

probabilitas (Daniel, 1989).

10

BAB III

ANALISIS DATA

3.1 Penjelasan Data

Data Yang digunakan dalam makalah ini adalah mengenai model ransel

berdasarkan harga yang dipengaruhi ukuran ransel. Data disajikan dalam tabel di

bawah ini. Data di bawah diasumsikan tidak berdistribusi normal dengan �= 5%.

Kemudian. data ini digunakan hanya untuk aplikasi menyelesaikan teori yang sudah

dijelaskan di atas.

Tabel 3.1

No X Y 1 9 17 2 8 14 3 7 15 4 5 16 5 6 18 6 10 19 7 11 20 8 12 21 9 8 25 10 7 24 11 5 18 12 3 14 13 6 14 14 2 9 15 6 16 16 8 23 17 7 18

18 7 12 19 7 12 20 7 17 21 9 15 22 5 10

Keterangan:

Y = Harga Ransel(US $);

X = Ukuran Ransel (Inchi);

11

Metode Estimasi yang digunakan dalam penelitian ini adalah regresi sederhana metoda

theil , dengan spesifikasi model sebagai berikut :

Ýi = β0 + β1 X1 +εi

3.2 Model Regresi

Untuk Mendapatkan Model Regresi non-parametrik kita meggunakan metode Theil

engan rumusan :

j iij

j i

Y Yb

X X

−=

−

untuk i < j dan Xi ≠ Xj .

Di dapat :

1

2

3

11

(17,9 15,8)0.6

(14,1 8, 2)(13.2 14.6)

-0.5(14.2 10.4)(15.1 16.1)

-0.5(14.6 10.6)

............................

...........................(17.7 18.8)

0.6(18.1 14.0)

b

b

b

b

−= =−−= =−−= =−

−= =−

Hasilnya bisa dilihat dalam Lampiran 1

Penduga bagi 1β kita notasikan dengan 1̂β dinyatakan sebagai median dari

nilai-nilai bij sehingga :

1̂β = median ( ijb )

1̂β =-0.6

sedangkan penduga bagi 0β adalah 0β̂

0β̂ = med (Yi) - 1̂β med (Xi)

0β̂ =16.5 - (0.6 x 7)

12

0β̂ = 12.3 Sehingga didapat model :

1ˆ 12.3+0.6 XiY =

Artinya adalah :

1. Bahwa variabel Y atau dalam hal ini adalah Harga ransel rata-rata

sebesar $ 12.3 dengan anggapan variabel lainnya konstan.

2. Setiap penambahan 1 satuan variabel X1 maka Y akan berkurang sebesar

0.6 satuan.

Tetapi model regresi diatas belum dapat dikatakan sebagai model regresi

terbaik. Untuk itu selain harus diidentifikasi terlebih dahulu perlu dilihat apakah

model tersebut koefisiennya berarti atau tidak dengan uji hipotesis.

3.3 Pengujian model secara overall

Hipotesis yang diuji :

1

: 0 tidak terdapat hubungan antara variable XdanY

: 0 terdapat hubungan antara variable XdanYi

i

Ho

H

ββ

= ≈= ≈

Statisitika ujinya:

0

2(2 5)9 ( 1)

=Koefisien kendall

T

T

T

T

Z

nn n

τ µσ

µ

σ

τ

−=

=

+=−

=0.384312142τ

2(2 22 5)0.153522062

9 22(22 1)T

xx

σ += =−

0.384312142 - 02.503302367

0.153522062Z = =

13

Z

z

Kriteria uji : Tolak Ho jika p /2, terima dalam hal lain

p =P(Z=2.5033023)=1-(0.5 x 0.4938)=0.0062

/2=0.025

α

α

≤

Kesimpulan :

Ternyata P= 0.0062 < /2=0.025α maka Ho ditolak artinya model ini bisa

digunakan untuk menyatakan hubungan antara variable harga ransel (x) dan dengan

variable ukuran ransel (y.)

3.4 Pengujian Koefisen Regresi Slope ( 1β )

Hipotesis Yang akan diuji :

H0 : 1β =0 H1 : 1β ≠ 0

Statistik uji

1 Parsial untuk koefisien regresi

a. tidak ada angka sama:

ˆ � 0.5 ( 1)

n banyak pasangan

b. ada angka sama:

ˆ � 0.5 ( 1) 0.5 ( 1)

n banyak pasangan

x y

Uji

Jika

P Qn n

Jika

P Qn n T n n T

β

−=−

=

−=− − − −

=

x

y

T =0.5 t(t-1)

T =0.5 t(t-1)

t =observasi angka sama

�

�

Perhitungannya :

21 15 .... 0 151

0 3 .... 0 69

P

Q

= + + + =

= + + + =�

�

n=22

50

20

Tx

Ty

=

=�

�

14

Hasilnya bisa dilihat pada lampiran 2

151 69ˆ 0.384312142(0.5 22(22 1)) 2 x(0.5 22(22 1)) 8x x

τ −= =− − − −

Kriteria uji :

ˆ ( , / 2), tolak Ho

ˆ ( , / 2), terima Ho

n

n

τ τ ατ τ α

>

≤

(22,0.025)τ =0.190

Kesimpulan :

Ternyata τ̂ =0.384312142 berada di luar interval -0.190 sampai 0.190 , maka

Ho ditolak artinya mengindikasikan bahwa koefisien slope berarti sehingga

kesimpulannya ukuran ransel sangat berpengaruh terhadap harga ransel.

3.5. Interval Kepercayaan Koefisien Regresi Slope

Konstanta untuk interval kepercayaannya adalah :

2 ( , / 2) 2

2n nC S

k α− −=

2n C =11 pasang

( , / 2)nS α =0,190

11 0,190 24.4905

2k

− −= =

Jadi nilai k = 4 hasil pembulatan dari 4,4905

ˆLβ = -0.33333333

ˆUβ =1

Jadi interval kepercayaan untuk 1β adalah diantara -0,333333 sampai 1. artinya kita yakin 95 % bahwa Koefisen regresi slope akan berada dalam interval -0,33333< 1β < 1 .

15

BAB IV

PENUTUP

Dalam dunia statistika terdapat berbagai macam alat untuk menyelesaikan suatu

masalah. Salah satunya adalah mencari model regresi apabila asumsi statistika

parametrik terpenuhi maka kita bisa menggunakan metoda OLS (Ordinary Least Square)

untuk mencari taksirannya tetapi jika data diasumsikan tidak berdistribusi normal yaitu

pelanggran dari parametrik maka kita harus menggunakan non parametrik maka dalam

penyelesaian model regresi non parametriknya dengan meggunakan metode theil.

Walaupun model regresi non parametriknya ada tetapi tidak bisa digunakan sebagai

peramalan. Hasil model non parametrik jika hasilnya Dibandingkan dengan regresi

parametrik hasilnya akan berbeda.

16

DAFTAR PUSTAKA Hj. Ngadiman,Titty dkk.2005.Statistika Tak Parametrik.Bandung.

Daniel,W.W. 1989. Statistika Nonparametrik Terapan, Gramedia, Jakarta.

A Non Parametric Linear Regression With TheiL’s Methods.Internet

Kajian Teori Regresi Parametrik Normal dan Regresi Non Parametrik.Internet

17

Lampiran 1

Tabel X nilai kecil Tabel X nilai besar

No x y

1 2 9

2 3 14

3 5 16

4 5 18

5 5 10

6 6 18

7 6 14

8 6 16

9 7 15

10 7 24

11 7 18

Tabel b ij

No

1 0.6

2 -0.5

3 0.5

4 -1.333

5 5

6 2.5

7 1

8 -0.333

9 1.3333

10 -1

11 0.6

No x y

12 7 12

13 7 12

14 7 17

15 8 14

16 8 25

17 8 23

18 9 17

19 9 15

20 10 19

21 11 20

22 12 21

18

Lampiran 2

Tabel Nilai P dan Q No x y P Q

1 2 9 21 0

2 3 14 15 3

3 5 16 11 7

4 5 18 6 10

5 5 10 17 0

6 6 18 6 9

7 6 14 12 2

8 6 16 9 5

9 7 15 9 3

10 7 24 1 11 11 7 18 5 5 12 7 12 9 0 13 7 12 9 0 14 7 17 5 2 15 8 14 7 0 16 8 25 0 6 17 8 23 0 5 18 9 17 3 1 19 9 15 3 0 20 10 19 2 0 21 11 20 1 0 22 12 21 0 0

total 155 367 151 69 Tabel jumlah angka kembar X Tabel jumlah angka kembar Y

TY

Yi t t(t-1)

12 2 2

14 3 6

15 2 2

16 2 2

17 2 2

18 3 6

Ty 20

TX

Xi t t(t-1)

5 3 6

6 3 6

7 6 30

8 3 6

9 2 2

Tx 50

19

Lampiran 3 (Jurnal )

A Non-Parametric Linear Regression with

Theil's Method

Theory

Whenever the commonly used least-squares regression method is used for fitting an

equation into a set of (x,y)-data points, all errors in the y-direction are normally

distributed (i.e. the follow a gaussian distribution).

Non-parametric (or distribution-free) statistical methods are those, which make no

assumptions about the population distribution from which the data are taken.

A simple, non-parametric approach to fit a straight line to a set of (x,y)-points is the

'Theil's incomplete method', so called to distinguish this approach from another more

complex procedure (the 'complete method') developed by the same author.

Theil's 'Incomplete method' assumes that points (x1, y1), (x2, y2) . . . (xN, yN) are

described by the equation

y = a + bx

The calculation of a and b takes place as follows:

1st step: All N data points are ranked in ascending order of x-values.

2nd step: The data are separated into two equal size (m) groups, the low (L) and the high

(H) group. If N is odd the middle data point is not included to either group (hence: N =

2m or N = 2m+1).

3rd step: The slope bi of the line connecting the i-th point of group L with i-th point of

group H is calculated for all points of each group, i.e.

H Lij

H L

Y Yb

X X−=−

20

4th step: The median of the m slope values b1, b2, . . . bm is calculated and it is taken as

the best estimate of the slope (b) of the line, i.e. b = median(b1, b2, . . . bm).

5th step: For each data point (xi,yi) the value of intercept ai is calculated using the

previously calculated slope b, i.e.

a= med (Yi) - 1̂β med (Xi)

The method described for the estimation of a and b has the following distinct advantages

over the commonly used least-squares linear regression:

(i) It does not assume that all the errors are only in the y-direction.

(ii) It does not assume that either the x- or y-direction errors are normally distributed (i.e.

it is a typical non-parametric method).

(iii) It is not affected by the presence of outlying data points (i.e. it is a 'robust method'').

The main disadvantage of the described non-parametric method is its algorithmic nature,

i.e. no specific equations are provided for the direct calculation of a and b, as in the case

of least-squares regression [see Applet: Least-Squares Polynomial Approximation].

Instead, specific and repetitive steps must be made, a fact that makes manual calculations

tedious. The use of a computer program (e.g. a spreadsheet) is necessary, particularly

when many (x, y)-data points are involved.

Applet

This applet demonstrates the Theil's non-parametric method of fitting the equation y = a

+ bx to manually introduced (x, y)-data points and provides a visual comparison with the

corresponding least-squares method. Simply, the user must left-click N (4�N�200) data

points on the plot area. The corresponding lines (green for the non-parametric regression,

red for the least squares regression) appear soon after 4 data points have been clicked.

The corresponding (for each approach) estimated slope (b) and intercept values (a) are

shown in the corresponding (for each method) text fields.

21

One can test the robustness of the non-parametric regression, by clicking outlying data points. In the figure above is

shown a typical plot, where one outlying data point makes the least-squares line to pass closer to it, whereas the non-

parametric method seems like ignoring its presence.

Download - THEIL'S METHOD

Top Related