analisa data statistik chap 11: regresi linear
DESCRIPTION
Analisa Data Statistik Chap 11: Regresi Linear. Agoes Soehianie, Ph.D. Model Regresi Linear. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/1.jpg)
Analisa Data StatistikChap 11: Regresi Linear
Agoes Soehianie, Ph.D
![Page 2: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/2.jpg)
Model Regresi Linear
Variabel Y merupakan respons dari variabel independen x dengan hubungan Y = α + β X + ε . Dengan α dan β adalah titik poting dengan sumbu Y dan gradien yg belum diketahui, sedangkan ε adalah variabel random dengan sifat nilai rata-rata =0, dan variansi = σ2.
Dari sampel data diperoleh set data {xi,yi} ingin diperoleh model garis lurus terbaik y= a + b x, yaitu dengan mendapatkan a sebagai estimator α dan β di estimasi oleh b.
Variable independen X dipilih yg error dalam pengukurannya kecil atau dapat diabaikan dibandingkan Y.
![Page 3: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/3.jpg)
Garis Lurus Terbaik – Metoda Least Squares
Garis lurus terbaik diperoleh dengan meminimasi residual error ek yaitu selisih antara predicted yk dengan data yg dipeoleh yk, yaitu jumlah total kuadrat residual error minimum (Sum Squares of Errors)
X
XXk
Ykek
bxay ˆ
ky
N
kkk
N
kkk
N
kk ybxayyeSSE
1
2
1
2
1
2 )()ˆ(
![Page 4: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/4.jpg)
Garis Lurus Terbaik – Metoda Least Squares
Untuk mendapatkan koefisien a dan b yg terbaik, maka dicari a dan b yg meminimumkan SSE, yaitu dengan menghitung turunan SSE thd a dan b:
00
SSEb
SSEa
Yang akan memberikan dua buah persamaan linear bagi a dan b:
02212)(2)(11111
2
N
kk
N
kk
N
k
N
kkk
N
kkk yxbaybxaybxa
a
0222)(2)(11
2
111
2
N
kkk
N
kk
N
kk
N
kkkk
N
kkk yxxbxaybxaxybxa
b
![Page 5: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/5.jpg)
Garis Lurus Terbaik – Metoda Least Squares
Dalam notasi matrix sistem pers. Linear tsb dapat dituliskan:
N
kk
N
kk
N
k
yxba111
1
N
kkk
N
kk
N
kk yxxbxa
11
2
1
N
kkk
N
kk
N
kk
N
kk
N
kk
N
k
yx
y
b
a
xx
x
1
1
1
2
1
11
1
Solusi bagi sistem pers. Linear tsb dapat diperoleh dengan berbagai cara antara lain cara Cramers:
![Page 6: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/6.jpg)
Garis Lurus Terbaik – Metoda Least Squares
Solusi bagi a dan b (metoda Cramers):
N
kk
N
kk
N
kk
N
k
N
kk
N
kkk
N
kk
N
kk
xx
x
xyx
xy
a
1
2
1
11
1
2
1
11
1
Atau :
N
kk
N
kk
N
kk
N
k
N
kkk
N
kk
N
kk
N
k
xx
x
yxx
y
b
1
2
1
11
11
11
1
1
N
k
N
kk
N
kk
N
k
N
kkkk
N
k
N
kkk
xx
yxxyxa
1
2
11
2
1 11 1
2
1
N
k
N
kk
N
kk
N
k
N
kkk
N
k
N
kkk
xx
yxyxb
1
2
11
2
1 11 1
1
1
![Page 7: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/7.jpg)
Garis Lurus Terbaik – Metoda Least Squares
Penyederhanaan bisa dilakukan mengingat Σ1=N, sehingga:
2
11
2
1 11 1
2
N
kk
N
kk
N
k
N
kkkk
N
k
N
kkk
xxN
yxxyxa 2
11
2
1 11
N
kk
N
kk
N
k
N
kkk
N
kkk
xxN
yxyxNb
Untuk keperluan perhitungan, formula di atas dapat dituliskan sbb:
N
kk
N
kkk
xx
yyxxb
1
2
1 xbya
Dengan N
yyN
xx
N
kk
N
kk
11
![Page 8: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/8.jpg)
Notasi
Sehingga rumus regresi linear dapat dituliskan sbb:
Untuk keperluan penulisan diperkenalkan notasi berikut:
N
kkYY
N
kkXX
N
kkkXY yySxxSyyxxS
1
2
1
2
1
XXXY SSb / xbya
![Page 9: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/9.jpg)
Contoh
SXX = 1554.9 SYY= 3117.5 SXY=2168.5
xs= 293/6=48.8 ys=1713/6=285.5
b = SXY/SXX = 1.3947 a= ys-bxs= 285.5- 1.3947*48.8=217.39
X Y Xs=X-Xr Ys=Y-Yr Xs^2 Ys^2 Xs*Ys Yteori
27 250 -21.8 -35.5 476.7 1260.25 775.1 255.0
45 285 -3.8 -0.5 14.7 0.25 1.9 280.2
72 320 23.2 34.5 536.7 1190.25 799.3 317.8
58 295 9.2 9.5 84.0 90.25 87.1 298.3
31 265 -17.8 -20.5 318.0 420.25 365.6 260.6
60 298 11.2 12.5 124.7 156.25 139.6 301.1
Σ 293 1713 0 0 1554.8 3117.5 2168.5
![Page 10: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/10.jpg)
Contoh : Grafik
Regresi Linear
220
240
260
280
300
320
340
20 30 40 50 60 70 80
X
Y
![Page 11: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/11.jpg)
Memahami Estimator Rata-Rata dan Variansi
Dengan suku error εi diasumsikan adalah variabel random dengan rata-rata 0, dan varian konstan σ2 yang tak bergantung pada nilai xi dipakai. Sedangkan nilai α dan β adalah nilai parameter regresi yg sesungguhnya di populasi.
Jadi koefisien a dan b yg diperoleh dari satu set data percobaan hanyalah salah satu kemungkinan nilai yg mungkin saja. Kita sebut estimator bagi α adalah A dan bagi β adalah B. Dengan A dan B untuk satu set nilai {xi} yg sama bila diulang-ulang akan menghasilkan nilai (a,b) yg berbeda.
Karena nilai {xi} sama, maka variansi dari A dan B hanya ditentukan dari variansi variabel yi.
Sebenarnya model linear yg benar menggambarkan hubungan linear x dan y di populasi adalah:
iii xY
![Page 12: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/12.jpg)
Memahami Estimator Rata-Rata dan Variansi
Ingat σ2 adalah variansi suku error.
Bisa dibuktikan bahwa A dan B adalah unbiased estimator bagi α dan β. Maksudnya:
Tentu saja asumsi distribusinya adalah bahwa rata-ratanya mencerminkan nilai parameter populasi yg sesungguhnya:
ixY xi
|
22| ixY
BXX
n
ii
B Sxx
2
1
2
22
)(
A
XX
n
ii
n
ii
n
ii
A nS
x
xxn
x
1
22
1
2
1
22
2
)(
![Page 13: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/13.jpg)
Partisi Variabilitas Total dan Estimator Variansi
Dapat dibuktikan SSE (Sum Squares of Errors) bisa dituliskan sebagai:
N
kkk
N
kkk bxayyySSE
1
2
1
2 )()ˆ(
N
kkk bxayyySSE
1
2)(
N
kkk bxaxbayySSE
1
2)(
N
kk
N
kkk
N
kk xxbyyxxbyySSE
1
2
1
2
1
2 )())((2
XXXYYY SbSbSSSE **2 2
Tetapi b= SXY/SXX sehingga:
XYYY SbSSSE *
![Page 14: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/14.jpg)
Partisi Variabilitas Total dan Estimator Variansi
Sedangkan variansi dari Y, yaitu σ2 , diwakili oleh unbiased estimator S2 yg besarnya adalah:
Besaran S2 ini disebut Mean Squared Errors,
Sedangkan S juga disebut Standard Error Estimates bagi Y.
2
*
22
)ˆ( 2
2
n
SXYbSYY
n
SSE
n
yyS k
kk
![Page 15: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/15.jpg)
Inference Statistik ttg Slope Regresi (β)
Estimator bagi slope regresi β adalah B, sedangkan variabel statistik yg terkait dengan distribusi B adalah :
XXSS
Bt
/
Variabel t memiliki distribusi student-t dengan derajat kebebasan v=n-2.
Dengan ini dapat dicari interval kepercayaan bagi slope (β) dan juga dilakukan testing hipotesis terhadap slope tsb.
![Page 16: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/16.jpg)
Contoh: Interval Kepercayaan β
Dari contoh sebelumnya tentukan interval kepercayaan 95% bagi slope (β).
Jawab:
Interval kepercayaan 100(1-α)% diberikan oleh
Jumlah data n=6, sehingga v=n-2 = 4. Interval kepercayaan 95% berarti α = 5%. Dari tabel student-t diperoleh nilai kritis t0.025 (v=4) adalah 2.776.
SXXStbSXXStb // 2/2/
2
*2
n
SXYbSYYS
![Page 17: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/17.jpg)
Contoh: Interval Kepercayaan β
Sehingga interval kepercayaan bagi slope adalah:
SXXStbSXXStb // 2/2/
28.2326
5.2168*3947.15.3117
2
*2
n
SXYbSYYS
Dari tabel tsb diperoleh:
SXX = 1554.9 SYY= 3117.5 SXY=2168.5 b = SXY/SXX = 1.3947
Sehingga:
9.1554/28.23*776.23947.19.1554/28.23*776.23947.1
interval kepercayaan 95% bagi slope adalah: 1.?? < β < 1.??
![Page 18: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/18.jpg)
Contoh: Hipotesis Testing untuk slope β
No x y
1 3 5
2 7 11
3 11 21
4 15 16
5 18 16
6 27 28
7 29 27
8 30 25
9 30 35
10 31 30
11 31 40
12 32 32
13 33 34
14 33 32
15 34 34
16 36 37
Tabel disamping memberikan hasil pengukuran BOD (Biological Oxygen Demand) Y% dan Solid Reduction X(%).
Periksalah hipotesa H0: β=1 dan H1: β<1 dengan tingkat signifikan 5%
No x y
17 36 38
18 36 34
19 37 36
20 38 38
21 39 37
22 39 36
23 39 45
24 40 39
25 42 41
26 42 40
27 43 44
28 44 37
29 45 44
30 46 46
31 47 49
32 50 51
Oxygen Demand vs Solid Reduction
0
10
20
30
40
50
60
0 10 20 30 40 50 60
X
Y
![Page 19: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/19.jpg)
Contoh: Hipotesis Testing
Jawab:
1. Hipotesa H0: β=1 dan H1: β<1
2. Tingkat signifikan α= 5%
3. Daerah kritis
Variabel statistik untuk di test adalah t:
dengan derajat kebebasan v=n-2
Nilai kritis -t0.05 = -1.697
Tolak H0 jika t < -1.697
SXXS
bt
/
![Page 20: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/20.jpg)
Contoh: Hipotesis Testing
4. Perhitungan
Berdasarkan tabel data diperoleh koefisien regresi Y = a+ bX,
a = 4.1390 b=0.8895
SXX = 4093.47 SYY = 3566.88
SXY = 3641.19
S2 = (SYY-b SXY)/(n-2) = (3566.88-0.8895*3641.19)/(32-2)
S = 3.3065
5. Keputusan
Karena t < -1.697 maka H0 ditolak
6. Kesimpulan, cukup bukti untuk menolak bahwa slope = 1, dan menerima slope < 1
14.247.4093/3065.3
18895.0
/
SXXS
bt
![Page 21: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/21.jpg)
Estimasi bagi Titik Potong (a)
Nilai titik potong a juga terdistribusi merata. Jika A adalah variabel random yg terkait, maka A akan terdistribusi normal, dengan nilai rata-rata μA=α, dan variansi:
Parameter t sbb:
XX
n
ii
A nS
xSS
1
22
2
)/(1
2XX
n
ii
A nSxS
A
S
AT
Akan terdistribusi menurut student t dengan derajat kebebasan n-2. Dengan demikian interval kepercayaan maupun hipotesa testing yang terkait dengan α dapat diformulasikan memakai rumus di atas.
![Page 22: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/22.jpg)
Kualitas Fitting : Koefisien Determinasi
Besaran SST = total corrected sum of squares didefinisikan sbb:
n
ii yySST
1
2)(
Sedangkan SSE
n
iii yySSE
1
2)ˆ(
Dan SSR (regression sum squares):
n
ii yySSR
1
2)ˆ(
SSESSRSST
SST
SSE
SST
SSESST
SST
SSRR
1
R: koefisien determinasi , persentase dari variansi data yg bisa dijelaskan oleh regresi.
SSE : variansi karena random error = unexplained variation
![Page 23: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/23.jpg)
Kualitas Fitting : Koefisien Determinasi
Jika seluruh variansi bisa dijelaskan oleh regresi maka SSE=0, sehingga R=1. Sebaliknya jika regresi hanya bisa menjelaskan sedikit sekali maka R~ 0.
Berapakah nilai R yang bisa dikatakan bagus? Sulit! Tergantung keperluan dan bidang dimana statistik ini dipakai.
Dalam modelling menambahkan variabel bebas akan mempertinggi nilai R tentu saja, tapi tidak berarti modelnya lebih bagus.
![Page 24: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/24.jpg)
Interval Kepercayaan Bagi Y
Tujuan dilakukannya regresi adalah untuk membuat prediksi nilai variabel tak bebas Y bilamana diketahui sebuah nilai X tertentu. Nilai
00| bxaxY Memberikan nilai rata-rata prediksi bagi Y untuk x=x0. Diinginkan
untuk mendapatkan interval kepercayaan bagi nilai Y prediksi tsb. Dapat dibuktikan bahwa distribusi rata-rata sampel Y0 = a+bx0 adalah normal dengan nilai rata-rata dan variansi :
00| xxY
XXxxBYBxAY S
xx
n
2022
)0(2
02ˆ
)(10
Sedangkan variabel statistik berikut ini terdistribusi student t dengan v=n-2
XX
xY
XX
xY
Sxx
nS
bxa
Sxx
nS
yt
20
0|0
20
0|0
)(1
)(
)(1
ˆ
![Page 25: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/25.jpg)
Interval Kepercayaan bagi Y
Jadi untuk sebuah nilai X0 tertentu, kita dapat membuat interval kepercayaan bagi nilai rata-rata Y0 yg terkait, dengan interval kepercayaan (1-α)100% yaitu diberikan oleh:
Dengan dan
XXXX S
XX
nStYY
S
XX
nStY
20
0
20
0
)(1*
)(1*
bXaY
N
XX
N
ii
1
![Page 26: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/26.jpg)
Interval Prediksi Y dari 1 Kali Pengukuran
Nilai prediksi yg akan dimiliki oleh Y0 untuk satu kali pengukuran berikutnya di X0, akan memiliki rata-rata dan variansi:
00| xxY
SXX
XX
nBxA
222
0
)(11
Variabel statistik berikut ini memiliki distribusi student t dengan derajat kebebasan v=n-2
XXSXX
nS
YYt
20
00
)(11
ˆ
![Page 27: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/27.jpg)
Interval Prediksi Y dari 1 Kali Pengukuran
Interval kepercayaan bagi prediksi nilai yg akan dimiliki oleh Y0 untuk satu kali pengukuran berikutnya di X0, adalah:
XXXX S
XX
nStYY
S
XX
nStY
20
2/00
20
2/0
)(11ˆ)(1
1ˆ
![Page 28: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/28.jpg)
Contoh
Contoh.Data berikut ini memberikan hubungan antara frekuensi kunjungan Salesman fotocopy (X) dan jumlah mesin fotocopy terjual (Y).
a) Buatlah interval kepercayaan 95% bagi rata-rata fotocopy terjual bagi salesman-salesman yg melakukan kunjungan sebanyak 25 kali
b) Bilamana si Polan melakukan kunjungan 25 kali berapakah interval kepercayaan 95% bagi jumlah mesin fotocopy yg mampu dia jual?
![Page 29: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/29.jpg)
SOlusi
4522 YX
Jawab.Hasil pengolahan data memberikan:
SXX = 760 SYY=1850 SXY=900b = SXY/SXX = 900/760 = 1.1842a = Yrata-b*Xrata = 45 – 1.1842*22= 18.95S2 = (SYY-bSXY)/(n-2) = 98.03 S = 9.90
Dari tabel student t untuk v=n-2=8, t0.025 = 2.306Sehingga untuk X=25, Y = a+bX = 18.95+1.1842*25 =48.55
64.7760
)2225(
10
1*9.9*306.2
)(1*
22
025.0
SXX
XX
nSt
![Page 30: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/30.jpg)
SOlusi
Jawab (lanjutan).Hasil pengolahan data memberikan:
a) Interval kepercayaan bagi rata-rata sales untuk frekuensi kunjungan X=25 adalah
48.55 – 7.64 < Y < 48.55+ 7.6440.9 < Y < 56.2
b) Interval prediksi bagi si Polan yg melakukan kunjungan X=25 kali:
SXX
XX
nStYY
SXX
XX
nStY
22 )(1*
)(1*
SXX
XX
nStYY
SXX
XX
nStY
22 )(11*
)(11*
![Page 31: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/31.jpg)
SOlusi
Jawab (lanjutan).
48.55 – 24.1 < Y < 48.55 + 24.124.5 < Y < 72.6
Wajar bagi interval prediksi bagi 1 orang si Polan jauh lebih besar dibandingkan dengan interval kepercayaan bagi rata-rata sales untuk seluruh sales untuk jumlah kunjungan yg sama yaitu 25.
1.24760
)2225(
10
11*9.9*306.2
)(11*
22
025.0
SXX
XX
nSt
![Page 32: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/32.jpg)
Grafik : Garis Regresi, CI dan Prediksi
Sales vs Frek Kunjungan
0
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50
X (kunjungan)
Y(s
ale
s)
Data
Teori
CI-min
CI-max
Pred-min
Pred-max
![Page 33: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/33.jpg)
Koefisien Determinasi (ulangan)
Arti lebih jelas daripada r didapat dari r2 = R yang sering disebutkan sebagai koefisien determinasi sampel.
Jadi R adalah:SYY
SSRSYYSXX
SXYrR
*
22
Dimana SST = SSR + SSE, dengan masing-masing adalah
222 )ˆ()ˆ()(
n
kii
n
ki
n
ki yyyyyy
DI depan kita beri nama SST=SEE. SSR = Sum Squares of Residual atau regression sum squares, SSR mencerminkan bagian dari variasi data yg bisa dijelaskan oleh regresi.
Sehingga R menyatakan porsi dari variasi SYY yg bisa dijelaskan dengan regresi Y thd X, atau porsi dari variabilitas variabel Y yg bisa dijelaskan oleh model regresi.
![Page 34: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/34.jpg)
Hipotesis Testing untuk koefisien korelasi
Untuk memeriksa kebenaran hipotesis H0: ρ = 0 H1: ρ ≠ 0
yg berkenan dengan koefisien korelasi r, maka variabel statistik yg diuji adalah
21
2
/ r
nr
SXXS
bt
Yg terdistribusi menurut student t dengan derajat kebebasan v=n-2.
![Page 35: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/35.jpg)
Contoh
Dalam contoh sebelumnya, tentang sales mesin fotocopy, ujilah hipotesa H0: ρ=0 dengan H1: ρ≠0 dengan tingkat signifikan 5%.
21
2
r
nrt
Jawab:1. Hipotesa
H0: ρ=0 dengan H1: ρ≠02. Tingkat signifikan α = 0.053. Daerah kritis : ini adalah tes 2 ekor
Variabel statistik yg diuji adalah t:
dengan n= 10, sehingganilai kritis t0.025(v=10-2=8) = 2.306Tolak H0 jika t > 2.306 atau t < -2.306
4. Perhitungan, telah dihitung r=0.759
297.3759.01
210759.0
1
222
r
nrt
![Page 36: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/36.jpg)
Contoh
5. KeputusanKarena r > 3.297, maka H0 ditolak
6. Kesimpulan
Cukup bukti untuk menyatakan bahwa ada hubungan korelasi linear antara frekuensi kunjungan (X) dengan tingkat penjualan (Y)
![Page 37: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/37.jpg)
Hipotesis Testing untuk koefisien korelasi
Sedangkan untuk kasus lebih umum untuk memeriksa kebenaran hipotesis H0: ρ = ρ0
yg berkenan dengan koefisien korelasi r, maka variabel statistik yg diuji adalah
)1)(1(
)1)(1(ln
2
3
0
0
r
rnz
Yg terdistribusi menurut distribusi normal
![Page 38: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/38.jpg)
Contoh
Dalam contoh sebelumnya, tentang sales mesin fotocopy, ujilah hipotesa H0: ρ=0.8 dengan H1: ρ<0.8 dengan tingkat signifikan 5%.
Jawab:1. Hipotesa
H0: ρ=0.8 dengan H1: ρ< 0.82. Tingkat signifikan α = 0.053. Daerah kritis : ini adalah tes 1 ekor
Variabel statistik yg diuji adalah Z:
nilai kritis -Z0.05 = -1.645Tolak H0 jika Z < -1.645
4. Perhitungan, telah dihitung r=0.759, dan dalam hal ini ρ0=0.8
)1)(1(
)1)(1(ln
2
3
0
0
r
rnz
227.0)8.01)(759.01(
)8.01)(759.01(ln
2
310
)1)(1(
)1)(1(ln
2
3
0
0
r
rnz
![Page 39: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/39.jpg)
Contoh
5. KeputusanKarena Z> -1.645, maka H0 tidak bisa ditolak
6. Kesimpulan
Tidak cukup bukti untuk menyatakan bahwa ρ< 0.8
![Page 40: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/40.jpg)
ANOVA – Pilihan Model Regresi
Sering analisa kualitas regresi dilakukan dengan metoda ANOVA (Analysis of Variance). Misal kita memiliki n data {xi,yi}. Telah ditunjukkan bahwa: SYY = SST = SSR + SSE atau
i
iii
ii
i yyyyyy 222 )ˆ()ˆ()(
SSR : mencerminkan variansi data yang bisa dijelaskan olehmodel.SSE : variansi di sekitar garis regresi
Hipotesa yang akan di test:H0 : β=0H1: β≠0
Ini berarti : kita menyatakan bahwa variasi data Y hanya variasi random tidak bergantung X disekitar nilai Y=α saja.
![Page 41: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/41.jpg)
ANOVA – Pilihan Model Regresi
Dengan H0 seperti ini dapat dibuktikan bahwa variabel-variabel berikut ini memiliki distribusi Chi-Squares (χ2) dengan derajat kebebasan yg terkait:
2
2
2
)ˆ(
i
i yySSR
2
2
2
)ˆ(
i
ii yySSE
2
2
2
)(
i
i yySST
Variabel Derajat Kebebasan
1
2n
1n
![Page 42: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/42.jpg)
ANOVA – Pilihan Model Regresi
Selanjutnya variabel f berikut ini :
Variabel f ini Akan memiliki distribusi F dengan derajat kebebasan pembilang=1 dan penyebut n-2.
H0 akan ditolak bilamana fhitung ini > fα (1,n-2).Jika H0 ditolak berarti jumlah variansi di Y yang bisa dijelaskan
secara signifikan oleh model regresi yang dipilih.
2
2
2)2/(
1/
s
Sb
s
SSR
nSSE
SSRf XX
XXi
ii
ii
i SbxxbxbabxayySSR 22222 )()()ˆ( Telah dipakai:
![Page 43: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/43.jpg)
ANOVA – Perbandingan Dengan Test t
Sebelumnya statistik t berikut ini:
Dipakai untuk memeriksa hipotesa:H0 : β= β0
H1 : β≠ β0
Bilamana β0 =0 (kasus khusus) maka variabel t menjadi:
XXSS
bt
/0
XXSS
bt
/
Atau dengan b=SXY/SXX, maka distribusi t = f(1,v):
fS
bS
S
Sb
SS
bt XYXX
XX
22
2
2
22
/
![Page 44: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/44.jpg)
ANOVA – Ringkasan SUmber Variansi
TABEL ANOVA
Sumber variasi
Sum of Squares
Derajat kebebasan
Mean Squares Fhitung
Regresi SSR k-1 MSR=SSR/1 MSR/MSE atau
SSR/s2Error SSE n-k MSE=SSE/(n-2)=σ2
Total SST n-1
ANOVA untuk testing β=0
![Page 45: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/45.jpg)
ANALISA KORELASI - Definisi
Analisa korelasi ini mempelajari hubungan atau asosiasi antara beberapa variabel. Bilamana regresi dilakukan hingga menyatakan hubungan eksplisit berupa persamaan matematika, maka pada analisa korelasi hanya diwujudkan pada kekuatan hubungan itu saja yg dinyatakan oleh koefisien korelasi.
Koefisien korelasi (r) : ukuran kekuatan asosiasi linear antara dua variabel.
SYYSXX
SXY
SYY
SXXbr
*
Nilai r terbatas anstara -1 sd 1. Nilai r=1 atau -1 menyatakan hubungan korelasi sempurna antara X dan Y.
![Page 46: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/46.jpg)
ANALISA KORELASI - Definisi
APakah nilai korelasi 0.8 bagus atau tidak, tidak ada ukuran absolut. Tergantung pada kasusnya. Untuk ilmu sosial atau ekonomi dimana banyak sekali variabel yg berpengaruh, nilai tsb sudah bagus sekali menyatakan hubungan korelasi yg kuat. Akan tetapi di bidang engineering, dimana variabel bisa dikontrol sangat ketat sekali, nilai r=0.9 mungkin baru dipandang cukup bagus.
Hal lain adalah kita tidak boleh menyatakan r=0.6 adalah 2x lebih bagus dibandingkan r=0.3
Korelasi (r=1)
-10
-5
0
5
10
15
20
25
-6 -4 -2 0 2 4 6 8 10
X
Y
Korelasi (r=-1)
-30
-25
-20
-15
-10
-5
0
5
10
15
20
25
-6 -4 -2 0 2 4 6 8 10
X
Y
![Page 47: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/47.jpg)
Contoh
Kita pakai contoh sebelumnya, tentang hubungan antara sales mesin fotocopy (Y) dan frekuensi kunjungan (X)
No X Y5 10 306 10 401 20 303 20 407 20 408 20 509 20 304 30 60
10 30 702 40 60
![Page 48: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/48.jpg)
Contoh
Dari perhitungan manual tsb diperoleh:SXX = 760 SYY = 1850 SXY = 900Sehingga koefisien korelasinya., r
No X Y Xe=X-Xs Ye=Y-Ys Xe^2 Ye^2 Xe*Ye5 10 30 -12 -15 144 225 1806 10 40 -12 -5 144 25 601 20 30 -2 -15 4 225 303 20 40 -2 -5 4 25 107 20 40 -2 -5 4 25 108 20 50 -2 5 4 25 -109 20 30 -2 -15 4 225 304 30 60 8 15 64 225 120
10 30 70 8 25 64 625 2002 40 60 18 15 324 225 270
Sum 220 450 0 0 760 1850 900Mean 22 45 0 0 76 185 90
7590.01850*760
900
*
SYYSXX
SXYr
![Page 49: Analisa Data Statistik Chap 11: Regresi Linear](https://reader033.vdocuments.pub/reader033/viewer/2022061612/56815201550346895dc04227/html5/thumbnails/49.jpg)
Contoh
Apa artinya r=0.7590?1. Nilainya positif, jadi ada hubungan langsung kenaikan frekuensi
kunjungan (X) akan menaikkan juga volume sales (Y).2. Karena 0.759 lumayan dekat ke nilai 1 jadi agaknya memang
hubungan antara frekuensi kunjungan dengan kenaikan sales cukup kuat.