catatan regresi linier
TRANSCRIPT
Indah Nurina Fitri Hapsari/ 10110094/ Institut Teknologi Bandung
REGRESI (Catatan Pribadi Buku Probability and statistics For engineer and scientist-walpole)
Realitas: Setiap kita memberikan variabel bebas yang sama, belum tentu outputnya bakal sama.
Contohnya: Jumlah tar dalam suatu proses kimia tergantung pada besar temperatur. Kalo kita
memberikan temperatur yang sama, belum tentu jumlah tarnya sama persis.
Jenis-jenis variabel:
a. Variabel bebas/regressor/determinant/fixed : input yang kita berikan, yang dapat diubah-
ubah
b. Variabel tak bebas/respons
Model Regresi
π = πΌ + π½π₯
π: Response πΌ: Intercept
π₯: Regressor π½: slope
Deterministik: Jika hubungan antara π₯ dan π pasti. Tp disini kita ketahui bahwa untuk π₯ yang sama
belum tentu kita mendapatkan π yang sama. Jadi ada random/probabilistik komponen di dalamnya.
Akibatnya, model regresi diatas tidak dapat dipandang sebagai suatu yang pasti.
Objective:
1. Mencari model terbaik yang mampu mendeskripsikan hubungan antara π₯ dan π
2. Quantifying the stregth of the relationship
3. Memprediksi respon apabila nilai regressor diberikan
Misal random sample berukuran kita notasikan π₯π ,π¦π ; π = 1,2,3,β¦ ,π. . bila sample diambil
dengan π₯ yang sama, maka kemungkinan π¦ yang muncul bisa berbeda. Maka π¦π disini merupakan
realisasi dari variabel acak ππ . Jadi π¦π bergantung pada π₯π secara linear yang juga memiliki komponen
random didalamnya. (kita anggap sebagai error)
Tujuan Regresi: untuk melihat How the random variable π moves with π and the random
component
Simple Linear Regression Model
π = πΌ + π½π₯+β
πΌ,π½ tidak diketahui
β (error) merupakan variabel acak dengan πΈ β = 0 dan πππ β = π2
Karena β merupakan variabel acak, maka π juga merupakan variabel acak.
Nilai π₯ bukan merupakan variabel acak, pada kenyataannya diukur dengan error yang dapat
diabaikan
πΈ β = 0 mengindikasikan bahwa untuk suatu nilai π₯, π¦ terdistribusi disekitar βtrueβ atau
βpopulation regression lineβ π = πΌ + π½π₯
Indah Nurina Fitri Hapsari/ 10110094/ Institut Teknologi Bandung
Kenyataannya kita tidak pernah tahu nilai error maka tidak ada true regression line, tp kita
asumsikan ada disini.
πΈ π = πΌ + π½π₯ + πΈ β = πΌ + π½π₯, maka π merupakan variabel acak yang memiliki rata-rata
atau pusat di πΌ + π½π₯(brarti Nilai bergantung pada π₯)
True regression line π = πΌ + π½π₯ dapat dituliskan sebagai ππ|π₯ = πΌ + π½π₯. Sehingga true
regression line (yg tdk akan pernah diketahui nilainya) akan melewati nilai dari rata-rata
variabel acak π
Yang akan kita lakukan ialah mengestimasi parameter πΆ,π· (koefisien regresi).
Notasikan estimator a untuk πΌ dan b untuk π½. Maka estimated/fitted regression linenya adalah:
π¦ = π + ππ₯
π¦ merupakan predicted/fitted value
Fitted line merupakan estimate dari true regression line
Fitted line diasumsikan akan mendekati true regression line bila jumlah data besar
Residual
Misal diberikan data sample π₯π ,π¦π ; π = 1,2,3,β¦ ,π. dan fitted model π¦ = π + ππ₯, maka residu ke
π yaitu ππ diberikan oleh
ππ = π¦π β π¦π , π = 1,2,β¦ ,π
π¦π = π + ππ₯π + ππ
ππ disini terobservasi sedangkan βπ tidak terobservasi. Jadi βπ menyatakan perbedaan antara true
regression line dengan observasi, sedangkan ππmenyatakan perbedaan antara fitted model dengan
observasi.
Minimize the sum of residual
πππΈ = ππ2
π
π=1
= (π¦π β π¦π )2
π
π=1
= (π¦π β π + ππ₯π)2
π
π=1
Disini πππΈ dikuadratin soalnya biar jumlah errornya gak saling menghilangkan. Untuk
meminimumkan maka kita cari turunan parsialnya.
π(πππΈ)
ππ= β2 (π¦π β π + ππ₯π)
π
π=1
, π(πππΈ)
ππ= β2 (π¦π β π + ππ₯π)
π
π=1
π₯π
Persaman normal
(i) β2 (π¦π β π β ππ₯π)ππ=1 = 0 ππ + π π₯π
ππ=1 = π¦π
ππ=1
(ii) β2 (π¦π β π β ππ₯π)ππ=1 π₯π = 0 π π₯π
ππ=1 + π π₯π
2ππ=1 = π₯π
ππ=1 π¦π
Diselesaikan secara simultan dan gunakan
Indah Nurina Fitri Hapsari/ 10110094/ Institut Teknologi Bandung
π₯ππ¦π
π
π=1
β π₯ π¦π
π
π=1
= π¦π(π₯π β π₯ )
π
π=1
= π₯π β π₯ (π¦π β π¦ )
π
π=1
π = π₯π β π₯ (π¦π β π¦ )ππ=1
(π₯π β π₯ )2π
π=1
π = π¦ β ππ₯
PROPERTIES OF THE LEAST SQUARE ESTIMATOR
ππ = πΌ + π½π₯π + βπ
Asumsikan bahwa βπ memiliki mean=0 dan variansi konstant π2 dan β1 , β2 , β3, β¦ , βπ saling
bebas from run to run biar kita bisa nyari mean dan variansi dari πΌ dan π½.
a dan b pada fitted model hanya merupakan estimasi dari parameter πΌ dan π½. Sehingga, untuk
sampel sampel yang berbeda ataupun untuk nilai x yang sama, kita mungkin akan mendapatkan nilai
a dan b yang berbeda pula. Karena untuk setiap x yang sama belum tentu akan menghasilkan y yang
sama pula. Maka a dan b dapat kita pandang sebagai realisasi dari variabel acak A dan B.
Karena nilai x tetap, maka nilai dari A dan B bergantung pada nilai y yang merupakan realisasi dari
variabel acak π, atau dengan kata lain bergantung pada variabel acak π1 ,π2 ,β¦ ,ππ (saling bebas
karena error juga saling bebas).
ππ|π₯π = πΈ[ππ] = πΌ + π½π₯π + πΈ βπ = πΌ + π½π₯π
Equal variance.
π2π|π₯π = π2 = π£ππππππ π πππππ
Dari persamaaan:
π΅ = π₯π β π₯ ππ=1 (ππ β π )
π₯π β π₯ 2π
π=1
= π₯π β π₯ ππ=1 ππ π₯π β π₯
2ππ=1
πΈ π΅ = π₯π β π₯ πΈ[ππ=1 ππ]
π₯π β π₯ 2π
π=1
= π₯π β π₯ (πΌ + π½π₯π)ππ=1
π₯π β π₯ 2π
π=1
= π½
ππ΅2 = πππ
π₯π β π₯ ππ=1 ππ π₯π β π₯
2ππ=1
= π₯π β π₯
2ππ=1 πππ
2
π₯π β π₯ 2 2π
π=1
= π2
π₯π β π₯ 2π
π=1
π΄ = π β π₯ π₯π β π₯ ππ=1 ππ π₯π β π₯
2ππ=1
πΈ[π΄] = πΈ[π] β π₯ π₯π β π₯ ππ=1 πΈ[ππ]
π₯π β π₯ 2π
π=1
= πΌ + π½π₯ β π₯ π₯π β π₯ πΌ + π½π₯π ππ=1
π₯π β π₯ 2π
π=1
= πΌ
Use: π½ππ ππΏ+ ππ = πππ½ππ πΏ + πππ½ππ π β ππππͺππ(πΏ,π)
Indah Nurina Fitri Hapsari/ 10110094/ Institut Teknologi Bandung
ππ΄2 = πππ π β π΅π₯ = πππ π + π₯ 2πππ π΅ β 2π₯ πΆππ£ π ,π΅ = πΈ π 2 β πΈ[π ]2 + π₯ 2
π2
π₯π β π₯ 2π
π=1
= πΌ + π½π₯ 2 +π2
πβ πΌ + π½π₯ 2 + π₯ 2
π2
π π₯π β π₯ 2π
π=1
= π2
π π₯π β π₯
2ππ=1 + π₯ 2
π₯π β π₯ 2π
π=1
= π2 π₯π
2ππ=1
π π₯π β π₯ 2π
π=1
πΆππ£ π ,π΅ = πΆππ£ π, π₯π β π₯ ππ=1 ππ π₯π β π₯
2ππ=1
= π₯π β π₯ ππ=1
π₯π β π₯ 2π
π=1
πΆππ£ π, ππ = 0
π2 pada variansi A dan B merupakan variansi error dari model (reflects random variation or
experimental error variation Around regression line)
πππππππ π βπ = π¦π β π¦π ππ=1
2
(π β 2)
Variansi diatas mengukur kuadrat deviasi antara nilai π dengan nilai meannya ππ|π₯ ( yaitu πΌ + π½π₯).
πΌ + π½π₯ disni diestimasi oleh π¦ = π + ππ₯. Maka variansi error menghitung kuadrat deviasi antara
observasi dan estimated mean π . Jadi analoginya, biasanya π¦ dipake buat ngestimasi mean. Kalo
disini π¦ dibuat untuk ngestimasi ππ|π₯ in a regression structure.
Selang kepercayaan dari koefisien Regresi
Perhatikan Persamaan:
ππ = πΌ + π½π₯π + βπ , dengan π₯π merupakan fixed values
Dengan asumsi βπ ~ π 0,π2 dan β1 , β2 , β3 ,β¦ ,βπ saling bebas,
πππ π‘ = πΈ ππ‘ππ
= πΈ ππ‘ πΌ+π½π₯π+ βπ
= ππ‘ πΌ+π½π₯π .πΈ ππ‘ βπ
= ππ‘ πΌ+π½π₯π . π12
π2π‘2
= ππ‘ πΌ+π½π₯π +12
π2π‘2
Maka ππ berdistribusi normal dengan distribusi peluang ππ ~ π πΌ + π½π₯π ,π2 . Hal ini juga dapat
langsung disimpulkan dengan melihat bahwa ππ merupakan fungsi linier dari βπ yang berdistribusi
normal.
A. Menentukan Selang Kepercayaan Untuk Parameter π½ (slope)
Perhatikan persamaan:
π΅ = π₯π β π₯ ππ=1 ππ π₯π β π₯
2ππ=1
Indah Nurina Fitri Hapsari/ 10110094/ Institut Teknologi Bandung
Dapat kita lihat bahwa B merupakan fungsi linier dari peubah acak ππ ~ π πΌ + π½π₯π ,π2 , dengan
π1 ,π2 ,β¦ . ,ππ saling bebas, sehingga B berdistribusi π π½,ππ
π₯πβπ₯ 2π
π=1
.
Nilai π2 pada parameter distribusi variabel acak B diatas merupakan variansi dari variabel acak βπ .
Dengan kata lain, π2 menyatakan variasi error sepanjang garis regresi.
Parameter π2 dapat diestimasi dengan:
πππππππ π βπ = π¦π β π¦π ππ=1
2
(π β 2)
yang merupakan estimasi tak bias dari π2 . Dengan menggunakan estimasi variansi error, kita dapat
menentukan estimasi variansi dari B.
Teorema 1:
Jika π2 merupakan variansi dari sampel acak berukuran n yang diambil dari populasi berdistribusi
normal yang memiliki variansi π2, maka statistik
π2 = π β 1 π2
π2
Berdistribusi chi-squared dengan derajat kebebasan v=n-1.
Menggunakan analogi dari teorema diatas serta fakta bahwa B berdistribusi normal, maka statistik
π2 = π β 2 π2
π2
Berdistribusi chi-squared dengan derajat kebebasan v= n-2.
Teorema 2:
Misalkan π berdistribusi normal baku dan π2 berdistribusi Chi-squared dengan derajat kebebasan π£.
Jika π dan π2 saling bebas, maka distribusi dari variabel acak π, dimana
π =π
π2
π£
Berdistribusi t dengan derajat kebebasan π£.
Sebelum menggunakan teorema diatas, variabel acak B harus kita ubah dalam bentuk normal baku
(.π 0,1 Untuk itu, gunakan fakta bahwa :
βX berdistribusi π΅ π,ππ jika dan hanya jika π =πΏβπ
π berdistribusi π΅(π,π)"
π =
π΅ β π½
π2
π₯π β π₯ 2π
π=1
Indah Nurina Fitri Hapsari/ 10110094/ Institut Teknologi Bandung
Misalkan ππ₯π₯ = π₯π β π₯ 2π
π=1
π = π΅ β π½ ππ₯π₯
π
Kemudian gunakan teorema 2,
π =π
π2
π£
=
π΅ β π½ ππ₯π₯
π
π β 2 π2
π2
π β 2
=
π΅ β π½ ππ₯π₯
π
ππ
= π΅ β π½ ππ₯π₯
π
Maka T berdistribusi t dengan derajat kebebasan π£ = π β 2. Statistik ini dapat digunakan untuk
membangun 100 1β πΌ % selang kepercayaan untuk koefisien π½. (πΌ disini melambangkan tingkat
signifikansi)
Teori singkat mengenai distribusi t
Distribusi t menyerupai distribusi normal baku. Kedua distribusi tersebut simetri terhadap meannya,
dengan nilai mean 0. Kedua distribusi diatas berbentuk bell-shaped, namun untuk distribusi
bergantung pada 2 nilai yaitu π dan π2. Sedangkan untuk distribusi normal hanya bergantung pada
π saja.
π‘πΌ : menunjukkan nilai t dimana luas area diatas t sama dengan alfa (πΌ disini menunjukkan tingkat
signifikansi)
Karena t merupakan distribusi yang simetrik, maka π‘1βπΌ = βπ‘πΌ
Selang Kepercayaan untuk parameter π·
πΌ
πΌ
Indah Nurina Fitri Hapsari/ 10110094/ Institut Teknologi Bandung
100 1β πΌ % selang kepercayaan untuk koefisien π½ pada garis regresi ππ|π₯ = πΌ + π½π₯ adalah
βπ‘πΌ2
< π < π‘πΌ2
βπ‘πΌ2
< π΅ β π½ ππ₯π₯
π< π‘πΌ
2
βπ‘πΌ2π
ππ₯π₯β π΅ < βπ½ <
π‘πΌ2
π
ππ₯π₯β π΅
π΅ βπ‘πΌ
2π
ππ₯π₯< π½ < π΅ +
π‘πΌ2
π
ππ₯π₯
Dimana π‘πΌ2 menyatakan nilai dari distribusi t dengan derajat kebebasan n-2.
βπ‘πΌ2
< π < π‘πΌ2
Menyatakan bahwa besar peluang t berada pada selang βπ‘πΌ2
< π < π‘πΌ2 adalah 1β 2.
πΌ
2= 1β πΌ
dengan π‘πΌ menunjukkan nilai t dimana luas area diatas t sama dengan alfa. Sehingga
π΅ βπ‘πΌ
2π
ππ₯π₯< π½ < π΅ +
π‘πΌ2
π
ππ₯π₯
Menyatakan bahwa dengan interval kepercayaan 100 1β πΌ %, nilai π½ akan jatuh pada interval
π΅ βπ‘πΌ
2π
ππ₯π₯< π½ < π΅ +
π‘πΌ2
π
ππ₯π₯
B. Menentukan Selang Kepercayaan Untuk Parameter πΌ (intersect)
Perhatikan Persamaan:
π΄ = π¦ β π΅π₯
Dapat kita lihat bahwa A merupakan fungsi linier dari peubah acak B ~π π½,ππ
π₯πβπ₯ 2π
π=1
, sehingga A
berdistribusi π π½, π₯π
2ππ=1
π π₯πβπ₯ 2π
π=1
π2
Nilai dari π2 pada parameter diatas menunjukkan variansi error yang dapat diestimasi menggunakan
rumus yang telah dijelaskan sebelumnya.
Menggunakan analogi dari teorema 1 serta fakta bahwa A berdistribusi normal, maka statistik
π2 = π β 2 π2
π2
Berdistribusi chi-squared dengan derajat kebebasan v= n-2.
Ubah distribusi A menjadi distribusi normal baku:
Indah Nurina Fitri Hapsari/ 10110094/ Institut Teknologi Bandung
π =
π΄ β πΌ
π₯π
2ππ=1
π π₯π β π₯ 2ππ=1
π2
=
π΄ β πΌ
π π₯π
2ππ=1
π π₯π β π₯ 2π
π=1
Misalkan ππ₯π₯ = π₯π β π₯ 2π
π=1
π =
π΄ β πΌ
π π₯π
2ππ=1π ππ₯π₯
Maka, sesuai dengan teorema 2:
π =π
π2
π£
=
π΄β πΌ
π π₯π
2ππ=1π ππ₯π₯
π β 2 π2
π2
π β 2
=π΄ β πΌ
π π₯π
2ππ=1π ππ₯π₯
Berdistribusi t dengan derajat kebebasan derajat kebebasan π£ = π β 2. Statistik ini dapat digunakan
untuk membangun 100 1β πΌ % selang kepercayaan untuk koefisien signifikansi πΌ.
Selang Kepercayaan untuk parameter πΆ (intersect)
100 1β πΌ % selang kepercayaan untuk koefisien πΌ pada garis regresi ππ|π₯ = πΌ + π½π₯ adalah
βπ‘πΌ2
< π < π‘πΌ2
βπ‘πΌ2
<π΄ β πΌ
π π₯π
2ππ=1π ππ₯π₯
< π‘πΌ2
Indah Nurina Fitri Hapsari/ 10110094/ Institut Teknologi Bandung
π΄ β π‘πΌ 2π π₯π
2ππ=1
π ππ₯π₯ < πΌ < π΄ + π‘πΌ
2π π₯π
2ππ=1
π ππ₯π₯
Dimana π‘πΌ2 menyatakan nilai dari distribusi t dengan derajat kebebasan n-2. Selang diatas
menyatakan bahwa dengan interval kepercayaan 100 1β πΌ % , nilai πΌ akan jatuh pada interval
π΄ β π‘πΌ
2π
π₯π2π
π=1
π ππ₯π₯ < πΌ < π΄ + π‘πΌ
2π
π₯π2π
π=1
π ππ₯π₯