catatan regresi linier

Indah Nurina Fitri Hapsari/ 10110094/ Institut Teknologi Bandung

REGRESI (Catatan Pribadi Buku Probability and statistics For engineer and scientist-walpole)

Realitas: Setiap kita memberikan variabel bebas yang sama, belum tentu outputnya bakal sama.

Contohnya: Jumlah tar dalam suatu proses kimia tergantung pada besar temperatur. Kalo kita

memberikan temperatur yang sama, belum tentu jumlah tarnya sama persis.

Jenis-jenis variabel:

a. Variabel bebas/regressor/determinant/fixed : input yang kita berikan, yang dapat diubah-

ubah

b. Variabel tak bebas/respons

Model Regresi

𝑌 = 𝛼 + 𝛽𝑥

𝑌: Response 𝛼: Intercept

𝑥: Regressor 𝛽: slope

Deterministik: Jika hubungan antara 𝑥 dan 𝑌 pasti. Tp disini kita ketahui bahwa untuk 𝑥 yang sama

belum tentu kita mendapatkan 𝑌 yang sama. Jadi ada random/probabilistik komponen di dalamnya.

Akibatnya, model regresi diatas tidak dapat dipandang sebagai suatu yang pasti.

Objective:

1. Mencari model terbaik yang mampu mendeskripsikan hubungan antara 𝑥 dan 𝑌

2. Quantifying the stregth of the relationship

3. Memprediksi respon apabila nilai regressor diberikan

Misal random sample berukuran kita notasikan 𝑥𝑖 ,𝑦𝑖 ; 𝑖 = 1,2,3,… ,𝑛. . bila sample diambil

dengan 𝑥 yang sama, maka kemungkinan 𝑦 yang muncul bisa berbeda. Maka 𝑦𝑖 disini merupakan

realisasi dari variabel acak 𝑌𝑖 . Jadi 𝑦𝑖 bergantung pada 𝑥𝑖 secara linear yang juga memiliki komponen

random didalamnya. (kita anggap sebagai error)

Tujuan Regresi: untuk melihat How the random variable 𝒀 moves with 𝒙 and the random

component

Simple Linear Regression Model

𝑌 = 𝛼 + 𝛽𝑥+∈

𝛼,𝛽 tidak diketahui

∈ (error) merupakan variabel acak dengan 𝐸 ∈ = 0 dan 𝑉𝑎𝑟 ∈ = 𝜎2

Karena ∈ merupakan variabel acak, maka 𝑌 juga merupakan variabel acak.

Nilai 𝑥 bukan merupakan variabel acak, pada kenyataannya diukur dengan error yang dapat

diabaikan

𝐸 ∈ = 0 mengindikasikan bahwa untuk suatu nilai 𝑥, 𝑦 terdistribusi disekitar “true” atau

“population regression line” 𝑌 = 𝛼 + 𝛽𝑥


Kenyataannya kita tidak pernah tahu nilai error maka tidak ada true regression line, tp kita

asumsikan ada disini.

𝐸 𝑌 = 𝛼 + 𝛽𝑥 + 𝐸 ∈ = 𝛼 + 𝛽𝑥, maka 𝑌 merupakan variabel acak yang memiliki rata-rata

atau pusat di 𝛼 + 𝛽𝑥(brarti Nilai bergantung pada 𝑥)

True regression line 𝑌 = 𝛼 + 𝛽𝑥 dapat dituliskan sebagai 𝜇𝑌|𝑥 = 𝛼 + 𝛽𝑥. Sehingga true

regression line (yg tdk akan pernah diketahui nilainya) akan melewati nilai dari rata-rata

variabel acak 𝑌

Yang akan kita lakukan ialah mengestimasi parameter 𝜶,𝜷 (koefisien regresi).

Notasikan estimator a untuk 𝛼 dan b untuk 𝛽. Maka estimated/fitted regression linenya adalah:

𝑦 = 𝑎 + 𝑏𝑥

𝑦 merupakan predicted/fitted value

Fitted line merupakan estimate dari true regression line

Fitted line diasumsikan akan mendekati true regression line bila jumlah data besar

Residual

Misal diberikan data sample 𝑥𝑖 ,𝑦𝑖 ; 𝑖 = 1,2,3,… ,𝑛. dan fitted model 𝑦 = 𝑎 + 𝑏𝑥, maka residu ke

𝑖 yaitu 𝑒𝑖 diberikan oleh

𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖 , 𝑖 = 1,2,… ,𝑛

𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖 + 𝑒𝑖

𝑒𝑖 disini terobservasi sedangkan ∈𝑖 tidak terobservasi. Jadi ∈𝑖 menyatakan perbedaan antara true

regression line dengan observasi, sedangkan 𝑒𝑖menyatakan perbedaan antara fitted model dengan

observasi.

Minimize the sum of residual

𝑆𝑆𝐸 = 𝑒𝑖2

𝑛

𝑖=1

= (𝑦𝑖 − 𝑦𝑖 )2

𝑛

𝑖=1

= (𝑦𝑖 − 𝑎 + 𝑏𝑥𝑖)2

𝑛

𝑖=1

Disini 𝑆𝑆𝐸 dikuadratin soalnya biar jumlah errornya gak saling menghilangkan. Untuk

meminimumkan maka kita cari turunan parsialnya.

𝜕(𝑆𝑆𝐸)

𝜕𝑎= −2 (𝑦𝑖 − 𝑎 + 𝑏𝑥𝑖)

𝑛

𝑖=1

, 𝜕(𝑆𝑆𝐸)

𝜕𝑏= −2 (𝑦𝑖 − 𝑎 + 𝑏𝑥𝑖)

𝑛

𝑖=1

𝑥𝑖

Persaman normal

(i) −2 (𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖)𝑛𝑖=1 = 0 𝑎𝑛 + 𝑏 𝑥𝑖

𝑛𝑖=1 = 𝑦𝑖

𝑛𝑖=1

(ii) −2 (𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖)𝑛𝑖=1 𝑥𝑖 = 0 𝑎 𝑥𝑖

𝑛𝑖=1 + 𝑏 𝑥𝑖

2𝑛𝑖=1 = 𝑥𝑖

𝑛𝑖=1 𝑦𝑖

Diselesaikan secara simultan dan gunakan


𝑥𝑖𝑦𝑖

𝑛

𝑖=1

− 𝑥 𝑦𝑖

𝑛

𝑖=1

= 𝑦𝑖(𝑥𝑖 − 𝑥 )

𝑛

𝑖=1

= 𝑥𝑖 − 𝑥 (𝑦𝑖 − 𝑦 )

𝑛

𝑖=1

𝑏 = 𝑥𝑖 − 𝑥 (𝑦𝑖 − 𝑦 )𝑛𝑖=1

(𝑥𝑖 − 𝑥 )2𝑛

𝑖=1

𝑎 = 𝑦 − 𝑏𝑥

PROPERTIES OF THE LEAST SQUARE ESTIMATOR

𝑌𝒊 = 𝛼 + 𝛽𝑥𝑖 + ∈𝑖

Asumsikan bahwa ∈𝑖 memiliki mean=0 dan variansi konstant 𝜎2 dan ∈1 , ∈2 , ∈3, … , ∈𝑛 saling

bebas from run to run biar kita bisa nyari mean dan variansi dari 𝛼 dan 𝛽.

a dan b pada fitted model hanya merupakan estimasi dari parameter 𝛼 dan 𝛽. Sehingga, untuk

sampel sampel yang berbeda ataupun untuk nilai x yang sama, kita mungkin akan mendapatkan nilai

a dan b yang berbeda pula. Karena untuk setiap x yang sama belum tentu akan menghasilkan y yang

sama pula. Maka a dan b dapat kita pandang sebagai realisasi dari variabel acak A dan B.

Karena nilai x tetap, maka nilai dari A dan B bergantung pada nilai y yang merupakan realisasi dari

variabel acak 𝑌, atau dengan kata lain bergantung pada variabel acak 𝑌1 ,𝑌2 ,… ,𝑌𝑛 (saling bebas

karena error juga saling bebas).

𝜇𝑌|𝑥𝑖 = 𝐸[𝑌𝒊] = 𝛼 + 𝛽𝑥𝑖 + 𝐸 ∈𝑖 = 𝛼 + 𝛽𝑥𝑖

Equal variance.

𝜎2𝑌|𝑥𝑖 = 𝜎2 = 𝑣𝑎𝑟𝑖𝑎𝑛𝑠𝑖 𝑒𝑟𝑟𝑜𝑟

Dari persamaaan:

𝐵 = 𝑥𝑖 − 𝑥 𝑛𝑖=1 (𝑌𝑖 − 𝑌 )

𝑥𝑖 − 𝑥 2𝑛

𝑖=1

= 𝑥𝑖 − 𝑥 𝑛𝑖=1 𝑌𝑖 𝑥𝑖 − 𝑥

2𝑛𝑖=1

𝐸 𝐵 = 𝑥𝑖 − 𝑥 𝐸[𝑛𝑖=1 𝑌𝑖]


𝑖=1

= 𝑥𝑖 − 𝑥 (𝛼 + 𝛽𝑥𝑖)𝑛𝑖=1


𝑖=1

= 𝛽

𝜎𝐵2 = 𝑉𝑎𝑟

𝑥𝑖 − 𝑥 𝑛𝑖=1 𝑌𝑖 𝑥𝑖 − 𝑥

2𝑛𝑖=1

= 𝑥𝑖 − 𝑥

2𝑛𝑖=1 𝜎𝑌𝑖

2

𝑥𝑖 − 𝑥 2 2𝑛

𝑖=1

= 𝜎2


𝑖=1

𝐴 = 𝑌 − 𝑥 𝑥𝑖 − 𝑥 𝑛𝑖=1 𝑌𝑖 𝑥𝑖 − 𝑥

2𝑛𝑖=1

𝐸[𝐴] = 𝐸[𝑌] − 𝑥 𝑥𝑖 − 𝑥 𝑛𝑖=1 𝐸[𝑌𝑖]


𝑖=1

= 𝛼 + 𝛽𝑥 − 𝑥 𝑥𝑖 − 𝑥 𝛼 + 𝛽𝑥𝑖 𝑛𝑖=1


𝑖=1

= 𝛼

Use: 𝑽𝒂𝒓 𝒂𝑿+ 𝒃𝒀 = 𝒂𝟐𝑽𝒂𝒓 𝑿 + 𝒃𝟐𝑽𝒂𝒓 𝒀 − 𝟐𝒂𝒃𝑪𝒐𝒗(𝑿,𝒀)


𝜎𝐴2 = 𝑉𝑎𝑟 𝑌 − 𝐵𝑥 = 𝑉𝑎𝑟 𝑌 + 𝑥 2𝑉𝑎𝑟 𝐵 − 2𝑥 𝐶𝑜𝑣 𝑌 ,𝐵 = 𝐸 𝑌 2 − 𝐸[𝑌 ]2 + 𝑥 2

𝜎2


𝑖=1

= 𝛼 + 𝛽𝑥 2 +𝜎2

𝑛− 𝛼 + 𝛽𝑥 2 + 𝑥 2

𝜎2

𝑛 𝑥𝑖 − 𝑥 2𝑛

𝑖=1

= 𝜎2

𝑛 𝑥𝑖 − 𝑥

2𝑛𝑖=1 + 𝑥 2


𝑖=1

= 𝜎2 𝑥𝑖

2𝑛𝑖=1


𝑖=1

𝐶𝑜𝑣 𝑌 ,𝐵 = 𝐶𝑜𝑣 𝑌, 𝑥𝑖 − 𝑥 𝑛𝑖=1 𝑌𝑖 𝑥𝑖 − 𝑥

2𝑛𝑖=1

= 𝑥𝑖 − 𝑥 𝑛𝑖=1


𝑖=1

𝐶𝑜𝑣 𝑌, 𝑌𝑖 = 0

𝜎2 pada variansi A dan B merupakan variansi error dari model (reflects random variation or

experimental error variation Around regression line)

𝑉𝑎𝑟𝑖𝑎𝑛𝑠𝑖 ∈𝑖 = 𝑦𝑖 − 𝑦𝑖 𝑛𝑖=1

2

(𝑛 − 2)

Variansi diatas mengukur kuadrat deviasi antara nilai 𝑌 dengan nilai meannya 𝜇𝑌|𝑥 ( yaitu 𝛼 + 𝛽𝑥).

𝛼 + 𝛽𝑥 disni diestimasi oleh 𝑦 = 𝑎 + 𝑏𝑥. Maka variansi error menghitung kuadrat deviasi antara

observasi dan estimated mean 𝒚 . Jadi analoginya, biasanya 𝑦 dipake buat ngestimasi mean. Kalo

disini 𝑦 dibuat untuk ngestimasi 𝜇𝑌|𝑥 in a regression structure.

Selang kepercayaan dari koefisien Regresi

Perhatikan Persamaan:

𝑌𝒊 = 𝛼 + 𝛽𝑥𝑖 + ∈𝑖 , dengan 𝑥𝑖 merupakan fixed values

Dengan asumsi ∈𝑖 ~ 𝑁 0,𝜎2 dan ∈1 , ∈2 , ∈3 ,… ,∈𝑛 saling bebas,

𝑀𝑌𝒊 𝑡 = 𝐸 𝑒𝑡𝑌𝒊

= 𝐸 𝑒𝑡 𝛼+𝛽𝑥𝑖+ ∈𝑖

= 𝑒𝑡 𝛼+𝛽𝑥𝑖 .𝐸 𝑒𝑡 ∈𝑖

= 𝑒𝑡 𝛼+𝛽𝑥𝑖 . 𝑒12

𝜎2𝑡2

= 𝑒𝑡 𝛼+𝛽𝑥𝑖 +12

𝜎2𝑡2

Maka 𝑌𝑖 berdistribusi normal dengan distribusi peluang 𝑌𝑖 ~ 𝑁 𝛼 + 𝛽𝑥𝑖 ,𝜎2 . Hal ini juga dapat

langsung disimpulkan dengan melihat bahwa 𝑌𝑖 merupakan fungsi linier dari ∈𝑖 yang berdistribusi

normal.

A. Menentukan Selang Kepercayaan Untuk Parameter 𝛽 (slope)

Perhatikan persamaan:

𝐵 = 𝑥𝑖 − 𝑥 𝑛𝑖=1 𝑌𝑖 𝑥𝑖 − 𝑥

2𝑛𝑖=1


Dapat kita lihat bahwa B merupakan fungsi linier dari peubah acak 𝑌𝑖 ~ 𝑁 𝛼 + 𝛽𝑥𝑖 ,𝜎2 , dengan

𝑌1 ,𝑌2 ,… . ,𝑌𝑛 saling bebas, sehingga B berdistribusi 𝑁 𝛽,𝝈𝟐

𝑥𝑖−𝑥 2𝑛

𝑖=1

.

Nilai 𝜎2 pada parameter distribusi variabel acak B diatas merupakan variansi dari variabel acak ∈𝑖 .

Dengan kata lain, 𝜎2 menyatakan variasi error sepanjang garis regresi.

Parameter 𝜎2 dapat diestimasi dengan:

𝑉𝑎𝑟𝑖𝑎𝑛𝑠𝑖 ∈𝑖 = 𝑦𝑖 − 𝑦𝑖 𝑛𝑖=1

2

(𝑛 − 2)

yang merupakan estimasi tak bias dari 𝜎2 . Dengan menggunakan estimasi variansi error, kita dapat

menentukan estimasi variansi dari B.

Teorema 1:

Jika 𝑆2 merupakan variansi dari sampel acak berukuran n yang diambil dari populasi berdistribusi

normal yang memiliki variansi 𝜎2, maka statistik

𝜒2 = 𝑛 − 1 𝑆2

𝜎2

Berdistribusi chi-squared dengan derajat kebebasan v=n-1.

Menggunakan analogi dari teorema diatas serta fakta bahwa B berdistribusi normal, maka statistik

𝜒2 = 𝑛 − 2 𝑆2

𝜎2

Berdistribusi chi-squared dengan derajat kebebasan v= n-2.

Teorema 2:

Misalkan 𝑍 berdistribusi normal baku dan 𝜒2 berdistribusi Chi-squared dengan derajat kebebasan 𝑣.

Jika 𝑍 dan 𝜒2 saling bebas, maka distribusi dari variabel acak 𝑇, dimana

𝑇 =𝑍

𝜒2

𝑣

Berdistribusi t dengan derajat kebebasan 𝑣.

Sebelum menggunakan teorema diatas, variabel acak B harus kita ubah dalam bentuk normal baku

(.𝑁 0,1 Untuk itu, gunakan fakta bahwa :

“X berdistribusi 𝑵 𝝁,𝝈𝟐 jika dan hanya jika 𝒁 =𝑿−𝝁

𝝈 berdistribusi 𝑵(𝟎,𝟏)"

𝑍 =

𝐵 − 𝛽

𝜎2


𝑖=1


Misalkan 𝑆𝑥𝑥 = 𝑥𝑖 − 𝑥 2𝑛

𝑖=1

𝑍 = 𝐵 − 𝛽 𝑆𝑥𝑥

𝜎

Kemudian gunakan teorema 2,

𝑇 =𝑍

𝜒2

𝑣

=

𝐵 − 𝛽 𝑆𝑥𝑥

𝜎

𝑛 − 2 𝑆2

𝜎2

𝑛 − 2

=

𝐵 − 𝛽 𝑆𝑥𝑥

𝜎

𝑆𝜎

= 𝐵 − 𝛽 𝑆𝑥𝑥

𝑆

Maka T berdistribusi t dengan derajat kebebasan 𝑣 = 𝑛 − 2. Statistik ini dapat digunakan untuk

membangun 100 1− 𝛼 % selang kepercayaan untuk koefisien 𝛽. (𝛼 disini melambangkan tingkat

signifikansi)

Teori singkat mengenai distribusi t

Distribusi t menyerupai distribusi normal baku. Kedua distribusi tersebut simetri terhadap meannya,

dengan nilai mean 0. Kedua distribusi diatas berbentuk bell-shaped, namun untuk distribusi

bergantung pada 2 nilai yaitu 𝑋 dan 𝑆2. Sedangkan untuk distribusi normal hanya bergantung pada

𝑋 saja.

𝑡𝛼 : menunjukkan nilai t dimana luas area diatas t sama dengan alfa (𝛼 disini menunjukkan tingkat

signifikansi)

Karena t merupakan distribusi yang simetrik, maka 𝑡1−𝛼 = −𝑡𝛼

Selang Kepercayaan untuk parameter 𝜷

𝛼

𝛼


100 1− 𝛼 % selang kepercayaan untuk koefisien 𝛽 pada garis regresi 𝜇𝑌|𝑥 = 𝛼 + 𝛽𝑥 adalah

−𝑡𝛼2

< 𝑇 < 𝑡𝛼2

−𝑡𝛼2

< 𝐵 − 𝛽 𝑆𝑥𝑥

𝑆< 𝑡𝛼

2

−𝑡𝛼2𝑆

𝑆𝑥𝑥− 𝐵 < −𝛽 <

𝑡𝛼2

𝑆

𝑆𝑥𝑥− 𝐵

𝐵 −𝑡𝛼

2𝑆

𝑆𝑥𝑥< 𝛽 < 𝐵 +

𝑡𝛼2

𝑆

𝑆𝑥𝑥

Dimana 𝑡𝛼2 menyatakan nilai dari distribusi t dengan derajat kebebasan n-2.

−𝑡𝛼2

< 𝑇 < 𝑡𝛼2

Menyatakan bahwa besar peluang t berada pada selang −𝑡𝛼2

< 𝑇 < 𝑡𝛼2 adalah 1− 2.

𝛼

2= 1− 𝛼

dengan 𝑡𝛼 menunjukkan nilai t dimana luas area diatas t sama dengan alfa. Sehingga

𝐵 −𝑡𝛼

2𝑆


𝑡𝛼2

𝑆

𝑆𝑥𝑥

Menyatakan bahwa dengan interval kepercayaan 100 1− 𝛼 %, nilai 𝛽 akan jatuh pada interval

𝐵 −𝑡𝛼

2𝑆


𝑡𝛼2

𝑆

𝑆𝑥𝑥

B. Menentukan Selang Kepercayaan Untuk Parameter 𝛼 (intersect)

Perhatikan Persamaan:

𝐴 = 𝑦 − 𝐵𝑥

Dapat kita lihat bahwa A merupakan fungsi linier dari peubah acak B ~𝑁 𝛽,𝝈𝟐

𝑥𝑖−𝑥 2𝑛

𝑖=1

, sehingga A

berdistribusi 𝑁 𝛽, 𝑥𝑖

2𝑛𝑖=1

𝑛 𝑥𝑖−𝑥 2𝑛

𝑖=1

𝜎2

Nilai dari 𝜎2 pada parameter diatas menunjukkan variansi error yang dapat diestimasi menggunakan

rumus yang telah dijelaskan sebelumnya.

Menggunakan analogi dari teorema 1 serta fakta bahwa A berdistribusi normal, maka statistik

𝜒2 = 𝑛 − 2 𝑆2

𝜎2

Berdistribusi chi-squared dengan derajat kebebasan v= n-2.

Ubah distribusi A menjadi distribusi normal baku:


𝑍 =

𝐴 − 𝛼

𝑥𝑖

2𝑛𝑖=1

𝑛 𝑥𝑖 − 𝑥 2𝑛𝑖=1

𝜎2

=

𝐴 − 𝛼

𝜎 𝑥𝑖

2𝑛𝑖=1


𝑖=1

Misalkan 𝑆𝑥𝑥 = 𝑥𝑖 − 𝑥 2𝑛

𝑖=1

𝑍 =

𝐴 − 𝛼

𝜎 𝑥𝑖

2𝑛𝑖=1𝑛 𝑆𝑥𝑥

Maka, sesuai dengan teorema 2:

𝑇 =𝑍

𝜒2

𝑣

=

𝐴− 𝛼

𝜎 𝑥𝑖


𝑛 − 2 𝑆2

𝜎2

𝑛 − 2

=𝐴 − 𝛼

𝑆 𝑥𝑖


Berdistribusi t dengan derajat kebebasan derajat kebebasan 𝑣 = 𝑛 − 2. Statistik ini dapat digunakan

untuk membangun 100 1− 𝛼 % selang kepercayaan untuk koefisien signifikansi 𝛼.

Selang Kepercayaan untuk parameter 𝜶 (intersect)

100 1− 𝛼 % selang kepercayaan untuk koefisien 𝛼 pada garis regresi 𝜇𝑌|𝑥 = 𝛼 + 𝛽𝑥 adalah

−𝑡𝛼2

< 𝑇 < 𝑡𝛼2

−𝑡𝛼2

<𝐴 − 𝛼

𝑆 𝑥𝑖


< 𝑡𝛼2


𝐴 − 𝑡𝛼 2𝑆 𝑥𝑖

2𝑛𝑖=1

𝑛 𝑆𝑥𝑥 < 𝛼 < 𝐴 + 𝑡𝛼

2𝑆 𝑥𝑖

2𝑛𝑖=1

𝑛 𝑆𝑥𝑥

Dimana 𝑡𝛼2 menyatakan nilai dari distribusi t dengan derajat kebebasan n-2. Selang diatas

menyatakan bahwa dengan interval kepercayaan 100 1− 𝛼 % , nilai 𝛼 akan jatuh pada interval

𝐴 − 𝑡𝛼

2𝑆

𝑥𝑖2𝑛

𝑖=1

𝑛 𝑆𝑥𝑥 < 𝛼 < 𝐴 + 𝑡𝛼

2𝑆

𝑥𝑖2𝑛

𝑖=1

𝑛 𝑆𝑥𝑥

catatan regresi linier

Data & Analytics