phan03 - hcmutndlong/tk/mat/phan03.pdf · 9/7/2010 2 ©2010, nguyễn duy long, tiến sỹ 3...

30
9/7/2010 1 Phn 03 Nguyn Duy Long, TiếnSBmôn Thi Công QLXD Bmôn Thi Công QLXD ©2010, Nguyn Duy Long, Tiến S1 Biu đphân tán, sliên hp và stương quan Phân tích hi qui tuyến tính ©2010, Nguyn Duy Long, Tiến S2

Upload: ngokiet

Post on 19-Apr-2018

221 views

Category:

Documents


7 download

TRANSCRIPT

9/7/2010

1

Phần 03Nguyễn Duy Long, Tiến SỹBộ môn Thi Công và QLXDBộ môn Thi Công và QLXD

©2010, Nguyễn Duy Long, Tiến Sỹ 1

Biểu đồ phân tán, sự liên hợp và sự tươngquanq

Phân tích hồi qui tuyến tính

©2010, Nguyễn Duy Long, Tiến Sỹ 2

9/7/2010

2

3©2010, Nguyễn Duy Long, Tiến Sỹ

Đồ thị phân tán (scatter-plots) là biểu thị phổ biếnvà hiểu quả cho dữ liệu.

Đồ thị phân tán là cách tốt nhất để bắt đầu quansát mối liên hệ và cách lý tưởng để xem sự liên hợpcủa hai biến định lượng.

4©2010, Nguyễn Duy Long, Tiến Sỹ

9/7/2010

3

Với đồ thị phân tán, xem hướng (direction), dạng(form), độ chặt (strength), và các đặc điểm bấtthường (unusual features).

(1) Hướng:◦ Hướng âm: giá trị dữ liệu đi theo chiều từ trái qua phải và

từ trên xuống dưới. ◦ Hướng dương: theo chiều ngược lại.

©2010, Nguyễn Duy Long, Tiến Sỹ 5

Mối liện hợp dương( i i i i )(positive association) giữa năm (từ 1900) và% số người sẵn sàngbầu phụ nữ làm tổngthổng ở Mỹ.

h é

% trả

lời“

Có”

Nhận xét...Năm (từ 1900)

©2010, Nguyễn Duy Long, Tiến Sỹ 6

9/7/2010

4

Mối liện hợp âm(negative association)(negative association) giữa tốc độ lúc caođiểm ở xa lộ và chi phítrên đầu người do chậm trễ giao thông.

Nhận xéthi p

hítrê

nđầ

ungườ

i($

/ngư

ời/

năm

)

Nhận xét...Ch Tốc độ lúc cao điểm ở xa lộ(dặm/giờ)

©2010, Nguyễn Duy Long, Tiến Sỹ 7

(2) Dạng:◦ Nếu liên hệ đường

thẳng (tuyến tính): như đám mây hay một đám chấm phântán có dạng thẳng.

hi p

hítrê

nđầ

ungườ

i($

/ngư

ời/

năm

)Ch Tốc độ lúc cao điểm ở xa lộ

(dặm/giờ)

©2010, Nguyễn Duy Long, Tiến Sỹ 8

9/7/2010

5

Dạng:◦ Nếu mối liên hệ không thẳng, nhưng cong cong, ệ g g, g g g,

trong khi vẫn tăng hay giảm dần…

… chúng ta có cách để làm nó thẳng hơn.

©2010, Nguyễn Duy Long, Tiến Sỹ 9

Dạng:◦ Nếu mối liên hệ là rất cong◦ Nếu mối liên hệ là rất cong,

… chúng ta nói nó là liên hợp không tuyến tính

©2010, Nguyễn Duy Long, Tiến Sỹ 10

9/7/2010

6

(3) Độ chặt:◦ Các điểm có vẻ như theo một dòng thẳngộ g g

(dù thẳng, cong, hay uốn).

©2010, Nguyễn Duy Long, Tiến Sỹ 11

Độ chặt:◦ Các điểm trông như một đám mây mờ mà khôngg ộ y g

có một hướng xác định nào:

◦ Ghi chú: chúng ta sẽ định lượng sự phân tán“scatter” sau.

©2010, Nguyễn Duy Long, Tiến Sỹ 12

9/7/2010

7

(4) Các đặc điểm bất thường:◦ Tìm các điều không kỳ vọng.◦ Điều thú vị nhất là khi quan sát đồ thị phân tán là

thấy những điều không mong đợi sẽ tìm thấy.◦ Ví dụ: các giá trị ngoại lệ đứng tách ra.◦ Nên nghi vấn với các cụm (clusters) hay các nhóm

phụ (subgroups).

©2010, Nguyễn Duy Long, Tiến Sỹ 13

Xác định biến nào là trục x, biến nào trục y. Việc xác định dựa trên các vai trò của cácệ ị ự

biến. Khi vai trò là rõ ràng◦ Biến khám phá hay dự đoán (explanatory hay

predictor variable) là trục x,◦ Biến hưởng ứng (response variable) là trục y.

©2010, Nguyễn Duy Long, Tiến Sỹ 14

9/7/2010

8

Chọn vai trò cho các biến phần nhiều vềviệc chúng ta suy nghĩ như thế nào về cácế ề ếbiến hơn là về chính các biến đó.

Chỉ đặt một biến ở trục hoành không nhấtthiết có nghĩa là nó giả thích hay dự báo cáigì đó….

… Biến ở trục tung có thể không hưởng ứngnó trong bất cứ cách nào.nó trong bất cứ cách nào.

©2010, Nguyễn Duy Long, Tiến Sỹ 15

Dữ liệu thu thập từ sinh viên các lớp thống kêhọc gồm chiều cao (in.) và cân nặng (lb):ọ g ( ) ặ g ( )

Mối liên hợp dương(positive association) và khá thẳng, mặc dùcó một trị ngoại lệ.

Cân

nặng

(lb)

©2010, Nguyễn Duy Long, Tiến Sỹ

Chiều cao (in.)

16

9/7/2010

9

Sự liên hợp giữa chiều cao và cân nặng của sinhviên các lớp thống kê học chặt (strong) ra sao?

Nếu đinh lượng độ chặt, chúng ta muốn nó khôngphụ thuộc vào loại đơn vị.

Biểu đồ phân tán giữachiều cao (cm) và cânnặng (kg) không thayđổi dạng phân tán.

ặng

(kg)

©2010, Nguyễn Duy Long, Tiến Sỹ

Chiều cao (in.)

Cân

nặ

17

Vì đơn vị không quantrọng, tại sao khôngọ g, ạ gbỏ nó?

Có thể chuẩn hóacác biến và viết tọađộ của một điểm là(zx, zy).

Biểu đồ phân tán của Biểu đồ phân tán củachiều cao và cânnặng được chuẩnhóa.

©2010, Nguyễn Duy Long, Tiến Sỹ

Zcân nặng

Zchiều cao

18

9/7/2010

10

Dạng tuyến tính của biều đồ chuẩn hóa có vẻ dốchơn biểu đồ phân tán ban đầu.

Vì cả hai trục có tỷ lệ giống nhau. Tỷ lệ bằng nhau tạo khách quan cho biểu đồ phân

tán và độ chặt của sự liện hợp. Giá trị chuẩn hóa được xác định như sau:

)()( yyxxzz

©2010, Nguyễn Duy Long, Tiến Sỹ

),(),(yx syy

sxx

yx zz

19

Các điểm màu xanh lá câylàm mạnh sự liên hợpạ ự ợpdương giữa chiều cao vàcân nặng.

Các điểm màu nâu cókhuynh hướng làm yếu sựliên hợp dương.

Các điểm màu xanh Các điểm màu xanhdương có điểm z bằngkhông không theo cáchliên hợp nào.

©2010, Nguyễn Duy Long, Tiến Sỹ

Zcân nặng

Zchiều cao

20

9/7/2010

11

Hệ số tương quan (r, correlation coefficient) đolường độ chặt giữa biến khám phá và biến hưởngứng

1x yz z

rn

ứng.

©2010, Nguyễn Duy Long, Tiến Sỹ 21

Sự tương quan đo độ chặt của sự liên hợp tuyếntính giữa các biến định lượng.

Kiểm tra các điều kiện sau trước khi dùng sựtương quan:1. Điều kiện các biến định lượng2. Điều kiện khá thẳng (“Straight Enough”)3. Điều kiện trị ngoại lệ

©2010, Nguyễn Duy Long, Tiến Sỹ 22

9/7/2010

12

1. Điều kiện biến định lượng:◦ Sự tương quan chỉ áp dụng cho các biến địnhSự tương quan chỉ áp dụng cho các biến định

lượng. ◦ Không dùng sự tương quan cho biến định tính. ◦ Kiểm tra đơn vị của các biến và chúng đo lường

cái gì.

©2010, Nguyễn Duy Long, Tiến Sỹ 23

2. Điều kiện khá thẳng:◦ Có thể tính (calculate) hệ số tương quan choCó thể tính (calculate) hệ số tương quan cho

bất cứ cặp biến nào. ◦ Nhưng sự tương quan chỉ đo lường độ chặt của

sự liên hợp tuyến tính và sẽ gây sai lệch(misleading) nếu mối quan hệ không tuyến tính.

©2010, Nguyễn Duy Long, Tiến Sỹ 24

9/7/2010

13

3. Điều kiện trị ngoại lệ:◦ Các trị ngoại lệ có thể gây lệch (distort) sựị g ạ ệ g y ệ ( ) ự

tương quan rất lớn. ◦ Một trị ngoại lệ có thể gây sự tương quan nhỏ

thành lớn hay dấu sự tương quan lớn. ◦ Khi gặp trị ngoại lệ, nên trình bày sự tương

quan khi có và không có trị ngoại lệ đó.

©2010, Nguyễn Duy Long, Tiến Sỹ 25

Dấu của hệ số tương quan chỉ hướng của sự liênhợp.

Hệ số tương quan luôn trong khoảng [-1, +1]. Sự tương quan đối xử x và y giống nhau Không có đơn vị.

©2010, Nguyễn Duy Long, Tiến Sỹ 26

9/7/2010

14

Sự tương quan không bị ảnh hưởng bởi các thayđổi trung tâm hay tỷ lệ của biến.

Sự tương quan đo độ chặt của sự liên hợp tuyếntính giữa hai biến. ◦ Các biến có thể có sự liên hợp mạnh nhưng vẫn có sự

tương quan nhỏ nếu sự liên hợp là không tuyến tính. Sự tương quan là rất nhạy với trị ngoại lệ.

©2010, Nguyễn Duy Long, Tiến Sỹ 27

Không đo tương quan các biến định tính. Không nói sự tương quan khi có ý là sự liên hợp

Điểm

©2010, Nguyễn Duy Long, Tiến Sỹ

Nhiệt độ nướng (oF)

28

9/7/2010

15

Chú ý các trị ngoại lệ.

Hệsố

IQ

©2010, Nguyễn Duy Long, Tiến Sỹ

Cở giày

29

Đừng nhầm sự tương quan (correlation) vớiquan hệ nhân quả (causation).

hô h l ê h là h hâ◦ Không phải mọi sự liên hệ là quan hệ nhân quả.

Chứng minh: Còmang trẻ thơ đếncho làng số

của

làng

©2010, Nguyễn Duy Long, Tiến Sỹ

Dân

Số cò30

9/7/2010

16

Chú ý các biến ẩn (lurking variables).◦ Biến ẩn có thể đứng sau sự liên hệ và xác định nó bằng

cách tác động đồng thời hai biếncách tác động đồng thời hai biến.

Ví dụ- Bài tập 26 (tr.163): Điều tra năm 2004 vềcác quốc gia trên thế giới thấy rằng có độ tươngquan dương giữa phần trăm dân số dùng điệnthoại di động và tuổi thọ trung bình của quốc gia. ◦ Điều này có nghĩa là dùng điện thoại di động tốt cho sức

khỏe?khỏe? ◦ Hay ngược lại, bạn càng sống lâu thì khả năng gọi di động

nhiều hơn?◦ Cái gì có thể giải thích độ tương quan dương này?

©2010, Nguyễn Duy Long, Tiến Sỹ 31

Linear Regression

©2010, Nguyễn Duy Long, Tiến Sỹ 32

9/7/2010

17

Từ biểu đồ phân tán bên dưới:◦ Có sự liên hợp chặt (mạnh)?

ế◦ Sự liên hợp có vẽ tuyến tính?

Dữ liệu từ 30 món trênmenu của Burger King

Lượng chất béo và đạm cho thức ăn của Burger King

béo

(g)

©2010, Nguyễn Duy Long, Tiến Sỹ

Chất

b

Đạm (g)33

Sự tương quan lớn (âm hay dương) cho biết “có vẻcó sự liên hợp tuyến tính giữa hai biến,” nhưngkhông cho biết chính xác sự liên hợp đó là gìkhông cho biết chính xác sự liên hợp đó là gì.

Chúng ta có thể biết nhiều hơn về sự liên hợp tuyếntính giữa hai biến định lượng với một mô hình.

Mô hình tuyến tính (linear model) chỉ là một phươngtrình đường thẳng qua dữ liệu.

©2010, Nguyễn Duy Long, Tiến Sỹ 34

9/7/2010

18

• Bằng mắt thường, có thể vẽ đường thẳng qua dữ liệu?• Phương pháp để xác định mô hình phù hợp nhất (“best fit”)

Chất

béo

(g)

C

Đạm (g)

©2010, Nguyễn Duy Long, Tiến Sỹ 35

Mô hình sẽ không baogiờ hoàn hảo bất kể vẽgđường nào.

Một số điểm nằm trênvà một số nằm dướiđường thẳng.

Sự ước lượng từ môhình gọi là giá trị dự

Chất

béo

(g)

(số dư)

hình gọi là giá trị dựbáo (predicted value) (ký hiệu là ŷ)

©2010, Nguyễn Duy Long, Tiến Sỹ

Đạm (g)

36

9/7/2010

19

Sự khác nhau giữa giá trị quan sát (observed value) và giá trị dự báo tương ứng (predicted value) gọi làố ầsố (phần) dư (residual).

Tìm số dư:Số dư = quan sát – dự báo = y – ŷ

©2010, Nguyễn Duy Long, Tiến Sỹ 37

Một số số dư dương, một số âm nên chung qui thìcó thể triệt tiêu lẫn nhau.Vì thế khô thể đá h iá đườ thẳ ừ h Vì thế không thể đánh giá đường thẳng vừa hợpthế nào bằng cách cộng các số dư lại.

Tương tự như độ lệch chuẩn, chúng ta bìnhphương số dư rồi cộng lại.

Tổng càng nhỏ thì các vừa hợp. Đường phù hợp nhất là đường có tổng các bình

phương số dư nhỏ nhất.phương số dư nhỏ nhất.

©2010, Nguyễn Duy Long, Tiến Sỹ 38

9/7/2010

20

Thông số thứ nhất của mô hình, b1, là độnghiêng (slope):ys

b r

Thông số thứ hai của mô hình, b0, là điểm chặn(intercept):

Với ví dụ về Burger King ở trên

1x

b rs

0 1b y b x Với ví dụ về Burger King ở trên…

©2010, Nguyễn Duy Long, Tiến Sỹ 39

Đường hồi qui cho dữ liệu của Burger King:

)(97.08.6)(ˆ damxchatbeoy

Chất

béo

(g)

©2010, Nguyễn Duy Long, Tiến Sỹ

C

Đạm (g)

40

9/7/2010

21

Dịch một độ lệch chuẩn từ trị trung bình của x sẽ dịchr lần độ lệch chuẩn từ trị trung bình của y.

Biể đồ hâ tá th điể◦ Biểu đồ phân tán theo điểm zcho chất béo và đạm:

©2010, Nguyễn Duy Long, Tiến Sỹ 41

r không thể lớn hơn1, vì thế mỗi giá trị dự báo y cókhuynh hướng tiến gần trị trung bình hơn là giá trị

ốtương đối của x. Đặc điểm này của mô hình tuyến tính gọi là hồi qui đến trị trung bình (regression to the mean); đườngthẳng gọi là đường hồi qui (regression line).

©2010, Nguyễn Duy Long, Tiến Sỹ 42

9/7/2010

22

Mô hình tuyến tính giả định sự liên hệ giữa hai biếnlà đường thẳng hoàn hảo. Các số dư là một phầncủa dữ liệu mà không được mô hình.

Dữ liệu = Mô hình + Số dưhay…

Số dư = Dữ liệu – Mô hìnhhay…

ˆe y y

©2010, Nguyễn Duy Long, Tiến Sỹ 43

Số dư giúp chúng ta xem mô hình có hợp lýkhông.

Khi mô hình hồi qui hợp lý, không có điều lý thúnào còn lại.

Sau khi có mô hình hồi qui, thường biểu diểncác số dư với hy vọng không tìm thấy gì.◦ Không có đường cong hay các đường thẳng◦ Không có sự biến thiên tăng hay giảm khi di chuyển dọc

trục x

©2010, Nguyễn Duy Long, Tiến Sỹ 44

9/7/2010

23

Các số dư cho hồi qui menu của Burger King trong“chán”– không có dạng gì

dư(g

chấ

tbéo

)

©2010, Nguyễn Duy Long, Tiến Sỹ

Số

Đạm (g)

45

Sự biến đổi của các số dư là chìa khóa đểđánh giá mô hình phù hợp ra sao.

Trong menu của Burger King, chất béo có độ lệch chuẩnlà 16.4 gam. Độ lệch chuẩncủa các số dư từ sự dự báochất béo của mô hình là9.2 gam.9.2 gam.

Cái nào chỉ biến đổi nhiều hơn?

©2010, Nguyễn Duy Long, Tiến Sỹ

Chất béo Số dư

46

9/7/2010

24

Nếu độ tương quan là1.0 và mô hình dự báo giá trịchất béo hoàn hảo, tất cả các số dư sẽ băng khôngvà không có sự biến đổivà không có sự biến đổi

Với menu của Burger King, độ tương quan là 0.83 –không hoàn hảo.

Tuy nhiên, chúng ta đã thấy các số dư của mô hìnhít biến đổi hơn so với chất béo.

Chúng ta có thể xác định sự biến đổi bao nhiêutrong mô hình và bao nhiêu còn lại trong các sốdư.

©2010, Nguyễn Duy Long, Tiến Sỹ 47

Bình phương độ tương quan, R2, (“R-squared”) chobiết phần biến đổi được xét trong mô hình.

1 R2 là phần biến đổi còn lại trong các số dư 1– R2 là phần biến đổi còn lại trong các số dư. Khi diễn tả mô hình hồi qui, cần cho biết ý nghĩa

của R2.◦ Với mô hình về Burger King, R2 = 0.832 = 0.69, ◦ 69% của sự biến đổi của chất béo được xác định trong mô

hình.◦ 31% (100% - 69%) sự biến đổi của chất béo còn lại trong cácg

số dư.

©2010, Nguyễn Duy Long, Tiến Sỹ 48

9/7/2010

25

R2 luôn giữa 0% và 100%. Giá trị R2 tốt phụ thuộc vào loại dữ liệu đang phân

í à ố à ì ếtích và muốn làm gì với kết quả.

©2010, Nguyễn Duy Long, Tiến Sỹ 49

Điều kiện các biến định lượng:◦ Các thống kê học cao hơn sẽ cho ta biết kết hợp

các dữ liệu định tính. Điều kiện khá thẳng:◦ Mô hình tuyến tính giả định sự liên hệ giữa hai

biến là tuyến tính. ◦ Biểu đồ phân tán sẽ giúp kiểm tra giả định này

hợp lý không.p ý g

©2010, Nguyễn Duy Long, Tiến Sỹ 50

9/7/2010

26

Điều kiện giá trị ngoại lệ:◦ Để ý đến các giá trị ngoại lệ.

Cá điể i lệ ó hể h đổi ô hì h◦ Các điểm ngoại lệ có thể thay đổi mô hình.◦ Các trị ngoại lệ thậm chí có thể thay đổi dấu của

góc nghiêng, làm sai lệch về sự liên hệ giữa haibiến.

©2010, Nguyễn Duy Long, Tiến Sỹ 51

Không dùng đường thẳng cho liên hệ không tuyếntính.Chú ý á điể i lệ Chú ý các điểm ngoại lệ.

Đừng ngoại suy ngoài dữ liệu – mô hình phi tuyếncó thể không còn giá trị ngoài khoảng giá trị cótrong dữ liệu.

Đừng suy x gây ra y mặc dù có mô hình tuyến tínhtốt cho mối quan hệ của chúng – sư liên hợp khôngphải là quan hệ nhân quả.p q ệ q

Đừng chọn mô hình chỉ dựa trên R2.

©2010, Nguyễn Duy Long, Tiến Sỹ 52

9/7/2010

27

Hồi qui về tuổi trung bình kết hôn đầu tiên của đànông và năm phù hợp cho các thập niên đầu của thếkỷ 20 nhưng không đúng cho giai đoạn sau:

kếth

ônlầ

nđầ

u

©2010, Nguyễn Duy Long, Tiến Sỹ

NămTuổiđà

nôn

glú

c

53

Mô hình tuyến tính không làm tốt với các điểm vớisố dư lớn.

Bởi vì có vẻ chúng khác với trường hợp khác, đặcbiệt chú ý đến các điểm có số dư lớnbiệt chú ý đến các điểm có số dư lớn.

Một điểm dữ liệu có thể bất thường nếu giá trị x của nó xa so với trị trung bình. Các điểm đó là cóđòn bẩy lớn (high leverage).

©2010, Nguyễn Duy Long, Tiến Sỹ 54

9/7/2010

28

‣ Mộ điểm có đòn bẩy lớn có khả năng thay đổi đườnghồi qui.

‣ Điểm đó gọi là ảnh hưởng nếu loại bỏ nó khỏi dữ liệuồ ẳsẽ cho mô hình hồi qui khác hẳn.

‣ Ảnh hưởng Bozo (Bozo’s effect) vào mô hình “Chỉ số IQ và cỡ giày”

ỉsố

IQ

sốIQ

©2010, Nguyễn Duy Long, Tiến Sỹ

Cở giày

Chỉ

Cở giày

Chỉs

55

Sự liên hợp chặt đến đâu, R2 lớn đến đâu, quan hệthẳng đến đâu đi nữa, không thể kết luận chỉ từ phâng , g ậ ptích hồi qui là biến này gây ra biến kia.

Với dữ liệu quan sát (observational), khác với dữ liệutừ thí nghiệm được thiết kế (designed experiment), không có cách gì để chắc chắn rằng biến ẩn (lurking variable) không phải là nguyên nhân của một sự liênhợp.ợp

©2010, Nguyễn Duy Long, Tiến Sỹ 56

9/7/2010

29

Biểu đồ phân tán chỉ tuổi thọ trung bình của mộtquốc gia có liên hệ với số bác sỹ trên đầu người ở

ố i đóquốc gia đó.

ung

bình

(năm

)

©2010, Nguyễn Duy Long, Tiến Sỹ

Tuổi

thọ

tru

daunguoiBacsy /

57

Biểu đồ phân tán mới còn cho biết liên hệ giữa tuổithọ và số ti vi trên đầu người của quốc gia.◦ Sự liên hệ thậm chí chặt hơn: R2 of 72% thay vì 62%

Vì ti vi rẻ hơn bác sỹ, tại sao không gởi ti vi tới cácnước có tuổi thọ thấp để có tuổi thọ cao hơn?

ngbì

nh(năm

)

©2010, Nguyễn Duy Long, Tiến Sỹ

Tuổi

thọ

trun

daunguoiTivi /

58

9/7/2010

30

©2010, Nguyễn Duy Long, Tiến Sỹ 59