chapter 7: regression and correlation analysis · 2018-02-23 ·...

Post on 09-Jan-2020

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Chapter 7: Regression and Correlation Analysis

การวิเคราะห์ถดถอยและสหสัมพันธ์

1

เนือ้หา:• การวิเคราะห์ถดถอยเชิงเส้นอย่างง่าย• การประมาณช่วงความเชื่อมั่นเก่ียวกับพารามิเตอร์ของเส้นถดถอย• การทดสอบสมมติฐานเกี่ยวกับพารามิเตอร์ของเส้นถดถอย• สัมประสิทธิ์การตัดสินใจ• สหสัมพันธ์เชิงเส้นอย่างง่าย• การทดสอบสมมติฐานเกี่ยวกับค่าสัมประสิทธิ์สหสัมพันธ์

2

การวิเคราะห์การถดถอย (Regression Analysis)

3

เป็นการศึกษารูปแบบความสัมพันธ์ของตัวแปร เพ่ือใช้ท านายค่าตัวแปรที่ต้องการศึกษาโดยอาศัยความรู้เกี่ยวกับค่าของตัวแปรอื่นที่เกี่ยวข้อง(ตัวแปรที่ก าหนด) ซึ่งอาจจะมีหนึ่งตัวหรือมากกว่า ตัวแปรที่ต้องการศึกษา เรียกว่า ตัวแปรตาม (Dependent variable) มักแทนด้วยตัวแปร Y ตัวแปรที่ก าหนดให้ เรียกว่า ตัวแปรอิสระ (Independent variable) มักแทนด้วยตัวแปร X

ดังนั้นข้อมูลที่ใช้ศึกษา ประกอบด้วยตัวแปรสองประเภท ตัวแปรอิสระ (Independent variable(s))

เป็นตัวแปรที่ก าหนดค่าได้แน่นอน หรือสามารถวัดค่าได้โดยไม่มีความคลาดเคลื่อน

ตัวแปรตาม (Dependent variable)เป็นตัวแปรที่เกิดขึ้นโดยสุ่ม

4

1. ถ้าเป็นการศึกษารูปแบบความสัมพันธ์ระหว่างตัวแปรตามที่ขึ้นอยู่กับตัวแปรอิสระเพียงตัวเดียว เรียกการศึกษานี้ว่า

การวิเคราะห์การถดถอยอย่างง่าย(Simple Regression Analysis)

2. ถ้าเป็นการศึกษารูปแบบความสัมพันธ์ระหว่างตัวแปรตามที่ขึ้นอยู่กับตัวแปรอิสระตั้งแต่สองตัวขึ้นไป เรียกการศึกษานี้ว่า

การวิเคราะห์การถดถอยเชิงพหุ(Multiple Regression Analysis)

5

การศึกษาความสัมพันธ์ระหว่างตัวแปร

6

การถดถอยเชิงเส้น (Linear Regression)รูปแบบความสัมพันธ์ระหว่างตัวแปรตามกับตัวแปรอิสระมีลักษณะแนวโน้มเชิง

เส้นตรง

การถดถอยไม่เป็นเชิงเส้น (Nonlinear Regression)รูปแบบความสัมพันธ์ระหว่างตัวแปรตามกับตัวแปรอิสระมีลักษณะแนวโน้มไม่

เป็นเส้นตรง

รูปแบบของการวิเคราะห์ถดถอย (Types of Regression Models )

7

ในบทนี้จะกล่าวถึงเฉพาะกรณีที่รูปแบบความสัมพันธ์ระหว่างตัวแปรมีแนวโน้มเป็นเชิงเส้นตรง

8

การวิเคราะห์ถดถอยเชิงเส้นอย่างง่าย (Simple Linear Regression Analysis )

เป็นการศึกษาความสัมพันธ์ระหว่างตัวแปร โดยที่มีตัวแปรอิสระ ( X ) เพียงตัวเดียวที่มีอิทธิพลต่อตัวแปรตาม ( Y ) และรูปแบบความสัมพันธ์เป็นเชิงเส้นตรง

9

ตัวแบบการถดถอยเชิงเส้นอย่างง่าย (Simple Linear Regression Model)

10

11

12

13

nn Y,X,...,Y,X,Y,X2211

14

ดังนั้นตัวแบบการวิเคราะห์ถดถอยเชิงเส้นอย่างง่ายของข้อมูลจากตัวอย่าง(Sample Simple Linear Regression Model) เป็นดังนี้

15

16

การหาค่าของ b0 และ b1 ในสมการถดถอยจะใช้วิธีก าลังสองน้อยที่สุด (Least Squares Method) ซึ่งวิธีนี้จะให้ค่าของตัวประมาณ b0 และ b1 ท่ีท าให้ผลรวมก าลังสองของความคลาดเคลื่อนมีค่าน้อยที่สุด

18

โดย Least Squares Method สมการถดถอยที่ได้จะมีคุณสมบัติดังนี้

ตารางการวิเคราะห์ความแปรปรวน (ANOVA Table)

19

จาก Least Squares Method จะได้สมการปกติดังนี้

20

21

ตัวอย่างที่ 6.1 ข้อมูลต่อไปนี้เป็นการศึกษาความสัมพันธ์ระหว่างเวลาที่ใช้ในการฝึกปฏิบัติ (ช.ม.) กับคะแนนสอบของนักเรียนที่เรียนรายวิชาหนึ่งของโรงเรียนแห่งหนึ่ง โดยทดลองกับนักเรียนจ านวน 8 คน ได้ข้อมูลดังนี้

1. จงหาสมการถดถอยเพ่ือใช้ประมาณคะแนนสอบ2. จงประมาณคะแนนสอบ เมื่อนักเรียนใช้เวลาฝึกปฏิบัติ 6 ช.ม.

22

23

จากข้อมูลท าแผนภาพการกระจาย (Scatter Plot) ของข้อมูลเพ่ือดูรูปแบบความสัมพันธ์ของเวลาและคะแนนสอบ ซึ่งจะเห็นว่ามีแนวโน้มเป็นเชิงเส้นตรง ดังนั้นจึงท าการวิเคราะห์ถดถอยเชิงเส้นตรง

24

จากข้อมูลค านวณค่าต่าง ๆ ดังตาราง

25

จากข้อมูลทราบว่า

26

ดังนั้น จะได้ว่า

b1

b0

27

จะได้สมการถดถอย (regression equation) หรือสมการท านาย (prediction equation) ดังนี้

28

29

30

ตัวอย่างที่ 6.1 จากการศึกษาความดัน Systolic ในสตรีอายุต่างๆ กันจ านวน 10 คน ปรากฏผลดังนี้

จงหาสมการถดถอยของข้อมูลชุดนี้*** ฝึกปฏิบัติ

31

ในการวิเคราะห์การถดถอย นอกจากต้องการศึกษารูปแบบของความสัมพันธ์ระหว่างตัวแปรและหาค่าประมาณของตัวแปรตามจากตัวแปรอิสระแล้ว เรายังต้องการวัดความคลาดเคลื่อนที่เกิดจากใช้เส้นถดถอยมาประมาณค่าจะเรียกว่า ความคลาดเคลื่อนมาตรฐานของการประมาณค่า Y เมื่อก าหนดค่า X (Standard error of estimate)ซึ่งเป็นการวัดการกระจายของค่าสังเกต Y รอบเส้นถดถอย ถ้าเส้นถดถอยนี้ประมาณข้อมูลได้ดีจะพบว่าข้อมูลจะกระจายรอบๆ เส้นถดถอย ดังนั้นความคลาดเคลื่อนที่ได้จะมีค่าต่ าในทางตรงกันข้ามถ้าข้อมูลกระจายห่างจากเส้นถดถอยมากจะส่งผลให้ความคลาดเคลื่อนมีค่าสูงตามไปด้วยซึ่ง ความคลาดเคลื่อนมาตรฐานของการประมาณค่า Yเมื่อก าหนดค่า X แทนด้วย SY/X

32

ความแปรปรวนของการประมาณ Y เมื่อก าหนด X แทนด้วย S2Y/X

ดังนั้น ความคลาดเคลื่อนมาตรฐานของการประมาณค่า Y เมื่อก าหนดค่า X คือ

33

34

ทราบว่า

35

36

37

38

39

40

41

42

43

44

จากตัวอย่างที่ 6.1 ที่ระดับนัยส าคัญ 0.05 จงทดสอบว่า1. เส้นถดถอยผ่านจุดก าเนิดหรือไม่2. เวลาที่ใช้ฝึกปฏิบัติและคะแนนสอบที่ได้มีความสัมพันธ์กันหรือไม่

45

46

47

48

49

50

51

ดังนั้น ที่ระดับความเชื่อมั่น 95% ของการประมาณคะแนนเฉลี่ยของ Y เมื่อก าหนด X = 10 จะอยู่ในช่วง

การทดสอบนัยส าคัญของสมการถดถอยโดยวธิีวิเคราะห์ความแปรปรวน

52

การทดสอบสมมติฐานว่าตัวแปร X และ Y มีความสัมพันธ์กันหรือไม่ นอกจากใช้สถิติทดสอบ t แล้ว ยังสามารถทดสอบสมมติฐานโดยวิธีการวิเคราะห์ความแปรปรวนซึ่งวิธีนี้จะต้องแยกความผันแปรของตัวแปรสุ่ม Y ทั้งหมด ออกเป็นส่วนๆ ตามแหล่งที่มาของความผันแปร ดังแสดงในแผนภาพต่อไปนี้

53

54

SST แทน ความผันแปรทั้งหมด (Total Sum of Square)

55

56

57

จากตัวอย่างที่ 6.1 ที่ระดับนัยส าคัญ 0.05 จงทดสอบว่า เวลาที่ใช้และคะแนนสอบที่ได้มีความสัมพันธ์กันหรือไม่โดยวิธีวิเคราะห์ความแปรปรวน

58

จากตัวอย่างที่ 6.1 ที่ระดับนัยส าคัญ 0.05 จงทดสอบว่า เวลาที่ใช้และคะแนนสอบที่ได้มีความสัมพันธ์กันหรือไม่โดยวิธีวิเคราะห์ความแปรปรวน

59

เป็นการพิจารณาสัดส่วนของความผันแปรของ Y ในส่วนที่อธิบายได้หรือความผันแปรของ Y เนื่องจากเส้นถดถอย กับความผันแปรทั้งหมดของ Y แทนด้วย R2

60

61

62

การวิเคราะห์สหสัมพันธ์ (Correlation Analysis)

เป็นการวัดขนาดหรือระดับของความสัมพันธ์ของตัวแปร ซึ่งจะบอกได้ว่าตัวแปรที่ศึกษามีความสัมพันธ์กันมากน้อยเพียงใด ซึ่งค่าใช้วัดระดับความสัมพันธ์ เรียกว่าสัมประสิทธ์ิสหสัมพันธ์ (Correlation Coefficient)

ถ้าเป็นการศึกษาความสัมพันธ์ของตัวแปร 2 ตัว เรียกว่าสหสัมพันธ์อย่างง่าย (Simple Correlation)

ถ้าเป็นการศึกษาความสัมพันธ์ของตัวแปรมากกว่า 2 ตัวขึ้นไป เรียกว่าสหสัมพันธ์เชิงพหุ (Multiple Correlation)

63

ในบทนี้จะกล่าวถึงเฉพาะกรณีที่มีตัวแปร 2 ตัวและความสัมพันธ์เป็นแบบเชิงเส้นตรงที่เรียกว่า

การวิเคราะห์สหสัมพันธ์เชิงเส้นอย่างง่าย(Simple Linear Correlation Analysis )

64

65

66

67

ถ้า r มีค่าเป็นลบ แสดงว่า X และ Y มีความสัมพันธ์ในทิศทางตรงกันข้ามถ้า r มีค่าเป็นบวก แสดงว่า X และY มีความสัมพันธ์ในทิศทางเดียวกันถ้า r มีค่าเป็น 0 แสดงว่า X และ Y ไม่มีความสัมพันธ์กัน

68

รูปแสดงความสัมพันธ์ระหว่างตัวแปร X และ Y ที่ระดับความสัมพันธ์ต่างๆ

69

70

จากตัวอย่างที่ 6.1 จงหาค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างเวลาที่ใช้กับคะแนนสอบ

71

72

73

74

75

top related