רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה...

30
תתתתתת- תתתתתת תת תתתתת תתתתתתתתת תתתתתתת תתתת תתת תתתתתתת תתת תתת

Upload: vida

Post on 30-Jan-2016

47 views

Category:

Documents


0 download

DESCRIPTION

רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ. תזכורת: מתאם פירסון מתאם פירסון: מתאם משמעותו שונות משותפת בין שני משתנים. שונות כללית של y = שונות מוסברת + שונות בלתי מוסברת. גורמים אחרים לא ידועים, טעות. r 2 - השונות המוסברת ע"י x. 1. השונות המוסברת: - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

רגרסיה חד-משתנית

תרגול סטטיסטיקה ושימושי מחשב

דנה וייניגר

יעל פרץ

Page 2: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

תזכורת: מתאם פירסון

מתאם פירסון:

מתאם משמעותו שונות משותפת בין שני משתנים.

nSS

YYXXr

YX

iixy **

))((

Page 3: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

השונות המוסברת:

?ממה מורכבת השונות של משתנה מסוים

r2 השונות המוסברת ע"י -xגורמים אחרים לא ידועים, טעות 1

שונות בלתי + שונות מוסברת = yשונות כללית של מוסברת

ys

ysr

2

22 ˆ yהשונות המוסברת = פרופורציית השונות של

. yמנובא, מתוך השונות האמיתית של

Page 4: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

למשל,

לציון במבחן) x (שעות הלימודישנו מתאם חיובי גבוה בין )y.(

Page 5: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

:אם כך ניתן להגיד כי ישנה "ציון", ולמשתנה "שעות לימוד" למשתנה

משותפת.שונות

מהשונות במשתנה "ציון" 79% ניתן להסביר משתנה "שעות לימוד".באמצעות

ע"י המשתנה "ציון" במשתנה השונות המוסברת .79% היא "שעות לימוד"

21% מהשונות במשתנה "ציון" אינה מוסברת ע"י המשתנה "שעות לימוד". השונות הזו יכולה להיות

מושפעת מגורמים רבים אחרים.

79.089.0 22 r

Page 6: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

ניבוי:כאשר יש קשר ליניארי בין שני משתנים, ניתן למצוא קו ישר בעזרתו נוכל לנבא ערך של משתנה אחד (המשתנה המנובא)

מהמשתנה השני.

.קו הרגרסיהקו זה נקרא

), xבמצב של אי וודאות ננבא לכל ערך של המשתנה המנבא ().yאת ערך הממוצע של המשתנה המנובא (

, אך הניבוי הוא דו-כיווני. x מתוך yשימו לב, שאנו מדברים על ניבוי .y מתוך xכלומר, ניתן לנבא גם את

Page 7: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

מס' חברים כפונקציה של מס' שעות שיחה בטלפון

0123456789

101112131415

0 5 10 15 20 25 30 35

מס' שעות שיחה בשבוע

םרי

חבס'

מ

מס' חברים

ניבוי- תיאור גרפי :

נמצא כי יש קשר בין מס' שעות השיחה

בטלפון לבין מס' החברים.

: ערכים3נשים לב ל-

של הנבדק.Xiציון 1.

של הנבדק.Yiציון 2.

כלומר, Ýציון 3.הציון שננבא

לנבדק אם אין לנו את הנתון לגביו.

.Ý לבין Yiיתכן שימצא הבדל בין

. Ý=11, ננבא לפי קו הרגרסיה Xi= 20למשל- עבור נבדק ש-

. Yi= 12אך בפועל

Page 8: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

ניבוי:קו רגרסיה הנו הקו ה"טוב ביותר" לניבוי, ומקיים

את שתי התכונות הבאות:

0(=Yi – Ŷ∑). כלומר, 0סך הסטיות מהקו הוא 1.

. סך "המרחקים" ממנו הוא המינימלי. 2מרחק- ריבוע הסטייה של התצפית מהקו.

2 = min(Yi – Ŷ∑) כלומר ,

Page 9: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

ניבוי:קו רגרסיה המקיים את שתי התכונות הללו, ולכן

הכי טוב לניבוי הוא:y`= bxi + a

Page 10: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

חישוב קו הרגרסיה

y`= bxi + a נוסחה כללית של משוואתהרגרסיה

b איך מחשבים את )השיפוע(?

(?Y )חיתוך עם ציר a איך מחשבים את

b= rxy * SDY

SDx

מתאם

a= y - bxxממוצע משתנה

Y ממוצע משתנה

Page 11: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

ניבוי:) נמצאת תמיד על קו הרגרסיה.x ,yהנקודה (•. מקדם הרגרסיה נקרא bהמקדם ••b מייצג את מידת ההשפעה שיש למשתנה x על משתנה y .

. b ב- yשל ביחידה אחת, גורר שינוי xשל כלומר, כל שינוי

Page 12: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

ניבוי: : השונות המוסברתהצגה גראפית של

במשתנה המנובאכאמור, השונות המוסברת היא השונות )y (במשתנה המנבא), שמוסברת ע"י השונות x.(

שעות לימוד

x

Yציון במבחן

(x ,y)שונות לא

מוסברתYiשונות מוסברת

Xi

Ý

Page 13: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

נבחן הקשר בין מס' שעות הלימודדוגמא:

שמשקיע הסטודנט לבין הציון הסופי במבחן.

: איסוף נתונים על הפיזור של שני המשתנים.1שלב

הצגת הנתונים בתרשים פיזור.

תלמידים.25נאספו נתונים של

מס' שעות ציון קורסלימוד

0.565

158

265

380

3.565

470

475

4.578

580

582

685

6.580

6.586

787

788

785

885

890

985

1093

1095

1295

1298

14100

1597

Page 14: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

הצגה בתרשים פיזור:

Page 15: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

חישוב קו הרגרסיה:2שלב

:נתונים6.82: שעות הלימודממוצע 82.68: ציוניםממוצע

SDy =11.12SDx =3.75

rxy= 0.91 : המתאםחושב

b: b= 0.91*(11.12 / 3.75) = 2.72נחשב את

a: a= 82.68 – 2.72 * 6.82 = 64.11נחשב את

x: Y’ = 2.72*Xi+ 64.11 מ-yקו הרגרסיה לניבוי

Page 16: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

: חישוב קו הרגרסיה:2שלב x: Y’ = 2.72*Xi+ 64.11 מ-yבמקרה זה קו הרגרסיה לניבוי

Page 17: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

מוסר מידע כללי על הקשר בין מקדם המתאם- . y למשתנה xמשתנה

-משוואת הרגרסיה

בין משתנים, ומאפשרת לנו קשר ליניארימתארת לנבא את ערכו של משתנה אחד מתוך מידע על

. המשתנה השני

מאפשרת לנו לנבא ציון של פרט מסוים.

Page 18: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

: ניבוי באמצעות קו הרגרסיה.3שלב שעות. מה הציון שננבא לו?5דוג': נתון שדני התכונן למבחן במשך

Y’ = 2.72*(5) + 64.11 = 77.71

77.71הציון המנובא של דני במבחן הוא

שעות לימוד

x

Yציון במבחן

5

?

Page 19: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

1תרגיל

Page 20: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

:ניבוי באמצעות ציוני תקןנוסחת הרגרסיה המקורית:

נוסחת הרגרסיה עבור ציוני תקן:

:הסבר0ממוצעי ציוני התקן =

הוא בראשית הצירים. )X ,Y(כלומר, מפגש קו הרגרסיה עם a=0כלומר,

1סטיות תקן ציוני התקן = Y’= bxi + aולכן,

ZY’= r * Zxi

b= rxy * SDY

SDx

=rxy

Page 21: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

  - משמעות הקשר המתאמי Y מתוך X, כך ניתן לנבא את X מתוך Yכפי שניתן לנבא את

ZY’= r * ZxiZX’= r * ZYi

Yi)סכום מינימלי של ריבועי סטיות מדובר בשני קווי רגרסיה שונים (’X מ- Xi לעומת סכום מינימלי של ריבועי סטיות ’Yמ-

Page 22: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

הנחות מוקדמות לשימוש במודל הרגרסיה:# קשר ליניארי בין המשתנים

# התפלגות נורמלית של המשתנים

# התפלגות נורמלית דו-משתניתפיזור טעויות הניבוי

המנובא( Y האמיתיים מה- Y)סטיות ערכי ה- הינו נורמליXעבור כל ערך של

X# הומוסקדסטיות- פיזור טעויות הניבוי עבור כל ערך של הינו הומוגני )אחיד(,

למידת פיזור טעויות הניבוי. Xכך שאין קשר בין ערך ה-

Page 23: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

:לסיכוםהתכונה המרכזית של קו הרגרסיה : מאפשר מינימום של •

.X מתוך משתנה Yטעות בניבוי משתנה

המטרה למצוא על סמך נתוני המדגם, את הקו הישר •שניתן יהיה לנבא בעזרתו את המשתנה השני, ולהקטין

את טעויות הניבוי למינימום.

:נוסחת עבודה נוחה לשימוש

?rxy=0מה יקרה במצב בו

* ( )SDy

y rxy xi x ySDx

Page 24: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

(SEestטעות התקן של הניבוי )המתאם אינו מושלם, ולכן :

לציון שהיה מתקבל אינו שווה של הנבדק ציונו המנובאכלומר, .אם היו לנו את נתוני המשתנה השני

ולא מדויק. כדי להיות בטוחים יותר נקודתי הינו ’yהאומדן yמרווח הטעות הצפויה בניבוי ערך ה-בניבוי, נחשב את

טעות ולא ערך נקודתי(בעזרת טווח)כלומר, אומדן שהוא התקן של הניבוי.

נוסחה:

y yt

21 X ySEest SDy r

Page 25: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

:SEestהשימוש ב- נשתמש בטעות התקן על-מנת לשפר את הניבוי:

ספציפי, Y ספציפי ערך Xבמקום לנבא עבור ערך

מסוים )אינטרוול(, ברמת Y ספציפי טווח ערכי Xננבא עבור ערך ביטחון

מסוימת. )כלומר, זהו ניבוי הסתברותי ולא ניבוי אבסולוטי(.

*עלינו להשתמש בעקרונות ההתפלגות הנורמלית, ולכן הנחנו את קיומה

של התפלגות נורמלית דו-משתנית.

Page 26: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

:SEestהשימוש ב- גודלו של המרווח: מבטאת את טעות התקן של הניבוי

הנבנה סביב הציון המנובא של הנבדק.

כך שנוכל לטעון שציונו "האמיתי" של הנבדק במשתנה המנובא מצוי בתחומי הטווח הנ"ל ברמת ביטחון

(.68%מסוימת )+/-טעות תקן אחת = ביטחון של

z – יש להכפיל ב-בהתאם לרמת הביטחון המבוקשתהמתאים לרמת הביטחון.

SEest ציוני גלם )ולא- ציון יחסי( מבוטא במונחים של.

Page 27: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

Zx

0.0215 0.0215

0.1359 0.1359

0.3413 0.3413

10 2-1-2 3-30.0013 0.0013

0.6826

0.9544

0.9974

’Y טעויות תקן מ- ±1 נמצא במרחק של Yi 68%נטען שברמת ביטחון של ~

’Y טעויות תקן מ- ±2 נמצא במרחק של Yi 95%נטען שברמת ביטחון של ~

המתאים לרמת הביטחון המבוקשת(Zוכן הלאה .... )יש להשתמש ב-

Page 28: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

?rxy = 1למה נצפה כאשר •.0ניבוי מושלם- טעות התקן שווה ל-–

?rxy = 0למה נצפה כאשר •מצב של אי ודאות- ננבא לכל ציון , את הממוצע של –

.yמשתנה . yטעות התקן של המדידה – שווה לסטיית התקן של –

SEestY’rxy

0Y’=Yt1.א

SDyY’=Y0.ב

Page 29: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

2-5תרגילים

Page 30: רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ

נקודות נוספות:

גבוה יותר- קטנה טעות rxyככל שהמתאם 1.התקן של הניבוי.

גם כאשר המתאם גבוה מאוד, עדיין ישנה 2.טעות.

אך – מאחר ובדרך-כלל יש צורך רק בחלוקה לטווח ולא בניבוי נקודתי, הניבוי עדיין טוב

יותר ממצב של אי וודאות.