רגרסיה וניבוי לינארי

20
יייייי יייייי יייייי( ייי יייייי יי ייייr ייי יייי ייי יייי ייי) ייי ייי יייייי. יייי ייייי ייי ייייי. ייייי יייייי ייי יייx ייייy , ייי יייי יייייי ייייי יי יי ייי יייי ייy יייייייx ייי יי ייייי יי( ייייייי יייייx . ייייי) יייי, יייי)יייייייייי( ייייי ייייי יייייי( ייייי יייי ייייייy ( , ייייי יייי ייייי) x .) יייייי : יי ייייי ייייי ייייי ייייי ייי ייי יייי יייייייי יייי יייי ייייי ייייי יייייי יייי יייי ייייי, יייי יייי ייי יי ייייי ייייייי ייייי יי יייי יייייי י"י ייי יייייייי יייי ייייי, יייי ייייי. יייייי יייייי יי ייייPearson . יייי יייייי יייי ייי יייי ייי יייייי ייי ייייייי, יייייי ייי ייייייי ייייייי יייי יי ייי, ייי ייייי ייי יייי, יייי ייי ייייי ייי

Upload: york

Post on 23-Jan-2016

85 views

Category:

Documents


0 download

DESCRIPTION

אחת המטרות של מתאם ( r ) היא לדעת האם קיים קשר בין שני משתנים. מטרה נוספת היא ניבוי . - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: רגרסיה וניבוי לינארי

רגרסיה וניבוי לינארי

( היא לדעת האם קיים קשר בין שני rאחת המטרות של מתאם ).ניבוימשתנים. מטרה נוספת היא

, אנו נוכל להשתמש במידע זה על y לבין xבמידה ומצאנו קשר בין במדגמים חדשים )בהם רק נמדוד x באמצעות yמנת לנבא את

(. אנחנו נחליט בהתאם לצרכים )הסטטיסטיים( שלנו, איזה xאת (.x(, ואיזה יהיה המנבא )yמשתנה יהיה המנובא )

: אם מצאנו במדגם מסוים שקיים קשר בין מספר לדוגמאהסיגריות ליום שהאם עישנה במהלך ההריון לבין משקל העובר,

את משקל התינוק ע"פ אחריםנוכל לנצל ידע זה ולנבא במדגמים .לפני הלידהכמו הסיגריות שהאם מעשנת,

.Pearsonרגרסיה מבוססת על מתאם מתאם פירסון בוחן האם קיים קשר לינארי בין התצפיות, דהיינו האם התצפיות מסתדרות סביב קו ישר, כעט נעסוק בקו עצמו,

נשאל מהי נוסחת הקו הזה.

Page 2: רגרסיה וניבוי לינארי

העיקרון על פיו מבוסס קו זה הוא מינימום הריבועים, דהינו הקו אשר יגרום למינימום הסטיות הריבועיות.

min2' ii yy

Page 3: רגרסיה וניבוי לינארי

נוסחת הניבוי

לא יעזור x, לכן המידע על y לבין x אין קשר בין r=0כאשר .yבניבוי

במצב כזה, למדנו בסמסטר הקודם שהערך אשר יגרום למינימום הסטיות הריבועיות הוא הממוצע .

y

min2 yyi

לכן נוסחת קו הניבוי תהיה:

בציוני תקןבציונים גולמייםyyi

'0' yi zz xציר ה-

Page 4: רגרסיה וניבוי לינארי

המתאם מושלם, מכאן שעבור כל נקודה, מידת r=1כאשר לכן: x זהה למידת הקיצוניות ב-yהקיצוניות ב-

xy zz ')כרגע נעבוד רק בציוני תקן, בהמשך נעבור לציונים גולמיים(

)בערכו המוחלט(, מידת הקיצוניות של 1אם המתאם קטן מ- תהיה קטנה יותר ממידת הקיצוניות של , זאת באופן

פרופורציונלי למתאם.

'yz

xz

באופן כללי:ii xxyy zrz '

Page 5: רגרסיה וניבוי לינארי

פחות קיצוני y, הציון המנובא של r=1/-1חוץ מאשר המקרים בהם , דהיינו יותר קרוב לממוצע שלו. זאת תופעת הרגרסיה xמאשר ציון

.נוסחת הרגרסיהלממוצע )שנדון בה בהמשך( ומכאן השם )סטטיסטיקאי חשוב אך חוקר נוראי -Sir Francis Galtonמקור השם מ

וגזעני( אשר הבחין שבנים של אנשים גבוהים מאד או נמוכים מאד פחות קיצונים מהוריהם )יותר דומים לממוצע(.

, קיימים y מתוך x, וקו ל-x מתוך yמאחר וניתן לבנות קו רגרסיה ל-שני קווים אפשריים.

yzyz

xzxz

'xz

'yz

45

45

xמינימום הריבועים בכוון yמינימום הריבועים בכוון

Page 6: רגרסיה וניבוי לינארי

zyzy zy

zxzxzx

z’x

z’xz’x

z’y

z’y

z’y

r = 0r = 1 0 < r < 1

אם נמיר את נוסחת קו הניבוי לציונים גולמיים:

ii xxyy zrz '

yxxrs

sy

s

xxr

s

yyixy

n

ni

n

ixy

n

i

x

y

xy

' ’yמיקומו של '

מתוך ההתפלגות .yשל

b

yxbbxyxxby ii )('

aii bxay '

xyn

nr

s

sb

x

y

xbya

Page 7: רגרסיה וניבוי לינארי

ii bxay '

נקודת החיתוך עם .yציר ה-

a

b=tan()שיפוע הקו xy

n

nr

s

sb

x

y

xbya

:xבמקביל, נוסחת הקו לניבוי

ii byax 'xy

n

nxy r

s

sb

y

x

ybxaxy

axy

Page 8: רגרסיה וניבוי לינארי

. קווי הניבוי עוברים דרך מפגש הממוצעים

iiהוכחה: bxay '

xxiעבור yxbxbyy i '

ayx

נקודות בהן עובר הקו, אנו יכולים לצייר 2מאחר וידועות לנו אותו.

(a,0) לכן הוא עובר דרך הנקודה a ב-yציר ה- ( חותך אתyקו הניבוי )של

yx,

a

x

x

y a,0

yx,

עובר דרך הנקודות ו- .’xהקו עבור yx, 0,xya

y’

xyn

nr

s

sb

x

y

xbya

Page 9: רגרסיה וניבוי לינארי

ניבוי

.y (yi’) נוכל לנבא את ערך ה-xiכעת, לאחר שבנינו קו, בהינתן

. אחרים מדגמים על אותו וליישם מסוים מדגם סמך על הקו את לבנות היא המטרה

במדגם שבו נבנה הקו, ניתן לחשב עבור כל פרט את הטעות שבניבוי:

חלקים: החלק המנובא והטעות 2 ל-yiכך ניתן לפרק את ערכו של שבניבוי.

iie yyyi

'error

iey

iy

iy'

ieii yyy '

Page 10: רגרסיה וניבוי לינארי

הנחות המודל

הקשר בין המשתנים לינאריYמתפלג נורמלית עבור כלxi.הטעויות ) ( מתפלגות נורמלית באוכלוסייה ie

y

גם בפרט עבור כל 0ממוצע הטעויות שווה ,xi באוכלוסייה .

אין קשר ביןx-לבין הטעות ב y הומוסקדסטיות .(homoscedasticity ) .

0ey

0exy

r

'0זה כמו לומר eyy

r כיy’ הוא טרנספורמציה לינארית של x.

Page 11: רגרסיה וניבוי לינארי

דוגמאלהלן ציוניהם הן בחלק הפתוח והן בחלק הסגור במבחן בסטטיסטיקה של

תלמידים אשר נדגמו מקרית.10

74.165.082.4

97.12 xy

n

n

yx rs

sb

x

y

9.203.3674.13.42 xbyayx

ii xy 74.19.20'

Page 12: רגרסיה וניבוי לינארי

ii xy 74.19.20'

?x=30מהו הערך המנובא עבור הסטודנט אשר קיבל

33.313074.19.20' y

y=38הערך שלו בפועל הוא

67.6eyהטעות בניבוי היא:

ieii yyy ' 67.633.3138

ברור שמטרת הרגרסיה היא לשם יישום הקו עבור תלמידים אחרים. לדוגמא אם חלק מהמבחנים עבדו אך נשארו הטפסים של החלק הפתוח.

אם זאת, אנו יכולים ללמוד על גודל הטעויות על סמך המדגם עליו נבנה הקו.

Page 13: רגרסיה וניבוי לינארי

סיכום ביניים

בציוני תקן

iiii xxyyxxyy zzzrz ''

iiii yyxxyxyx zzzrz '')שפוע הקו בציוני תקן )גם סטטיסטי וגם פרמטר=

xyyxxy r ברגרסיה פשוטה

( 0,0שני הקווים נפגשים בראשית הצירים.) .ככל שהשיפוע גדול יותר, כך קו הניבוי טוב יותר בגלל תופעת הרגרסיה לממוצע קו הניבוי שלy קרוב יותר לממוצע y ציר( zx ,)

.zy קרוב יותר לציר ה- xואילו קו הניבוי של

היא פונקציה של חלק אמיתי ושל xמשמעות תופעת הרגרסיה: מידת הקיצוניות ב-חלק מקרי )"טעותי"(.

אם פרט קיצוני, אנו מניחים שה"טעות" שיחקה לטובתו. מאחר וממוצע הטעות , אנו מצפים )הניבוי הטוב ביותר( שבתכונה השנייה הטעות תהיה קרובה 0שווה ל-.0יותר ל-

, כי אין טעות.r=1התופעה לא קיימת כאשר

Page 14: רגרסיה וניבוי לינארי

בציונים גולמיים

iyxyxi xbay '

ixyxyi ybax '

xyyx aa xyyx bb

x-ו y.נמדדים בסקאלות שונות )לא בהכרח(, לכן השיפועים שונים בהינתן שני קווי רגרסיה )המבוססים על נתונים שונים(, לא ניתן לומר שהקו בעל

השיפוע הגדול הוא טוב יותר. השיפוע הוא פונקציה הן של המתאם והן של סטיות התקן.

Page 15: רגרסיה וניבוי לינארי

פירוק שונויות

'yy

ieii yyy ' ראינו ש:

')'()()'()'()( yeey yEyEyEyyEyE לכן:

'yy =0

),'cov(2)()'()'( 2222eeey yyyyyy

=0

0ממוצע הטעויות שווה

(x הוא טר' לינארית של ’y ו-y לבין הטעות ב-xאין קשר בין

)()'( 222ey yy

yשונות טעויות+שונות ניבויים=שונות

וגם

222

' eyyy nnn SSS

Page 16: רגרסיה וניבוי לינארי

הקועלהשונות שבין הנקודות ש

שונות הניבויים

N

SS

N

y yyiy

'

2

2'

'

לקומסביבהשונות שבין הנקודות

N

SS

N

yye

e

yiiy

2

2 '

שונות הטעויות

הממוצעסביבהשונות שבין הנקודות

N

SS

N

y yyiy

2

2

yסה"כ שונות של

Page 17: רגרסיה וניבוי לינארי

2y 2

'y2ey

אני בודק עד כמה

הניבויים שונים אחד מהשני. ככל

גדל כך rש-אני גם גדל

אני בודק עד כמה הנקודות רחוקות מהקו.

גדל כך rככל ש-אני קטן

אני בודק עד yכמה ערכי ה-

שונים ביניהם

002'

22 ryyy e

)()'( 222ey yy

1022'

2 reyyy

eyyy SSSSSS '

Page 18: רגרסיה וניבוי לינארי

ניתן להוכיח )בקלות( ש:2

2

2'

y

yאחוז השונות המוסברת

.r2במדגם: % השונות המוסברת הוא

N

x

N

y yyxix

yxy

yiy

2

22

'

'

22

2

2

22

yxyxi

x

yxy N

x

2

2

2'

y

y

yxxrs

sy

s

xxr

s

yyixy

n

ni

n

ixy

n

i

x

y

xy

''

Page 19: רגרסיה וניבוי לינארי

22

2'

y

yאחוז השונות המוסברת

222' yy שונות מוסברת = שונות הניבויים

22'

2eyyy אבל מאחר ו:

)1( 222222'

22 yyyyyye

222 )1( yye שונות לא מוסברת = שונות הטעויות

Page 20: רגרסיה וניבוי לינארי

נכונה באוכלוסיה או נוסחה זו

בתוך המדגם

N כי אז המכנה של השונויות זהה עבור כל האיברים: במדגם.nבאוכלוסייה או

לגבי האומדנים, דרגות החופש לא זהות עבור השונויות השונות לכן השוויון איננו מתקיים.

)()'( 222ey yy

222

' eyyy nnn SSS