רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה...
DESCRIPTION
רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ. תזכורת: מתאם פירסון מתאם פירסון: מתאם משמעותו שונות משותפת בין שני משתנים. שונות כללית של y = שונות מוסברת + שונות בלתי מוסברת. גורמים אחרים לא ידועים, טעות. r 2 - השונות המוסברת ע"י x. 1. השונות המוסברת: - PowerPoint PPT PresentationTRANSCRIPT
רגרסיה חד-משתנית
תרגול סטטיסטיקה ושימושי מחשב
דנה וייניגר
יעל פרץ
תזכורת: מתאם פירסון
מתאם פירסון:
מתאם משמעותו שונות משותפת בין שני משתנים.
nSS
YYXXr
YX
iixy **
))((
השונות המוסברת:
?ממה מורכבת השונות של משתנה מסוים
r2 השונות המוסברת ע"י -xגורמים אחרים לא ידועים, טעות 1
שונות בלתי + שונות מוסברת = yשונות כללית של מוסברת
ys
ysr
2
22 ˆ yהשונות המוסברת = פרופורציית השונות של
. yמנובא, מתוך השונות האמיתית של
למשל,
לציון במבחן) x (שעות הלימודישנו מתאם חיובי גבוה בין )y.(
:אם כך ניתן להגיד כי ישנה "ציון", ולמשתנה "שעות לימוד" למשתנה
משותפת.שונות
מהשונות במשתנה "ציון" 79% ניתן להסביר משתנה "שעות לימוד".באמצעות
ע"י המשתנה "ציון" במשתנה השונות המוסברת .79% היא "שעות לימוד"
21% מהשונות במשתנה "ציון" אינה מוסברת ע"י המשתנה "שעות לימוד". השונות הזו יכולה להיות
מושפעת מגורמים רבים אחרים.
79.089.0 22 r
ניבוי:כאשר יש קשר ליניארי בין שני משתנים, ניתן למצוא קו ישר בעזרתו נוכל לנבא ערך של משתנה אחד (המשתנה המנובא)
מהמשתנה השני.
.קו הרגרסיהקו זה נקרא
), xבמצב של אי וודאות ננבא לכל ערך של המשתנה המנבא ().yאת ערך הממוצע של המשתנה המנובא (
, אך הניבוי הוא דו-כיווני. x מתוך yשימו לב, שאנו מדברים על ניבוי .y מתוך xכלומר, ניתן לנבא גם את
מס' חברים כפונקציה של מס' שעות שיחה בטלפון
0123456789
101112131415
0 5 10 15 20 25 30 35
מס' שעות שיחה בשבוע
םרי
חבס'
מ
מס' חברים
ניבוי- תיאור גרפי :
נמצא כי יש קשר בין מס' שעות השיחה
בטלפון לבין מס' החברים.
: ערכים3נשים לב ל-
של הנבדק.Xiציון 1.
של הנבדק.Yiציון 2.
כלומר, Ýציון 3.הציון שננבא
לנבדק אם אין לנו את הנתון לגביו.
.Ý לבין Yiיתכן שימצא הבדל בין
. Ý=11, ננבא לפי קו הרגרסיה Xi= 20למשל- עבור נבדק ש-
. Yi= 12אך בפועל
ניבוי:קו רגרסיה הנו הקו ה"טוב ביותר" לניבוי, ומקיים
את שתי התכונות הבאות:
0(=Yi – Ŷ∑). כלומר, 0סך הסטיות מהקו הוא 1.
. סך "המרחקים" ממנו הוא המינימלי. 2מרחק- ריבוע הסטייה של התצפית מהקו.
2 = min(Yi – Ŷ∑) כלומר ,
ניבוי:קו רגרסיה המקיים את שתי התכונות הללו, ולכן
הכי טוב לניבוי הוא:y`= bxi + a
חישוב קו הרגרסיה
y`= bxi + a נוסחה כללית של משוואתהרגרסיה
b איך מחשבים את )השיפוע(?
(?Y )חיתוך עם ציר a איך מחשבים את
b= rxy * SDY
SDx
מתאם
a= y - bxxממוצע משתנה
Y ממוצע משתנה
ניבוי:) נמצאת תמיד על קו הרגרסיה.x ,yהנקודה (•. מקדם הרגרסיה נקרא bהמקדם ••b מייצג את מידת ההשפעה שיש למשתנה x על משתנה y .
. b ב- yשל ביחידה אחת, גורר שינוי xשל כלומר, כל שינוי
ניבוי: : השונות המוסברתהצגה גראפית של
במשתנה המנובאכאמור, השונות המוסברת היא השונות )y (במשתנה המנבא), שמוסברת ע"י השונות x.(
שעות לימוד
x
Yציון במבחן
(x ,y)שונות לא
מוסברתYiשונות מוסברת
Xi
Ý
נבחן הקשר בין מס' שעות הלימודדוגמא:
שמשקיע הסטודנט לבין הציון הסופי במבחן.
: איסוף נתונים על הפיזור של שני המשתנים.1שלב
הצגת הנתונים בתרשים פיזור.
תלמידים.25נאספו נתונים של
מס' שעות ציון קורסלימוד
0.565
158
265
380
3.565
470
475
4.578
580
582
685
6.580
6.586
787
788
785
885
890
985
1093
1095
1295
1298
14100
1597
הצגה בתרשים פיזור:
חישוב קו הרגרסיה:2שלב
:נתונים6.82: שעות הלימודממוצע 82.68: ציוניםממוצע
SDy =11.12SDx =3.75
rxy= 0.91 : המתאםחושב
b: b= 0.91*(11.12 / 3.75) = 2.72נחשב את
a: a= 82.68 – 2.72 * 6.82 = 64.11נחשב את
x: Y’ = 2.72*Xi+ 64.11 מ-yקו הרגרסיה לניבוי
: חישוב קו הרגרסיה:2שלב x: Y’ = 2.72*Xi+ 64.11 מ-yבמקרה זה קו הרגרסיה לניבוי
מוסר מידע כללי על הקשר בין מקדם המתאם- . y למשתנה xמשתנה
-משוואת הרגרסיה
בין משתנים, ומאפשרת לנו קשר ליניארימתארת לנבא את ערכו של משתנה אחד מתוך מידע על
. המשתנה השני
מאפשרת לנו לנבא ציון של פרט מסוים.
: ניבוי באמצעות קו הרגרסיה.3שלב שעות. מה הציון שננבא לו?5דוג': נתון שדני התכונן למבחן במשך
Y’ = 2.72*(5) + 64.11 = 77.71
77.71הציון המנובא של דני במבחן הוא
שעות לימוד
x
Yציון במבחן
5
?
1תרגיל
:ניבוי באמצעות ציוני תקןנוסחת הרגרסיה המקורית:
נוסחת הרגרסיה עבור ציוני תקן:
:הסבר0ממוצעי ציוני התקן =
הוא בראשית הצירים. )X ,Y(כלומר, מפגש קו הרגרסיה עם a=0כלומר,
1סטיות תקן ציוני התקן = Y’= bxi + aולכן,
ZY’= r * Zxi
b= rxy * SDY
SDx
=rxy
- משמעות הקשר המתאמי Y מתוך X, כך ניתן לנבא את X מתוך Yכפי שניתן לנבא את
ZY’= r * ZxiZX’= r * ZYi
Yi)סכום מינימלי של ריבועי סטיות מדובר בשני קווי רגרסיה שונים (’X מ- Xi לעומת סכום מינימלי של ריבועי סטיות ’Yמ-
הנחות מוקדמות לשימוש במודל הרגרסיה:# קשר ליניארי בין המשתנים
# התפלגות נורמלית של המשתנים
# התפלגות נורמלית דו-משתניתפיזור טעויות הניבוי
המנובא( Y האמיתיים מה- Y)סטיות ערכי ה- הינו נורמליXעבור כל ערך של
X# הומוסקדסטיות- פיזור טעויות הניבוי עבור כל ערך של הינו הומוגני )אחיד(,
למידת פיזור טעויות הניבוי. Xכך שאין קשר בין ערך ה-
:לסיכוםהתכונה המרכזית של קו הרגרסיה : מאפשר מינימום של •
.X מתוך משתנה Yטעות בניבוי משתנה
המטרה למצוא על סמך נתוני המדגם, את הקו הישר •שניתן יהיה לנבא בעזרתו את המשתנה השני, ולהקטין
את טעויות הניבוי למינימום.
:נוסחת עבודה נוחה לשימוש
?rxy=0מה יקרה במצב בו
* ( )SDy
y rxy xi x ySDx
(SEestטעות התקן של הניבוי )המתאם אינו מושלם, ולכן :
לציון שהיה מתקבל אינו שווה של הנבדק ציונו המנובאכלומר, .אם היו לנו את נתוני המשתנה השני
ולא מדויק. כדי להיות בטוחים יותר נקודתי הינו ’yהאומדן yמרווח הטעות הצפויה בניבוי ערך ה-בניבוי, נחשב את
טעות ולא ערך נקודתי(בעזרת טווח)כלומר, אומדן שהוא התקן של הניבוי.
נוסחה:
y yt
21 X ySEest SDy r
:SEestהשימוש ב- נשתמש בטעות התקן על-מנת לשפר את הניבוי:
ספציפי, Y ספציפי ערך Xבמקום לנבא עבור ערך
מסוים )אינטרוול(, ברמת Y ספציפי טווח ערכי Xננבא עבור ערך ביטחון
מסוימת. )כלומר, זהו ניבוי הסתברותי ולא ניבוי אבסולוטי(.
*עלינו להשתמש בעקרונות ההתפלגות הנורמלית, ולכן הנחנו את קיומה
של התפלגות נורמלית דו-משתנית.
:SEestהשימוש ב- גודלו של המרווח: מבטאת את טעות התקן של הניבוי
הנבנה סביב הציון המנובא של הנבדק.
כך שנוכל לטעון שציונו "האמיתי" של הנבדק במשתנה המנובא מצוי בתחומי הטווח הנ"ל ברמת ביטחון
(.68%מסוימת )+/-טעות תקן אחת = ביטחון של
z – יש להכפיל ב-בהתאם לרמת הביטחון המבוקשתהמתאים לרמת הביטחון.
SEest ציוני גלם )ולא- ציון יחסי( מבוטא במונחים של.
Zx
0.0215 0.0215
0.1359 0.1359
0.3413 0.3413
10 2-1-2 3-30.0013 0.0013
0.6826
0.9544
0.9974
’Y טעויות תקן מ- ±1 נמצא במרחק של Yi 68%נטען שברמת ביטחון של ~
’Y טעויות תקן מ- ±2 נמצא במרחק של Yi 95%נטען שברמת ביטחון של ~
המתאים לרמת הביטחון המבוקשת(Zוכן הלאה .... )יש להשתמש ב-
?rxy = 1למה נצפה כאשר •.0ניבוי מושלם- טעות התקן שווה ל-–
?rxy = 0למה נצפה כאשר •מצב של אי ודאות- ננבא לכל ציון , את הממוצע של –
.yמשתנה . yטעות התקן של המדידה – שווה לסטיית התקן של –
SEestY’rxy
0Y’=Yt1.א
SDyY’=Y0.ב
2-5תרגילים
נקודות נוספות:
גבוה יותר- קטנה טעות rxyככל שהמתאם 1.התקן של הניבוי.
גם כאשר המתאם גבוה מאוד, עדיין ישנה 2.טעות.
אך – מאחר ובדרך-כלל יש צורך רק בחלוקה לטווח ולא בניבוי נקודתי, הניבוי עדיין טוב
יותר ממצב של אי וודאות.