רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה...

Post on 08-Feb-2016

73 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

רגרסיה חד-משתנית תרגול סטטיסטיקה ושימושי מחשב דנה וייניגר יעל פרץ. תזכורת: מתאם פירסון מתאם פירסון: מתאם משמעותו שונות משותפת בין שני משתנים. שונות כללית של y = שונות מוסברת + שונות בלתי מוסברת. גורמים אחרים לא ידועים, טעות. r 2 - השונות המוסברת ע"י x. 1. השונות המוסברת: - PowerPoint PPT Presentation

TRANSCRIPT

רגרסיה חד-משתנית

תרגול סטטיסטיקה ושימושי מחשבדנה וייניגריעל פרץ

תזכורת: מתאם פירסון

מתאם פירסון:

מתאם משמעותו שונות משותפת בין שני משתנים.

nSSYYXX

rYX

iixy **

))((

השונות המוסברת:

?ממה מורכבת השונות של משתנה מסוים

r2 השונות המוסברת ע"י -xגורמים אחרים לא ידועים, טעות 1

שונות בלתי + שונות מוסברת = yשונות כללית של מוסברת

ysysr 2

22 ˆ yהשונות המוסברת = פרופורציית השונות של

. yמנובא, מתוך השונות האמיתית של

למשל, לציון במבחן) x (שעות הלימודישנו מתאם חיובי גבוה בין

)y.(

:אם כך ניתן להגיד כי ישנה "ציון", ולמשתנה "שעות לימוד" למשתנה

משותפת.שונות

מהשונות במשתנה "ציון" 79% ניתן להסביר משתנה "שעות לימוד".באמצעות

ע"י המשתנה "ציון" במשתנה השונות המוסברת .79% היא "שעות לימוד"

21% מהשונות במשתנה "ציון" אינה מוסברת ע"י המשתנה "שעות לימוד". השונות הזו יכולה להיות

מושפעת מגורמים רבים אחרים.

79.089.0 22 r

ניבוי:כאשר יש קשר ליניארי בין שני משתנים, ניתן למצוא קו ישר בעזרתו נוכל לנבא ערך של משתנה אחד (המשתנה המנובא)

מהמשתנה השני.

.קו הרגרסיהקו זה נקרא

), xבמצב של אי וודאות ננבא לכל ערך של המשתנה המנבא ().yאת ערך הממוצע של המשתנה המנובא (

, אך הניבוי הוא דו-כיווני. x מתוך yשימו לב, שאנו מדברים על ניבוי .y מתוך xכלומר, ניתן לנבא גם את

מס' חברים כפונקציה של מס' שעות שיחה בטלפון

0123456789

101112131415

0 5 10 15 20 25 30 35

מס' שעות שיחה בשבוע

םרי

חבס'

מ

מס' חברים

ניבוי- תיאור גרפי :

נמצא כי יש קשר בין מס' שעות השיחה

בטלפון לבין מס' החברים.

: ערכים3נשים לב ל-

של הנבדק.Xiציון 1.

של הנבדק.Yiציון 2.

כלומר, Ýציון 3.הציון שננבא

לנבדק אם אין לנו את הנתון לגביו.

.Ý לבין Yiיתכן שימצא הבדל בין

. Ý=11, ננבא לפי קו הרגרסיה Xi= 20למשל- עבור נבדק ש-

. Yi= 12אך בפועל

ניבוי:קו רגרסיה הנו הקו ה"טוב ביותר" לניבוי, ומקיים

את שתי התכונות הבאות:

0(=Yi – Ŷ∑). כלומר, 0סך הסטיות מהקו הוא 1.

. סך "המרחקים" ממנו הוא המינימלי. 2מרחק- ריבוע הסטייה של התצפית מהקו.

2 = min(Yi – Ŷ∑) כלומר ,

ניבוי:קו רגרסיה המקיים את שתי התכונות הללו, ולכן

הכי טוב לניבוי הוא:y`= bxi + a

חישוב קו הרגרסיה

y`= bxi + a נוסחה כללית של משוואתהרגרסיה

b איך מחשבים את )השיפוע(?

(?Y )חיתוך עם ציר a איך מחשבים את

b= rxy * SDY

SDx

מתאם

a= y - bxxממוצע משתנה

Y ממוצע משתנה

ניבוי:) נמצאת תמיד על קו הרגרסיה.x ,yהנקודה (•. מקדם הרגרסיה נקרא bהמקדם ••b מייצג את מידת ההשפעה שיש למשתנה x על משתנה y .

. b ב- yשל ביחידה אחת, גורר שינוי xשל כלומר, כל שינוי

ניבוי: : השונות המוסברתהצגה גראפית של

במשתנה המנובאכאמור, השונות המוסברת היא השונות )y (במשתנה המנבא), שמוסברת ע"י השונות x.(

שעות לימוד x

Yציון במבחן

(x ,y)שונות לא

מוסברתYiשונות מוסברת

Xi

Ý

נבחן הקשר בין מס' שעות הלימודדוגמא: שמשקיע הסטודנט לבין הציון הסופי במבחן.

: איסוף נתונים על הפיזור של שני המשתנים.1שלב הצגת הנתונים בתרשים פיזור.

תלמידים.25נאספו נתונים של

מס' שעות ציון קורסלימוד

0.565158265380

3.565470475

4.578580582685

6.5806.586

787788785885890985

1093109512951298141001597

הצגה בתרשים פיזור:

חישוב קו הרגרסיה:2שלב

:נתונים6.82: שעות הלימודממוצע 82.68: ציוניםממוצע

SDy =11.12SDx =3.75

rxy= 0.91 : המתאםחושב

b: b= 0.91*(11.12 / 3.75) = 2.72נחשב את

a: a= 82.68 – 2.72 * 6.82 = 64.11נחשב את

x: Y’ = 2.72*Xi+ 64.11 מ-yקו הרגרסיה לניבוי

: חישוב קו הרגרסיה:2שלב x: Y’ = 2.72*Xi+ 64.11 מ-yבמקרה זה קו הרגרסיה לניבוי

מוסר מידע כללי על הקשר בין מקדם המתאם- . y למשתנה xמשתנה

-משוואת הרגרסיה בין משתנים, ומאפשרת לנו קשר ליניארימתארת

לנבא את ערכו של משתנה אחד מתוך מידע על . המשתנה השני

מאפשרת לנו לנבא ציון של פרט מסוים.

: ניבוי באמצעות קו הרגרסיה.3שלב שעות. מה הציון שננבא לו?5דוג': נתון שדני התכונן למבחן במשך

Y’ = 2.72*(5) + 64.11 = 77.71

77.71הציון המנובא של דני במבחן הוא

שעות לימוד x

Yציון במבחן

5

?

1תרגיל

:ניבוי באמצעות ציוני תקןנוסחת הרגרסיה המקורית:

נוסחת הרגרסיה עבור ציוני תקן:

:הסבר0ממוצעי ציוני התקן =

הוא בראשית הצירים. )X ,Y(כלומר, מפגש קו הרגרסיה עם a=0כלומר,

1סטיות תקן ציוני התקן = Y’= bxi + aולכן,

ZY’= r * Zxi

b= rxy * SDY

SDx

=rxy

  - משמעות הקשר המתאמי Y מתוך X, כך ניתן לנבא את X מתוך Yכפי שניתן לנבא את

ZY’= r * ZxiZX’= r * ZYi

Yi)סכום מינימלי של ריבועי סטיות מדובר בשני קווי רגרסיה שונים (’X מ- Xi לעומת סכום מינימלי של ריבועי סטיות ’Yמ-

הנחות מוקדמות לשימוש במודל הרגרסיה:# קשר ליניארי בין המשתנים

# התפלגות נורמלית של המשתנים

# התפלגות נורמלית דו-משתניתפיזור טעויות הניבוי

המנובא( Y האמיתיים מה- Y)סטיות ערכי ה- הינו נורמליXעבור כל ערך של

X# הומוסקדסטיות- פיזור טעויות הניבוי עבור כל ערך של הינו הומוגני )אחיד(,

למידת פיזור טעויות הניבוי. Xכך שאין קשר בין ערך ה-

:לסיכוםהתכונה המרכזית של קו הרגרסיה : מאפשר מינימום של •

.X מתוך משתנה Yטעות בניבוי משתנה

המטרה למצוא על סמך נתוני המדגם, את הקו הישר •שניתן יהיה לנבא בעזרתו את המשתנה השני, ולהקטין את

טעויות הניבוי למינימום.

:נוסחת עבודה נוחה לשימוש

?rxy=0מה יקרה במצב בו * ( )SDyy rxy xi x y

SDx

(SEestטעות התקן של הניבוי )המתאם אינו מושלם, ולכן :

לציון שהיה מתקבל אינו שווה של הנבדק ציונו המנובאכלומר, .אם היו לנו את נתוני המשתנה השני

ולא מדויק. כדי להיות בטוחים יותר נקודתי הינו ’yהאומדן yמרווח הטעות הצפויה בניבוי ערך ה-בניבוי, נחשב את

טעות ולא ערך נקודתי(בעזרת טווח)כלומר, אומדן שהוא התקן של הניבוי.

נוסחה:

y yt

21 X ySEest SDy r

:SEestהשימוש ב- נשתמש בטעות התקן על-מנת לשפר את הניבוי:

ספציפי, Y ספציפי ערך Xבמקום לנבא עבור ערך מסוים )אינטרוול(, ברמת Y ספציפי טווח ערכי Xננבא עבור ערך

ביטחון מסוימת. )כלומר, זהו ניבוי הסתברותי ולא ניבוי אבסולוטי(.

*עלינו להשתמש בעקרונות ההתפלגות הנורמלית, ולכן הנחנו את קיומה

של התפלגות נורמלית דו-משתנית.

:SEestהשימוש ב- גודלו של המרווח: מבטאת את טעות התקן של הניבוי

הנבנה סביב הציון המנובא של הנבדק. כך שנוכל לטעון שציונו "האמיתי" של הנבדק במשתנה

המנובא מצוי בתחומי הטווח הנ"ל ברמת ביטחון (.68%מסוימת )+/-טעות תקן אחת = ביטחון של

z – יש להכפיל ב-בהתאם לרמת הביטחון המבוקשתהמתאים לרמת הביטחון.

SEest ציוני גלם )ולא- ציון יחסי( מבוטא במונחים של.

Zx0.0215 0.0215

0.1359 0.1359

0.3413 0.3413

10 2-1-2 3-30.0013 0.0013

0.6826

0.9544

0.9974

’Y טעויות תקן מ- ±1 נמצא במרחק של Yi 68%נטען שברמת ביטחון של ~

’Y טעויות תקן מ- ±2 נמצא במרחק של Yi 95%נטען שברמת ביטחון של ~

המתאים לרמת הביטחון המבוקשת(Zוכן הלאה .... )יש להשתמש ב-

?rxy = 1למה נצפה כאשר •.0ניבוי מושלם- טעות התקן שווה ל-–

?rxy = 0למה נצפה כאשר •מצב של אי ודאות- ננבא לכל ציון , את הממוצע של –

.yמשתנה . yטעות התקן של המדידה – שווה לסטיית התקן של –

SEestY’rxy0Y’=Yt1.א

SDyY’=Y0.ב

2-5תרגילים

נקודות נוספות: גבוה יותר- קטנה טעות rxyככל שהמתאם 1.

התקן של הניבוי. גם כאשר המתאם גבוה מאוד, עדיין ישנה 2.

טעות.אך – מאחר ובדרך-כלל יש צורך רק בחלוקה

לטווח ולא בניבוי נקודתי, הניבוי עדיין טוב יותר ממצב של אי וודאות.

top related