רגרסיה ליניארית

Post on 31-Dec-2015

68 Views

Category:

Documents

7 Downloads

Preview:

Click to see full reader

DESCRIPTION

רגרסיה ליניארית. מתאם פירסון בודק : האם יש קשר לינארי בין שני משתנים , ואם כן, מה עוצמתו וכוונו אך אם אכן קשר כזה מתקיים, מה נוכל להפיק ממנו?. 2. 3. 3. אופי הקשר בין המשתנים -. 4. 4. חוזק הקשר בין המשתנים -ככל שענן ההתפלגות מרוכז יותר, הקשר חזק יותר. רגרסיה לינארית. - PowerPoint PPT Presentation

TRANSCRIPT

רגרסיה ליניארית

1

2

: האם יש קשר מתאם פירסון בודקלינארי בין שני משתנים , ואם כן, מה

עוצמתו וכוונו

אך אם אכן קשר כזה מתקיים, מה נוכל להפיק ממנו?

3

אופי הקשר בין המשתנים -

3

4

חוזק הקשר בין המשתניםככל שענן ההתפלגות מרוכז יותר, הקשר חזק יותר-

4

5

רגרסיה לינארית

כאשר ידוע לנו שקיים קשר בין שני משתניםוהקשר הוא לינארי )קו ישר(, אנחנו יכולים לבנות

מודל של רגרסיה משוואת הרגרסיה מאפשרת לנו לנבא את הערך

מתוך הערך של המשתנה התלוישל המשתנה .הבלתי-תלוי

או במילים פשוטות - בכמה יחידות עולהY כאשר Xעולה ביחידה אחת

רגרסיה לינארית

מחפשים מהי הנוסחה המתמטית שמבטאת את רגרסיה :דפוס הקשר בין שני המשתנים

כאשר המטרה הראשונה שלנו היא ניבוילדוגמא – רוצים לנבא את ציונו

הסופי של תלמיד תואר ראשון על

סמך ציון הפסיכומטרי שלו

איך?

בונים קו רגרסיה על סמך הנתונים

הידועים

עבור מועמד חדש –

BAמציבים ציון פסיכו' וחוזים ערך

7

רגרסיה לינארית

ניתן ללמוד מרגרסיה מספר דברים: מידת ההשפעה שלX על Y ניבויY על פי X)או להפך( אחוז שונות מוסברת – מהי התרומה של המשתנה הבלתי

תלוי להסבר השונות בתופעה הנחקרת ]המשתנה התלוי[. עד כמה המשתנה המנבא יכול להסביר הבדלים

במשתנה המנובא

בעולם מושלם..

כאשר הקשר ביןX הוא קשר קווי Yל-

מלא, ניתן לנבא מתוך Yבמדויק את

X בעזרת משוואת – הרגרסיה הליניארית.

8

האהובה בנוסחא bxayנשתמש ˆ

..ובמציאות..

?מה קורה כאשר הקשר הקווי אינו מלאגם במקרים אלו נשתמש במודל של רגרסיה

ליניארית שתתאר, בצורה הטובה ביותר, את הקשר Y ל-Xבין

9

10

התאמת מודל ליניארי לנתוניםשלב ראשון - הצגה גראפית של ההתפלגויות

המשותפות של המשתנים כדי לוודא שאנחנו עומדים מול קשר ליניארי.

הדרך הטובה ביותר להצגה גראפית של קשר בין משתנים אינטרוווליים ומעלה:

scatterplots.

10

11

גרף המתאר קשר בין שני המשתנים –

מה מראה גרף שכזה?ערכי המשתנה הבלתי תלוי מופיעים על הציר האופקי -(X)ערכי המשתנה התלוי מופיעים על הציר -

(Yהאנכי )כל המקרים מוצגים על הגרף כנקודות על -

פי ערכיהם על שני המשתנים

12

987654321

80

70

60

50

40

30

Height

Dru

gY ל-Xקשר בין

Y

X

סביר להתייחס אל הקשר כאל

קשר ליניארי

איך בוחרים את הקו עם ההתאמה הטובה ביותר

14

בנית קו רגרסיה

."הקו המבוקש הוא מעין קו "ממוצע הוא קו שסך המרחקים ממנו הוא קטן ביותר

בהשוואה לכל קו ישר אחרכאשר המרחק נמדד כריבוע מסטיות הקו

15

16

אם נעלה בריבוע את כל הסטיות של הנקודות מהקו.

Sum of )‘ כל ריבועי הסטיותונסכם את squares נוכל לקבוע את מידת ההתאמה של -– )’

הקו לנקודות

ככל שהמספר שקיבלנו גדול יותר, כך ההתאמה גרועה יותר.

קו הרגרסיה מוגדר כקו הישר הטוב ביותר לפי קריטריון הריבועים הפחותים.

רגרסיה קו בנית

מסויםY ננבא Xניבוי בעזרת הקו הישר פירושו שלכל

.לכל תצפית שאיננה על הקו הישר, אנו טועים בניבוי

-יש לנו את ערכי הY ,הערכים האמיתיים הנתונים . על הקו הישרY המנובאים, שהם ערכי Yיש לנו את ערכי ה-

Y = a + bX.

המנובא, היא הסטייה, הטעות.Y האמיתי ל-Yההפרש בין

בנית קו רגרסיה

אנו מחפשים את אותו קו ניבוי שעבורו סך ריבועיהסטיות של הערכים האמיתיים מהניבויים, יהיה

מינימאלי.בעית אופטימיזציה – שכבר פתרו בעבורנו

X מתוך Yבנית קו רגרסיה – ניבוי

הקשר בין קו הרגרסיה לבין משוואת הרגרסיה

20

Dep

end

ent

vari

able

(Y

)

Independent variable (X)

a נקודת החיתוך על ציר ה = Y=

b = שיפוע

משוואת הרגרסיה:

Y = a + bX

קו הניבוי הטוב ביותר הוא כאשר אין הפרשים בין לבין התצפית שניבאנו. Yהתצפית האמיתית של

קוים: קו ניבוי וקו של התצפיות, הם יהיו 2אם נצייר חופפים...אך מאוד לא סביר שבמציאות שאנו

חוקרים נגיע לדבר כזה...

רגרסיה ליניארית – כמה נקודות הבנה כלליות..

מודל הרגרסיה זוהי משוואת הניבוי. אםX נתון אפשר . X נתון אפשר לנבא את Y ואם Yלנבא את

על מנת לחשב את הרגרסיה הליניארית המשתנים צריכיםלהיות על סולם אינטרוולי ומעלה

22

רגרסיה לינארית

משוואת קו הרגרסיהbxay ˆ

23

y נתון X עבור כל Yערך מנובא של -

Y - aהחותך: המקום בו קו הרגרסיה חותך את ציר

bשיפוע קו הרגרסיה -

b: אופציה נוספת לחישוב

xbya

nyyxx

bx

ii

)(

2 השונות של המשתנה הבלתי תלוי

24

( או שלילי b>0)השיפוע יכול להיות חיובי (b<0.)

24

דוגמא 6להלן ציוני(תלמידים בלשון X( ובמתמטיקה )Y:)

y X0.25 4 1 -0.5 -2 5 62.25 1 1.5 -1.5 -1 4 70.25 1 0.5 -0.5 -1 5 70.25 1 -0.5 -0.5 1 5 96.25 1 2.5 2.5 1 8 90.25 4 1 0.5 2 6 10

25

xxi yyi )()( yyxx ii 2)( xxi

2)( yyi

8x5.5y6125.9

משוואת הרגרסיה שלy על פי x -

bxay ˆ

2

1

6

1266

)(2

x

ii

n

yyxx

b

26

5.185.05.5 xbya

xy 5.05.1ˆ

n

xxi

22 )(

במשוואת הרגרסיה:b ואת ה-aכעת נציב את ה-

מתמטיקה(ניבוי( Y על ידי X)לשון(

כאשרx = 7Y????-יהיה שווה ל

1.5 + 0.5 * 7 =5

27

xy 5.05.1ˆ

משוואת הרגרסיה לניבויX על פי Y בדיוק אותו( – byaxעיקרון!!!( ˆ

631.0

583.1

1

65.9

66

)(2

y

ii

n

yyxx

b

28

452.05.5631.08 ybxa

yx 631.0452.0ˆ

n

yyi

22 )(

:כעת נציב במשוואת הרגרסיה

ניבויX)לשון( על ידי )מתמטיקה( Y

כאשרY = 4X????-יהיה שווה ל

0.452 +0.631 * 4 =2.97

29

yx 631.0452.0ˆ

30

31

32

היכן יפגשו שני קווי הרגרסיה?

33

ניבוי בעזרת ציוני התקן

ולכן אפס הוא המשתנים שני ממוצע תקן בציוניציר עם יהיה – Xחיתוך

34

ניבוי בעזרת ציוני התקן

בערכים גולמיים שיפוע הקו הושפע גםממידת הפיזור –

בציוני תקן שיפוע הקו מושפע אך ורקמעצמת הקשר בין המשתנים

ככל שהקו תלול יותר – הקשר חזק יותר-מעלות 45ב r=1

שונות מוסברת

מה מסביר את השונות במשתנה המנובא?

לאובייקטים שונים ערכיYשונים ?מה קובע את המרחק שלהם מהממוצע

אם אין קשר ביןX– ל Y – X לא מסביר את הפיזור של Y ננבא את הממוצע שלY לכל ערך X

מה מסביר את השונות במשתנה המנובא?

אם יש קשר – אפשר יהיה להסבירY את הפיזור של Xבאמצעות השונות של

– מטרה שניה של הרגרסיה

הסבר השונות במשתנה המנובא באמצעות המשתנה המנבא

38

רגרסיה ליניארית – אחוז השונות המוסברת

אחוז השונות המוסברת מאפשר לנו לדעת כמה - מהשונות של המשתנה התלוי מוסברת ע"י המשתנה/

משתנים בלתי תלויים. ככל שאחוז השונות המוסברת גבוה יותר, פירושו של דבר

Y עוזר לנו בניבוי Xש-

39

2R

אחוז השונות המוסברת

מה זהr2.זהו ריבוע המתאם ?( מתוך explained varianceהשונות המוסברת )

השונות הכללית.

טווח הערכים שלr2בין אפס לאחד ולקבל אחוז השונות המוסברת100אפשר להכפיל פי - 1החלק היחסי של השונות הלא מוסברת - r2 40

41

42

43

44

45

46

של פירסוןrוכן, יש קשר הדוק ל-אם נוציא שורש נקבל את מקדם המתאםr2= 0.31570.56 r =

)לדוגמא: ידוע לנו כי הקשר בין השכלה )בלתי תלוי. 0.7לעמדות ליברליות )תלוי( הוא

. כך שהשכלה 49% אחוז השונות המוסברת הוא מהשוני בעמדות הליברליות בין 49%מסבירה

מסבירים משתנים אחרים: 51%נחקרים.)את יתר אולי גיל, אולי מידת מסורתיות וכו'(.

47

48

49

שאלה לדוגמא נתון כי ציוני הקורס מתפלגים נורמאלית עם ממוצע

, ושעות הנוכחות של 5 וסטיית תקן של 90הסטודנטים בתרגול מתפלגים נורמאלית עם ממוצע

. המתאם בין הציון בקורס לבין 5 וסטיית תקן 35 0.8שעות הנוכחות בתרגול הינו

שעות?40מה יהיה ציונו המנובא של סטודנט שנכח של ציונו האמיתי מהם הגבולות בהם צפוי להימצא

?95%הסטודנט הנ"ל, ברמת בטחון של

50

פתרון : נסמןX ,הם שעות הנוכחות Y .הינו הציון

שעות?40מה יהיה ציונו המנובא של סטודנט שנכח

51

94408.062ˆ

8.062ˆ

5

58.035

5

58.090ˆ

8.0

5,90

5,35

y

xy

xy

r

Sy

Sx

y

x

פתרון : נסמןX ,הם שעות הנוכחות Y.הינו הציון

של ציונו האמיתי מהם הגבולות בהם צפוי להימצא ? כלומר נחפש את 95%הסטודנט הנ"ל, ברמת בטחון של

אבל הערכים של סימני השאלה... ע"י מעבר לציוני תקן לא נשתמש בסטיית התקן הכללית ולא

בממוצע...

52

94408.062ˆ

8.0

5,90

5,35

y

r

Sy

Sx

y

x

ציוןצי

נוכחות

)40,94(

?

?

פתרון שגיאת התקן של הניבוי נחשב אתSyx ואיתה

. נשים לב שאת 94סביב נחשב את ציון התקן Z- קיבלנו מטבלת 1.96 ו 1.96הערכים

53

94408.062ˆ

8.0

5,90

5,35

y

r

Sy

Sx

y

x

?

?

88.12y99.88

94396.13

9496.1

38.015

1

2

2

y

y

S

rSS

yx

yyx

54

מסקנה...

!כדאי לבוא לתרגולים

top related