סטטיסטיקה א' שיעור 1 ה 18 למרץ 2010

9
סטטיסטיקה א' דר' דבורה שרדני שיעור1 11 למרץ0212 דוא"ל מרצה :[email protected] סטטיסטיקה הינה שיטת עבודה לניתוח מחקר הסטטיסטיקה מבוססת על הסתברות ואינה ודאית. סטטיסטיקה תיאורית עוסקת בתיאור תמציתי ומייצג של מדגמי נתונים גדולים. סטטיסטיקה היסקית עוסקת בניסיון להגיע למסקנות לגבי האוכלוסיה מתוך נתוני המידגם. נושאי הקורס סטטיסטיקה תיאורית: טבלת שכיחויות צורות התפלגות מדדים מרכזיים מדדי פיזור ערכי חלוקה ציוני תקן התפלגות נורמלית מדדי קשר כל מחקר בסטטיסטיקה מתחיל בשאלה עליה רוצים לקבל תשובה. תהליך החקר מתבצע באופן מובנה , בהתאם לאמור בתרשים שלהלן: מידגם מייצג , ולכל פרט באוכלוסיה יש אותו בתוך האוכלוסיה השלמה בו מיוצגים כל תת האוכלוסיות זהו מידגם סיכוי להכלל במידגם. חוקר שואל שאלה לגבי אוכלוסיה בודק את האוכלוסיה כולה מחליט על דרך מדידיה מבצע: איסוף נתונים קיבוץ נתונים בטבלה, גרף או חוק סיכום נתונים באמצעות מדד שואל האם הנתונים מתייחסים לאוכלוסיה או מידגם נתוני אוכלוסיה הסקה מהנתונים לגבי האוכלוסיה נתוני מידגם הסקה ממדד המידגם למדד האוכלוסיה הסקה לגבי האוכלוסיה בודק מידגם מתוך האוכלוסיה

Upload: eitanr

Post on 27-Jul-2015

140 views

Category:

Documents


7 download

TRANSCRIPT

0212למרץ 11 1שיעור דבורה שרדנידר' סטטיסטיקה א'

[email protected]דוא"ל מרצה :

הינה שיטת עבודה לניתוח מחקר סטטיסטיקה

הסטטיסטיקה מבוססת על הסתברות ואינה ודאית.

תיאורית עוסקת בתיאור תמציתי ומייצג של מדגמי נתונים גדולים.סטטיסטיקה

סטטיסטיקה היסקית עוסקת בניסיון להגיע למסקנות לגבי האוכלוסיה מתוך נתוני המידגם.

:נושאי הקורס סטטיסטיקה תיאורית

טבלת שכיחויות

צורות התפלגות

מדדים מרכזיים

מדדי פיזור

ערכי חלוקה

ציוני תקן

נורמליתהתפלגות

מדדי קשר

כל מחקר בסטטיסטיקה מתחיל בשאלה עליה רוצים לקבל תשובה.

תהליך החקר מתבצע באופן מובנה , בהתאם לאמור בתרשים שלהלן:

זהו מידגם בו מיוצגים כל תת האוכלוסיות בתוך האוכלוסיה השלמה , ולכל פרט באוכלוסיה יש אותו –מידגם מייצג

סיכוי להכלל במידגם.

חוקר שואל שאלה לגבי אוכלוסיה

בודק את האוכלוסיה כולה

מחליט על דרך מדידיה

:מבצע

איסוף נתונים

גרף או חוק, קיבוץ נתונים בטבלה

סיכום נתונים באמצעות מדד

שואל האם הנתונים מתייחסים לאוכלוסיה או מידגם

נתוני אוכלוסיה

הסקה מהנתונים לגבי האוכלוסיה

נתוני מידגם

הסקה ממדד המידגם למדד

האוכלוסיה

הסקה לגבי האוכלוסיה

בודק מידגם מתוך האוכלוסיה

נבחר את המשתתפים באופן מיקרי לגמרי )לדוגמא : הגרלה באמצעות פתקים( -מידגם מיקרי

אילו הפרמטרים הנבדקים , והמבחנים שיבוצעו על מנת לבדוק את הפרמטרים. – משתני המחקר

:דרכים 2את המשתנים ממינים לפי

ה . קיימות מספר רמות:מהו מספר החישובים הניתן לבצע על אותו משתנ –מיון לפי רמת מדידיה

בעל רמת המדידה הנמוכה ביותר . מקבל ערכים –)סוג משתנה איכותי (משתנה נומינלי , משתנה שמי .1

המבוטאים במילים . במשתנה זה כל ערך שונה מהאחר. לדוגמא : צבע עינים , מין וכו' . אין שום משמעות

לסדר בה אנו מבטאים את הערכים.

, ערכי ערכיו ניתנים לביטוי במילים או במספרים – )סוג משתנה איכותי( ה סודרמשתנה אורדינאלי , משתנ .2

המשתנה מעידים על הסדר שלהם ולסדר זה יש משמעות לדוגמא : דרגות בצה"ל , סדר מנצחים בתחרות

ריצה בו ברור שהזוכה במקום הראשון , זמן ריצתו היה קצר יותר מזה שבמקום השני . לא ידוע בכמה כלומר

שתנה אודינאלי אינו מעיד על יחס בין הערכים .מ

משתנה שערכיו מספריים בלבד , קיים מרווח קבוע –משתנה אינטרוולי , משתנה רווח )סוג משתנה כמותי( .3

( מוחלט .0בין שני ערכים צמודים , אין משמעות ליחס בין הערכים ואין ערך שהוא אפס )

. ברור שלדירה בת חדר אחד פחות 4, 3,3.5, 2.5. 2, 1.5, 1לדוגמא : מדידת דירות לפי מספר חדרים :

.חדרים , אולם ליצירת יחס בינהם אין שום משמעות 4חדרים מלדירת ה

(.0קיים יחס בין שני משתנים . יש משמעות לערך אפס ) –משתנה יחסי .4

ון משתנים לפי מהות המשתנהמי

המשתנה אותו נבחרההחלטה על דרך המדידי נקבעת על פי סוג

איסוף הנתונים יכול להתבצע ב שלוש דרכים:

טבלה -

גרף -

חוק מתימטי -

הדרך המקובלת ביותר אי איסוף נתונים טבלאי.

דוגמא: חוקר רוצה לבדוק את רהיטות השפה העברית אצל פוליטיקאים.

שאלת המחקר : מהי רמת הידע בעברית , אצל הפוליטיקאים

איכותי כמותי

, נומינלי שמי

, אורדינאלי סודר

כמותי בדיד אינטרוולי,

, כמותי רציף יחס

פוליטיקאי ? קיימות הרבה אפשרויות :שר , ח"כ , חבר מפלגה , ראש עיר , חבר מועצה הגדרת האוכלוסיה : מיהו

, חבר מרכז ועוד . יש לבחור את אוכלוסית המחקר . החוקר בחר את אוכלוסית חברי הכנסת.

פריטים שבם יכללול 25הח"כים , יבחר החוקר מידגם מייצג בן סה"כ 120על מנת שלא להאשין לנאומים של כל

"כים מכל תת האוכלוסיות הקיימים : נשים , גברים , יהודים , ערבים , צעירים , מבוגרים , ילידי הארץ , עולים ח

חדשים וכו' . בכל תת אוכלוסיה יבחרו מספר פרטים יחסית למשקלם בכל האוכלוסיה.

לאחר הקשבה לנאומי הח"כים התקבלו התוצאות הר"מ:

המידגםחסרה שורת הנתונים של

מנת להגיע למסקנות אנו צריכים לחלק את הנתונים למספר חלוקות כשבכל חלוקה יכללו חלק מהתוצאות על

)טווח(

כמות החלוקות מחושבת לפי הנוסחה:

N 25. במקרה שלנו = כמות הפריטים במידגם

n√ חלוקות 5= √25= מספר החלוקות . במקרה שלנו

ים את ערכי המשתנים במידגם על מנת לקבוע רוחב )טווח ( כל חלוקה . בודק

Xmax הערך הגבוה ביותר =

Xmin הערך הנמוך ביותר =

26.6=25√/(185-52)( . במקרה שלנו (n Xmax-Xmin√ /רוחב החלוקה =

על מנת שלא לעבוד עם חלוקות שבורות ניתן להגדיל באופן מלאכותי את גבולות המקסימום והמינימום אולם יש

הערכים תהיה מינימאלית ככל האפשר . על מנת שלא להשפיע על התוצאות .לשמור על כך שהגדלת

30ומכאן שרוחב חלוקה יהיה 50ואת גבול המינימום ל 200במקרה שלנו נגדיל את גבול המקסעמום ל

)טבלה זו הינה טבלת גבולות אמיתיים(נרשום את טבלת השכיחות

L - טווח X – גבולות

אמיתיים

-ן מחלקה

30 50-80 1

30 80-110 2

30 110-140 3

30 140-170 4

30 170-200 5

במצב זה יש לזכור לשייך נתון שערכו כערך אחד הגבולות לתחום בו גבול זה הוא הגבול המקסימאלי

3ישוייך למחלקה 140לדוגמא : נתון שערכו

נרשום את אותה טבלה , אולם הפעם עם חלוקה לפי גבולות מדומים . ברישום שכזה אין גבולות חופפים בין

החלוקות

L - טווח X – גבולות

מדומים

-ן מחלקה

30 50-80 1

29 81-110 2

29 111-140 3

29 141-170 4

29 171-200 5

( ולכן טבלת 81ל 80במרווח בין הגבולות )לדוגמא בין בטבלה הזו נוצרת בעיה . מכיוון שאין לדעת מה קורה

גבולות מדומים אינה מתאימה לשימוש במדגם בו המשתנה רציף.

נשתמש בטבלת הגבולות האמיתיים ונציב בה את השכיחות לפי תוצאות המידגם .

ים השייכים הם כל המשתנ 52,75,75,80שכיחות היא כמות הפריטים המשוייכים לחלוקה מסויימת. לדוגמא :

משתנים( 4) 4בטבלה ולכן השכיחות בחלוקה זו תהיה 1לחלוקה

F - שכיחות L - טווח X – גבולות

אמיתיים

-ן מחלקה

4 30 50-80 1

11 30 80-110 2

7 30 110-140 3

2 30 140-170 4

1 30 170-200 5

טבלת התפלגות שגיאות העברית של חברי הכנסת היא טבלה חד מימדית. אם לחוקר יש חלוקה נוספת לפי מין

אזי הו יכול להפיק טבלה נוספת בה

המין נכלל . זו תהיה טבלה דו משתנה

מימדית

סה"כ בטור השכיחות חייב להיות זהה לכמות הפרטים שבמידגם.

כל טבלה חייבת בכותרת בה מופיע המשתנה עצמו והתאריך בו נערך המחקר.

בדוגמא הבאה מובא מחקר על סוגי העסקים בגוש דן ובירושלים

2004לאוקטובר 28ובירושלים : נערך ב כותרת : מידגם על סוגי העסקים בגוש דן

F -

שכיחות

שכיחות זכר

שכיחות נקבה

L - טווח X –

גבולות אמיתיים

-ן מחלקה

4 1 3 30 50-80 1

11 4 7 30 80-110 2

7 7 0 30 110-140 3

2 1 1 30 140-170 4

1 1 0 30 170-200 5

F- ירושלים

F – גוש

דן X –

משתנה שמי

-ן מחלקה

1 חשמל 8 15

2 מתכת 12 20

50אין אפשרות להשוות בין השכיכויות בין שני האזורים מכיוון שגודל המידגם היה שונה . המדגם בגוש דן כלל

דול ממספרן בת"א ( ג26וד בירושלים )במידגם )חנויות הביג ספרמ. כך שלומר ש 100עסקים והמידגם בירושלים

( אינן נכון בעליל14)במדגם )

על מנת להתגבר על המיכשור יש להפוך את ערכי השכיחות לערכים יחסיים.

% Pערכי שכיחות יחסית

( % 26לעומת % 28ין המדגמים ולומר שבגוד דן יש יותר חנויות ביגוד מאשר בירושלים )כעת ניתן להשוות ב

הוא שמי ואין לו שום ערך אחר . ערכי המשתנה יכלו להופיע בכל סדר יש לשים לב שבדוגמא שלמעלה המשתנה

.שהוא אחר ללא משמעות כלשהי

בדוגמא נוספת נחקרו בעלי המפעלים על השכלתם

3 ביגוד 14 26

4 שרותים 10 21

5 דפוס 6 18

סה"כ 50 100

P(%)

ירושלים

F- ירושלים

P(%)

גוש דן

F – גוש

דן X –

משתנה שמי

-ן מחלקה

1 חשמל 8 16 15 15

2 מתכת 12 24 20 20

3 ביגוד 14 28 26 26

4 שרותים 10 20 21 21

5 דפוס 6 12 18 18

סה"כ 50 100 100 100

CP )%)

שכיחות יחסית

שכיחות ברתמצט

P(%) F – גוש

דן X –

אורדינאלי

-ן מחלקה

משכילים MA 5יש לשים לב שבדוגמא זו המשתנה אורדינאלי , ויש חשיבות לסדר ברור שהממוקמים בחלוקה

תיכון. 2יותר מאלו הנמצאים בחלוקה

ניתן לבצע הצגה גרפית של נתוני המידגם.

( πדיאגרמת פאי ) -הצגה גרפית .1

(שמי.נומינאלי )בדיאגרמת פאי מקובל להשתמש עבור משתנה

דיאגרמת מקלות -פית רהצגה ג .2

מצטברת

1 יסודי 7 14 7 14

2 תיכון 15 30 22 44

3 גבוה 14 28 36 72

90 45 18 9 BA 4

100 50 10 5 MA 5

סה"כ 50 100 100

ארץ מוצא

ישראל

ארופה

אפריקה

אמריקה

דיאגרמת מקלות שימושית בהצגת משתנה כמותי בדיד או אודינאלי איכותי .

ם השכיחותיתרש Yישם המשתנה ובציר ה Xבציר ה

של התפלגות שכיחות מצטבר הצגה גרפית.3

i משתנה כמותי מחלקהX שכיחותF שכיחות מצטברתP

1 25 5 5

2 26 10 15

3 27 8 23

4 28 6 29

5 29 4 33

6 30 2 41

ה תלולה בהתחלה ועליה מתונה מאוד בסיוםגרף שכיחות מצטברת יראה כמעט תמיד כמוצג להלן . עלי

0

5

10

15

20

25

30

35

40

45

1 2 3 4 5

שכיחות

גרו ע

בינונ י

טו ב

טוב מאו ד

מצוי ן

ערכי המשתנה

עד לשימוש עבור משתמש כמותי בדיד.גרף שכיחות מצטברת מיו

הסטוגרמה –הצגה גרפית .3

Iמחלקה משתנה כמותי רציף

X שכיחותF טווח המחלקהL צפיפותd

1 5-8 40 3 13.33

2 8-11 80 3 26.67

3 11-14 60 3 20.00

4 14-17 50 3 16.67

5 17-20 10 3 3.33

סה"כ

240

מעיד על השכיחות . העמודה הגבוהה ביותר היא בעלת השכיחות הגבוהה ביותרבהסטוגרמה גובה העמודה

בהסטוגרמה יש לעשות הבחנה בין טבלת שכיחויות בהן רוחב כל מחלקה שווה , לבין טבלה בה רוחב כל

כלומר מחלקה שונה. בטבלה בעלת רוחב שווה לוקחים כעובדה שההתפלגות של הפריטים זהה לכל יחידה .

0

5

10

15

20

25

30

35

40

45

1 2 3 4 5 6

Pשכיחות מצטברת

Pשכיחות מצטברת

0

10

20

30

40

50

60

70

80

90

1 2 3 4 5

Fשכיחות

dצפיפות

Poly. (צפיפות d)

פוליגון

4כלומר 12/3בכל יחידה מהשלוש תהיה שכיחות של הרי שכל ש 12יחידות שכיחותה 3אם רוחב המחלקה

יחידות

בהסטוגרמה השטח מייצג את שכל המקרים במחלקה . וסכום השטחים של כל העמודות מייצג את כל

המקרים במידגם )אוכלוסיה(

במידה ורובי המחלקות אינם זהים אחד לשני . ההשוואה היחידה הניתנת לביצוע היא באמצעות חישוב

הצפיפות של כל מחלקה ובנית ההיסטוגרמה לפי הצפיפות.

פות . בכל אחד מהמקרים אחת מתייחסת לשכיחות והשניה לצפישתי הסטוגרמות ותבמקרה שלנו מוצג

כולא את השטח של ( 2אמצע העמודות ) ערך עליון פחות הערך התחתון בכל מחלקה / הפוליגון המחבר את

את כל המקרים.באופן נכון יותר השטח הכלוא תחתיו מיצג ולכןכל המקרים

.Y)אלא ישאף אליו( אולם כן יגיע לציר ה Xפוליגון לעולם לא יחתוך את ציר ההשטח שמתחת ל

ונהבעלת דוחב מחלקות שהסטוגרמה –הצגה גרפית .4

ת יבים לערוך הסטוגרמאלא חיבמצב זה אין אפשרות ליצור פוליגון המתייחס לנתוני המידגם הגולמיים

צפיפויות

D צפיפות

רוחב מחלקה

L

F –

שכיחותX – כמותי

רציף

-ן מחלקה

0.25 20 5 40-60 1

0.5 10 5 60-70 2

2 5 10 70-75 3

1 10 10 75-85 4

0.67 15 10 85-100 5

סה"כ 40

40 60 70 80 85 100