spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

18
Ph n 3 – Nh ng phân tích căn b n 8 – Thao tác chuy n đ i d li u

Upload: si-thinh-hoang

Post on 18-Jul-2015

326 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

Ph n 3 – Nh ng phân tích căn b nầ ữ ả

8 – Thao tác chuy n đ i d li uể ổ ữ ệ

Page 2: Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

T i sao ph i chuy n đ i (ch bi n) d li u?ạ ả ể ổ ế ế ữ ệ

• Đôi khi b n không th ti n hành phân tích, ki m đ nh gi thuy t v i s ạ ể ế ể ị ả ế ơ ốli u thô (raw data)ệ

Do đó, tùy vào nghiên c u c th , b n có th ph i x lý s li u thô theo m t ứ ụ ể ạ ể ả ử ố ệ ộs cách sau:ố

• Tính ra t ng giá tr cho bi n đ i v i m i cases. ổ ị ế ố ớ ỗ Hãy nh l i bi n ớ ạ ếOptimism

• Chuy n m t bi n t không chu n sang bi n chu nể ộ ế ừ ẩ ế ẩ• Chuy n (collapsing) bi n liên t c thành bi n nhóm (đ nh danh) (Vd: bi n ể ế ụ ế ị ế

age chia thành young, middle-aged, và old) đ th c hi n m t s phân tích ể ự ệ ộ ốnh varianceư

• Chuy n (tăng ho c gi m) bi n nhóm thành bi n nhóm khác (vd: bi n ể ặ ả ế ế ếmarital s đ c chuy n thành bi n marital1 ch có hai nhãn “in a ẽ ượ ể ế ỉrelationship” và “not in a relationship”)

Page 3: Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

Ghi l i nh ng gì đã thay đ i v i s li uạ ữ ổ ớ ố ệ

• Nh ng gì b n làm thay đ i v i s li u s làm cho Codebook tr c đây còn ữ ạ ổ ớ ố ệ ẽ ướr t ít giá tr tham kh o.ấ ị ả

• Do đó, hãy ghi l i nh ng gì mình đã làm (thay đ i) v i d li u thô ban đ uạ ữ ổ ớ ữ ệ ầ• SPSS có th giúp b n qua vi c s d ng ch c năng Syntax Editorể ạ ệ ử ụ ứ• Đ có file Syntax, thì trong b t kỳ thao tác nào (vd: v bi u đ ), thay vì ể ấ ẽ ể ồ

nh n Ok đ k t thúc, b n hãy nh n Paste đ ghi l i nh ng gì mình đã làmấ ể ế ạ ấ ể ạ ữ• Trong file Syntax b n cũng có th thêm comment (vd: b n ghi chú th ạ ể ạ ứ

mình làm). Nh là ph i có ít nh t m t cách dòng gi a comment c a b n ớ ả ấ ộ ữ ủ ạvà câu l nh (c trên và d i), b t đ u comment c a b n b ng m t ngôi ệ ả ướ ắ ầ ủ ạ ằ ộsao (* - asterisk)

• Hãy m m t file SPSS ra và th làm v i Syntax nhé!!!ở ộ ử ớ

Page 4: Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

TÍNH T NG CHO CÁC BI N (trong m t bi n l n, Ổ Ế ộ ế ớ v i m i ớ ỗcase)

(CALCULATING TOTAL SCALE SCORES)

• Tr c khi th c hi n tính t ng, b n cũng nên cân nh c xem ướ ự ệ ổ ạ ắ

li u có th c ng t ng giá tr c a các bi n đ c không. ệ ể ộ ổ ị ủ ế ượ B n ạ

c n ph i hi u v nghiên c u c a mình ầ ả ể ề ứ ủ

Bao g m 2 b c:ồ ướ

• B c 1: Đ o ng c t t c nh ng bi n đ c di n t theo ướ ả ượ ấ ả ữ ế ượ ễ ả

chi u “ề tiêu c cự ”. Tôi c n gi i thích ch này m i đ c!!!!ầ ả ỗ ớ ượ

• B c 2: Ra l nh cho SPSS tính ra t ng giá tr c a bi n (cho ướ ệ ổ ị ủ ế

m i case). ỗ Gi i thích???ả

Page 5: Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

TÍNH T NG CHO CÁC BI NỔ ẾB C 1: Đ O NG C BI N “TIÊU C C”ƯỚ Ả ƯỢ Ế Ự

Hãy mở codebook h c bu i đ u tiên ra, xem k bi n Optimism, b n ọ ổ ầ ỹ ế ạs th y vài đi u:ẽ ấ ề•Bi n này bao g m 6 bi n nh (t op1 đ n op6)ế ồ ế ỏ ừ ế•V thang đi m: t t c các bi n đ u đ c s d ng giá tr theo thang ề ể ấ ả ế ề ượ ử ụ ịLikert 5 đi m (1 – strongly disagree, 5 – strongly agree)ể•Tuy nhiên, n u cho r ng bi n op1 đang đi theo chi u “ế ằ ế ề tích c cự ”, thì nh ng bi n nào đang đi theo chi u tiêu c c??? op2, op3,op4, op5, ữ ế ề ựop6???•Chính vì s khác bi t trong “ự ệ tích c cự ” và “tiêu c cự ” đó, ng i ta s ườ ẽkhông th c ng t ng giá tr c a các bi n này đ t o nên giá tr cho ể ộ ổ ị ủ ế ể ạ ịbi n l n là Optimism đ cế ớ ượ•Do đó, ng i ta ph i ti n hành đ o ng c bi n “ườ ả ế ả ượ ế tiêu c cự ”. Đ làm ểgì???

Page 6: Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

TÍNH T NG CHO CÁC BI NỔ ẾB C 1: Đ O NG C BI N “TIÊU C C”ƯỚ Ả ƯỢ Ế Ự

1. V i các bi n op2, op4, op6 thì đ o ng c th nào? Ch c n đ o l i giá tr ớ ế ả ượ ế ỉ ầ ả ạ ịthang đi m là đ cể ượ

2. Ti n hành nh sau:ế ư3. Transform/Recode/ Into Different Variables

4. Ch n bi n tiêu c c mu n chuy n đ a vào h p Input Variable – Output ọ ế ự ố ể ư ộVariable

5. Nh n vào bi n th nh t (op2) và đ t cho nó tên m i trong m c Output ấ ế ứ ấ ặ ớ ụVariable (vd: đ t là revop2). L p l i v i các bi n khácặ ặ ạ ớ ế

6. Old and New Value

7. Trong ph n Old value, ghi 1; trong ph n New value, ghi 5ầ ầ8. Ok

9. Ti p t c quá trình đó cho t t c các giá tr trong thang đo (cho bi n op2):ế ụ ấ ả ị ế– Old value = 2, New value = 4– … Old value = 5, New value = 1

10. Continue/ Ok ho c Paste đ ghi l i Syntaxặ ể ạ

Page 7: Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

• Transform/ Compute

• Đi n tên bi n m i (bi n t ng) vào h p ề ế ớ ế ổ ộ Target Variable. T t nh t là có ch ố ấ ữT đ ng tr c (total)ằ ướ

Chú ý quan tr ngọ : không đ c đ t tên bi n m i trùng v i b t kỳ tên ượ ặ ế ớ ớ ấbi n nào đã có trong fiel d li u, b n s m t h t d li u cũ!!!ế ữ ệ ạ ẽ ấ ế ữ ệ

• Type and Label/ ghi nhãn cho bi n m i/ Continueế ớ• Chuy n các bi n c n tính vào h p Numeric Expression ể ế ầ ộ• Nh n + trên hình máy tínhấ• Ti p t c quá trình trên đ n khi h t các bi n c n tính t ngế ụ ế ế ế ầ ổ• Hãy ki m tra l i t t c các thông tin v các bi n, d u + ể ạ ấ ả ề ế ấ• Ok ho c Paste đ ghi l i Syntaxặ ể ạ

Bây gi , b n hãy tính t ng cho bi n optimism mà b n đã chu n b b c ờ ạ ổ ế ạ ẩ ị ở ướ1

TÍNH T NG CHO CÁC BI NỔ ẾB C 2: C NG T NG GIÁ TR CÁC BI N ƯỚ Ộ Ổ Ị Ế

(cho m i bi n l n, m i m t caseỗ ế ớ ỗ ộ )

Page 8: Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

Suy nghĩ sau khi đã tính t ng cho bi nổ ế

• Bi n t ng (toptim)s b missing n u m t trong các bi n ph ế ổ ẽ ị ế ộ ế ụ(op1,…, revop6) b missingị

• Đôi khi ng i ta c n tìm ra giá tr trung bình c a m t bi n ườ ầ ị ủ ộ ếnh , sau khi đã tính t ng c a bi n l n (toptim/6)ỏ ổ ủ ế ớ

• Luôn ghi vào codebook nh ng gì b n đã làm v i vi c tính ữ ạ ớ ệt ng c a bi nổ ủ ế

• Sau khi đã có bi n m i, hãy ch y th th ng kê mô t đ ế ớ ạ ử ố ả ểcheck l i bi n này (ki m tra l i), ki m tra outliersạ ế ể ỗ ể

• So sánh giá tr mean m i v i nh ng gì đã có trong literatureị ớ ớ ữ

• Ki m tra phân ph i chu n,…ể ố ẩ

Page 9: Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

Đ I BI N (TRANSFORMING VARIABLES)Ổ Ế

• T i sao l i ph i đ i bi n???ạ ạ ả ổ ế• Có r t nhi u k thu t th ng kê đò h i đi u ki n c a d li u (vd: ấ ề ỹ ậ ố ỏ ề ệ ủ ữ ệ

phân tích Peason correlation, variance; Spearman’s rho, Kruskal

Wallis đòi h i phân ph i chu n)ỏ ố ẩ• Tuy nhiên, sau khi đã có file d li u đ c làm s ch, check ữ ệ ượ ạ

descriptive statistics b n có th th t v ng v đ c đi m c a nó!!!ạ ể ấ ọ ề ặ ể ủ• May thay có SPSS, nó s giúp ta l y l i hy v ng, b ng cách đ i bi n ẽ ấ ạ ọ ằ ổ ế

(transforming). Đ hi u thêm v transforming variables đ c Ch.4 ể ể ề ọTabachnick and Fidell (2007)

• Nh : các k thu t chuy n bi n đ c nêu đây v n là nh ng ch ớ ỹ ậ ể ế ượ ở ẫ ữ ủđ đ c tranh cãi gay g t. Ta m c k đi!!!ề ượ ắ ặ ệ

Page 10: Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

CÁC D NG CHUY N BI N ĐI N HÌNHẠ Ể Ế Ể

Page 11: Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

CÁC D NG CHUY N BI N ĐI N HÌNH (Ạ Ể Ế Ể ti pế )

Page 12: Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

Các b c th c hi n đ i bi nướ ự ệ ổ ế1. Transform/ Compute Variable

2. Target Variable: hãy ghi tên bi n m i. Chú ý trong tên bi n m i c n có d u hi u th ế ớ ế ớ ầ ấ ệ ểhi n mình đã làm gì v i bi n cũ và tên bi n cũệ ớ ế ế

Vd: sqnetgaff th hi n là bi n căn b c 2 c a netgaffể ệ ế ậ ủ3. Function: hãy ch n m t trong hàng lo t k thu t tính toán mà b n cho là phù h pọ ộ ạ ỹ ậ ạ ợ4. Đ i v i đ i bi n liên quan đ n square root ho c logarithm, ch n Function group/ ố ớ ổ ế ế ặ ọ

Arithmetic/ ch n hàm (SQRT ho c LOG10) đ a vào h p Numeric Expressionọ ặ ư ộ5. Đ i v i đ i bi n dùng Reflect (xem l i slide tr c), b n c n ph i tìm ra giá tr K cho ố ớ ổ ế ạ ướ ạ ầ ả ị

bi n (có th tìm th y codebook). Đ a giá tr K vào h p Numeric Expressionế ể ấ ở ư ị ộ6. Đ i v i đ i bi n dùng Inverse, ghi 1/bi n (vd: 1/tslfest) trong h p Numeric Expressionố ớ ổ ế ế ộ7. Check l i các công th c trong ph n Numeric Expression, ghi l i nh ng thông tin v giá ạ ứ ầ ạ ữ ề

tr cho bi n m i đ c t o l pị ế ớ ượ ạ ậ8. Type and Label/ Label/ ghi v n t t thông tin v bi n m iắ ắ ề ế ớ9. Ki m tra l i ph n Target Variable xem bi n m i có trùng tên v i bi n nào không? N u ể ạ ầ ế ớ ớ ế ế

trùng các d li u v bi n trùng s m t s ch!!!ữ ệ ề ế ẽ ấ ạ10. Ok ho c Pasteặ11. Hãy ch y Frequencies đ ki m tra skewness và kurtosis ho c ch y Frequencies/ Chart/ ạ ể ể ặ ạ

Histogram xem bi n m i t o ra đã ti n tri n h n bi n cũ ch a?ế ớ ạ ế ể ơ ế ư

Page 13: Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

CHIA BI N LIÊN T C THÀNH BI N NHÓM Ế Ụ Ế(COLLAPSING VARIABLES)

S d ng file ử ụ survey5ED

• Trong m t s phân tích (vd: phân tích Variance), b n c n ộ ố ạ ầ

phân t (phân nhóm) bi n liên t c (vd: low income, medium ổ ế ụ

income, and high income)

• Trong SPSS 15 tr lên có công c Visual Binning đ xác đ nh ở ụ ể ị

đi m cut-off c a dãy s li uể ủ ố ệ

• Vd: b n có th chia tu i thành 3 nhóm (theo bi n m i v i 3 ạ ể ổ ế ớ ớ

giá tr : tr , trung niên, già). Trong khi m t đi u thú v là SPSS ị ẻ ộ ề ị

v n gi l i thông tin v age nh cũ trong file d li u.ẫ ữ ạ ề ư ữ ệ

Page 14: Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

1. Transform/ Visual Binning

2. Ch n bi n liên t c (vd: age) đ a vào h p Variables to Bin/ Continueọ ế ụ ư ộ

3. Trong h p Visual Binning, nh n vào bi nộ ấ ế

4. Trong h p Binned Variable, ghi tên c a bi n phân nhóm m i (vd: agegp3)ộ ủ ế ớ

5. Make Cutpoints/ Ok/ Equal Percentiles Based on Scanned Cases

6. Trong h p Number of Cutpoints hãy ghi s “n-1”, trong đó n là s nhóm ộ ố ốb n mu n có. Ch n Applyạ ố ọ

7. Make Labels, nhãn bi n s đ c t đ ng t o thànhế ẽ ượ ự ộ ạ

8. Ok ho c Pasteặ

9. Ch y Analyse/ Fequencies đ i v i bi n m i đ bi t v s l ng các nhóm ạ ố ớ ế ớ ể ế ề ố ượvà t l %ỷ ệ

CHIA BI N LIÊN T C THÀNH BI N NHÓM Ế Ụ ẾCÁC B C TI N HÀNHƯỚ Ế

Page 15: Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

G P BI N THEO NHÓMỘ Ế

• Đôi khi b n c n gi m s nhóm c a bi n đ nh danh. ạ ầ ả ố ủ ế ị

• Vd: g p bi n marital thành 2 nhóm: in a relationship và not in a ộ ế

relationship

• Ho c sau khi b n ch y Descriptive b n th y có quá ít giá tr r i bi n r i ặ ạ ạ ạ ấ ị ơ ế ơ

vào m t nhóm nào đó (vd: ch có 1 case c a bi n educaton vào primary ộ ỉ ủ ế

school), b n có th b nó đi, ho c có th g p vào nhóm khác (secondary ạ ể ỏ ặ ể ộ

school)

• Ho c v i h i quy (regression) b n c n có 1 = yes, 0 = no (trong khi s li u ặ ớ ồ ạ ầ ố ệ

thô c a b n là 1 = yes, 2 = no)ủ ạ

• Ta s t o bi n m i (additional variable) nên bi n cũ v n đ c gi nguyênẽ ạ ế ớ ế ẫ ượ ữ

Page 16: Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

C n l y ví d gi i thích trên b ng tr c đã!!!ầ ấ ụ ả ả ướ1.Transform/ Recode/ Into Different Variables

2.Ch n bi n mu n đ i (vdọ ế ố ổ : educ), ghi thêm tên bi n n u b n mu n trong ế ế ạ ốph n Label/ Changeầ3.Old and New Values

4.Old Value/ Value/ ghi giá tr c a bi n cũ (vd: 1); trong ph n New Value, ghi ị ủ ế ầgiá tr bi n m i (thông th ng cũng là 1. vì sao???). Nh n Addị ế ớ ườ ấ5.V i bi n cũ th hai, ghi 2 vào Old Value, và ghi 1 vào New Value (t c là ớ ế ứ ứđ a nhóm 1 và 2 cũ thành nhóm 1 m i). Nh n Addư ớ ấ6.V i giá tr th 3 c a bi n cũ, làm t ng t , tùy vi c b n mu n đ a nó vào ớ ị ứ ủ ế ươ ự ệ ạ ố ưnhóm nào trong bi n m i. Nh n Addế ớ ấ7.Ti p t c v i các bi n còn l iế ụ ớ ế ạ8.Continue/ Ok, ho c Paste đ ghi l i Syntaxặ ể ạ9.M c a s Variable View ra, b n s th y thông tin v bi n m iở ử ổ ạ ẽ ấ ề ế ớ

G P BI N THEO NHÓMỘ ẾCác b c ti n hànhướ ế

Page 17: Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

Bài t p – Bài 1 - BusinessậM file staffsurvey5EDở

1.Tìm ra giá tr t ng c a bi n Staff Satisfaction (các bi n nh g m ị ổ ủ ế ế ỏ ồQ1a+Q2a+Q3a ... to Q10a). Đ t tên bi n t ng là staffsatisặ ế ổ

2.Hãy dùng th ng kê mô t đ xem xét bi n m i (staffsatis). So sánh nó v i ố ả ể ế ớ ớbi n cũ ( đã có s n trong file – bi n totsatis)ế ẵ ế

3.Giá tr l n nh t, nh nh t (có th ) c a bi n m i?ị ớ ấ ỏ ấ ể ủ ế ớ

4.Hãy ki m tra phân b (histogram) c a bi n service, b n hãy làm gì đó cho ể ố ủ ế ạnó chu n h n. Check l i nhé!ẩ ơ ạ

5.Hãy chia nhóm service thành 3 nhóm b ng vi c s d ng Visual Binning d a ằ ệ ử ụ ựtrên c s equal percentiles, tên bi n m i là gp3 service. Hãy ch y ơ ở ế ớ ạfrequencies xem có bao nhiêu cases trong m i nhóm?ỗ

Page 18: Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

Bài 2 - Health• M file sleep5ED raở• Hãy tính t ng cho bi n Sleepiness and Associated Sensations Scale. Các ổ ế

bi n nh cho nó là fatigue, lethargy, tired, sleepy, energy. Bi n m i c a ế ỏ ế ớ ủb n s là sleeptot. Chú ý: không có bi n nào c n ph i chuy n tr c khi ạ ẽ ế ầ ả ể ướtính t ngổ

• Hãy ch y th ng kê mô t cho bi n m i trên, so sánh nó v i bi n totSASạ ố ả ế ớ ớ ế• Giá tr l n nh t, nh nh t c a bi n m i?ị ớ ấ ỏ ấ ủ ế ớ• Ki m tra phân ph i c a bi n smokenum. B n hãy làm gì đó đ bi n này ể ố ủ ế ạ ể ế

tr nên chu n h n nhé! Nh ki m tra l i phân ph i c a bi n m i (n u có)ở ẩ ơ ớ ể ạ ố ủ ế ớ ế• Chia bi n age thành 3 nhóm b ng s d ng Visual Binning. Bi n m i hãy ế ằ ử ụ ế ớ

đ t tên là gp3age. Sau đó hãy ch y frequencies đ xêm m i nhóm bi n ặ ạ ể ỗ ếm i có bao nhiêu casesớ