spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_khaiquat

12
Ph n 4 – K thu t th ng kê phân tích m i quan h gi a các bi n ế Hoàng Sĩ Thính Đ i h c Nông nghi p Hà N i

Upload: si-thinh-hoang

Post on 16-Jul-2015

241 views

Category:

Data & Analytics


3 download

TRANSCRIPT

Page 1: Spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_Khaiquat

Ph n 4 – K thu t th ng kê phân tích m i ầ ỹ ậ ố ốquan h gi a các bi nệ ữ ế

Hoàng Sĩ Thính

Đ i h c Nông nghi p Hà N iạ ọ ệ ộ

Page 2: Spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_Khaiquat

• T t c các k thu t th ng kê phân tích m i quan h gi a các bi n đ c trình bày trong ph n ấ ả ỹ ậ ố ố ệ ữ ế ượ ầnày đ u d a trên n n t ng c a phân tích t ng quan (correlation)ề ự ề ả ủ ươ

• K thu t d a trên correlation th ng đ c s d ng trong các nghiên c u phi th c nghi m ỹ ậ ự ườ ượ ử ụ ứ ự ệ(non-experimental research, các nghiên c u kinh t xã h i). các nghiên c u d ng này, s ứ ế ộ Ở ứ ạ ốli u có th đ c “ệ ể ượ qu n lýả ” (manipulated) nh m th a mãn các gi đ nh (khác v i các s li u ằ ỏ ả ị ớ ố ệc a experimental research)ủ

Các k thu t th ng kê trong ph n này có th :ỹ ậ ố ầ ể• Phát hi n m i liên h (t ng quan) gi a hai bi n (correlation)ệ ố ệ ươ ữ ế• Phán đoán giá tr c a m t bi n d a trên giá tr c a m t bi n khác (h i quy đ n bi n – ị ủ ộ ế ự ị ủ ộ ế ồ ơ ế

bivariate regression)

• Phán đoán (d báo) giá tr c a m t bi n đ c l p d a trên giá tr c a nhi u bi n ph thu c ự ị ủ ộ ế ộ ậ ự ị ủ ề ế ụ ộ(h i quy đa bi n), vàồ ế

• Tìm ra m t t p bi n (m t nhóm bi n) phù h p cho m t mô hình h i quy (k thu t Factor ộ ậ ế ộ ế ợ ộ ồ ỹ ậAnalysis)

T t c nh ng k thu t th ng kê này đ c s d ng đ ki m đ nh mô hình và lý thuy t (to test ấ ả ữ ỹ ậ ố ượ ử ụ ể ể ị ếmodels and theories), đ đoán k t qu (predict outcomes), và ki m đ nh đ tin c y, và ý ự ế ả ể ị ộ ậnghĩa c a ch tiêu nghiên c u (assess reliability and validity of scales)ủ ỉ ứ

1. M đ uở ầ

Page 3: Spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_Khaiquat

2. Khái quát v các k thu t th ng kê phân tích m i ề ỹ ậ ố ốquan h gi a các bi n trong SPSSệ ữ ế

• Correlation (Chapter 11): đ c s d ng khi b n mu n phân tích đ m nh ượ ử ụ ạ ố ộ ạ(strength) và chi u h ng (direction) trong m i quan h gi a hai bi n ề ướ ố ệ ữ ế(th ng là các bi n continuous)ườ ếCorrelation cũng có th đ c s d ng trong phân tích t ng quan gi a ể ượ ử ụ ươ ữhai bi n, trong đó có m t bi n d ng phân lo i nh n hai giá tr ế ộ ế ạ ạ ậ ị(dichotomous), vd bi n sex v i giá tr male/femaleế ớ ị

• Phân tích t ng quan t ng ph n (Partial correlation, Chapter 12): khi b n ươ ừ ầ ạmu n tìm hi u m i quan h gi a hai bi n, ố ể ố ệ ữ ế trong khi ki m soát m t bi n ể ộ ếth baứ . Đó là tr ng h p b n nghi ng r ng m i quan h gi a hai bi n có ườ ợ ạ ờ ằ ố ệ ữ ếth b nh h ng, ho c “ể ị ả ưở ặ b làm nhi uị ễ ” b i m t bi n th 3ở ộ ế ứ . Partial correlation s giúp lo i b nh h ng c a bi n th 3 yẽ ạ ỏ ả ưở ủ ế ứ ấ

• H i quy đa bi n (Multiple Regression): ch s d ng khi bi n ph thu c là ồ ế ỉ ử ụ ế ụ ộbi n continuousế

• H i quy Logistic (Logistic regression): đ c s d ng nh h i quy đa bi n, ồ ượ ử ụ ư ồ ếtuy nhiên bi n ph thu c là d ng categorical (vd: có vay ti n, ho c không ế ụ ộ ạ ề ặvay ti n)ề

• Factor Analysis: khi mu n g p các bi n, ho c các thành ph n bi nố ộ ế ặ ầ ế

Page 4: Spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_Khaiquat

3. Ôn l i căn b n tr c khi s d ng các k thu t th ng kê ạ ả ướ ử ụ ỹ ậ ốd a trên Correlationự

• V h s t ng quan (correlation co-effiecient – r): dùng cho linear (tuy n tính) ề ệ ố ươ ếhay curvilinear (phi tuy n)? Gi i thích gì v i giá tr t - 1 đ n 1 (trong đó có 0)?ế ả ớ ị ừ ế

Các y u t khác c n ph i quan tâm:ế ố ầ ả• Non-linear relationship: h s r ch quan tâm đ c các quan h linear, trong ệ ố ỉ ượ ệ

tr ng h p các quan h là curvilinear thì r s không đ m b o đ c. Do đó hãy ườ ợ ệ ẽ ả ả ượcheck v i Scatter plot tr c khi th c hi n v i rớ ướ ự ệ ớ

• Outliers: có th gây nh h ng nghiêm tr ng đ n giá tr r, đ c bi t v i small ể ả ưở ọ ế ị ặ ệ ớsample size. Làm th nào đ ki m tra đ c outliers? T i sao l i có ouliers? X lý ế ể ể ượ ạ ạ ửv i nó nh th nào?ớ ư ế

• Gi i h n m u (Restricted range of scores): ớ ạ ẫ chú ý khi nh n th c v r trong tr ng ậ ứ ề ườh p m u cá bi t (vd: tìm hi u v IQ nh ng ch v i m u sinh viên tr ng đ i h c). ợ ẫ ệ ể ề ư ỉ ớ ẫ ườ ạ ọT ng quan c a m u cá bi t không th đ i di n cho m t m u l n h nươ ủ ẫ ệ ể ạ ệ ộ ẫ ớ ơ

• T ng quan (Correlation) và quan h h nguyên nhân h qu (causality): h s ươ ệ ệ ệ ả ệ ốt ng quan ch cho bi t gi a hai bi n có quan h v i nhau, nó không quan tâm ươ ỉ ế ữ ế ệ ớđ n vi c m t bi n nh h ng đ n bi n còn l i, ho c nó cũng không quan tâm ế ệ ộ ế ả ưở ế ế ạ ặđ n vi c hai bi n có b nh h ng b i m t bi n th 3 hay không.ế ệ ế ị ả ưở ở ộ ế ứ

Page 5: Spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_Khaiquat

Nghiên c u khoa h c! Nghiên c u khoa h c! OMG!!!ứ ọ ứ ọ

Các nhà khoa h c đã tìm ra m i t ng quan r t ch t, thu n chi u gi a doanh s ọ ố ươ ấ ặ ậ ề ữ ốtiêu th kem (ice consumption) và t l t i ph m gi t ng i (homicides) thành ph ụ ỷ ệ ộ ạ ế ườ ở ốNew York. Khuy n ngh chính sách ch ng bi t đã có đ c đ a ra hay không, nh ng ế ị ẳ ế ượ ư ưk t c c là các ti m kem đã ph i đóng c a vì nh n đ nh này.ế ụ ệ ả ử ậ ị

V sau, ng i ta tìm hi u thêm xoay quanh câu h i: “ề ườ ể ỏ li u ăn kem có làm cho ệng i ta tr nên hung hãn h n không?ườ ở ơ ”. Câu tr l i là ả ờ “không”

V y l i gi i thích th a đáng là gì? Đó là: c l ng kem tiêu th và t l t i ph m ậ ờ ả ỏ ả ượ ụ ỷ ệ ộ ạgi t ng i đ u b nh h ng b i y u t th ba – th i ti t. Khi th i ti t nóng h n, ế ườ ề ị ả ưở ở ế ố ứ ờ ế ờ ế ơng i ta ăn kem nhi u h n, và ng i ta cũng tr nên hung hãn h n – gi t ng i đ n ườ ề ơ ườ ở ơ ế ườ ơgi n h n!!!.ả ơ

K t lu n: ph i c n th n khi nh n th c h s t ng quan r, và c n th n trong ế ậ ả ẩ ậ ậ ứ ệ ố ươ ẩ ậnghiên c u:ứ

Hãy nghĩ đ n h nh h ng c a m t (m t s ) bi n th 3 khi thi t k nghiên c uế ả ưở ủ ộ ộ ố ế ứ ế ế ứLi u có đo l ng đ c giá tr c a bi n th 3 đó không? N u có, hãy dùng phân ệ ườ ượ ị ủ ế ứ ế

tích Partial correlation (Chapter 12) đ tách nh h ng y raể ả ưở ấ .

Page 6: Spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_Khaiquat

Các y u t khác c n ph i quan tâm:ế ố ầ ả•Khác bi t gi a ý nghĩa th ng kê và th c tr ng (statistical ệ ữ ố ự ạversus practical significant)– Đ ng quá v i m ng n u th y h s t ng quan có ý nghĩa ừ ộ ừ ế ấ ệ ố ươ

th ng kê (significant). V i m t m u l n thì th m chí m t ố ớ ộ ẫ ớ ậ ộh s t ng quan r t bé cũng có ý nghĩa th ng kê.ệ ố ươ ấ ố

– Tuy v y, trên th c t (practical), h s r=0.2 có ý nghĩa ậ ự ế ệ ốth ng kê cũng có th đ c xem là r t h n ch đ ng ố ể ượ ấ ạ ế ể ứd ngụ

– C n quan tâm c h s r và rầ ả ệ ố 2 (the amount of shared variance between the two variables)

– Hãy so sánh v i các nghiên c u cùng lĩnh v c tr c đóớ ứ ự ướ• N u nghiên c u tr c đó đ a ra r = 0.3, thì nghiên c u c a b n (r ế ứ ướ ư ứ ủ ạ

= 0.5) có th là đáng m ngể ừ• Tuy nhiên, trong lĩnh v c khác r = 0.5 (m c đ gi i thích là 25%) ự ứ ộ ả

có th là quá nh và không có ý nghĩa áp d ngể ỏ ụ

3. Ôn l i căn b n tr c khi s d ng các k thu t ạ ả ướ ử ụ ỹ ậth ng kê d a trên Correlation (ti p)ố ự ế

Page 7: Spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_Khaiquat

Đ nh d ng giá tr ch tiêu (thang đo c a bi n – Level of measurement):ị ạ ị ỉ ủ ế•Ph n l n các k thu t th ng kê trong ph n 4 này s d ng s li u d ng ầ ớ ỹ ậ ố ầ ử ụ ố ệ ạcontinuous (d ng interval ho c ratio), ạ ặ•ngo i tr tr ng h p bi n đ c l p có d ng dichotomous (ch nh n hai giá ạ ừ ườ ợ ế ộ ậ ạ ỉ ậtr , vd: bi n sex), m t bi n ph thu c d ng continous. Khi đó m i nhóm ị ế ộ ế ụ ộ ạ ở ỗ(v i bi n sex) b n c n có s l ng cases nh nhau.ớ ế ạ ầ ố ượ ư•V i s li u d ng ordinal ho c ranking, b n hãy dùng th ng kê Rho ớ ố ệ ạ ặ ạ ốcorrelation đ thay cho h s t ng quan Pearson. V i t ng quan Rho, ể ệ ố ươ ớ ươthang đo Likert s đ c a chu ng trong thi t k công c thu th p thông tin.ẽ ượ ư ộ ế ế ụ ậThông tin cho cùng đ i t ng (related pairs):ố ượ•Khi nghiên c u m t m i quan h (one subject) gi a hai bi n, s li u v hai ứ ộ ố ệ ữ ế ố ệ ềbi n đó c n đ c đo l ng trên cùng m t ch th (vd: age và anxiety c a ế ầ ượ ườ ộ ủ ể ủm i case trong m u)ỗ ẫ

3. Ôn l i căn b n tr c khi s d ng các k thu t th ng kê d a trên Correlationạ ả ướ ử ụ ỹ ậ ố ựCác y u t khác c n ph i quan tâm (ti p) – Các gi đ nh th ng kê (assumptions)ế ố ầ ả ế ả ị ố

Page 8: Spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_Khaiquat

Quan sát đ c l p (Independence of Observation):ộ ậ•Các quan sát (đi u tra) đ i v i các đ i t ng (case) khác nhau c n đ c l p. ề ố ớ ố ượ ầ ộ ậNghĩa là k t qu quan sát (đi u tra) cho m t case b t kỳ c n đ c đ c l p ế ả ề ộ ấ ầ ượ ộ ậv i các case khác.ớM t s ví d v nghiên c u có th vi ph m gi đ nh này:ộ ố ụ ề ứ ể ạ ả ị•Quan sát k t qu h c t p c a sinh viên h c theo nhóm.ế ả ọ ậ ủ ọ•Tìm hi u thói quen và u tiên trong vi c xem truy n hình c a tr em các ể ư ệ ề ủ ẻ ởgia đình. Trên th c t , m t đ a tr xem ch ng trình A th ng làm cho ự ế ộ ứ ẻ ươ ườnh ng đ a tr khác cũng xem ch ng trình A, đi u này vi ph gi đ nh v ữ ứ ẻ ươ ề ạ ả ị ềtính đ c l p c a quan sát.ộ ậ ủ•Đánh giá m t ph ng pháp gi ng d y và tìm hi u tác đ ng c a nó đ n hành ộ ươ ả ạ ể ộ ủ ếvi và k t qu h c t p c a sinh viên. Trong tr ng h p này hành vi k t qu ế ả ọ ậ ủ ườ ợ ế ảh c t p c a sinh viên có th b nh h ng b i m t s cá nhân gây h i đ n ọ ậ ủ ể ị ả ưở ở ộ ố ạ ếvi c h c chung c a c l p.ệ ọ ủ ả ớ

3. Ôn l i căn b n tr c khi s d ng các k thu t th ng kê d a trên Correlationạ ả ướ ử ụ ỹ ậ ố ựCác y u t khác c n ph i quan tâm (ti p) – Các gi đ nh th ng kê (assumptions)ế ố ầ ả ế ả ị ố

Page 9: Spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_Khaiquat

Chu n (Normality):ẩ•S li u c a m i bi n c n có phân b chu n (normally distributed). Đ c tính ố ệ ủ ỗ ế ầ ố ẩ ặnày có th đ c ki m tra b ng vi c s d ng histograms c a giá tr bi n ể ượ ể ằ ệ ử ụ ủ ị ế(Chapter 6)

Tuy n tính (Linearity):ế•Quan h gi a hai bi n ph i là tuy n tính. Đi u đó có nghĩa là n u b n v ệ ữ ế ả ế ề ế ạ ẽbi u đ scatter plots cho hai bi n thì b n s có th khái quát m t đ ng ể ồ ế ạ ẽ ể ộ ườth ng v quan h gi a hai bi n ch không ph i là đ ng cong (a straight ẳ ề ệ ữ ế ứ ả ườline, not a curve)

Ph ng sai sai s (không) thay đ i:ươ ố ổ

3. Ôn l i căn b n tr c khi s d ng các k thu t th ng kê d a trên Correlationạ ả ướ ử ụ ỹ ậ ố ựCác y u t khác c n ph i quan tâm (ti p) – Các gi đ nh th ng kê (assumptions)ế ố ầ ả ế ả ị ố

Page 10: Spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_Khaiquat

• Trong các nghiên c u kinh t xã h i, r t hi m khi b n thu th p đ c đ y đ các thông tin mình ứ ế ộ ấ ế ạ ậ ượ ầ ủmu n có. Do đó, s x y ra missingố ẽ ả

• B n có th ch y Descriptive đ tìm ra % s li u b missingạ ể ạ ể ố ệ ị• Trong tr ng h p có missing, b n c n ph i t đ t câu h i t i sao l i có các missing y? (l i ng u ườ ợ ạ ầ ả ự ặ ỏ ạ ạ ấ ỗ ẫ

nhiên, hay h th ng???)ệ ố• SPSS có ph n ầ Missing Value Analysis (g n d i cùng trong Analyze) đ giúp b n tìm hi u k h n ầ ướ ể ạ ể ỹ ơ

v đ c đi m c a missing trong dãy s li u mình cóề ặ ể ủ ố ệ

B n x lý th nào v i Missing? Các phân tích trong SPSS th ng có Options, b n có th l a ch n ạ ử ế ớ ườ ạ ể ự ọcách x lý v i v n đ Missing. Các l a ch n này nên đ c th ng nh t cho các phân tích c a ử ớ ấ ề ự ọ ượ ố ấ ủb n?ạ

• Exclude cases listwise option: ch ti n hành phân tích v i nh ng các cases có đ y đ s li u cho ỉ ế ớ ữ ầ ủ ố ệt t c các bi n đã đ c đ a vào trong h p bi n dùng cho phân tích. H n ch dùng!ấ ả ế ượ ư ộ ế ạ ế

• Exclude cases pairwise option: ch lo i b các cases thi u s li u cho các bi n có m t trong m t ỉ ạ ỏ ế ố ệ ế ặ ộphân tích nào đó. V i các bi n khác, n u có thông tin, cases l i đ c đ a vào phân tích bình ớ ế ế ạ ượ ưth ng. ườ Nên dùng (strongly recommended)!

• Replace with mean option: cũng không nên dùng!

Đôi khi trong k t qu b n th y xu t hi n các thông tin ki u nh ế ả ạ ấ ấ ệ ể ư 1.24E-02. Đó là d ng scientific, n u ạ ếb n không mu n th y chúng, hãy vào Edit/Options/General/ No scientific notation for small ạ ố ấnumbers in tables

3. Ôn l i căn b n tr c khi s d ng các k thu t th ng kê d a trên ạ ả ướ ử ụ ỹ ậ ố ựCorrelation

Các y u t khác c n ph i quan tâm (ti p) – ế ố ầ ả ế Missing data

Page 11: Spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_Khaiquat

Tham kh oả

• www.openup.co.uk/spss

Page 12: Spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_Khaiquat

Thank you!!!