ttổnnggquanquanllýýthuythuy ((literature … · tính logic trong lập lu ận tính ñ ầy...

20
1 Phương Phương pháp pháp ghiên ghiên cứu cứu và Phân Phân tích tích dữ dữ liệu liệu Câu Câu hi nghiên nghiên cu 2 Mc tiêu nghiên c c tiêu nghiên cu Xác ñnh nhng kết qucn ñt ñtrli cho câu hi nghiên cu 3 Gi Githi thiết Mô tmi quan hgia các biến Các biến phi ño lường ñược Githiết phi thhin dưới dng kim tra ñược (xác nhn hay không xác nhn) Nếu githuyết ñược xác nhn => ñóng góp vào khám phá ca ñtài Nếu githuyết không ñược xác nhn =>tìm hiu xem nhân tnào là quan trng cn nghiên cu thêm 4 Tng ng quan quan lý lý thuy thuyết (Literature Review) Literature Review) Vn ñquan tâm ñã ñược nghiên cu trước ñây chưa và kết qunhư thế nào. Liu có thphát trin thêm tcông trình ñã có. Các chuyên gia ñánh giá phn này da trên: Tính logic trong lp lun Tính ñy ñtrong tham kho các ñtài ñã có Tính liên quan ñến mc tiêu nghiên cu 5 Tng ng quan quan lý lý thuy thuyết Cu trúc ca phn này ñược xây dng da trên Mô hình phân tích (Analytical Framework) ca nghiên cu Trong mt strường hp, mô hình này còn ñược gi là Mô hình khái nim (Conceptual Framework) Sơ ñdin tmi quan hgia các nhân tðây là cơ sñxây dng các githiết 6

Upload: duongdang

Post on 12-Jul-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

1

PhươngPhương pháppháp ghiênghiên cứucứuvàvà PhânPhân tíchtích dữdữ liệuliệu

CâuCâu hhỏỏii nghiênnghiên ccứứuu

2

MMụục tiêu nghiên cc tiêu nghiên cứứuu

� Xác ñịnh những kết quả cần ñạt ñể trả lời cho câu hỏi nghiên cứu

3

GiGiảả thithiếếtt

� Mô tả mối quan hệ giữa các biến

� Các biến phải ño lường ñược

� Giả thiết phải thể hiện dưới dạng kiểm tra ñược (xác nhận hay không xác nhận)◦ Nếu giả thuyết ñược xác nhận => ñóng góp vào

khám phá của ñề tài

◦ Nếu giả thuyết không ñược xác nhận =>tìm hiểu xem nhân tố nào là quan trọng cần nghiên cứu thêm

4

TTổổngng quanquan lýlý thuythuyếếtt((Literature Review)Literature Review)

� Vấn ñề quan tâm ñã ñược nghiên cứu trước ñây chưa và kết quả như thế nào.

� Liệu có thể phát triển thêm từ công trình ñã có.

� Các chuyên gia ñánh giá phần này dựa trên:◦ Tính logic trong lập luận

◦ Tính ñầy ñủ trong tham khảo các ñề tài ñã có

◦ Tính liên quan ñến mục tiêu nghiên cứu

5

TTổổngng quanquan lýlý thuythuyếếtt

� Cấu trúc của phần này ñược xây dựng dựa trên Mô hình phân tích (Analytical Framework) của nghiên cứu

� Trong một số trường hợp, mô hình này còn ñược gọi là Mô hình khái niệm (Conceptual Framework)

◦ Sơ ñồ diễn tả mối quan hệ giữa các nhân tố

◦ ðây là cơ sở ñể xây dựng các giả thiết

6

2

Ví dVí dụụ vvềề mô hình phân tíchmô hình phân tích

7

Employer needs

Employability

Learningapproach

Graduate competencies

Student involvement

Part-time experience

PHÂ TÍCH DỮ LIỆU TROG PHÂ TÍCH DỮ LIỆU TROG QUÁ TRÌH GHIÊ CỨUQUÁ TRÌH GHIÊ CỨU

Thiết kế nghiên cứu

Phân tích và diễn giải thông tin

Thống kê mô tả dựa trên các biến

Bảng chéo của các biến

Chuẩn bị trình bày dữ liệu

Xác định các kiến nghị

Báo cáo nghiên cứu

Quyết địnhquản lý

Hoạch định phân tích sơ bộ

Điều chỉnh giả thiết

Trình bày bằng biểu đồ

Kiểm định các giả thiết

Thu thập và chuẩn bị thông tin

Các loCác loạại phân tích di phân tích dữữ liliệệuu

� Phân tích dữ liệu ñể khám phá (EDA)

◦ Dữ liệu hướng dẫn lựa chọn phân tích - hay xem lại phân tích ñã dự kiến

� Phân tích dữ liệu ñể khẳng ñịnh (CDA)

◦ Gần với suy lý thống kê cổ ñiển qua sử dụng ñộ tin cậy và mức ý nghĩa

◦ Có thể sử dụng thông tin từ bộ dữ liệu có liên quan mật thiết hay xác nhận giá trị các kết quả tìm thấy qua thu thập và phân tích dữ liệu mới

10

PHAÂN TÍCH DỮ LIEÄU ĐEÅ KHAÙM PHAÙ (EDA) 206 0 10

43,5% ,0% 2,1%

157 27 74

33,1% 5,7% 15,6%

Female

Male

GenderClerical Custodial Manager

Employment Category

Gender * Employment Category Gender * Employment Category CrosstabulationCrosstabulation

12

3

ThThốốngng kêkê mômô ttảả

� MOÂ TAÛ SOÁ LIEÄU BAÈNG BIEÅU ÑOÀBar PieHistogram

� CAÙC ÑAËC TRÖNG CUÛA SOÁ LIEÄU MOÄT BIEÁNÑaëc tröng vò trí (Central tendency)

Ñaëc tröng phaân taùn (Dispersion)

Ñaëc tröng phaân phoái (Distribution)

13

Các kCác kỹỹ thuthuậật trình bày và t trình bày và khkhảảo sát phân pho sát phân phốốii� Bảng tần số

� Trình bày bằng hình ảnh

◦ Biểu ñồ (Histograms)

◦ Stem-and-leaf

◦ Box-plot

� Bảng chéo của các biến

14

Các kCác kỹỹ thuthuậật trình bày và t trình bày và khkhảảo sát phân pho sát phân phốốii� Biểu ñồ◦ Trình bày tất cả các khoảng trong phân

phối, kể cả không có giá trị quan sát

◦ Khảo sát dạng của phân phối về ñộ lệch, ñộ nhọn

15 16

Stem width: 10000Each leaf: 3 case(s)

Frequency Stem & Leaf

33 1 . 56667789999110 2 . 00001111111222222222333334444444444115 2 . 55555555666666666777777777888888999999980 3 . 00000000000111111223333344432 3 . 5555667788920 4 . 000123312 4 . 567812 5 . 01247 5 . 55653 Extremes (>=56750)

Current Salary Current Salary StemStem--andand--Leaf PlotLeaf Plot

17

Các kCác kỹỹ thuthuậật trình bày và t trình bày và khkhảảo sát phân pho sát phân phốốii

� Box-plot

◦ Hộp chữ nhật chứa 50% giá trị của dữ liệu

◦ Vạch ñứng trên hộp diễn tả trung vị

◦ Các ñoạn mở rộng về bên phải và trái kết thúc với giá trị lớn nhất và nhỏ nhất

18

4

19

Các kCác kỹỹ thuthuậật trình bày và t trình bày và khkhảảo sát phân pho sát phân phốốii

� Biến ñổi dữ liệu

◦ Nâng cao khả năng diễn giải và tương thích với các bộ dữ liệu khác

◦ ðối xứng hơn và cân bằng ñộ phân tán

◦ Cải thiện quan hệ tuyến tính giữa các biến

20

BBảảng chéong chéo

� Kỹ thuật so sánh hai biến phân loại

◦ Các ô

◦ Biên

◦ Bảng hai chiều

21

Gender * Employment Category Crosstabulation

206 0 10 216

95,4% ,0% 4,6% 100,0%

56,7% ,0% 11,9% 45,6%

43,5% ,0% 2,1% 45,6%

157 27 74 258

60,9% 10,5% 28,7% 100,0%

43,3% 100,0% 88,1% 54,4%

33,1% 5,7% 15,6% 54,4%

363 27 84 474

76,6% 5,7% 17,7% 100,0%

100,0% 100,0% 100,0% 100,0%

76,6% 5,7% 17,7% 100,0%

Count

% within Gender

% within Employment

Category

% of Total

Count

% within Gender

% within Employment

Category

% of Total

Count

% within Gender

% within EmploymentCategory

% of Total

Female

Male

Gender

Total

Clerical Custodial Manager

Employment Category

Total

22

ThThốốngng kêkê mômô ttảả

� Ñaëc tröng vò trí (Central tendency)Trung bình (Mean)ModeTrung vị (Median)

23

TrungTrung bìnhbình (MEAN(MEAN) & Mode) & Mode

� Trung bình là:

◦ Bình quân số học

◦ Tổng giá trị quan sát/Số lần quan sát

� Mode là:

◦ Giá trị (chứ không phải số lần) xuất hiện thường xuyên nhất

24

5

Trung vTrung vịị (MEDIAN)(MEDIAN)

� Trung vị là:

◦ ðiểm giữa của phân phối

◦ 50% quan sát nằm phía trên & 50% quan sát nằm phía dưới

◦ Nếu số số hạng trong dãy số là số chẵn, trung vị là sốbình quân của 2 giá trị ở giữa dãy số

◦ Trung vị không phụ thuộc vào các cực trị, trong khi Trung bình (Mean) chịu ảnh hưởng của các giá trịcao và thấp nhất trong dãy số.

25

Khi nào thì sKhi nào thì sửử ddụụng các sng các sốố ño ño nàynày

Số đo Thang đo Khi sử dụng Ví dụ

Mode Định danh Dữ liệu dưới dạng phân loại

Màu mắt, hình thức hợp đồng, giới tính

Trung vị (Median)

Thứ tự Dữ liệu bao gồm các giá trị cực biên

Phân hạng trong lớp, thứ tự lúc sinh

Trung bình (Mean)

Quãng vàtỉ lệ

Dữ liệu phù hợp Tỉ lệ trả lời, tuổi, mứcđộ thích

26

ThThốốngng kêkê mômô ttảả

� Ñaëc tröng phaân taùn (Dispersion)VarianceStandard deviationStandard error of MeanMin, MaxExtreme values - OutliersRangeQuartilesInterquartile range

Boxplot

27

ThThốốngng kêkê mômô ttảả

� Ñaëc tröng phaân phoái (Distribution)Phaân phoái chuaån

28

SSơơ ññồồ phân phphân phốối chui chu__n (hình chuông)n (hình chuông)

� Mean = median = mode� ðối xứng qua ñiểm giữa� ðuôi chuông tiếp cận trục X , nhưng không cắt

29

GiáGiá trtrịị trungtrung bìnhbình vàvà ððộộ llệệchch chuchu__nn

30

Ít biến thiên hơn

Biến thiên nhiều hơn

6

ððộộ llệệch chuch chu__n và % các quan sátn và % các quan sát

� Sơ ñồ phân phối chuNn � Di chuyển về bất kỳ bên nào của Mean 1 khoảng cách là một ñộ lệch chuNn,

khoảng phân phối ñều chứa 34% của không gian giới hạn bởi sơ ñồ� 68% số quan sát nằm trong khoảng ± 1 ñộ lệch chuNn của Trung bình

31

Current Salary - Descriptive Statistics

$34,419.57 $784.311

$32,878.40

$35,960.73

$28,875.00

$17,075.661

$15,750

$135,000

$119,250

$13,163

2,125 ,112

5,378 ,224

Mean

Lower Bound

Upper Bound

95% Confidence

Interval for Mean

Median

Std. Deviation

Minimum

Maximum

Range

Interquartile Range

Skewness

Kurtosis

Statistic Std. Error

32

PHAÂN TÍCH DỮ LIEÄU ĐEÅ XAÙC NHAÄN (CDA)

Các loCác loạại gii giảả thithiếếtt

� Giả thiết không

� Giả thiết khác

34

Logic cLogic củủa kia kiểểm ñm ñịịnh ginh giảả thithiếếtt

� Phép kiểm hai ñuôi

� Phép kiểm một ñuôi

35

Logic cLogic củủa kia kiểểm ñm ñịịnh ginh giảả thithiếếtt

� Lỗi loại 1

� Lỗi loại 2

36

7

KiKiểểm ñm ñịịnh vnh vớới ý nghĩa thi ý nghĩa thốống kêng kê

� Phát biểu giả thiết không� Chọn phép kiểm thống kê

� Chọn mức ý nghĩa αmong muốn

� Tính giá trị sai biệt

� Tra bảng tìm giá trị sig. tương ứng

� Sig. nhỏ hơn α⇔ Bác bỏ giả thiết không

� Diễn giải kết quả kiểm ñịnh

37

Các loCác loạại phép kii phép kiểểm theo mm theo mứức ý c ý nghĩanghĩa

� Phép kiểm tham số◦ Phép kiểm Z hay t ñược sử dụng ñể xác ñịnh

sự khác biệt có ý nghĩa về mặt thống kê giữa trung bình mẫu và trung bình ñám ñông

� Các giả ñịnh:

◦ Các quan sát ñộc lập

◦ Phân phối chuNn

◦ Các ñám ñông có cùng phương sai

◦ Thang ño ít ra phải là thang ño quãng

38

OneOne--sample T testsample T test

One-Sample Statistics

474 13,49 2,885 ,133EducationalLevel (years)

N MeanStd.

DeviationStd. Error

Mean

One-Sample Test

-3,837 473 ,000 -,508EducationalLevel (years)

t df Sig. (2-tailed)Mean

Difference

Test Value = 14

39

IndependentIndependent--sample T testsample T test

Group Statistics

258 14,43 2,979 ,185

216 12,37 2,319 ,158

GenderMale

Female

EducationalLevel (years)

N MeanStd.

DeviationStd. Error

Mean

Independent Samples Test

17,884 ,000 8,28 472 ,000 2,060 ,249

8,46 469,6 ,000 2,060 ,244

Equal variancesassumed

Equal variancesnot assumed

EducationalLevel

(years)

F Sig.

Levene's Testfor Equality of

Variances

t dfSig.

(2-tailed)Mean

DifferenceStd. ErrorDifference

t-test for Equality of Means

40

Levene's Test:

H0: Equal Variance

Ha: Unequal Variance

Equal Variance:

df = N1+N2 -2

Các loCác loạại phép kii phép kiểểm theo mm theo mứức ý c ý nghĩanghĩa

tailed) Sig.(2Difference Mean of Error Standard

Difference Meant ↔=⇒

+

−+−+−

−=

2121

222

211

21

N1

N1

2NN1)S(N1)S(N

XXt

41

Unequal Variance:

Các loCác loạại phép kii phép kiểểm theo mm theo mứức ý c ý nghĩanghĩa

tailed) Sig.(2Difference Mean of Error Standard

Difference Meant ↔=⇒

+

−=

2

22

1

21

21

NS

NS

XXt

1N1N

)(df

2

22

1

21

221

−+

+=

ωω

ωω

1

21

1 NS

ω =2

22

2 NS

ω =

42

8

PairedPaired--sample T testsample T test

Paired Samples Statistics

$34,419.57 474 $17,075.661 $784.311

$17,016.09 474 $7,870.638 $361.510

Current Salary

Beginning Salary

Mean N Std. DeviationStd. Error

Mean

Paired Samples Test

$17403.48 $10,814.620 $496.732 35,04 473 ,000Current Salary -

Beginning Salary

Mean Std. DeviationStd. Error

Mean

Paired Differences

t dfSig.

(2-tailed)

43

ANOVAANOVA

� Phân tích phương sai (ANOVA)

◦ Phương pháp thống kê ñể kiểm ñịnh giả thiết không về sự bằng nhau của nhiều trung bình

◦ H: µ1 = µ2 = ...= µi =... = µn

44

ANOVAANOVA

� Sum of Squares Between Groups

df = n -1

� Sum of Squares Within Groups

df = N – n

� Sum of Squares Total

df = N – 1

∑ −=i

22ii XNXNSSB

∑ ∑

−=

i j

2

ii2iij XNXNSSW

∑ −=ij

22ijij XNXNSST

45

OneOne--way ANOVAway ANOVADescriptives - Educational Level (years)

N Mean Std. Deviation Std. Error

Clerical 363 12,87 2,333 ,122

Custodial 27 10,19 2,219 ,427

Manager 84 17,25 1,612 ,176

Total 474 13,49 2,885 ,133

ANOVA

Educational Level (years)

1622,989 2 811,495 165,2 ,000

2313,477 471 4,912

3936,466 473

Between Groups

Within Groups

Total

Sum of

Squares df

Mean

Square F Sig.

46

ANOVAANOVA

� Neáu baùc boû H: µ1 = µ2 = ...= µi =... = µn, tieán haønh tieáp Post hoc ñeå xaùc ñònh caùc trung bình naøo khaùc nhau.

� Phaûi laøm Levene test tröôùc ñeå xaùc ñònh xem caùc phöông sai trong töøng nhoùm coù ñoàng nhaát khoâng.

47

ANOVAANOVA

Levene's Test: H: Homogeneity of Variance

� Equal Variances:Coù theå duøng caùc tests nhö LSD, Bonferroni, Sidak,

Scheffe, Tukey...

� Unequal Variances:Coù theå duøng caùc tests nhö Tamhane's T2, Dunnett's

T3, Games-Howell...

48

9

Các phép kiCác phép kiểểm so sánh ñm so sánh ñồồng ng ththờời nhii nhiềều cu cặặp p � Quy trình so sánh ñồng thời nhiều cặp

◦ Kiểm sự khác biệt giữa từng cặp trung bình và chỉ ra các nhóm có trung bình khác nhau có ý nghĩa ở mức alpha (<.05)

◦ Dùng các trung bình nhóm và kết hợp với giá trị MSerror của kiểm ñịnh F

49

Post Hoc TestsPost Hoc Tests

Test of Homogeneity of Variances

Educational Level (years)

6,159 2 471 ,002

Levene

Statistic df1 df2 Sig.

Multiple Comparisons

Dependent Variable: Educational Level (years)

Tamhane

2,683* ,444 ,000

-4,382* ,214 ,000

-2,683* ,444 ,000

-7,065* ,462 ,000

4,382* ,214 ,000

7,065* ,462 ,000

(J) EmploymentCategoryCustodial

Manager

Clerical

Manager

Clerical

Custodial

(I) EmploymentCategoryClerical

Custodial

Manager

MeanDifference (I-J)

Std.Error Sig.

The mean difference is significant at the .05 level.*.

50

PhânPhân tíchtích PhPhươươngng saisai mmộộtt yyếếuu ttốố(One(One--way ANOVA)way ANOVA)

� Ta có thể kiểm tra xu hướng của các trung bình của các nhóm.

� Ngoài việc xác ñịnh sự khác biệt giữa các trung bình, ñôi khi ta muốn so sánh các trung bình cụ thể.

51

PhânPhân tíchtích PhPhươươngng saisai mmộộtt yyếếuu ttốố(One(One--way ANOVA)way ANOVA)

� Có 2 loại kiểm tra ñể so sánh các trung bình cụ thể:

◦ ðối chiếu trước (priori contrast) nhằm kiểm tra một biểu thức cụ thể giữa các trung bình. Ví dụ:

◦ Kiểm tra hậu kỳ (post hoc test) ñược sử dụng ñể so sánh nhiều cặp trung bình cùng một lúc

52

2

µµµ 52

1

+=

ChChọọn phép kin phép kiểểm nhm nhưư ththếế nào?nào?

� Phép kiểm liên quan ñến

◦ Một mẫu,

◦ Hai mẫu

◦ K mẫu

� Nếu là hai hay k mẫu, các quan sát ñộc lập hay có liên quan?

� Thang ño là danh xưng, thứ tự, quãng, hay tỉ lệ?

53

PhépPhép kikiểểmm Phi Phi thamtham ssốố

10

ÑieàuÑieàu kieänkieän cuûacuûa caùccaùc pheùppheùpkieåmkieåm thamtham soásoá

� Caùc pheùp kieåm T duøng ñeå so saùnh trung bình döïa treân loaïi döõ lieäu theo thang ño quaõng (interval)

� Phaân phoái cuûa quan saùt laø phaân phoái chuaån� Treân thöïc teá, ñoâi khi caùc ñieàu kieän naøy

khoâng thoõa, hoaëc ta muoán kieåm caùc vaán ñeà khaùc chöù khoâng chæ muoán so saùnh caùc trung bình

55

� Các giả ñịnh

◦ Các quan sát ñộc lập cho một số phép kiểm

◦ Phân phối không cần phải chuNn

◦ Phương sai không cần phải ñồng nhất

◦ Phù hợp cho dữ liệu danh xưng hay thứ tự, có thể dùng cho cả trường hợp quãng và tỉ lệ

PhépPhép kikiểểmm phi phi thamtham ssốố

56

ChiChi--square square testtest

H0: Coù söï phuø hôïp giöõa thöïc teá vaø lyù thuyeátH0: Caùc yeáu toá ñoäc laäp, hay H0: Caùc maãu ñoàng nhaát

57

ChiChi--square square testtest

� Kieåm tính phuø hôïp giöõa thöïc teá vaø lyù thuyeát baèng caùch tính cheânh leäch giöõa caùc taàn soá thöïc teá vaø taàn soá lyù thuyeát.

Q coù phaân phoái Chi-square, Q caøng lôùn caøng deã baùc boû H.

58

∑= thuyeát Lyùthuyeát) Lyù-teá (Thöïc

Q2

ChiChi--square square testtest

� Kieåm tính ñoäc laäp cuûa hai yeáu toá (doøng vaø coät), khoâng chæ ra möùc ñoä vaø höôùng cuûa moái quan heä.

� Kieåm tính ñoàng nhaát cuûa nhieàu maãu coù caùc quan saùt ñònh tính.

� Goàm caùc thoáng keâ Pearson chi-square, likelyhood-ratio chi-square, linear-by-linear association chi-square.

59

ChiChi--Square TestsSquare Tests

Chi-Square Tests

79,277a 2 ,000

95,463 2 ,000

67,463 1 ,000

474

Pearson Chi-Square

Likelihood Ratio

Linear-by-LinearAssociation

N of Valid Cases

Value df

Asymp. Sig.

(2-sided)

0 cells (,0%) have expected count less than 5. The

minimum expected count is 12,30.

a.

gender * Employment Category Crosstabulation

157 27 74 258

206 0 10 216

363 27 84 474

male

female

gender

Total

Clerical Custodial Manager

Employment Category

Total

60

11

ONEONE--SAMPLE KOLMOGOROVSAMPLE KOLMOGOROV--SMIRNOV TESTSMIRNOV TEST

� H0: Soá lieäu phuø hôïp vôùi phaân phoái lyù thuyeát� K-S test:◦ Tính sai leäch lôùn nhaát giöõa hai ñöôøng phaân phoái tích

luõy thöïc nghieäm vaø lyù thuyeát◦ Sai leäch tuyeät ñoái caøng lôùn caøng deã baùc boû H.

61

TWOTWO--INDEPENDENTINDEPENDENT--SAMPLES SAMPLES TESTSTESTS

� H0: Hai maãu coù cuøng phaân phoái� U cuûa Mann-Whitney:◦ Hai maãu ñöôïc saép theo thöù töï taêng daàn◦ U laø soá laàn giaù trò trong maãu thöù nhaát nhoû hôn giaù

trò trong maãu thöù hai◦ U quaù nhoû hay quaù lôùn ñeàu deã baùc boû H

62

TWOTWO--INDEPENDENTINDEPENDENT--SAMPLES SAMPLES TESTSTESTS

� H0: Hai maãu coù cuøng phaân phoái� Moses extreme reactions:◦ Caùc quan saùt phaûi duøng thang ño thöù tö◦ Taàm (span = max – min) cuûa nhoùm ñoái chöùng ño

möùc ñoä caùc cöïc trò trong nhoùm thí nghieäm aûnh höôûng ñeán giaù trò taàm naày khi keát hôïp vôùi nhoùm ñoái chöùng◦ Aûnh höôûng caøng lôùn caøng deã baùc boû H

63

TWOTWO--INDEPENDENTINDEPENDENT--SAMPLES SAMPLES TESTSTESTS

� H0: Hai maãu coù cuøng phaân phoái� Wald-Wolfowitz runs:◦ Caùc quan saùt söû duïng thang ño thöù tö◦ Hai maãu ñöôïc keát hôïp laïi vaø saép haïng töø nhoû ñeán

lôùn◦ Run laø moät daõy lieân tieáp caùc giaù trò trong cuøng moät

maãu

◦ Neáu caùc maãu coù cuøng phaân phoái thì hai nhoùm phaûi phaân taùn ngaãu nhieân qua quaù trình saép haïng, nghóa laø soá runs caøng nhoû caøng deã baùc boû H

64

TESTS FOR SEVERAL TESTS FOR SEVERAL INDEPENDENT SAMPLESINDEPENDENT SAMPLES

� H0: k maãu coù cuøng phaân phoái� Kruskal-Wallis H:◦ Töông öùng vôùi One-way ANOVA◦ Soá lieäu coù phaân phoái lieân tuïc vaø söû duïng thang ño

thöù töï◦ k maãu ñöôïc keát hôïp vaø saép haïng laïi◦ Tính H döïa treân caùc haïng naøy

◦ H caøng lôùn caøng deã baùc boû giaû thieát khoâng

65

( )

1)-square(k-Chi Hsaùt quansoá toång laø N

j maãu cuûa saùt quansoá laøN ; RRN

N1

1N12

H j

2

jj

−+

= ∑

TESTS FOR SEVERAL TESTS FOR SEVERAL INDEPENDENT SAMPLESINDEPENDENT SAMPLES

� H0: k maãu coù cuøng phaân phoái� Median:◦ Lieät keâ soá tröôøng hôïp lôùn hôn vaø nhoû hôn trung vò

cho töøng nhoùm◦ Duøng Chi-square tính sai leäch Q giöõa lyù thuyeát vaø

thöïc teá

� Jonckheere-Terpstra:◦ Maïnh hôn Kruskal-Wallis trong tröôøng hôïp caùc döõ

lieäu lieân tuïc hay thang ño thöù töï◦ J-T caøng lôùn caøng deã baùc boû H

66

12

TWOTWO--RELATED SAMPLES TESTSRELATED SAMPLES TESTS

� H0: Hai maãu lieân quan coù cuøng phaân phoái� W cuûa Wilcoxon:◦ Chuù yù caùc caëp coù sai leäch lôùn, saép haïng caùc trò

tuyeät ñoái sai leäch (coù phaân bieät daáu)◦ Tính toång haïng coù daáu (W+, W-)◦ W = min(W+, W-), W quaù nhoû hay quaù lôùn ñeàu deã

baùc boû H

67

TWOTWO--RELATED SAMPLES TESTSRELATED SAMPLES TESTS

� H0: Hai maãu lieân quan coù cuøng phaân phoái� Sign:◦ Tính hieäu soá cuûa hai maãu◦ Chuù yù soá tröôøng hôïp coù hieäu soá döông vaø aâm◦ Khi hai giaù trò naøy cheânh leäch nhau nhieàu (bieåu

hieän qua giaù trò Z quaù aâm hay quaù döông), ta caøng deã baùc boû H

68

TWOTWO--RELATED SAMPLES TESTSRELATED SAMPLES TESTS

� H0: Hai maãu lieân quan coù cuøng phaân phoái� McNemar:◦ Khi hai bieán laáy giaù trò nhò phaân vaø coù lieân quan

� Marginal Homogeneity:◦ Môû roäng cuûa McNemar cho tröôøng hôïp döõ kieän ña

thöùc (multinomial)

69

TESTS FOR SEVERAL RELATED TESTS FOR SEVERAL RELATED SAMPLESSAMPLES

� H0: k maãu lieân quan coù cuøng phaân phoái� Friedman:◦ Töông öùng vôùi Two-way ANOVA◦ k bieán trong moãi tröôøng hôïp ñöôïc saép haïng laïi töø

1 tôùi k◦ Fr tính döïa treân caùc haïng naøy

◦ Fr caøng lôùn caøng deã baùc boû H

70

( )1)-square(k-Chi F

maãutöøng trong saùt quansoá laø N 1);3N(k-RN

1)Nk(k12

Fr

2

jr ∈+

+= ∑

TESTS FOR SEVERAL RELATED TESTS FOR SEVERAL RELATED SAMPLESSAMPLES

� H0: k maãu lieân quan coù cuøng phaân phoái� W cuûa Kendall:◦ Ño möùc ñoä thoáng nhaát trong vieäc ñaùnh giaù k ñoái

töôïng cuûa N chuyeân gia◦ Vôùi moãi ñoái töôïng ta tính toång haïng◦ W laáy giaù trò töø 0 (khoâng thoáng nhaát) tôùi 1 (hoaøn

toaøn thoáng nhaát)

71

TESTS FOR SEVERAL RELATED TESTS FOR SEVERAL RELATED SAMPLESSAMPLES

� H0: k maãu lieân quan coù cuøng phaân phoái� Q cuûa Cochran:◦ Gioáng nhö Fr cuûa Friedman nhöng ñöôïc duøng khi k

bieán quan saùt treân cuøng ñoái töôïng chæ laáy giaù trò nhò phaân◦ Ñaây laø môû roäng cuûa pheùp kieåm McNemar töø 2 maãu

ra cho tröôøng hôïp k maãu

72

13

ToùmToùm taéttaét pheùppheùp kieåmkieåm phi phi thamtham soásoá

� Chi-squareONE-SAMPLE KOLMOGOROV-SMIRNOV TESTTWO-INDEPENDENT-SAMPLES TESTS� U cuûa Mann-Whitney� Moses extreme reactions� Wald-Wolfowitz runsTESTS FOR SEVERAL INDEPENDENT SAMPLES� H cuûa Kruskal-Wallis� Median� Jonckheere-Terpstra

73

ToùmToùm taéttaét pheùppheùp kieåmkieåm phi phi thamtham soásoá

TWO-RELATED SAMPLES TESTS� W cuûa Wilcoxon� Sign� McNemar� Marginal HomogeneityTESTS FOR SEVERAL RELATED SAMPLES� Fr cuûa Friedman� W cuûa Kendall� Q cuûa Cochran

74

HOÀI QUY & TÖÔNG QUANHOÀI QUY & TÖÔNG QUAN

TÖÔNG QUAN (CORRELATIONS)TÖÔNG QUAN (CORRELATIONS)

� H0: Heä soá töông quan baèng 0, nghóa laø hai bieán khoâng coù töông quan tuyeán tính

76

TÖÔNG QUAN (CORRELATIONS)TÖÔNG QUAN (CORRELATIONS)

� Töông quan 2 bieán (Bivariate Correlations)

� Töông quan rieâng phaàn (Partial Correlations)

77

TÖÔNG QUAN (CORRELATIONS)TÖÔNG QUAN (CORRELATIONS)

� Töông quan 2 bieán (Bivariate Correlations)◦ Heä soá töông quan Pearson◦ Heä soá töông quan Tau-b cuûa Kendall◦ Heä soá töông quan Spearman

78

14

TÖÔNG QUAN (CORRELATIONS)TÖÔNG QUAN (CORRELATIONS)

� Heä soá töông quan Pearson:◦ Đaùnh giaù möùc ñoä töông quan tuyeán tính cuûa

hai bieán, laáy giaù trò töø –1 ñeán +1◦ Daáu chæ chieàu töông quan (nghòch hay thuaän)◦ Đoä lôùn cho thaáy möùc ñoä töông quan tuyeán

tính nhieàu hay ít

79

TÖÔNG QUAN (CORRELATIONS)TÖÔNG QUAN (CORRELATIONS)

� Heä soá töông quan Tau-b cuûa Kendall:◦ Soá lieäu theo thang ño thöù töï hay caùc bieán ñaõ

ñöôïc saép haïng laïi◦ Tau-b laáy giaù trò trong khoaûng [-1;+1]◦ YÙ nghóa gioáng nhö heä soá töông quan

Pearson, nhöng giaù trò –1 vaø +1 chæ coù theå ñaït ñöôïc khi baûng soá lieäu hai chieàu laø baûng vuoâng.

80

TÖÔNG QUAN (CORRELATIONS)TÖÔNG QUAN (CORRELATIONS)

� Heä soá töông quan Spearman:◦ Döïa treân haïng chöù khoâng döïa treân giaù trò

thöïc cuûa quan saùt◦ Söû duïng khi soá lieäu theo thang ño thöù töï

hoaëc khoâng thoûa caùc giaû thuyeát chuaån

81

TÖÔNG QUAN (CORRELATIONS)TÖÔNG QUAN (CORRELATIONS)

� Töông quan rieâng phaàn (Partial Correlations)◦ Nghieân cöùu moái quan heä tuyeán tính cuûa hai

bieán coù loaïi tröø aûnh höôûng cuûa caùc yeáu toá khaùc.◦ Zero Order Partials◦ Controlling for…

82

TöôngTöông quanquan rieângrieâng phaànphaàn(Partial Correlations)(Partial Correlations)

83

Bieán kieåm soaùt Quỹ chăm soùc sức khỏe

Tỉ lệ bệnh baùo caùo

Soá laàn ñi khaùm beänh

Khoâng Quỹ chăm soùc sức khỏe

1 0.737 0.964

Tỉ lệ bệnh baùo caùo

0.737 1 0.762

Soá laàn ñi khaùm beänh

0.964 0.762 1

Soá laàn ñi khaùm beänh

Quỹ chăm soùc sức khỏe

1 0.013

Tỉ lệ bệnh baùo caùo

0.013 1

HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)

� Hoài quy ñôn (Simple Regression)� Hoài quy boäi (Multiregression)

84

15

HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)

� Hoài quy ñôn (Simple Regression)

85

P4

XX1 X2 X3 X4

P3P2

P1

R1

R2

R3 R4

(sai biệt-residual)

e1

e2

e3

e4 XbbY 10ˆ +=

b0

Y (giá trị ước lượng)

Y (giá trị thật)

eYY ====−−−− ˆ

Y

HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)

86

Phân tích phương sai trong hồi quy

∑ −= 2total YYSS )(

regressionresidualtotal

22total

2total

SSSSSS

YYYYSS

YYYYSS

+=

−+−=

−+−=

∑∑

∑)()(

)(^^

^^

HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)

87

Tỉ lệ phương sai giải thích ñược (hay mứcñộ ñại diện các quan sát của ñường hồiqui)

total

residualtotal2

SS

SSSSR

−=

HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)

88

H0: Không có tương quan tuyến tính giữa hai biến

1310179340.332 1 1310179340.332 4.527 .034a

136606316096.008 472 289420161.220

137916495436.340 473

Regression

Residual

Total

Model1

Sum of Squares df Mean Square F Sig.

ANOVAb

Predictors: (Constant), Previous experience (months)a.

Dependent Variable: Current salaryb.

HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)

89

H0: Không có tương quan tuyến tính giữa hai biến

Model Summary

.097a .009 .007 $17,012.353

Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predic tors : (Constant), Prev ious Experience (months)a.

HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)

90

H0: Không có tương quan tuyến tính giữa hai biến

Coefficientsa

35945.029 1060.488 33.895 .000

-15.913 7.479 -.097 -2.128 .034

(Constant)

Prev ious Experience(months)

Model1

B Std. Error

Uns tandardizedCoef f icients

Beta

StandardizedCoef f icients

t Sig.

Dependent Variable: Current Salarya.

16

HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)

� Hoài quy boäi (Multiregression)

Khi muoán tìm moái quan heä tuyeán tính cuûa moät bieán (dependent variable) theo nhieàu bieán (independent variables or predictors), ta phaûi tìm hieåu caùc phöông phaùp ñöa bieán vaøo moâ hình.

91

HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)

� Hoài quy boäi (Multiregression)Caùc phöông phaùp đöa bieán vaøo moâ hình:

Enter: Taát caû caùc bieán ñaõ choïn ñöôïc ñöa vaøo moâ hình cuøng moät luùcRemove: Taát caû caùc bieán ñaõ choïn ñöôïc ñöa ra khoûi moâ hình cuøng moät luùc

92

HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)

� Hoài quy boäi (Multiregression)Caùc phöông phaùp ñöa bieán vaøo moâ hình:

Forward: � Töøng bieán coù töông quan rieâng vôùi bieán phuï

thuoäc lôùn nhaát ñöôïc laàn löôït ñöa vaøo moâhình

Backward: � Ñöa taát caû caùc bieán ñaõ choïn vaøo moâ hình� Laàn löôït laáy ra töøng bieán coù töông quan

rieâng vôùi bieán phuï thuoäc nhoû nhaát

93

HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)

� Hoài quy boäi (Multiregression)Caùc phöông phaùp ñöa bieán vaøo moâ hình:

Stepwise: � ÔÛ moãi böôùc, bieán ñoäc laäp chöa ñöa vaøo moâ

hình coù P(F) nhoû nhaát seõ ñöôïc ñöa vaøo� Caùc bieán ñaõ coù trong moâ hình seõ ñöôïc ñöa

ra neáu P(F) cuûa chuùng taêng leân ñaùng keå� Quy trình keát thuùc khi khoâng coøn bieán naøo

coù theå ñöa vaøo hay ñöa ra

94

HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)

� Hồi quy bội (Multiregression)

� Làm thế nào ñể biết ñưa biến ñộc lập nào vào mô hình?

◦ Lý thuyết

◦ Mô hình tốt nhất là mô hình có giá trị R2 lớn nhất với số lượng biến số ñộc lập nhỏ nhất

95

HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)

� ChNn ñoán vấn ñề ña cộng tuyến

◦ Có quan hệ tuyến tính giữa các biến ñộc lập

◦ Tolerance là tỉ lệ phương sai của một biến ñộc lập không thể ñược giải thích bởi các biến ñộc lập khác

◦ Tolerance của một biến quá nhỏ là có hiện tượng cộng tuyến

◦ Giải quyết bằng cách chạy lại mô hình với cách chọn biến stepwise

96

17

MôMô hìnhhình tuytuyếếnn tínhtính ttổổngng quátquát(General Linear Model)(General Linear Model)

General Linear Model (GLM)General Linear Model (GLM)

� T-tests, ANOVA, tương quan, và hồi quy bội liên hệ với nhau như thế nào?

� Về mặt logic, T-tests và tương quan ñược giới thiệu trước, sau ñó là ANOVA và hồi quy bội

� Các quy trình này liên quan với nhau về mặt toán học, ñó là cách GLM mô tả các mối quan hệ

� Lý thuyết GLM cho rằng nhiều phép kiểm thống kê có thể ñược giải quyết bằng phân tích hồi quy, trong ñó có t-test và ANOVA

� GLM còn hữu dụng hơn vì có thể xử lý cảthang ño quãng và ñịnh danh trong mô hình

General Linear Model (GLM)General Linear Model (GLM) General Linear Model: General Linear Model: HHồồii quyquy bbộộii

Y = a +b1* X1 + b2*X2 + b3*X3 + … + e

Trong biểu thức này, điểm Y của một người là tổng hợp của nhiều ảnh hưởng:

1. Ảnh hưởng cố định giống nhau cho mọi cá nhân (a)2. Ảnh hưởng của các biến khác ghi điểm khác nhau

cho từng người (Xs)3. Các ảnh hưởng không đo lường được (e)

Ví dụ:Current Salary = 771 + 1.9 (Beginning Salary) ± e

General Linear Model: General Linear Model: TTươươngng quanquan haihai bibiếếnn vàvà HHồồii quyquy bbộộii

• Tương quan hai biến là trường hợp đơn giản của hồi quy tuyến tính đơn. Sai số e là phần phương sai của biến phụ thuộc không được giải thích bởi biến độc lập

• Pearson r là 1.0, 100% phương sai được giải thích• Pearson r là 0.6, 36% phương sai được giải thích,

còn lại 64% phương sai chưa giải thích được

General Linear Model: t General Linear Model: t vàvà F testsF tests

t-test là gì?

Khả năng của sựkhác biệt giữatrung bình của X1và X2, cho biếtphương sai của haimẫu?

18

General Linear Model: t General Linear Model: t vàvà F testsF testsF-test là gì?Khả năng của sự khác biệt giữa trung bình của hai biếnbất kỳ, cho biết phương sai của các mẫu?

General Linear Model: t General Linear Model: t vàvà F testsF tests

t-test là trường hợp đặc biệt của F-test khi chỉ có hai nhóm

General Linear Model: tGeneral Linear Model: t--test test vàvà rr

t-test giống hệ số tương quan ở điểm nào?t-test cho phép ta phán đoán liệu hai trung bình có

khác nhau không?Hệ số tương quan cho phép ta phán đoán liệu hai biến

có liên quan với nhau không?

0

5

10

15

20

25

30

35

0 5 10 15 20 25

Series1

General Linear Model: tGeneral Linear Model: t--test test vàvà rr

Thấy khác nhau nhưng thật ra t-test là trường hợp đặc biệt của phép kiểm hệ số tương quan

Biến 1: Đại lượng phụ thuộcBiến 2: Biến tách đối tượng thành 2 nhóm

General Linear Model: tGeneral Linear Model: t--test test vàvà rr

Giả thiết nghiên cứu của t: Các trung bình khác nhauGiả thiết nghiên cứu của r: r ≠ 0

Nếu r ≠ 0 thì các trung bình phải khác nhau

General Linear Model: General Linear Model: ANOVA ANOVA vàvà HHồồii quyquy bbộộii

• Nếu t là trường hợp đặc biệt của phép kiểm hệ số tương quan thì ANOVA cũng có thể là trường hợp đặc biệt của phép kiểm cho hồi quy bội

• Vì t-test là trường hợp đặc biệt của F-test khi số nhóm là hai, F cũng có thể kiểm hệ số tương quan khi chỉ có hai nhóm

19

So sánh các tính toán trong F và hồi quy:1. Cách tính SSRegression trong hồi quy và SSB

trong ANOVA2. Cách tính SSE trong hồi quy và SSW trong

ANOVA3. SST trong hồi quy và trong ANOVA

General Linear Model: General Linear Model: ANOVA ANOVA vàvà HHồồii quyquy bbộộii

4. Tỉ lệ phương sai giải thích được trong ANOVA và r2 trong hồi quy

5. Nếu r có ý nghĩa thì các nhóm tạo ra từ biến độc lập phải có trung bình khác nhau

6. Nếu có nhiều hơn hai nhóm thì phải tạo một số biến giả (dummy) để xây dựng mô hình hồi quy

General Linear Model: General Linear Model: ANOVA ANOVA vàvà HHồồii quyquy bbộộii

111

QuyQuy trìnhtrình ttạạoo bibiếếnn gigiảả

Mã hóa ban ñầucủa biến Class

Tạo các biến giả mới

lowerClass middleClass upperClass

1 = lower class 1 0 0

2 = working class 0 0 0

3 = middle class 0 1 0

4 = upper class 0 0 1

SW388R6Data Analysis and

Computers I

Slide 112

DùngDùng Recode trong SPSS Recode trong SPSS ññểể ttạạoocáccác bibiếếnn gigiảả

Chọn Recode > Into Different Variables từTransform menu.

CácCác bibiếếnn gigiảả chocho bibiếếnn classclass

Các ñối tượng trước ñây có mã là 2 trong biến Class bây giờ nhận giá trị 0 ở mọi biến dummy

Các ñối tượng trước ñây có mã là 3 trong biến Class giờ ñây nhận giá trị 1 trong biến middleClass và 0 ở các biến dummy khác

Các ñối tượng trước ñây có mã là 4 trong biến Class giờ ñây nhận giá trị 1 trong biến upperClass và 0 ởcác biến dummy khác

Các ñối tượng trước ñây có mã là 1 trong biến Class giờ ñây nhận giá trị 1 trong biến lowerClass và 0 ở các biến dummy khác

General linear models General linear models

Trước tiên, ñưa biến phụ thuộc vào hộp Dependent Variable

Thứ hai, ñưa biến giả vào hộp Fixed Factors. Các mã có thể có ñược trình bày trong cơ sở dữ liệu

Thứ ba, chọn nút Options ñểxác ñịnh kết quả bổsung

Random Factors là biến phân loại lấy các giá trị khác với các giá trịtrong bộ cơ sở dữliệu

Covariates là các biến có thang ño quãng

20

• Kết quả hồi quy biến phụ thuộc theo các biến giả ñồng nhất với kết quả phân tích phương sai với factor là biến Class

• Giá trị và mức ý nghĩa của F-test trong GLM ñồng nhất với các kết quả có ñược từ hồi quy và One-way ANOVA với post hoc tests

General Linear Model: General Linear Model: ANOVA ANOVA vàvà HHồồii quyquy bbộộii