gs, ts lÊ hoÀng ninh

31
Gs, TS LÊ HOÀNG NINH Thống kê mô tả ăn Bản về sinh thống kê

Upload: diem

Post on 05-Jan-2016

73 views

Category:

Documents


2 download

DESCRIPTION

Căn Bản về sinh thống kê. Thống kê mô tả. Gs, TS LÊ HOÀNG NINH. Nội dung cần phân biệt. Distinguish between different strategies for obtaining a sample from a population Understand the measures of central tendency and variability in your data. 2. Thống kê mô tả và suy lý. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Gs, TS LÊ HOÀNG NINH

Gs, TS LÊ HOÀNG NINH

Thống kê mô tả

Căn Bản về sinh thống kê

Page 2: Gs, TS LÊ HOÀNG NINH

Nội dung cần phân biệt

• Distinguish between different strategies for obtaining a sample from a population

• Understand the measures of central tendency and variability in your data

2

Page 3: Gs, TS LÊ HOÀNG NINH

Thống kê mô tả và suy lý Thống kê mô tả: dùng các con số để tổ chức, biểu thị một bộ dữ liệu từ một mẫu.

Thống kê suy lý: có một kết luận từ thông tin chưa hoàn chi3ng, nghĩa là tổng quát hóa kết quả từ một mẫu lên quần thể.

Inferential statistics use available information in a sample to draw inferences about the population from which the sample was selected

Page 4: Gs, TS LÊ HOÀNG NINH

Quần thể lý thuyết

Sample 1:

Sample 2:

Sample 3:

Representative? Y N

Representative? Y N

Representative? Y N

4

Page 5: Gs, TS LÊ HOÀNG NINH

Cách lấy mẫu

• Convenience Sampling: select the most accessible and available subjects in target population. Inexpensive, less time consuming, but sample is nearly always non-representative of target population.

• Random Sampling (Simple): select subjects at random from the target population. Need to identify all in target population first. Provides representative sample frequently.

5

Page 6: Gs, TS LÊ HOÀNG NINH

Cách lấy mẫu

• Systematic Sampling: Identify all in target population, and select every xth person as a subject.

• Stratified Sampling: Identify important sub-groups in your target population. Sample from these groups randomly or by convenience. Ensures that important sub-groups are included in sample. May not be representative.

• More complex sampling 6

Page 7: Gs, TS LÊ HOÀNG NINH

Sai lầm do lấy mẫu

• Có sự khác biệt giữa trị số trên mẫu ( số thống kê) và trị số thật trên quần thể ( tham số)

• Xảy ra ở mọi nghiên cứu.

• Sampling error approximates 1 / √n

• Note that larger sample sizes also require time and expense to obtain, and that large sample sizes do not eliminate sampling error

7

Page 8: Gs, TS LÊ HOÀNG NINH

Research Process

Research question

Hypothesis

Identify research design

Data collection

Presentation of data

Data analysis

Interpretation of data

8

Page 9: Gs, TS LÊ HOÀNG NINH

Types of Data Collection

• Surveys/Questionnaires– Self-report

– Interviewer-administered

– proxy

• Direct medical examination

• Direct measurement (e.g. blood draws)

• Administrative records

9

Page 10: Gs, TS LÊ HOÀNG NINH

Understanding and Presenting Data

10

Page 11: Gs, TS LÊ HOÀNG NINH

Loại dữ liệu

1. Categorical: (e.g., Sex, Marital Status, income category)

2. Continuous: (e.g., Age, income, weight, height, time to achieve an outcome)

3. Discrete: (e.g.,Number of Children in a family)

4. Binary or Dichotomous: (e.g., response to all Yes or No type of questions)

11

Page 12: Gs, TS LÊ HOÀNG NINH

Thang đo dữ liệu1. Nominal: These data do not represent an amount or

quantity (e.g., Marital Status, Sex)

2. Ordinal: These data represent an ordered series of relationship (e.g., level of education)

3. Interval: These data is measured on an interval scale having equal units but an arbitrary zero point. (e.g.: Temperature in Fahrenheit)

4. Interval Ratio: Variable such as weight for which we can compare meaningfully one weight versus another (say, 100 Kg is twice 50 Kg) 12

Page 13: Gs, TS LÊ HOÀNG NINH

Sắp xếp, trình bày dữ liệu

• Bảng tần số • Đồ thị tần số Frequency Histogram • DT tần số tương đối (Relative Frequency

Histogram)• Đa giác tần số Frequency polygon• ĐGTS tương đối (Relative Frequency

polygon)• Bar chart ( biểu đồ thanh)• Pie chart ( biểu đồ bánh)• Box plot ( biểu đồ hình hộp)

13

Page 14: Gs, TS LÊ HOÀNG NINH

Bảng tần số

• Là bước đầu giúp xem xét bộ dữ liệu.

• Giúp nhận ra sự phân phối trị số các biến số

• Giúp nhận ra các ngoại lệ – Xem xét các ngoại lệ nầy có thể do nhập dữ

liệu có sai sót không

– Điều tra khác xem việc nhập dữ liệu có sai sót không

14

Page 15: Gs, TS LÊ HOÀNG NINH

Bảng tần số

Một n.cứu khảo sát số trẻ em trong gia đình sống tại khu phố A. kết quả điều tra 30 gia đình trong khu phố A cho kết quả như sau:

2, 2, 5, 3, 0, 1, 3, 2, 3, 4, 1, 3, 4, 5, 7, 3, 2, 4, 1, 0, 5, 8, 6, 5, 4 , 2, 4, 4, 7, 6

Trình bày bộ dữ liệu nầy bằng bảng tần số?

15

Page 16: Gs, TS LÊ HOÀNG NINH

Số trẻ em tại gia đình

Tần số

(Frequency)

Tần số tương đối (Relative

Freq)

0 2 2/30=0.067

1 3 3/30=0.100

2 5 5/30=0.167

3 5 5/30=0.167

4 6 6/30=0.200

5 4 4/30=0.133

6 2 2/30=0.067

7 2 2/30=0.067

8 1 1/30=0.03316

Page 17: Gs, TS LÊ HOÀNG NINH

Bảng tần số

Bây giờ, các bạn trình bày bảng phân phối tần số trong một nghiên cứu về tuổi của bệnh nhân bị bệnh tim mạch nhập viện tại khoa tim mạch của một bệnh viện trong thành phố.

Dữ liệu sau đây được thu thập trên một mẫu ngẫu nhiên 30 bệnh nhân tại phòng khám tim mạch của bệnh viện trên.

42, 38, 51, 53, 40, 68, 62, 36, 32, 45, 51, 67, 53, 59, 47, 63, 52, 64, 61, 43, 56, 58, 66, 54, 56, 52, 40, 55, 72, 69. 17

Page 18: Gs, TS LÊ HOÀNG NINH

Nhóm tuổi Tần số Tần số tương đối

32 -36 yr 2 2/30=0.067

37- 41 yr 3 3/30=0.100

42-46 yr 4 4/30=0.134

47-51 yr 3 3/30=0.100

52-56 yr 8 8/30=0.267

57-61 yr 3 3/30=0.100

62-66 yr 4 4/30=0.134

67-72 yr 3 3/30=0.100

Tổng n=3018

Page 19: Gs, TS LÊ HOÀNG NINH

Đa giác tần số

• Giúp nhận ra sự phân phối của bộ dữ liệu

0

1

2

3

4

5

6

7

8

9

20- 30- 40- 50- 60-69

Age in years

Fre

qu

ency

Female

Male

19

Page 20: Gs, TS LÊ HOÀNG NINH

Bảng 1 trên bài báo y họcMô tả dân số nghiên cứu bằng bảng tần số

Tên bảng….

Tên biến sốTên biến số

(đơn vị của biến số) (đơn vị của biến số) Tần sốTần số

(n)(n)%%

Số trung Số trung bình (SD)bình (SD)

- -

- Loại- Loại

- -

Tổng Tổng

20

Page 21: Gs, TS LÊ HOÀNG NINH

Các số đo khuynh hướng trung tâm

Các số đo?

1. Trung bình(Mean) 2. Trung vị (Median)

3. (Mode)

21

Page 22: Gs, TS LÊ HOÀNG NINH

Trung bình mẫuTrung bình số học bằng tổng tất cả các trị số đo được trên mẫu chia cho số khảo sát được.

Thí dụ thu nhập hàng tháng của 5 hộ gia đình ( d.vi: ngàn đồng) như sau, 6000, 10,000, 10,000, 14000, 50,000. do vậy số trung bình là: 18 triệu.

X =

6000 + 10000 + 10000 + 14000 + 50000

5 = 18000

22

Page 23: Gs, TS LÊ HOÀNG NINH

Trung vị (Median)

Liệt kê bộ dữ liệu từ trị số thấp nhất cho tới trị số cao nhất.số trung vị là trị số đứng giữa dãy trị số của bộ dữ liệu.

Thí dụ thu nhập tại 5 hộ gia đình được liệt kê như sau ( đơn vị ngàn đồng): 6,000 10,000 10,000 14,000 50,000 Trị số trung vị là 10.000.000 ( 10 triệu )

23

Page 24: Gs, TS LÊ HOÀNG NINH

Mode

• Là trị số có tần số cao nhất

• Có thể có nhiều hơn 1 mode trong một bộ dữ liệu

24

Page 25: Gs, TS LÊ HOÀNG NINH

Số đo vị trí không trung tâm Measures of non-central locations

•Tứ phân vị•Bách phân vị

25

Page 26: Gs, TS LÊ HOÀNG NINH

Các số đo sự phân tán của bộ dữ liệuMeasures of Dispersion or Variability

• Biên độ Range (trị số cao nhất và thấp nhất của bộ dữ liệu. Sự sai biệt giữa 2 trị số nầy là biên độ)

• Phương sai (Variance) ( bình phương của độ lệch chuẩn)

• Độ lệch chuẩn (Standard deviation) (the square root of the variance) 26

Page 27: Gs, TS LÊ HOÀNG NINH

Phương sai của mẫu

2 i=1

n

i2

s = (x - x )

n -1

S = độ lệch chuẩn ( SD) (square root of variance)

27

Page 28: Gs, TS LÊ HOÀNG NINH

Thí dụ tính phương sai và độ lệch chuẩn trong thí dụ về thu nhập hộ

gia đình

2 2 2 22 (6000 -18000 +(10000 -18000 +(10000 -18000 +(14000 -18000)+(50000 -18000) ) ) ) = =S

5 -1

2 = 328,000,000SS 18110.77

28

Page 29: Gs, TS LÊ HOÀNG NINH

Số trung bình và độ lệch chuẩn (SD)

7 7

7 7 7

7

7 8

7 7 7

6 3 2

7 8 13

9 Mean = 7

SD=0

Mean = 7SD=0.63

Mean = 7SD=4.04

29

Page 30: Gs, TS LÊ HOÀNG NINH

Qui luật

Trong phân phối bình thường thì : a) 68% các trị số nằm trong phạm vi 1 độ lệch

chuẩn, chung quanh trị số trung bình

b) 95% các trị số năm trong phạm vi 2 độ lệch chuẩn, chung quanh trị số trung bình

c) 99.7% các trị số nằm trong phạm vi 3 độ lệch chuẩn chung quanh trị số trung bình

30

Page 31: Gs, TS LÊ HOÀNG NINH

Giả định thời gian phản ứng đối với một loại thuốc nào đó có phân phối bình thường, có trị số trung bình là 10 phút với độ

lệch chuẩn là 2 phút. Các bạn hãy giải thích ý nghĩa của số

trung bình và độ lệch chuẩn trong thí dụ nầy.

a) 68% …

b) 95% ….

c) 99.7% …

31