如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 tel: 04-22053366-6107 e-mail:...

27
如如如如如如 如如如如如如 如如如 如如如 如如如 TEL: 04-22053366-6107 E-mail: [email protected]. edu.tw

Post on 21-Dec-2015

229 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

如何建立檔案中國醫藥大學 公衛系

梁文敏 副教授TEL: 04-22053366-6107

E-mail: [email protected]

Page 2: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

如何建立檔案

• 從資料庫的觀點 ***

資料分析第一階段建檔

• 從表格的觀點 資料分析最後階段呈現結果

Page 3: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

建檔方式 --- 範例• 三個人測量兩密閉室 ( 甲 , 乙 ) 的溫度

個案1 個案2 個案3

甲室 29度 30 度 31度乙室 0度 30度 60度

個案 甲 乙1 29 02 30 303 31 60

x

x

Page 4: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

如何建立檔案1. 確立變項

2. 對變項命名及變項命名原則

3. 以“欄 (Column)” 為單位,建立每一個變項

4. 以“列 (Row)” 為單位,建立每一筆資料 (Record)

5. 保持原始資料的單純性及可擴充性

Page 5: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

1. 確立變項• 每一個變項 (Variable) 代表一種訊息 (Informatio

n)

• 例如密閉室溫度範例中的訊息包括: 室別 ( 甲 , 乙 ) 、溫度 ( 攝氏 ) 、 個案代號 ( 可

表示該溫度是誰測量的 ) ,故共有三個變項

• 變項命名: ( 補充 : 變項命名原則 )

室別、溫度、 個案代號

Page 6: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

2. 對變項命名

• 中文命名

( 正確 : 室別、溫度、 個案代號 ) ( 錯誤 : 室別 -1 、 2 溫度、 @ 個案代號 )

• 英文命名

( 正確 : roomname 、 temp 、 subj_id) ( 錯誤 : 2room 、 temperature 、 subject-id)

Page 7: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

2. 對變項命名 -- 變項命名原則• 中文命名1. 第一個字母不為特殊字元或數字,如: #2 人口 _ 男

( 錯誤 )2. 名稱中不要放入特殊符號,如:人口 -male2( 錯誤 )3. 名稱不要超過 4 個中文字,如:人口數男生 _2( 錯誤 )** 正確名稱:人口 _ 男 2 或 人口 _m2 或 人口男 _2

• 英文命名1. 第一個字母不為特殊字元或數字,如: 2pop_m( 錯誤 )2. 名稱中不要放入特殊符號,如: pop&m-2( 錯誤 )3. 名稱不要超過 8 個英文字,如: popmale_2( 錯誤 )** 正確名稱: pop_m2 或 pop_m_2 或 popmale2

Page 8: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

3. 以“欄 (Column)” 為單位,建立每一個變項---- 在第一欄建立變項名稱

A B C1 個案代號 室別 溫度2 1 甲 293 2 甲 304 3 甲 315 1 乙 06 2 乙 307 3 乙 60

一個 EXCEL 檔可開多個工作表 將原始資料檔單獨放在一個工作表中

Page 9: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

4. 以“列 (Row)” 為單位,建立每一筆資料 (Record, Observation)----- 共 6 筆資料

按滑鼠右鍵

重新命名 將工作表重新命名為 : 原始資料

Page 10: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

5. 保持原始資料的單純性及可擴充性--- 單純性 : 若要處理 . 把資料依需要貼在其他工作表上

插入

工作表

重新命名

Page 11: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

5. 保持原始資料的單純性及可擴充性---- 可擴充性 : 4 個變項、 9 筆資料

A B C D

1 個案代號 室別 溫度 時段

2 1 甲 29 早上

3 2 甲 30 早上

4 3 甲 31 早上

5 1 乙 0 晚上

6 2 乙 30 早上

7 3 乙 60 中午

8 4 甲 30 中午

9 5 乙 20 中午

10 1 丙 10 晚上

原始資料增加為

4 個變項、 9 筆資料

Page 12: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

變數類型及分布

Page 13: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

變數 , 變項( Variable ) ( 相對於常數, Co

nstant) 及變數名稱 (Variable Name) •資料依不同的人,而有不同的數值或特性,故稱為變數,例如抽取 5個學生,有男有女,有高有矮,資料會隨著樣本不同而變化,故稱為變數;

•每種變數的代號稱為變數名稱 (Variable Name) 或變數,例如:性別、身高為變數名稱或變數。

Page 14: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

隨機變數 (Random Variable)

•搜集資料時,若決定抽取 n個樣本,則資料會隨著抽取樣本不同而不同,例如抽取坐在前排的 5個女生的身高,會與抽取坐在後排的 5個女生的身高不同。

•在做決定抽取何者為樣本時,若沒有預設立場,完全隨機會 (by chance) 決定,該資料稱為隨機變數。

Page 15: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

變數類型( Variable Type )•類別變數( Nominal variable ): 將資料分門別類,各類資料之間沒有程度或次序性的 b. 關係,且為彼此互斥的,屬定性的測量。

•例如 : 性別 (男、女 ),血型 (A, B, O, AB, other) ,抽煙與否 (抽煙、不抽煙 )。若該變數只分為兩類稱為二分法類別變數(Dichotomous Variable) 。

Page 16: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

變數類型( Variable Type )• 序位變數( Ordinal Variable ): 和類別尺度一樣,將資料分類且為彼此互斥的,但彼此之間有程度上的差異。

• 例如癌症病人病況分期 (I、 II 、 III 、 IV 期 ),抽煙程度狀況 (未抽煙、曾抽煙但已戒煙、少於1包 /每日、 1包以上 /每日 ),病人對醫生問診態度的滿意度 (非常滿意、滿意、普通、不滿意、非常不滿意 )。

• 各類之間不一定有倍數或距離的關係,是屬於半定量的測量,例如:癌症 IV期病人的病況並非癌症 II期病人的病況的兩倍。

Page 17: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

變數類型( Variable Type )• 等距變數 (Interval Variable) : 每個單位都是一樣大小,且測量值可以完全表現出程度的

大小,屬定量的測量。• 例如年齡,身高,體重,氣溫,每分鐘心跳的次數,每天

抽煙的支數。等距尺度不一定具有絕對的零點。其中有些零點是人為決定的。

• 例如氣溫,華氏與攝氏溫度的零點,是人為決定的,並沒有絕對的零點的存在。攝氏 30.7 度到 28.7 度的距離與攝氏 16.7 度到 14.7 度的距離相等,但我們不能描述攝氏 30度 (華氏 86度 )是攝氏 15度 (華氏 59度 )的兩倍,因為若以華氏則不到兩倍 (86/59=1.46) 。所以氣溫的尺度是一種等距尺度,但不是一種等比尺度。

Page 18: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

變數類型( Variable Type )• 等比變數 (Ratio Variable) : 若等距尺度中具有絕對的零點,稱為等比尺度。可以用來計算倍數或比率。

• 例如:年齡,身高,體重,每分鐘心跳的次數,每天抽煙的支數。我們可以描述新生兒體重 9磅(4082 公克, 1 磅 =453.592 公克 )是 6磅 (2722公克 )的 1.5 倍,若換算為公克測量則亦為 1.5倍 (4082/2722=1.5) 。所以體重的尺度是一種等距尺度,也是一種等比尺度。

Page 19: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

分佈概論 :•何謂分佈 (Distribution)?

在統計思維中,分佈係指針對某一我們感興趣的變數 (Variable) 。將其搜集到的值 (Observation) 以有系統的方式加以整理並呈現出來。•可以長條圖 (Bar Charts): categorical data

或直方圖 (Histograms): continuous data 表示

變數分佈 (Distribution)

Page 20: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

例 1 :不連續變數 ( 類別或序位 ) 的分佈: 2560 位 AIDS 病人中, Kaposis sacoma 疾病狀態的分佈情形 , 以 Bar Charts 表

示。

個案 Kaposis1 1

2 0

3 1

4 1

5 0

6 0

… …

… …

2560 1

個案 Kaposis

1 1

3 1

4 1

50 1

198 1

200 1

… …

… …

2550 0

相對次數

0.10

0.90

0.00

0.50

1.00

Yes No

Kaposis 次數 相對次數

Yes 246246/2560=0

.10

No 23142314/2560=

0.90

246

2314

0500

1000150020002500

Yes No

Kaposis Sarcoma

個數

相對次數 = 次數 / 總次數

排序

Page 21: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

例 2 :連續變數 ( 等距或等比 ) 的分佈:新生兒體重的分佈,將資料分組,以直方圖 (Histogram) 表示。

新生兒體重 次數

0-499 4843

500-999 17,487

1000-1499 23,139

1500-1999 49,112

2000-2499 160,919

2500-2999 597,738

3000-3499 1,376,008

3500-3999 1,106,634

4000-4499 344,390

4500-4999 62,769

5000-5500 8236

總計 3,751,275

0200000400000600000800000

1000000120000014000001600000

0-499

1000

-1499

2000

-2499

3000

-3499

4000

-4499

5000

-5500

出生嬰兒體重

嬰兒個數

0

10

20

30

40

出生嬰兒體重

(%)

相對次數

新生兒體重 相對次數 (%)

0-499 4843/3751275=0.1

500-999 17487/3751275=0.5

1000-1499 0.6

1500-1999 1.3

2000-2499 4.3

2500-2999 15.9

3000-3499 36.7

3500-3999 29.5

4000-4499 9.2

4500-4999 1.7

5000-5500 0.2

總計 100

相對次數 = 次數 / 總次數

Page 22: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

樣本平均數

• 【樣本平均數 (Sample Mean, Arithmetic Mean) 】

• 兩密閉室 ( 甲 , 乙 ) 的溫度的集中趨勢

平均數甲室 (29 +30 +31 )/3=30度 度 度 度乙室 (0 +30 +60 )/3=30度 度 度 度

兩 室平均數相同

xx

n

ii

n

1

個案 甲 乙1 29 02 30 303 31 60

Page 23: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

樣本變異數與樣本標準差

• 【樣本變異數 (Sample Variance) (s2) , 樣本標準差 (Sample Standard Deviation)

(s) 】

• 兩密閉室 ( 甲 , 乙 ) 的溫度的分散趨勢

變異數 標準差=變異數 0.5

甲室 [(29-30)2+(30-30) 2+(31-30) 2]/2=(1+0+1)/2=1 1

乙室 [(0-30)2+(30-30) 2+(60-30) 2]/2=(900+0+900)/2=900 30

兩室變異數不同 兩室標準差不同

1

)( 2

12

n

xxs

n

ii

1

)( 2

1

n

xxs

n

ii

個案 甲 乙1 29 02 30 303 31 60

Page 24: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

1

)( 2

12

n

xxs

n

ii

1

)( 2

1

n

xxs

n

ii

xx

n

ii

n

1

許多變項的分佈服從常態分佈常態分佈

圖形隨平均數及標準差不同而不同

AV值

70

60

50

40

30

20

10

0

= 1.52 標準差

= 10.07平均數

N = 500.00

AV值

80

60

40

20

0

= 3.82 標準差

= 20.0平均數

N = 500.00

平均數 =10

標準差 =1.5

平均數 =20

標準差 =4

Page 25: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

• 範例: AV 為臨床指標 • 若無腫瘤患者 AV 值的分佈為常態分佈 X~N(10,1.52)

理論上可得到有 68%的機率落在 (8.5,11.5) 中間 可得到有 95%的機率落在 (7,13) 中間 可得到有 99%的機率落在 (5.5,14.5) 中間

無腫瘤

-0.05

0

0.05

0.1

0.15

0.2

0.25

0.3

0 5 10 15 20 25 30 35

AV指標值

機率密度

無腫瘤68%

Page 26: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

若有 無腫瘤患者 AV 值的分佈為常態分佈 X~N(20,42)

• 任何常態資料若經標準化, 理論上可得到有 68%的機率落在 (16,24) 中間 可得到有 95%的機率落在 (12,28) 中間 可得到有 99%的機率落在 (8,32) 中間

有腫瘤

0

0.02

0.04

0.06

0.08

0.1

0.12

0 5 10 15 20 25 30 35

AV指標值

機率密度

有腫瘤68%

*** 由平均值及標準差可知兩族群人 AV 值的分佈 , 進而… .

Page 27: 如何建立檔案 中國醫藥大學 公衛系 梁文敏 副教授 TEL: 04-22053366-6107 E-mail: wmliang@mail.cmu.edu.tw

Thanks for your attention~