統計 (statistics)

25
Stat_cos 1 統統 (Statistics) “Statistics” 字字字字字字 statu s 字字字 字字字 字 (、) statista ( 字字字 ) 字字字字字字字字字字字“字字字” 字字字字 15 8 字字字字字字字字 字 1797 字字字字字字字字字字字字(384-322 B.C.)

Upload: nell-moran

Post on 03-Jan-2016

57 views

Category:

Documents


0 download

DESCRIPTION

統計 (Statistics). “Statistics” 一字源自拉丁字 status (城邦、國家)或 statista ( 政治家 ) 。 最早係亞里斯多德出版之“政治學”一書中描述 158 城邦各項數字比較。 在 1797 年大英百科全書才出現此字。. (384-322 B.C.). 統計與統計學. 統計是認識我們周遭環境與世界的鑰匙 統計是“分門別類”“數東數西” 統計原來是以數字描述現象的工作 近代統計學發展始於 十九世紀末 統計學的興起是緣於現實生活中充滿許多的不確定性或變異. 統計改變了世界. 十九世紀之前,科學是物理、化學、數學的世界 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 統計 (Statistics)

Stat_cos1

統計 (Statistics)

“Statistics”一字源自拉丁字 status (城邦、國家)或 statista ( 政治家 )。

最早係亞里斯多德出版之“政治學”一書中描述 158 城邦各項數字比較。

在 1797 年大英百科全書才出現此字。

(384-322 B.C.)

Page 2: 統計 (Statistics)

Stat_cos2

統計與統計學

統計是認識我們周遭環境與世界的鑰匙 統計是“分門別類”“數東數西” 統計原來是以數字描述現象的工作 近代統計學發展始於十九世紀末 統計學的興起是緣於現實生活中充滿許

多的不確定性或變異

Page 3: 統計 (Statistics)

Stat_cos3

統計改變了世界

十九世紀之前,科學是物理、化學、數學的世界十九世紀的科學家發現理論的預測與實際測得的結果並不完全吻合,將之歸於誤差函數。當時科學家都認為,隨著量測愈來愈精確,最後一定不再需要這項誤差函數,到了十九世紀末,誤差不但沒有消失,反而一直增加。因此,在實務研究上,需要統計模式替代數學模式。目前,幾乎所有的科學都已經轉而運用統計模型。

Page 4: 統計 (Statistics)

Stat_cos4

關於統計學

統計是依據數字描述或分析現象 以數字描述現象稱為敘述統計 以樣本估計或檢測母體現象稱為推論統計 建立統計模式解釋因果關係,或預測未來結果是統計建

模 統計報導非常普遍。有關民生問題、民調、醫學、科技 統計的學習重在建立正確統計觀念,合理的推論能力 數學不好仍然可以學好統計 統計和數字有關,可用統計軟體執行計算

Page 5: 統計 (Statistics)

Stat_cos5

常見的統計報導

去年一般流感病患總共約有十三萬例,而今年截至目前為止,就出現了十六萬三千個病例,不僅比同期增加兩成五,死亡人數也比去年高。

國內有 160萬人對自己的性別不滿意,約 40萬人口有希望變成異性的想法,女性想變性比率佔全部受訪女性的 3.7%,男性想變性比率佔全部受訪男性的1.4 %

Page 6: 統計 (Statistics)

Stat_cos6

例:台灣受僱者疲勞的分布狀況與相關因素

資料:源自 2004年全國受僱員工調查 共計男性 8906 人,女性 6382 人。 如何測量疲勞? 疲勞是一現象,是相當主觀的,但必需將現象量化,

用同一標準測量才能執行研究。 本研究以「哥本哈根疲勞量表」做為測量的工具 包括「一般疲勞」與「工作相關疲勞」 測量因素包括工作時數、工作負荷、工作控制感、

教育程度、職業等級、家庭照顧負荷等。

Page 7: 統計 (Statistics)

Stat_cos7

① 你常覺得疲勞② 常覺得體力上體力透支③ 常覺得情緒上心力交瘁④ 常覺得快撐不下去⑤ 常覺得精疲力竭⑥ 常覺得虛弱、快生病了

哥本哈根疲勞量表

以 每天、經常、偶而、不常、從不 等五項為選項 ( 依據李克量表 )

Page 8: 統計 (Statistics)

Stat_cos8

結果:

12.7% 的男性與 9.1% 的女性在調查前一週中工作 49小時或以上。

在所有年齡層與職等中,女性受僱者的疲勞指數皆顯著高於男性。

當依性別分析,我們發現在女性受僱者中,高職等、高教育程度者的疲勞指數高於低職等、低教育程度者。然而在男性受僱者中,疲勞指數並沒有清楚的社會階層分布。

疲勞的高危險族群:每週工時 49小時或以上者、工作心理負荷量較高者、以及家中有六歲以下幼兒或失能老人者。

Page 9: 統計 (Statistics)

Stat_cos9

統計學的應用 對 1000 位民眾的訪問結果,有 400 位支持甲,有 410位支持乙,請問乙是否一定當選。 有人宣稱有百分之七十以上的某型飛機的尾舵上,出現因金屬疲勞而造成的裂縫。倘若在隨機選取的 18架該型飛機上,有 15架的確出現因金屬疲勞而造成的裂縫,請檢定上述的說法。金屬疲勞而造成的裂縫 可換成醫師對薪資的不滿,或汽車排放廢氣超過標準值。 了解國內受僱工作者疲勞狀況及相關因素。

Page 10: 統計 (Statistics)

Stat_cos10

類別資料 (Nominal data) ,如:婚姻狀況、有無患病 (二元變數 )、血型,注意:此類變數的均值是無意義的。

為了便利性,類別資料通常都會進行編碼,不同的 類別給予不同的數字編號,藉此將類別資料轉換成數值資料。

有序資料 (Ordinal data) ,如:傷害程度、治療組別,注意:此類變數要先詳加定義,各值間的差異不一定是等距的,使用其均值時需小心。

2.1 數值資料的種類

Page 11: 統計 (Statistics)

Stat_cos11

等級化資料 (Ranked data) ,如:死亡原因排名

離散型資料 (Discrete data) ,如:發生次數、個數

連續型資料 (Continuous data) ,如:重量、血壓等測量值

2.1 數值資料的種類

Page 12: 統計 (Statistics)

Stat_cos12

注意:1 、不同的測值會產生不同的結論,應針對研究的目的

來選擇合適的測值。2、在應用統計學方法的時候,必須要先明辨資料本身

在性質上的限制,不能永遠用同一套;也就是說,必須根據資料的屬性,選擇適當的統計分析方法。

不同型資料使用的統計方法不同

Page 13: 統計 (Statistics)

Stat_cos13

2.2 資料整理 – 表 (Tables)

列表之目的在呈現資料分布 次數分布表 (Frequency Distributions) 參考 表 2.4 肉瘤人數 表 2.5 每人每年紙菸消費量 表 2.6 膽固醇值分布表

Page 14: 統計 (Statistics)

Stat_cos14

建立次數表 (frequency table)

1. 次數 Frequency

2. 相對次數 (Ralative frequency)

3. 累積次數 (Cumulative frequency)

4. 相對累積次數 (Relative cumulative frequency) 。

Page 15: 統計 (Statistics)

Stat_cos15

Frequency Table for trout length

膽固醇值 代表值Frequen

cy

Relative Frequen

cy

Cumulative

frequency r.c.f.80 – 119 100 13 1.2 1.2

120 - 159 140 150 14.1 15.3

160 - 199 180 442 41.4 56.7

200 - 239 220 299 28.0 84.7

240 – 279 260 115 10.8 95.5

280 – 319 300 34 3.2 98.7

320 - 359 340 9 0.8 99.5

360 - 399 380 5 0.5 100.0

25~34 美國男性膽固醇值分布表

Page 16: 統計 (Statistics)

Stat_cos16

2.3 資料分配圖

用於呈現連續型資料分布之圖形 Histogram 直方圖 Frequency polygon 次數多邊圖 累積次數多邊圖 (肩形圖 ) 盒形圖

Page 17: 統計 (Statistics)

Stat_cos17

直方圖代表資料的分布型態

鳟魚身長之直方圖

0

5

10

15

20

25

17.55 18.75 19.95 21.15 22.35 23.55 其他

長度

頻率

percentage

0.0000.0500.1000.1500.2000.2500.3000.3500.400

0 20 40 60 80 100 120 140

次數 ( 比例 ) 多邊圖

Page 18: 統計 (Statistics)

Stat_cos18

你是否能由以下的肩形圖估計出第 30 及第 80 百分位數?

%累積

0

0.2

0.4

0.6

0.8

1

1.2

0 20 40 60 80 100 120 140

第 30 百分位數約為 ,第 80 百分位數約為 。

Page 19: 統計 (Statistics)

Stat_cos19

盒形圖

Q1, Q3: 第一、三個四分位數 中位數、四分位數,以及最大值與最小值,可以畫

成盒形圖 (box plot) ,或盒鬚圖 (box-and-whisker plot) 。

最小值 Q1 中位數 Q3 最大值

Page 20: 統計 (Statistics)

Stat_cos20

1. 最小值 35 ,最大值 81 。2. 先劃一橫線,在上面標出合適的坐標3. 求出中位數,以及 Q1 , Q3 。

4. 在橫線上標出最小值、, Q1 、中位數、Q3 、以及最大值的位置。

5. 畫盒子及鬚。

製作盒形圖

Page 21: 統計 (Statistics)

Stat_cos21

※統計圖 : Bar chart, Pie chart

長條圖 Bar Chart

• 比較各項目之頻率。• 注意坐標數字,以做出客觀的比較

圓餅圖 Pie Chart

• 表現出每一類所佔的比例,以做比較。

質性變數描述

Page 22: 統計 (Statistics)

Stat_cos22

長條圖 (bar chart)

各球類觀眾年齡層分析

0

20

40

60

80

100

120

140

160

棒球 網球 籃球

20-

20-29

30-39

40-49

50+

各年齡層球類節目喜好的分析

0

20

40

60

80

100

120

140

160

20- 20-29 30-39 40-49 50+

棒球

網球

籃球

針對二分類變數作長條圖,可表現此二變數的相關性,選擇不同的主要分類項,表現的意義不同

Page 23: 統計 (Statistics)

Stat_cos23

1970年全球人口分佈

非洲

拉丁美洲

亞洲

大洋洲

北美洲

歐洲

2000年全球人口分佈

非洲

拉丁美洲

亞洲

大洋洲

北美洲

歐洲

圓餅圖 (pie chart)

北美洲與大洋洲的人口分佈是增加的,亞洲與拉丁美洲的人口分佈是減少的。

Page 24: 統計 (Statistics)

Stat_cos24

圖形刻度會影響資料呈現的意義

由 19.5 百萬上升至 20百萬,只上升了 4%,左圖的誤導似乎是上升了 400%

Page 25: 統計 (Statistics)

Stat_cos25

不確實的刻度

左圖誤導為每一季增加一倍,事實上是緩慢上升