統計軟體工作坊 輕鬆學會統計軟體 r

38
統統統 統統統 統統統統統統統R 2013/05/16

Upload: aquila-erickson

Post on 01-Jan-2016

70 views

Category:

Documents


11 download

DESCRIPTION

統計軟體工作坊 輕鬆學會統計軟體 R. 2013/05/16. R 簡介. 可進行資料處理、統計分析、科學計算與圖形繪製 適用各種作業系統: Windows, Unix, Linix , MacOS 開放原始碼的自由軟體( open source ) 免費: 可由 the Comprehensive R Archive Network (CRAN) 下載 藉由套件( package )可不斷增加其功能 可與其他程式( C, Matlab , WinBugs ,… )連結使用 超過 27 個國家, 66 個連結點. R 的歷史. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 統計軟體工作坊 輕鬆學會統計軟體 R

統計軟體工作坊輕鬆學會統計軟體 R

2013/05/16

Page 2: 統計軟體工作坊 輕鬆學會統計軟體 R

R 簡介 可進行資料處理、統計分析、科學計算與圖形繪製 適用各種作業系統: Windows, Unix, Linix,

MacOS 開放原始碼的自由軟體( open source ) 免費:可由 the Comprehensive R Archive

Network (CRAN) 下載 藉由套件( package )可不斷增加其功能 可與其他程式( C, Matlab, WinBugs,… )連結使

用 超過 27 個國家, 66 個連結點

Page 3: 統計軟體工作坊 輕鬆學會統計軟體 R

R 的歷史

3

John Chambers (2006) “A History of S and R”

S1 1976–1980

Honeywell GCOS,FORTRAN-based

S2 1980–1988

1981–1986

1984–

Unix: macros, interface languageQPE (Quantitative programmingenvironment)general outside licensing, books

S3 1988–1993

C-based, S functions & objects

S4 Programming with data

R 1993 First binary copies of R on Statlib

2000 R 1.0.0 releasedKurt Hornik (2008) “The Past, Present, and Future of the R Project”

Page 4: 統計軟體工作坊 輕鬆學會統計軟體 R

下載 R 軟體 Go to this web page

http://www.r-project.org/

Page 5: 統計軟體工作坊 輕鬆學會統計軟體 R

下載 R 軟體5

點選 CRAN ,接著選擇下載點

Page 6: 統計軟體工作坊 輕鬆學會統計軟體 R

下載 R 軟體 根據作業系統選擇下載的版本

選擇“ base”

Page 7: 統計軟體工作坊 輕鬆學會統計軟體 R

下載 R 軟體 下載並安裝

安裝之後在桌面會出現捷徑

Page 8: 統計軟體工作坊 輕鬆學會統計軟體 R

R 視窗說明

R Console 主要視窗

Toolbar

載入工作頁面 停止運算複製及貼上

Page 9: 統計軟體工作坊 輕鬆學會統計軟體 R

定義新物件 定義一個新的變數叫 temp ,並且指定其值為 24

紅字是輸入,藍字是輸出 大小寫代表不同物件 箭頭 (<-) 可用“ =” 代替 物件名稱必須為字母開頭,其餘位置可以是數字或點 c, q, t, C, D, F, I, T; diff, df, pt, pi, … 不可以是物件

名稱

9

Page 10: 統計軟體工作坊 輕鬆學會統計軟體 R

R as a calculator

可以直接輸入數值計算 若物件屬性與維度相同,

可以進行四則運算 常用的數學函數,如 log,

exp, sin,.. 可直接計算 若不能計算,會回傳 NaN

(not a number)

Page 11: 統計軟體工作坊 輕鬆學會統計軟體 R

輸入向量11

c(…)可以是數值

可以是字串

還可以把每一個元素取名字

Page 12: 統計軟體工作坊 輕鬆學會統計軟體 R

Practice

Weight: 50, 62, 47, 48, 72, 81, 45, 58, 65, 55

Height: 1.58, 1.77, 1.43, 1.52, 1.84, 1.72, 1.45, 1.62, 1.70, 1.55

請計算每個人的 BMI 及平均 BMI

12

Page 13: 統計軟體工作坊 輕鬆學會統計軟體 R

查詢、移除已定義物件 ls()

rm(“A”)

rm(list=ls())

13

Page 14: 統計軟體工作坊 輕鬆學會統計軟體 R

利用 R 的記事本寫指令 開啟記事本

儲存記事本

14

Page 15: 統計軟體工作坊 輕鬆學會統計軟體 R

更改工作目錄 改變檔案及資料的存放位置

15

Page 16: 統計軟體工作坊 輕鬆學會統計軟體 R

下載 R 套件

練習:請下載 R Commander 套件 “ Rcmdr”

Page 17: 統計軟體工作坊 輕鬆學會統計軟體 R

載入 R 套件 可在 R Console 視窗中輸入

library(“Rcmdr”) 或者由選單中點選

Page 18: 統計軟體工作坊 輕鬆學會統計軟體 R

學生生活型態調查 班級 ( class): (1) 統資系 (2) 財數系 (3) 其他 性別 (sex): (1) 女生 (2) 男生 身高 (high) 體重 (weight) 血型 (blood) : (1)A (2)B (3)O (4) AB 住宿地 (location): (1) 宿舍 (2) 學校附近 (3) 東海別墅附

近 (4) 家裡 (5) 其他 住宿費用 (rent):(1) 3000 以下 (2) 3000~4000

(3)4000~5000 (4)5000~6000 (5)6000~ (6) 其他 上學方式 (way): (1) 走路 (2) 騎機車 (3) 搭校車 (4) 搭

公車 (5) 其他

Page 19: 統計軟體工作坊 輕鬆學會統計軟體 R

資料輸入 輸入新資料

按一下 var1 ,會出現變數編輯器,輸入變數名稱後,再按 Enter 即可。

輸入資料後關閉視窗即可

Page 20: 統計軟體工作坊 輕鬆學會統計軟體 R

資料輸入 匯入資料

Page 21: 統計軟體工作坊 輕鬆學會統計軟體 R

練習 請讀入 EXCEL 檔案“ class-demo” ,並將其

命名為 data2 請更改 data2 中,變數 class 、 sex 為

character

Page 22: 統計軟體工作坊 輕鬆學會統計軟體 R

資料型態 類別資料

可以用數字代表類別,但數字本身沒有意義 男生= 1 ,女生= 0

序位資料 類別的大小次序有意義,但順序

的運算無意義 原位癌= 0 ,癌症第一期= 1 ,癌症第二期= 2 ,第三期= 3 ,第四期=4

等級化資料 根據不同類別的觀察值排序,給予類別不同的名次 象、牛、熊、獅

離散型資料 數值為真正測量值而非

代號 每學期進圖書館次數

連續型資料 數值為真正觀測值,測

量值不限定為整數 每星期唸書的時間

22

Page 23: 統計軟體工作坊 輕鬆學會統計軟體 R

資料的整理 初步的組織、歸納觀察到的資料 統計表:製表是整理資料最簡單且最常用的方法 次數分配表 (frequency table) 、相對次數分配表

(relative frequency table) 、累積相對次數分配表 (cumulative relative frequency table)

統計圖 長條圖 (bar chart) 、直方圖 (histogram) 、次數多邊圖 (frequency polygon) 、散佈圖 (scatter plot) 、盒形圖 (box plot) 、線圖 (line graph)

23

Page 24: 統計軟體工作坊 輕鬆學會統計軟體 R

統計表 次數分配表:記錄每個組

別中觀察到的個體數 相對次數分配表:記錄每

一組別人數 /總觀察人數

NOTE :一個個體只會分屬於一個類別

1. 處理離散型或連續型資料為次數分配表時,需將資料區分為一系列沒有重疊且明確的組別。

2. 分組之前要先定組限與組距,每組組距不一定要相同。

Page 25: 統計軟體工作坊 輕鬆學會統計軟體 R

統計表 累積相對次數分配表:低於或等於該組上限的

人數 /總人數

25

Page 26: 統計軟體工作坊 輕鬆學會統計軟體 R

統計表

Page 27: 統計軟體工作坊 輕鬆學會統計軟體 R

長條圖( Bar charts ) 常用來表示類別或序位資料

高度代表組別分佈的次數或相對次數

27

Page 28: 統計軟體工作坊 輕鬆學會統計軟體 R

直方圖( Histogram ) 用來描述離散或連續型的資料分佈 可以觀察資料的分佈狀況與集中趨勢

高度代表組別分佈的次數或相對次數,寬度代表組距

資料是否對稱?左偏?右偏?

28

Page 29: 統計軟體工作坊 輕鬆學會統計軟體 R

散佈圖( scatter plot )29

描述兩個不同的連續資料的關係

肺活量與 FEV 的關係?

Page 30: 統計軟體工作坊 輕鬆學會統計軟體 R

盒型圖( box plot ) 利用樣本產生之統計量(最小值 minimum 、第

一四分位數 first quartile 、中位數 median 、第三四分位數 third quartile 、最大值maximum )來描繪資料的分佈。 第一四分位數( 25%分位數):數值高於或等於全部觀察值的 25% ,低於或等於全部觀察值的 75%

中位數( 50%分位數):位於資料 50%的數值 第三四分位數( 75%分位數):數值高於或等於全部觀察值的 25% ,低於或等於全部觀察值的 75%

30

Page 31: 統計軟體工作坊 輕鬆學會統計軟體 R

四分位數( Quartiles ) 25th 百分位數 ( 之前的資料個數大約有 25%

的資料總個數 & 之後個數 75%): 例: 100/4=25 (第 25 名 +第 26 名 )/2;第 25 名 例: 50/4=12.5 (第 12 名 +第 13 名 )/2; 例: 67/4=16.75 (第 16 名 +第 17 名 )/2;

50th 百分位數 (前後各約二分之一的個數 ): 例: 100/2=50 (第 50 名 +第 51 名 )/2;第 50 名 例: 50/2=25 (第 25 名 +第 26 名 )/2;第 25 名 例: 67/2=33.5 (第 33 名 +第 34 名 )/2; 例: 40/2=20 (第 20 名 +第 21 名 )/2;第 20 名

31

Page 32: 統計軟體工作坊 輕鬆學會統計軟體 R

四分位數( Quartiles ) 75th 百分位數 (前約四分之三、後約四分之一

的個數 ): 例: 100/4*3=75 (第 75 名 +第 76 名 )/2;第

75 名 例: 50/4*3=37.5 (第 37 名 +第 38 名 )/2; 例: 67/4*3=50.25 (第 50 名 +第 51 名 )/2; 例: 40/4*3=30 (第 30 名 +第 31 名 )/2;第

30 名

四分位距( Inter-quartile range, IQR ):第三四分位數減第一四分位數

32

Page 33: 統計軟體工作坊 輕鬆學會統計軟體 R

X X *o

MedianQ1 Q3InnerFence

InnerFence

OuterFence

OuterFence

Interquartile Range

Smallest data point not below inner fence

Largest data point not exceeding inner fence

Suspected outlierOutlier

Q1-3(IQR)Q1-1.5(IQR) Q3+1.5(IQR)

Q3+3(IQR)

Elements of a Box PlotElements of a Box Plot

Box Plot33

Page 34: 統計軟體工作坊 輕鬆學會統計軟體 R

統計圖

這裡可以選要畫的

圖形

Page 35: 統計軟體工作坊 輕鬆學會統計軟體 R

練習 請計算 data2 中居住地區之次數分配表

請 data2 中畫出身高與體重之散布圖

Page 36: 統計軟體工作坊 輕鬆學會統計軟體 R

資料摘要( data summary ) 利用數字描述資料作量的描述

測量資料的集中趨勢 (measure of central tendency) 平均值 (mean) 、中位數 (median) 、眾數

(mode)

測量資料的變異情況 (measure of dispersion) 全距 (range) 、四分位距 (IQR) 、變異數

(variance)和標準差 (standard deviation)

36

Page 37: 統計軟體工作坊 輕鬆學會統計軟體 R

資料摘要( data summary )

Page 38: 統計軟體工作坊 輕鬆學會統計軟體 R

練習 請計算 data2 中體重之平均數、標準差、中位

數、第一四分位數及第三四分位數