第八章 分類與預測 8.1 決策樹分類演算法 8.2 類神經網路 8.3 迴歸分析 8.4 ...
DESCRIPTION
第八章 分類與預測 8.1 決策樹分類演算法 8.2 類神經網路 8.3 迴歸分析 8.4 結語 習題. 資料採掘透過分析資料來源中資料,可以獲取用於 進行預測的預測性知識。預測性採掘就是指預測性 知識的資料採掘,主要包括資料分類、數值預測 等。 分類是預測資料物件的所屬類別,即物件的分類別標號 分類在資料採掘中是一項非常重要的任務 資料分類首先透過分析由己知類別的資料物件組成的訓練資料集, 建構描述並區分資料物件類別的分類模型. 學習程序 (1) 分析訓練資料集建構分類模型 分類演算法可以根據下列標準進行比較和評估。 - PowerPoint PPT PresentationTRANSCRIPT
第八章 分類與預測第八章 分類與預測
8.1 8.1 決策樹分類演算法決策樹分類演算法8.2 8.2 類神經網路類神經網路8.3 8.3 迴歸分析迴歸分析8.4 8.4 結語結語習題習題
資料採掘透過分析資料來源中資料,可以獲取用於資料採掘透過分析資料來源中資料,可以獲取用於進行預測的預測性知識。預測性採掘就是指預測性進行預測的預測性知識。預測性採掘就是指預測性知識的資料採掘,主要包括資料分類、數值預測知識的資料採掘,主要包括資料分類、數值預測等。等。• 分類是預測資料物件的所屬類別,即物件的分類
別標號 • 分類在資料採掘中是一項非常重要的任務• 資料分類首先透過分析由己知類別的資料物件組資料分類首先透過分析由己知類別的資料物件組
成的訓練資料集,成的訓練資料集,建構描述並區分資料物件類別的分類模型
1. 學習程序 (1) (1) 分析訓練資料集建構分類模型分析訓練資料集建構分類模型分類演算法可以根據下列標準進行比較和評估。分類演算法可以根據下列標準進行比較和評估。• 預測的準確率預測的準確率。涉及模型正確地預測新的或先。涉及模型正確地預測新的或先
前未見過的資料的類別標號的能力。前未見過的資料的類別標號的能力。• 速度。速度。涉及產生和使用模型的計算花費。涉及產生和使用模型的計算花費。• 穩健性穩健性。涉及給定噪音資料或具有遺漏值的資。涉及給定噪音資料或具有遺漏值的資
料,模型正確預測的能力。料,模型正確預測的能力。
• 可伸縮性。可伸縮性。涉及給定大量資料,有效地建構模型涉及給定大量資料,有效地建構模型的能力。的能力。
• 可解讀性可解讀性。涉及學習模型提供的了解和洞察力的。涉及學習模型提供的了解和洞察力的階層。階層。
(2) (2) 評估模型的預測準確率評估模型的預測準確率評估模型的預測準確率使用測試樣本集。測試樣本評估模型的預測準確率使用測試樣本集。測試樣本集中每個樣本的類別標號是已知的,但並不提供給集中每個樣本的類別標號是已知的,但並不提供給分類模型分類模型
1.1. 分類程序分類程序 • 分類程序就是用分類模型分類程序就是用分類模型 (( 分類規則、決策樹、分類規則、決策樹、
數學公式等數學公式等 )) 對未知類別的新資料進行分類。 對未知類別的新資料進行分類。 • 分類和聚類是兩個容易混淆的概念,但事實上分類和聚類是兩個容易混淆的概念,但事實上
它們有顯著區別。它們有顯著區別。• 資料分類是有指導的,而聚類分析是無指導的。資料分類是有指導的,而聚類分析是無指導的。
數值預測程序與分類程序相似。首先透過分析由預數值預測程序與分類程序相似。首先透過分析由預測屬性取值已知的資料物件組成的訓練資料集,建測屬性取值已知的資料物件組成的訓練資料集,建構描述資料物件特徵與預測屬性之間的相關關係的構描述資料物件特徵與預測屬性之間的相關關係的預測模型,然後利用預測模型對預測屬性取值未知預測模型,然後利用預測模型對預測屬性取值未知的資料物件進行預測。的資料物件進行預測。
8.1 決策樹分類演算法
決策樹是一種有效的分類方法,對於多峰分佈之類決策樹是一種有效的分類方法,對於多峰分佈之類的問題,這種方法尤為方便。利用決策樹採用分級的問題,這種方法尤為方便。利用決策樹採用分級的形式,可以把一個複雜得多類別分類問題轉化為的形式,可以把一個複雜得多類別分類問題轉化為若干個簡單的分類問題來解決。若干個簡單的分類問題來解決。
8.1.1 什麼是決策樹 設計一個決策樹,主要應解決下面幾個問題:設計一個決策樹,主要應解決下面幾個問題:• 選擇一個合適的樹結構,即合理安排樹的節點和選擇一個合適的樹結構,即合理安排樹的節點和
分支。 分支。 • 確定在每個非葉節點上要使用的屬性。 確定在每個非葉節點上要使用的屬性。 • 在每個非葉節點上選擇合適的決策規則。在每個非葉節點上選擇合適的決策規則。
8.1.2 決策樹的建構 1.1. 演算法及描述演算法及描述 • 決策樹分類演算法透過分析訓練資料集遞迴地決策樹分類演算法透過分析訓練資料集遞迴地
建構決策樹,其基本思想是:首先,在整個訓建構決策樹,其基本思想是:首先,在整個訓練資料集練資料集 SS 所有描述屬性所有描述屬性 A1A1,, A2A2,,……,, AmAm上遞迴地建構決策樹。上遞迴地建構決策樹。
• 當決策樹分類演算法遞迴地建構決策樹時,某當決策樹分類演算法遞迴地建構決策樹時,某節點對應的訓練資料節點對應的訓練資料 (( 子子 )) 集由整個訓練資料集集由整個訓練資料集中滿足從根節點到該節點路徑上所有屬性測試中滿足從根節點到該節點路徑上所有屬性測試的訓練樣本組成。的訓練樣本組成。
出現如下情況,也需要停止建構決策樹出現如下情況,也需要停止建構決策樹 (( 子樹子樹 )) 的的遞迴遞迴
程序。程序。 (1)(1) 某節點對應的訓練資料某節點對應的訓練資料 (( 子子 )) 集為空集合。此時,集為空集合。此時,
該節點作為葉節點並用父節點中佔多數的記錄該節點作為葉節點並用父節點中佔多數的記錄類別標識。類別標識。
(2)(2) 某節點沒有對應的某節點沒有對應的 (( 剩餘剩餘 )) 描述屬性。此時,該描述屬性。此時,該節點作為葉節點並用該節點中佔多數的記錄類節點作為葉節點並用該節點中佔多數的記錄類別標示。別標示。
決策樹分類演算法描述如下:演算法:決策樹分類演算
Generate_decision_tree(S,A)• 輸入:訓練資料集 S ,描述屬性集合 A• 輸出:決策樹• 步驟:① 創建對應 S 的節點 N
② if S 中的記錄屬於同一類別 c then 以。標示N並將N 作為葉節點返回 ③ if A 為空 then 以 S 中佔多數的記錄類別。標示N 並將N 作為葉節點返回
④ ④ 從從 AA 中選擇對中選擇對 SS 而言資訊增益最大的描述屬性而言資訊增益最大的描述屬性AiAi 作為作為 NN 的測試屬性的測試屬性 ⑤ ⑤ for Aifor Ai 的每個可能取值 的每個可能取值 ////設設 AiAi 的可能取值為的可能取值為a1,a2,…,av(5.1) a1,a2,…,av(5.1) 產生產生 SS 的一個子集的一個子集 SjSj;; //Sj//Sj為為 SS 中中 AiAi== ajaj 的記錄集合的記錄集合 (5.2) if Sj(5.2) if Sj 為空為空白,白, thenthen創建對應創建對應 SjSj 的節點的節點 NjNj ,、以,、以 SS 中佔中佔多數的記錄類別多數的記錄類別 cc 標識標識 NjNj ,並將,並將 NjNj 作為葉節點作為葉節點形成形成 NN 的一個分支的一個分支 (5.3) else (5.3) else 由由Generate_decision_tree(SjGenerate_decision_tree(Sj,, A-Ai)A-Ai)創建子樹創建子樹形成形成 NN 的一個分支。 的一個分支。
2. 資訊增益 離散型隨機變數 X 的無條件 entropy 定義為
式中, P(xi)為 X= xi 的機率; u為 X 的可能取值個數。
ii xpu
1i2
logxp-XH
離散型隨機變數 X 的條件 entropy 定義為
式中,為 X= , Y= 的聯合機率; 為已知 Y=時, X= 的條件機率; u、 v 分別為 X、 Y 的可能
取值個數。
j i2
u
1i
v
1j
ji /yxplogyxp-X/YH
ix jy j i /yxp jy
ix
假設訓練資料集是關係資料表 r1,r2,…,rn ,其中描述屬性為 A1,A2,…,Am 、類別標屬性為 C. 類別標屬性 C
的無條件 entropy 定義為
式中, u為 C 的可能取值個數,即類別個數,類別記為 c1,c2,…,cu; 為屬於類別 ci 的記錄集合, 即為屬於類別 ci 的記錄總數。
n
slog
n
s-CE
i
2
u
1i
i
is is
給定描述屬性 ,類別標屬性給定描述屬性 ,類別標屬性 CC 的條件的條件 entropyentropy
定義為定義為
式中,式中, VV 為 的可能取值個數,取值記為 的可能取值個數,取值記 a1,a2,…,ava1,a2,…,av;; 為 =為 = ajaj 的記錄集合, 即為 =的記錄集合, 即為 = ajaj 的記錄數目; 的記錄數目;
為=為= ajaj且屬於類別且屬於類別 cici 的記錄集合, 即為 =的記錄集合, 即為 = ajaj且且屬於屬於
類別類別 cici 的記錄數目的記錄數目。。
u
1i j
ij
2j
ijv
1i
jk
S
slog
S
s-
n
SAC,E
kA
jS kA jS kA ijs
kA ijs kA
mk1Ak
給定描述屬性 ,類別標屬性 C 的資訊增益定義為
可以看出, 反映減少 C 不確定性的程度, 越大, 對減少 C 不確定性的貢獻越大。
),()(),( kk ACECEACG
),( kACG ),( kACG
kA
)1( mkAk
例 8.1假設蔬菜資料表如表 8.1 所示,“顏色”、“形狀”是描述屬性,“蔬菜”是類別標屬性,分別求給定“顏色”、“形狀”屬性時,“蔬菜”屬性的資訊增益。
5850.13
1log
3
1
3
1log
3
1
3
1log
3
1 )( 222
蔬菜E
0)1log1(3
1)1log1(
3
1)1log1(
3
1 ),( 222 顏色蔬菜E
0.6667)2
1log
2
1
2
1log
2
1(
3
2)1log1(
3
1 ),( 222 形狀蔬菜E
1.58500-1.5850 ),( 顏色蔬菜E
0.9183 0.6667-1.5850 ),( 形狀蔬菜E
因為 G(蔬菜,顏色 ) > G(蔬菜,形狀 ) ,所以選擇“顏色”屬性作為根據點的測試屬性,得到的決策樹如圖8.3 所示。
由於決策樹是在分析訓練資料集的基礎上建構的,由於決策樹是在分析訓練資料集的基礎上建構的,決策樹傾向於過分適合訓練資料集。如果訓練資料決策樹傾向於過分適合訓練資料集。如果訓練資料集含有噪音,那麼可能決策樹的某些分支反映的是集含有噪音,那麼可能決策樹的某些分支反映的是噪音而不是總體,應該剪去這些不可靠的分支。噪音而不是總體,應該剪去這些不可靠的分支。
有兩種剪枝策略: 有兩種剪枝策略: (1) (1) 先剪枝策略 先剪枝策略 (2) (2) 後剪枝策略後剪枝策略
8.1.3 由決策樹提取分類規則
決策樹建構好後,可以對從根到樹葉的每條路徑創建一個形如 IF-THEN 的規則。創建方式為沿著給
定路徑上的每個屬性 - 值續對 (內部節點 - 分支序對 )
形成規則前件 (“IF”部分 ) 的一個合取項,葉節點形成
規則後件 (“THEN“部分 ) 。
例 例 8.4 8.4 沿著由根節點到樹葉節點的路徑,圖 沿著由根節點到樹葉節點的路徑,圖 8.48.4的決的決
策樹可以轉換成策樹可以轉換成 IF-THENIF-THEN 分類規則:分類規則:• IFIF年齡 年齡 =“<=30”AND =“<=30”AND 學生 學生 =“=“否” 否” THENTHEN購買電腦購買電腦 = “= “否”否”
• IFIF年齡 年齡 =“<=30”AND =“<=30”AND 學生 學生 =“=“ 是” 是” THENTHEN購買電腦購買電腦 = “= “ 是是
• IFIF年齡 年齡 =“30…40” THEN=“30…40” THEN購買電腦購買電腦 = “= “ 是是• IFIF年齡 年齡 =“>40”AND =“>40”AND 學生 學生 =“=“優” 優” THENTHEN購買電腦購買電腦 = “= “否” 否”
• IFIF年齡 年齡 =“>40”AND =“>40”AND 學生 學生 =“=“ 中等” 中等” THENTHEN購買電腦購買電腦 = “= “ 是” 是”
8.1.4 對新物件分類 假如現在增加了一位新顧客,他是一名教師,年齡假如現在增加了一位新顧客,他是一名教師,年齡為為 4545歲,收入較低但信譽很好。商場需要判斷該歲,收入較低但信譽很好。商場需要判斷該顧顧客是否會購買電腦?即是將該顧客劃分到“購買電客是否會購買電腦?即是將該顧客劃分到“購買電腦腦
類”呢?還是將他劃分到“不購買電腦”類?很顯類”呢?還是將他劃分到“不購買電腦”類?很顯然,然,
利用上面的分類規則,可以判定該顧客不會購買電利用上面的分類規則,可以判定該顧客不會購買電腦。腦。
8. 2 類神經網路
• 類神經網路可以模仿人的頭腦,透過問一個訓練類神經網路可以模仿人的頭腦,透過問一個訓練資料集學習和應用所學知識來生成分類和預測的資料集學習和應用所學知識來生成分類和預測的模式。 模式。
• 類神經網路由許多基本單元類神經網路由許多基本單元 (( 常常稱為類神經元常常稱為類神經元或網路節點或網路節點 )) 構成。構成。
• 基本單元之間的連接相當於人腦中類神經元的連基本單元之間的連接相當於人腦中類神經元的連接。接。
8.2.1 前饋類神經網路結構前饋類神經網路是分層網路模型,具有一個輸入層、一個輸出層,輸入層和輸出層之間有一個或多個隱藏層。
在輸入層,各節點的輸出可以等於輸入,也可以按在輸入層,各節點的輸出可以等於輸入,也可以按一定比例調節,便其值落在一定比例調節,便其值落在 -1-1和和 +1+1 之間。而在其之間。而在其他他
層上,每個節點的輸入都是前一一層上各節點輸出層上,每個節點的輸入都是前一一層上各節點輸出的加權和,輸出是輸入的某種函數。對中間層,節的加權和,輸出是輸入的某種函數。對中間層,節點點 jj 的輸入為 :的輸入為 :
ji
i
ijj OWnet
節點 j 的輸出為:Oj = f ( netj )
採用 S 型啟動函數,即
所以
ef
1
1)(
jnetj
eO
1
1
同理,輸出層第同理,輸出層第 kk 個節點的輸入、輸出為:個節點的輸入、輸出為:
圖 8.6表示了對於隱藏層、輸出層的任意單元力由它的輸入計算它的輸出的過程。
j
jjkOwnetk
8.2.2 類神經網路學習
• 確定好網路結構確定好網路結構 (( 網路層數,各層節點數目網路層數,各層節點數目 )) 之之後,應該確定各節點的偏值及節點之間的連接權。後,應該確定各節點的偏值及節點之間的連接權。學習程序就是調整這兩組值,使每個訓練樣本在學習程序就是調整這兩組值,使每個訓練樣本在輸出層的節點上獲得期望輸出。輸出層的節點上獲得期望輸出。
• 學習使用誤差後向傳播演算法。• 在輸出層,由於可以從誤差的定義中直接求出誤差對各個類神經元輸出的偏微分,從而求出誤差對所有連接權的偏微分。
對於某訓練樣本,實際輸出與期望輸出的誤差 Error定義為:
其中, C 為輸出層的單元數; Tk 為輸出層單元 A 的期望值輸出;Ok 為輸出層單元 k 的實際輸出。
c
k
kk OTError1
2)(2
1
為使 Error最小,採用使 Error沿梯度方向下降的方
式,即分別取 Error 關於 wjk 、的偏微分,並令它們與
wjk 、成正比:
13.8Error
-l
12.8w
Error-lw
kk
ijij
其中, l 為避免陷入局部最佳解的學習率,一般在區間 [0,1] 上取值。求解上式可以得到加權、單元偏置
的修改量為:
其中, Qj 為前一層單元 j 的預測輸出; Errk 是誤差Error 對節點 k 的輸入 netk 的負偏微分,即。
kk
jkij
kkkkk
Errl
OErrlw
OTO1OErr
類似地,隱藏層單元 j 與前一層單元 i 之間的加權Wij
的修改量 、單元 j 的偏置 的修改量 ijw j j
jj
ijij
v
1k
jkkjjj
Errl
OErrlw
wErrO1OErr
加權、單元偏置的修改公式為:
加權值、單元偏置的更新有兩種策略:(1) 處理一個訓練樣本更新一次,稱為實例更新,
一 般採用這種策略。(2) 可以累積加權值、單元偏置,處理所有訓練樣
本後再一次更新,稱為周期更新。
jijij wiww jjj
處理所有訓練樣本一次,稱為一個周期。一般,在訓練多層前饋類神經網路時,後向傳播分類演算法經過若干周期以後可以使 Error小於規定閥值,此
時認為網路收斂,結束迭代訓練程序。
定義如下結束條件:(1) 前一周期所有的加權變化都很小,小於某個設
定的值。(2) 前一周期預測的準確率很大,大於某個設定的
值。(3) 周期數大於某個設定的值。
誤差後向傳播演算法描述如下:誤差後向傳播演算法描述如下:• 演算法:後向傳播分類演算法 演算法:後向傳播分類演算法 (S(S,, NTNT,, 1)1)• 輸入:訓練資料集輸入:訓練資料集 SS ,多層前饋類神經網路,多層前饋類神經網路 NTNT ,,
學習率學習率 II• 輸出:經過訓練的多層前饋類神經網路輸出:經過訓練的多層前饋類神經網路 NTNT• 步驟:步驟:
(1) (1) 在區間在區間 [-1,1][-1,1] 上隨機起始化上隨機起始化 NTNT 中每條有向加中每條有向加權邊的加權值、每個隱藏層與輸出層單元的偏置權邊的加權值、每個隱藏層與輸出層單元的偏置(2) while(2) while 結束條件不滿足結束條件不滿足
(2.1) for S(2.1) for S 中每個訓練樣本中每個訓練樣本 SS(2.1.1) for(2.1.1) for隱藏層與輸出層中每個單元隱藏層與輸出層中每個單元 j j
//// 從第一個隱藏層開始向前傳播輸入 從第一個隱藏層開始向前傳播輸入
(2.1.1.1) (2.1.1.1) (2.1.1.2) (2.1.1.2) (2.1.2) for(2.1.2) for輸出層中每個單元輸出層中每個單元 jj
(2.1.2.1) (2.1.2.1) Errj = OErrj = Ojj((1-O1-Ojj)()(TTjj-O-Ojj))(2.1.3) for(2.1.3) for隱藏層中每個單元隱藏層中每個單元 j //j // 從最後一個隱藏從最後一個隱藏
層開層開 始向後傳播誤差始向後傳播誤差
(2.1.3.1) (2.1.3.1) (2.1.4) for NT(2.1.4) for NT 中每條有向加權邊的加權值 中每條有向加權邊的加權值 (2.1.4.1) (2.1.4.1) (2.1.5) for (2.1.5) for 隱藏層與輸出層中每個單元的偏置 隱藏層與輸出層中每個單元的偏置
(2.1.5.1) (2.1.5.1)
u
1i
jiijj Ownet
jnetje
O
1
1
v
k
jkkwErrOjOjErrj1
)1(
ijijij OErrlww
ijjj OErrl
ijw
j
誤差後向傳播演算法要求輸入端的輸入是連續值,並對訓練樣本的連續屬性值規格化以便提高訓練效率與品質。如果訓練樣本的描述屬性是離散屬性,則需要對其編碼。編碼方法有兩種:• P 值離散屬性:• 二值離散屬性
例 8.6假設訓練樣本 S 的屬性值與實際類別分別為與 1 ,兩層前饋類神經網路 NT 如圖 8.8 所示, NT 中每條有向加權邊的加權值、每個隱藏層與輸出層單元的偏置如表 8.3 所示,學習率為 0.9 。寫出輸入 s
訓練NT 的程序。
1,0,1
8.2.3 類神經網路分類 例如,例 8.6 中,由於只有一個輸出節點,表示只有兩個類別 (A 類、 B類 ) 。網路訓練好後,表 8.6 中的各權值和偏值都固定。對於一個未知類別的樣本 X=(x1,x2,x3)送入輸入層後可以計算出 O6 ,若 O6≒1 ,則表示樣本 X 應屬於 A 類;若 O6≒0 ,則表示樣本
A
應屬於 B 類;若, O6≒0.5 ,則拒絕分類。
8.3 迴歸分析
迴歸分析有一元迴歸與多元迴歸之分。依變數 y 在一
個自變數 x 上的迴歸稱為一元迴歸;依變數 y 在多個自變數門 x1,x2,…,xn 上的迴歸稱為多元迴歸。
8.3.1 一元迴歸分析
1. 一元線性迴歸方程的建構 如果兩個變數在散點圖上呈現線性關係,就可用一元線性迴歸方程來描述。其一般形式為:
Y = a+bX
式中, X 是自變數; Y 是依變數; a、 b 是一元線性迴
歸方程的係數。
a、 b 的估計值應是使誤差平方和 Q(a,b) 取最小值的。
式中, n 是樣本數目, 是訓練樣本資料。
n
1i
2ii bx-a-ybaQ 、
nn2221 y,x,,y,x,y,x
為了使 Q(a,b) 取最小值,分別取 Q 關於 a、 b 的偏微
分,並令它們等於零
n
1i
iii
n
1i
ii
0xbx-a-y-2b
Q
0bx-a-y-2a
Q
求解上述方程式,得到唯一的一組解 ba、
n
1i
2i
n
1i
ii
n
1i
2n
1i
i2
i
n
1i
n
1i
iii
x-x
y-yx-x
x-xn
y-yxn
b
xb-yn
xb-ya
n
1i
n
1i
ii
式 (8.21) 和式 (8.22) 中
在利用樣本資料得到後,可以將作為 Y = a+bX 的估
計。稱為 Y 等於 X 的一元線性迴歸方程式。
n
yy
n
xx
n
1i
i
n
1i
i ,
一元線性迴歸演算法描述如下: • 演算法:一元線性迴歸演算法 (S) • 輸入:訓練資料集 S • 輸出:一元線性迴歸方程式 • 步驟:(1) 起始化 Sx、 Sy、 Sxy、 Sxx 為零(2) for S 中的每個訓練樣本 (x,y)
(2.1) (2.1) Sx = Sx +x Sx = Sx +x
(2.2) (2.2) Sy = Sy +xSy = Sy +x
n
1i
ix//計算
n
1i
iy//計算
(2.3) Sxy = Sxy +x (2.4) Sxx = Sxyx+x 2
(3)
(4)
n
1i
iiyx//計算
n
1i
2xi // 計算
2xxy
yxxy
)(S-nS
SS-nS b
n
Sb-S a
xy
2. 檢定(1) F 檢定 假設 H0 :兩變數間無線性關係,對 HA :有線性關係。在無效假設下,迴歸變異數與離迴歸變異數的比值服從 df1= 0 和 df2= n- 2 的 F 分佈,所以
可用下式 2)-.(n
Q
U
2)-(n / Q
1 / U F
來檢定直線迴歸關係的顯著性。
y-yx-xb y-y U 2
U-
n
y-y y-y U
2
2 2
(2) t 檢定統計假設 H0 := 0 對HA :。該方法是檢定樣本迴
歸係數 b 是否來自= 0 的雙變數總體,以推定線性迴
歸的顯著性。迴歸係數的標準誤差 sb和 t 值為
2
x-x2-n
y-y Sb
bS
-b t
3. 預測經過檢定,若 Y與 X 之間存在極顯著的迴歸關係,則可用迴歸方程進行預測。對於任意變數 x ,將其代入迴歸方程即可預測出與之對應的輸出 y 。
例 8.7 假設年薪資料表如表 8.7 所示,大學畢業以後的“工作年數 Year” 屬性是描述屬性,“年薪 Salary”
屬性是預測屬性,建構迴歸方程預測具有 10年工作經驗的大學畢業生的年薪。
從年薪資料的散點圖可以推測,屬性 Year 與預測屬性 Salary 之間大致具有線性相關關係,因此迴歸
方程的形式為
Salary(Year) = a+b×Year
因為
所以
即 Salary 關於 Year 的一元線性迴歸方程為:Salary = 23.6+3.5×Year
554 Salary 91 Year10
1i
i
10
1i
i
n
1i
2i
10
1i
ii 1187x 6311 SalaryYear
23.610
913.5-554 a
3.5 91-118710
55491-631110 b
2
8.3.2 多元迴歸分析 多元迴歸是指依變數 y 與多個自變數數 x1, x2…
xn 和有關。多元線性迴歸方程是一元線性迴歸方程的推廣,其一般形式為:
y=a+b1x1+b2x2+…+bpxp
對於 y 關於 x1, x2,…, xp的 P元線性迴歸,可以採
用最小二乘法估計未知係數 a, b1, b2,…, bp 。a, b1, b2,…, bp 的估計值應使誤差平方和
Q(a ,b1, b2,…, bp) 取最小值:
Q(a, b1, b2,…, bp) =
n
1i
2ippi22i11i x-b-xb-xb-a-y
為了使 Q(a, b1, b2,…, bp) 取最小值,分別取 Q 關於 a, b1, b2,…, bp 的偏微分,並令它們等
於零
n
1iijppi22i11i
j
n
1i
ppi22i11i
p,1,2,j0,xxib--xb-xb-a-y- b
Q
0xib--xb-xb-a-y2- a
Q
經整理,得到如下正規方程組
求解上述方程組,即可得到 a, b1, b2,…, bp 。
YXXbXXbXXb
YXXXbXbXXb
YXXXbXXbXb
x-b-xb-xb-y a
p2pmp22p11
2p2p2211
1p1p212211
pp2211
2
2
例 10.8 某植物有 16 個品種,它們的比葉重 (x1 ,g/dm2) 、氣孔密度 (x2 ,個 /視野 ) 、葉綠素含量
(x3 ,mg/dm2) 和光合速率 (y,mg/dm2) 的測量值如表 10.8
所示,是建構光合速率的多元迴歸方程。
根據 (8.31) 建構方程組
解此方程組得b1 = 14.0484, b2 = 1.1041, b3 = 1.1481
從而
因此,光合速率的多元迴歸方程為
3.4150 4.1541b3.4243b-0.1727b
21.0159 3.4243b-26.0000b0.2650b-
1.3796 0.1727b0.2650b-0.1049b
321
321
321
34.0950- x-b-xb-xb-y a 332211
321 x1.1481x1.1041x14.048434.0950- y
8.3.3 非線性迴歸 例 8.9 假設產品銷售量表,如表 10.9 所示,“價格
Price” 屬性是因變數,“銷售量”屬性是應變數,建構
迴歸方程。繪製產品銷量資料得散點圖,如圖 8.10所示。
Sale(Price) 的形式大致是形如下式的二次多項式函數
Sale (Price) = a+b1Price+b2Price2
顯然,這既不是一元線性迴歸,也不多元線性迴歸,而是非線性迴歸。但是,如果令
P1 = Price
P2 = Price2
則可以變換為二元線性迴歸Sale(P1, P2) = a+b1p1+b2p2
利用樣本資料經過計算得到:
所以,迴歸方程為Sale = 2.1983- 0.0225Price + 0.000 lPrice2
0.0001 b
0.0225- b
2.1983
2
1
a
8.4 結語
在資料分類中,著重介紹了兩種分類演演算法:策樹分類演演算法與後向傳播分類演演算法。決策樹分類演演算法採用決策樹作為分類模型,使用資訊增益評價、選擇節點屬性,遞迴地建構決策樹。後向傳播分類演演算法採用多層前饋類神經網路作為分類模型,透過向前傳播輸入、向後傳播誤差,迭代地訓練類神經網路。
在數值預測中,著重介紹了迴歸統計技術。迴歸統計技術是研究變數之間的相關關係的一種數學工具,利用迴歸統計技術可以透過一個或一組變數X1, X2,…, Xp 取值估計 ( 預測 )另一個變數 Y 的
取值。常用的迴歸統計技術有一元線性迴歸、多元線性迴歸、非線性迴歸等。多元線性迴歸是一元線性迴歸的推廣,並且許多問題可以用線性迴歸解決,許多非線性問題也可以運用變換用線性迴歸來解決。
習 題 8-1 簡述分類與群集的異同。 8-2 簡述分類與預測的異同。8-3 簡述資料分類程序。 8-4 簡述資訊增益。 8-5 假設員工一般化資料表如表 8.10 所示,“ count” 屬
性表示重複紀錄數目,“ Salary” 是類別標屬性,其
餘屬性是描述屬性。
(1) 寫出建構決策樹的程序。
(2) 設計一個兩層前饋類神經網路,標記輸入層和輸出層單元。
8-6 假設訓練樣本 s 的屬性值與實際類別分別為與0 ,兩層前饋神類經網路 NT 如圖 8.8 所示, NT 中每條有向加權邊的加權值、每個隱藏層與輸出層單元的偏置如表 8.3 所示,學習率為0.8 。寫出輸入 s 訓練 NT 的程序。
8-7 簡述數值預測程序。
8-8 簡述建構迴歸方程的程序。 8-9 假設學生成績表如表 8.11 所示,“期中成績 X”
屬性是描述屬性,“期末成績 Y” 屬性是預測屬性。
(1) 寫出建構迴歸方程的程序。(2) 預測期中成績為 86 分的學生期末成績。