以apriori 演算法建構季節流行病關係模型 ·...

Kuang Tien Medical Journal Vol.4 No.8 2009 光田醫學雜誌第 4卷第 8期 2009 Kuang Tien Medical Journal Vol.4 No.8 2009 光田醫學雜誌第 4卷第 8期 2009 99

原著研究

以Apriori 演算法建構季節流行病關係模型

林俊榮1 王麗芬2 王淑莉3* 張立興1 許香蘭1

弘光科技大學資訊管理系1；光田醫療社團法人光田綜合醫院管理中心2；

中臺科技大學牙體技術學系3

摘要

民國八十四年全民健保開辦，到民國九十二年由健保紙卡更替為目前使用的IC卡，

代表著民眾的就醫紀錄也隨著醫療電子化，被完整的紀錄下來。而這些資料最後都因

醫療院所向健保局申請醫療費用而彙總至中央健保局。這些大量數位化的資料，使我

們可以從過去的使用統計學方法進行流行病學的分析與預測，改變為運用資料採擷技

術分析記錄既有的醫療相關資料，進而找出隱藏於其中的資訊，且可應用在醫師進行

醫療時的輔助，或是一般民眾進行醫療保健時的參考。

本研究提出一個以關聯式的資料挖掘為架構，應用資料擷取技術中的關聯法則，探

討季節與疾病及疾病與疾病之間是否有某種程度上的關聯。本研究以年度、季節進行

疾病分析，得到疾病之支持度與信賴度，說明此區間之疾病的高頻項目集合，再進行

疾病間的關聯分析，推測同時患疾病與疾病間的支持度與信賴度，進而預測出當我們

罹患了某疾病，他所可能會帶來的隱藏性疾病，並以圖型化方式呈現出研究成果。

關鍵字：資料採擷，關聯法則，Apriori，流行病學

＊通訊作者

收件日期：2009年08月10日；接受日期：2009年08月31日

Kuang Tien Medical Journal Vol.4 No.8 2009 光田醫學雜誌第 4卷第 8期 2009 100 Kuang Tien Medical Journal Vol.4 No.8 2009 光田醫學雜誌第 4卷第 8期 2009

林俊榮　王麗芬　王淑莉　張立興　許香蘭

緒論

統計方法過去一直是普遍被使用在獲取資料

相關資訊上的理論，但由於傳統的統計推論侷限

在小樣本的問題，已無法處理大量與複雜的資料

集，然而在爾後的發展上，資料搜尋結構化與較

粗糙性的資訊重要性將與日俱增。因此對大量的

資料進行「Data Mining」，可以在不預設的前提

下，從資料中找尋有用資訊的特性，是近年來電

腦資訊所發展出來的管理分析程式與工具。它可

從大量的資料中，萃取出隱含的、以前不為人所

知，可信而有效的知識，除了可以獲得更深入的

資訊解讀，並具備有預測的功能，可經由現有大

量資料的採擷進而預測未來的可能趨勢。

自民國八十四年全民健康保險開辦，將全國

民眾的醫療保險統一納入中央健保局中，各級醫

療院所亦逐年轉換成利用媒體進行醫療保險費用

的申報，也因此促使了醫療院所的電腦化，而病

患的相關、就醫紀錄也都能透過醫療資訊系統

(HIS，Hospital Information System)進行儲存。在國

人普遍使用健保就醫的比率超過九成並加上醫療

院所普遍使用媒體申報的結果來看，健保局資料

庫即儲存了超過九成全國民眾完整的就醫記錄。

此外在92年度一月份起中央健保局就已全面停

止使用健保紙卡，改採用健保IC卡，隨著資訊化

的推動，醫療資料累積增加的速度可以說是驚人

的，而本研究即是運用健保局所提供教學研究申

請的資料庫資料，運用Data mining的技術建構出

季節流行病關聯模型。

研究背景

作由於醫學高度專業化，在醫療過程中會產

生的大量資料，以供後續醫療的參考依據，一般

只有具備醫學專長的醫護人員有能力看的懂它。

但這些大量資料中所潛藏的、未知的可用資訊，

一直沒能有效挖出來。而資料挖掘就是目前公認

最具備這種能力的技術之一，目前也有許多己知

的資料挖掘在醫療上的應用，例如：

(1) Kamal Ali等人結合關聯式法則與分類法則運

用在醫療檢驗，以數個單項醫療檢驗，來預

測其他可能的檢驗，例如醫生可能的開立的

檢驗組合等。

(2) 梁水金建立一個Web-based的資料挖掘系統提

供藥物交互作用資訊查詢。

圖一 Apriori演算法流程圖



(3) Fu-ren Lin等人則將資料挖掘技術運用在改善

臨床路徑的制定上。

(4) 莊莉瑩以陰道生產與剖腹生產兩個DRG為研

究對象，以資料挖掘機制的關聯式法則與Na-

ive貝氏分類器，先對選擇性醫療項目做群聚

分類，並以產婦特徵研判產婦分類，提供基

礎醫令組合建議。

(5) 周賢昭針對治療流程的時間關係發展出一套

知識探索的演算法，以神經內科中的腦中風

病人作為資料樣本，在一系列的流程歷史記

錄中找出共同的時間相依性模式，這個模式

能告訴相關人員如何安排治療活動，以及執

行的時間期間。

(6) 林俊榮等運用資料採礦技術從大量的醫療處

置資料建構專家系統知識庫。

本研究主要是在發掘疾病與季節之間的關聯性知

識。關聯法則之意圖則是在指出龐大的資料庫

中，某一些物件間存在彼此的關聯性，當符合超

過最小支持度且超過最小信賴度時，所產生的關

聯法則方可被視為具有意義的，本研究即是運用

關聯法則進行資料採擷以建構出疾病關聯模型。

關聯法則

關聯法則(association rule)主要是在大量的資

料中找尋出不同項目集合間的交互關係(陳佳楨，

民92)，最常見的是在便利商店中的「牛奶→麵

包」(Support：3%，Confidence：60%)的例子，並

藉由支持度(Support)及信賴度(Confidence)這兩個

參數避免找出太多沒有代表性或是不具意義的法

則。

關聯法則(association rule)的形式為X → Y，其

中X、Y ∩ I，且X ∩ Y = Φ。每一條規則(rule)有

一強度的度量單位為信賴度(Confidence)，而Confi-

dence ( X → Y ) = Support ( X ∪ Y , D ) / Support

( X , D )。依照條件機率，若某關聯法則的信賴度

超過一定限度時，其意義為若此交易包含X，有

很高的機率會包含Y。

因此，挖掘關聯法則也就是要找出所有X →

Y形式的關聯法則，並且滿足下列條件：Support (

X ∪ Y , D ) ≥ Min_Support且Sonfidence ( X → Y )

≥ Min_Confidence。

研究方法

本研究主要是對流行病學與季節之關係，以

Data Mining之應用Apriori關聯法則，就病患的看

診季節、期間、年齡、性別等作為可能有關之屬

性，並以關聯法則進行資料採擷，並依下列步驟

進行演算：

步驟1：先定義最小支持度和最小信賴度。

步驟2： Apriori演算法使用之候選項目集合(Can-

didate Itemset)的觀念，若候選項目集

合的支持度>最小支持度(Minimun Sup-

port=1)，則該候選項目集合為高頻項目

集合。

步驟3：首先由資料庫讀取所有的記錄，求出候

選C1的支持度，再找出高頻項目集合

L1，並利用這些高頻項目集合的結合，

產生候選C2。

步驟4：然後再SCAN資料庫，得出C2的支持度

後，找出高頻L2，並利用這些L2的結

合，產生候選C3。

步驟5：重覆SCAN資料庫，與最小支持度比較，

產生高頻項目集合，再結合產生下一級

候選項目集合，直到不能結合出產生新

的候選項目集合為止。

資料來源

本研究資料是以中央健保局所提供之健保抽

樣資料作為資料來源，並篩選出本研究所需之相

關病患就診屬性，其中並未涉及病患之隱私權，

所有資料為1996年至2001年期間的健保資料，約

八萬多筆，其欄位包括：性別、就診年月、疾病



類別、門診科別等。

研究架構

本研究先將取得之健保抽樣資料進行資料倉

儲。我們將資料來源，經過Data Clean，資料萃

取、轉換以及彙整等工作後，建立我們所須要的

資料倉儲（Data Warehouse），再將欲分析的資料

以關聯式演算法來取得資料的分析度、信賴度做

資料的分析，此即我們資料挖掘（Data Mining）

的流程，最後再以資料擷取技術，依季節和疾病

別進行資料分析，並將我們所Mining的結果以圖

型的方式呈現出來，研究架構如圖二所示。

一、高頻項目集的尋找

本研究首先針對資料庫進行搜尋比對，找出

所有高頻項目集的長度，即每項疾病發生的次

數，將次數不符合支持度的疾病剔除，其餘符合

的疾病挑選出來，作為L1之後，進行步驟三。

二、產生候選項目集

利用所搜尋到的L1進行排列組合(join)，將產

生的候選項目歸類為C2，利用C2進行對資料庫的

搜尋，進行第二次高頻項目集長度的尋找，便可

以獲得L2，以此類推，我們便可以利用Lk-1來產

生Ck的項目集，接著透過與資料庫的比對找出符

合支持度的Ck，進而產生Lk。重複以上的步驟直

到無法產生候選項目集為止。

本研究以Apriori演算法作為本研究決定維度

的準則。如圖三所示，首先在資料庫中進行比

對，假設於第1季發生的疾病有：A312、A420、

436；第2季發生的疾病有：5210、A312、

A311；第3季發生的疾病有A312、5210、

A311、436；第4季發生的疾病有：4659、

5210。

然後針對各個季節疾病發生分佈的情況，統

計出患過疾病的發生次數和，尋找出符合支持

度的疾病項目集合。依以上的例子來說，統計

出來的結果，患過疾病發生的次數和分別為：

A312=3、A420=1、436=2、5210=3、A311=2、

4695=1。其中A420、4695兩種疾病將被剔除，

因其不符合高頻項目疾病集合，符合的分別只

圖二研究架構圖



圖三：運用Apriori演算法建構疾病關聯模型

圖四：系統畫面圖



有：A312、436、5210、A311四種疾病。

接下來再依高頻項目集來針對資料庫進行搜

尋做群組化，將每一個疾病做配對組合，統計患

過A疾病也患過B疾病的發生次數和，其結果分別

為：{A312、436}=2、{A312、5210}=2、{A312、

A311}=2、{436、5210}=1、{436、A311}=1、

{5210、A311}=2。由此可看出其中疾病{436、

5210}和{436、A311}的組合將被剔除，因其亦不

符合高頻項目疾病集合，符合的只有：{A312、

436}、{A312、5210}、{A312、A311}、{5210、

A311}四種疾病組合。

最後再將剩餘下來的疾病重新做排列組合，

以3個疾病為一組，統計患過A疾病和患過B疾病

也患過C疾病的發生次數合，其結果為：{A312、

436、5210}=1、{A312、436、A311}=1、{A312、

A311、5210}=2、{436、A311、5210}=1。最後即

可由結果中得到{A312、A311、5210}這個疾病組

合可能為發掘之關聯性。圖四為系統執行後所得

到的結果畫面。

執行結果

舉例來說：一、假設欲分析1998年第一

季，支持度大於3%且信賴度大於25%的疾病有那

些。可使用”依年度、季節進行疾病分析”之功

能，選定時間區段及最小支持度與最小信賴度，

進行區段疾病支持度與信賴度搜尋，將得到表

一。(註：由於中央健保局提供之資料約母體的

1/500，因此以下表格均依此比例推估母體資料)

從表1中可以得到在此區段符合最小支持度與

最小信賴度的疾病，其中急性上呼吸道感染最為

顯著。二、假設欲知道每年的第一季應該注意那

些疾病，可以針對每年第一季作分析得到以下資

料：

從以上資料中可以得知，急性上呼吸道感染

是歷年第一季疾病之首，但急性支氣管炎、急性

喉炎似乎也是值得需要關切的疾病。

慢性病在國人”十大死因”經常是榜上有

名，例如：糖尿病、高血壓、心臟病。而慢性病

病患通常有很高的機率會併發其他的疾病，如果

能從歷年病歷資料中發現疾病之關聯性，讓慢性

病病患得知應防範之可能併發症，以提供更好的

照顧，例如：從歷年資料中得知糖尿病病患容易

併發高血壓。利用”疾病與疾病之關聯分析”進

行疾病間關聯分析，設定好最小支持度與最小信

賴度(假設支持度為1%，信賴度為5%)，可得結果

如表六。

由表六中，發現糖尿病病患確實有很高的機

率併發高血壓，且亦可能併發高血壓性心臟病、

便秘、純高膽固醇血症、大腸癌，這些都是需要

預防的疾病。

表一：疾病支持度與信賴度說明

1998年第一季支持度>3%、信賴度>25%的結果

疾病名稱疾病季節人數疾病全年總人數全年疾病總數支持度信賴度

急性上呼吸道感染 415000 1465500 4522500 0.324 0.2832

急性支氣管炎 60500 221500 4522500 0.049 0.2731

便秘 56500 223500 4522500 0.0494 0.2528

急性扁桃腺炎 45000 158500 4522500 0.035 0.2839



表二：1996年第一季支持度>3%、信賴度>25%


急性上呼吸道感染 378500 1358500 4827500 0.2814 0.2786

急性喉炎 66500 237500 4827500 0.0492 0.28

流行性感冒併肺炎 62500 186500 4827500 0.0386 0.3351

急性支氣管炎 49500 181000 4827500 0.0374 0.2742

氣喘 39000 153500 4827500 0.0318 0.2541

表三：1997年第一季支持度>3%、信賴度>25%


急性上呼吸道感染 385000 1427000 4837500 0.295 0.2698

急性支氣管炎 77000 257500 4837500 0.0532 0.299

急性喉炎 74500 288000 4837500 0.0595 0.2587

高血壓 54000 181000 4837500 0.0374 0.2983

紅斑鱗狀皮膚病 53500 186500 4837500 0.0386 0.2869

氣喘 49000 189000 4837500 0.0349 0.287

腹膜炎 43000 147500 4837500 0.0305 0.2915

表四：1998年第一季支持度>3%、信賴度>25%


急性上呼吸道感染 415000 1465500 4522500 0.324 0.2832

急性支氣管炎 60500 221500 4522500 0.049 0.2731

便秘 56500 223500 4522500 0.0494 0.2528

急性扁桃腺炎 45000 158500 4522500 0.035 0.2839

表五：1999年第一季支持度>3%、信賴度>25%


急性上呼吸道感染 376500 1335000 3558000 0.3752 0.282

急性喉炎 75500 259000 3558000 0.0728 0.2915

急性支氣管炎 70000 232500 3558000 0.0653 0.3011

蜂窩組織炎 44500 158500 3558000 0.0445 0.2808



結論

本研究利用Data Mining來針對流行病學做研

究，以發掘並找出季節對於人們所可能發的流行

病及其關係，並能進一步地去探討疾病與疾病間

潛在的可能同時發生的疾病等。例如我們都知道

說當我們罹患了上呼吸道感染(俗稱感冒)，它常

會讓病患同時罹患喉嚨發炎、鼻咽炎，但經由我

們去做疾病與疾病之間的支持度與信賴度的驗證

後，可能會發現上呼吸道感染與習慣性流產有我

們意想不到的關聯性存在，這項結果為我們所帶

來的影響即我們可以針對這兩項疾病去研究，為

何看似不相關的疾病卻有有一定的關聯性存在，

這就有於國人針對疾病去做有效的防範、注意。

對於台灣冷熱多變化性的天候季節，常常可

以由報章雜誌以及新聞上注意到報導說要各位民

眾多注意天候變化，而透過本研究，希望能使民

眾了解季節對於人們所造成的影響，在季節時間

中會有什麼樣的流行疾病的產生。本研究並利用

圖型化呈現研究成果，藉由使用者選擇年度、季

節進行疾病分析，以得到此區間疾病之支持度與

信賴度，說明此區間之疾病的高頻項目集合，再

進行疾病間的關聯分析，推測同時患A疾病與B

疾病的支持度與信賴度，進而預測出當我們罹患

了某疾病，他所可能會帶來的隱藏性疾病，並以

圖型化方式呈現出研究成果。透過程式，可以進

行年度、季節的選擇以進行疾病分析，並得到此

區間疾病之支持度與信賴度，而此區間之疾病的

高頻項目集合，並可選用圖型方式來進行資料分

析，而藉由Web-Based的系統建構，亦可提供民眾

上網操作、查詢，以獲得所需之資訊。

參考文獻

1. AgrawalR,SrikantR,FastAlgorithmforMining

AssociationRules inLargeDatabase, Int’lConf.

VLDB,pp.487-499,1994.

2. CastieE,GutierjmJM,AliSHadi.ExpertSystems

andProbablisticNetworkModels,Springer-Verlag,

NewYork,1997.

3. ChengJ,BellD,Liu.LearningBayesianNetworks

from Data :An EfficientApproach Based on

InformationTheory,TechnicalReport,Universityof

Alberta,1998.

4. FayyadU,Piatetsky-ShapiroG,SmythP.FromData

Mining toKnowledgeDiscovery inDatabases,AI

Magazine,1996:37-54.

5. GiuseppePolese,MassimilianoTroiano,Genoveffa

Tortora,Systemapplicationsandexperience:Adata

miningbasedsystemsupporting tacticaldecisions,

Proceedingsof the14thinternationalconferenceon

Softwareengineeringandknowledgeengineering ,

pp.6812002:681-684.

表六：糖尿病之疾病關聯分析

患A疾病且患B疾病人數支持度信賴度

糖尿病高血壓 80000 0.015967056 0.266222962

糖尿病高血壓性心臟病 36500 0.015967056 0.121464226

糖尿病便秘 22000 0.015967056 0.073211314

糖尿病純高膽固醇血症 20500 0.015967056 0.068219634

糖尿病大腸癌 16500 0.015967056 0.054908486

【資料來源：本研究彙整】



6. H.Mannila,H.Toivonen,andA.I.Verkamo,Efficient

algorithms fordiscovering associations rules, In

Proceedings ofAAAIWorkshop on Knowledge

DiscoveryinDatabase,1994.

7. H.Ragaran,L.Rendell,M.Shaw,andA. tessmer

A, Lookahead feature construction for learning

hardconcepts,Proc.10thIntern.Conf.OnMachine

Learning,1993:252-259.

8. Ian, H.W. and Eibe, F, Data Mining –Practical

MachineLearningToolandTechniqueswithJava

Implementations,MorganKaufmann,2000.

9. K.E.Burnthornton andL.denbrand,Myocardial-

infarction-pinpoint thekeyindicators inthe12-lead

ECGusingdatamining,Computerandbiomedical

research,Vol.31,Iss.4,1998;31:293-303.

10. R.Agrawal,T. Imielinski, andA.Swami,Mining

association rules between sets of items in large

database,ACMSIGMODInternationalConference

onManagementofData,Washington,1993:207-216.

11. Tom M. Mitchell , Machine Learning and Data

Mining, COMMUNICATIONS OF THEACM,

1999;42:3-36.

12. U. M. Fayyad, G. P. Shapiro, P. Smyth, and R.

Uthrusamy,AdvancesinKnowledgeDiscoveryand

DataMining,AAAIPress,1996.

13. Hugin5.4LitedevelopbyHuginExpertSoftware

Corp.,http://www.hugin.com./

14. 林俊榮、陳玉豐、吳帆，運用資料擷取技術建構

輔助臨床處置專家系統知識庫，第十四屆國際資

訊管理研討會，pp.981-988，中正大學，嘉義，

民國92年。

15. 李卓翰，「資料倉儲理論與實務」，台北：學貫

行銷股份有限公司，民國92年。

16. 沈兆陽，「資料倉儲與Analysis Services SQL Server

2000 OLAP解決方案」，台北：文魁資訊，民國

91年。

17. 吳旭智、賴淑貞譯，「Data Mining 資料採礦理論

與實務-顧客關係管理的技巧與科學」，台北：維

科圖書，民國90年。

18. 陳迪祥，「以資料探勘技術發掘疾病隱藏關係之

研究」，國立暨南國際大學資訊管理研究所碩士

論文，民國92年。

19. 陳佳楨，「資料探勘應用於就診行為與醫師排班

之研究-以埔里基督教醫院為例」，國立暨南國際

大學資訊管理研究所碩士論文，民國92年。

20. 陳益良，「應用資料探勘探討老人就醫特性-以高

雄市三民區為例」，高雄醫學大學健康科學院公

共衛生研究所碩士論文，民國92年。

21. 楊琇媛，「利用資料倉儲與資料探勘技術於招生

策略與學生特質分析之研究」，中原大學資訊管

理學系碩士學位論文，桃園，民國92年。

22. 盧展皓，「漸進式資料探勘技術在醫療上的應用-

以門診為例」，中華大學碩士論文，民國92年。


Original Article

Using Apriori Algorithm to Construct the Season-Patient Relationship Model of Pandemic

Chun-Jung Lin1 ,Li-Fen Wang2, Shu-Li Wang3*, Li Hsing Chang1, and Shiang-Lan Shiu1

Department of Computer Science and Information Management, Hung-Kuang University, Department

of Administration , Kung-Tien General Hospital; Department of Dental Laboratory Technology,

Central Taiwan University of Science and Technology. Taichung, Taiwan

＊Corresponding authorReceived：10 Aug 2009；Accepted：31 Aug 2009

Abstract

NHI commencement of process in 1995 and the NHI card made of paper replacement for

the chip card in 2003. From that to show people’s medical record are records completely with

medical electronically. Those data will collect to the Central Health Insurance Bureau by all medical

institutions applies for medical expenses. A large number of digitization data, let we can use

epidemiological analysis and prediction by statistics in the past, but now change to analysis the

existing medical records by data mining techniques, to find hidden information in that. Besides,

when doctor treatment may have assisted or the people may have reference when medical care.

These papers propose a relational data mining as the framework, and use the association

rule in data acquisition techniques to discussion whether this is relationship between seasons and

disease or between disease and disease. This paper use disease analysis with year and season to

get support and reliability of disease. Illustrate this range of diseases’ collection of high-frequency

items, further relational analysis between diseases. To speculate support and reliability of disease

and forecast hidden disease when we suffer from the disease. And then, it will show research

achievement by graphically.

Key Words: Data Mining, Association rule, Apriori, Epidemiology

以apriori 演算法建構季節流行病關係模型 ·...

Documents