data mining -...

51
Data Mining 資料探勘 國立聯合大學 資訊管理學系 陳士杰老師 簡介 Introduction

Upload: others

Post on 29-Oct-2019

15 views

Category:

Documents


0 download

TRANSCRIPT

  • Data Mining資料探勘

    國立聯合大學 資訊管理學系 陳士杰老師

    簡介 Introduction

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 2

    大綱動機: 為什麼要資料探勘?

    什麼是資料探勘?

    資料探勘: 在何種資料?

    資料探勘功能

    所有樣式都是有趣嗎?

    資料探勘系統分別

    資料探勘工作基本項目

    資料探勘系統與資料庫或資料倉儲系統的整合

    資料探勘的主要議題

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 3

    為什麼要資料探勘?

    爆炸性成長的資料: 從 Terabytes 到 Petabytes

    資料收集與可用資料

    自動資料收集工具, 資料庫系統, 網際網路, 電腦化社群

    大量資料主要來源

    商業: 網際網路, 電子商務, 交易, 股票, …

    科學: 遙控感應, 生物資訊, 科學模擬, …

    社會與每個人: 新聞, 數位相機,

    我們被資料所淹沒我們被資料所淹沒, , 但是卻渴望知識但是卻渴望知識! !

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 4

    “需要是發明之母”

    —資料探勘—

    自大量資料庫中的資料萃取出所感興趣的知識 (Knowledge)

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 5

    什麼是資料探勘?資料探勘 (從資料發掘知識)

    從龐大資料中擷取有趣 (Non-trivial, Implicit, Previously unknown,

    Potentially useful) 樣式或知識

    資料探勘: 誤稱?

    Data Mining 探勘的不僅僅是資料,而是 知識 !!

    其它替用名稱資料庫發掘知識 (Knowledge Discovery in Databases (from Data); KDD),

    知識擷取 (Knowledge Extraction),

    資料/樣式分析 (Data/Pattern Analysis),

    資料考古學 (Data Archeology),

    資料疏濬 (Data Dredging),

    資訊獲取 (Information Harvesting),

    商業智慧(Business Intelligence)…等.

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 6

    許多人將Data Mining與另一個常使用的術語視為同義

    字:Knowledge Discovery in Database (KDD) — 廣義的Data mining

    此外,尚有其它的觀點是將Data Mining視為Knowledge

    Discovery的其中一個基本步驟— 狹義的Data mining

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 7

    Knowledge Discovery (KDD) Process

    Data mining—core of knowledge discovery process

    1 Data Cleaning and2 Data Integration

    Databases

    Data Warehouse

    Task-relevant Data

    3 Selection and4 Transformation

    5 Data Mining

    6 Evaluation and 7 Presentation

    Patterns

    KDD Key Steps

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 8

    KDD Process: Several Key Steps

    1.

    Data cleaning (資料清理)

    移除噪音(Noise) 和不一致的資料 (Inconsistent Data)

    佔KDD所有工作量的 60% !

    2.

    Data integration (資料整合)

    將多重來源的大量資料加以組合。

    3.

    Data selection (資料選擇)

    將切合分析任務之資料從DB中找出。

    4.

    Data transformation (資料轉換)

    將資料轉換或合併成探勘所需的格式,例如彙總與聚合。

    5.

    Data mining (資料探勘)

    以智慧型的方式擷取資料樣式。

    選擇合適的探勘演算法以找尋感興趣的樣式。

    6.

    Pattern evaluation (樣式評估)

    根據一些有趣的測量方法,來分辨真正有趣的樣式。

    7.

    Knowledge presentation (知識表示)

    將探勘到的知識,利用視覺化或一些知識表示的技術,呈現給使用者。

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 9

    Data Mining and Business Intelligence

    Increasing potentialto supportbusiness decisions

    End User

    BusinessAnalyst

    DataAnalyst

    DBA

    Decision Making

    Data PresentationVisualization Techniques

    Data MiningIntelligence Discovery

    Data ExplorationStatistical Summary, Querying, and Reporting

    Data Preprocessing/Integration, Data Warehouses

    Data SourcesPaper, Files, Web documents, Scientific experiments, Database Systems

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 10

    為什麼不是傳統的資料分析?大量資料

    所採用的演算法必須有高度的可擴展性,以有效處理TB級的資料

    高維資料

    可高達數萬個不同的維度

    資料的高度複雜性

    串流資料

    時間資料、序列資料、時序資料

    圖、社會網路、多關聯資料

    異質資料庫與遺產資料庫

    空間資料、時空資料、多媒體與Web資料

    新的、複雜的應用

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 11

    注意:所有東西都可稱“Data mining”嗎?

    在目前市場上有些東西被稱為 “Data Mining System”。然而,並不全然都能執行真正Data Mining的全面功效:

    Machine Learning System, Statistical Data Analysis Tool

    (演繹、推論) 專家系統

    無法處理海量資料

    OLAP, Database System, Information Retrieval System

    簡單搜尋與查詢處理

    相較於以上系統,Data Mining System關注於更廣泛的範

    圍,為多學科之融合。

    海量資料的處理,強調的是演算法的可擴展性

    隨著資料量的增長,演算法運行時間的增長應是呈接近線性的。

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 12

    資料探勘: 許多方法的匯合

    資料探勘

    資料庫系統 統計學

    其他學科(資訊檢索 IR, …)

    演算法

    機器學習 視覺化

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 13

    正因為資料探勘是匯整多樣化的不同學科而成,所以資

    料探勘的研究常被期待去產生一個大型且多變化的Data

    Mining System。

    由不同的觀點,會導引出不同類別的DMS議題:

    資料觀點 (Data View): 探勘資料種類

    知識觀點 (Knowledge View): 探勘知識種類

    方法觀點 (Method View): 使用方法種類

    應用觀點 (Application View): 所適用的應用種類

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 14

    Kinds of databases mined (根據所探勘的資料庫類型):

    關聯,資料倉儲,日常交易,串流,物件/關聯導向,空間,時間序列, 文

    字,多媒體,異質,遺產,全球資訊網路

    Kinds of Knowledge mined (根據所要探勘的知識類型):

    特徵化, 區別, 關聯, 判別, 分群, 趨勢/偏差, 離異值分析等

    多個/整合函數與多層次探勘

    Techniques utilized (根據探勘所用的技術):

    資料庫導向, 資料倉儲 (OLAP), 機器學習, 統計, 視覺化等

    Applications adapted (根據探勘的應用):

    零售, 電訊業, 銀行, 詐欺分析, 生物資料探勘, 股票市場分析, 文字

    探勘, 網際網路探勘等

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 15

    資料探勘: 在何種資料上?

    資料庫導向之資料集合與應用

    關聯式資料庫, 資料倉儲, 交易式資料庫

    進階資料集合與進階應用

    資料串流與感應資料

    時間資料, 序列資料 (包含生物序列) , 時序資料

    結構資料, 圖形, 社會網路與多關聯資料

    物件導向資料庫

    異質與遺產資料庫

    空間資料與時空資料

    多媒體資料庫

    文字資料庫

    全球資訊網路

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 16

    交易式資料庫 (Transactional databases)

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 17

    關聯式資料庫 (Relational databases)

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 18

    資料倉儲 (Data warehouses)

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 19

    時間、序列與時序資料庫 (Temporal, Sequence, and Time-Series Databases)

    Temporal Database (Temporal Database (時間資料庫時間資料庫))

    存放與時間相關的屬性資料。

    Sequence Database (Sequence Database (序列資料庫序列資料庫))

    存放彼此間有前後次序關係的資料,這些資料之關的次序關係可能與時

    間有關,也可能與時間無關。

    Customer shopping sequences, Web click streams, and biological sequences.

    TimeTime--Series Database (Series Database (時序資料庫時序資料庫))

    存放與時間有關的序列資料。

    The stock exchange, inventory control, the observation of natural phenomena.

    Data mining 技術可以被用來找出這些資料庫中資料之間的特徵,或

    是這些資料變化的趨勢。

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 20

    空間與時空資料庫 (Spatial and Spatiotemporal Databases)

    Spatial Database (Spatial Database (空間資料庫空間資料庫))

    包含與空間相關的資訊

    空間拓樸特徵

    (非)空間屬性特徵

    對象在時間上的變化

    Examples include: Geographic databases, VLSI, Medical and

    Satellite image database.

    Spatiotemporal Database (Spatiotemporal Database (時空資料庫時空資料庫))

    存放會根據時間改變的空間資料。

    將物體行進的走向加以匯集,可以辨識出奇怪的行進中運輸工具。

    根據疾病隨時間擴散的地理性分佈,可識別出是一般的流行性感冒或

    是生化攻擊。

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 21

    多媒體資料庫 (Multimedia Databases)

    多媒體資料庫實現用電腦管理龐大複雜的多媒體資料,

    主要包括:圖片(Graphics),影像(Image),聲音

    (Audio),視訊(Video),以二進位的方式存放。

    相關物件常花費大量空間,需要特別的儲存與搜尋技

    術。

    這些特別的技術需與標準的Data Mining的方法做整合。

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 22

    異質與遺產資料庫 (Heterogeneous and legacy databases)

    Heterogeneous database (異質資料庫)

    由一群“本質為獨立存在,因需求而彼此被串接在一起”的資料庫所構成。

    這一群資料庫成員之間,彼此可能非常不同。因此要同化所有資

    料庫之間的語義是非常困難的。

    Legacy database (遺產資料庫)

    許多企業之所以會有遺產資料庫的存在,是肇因於資訊科技的長

    期歷史發展結果。

    遺產資料庫是一群異質資料庫。

    從這些資料庫中做資訊交換是很困難的,因為要有明確

    的轉換規則,並考量不同的操作語義。

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 23

    資料串流 (Data Streams)

    資料動態地從一個觀測平台流進流出。

    特性:

    海量 (Huge) 或是無限量 (Infinite volume) 的資料

    動態改變 (Dynamically changing)

    以固定次序流進流出 (Flowing in and out in a fixed order)

    快速回應時間的要求很高 (Demanding fast response time)

    僅允許對單一或少部份資料做細部審視 (Allowing only one or small

    number of scans)

    主要應用場合:

    影像監控 (Video surveillance)

    網路流量 (Network traffic).網頁點選

    股票交易 (Stock exchange)

    天氣與環境的監視 (Weather or environment monitoring)…等等

    在對串流資料的管理與分析上,效能 與 效率 是研究者的大挑戰。

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 24

    文件資料庫 (Text databases)

    利用文字來描述個體。

    這些文字通常不是簡單的關鍵字,而是相當長的句子或

    段落。

    文字資料庫有數種不同的結構:

    高度無結構 (Highly unstructured,如:Web pages)

    半結構 (Semistructured,如:e-mail message, XML web pages)

    完整結構 (Well structured,如:library catalogue database)

    具有完整結構的文字資料庫可藉由關聯式資料庫來實

    作。

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 25

    全球資訊網 (WWW)

    WWW與其相關的分散資訊服務提供豐富的全球性即時

    資訊服務。 這些資訊相互連結以做互動式存取。

    網頁對人們來說是新奇且具備訊息的,然而它們的高度

    無結構性與缺乏預設的綱要、型態與樣式,對利用電腦

    從事Data Mining 來說是一大挑戰

    一些Web Mining的研究議題:

    權威Web網頁分析

    自動Web網頁集群與分類

    Web社群分析

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 26

    資料探勘的主要功能: 可以探勘哪些樣式?資料探勘的主要功能,可以在探勘任務中指明所要發現的

    樣式種類。

    資料勘探的任務 (Data mining tasks) 一般區分成兩類:

    Descriptive (Descriptive (敘述性敘述性)):

    陳述資料庫中所有資料的一般特性。

    Predictive (Predictive (預測性預測性)):

    對現有的資料執行推論工作,以便進行預測。

    有時使用者不知道何種類型的樣式是他所感興趣的,因此

    會同時搜尋多個類型的樣式。

    為了滿足不同使用者的期望與應用,一個資料探勘系統需

    要能夠挖掘不同型態或層次的資料樣式。

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 27

    資料探勘的主要功能與所能挖掘的資料樣式類型:

    Association Analysis (關聯分析)

    Classification and Prediction (分類與預測)

    Cluster analysis (聚類分析)

    Outlier analysis (離異值分析)

    Trend and evolution analysis (趨勢與演化分析)

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 28

    關聯分析 (Association Analysis)

    從交易資料庫、關聯式資料庫或其它資訊儲存系統的大

    量資料項目 (item)中 ,發現有趣的、頻繁出現的樣式

    (Frequent Pattern),並分析在此樣式下,存在於資料項

    目間有趣之關聯 (associations) 和相關性 (correlations)。

    這種關聯在資料中沒有被直接表示出來

    最佳的應用例子就是找出關聯規則 (Association Rule)

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 29

    範例: AllElectronics的行銷經理想要判定,有哪些商品常常被客戶於同一次交易中一起被購買。假設公司的日常交易資料庫中:

    有2筆是有購買computer,其中有1筆也購買了software

    有98筆是有購買software,其中有1筆也購買了computer

    此時,Data Mining System為該公司mining出一條關聯規則:

    buys(X, “computer”) ⇒ buys(X, “software”)[support=1%, confidence=50%]

    X: 表示 “顧客” 的變數

    Confidence (信賴度, 又稱certainty): 表示一個顧客若買了computer,則有50%的機會會買 software

    Support (支持度): 表示在所有有購買computer和software的交易記錄中,只有1%既購買computer又購買software

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 30

    Frequent patterns (頻繁樣式): 在資料集合中,頻繁發生的資料樣式。

    Some kinds of frequent patterns:

    頻繁項目集合 (Frequent itemset):

    在交易資料集當中,經常一起出現的一組項目集合。

    如:牛奶與麵包這一組項目,經常出現在麵包店的交易資料集當中。。

    頻繁子順序樣式 (Frequent subsequential pattern):

    經常出現的子順序。

    如:先買數位相機,再買記憶卡這樣的購買順序,經常出現在3C賣場的交易資料集當中。

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 31

    頻繁子結構樣式 (Frequent substructured pattern):

    一個子結構 (Substructure) 是指資料間的關係呈現不同的結構格

    式,如:圖形結構 (Graphs),樹狀結構 (Trees),或格狀結構

    (Lattices)。子結構可以與項目集或是子順序樣式相結合。

    如:在學校中,行政單位之間呈現樹狀結構;學生與學生之間呈現

    圖形結構。

    如果子結構在交易資料集當中經常出現,則可稱之為頻繁子結構樣

    式。

    如:行政單位的樹狀結構關係,以及學生之間的圖形結構關係在學

    校中經常出現。

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 32

    分類與預測 (Classification and Prediction)

    建立模型 (函數) 以描述並區別不同資料類別或概念的一

    個程序

    例如:根據經、緯度分類來國家、根據外表來分類帥哥

    可用此模型來判斷或預測一些未知對象的類別。

    例如:杰哥是不是帥哥?

    例如: 為了識別乘客是否是潛在的恐怖份子或罪犯,機場

    安全攝影站需要對乘客的臉部進行掃描並辨識臉部的基

    本樣式 (如: 雙眼間距、嘴的大小與形狀…等),然後將得到的樣式與資料庫中的已知恐怖份子或罪犯的樣式進行

    逐個比較,看看是否與其中的某一樣式相匹配。

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 33

    範例範例: Table 6.1 : Table 6.1 指出指出AllElectronicsAllElectronics公司的顧客中,可分成會公司的顧客中,可分成會買電腦與不會買電腦的兩類顧客買電腦與不會買電腦的兩類顧客

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 34

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 35

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 36

    Classification與Prediction對於“預測”這個字眼,嚴格來說尚有些微差異:

    分類 (Classification) 可對一些離散、不連續的資料,從事預測其

    類別的工作 (如:傳統的決策樹)。

    預測 (Prediction) 主要是建構一個連續數值的函數,因此它是從

    事預測數值資料,而非類別 (如:迴歸模型)。

    由於在分析測試資料之前,類別就已經被確定了,所以

    分類通常被稱做有指導學習

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 37

    Cluster: 集群、分群、聚類、簇、群

    在訓練資料中,沒有已知的資料類別。

    從訓練資料中指定某些屬性,藉由對這些屬性內所存放之所有資

    料的相似性計算,就可以完成集群任務。最相似的資料會聚集成

    一個cluster。

    同群內的資料具有較大的相似性;不同群之間的資料具有較小的

    相似性

    由於Cluster無法預先定義,通常需要領域專家對所產生的Cluster

    之含義進行解釋。

    由於在分析測試資料時,類別是未知的,所以又被稱做

    無指導學習無指導學習

    聚類分析 (Cluster Analysis)

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 38

    範例: 集群分析可以在AllElectronics的顧客資料上進行,以便識別顧客的同類子群,這些cluster可以表示每個購物目標群。

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 39

    資料庫會包含不順從一般模型行為的資料,這些資料被稱

    為Outliers Outliers (離異值、異常點、離異值)

    大部份Data Mining方法會將此資料視為雜訊或異常而將之移除

    雜訊或例外? 用於詐騙檢測與極少事件分析

    信用卡詐欺檢測

    行動電話詐欺檢測

    客戶劃分

    醫療分析 (異常)

    分析離異值的工作通常也稱為離異值探勘 (Outlier Mining)

    離異值分析 (Outlier Analysis)

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 40

    對於分析對象隨時間變化的行為,將其中的規律性或是

    趨勢進行陳述或是模型建構

    範例: 假定你有紐約股票交易所過去幾年的主要股票市場

    (時間序列) 資料,並希望投資於高科技工業公司的股

    票。股票交易資料的挖掘研究可以識別整個股票市場和

    特定公司的股票演變規律。這種規律可以幫助預測股票

    市場價格的未來走向,幫助你對股票投資作出決策。

    趨勢與演化分析 (Evolution Analysis)

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 41

    為什麼需要資料探勘?—潛在應用資料分析與決策支援

    市場分析與管理

    目標市場

    客戶關係管理 (CRM) 、購物籃分析、交互銷售、市場區隔

    風險分析與管理

    財務計劃、資源規劃、競爭分析、預測、客戶保持、品管

    詐騙發掘與發掘異常樣式 (離異值)保險、詐欺、反恐

    其他應用

    文字探勘 (新聞群組, 電子郵件, 文件) 與網際網路探勘

    串流資料探勘

    生物資訊與生物資料分析

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 42

    所有樣式都是有趣的嗎?

    資料探勘會產生數以千計的樣式,但並非所有的樣式都

    是有趣的。

    一些需注意的問題:

    什麼樣的樣式是有趣的?

    資料探勘系統可以將所有有趣的樣式產生出來嗎?

    資料探勘系統可否僅產生有趣的樣式?

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 43

    關於第一個問題…一個樣式是有趣的,如果:

    它很容易被人所了解,

    用於新的資料或測試資料時,會有一定程度的正確性,

    有潛在的實用性,

    新穎的(Novel),

    可驗證出使用者想要確認的某些假設

    客觀與主觀的指標

    客觀: 根據樣式結構與統計資訊, 例如 支持度, 信賴度等.

    主觀: 根據使用者對資料信任度, 例如 意料之外, 新穎的, 可執行

    的…等

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 44

    關於第二個問題,尋找所有有趣樣式: 完整性

    資料探勘系統是否可以尋找所有有趣樣式? 是否需要尋找所有有

    趣樣式?

    啟發式(Heuristic) 或 徹底尋找 (exhaustive search)

    關於第三個問題,僅搜尋有趣樣式: 最佳化問題

    資料探勘系統是否可以僅搜尋有趣樣式?

    方法

    產生所有樣式並過濾掉無趣樣式

    僅產生有趣樣式— 探勘查詢最佳化

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 45

    評估有趣樣式的度量

    用於指導挖掘過程或挖掘之後,評估所發現的樣式,將

    不感興趣的樣式從知識中分開

    沒有興趣度度量,挖掘出來的有用樣式,很可能會給淹

    沒在用戶不感興趣的樣式中。

    常用的四種興趣度的客觀度量︰

    簡單性 (Simplicity)

    確定性 (Certainty)

    實用性 (Utility)

    新穎性 (Novelty)

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 46

    簡單性和確定性

    簡單性(simplicity)

    樣式是否容易被人所理解

    可根據樣式架構的函數

    樣式的長度、屬性的個數、符號個數

    e.g. 規則長度或決策樹的節點個數。

    確定性(certainty)

    表示一個樣式在多少機率下是有效的

    信賴度 (Confidence)

    P(A|B) = #(A and B)/ #(B),判別信賴程度或正確率, 確定因

    素, 規則強度, 規則品質, 區別權重等

    e.g. buys(X, “computer)=>buys(X, “software”) [30%, 80%]

    100%信賴度︰準確的。

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 47

    實用性和新穎性

    實用性 (Utility)

    可以用支持度來進行度量︰

    e.g. buys(X, “computer)=>buys(X, “software”) [30%, 80%]

    同時滿足最小信賴度臨界值和最小支持度臨界值的關聯規則稱為

    強關聯規則。

    新穎性 (Novelty)

    提供新訊息或提高給定樣式集性能的樣式

    透過刪除冗餘樣式來檢測新穎性 (一個樣式已經為另外一個樣式

    所蘊涵)

    Location(X, “Canada”)=>buys(X, “Sony_TV”) [8%, 70%]

    Location(X, “Vancouver”)=>buys(X, “Sony_TV”) [2%, 70%]前一規則比後一規則更一般,因此我們可以預料前一規則比後一規則更

    常出現。

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 48

    102年8月18日星期日 Data Mining: Concepts and Techniques 48

    資料探勘主要議題

    探勘方法與使用者互動議題

    在資料庫探勘不同類型知識

    在不同抽象層次進行互動知識探勘

    資料探勘查詢語言與特別資料探勘

    資料探勘結果呈現與顯示

    處理雜訊與不完全資料

    樣式評估 : 有趣問題

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 49

    效能議題

    資料探勘方法的效率與可量度性

    平行化、分散式與遞增式探勘方法

    不同資料類型議題

    處理關聯與複雜資料類型

    在不同性質資料庫與全球資訊系統探勘資訊

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 50

    補 充

  • 國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 資料探勘課程資料探勘課程 ((陳士杰陳士杰)) 51

    位元組的次方單位

    KB (Kilobyte; 千位元組):103 (千)

    MB (Megabyte; 百萬位元組):106 (百萬)

    GB (Gigabyte; 吉位元組):109 (十億)

    TB (Terabyte; 兆位元組):1012 (兆)

    PB (Petabyte/Petrabyte; 拍位元組):1015 (千兆)

    EB (Exabyte; 艾位元組):1018 (百京)

    ZB (Zettabyte; 皆位元組):1021 (十垓ㄍㄞ)

    YB (Yottabyte; 佑位元組):1024 (秭ㄗˇ)

    簡介�Introduction大綱為什麼要資料探勘? 投影片編號 4什麼是資料探勘?投影片編號 6Knowledge Discovery (KDD) ProcessKDD Process: Several Key StepsData Mining and Business Intelligence 為什麼不是傳統的資料分析?注意:所有東西都可稱“Data mining”嗎?資料探勘: 許多方法的匯合投影片編號 13投影片編號 14資料探勘: 在何種資料上?交易式資料庫 (Transactional databases)關聯式資料庫 (Relational databases)資料倉儲 (Data warehouses)時間、序列與時序資料庫 (Temporal, Sequence, and Time-Series Databases)空間與時空資料庫 (Spatial and Spatiotemporal Databases)多媒體資料庫 (Multimedia Databases)異質與遺產資料庫 (Heterogeneous and legacy databases)資料串流 (Data Streams)文件資料庫 (Text databases)全球資訊網 (WWW) 資料探勘的主要功能: 可以探勘哪些樣式?投影片編號 27關聯分析 (Association Analysis)投影片編號 29投影片編號 30投影片編號 31分類與預測 (Classification and Prediction)投影片編號 33投影片編號 34投影片編號 35投影片編號 36聚類分析 (Cluster Analysis)投影片編號 38離異值分析 (Outlier Analysis)趨勢與演化分析 (Evolution Analysis)為什麼需要資料探勘?—潛在應用所有樣式都是有趣的嗎?投影片編號 43投影片編號 44評估有趣樣式的度量 簡單性和確定性實用性和新穎性資料探勘主要議題投影片編號 49投影片編號 50位元組的次方單位