data mining

Data Mining

954907 廖凡升954919 莊秉諺954911 陳家翔954913 呂冠龍954924 余如惠954963 陳芷瀅

Data mining

• Extracting knowledge from large amount of data.

• The exploration and analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns and rules.

Data 定義

[ 技術定義 ]

• 結構化• 半結構化• 非結構化資料 ( 分佈在網路 : 異構資料 ?!)

Mining 定義

[ 定義 ]

• 對資料庫中資料進行 ( 萃取 / 轉化 / 分析 /模式化 / 處理 )

• 從中萃取輔助決策

為什麼會有 data mining?

發展起因 (1989)

• 超大型資料庫的出現 ( 資料倉儲 )• 先進電腦技術 ( 網路技術 / 平行處理系統

)

• 管理的需求 ( 經濟全球化 / 市場壓力 )

• 對資料採擷的精深計算能力 ( 統計學 / 集合論 / 認識論 / 人工智慧 )

Data Mining 應用範圍

• 1. 資訊管理• 2. 決策支援• 3. 查詢最佳化• 4. 程序控制

Data mining 步驟• 釐清目標• 獲取相關技術與知識• 整合與查核• 去除錯誤、不一致與不完整 • 取樣與試驗 • 研發模式（ model ） • 測驗與檢核 • 找出假設並解釋

Data mining 的功能

• 分類 (Classification)

• 推估 (Estimation)

• 群集化 (Cluster)• 同質分組 (Affinity Group)

• 序列 (Sequential)

• 描述 (Description)

分類 (Classification) [ 類型分析 ]

• 區分為兩大種類 – 離散變數 (discrete variables)– 連續變數 (continuous variables)

• 二元對立的概念• 範例 :

– 交叉銷售 ( 客戶是否購買 )

– 信用風險預測 ( 是否會呆帳違約 )

推估 (Estimation) [ 預測分析 ]

• 迴歸分析• 未知連續數值的走向與趨勢• 範例 :

– 金融商品價格趨勢變化預測– 進貨、銷貨、存貨價量變化趨勢預測

群集化 (Cluster) [ 群集分析 ]

• 根據相似性 , 將相似的事物分群• 綜合各項屬性的研判 , 找出事務相似性的內

部結構• 一種資料清理的步驟• 範例 :

– 顧客分群 ( 根據顧客屬性相似度 )– 晶圓製程瑕疵分布 ( 根據瑕疵分部空間相似度 )

同質分組 (Affinity Group) [ 鏈結分析]

• 找出事物間隱藏的關聯性• 關聯規則 (association rule)

• 購物籃分析 (basket analysis)• 範例 :

– 網頁結構分析– 病例關鍵字關聯性分析

序列 (Sequential) [ 次序相關分析 ]

• 事務發生的先後順序• 時序規則 (sequential pattern)

• 範例 :–逾期繳款行為模式– 網頁瀏覽序列分析

描述 (Description)

• 透過視覺化以及觀察來找出續多有意義的規則

Data Warehouse 主要功能• 主題導向的資料組織• 資料的整合性• 資料的一致性• 資料的時間差異性• 資料的不變動性

Data Warehouse 的主要目的

• 為了即時支援重要的企業決策所以 data warehouse 才因應而生

備忘錄

• 新增一個案例解釋流程• 異構資料• 跟他約咪咪很挺不如去問陳家楨• 找案例

– 1. 資訊管理– 2. 決策支援– 3. 查詢最佳化– 4. 程序控制

data mining

Technology