data mining
TRANSCRIPT
Data Mining
954907 廖凡升954919 莊秉諺954911 陳家翔954913 呂冠龍954924 余如惠954963 陳芷瀅
Data mining
• Extracting knowledge from large amount of data.
• The exploration and analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns and rules.
Data 定義
[ 技術定義 ]
• 結構化• 半結構化• 非結構化資料 ( 分佈在網路 : 異構資料 ?!)
Mining 定義
[ 定義 ]
• 對資料庫中資料進行 ( 萃取 / 轉化 / 分析 /模式化 / 處理 )
• 從中萃取輔助決策
為什麼會有 data mining?
發展 起因 (1989)
• 超大型資料庫的出現 ( 資料倉儲 )• 先進電腦技術 ( 網路技術 / 平行處理系統
)
• 管理的需求 ( 經濟全球化 / 市場壓力 )
• 對資料採擷的精深計算能力 ( 統計學 / 集合論 / 認識論 / 人工智慧 )
Data Mining 應用範圍
• 1. 資訊管理• 2. 決策支援• 3. 查詢最佳化• 4. 程序控制
Data mining 步驟• 釐清目標• 獲取相關技術與知識• 整合與查核• 去除錯誤、不一致與不完整 • 取樣與試驗 • 研發模式( model ) • 測驗與檢核 • 找出假設並解釋
Data mining 的功能
• 分類 (Classification)
• 推估 (Estimation)
• 群集化 (Cluster)• 同質分組 (Affinity Group)
• 序列 (Sequential)
• 描述 (Description)
分類 (Classification) [ 類型分析 ]
• 區分為兩大種類 – 離散變數 (discrete variables)– 連續變數 (continuous variables)
• 二元對立的概念• 範例 :
– 交叉銷售 ( 客戶是否購買 )
– 信用風險預測 ( 是否會呆帳違約 )
推估 (Estimation) [ 預測分析 ]
• 迴歸分析• 未知連續數值的走向與趨勢• 範例 :
– 金融商品價格趨勢變化預測– 進貨、銷貨、存貨價量變化趨勢預測
群集化 (Cluster) [ 群集分析 ]
• 根據相似性 , 將相似的事物分群• 綜合各項屬性的研判 , 找出事務相似性的內
部結構• 一種資料清理的步驟• 範例 :
– 顧客分群 ( 根據顧客屬性相似度 )– 晶圓製程瑕疵分布 ( 根據瑕疵分部空間相似度 )
同質分組 (Affinity Group) [ 鏈結分析]
• 找出事物間隱藏的關聯性• 關聯規則 (association rule)
• 購物籃分析 (basket analysis)• 範例 :
– 網頁結構分析– 病例關鍵字關聯性分析
序列 (Sequential) [ 次序相關分析 ]
• 事務發生的先後順序• 時序規則 (sequential pattern)
• 範例 :–逾期繳款行為模式– 網頁瀏覽序列分析
描述 (Description)
• 透過視覺化以及觀察來找出續多有意義的規則
Data Warehouse 主要功能• 主題導向的資料組織• 資料的整合性• 資料的一致性• 資料的時間差異性• 資料的不變動性
Data Warehouse 的主要目的
• 為了即時支援重要的企業決策所以 data warehouse 才因應而生
備忘錄
• 新增一個案例解釋流程• 異構資料• 跟他約咪咪很挺 不如去問陳家楨• 找案例
– 1. 資訊管理– 2. 決策支援– 3. 查詢最佳化– 4. 程序控制