第 1 章 基本概念 © 2008 台灣培生教育出版 (pearson education taiwan)

14
第 1 第 第第第第 © 2008 第第第第第第第第 (Pearson Education Taiwan)

Post on 19-Dec-2015

241 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 第 1 章 基本概念 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

第 1 章

基本概念

© 2008 台灣培生教育出版 (Pearson Education Taiwan)

Page 2: 第 1 章 基本概念 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

收集了大量的資料 – 來自網站和電子商務交易– 來自商店的購物紀錄– 來自銀行和信用卡交易紀錄

電腦設備的功能越來越強大,且價錢越來越便宜 競爭壓力越來越高

– 以提供更好、客製化的服務作為競爭優勢(如顧客關係管理)

為什麼需要資料探勘 ? 商業上的應用

Page 3: 第 1 章 基本概念 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

為什麼需要資料探勘 ? 科學上的應用

資料收集和儲存技術大幅提升 (GB/ 小時 )

– 利用衛星收集資料– 太空望遠鏡收集氣候資料– 微陣列技術產生基因的描述性資料

傳統技術無法分析這些原始資料 資料探勘可以協助科學家

– 分類資料– 形成假設檢定

Page 4: 第 1 章 基本概念 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

探勘大量資料集 :動機

資訊通常「隱藏」在並非顯而易見的資料之中 分析師需花費數週才可發現有用的資訊 多數的資料並未經過分析

Page 5: 第 1 章 基本概念 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

何謂資料探勘 ?

– 是一種能夠在大量資料自動化發現一些有用資訊的流程,它可以用來處理大量資料,而且可以發現一些新奇以及有用的樣式,而這些知識是前所未知的。

Page 6: 第 1 章 基本概念 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

什麼不是資料探勘 ?

– 從電話簿中查到電話號碼 – 從網站的搜尋引擎查詢有關「 Amazon 」的資訊

Page 7: 第 1 章 基本概念 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

採用來自機器學習、圖形辨識、統計學和資料庫系統等領域的想法

傳統的技術可能不適用於處理

– 大量的資料– 高維度資料異質和分散性的資料

資料探勘的起源

機器學習/圖形辨識

統計學

資料探勘

資料庫系統

Page 8: 第 1 章 基本概念 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

資料探勘的工作

預測方法– 以其他屬性的值為基礎來預測特定屬性的值

敘述性方法– 找出人類可以解釋的描述資料的樣式

Page 9: 第 1 章 基本概念 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

四種主要的資料探勘技術

預測模式 關聯規則分析 分群分析 異常偵測

Page 10: 第 1 章 基本概念 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

預測模式

建立一個將目標變數視為解釋變數的函數之模式

預測模式有兩種:– 分類模式:應用在目標變數為離散型的資料上

– 回歸模式:應用在目標變數為連續型的資料上

範例:花型的預測

Page 11: 第 1 章 基本概念 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

關聯規則分析

用來發現資料中特徵屬性間具有高度關聯的一種樣式

範例:購物籃分析

Page 12: 第 1 章 基本概念 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

分群分析

發現一群具有相似特質的觀察值,而這群具有相似特質的觀察值具有一些和其他觀察值不一樣的特性

範例:文件分群

Page 13: 第 1 章 基本概念 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

異常偵測

從一群資料中找出一些具有顯著差異的觀察值出來

範例:信用卡詐騙的偵測

Page 14: 第 1 章 基本概念 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

 © 2008 台灣培生教育出版 (Pearson Education Taiwan)

資料探勘的挑戰

擴展性 高維度的問題 異質性及複雜性的資料 資料品質 資料擁有者與分散性 非傳統式的分析