楊立偉博士 台灣科技大學 資訊管理學系

41
楊楊楊楊楊 楊楊楊楊楊楊 楊楊楊楊楊楊 2014 Spring 楊楊楊楊 Knowledge Engineering Confidential and Proprietary

Upload: cassidy-bolton

Post on 31-Dec-2015

155 views

Category:

Documents


0 download

DESCRIPTION

楊立偉博士 台灣科技大學 資訊管理學系. 知識工程 Knowledge Engineering. 2014 Spring. Confidential and Proprietary. 楊立偉教授. 專長領域為資料庫及語意分析 技術 、知識管理 、數位行銷. 課程大綱. 課程目標 課程對象 教學方式 課程網址 http ://homepage.ntu.edu.tw/~wyang/ke2014. 巨量資料時代. Unstructured (text) vs. structured (database) data in 1996. - PowerPoint PPT Presentation

TRANSCRIPT

楊立偉博士台灣科技大學 資訊管理學系

2014 Spring

知識工程 Knowledge Engineering

Confidential and Proprietary

Copyright © Proprietary and Confidential. All rights reserved.

專長領域為資料庫及語意分析技術、知識管理、數位行銷

楊立偉教授

現任 台科大資管系兼任助理教授 2008~

台大工管系暨商研所兼任助理教授 2006~

資訊及通信國家標準技術委員

意藍資訊   董事總經理(創辦人) 1999~

       國內規模最大的網路情報與社群口碑自動分析平台 

      

龍捲風科技  董事總經理

       國內企業搜尋引擎市佔率最高;國際檢索競賽第一名

經歷 智威湯遜數位行銷首席顧問、尚藍互動行銷共同創辦人

2009 年獲選 100 MVP 最有價值經理人,擁有超過 20 項語意分析

專利

2012 年榮獲國家雲端創新獎、數位時代「創業之星」首獎

2

課程大綱

• 課程目標

• 課程對象

• 教學方式

• 課程網址– http://homepage.ntu.edu.tw/~wyang/ke2014

巨量資料時代

Unstructured (text) vs. structured (database) data in 1996

0

20

40

60

80

100

120

140

160

Data volume Market Cap

UnstructuredStructured

Source: Stanford NLP

Unstructured (text) vs. structured (database) data in 2006

0

20

40

60

80

100

120

140

160

Data volume Market Cap

UnstructuredStructured

Source: Stanford NLP

Copyright © Proprietary and Confidential. All rights reserved.

Trend of Big Data

Big Data 係指資料大量成長

根據 IBM 的研究,全世界 90% 的資料是在過去 2 年產生

Google 、 Facebook 等,就是站在 Big Data 上的範例

巨大的數據源,將改變整個學術界,商界和政府

依賴新的資訊科技來處理包括 capture , storage , search , analytics 等

7

Copyright © Proprietary and Confidential. All rights reserved.

"Data Scientist : The sexist job of the 21st

century", Harvard Business Review, Oct

2012

8

巨量資料人才 需求大幅增加

Copyright © Proprietary and Confidential. All rights reserved.

Obama Administration : Big Data is a Big

Deal

9

白宮在 2012 年 3 月宣布,將投資 2 億美元啟動「海量資料研究 和發展計畫」,包括 Big Data 分析及 Big Data 在醫療、天氣和國防等領域的運用;白宮甚至將數據資料定義為「未來的新石油」。顯然,一個國家擁有數據資料的規模和解釋運用的能力,已成為一國核心資產和國力指標。 ( 中國時報 2013/5/12)

Copyright © Proprietary and Confidential. All rights reserved.

Big Data 巨量資料分析的應用緣起

Source : IBM 2012 智慧科技論壇10

Copyright © Proprietary and Confidential. All rights reserved.

Big Data 的主要來源

Source : IBM 2012 全球 CEO 調查報告

11

User data, Transaction data, Social data, Machine data

Copyright © Proprietary and Confidential. All rights reserved.

Big Data 的特性

數量大、產生速度快、多樣性、可能存有誤差資料

Source : IBM Big Data Hub

12

Copyright © Proprietary and Confidential. All rights reserved.

Big Data 的應用方式

運用資料與演算,達成智慧決策

Source : IBM 2012 全球 CEO 調查報告

13

Search Market (2010, IDC)

Search Market (2010, IDC)

企業搜尋可改善決策

讓所有決策者都能察覺重要知識、風險、專家的存在

大多數人都在 濃霧裡做決定

• 只尋求已知人物的建議• 參考分析數量有限• 不知道自己缺乏什麼• 常常因此拖延決策

搜尋使企業讓知識工作者改善商務決策

搜尋撥雲見日Source: Microsoft

用搜尋創造價值把使用者連往一切

Source: Microsoft

專家

答案 產品

警示

內容擷取

查詢處理

結果處理

結構

化資

料多

媒體

非結

構化

資料

搜尋

分析提煉

連接一切

完全安全

個人化結果

高適應力、即時

語言處理

答案

搜尋引擎運作原理

Source: Microsoft

Search Market Competitors

• Forrester Q2 2006 :

Enterprise Search

Platforms

企業搜尋相關新聞 (1) Search

• Microsoft Bids $1.2B for Fast (2008)

– Microsoft 以新台幣 360 億併購全球第二大企業搜尋軟體公司

– 大幅強化 Enterprise Search 版圖

• HP To Buy Enterprise Software Autonomy

For $10.2 Billion In Cash (2011)

– HP 以新台幣 3060 億併購全球第一大企業搜尋軟體公司

– 硬體公司轉進企業軟體與服務市場

企業搜尋相關新聞 (2) Search

• Google 員工自立門戶創立 Cuil 打老東家 (2008)

– 新的搜尋呈現技術,將內容拼版重組,創造更高價值

相關新聞 (2)

企業搜尋相關新聞 (3) Text Mining

• 微軟以美金 1 億收購語義搜索 Powerset 對抗谷歌 (2008)

– 其搜尋技術能夠理解用戶輸入的短語的真實含義,

– 在這種理解的基礎上返回搜索結果。

• Apple 以美金 2 億收購個人助理 Siri (2010)

– 來自 Stanford Research Institute 的研究

– 透過口語介面,理解個人需求 context ,提供對應服務

相關新聞 (3)

企業搜尋相關新聞 (4)

• 微軟宣佈推出新一代的搜尋引擎服務,並正式命名為Bing (2009)

– Bing注重簡單性,強調更符合使用者的資訊需求。

– Bing透過事先計算,迅速地把各類相關的資料整理及分類,展示給使用者,可說是一種「決策引擎」( decision engine)

– 例如當搜尋航空公司的起飛及降落時間,除了提供搜尋結果外,也會顯示降落地點的飯店和天氣資料等,甚至還可針對機票未來漲跌的價格提供預測。

企業搜尋引擎的未來 : Search + Text Mining• 自然語言處理 (NLP) 與文字探勘 (Text mining) 是美國麻省理工學院MIT選為未來十大最重要技術之一

• 是重要的跨學域研究 (inter-discipline research)

– Linguistics 語言學 , and Computing Linguistics 計算語言學

– Information Retrieval and Extraction 資訊檢索與擷取– Text Mining 文本探戡 and Knowledge Discovery 知

識探索– Ontology, Domain knowledge… etc.

• 先能處理大量資訊,再將處理層次提升– Ex. 全文檢索 → 摘要 → 意見與觀點偵測 → 找出意見持有者

 → 找出比較性意見 → 做持續性追蹤 → 找出答案 … .Info Retrieval & Extraction → Text Mining → Knowledge Discovery

案例: Tornado Search Platform 搜尋引擎架構

External Data

Searcher Indexer

Term ExtractTerm Index

Fuzzy SearchSynonym Phrase

Wild-CardMulti-field Filter

TS Platform

Composer/ Refiner

PreprocessingClassifying

Tagging

Index DB

Application(User Interface)

Application(User Interface)

DBMSOther

Systems

MetaStore

Copyright © Proprietary and Confidential. All rights reserved.

關聯計算

案例 : 語意分析平台 Tornado ENLP

Platform

29

關聯圖(知識地圖)

曾雅妮

LPGA

高球

妮妮

球后

詞彙擷取

風暴圖 分類導覽

結果呈現

斷詞 / 新詞 地址 人名 / 組織名 電話 帳號 自訂詞庫

查詢輔助智慧提示 自動摘要 情緒分析 意見評價相關文件形似相關

分類引擎 語意解析內容分析

非結構資料整合檢索 龍捲風知識檢索平台

語意關聯

實體擷取

案例 : 考慮語言層級的檢索功能

多國語系全文檢索 可用 關鍵字 配合 (AND|OR|NOT) 與萬用字

支援條件過濾   可用日期、作者、分類等多重條件加以篩選

支援模糊查詢   貿協→外貿協會,中研院→中央研究院

支援詞性變化    open→opens 、 opened 、 opening… 等

支援同音字查詢  意大利→義大利,台灣→臺灣

支援同義字查詢  電腦→ Computer 、 電子計算機…等

雙向繁簡對譯   光碟→光盘、印表機→打印機、晶片組→芯片組

相關詞、主動推薦、自動完成、自動拼字提示

案例 : 語言分析功能

自訂主題追蹤 群集推薦與摘要

知識地圖

案例 : 多維度檢索與分類時間

作者

來源

形態

依知識分類

案例 : 語言分析與標記

• Tagging – 人名、關鍵詞、時間、地點、情續

• Summary – 摘要、相關詞、事件追蹤

關於GOOGLE

• 1998/9 車庫成立

• 1999/6 募US$2.5M

• 2000/10月 崩盤 (還好沒 IPO)

• 2000 年初每天 700萬次搜尋10 多人小公司 每月花US$50萬 沒收入

推廣告又無起色 年底剩US$5M

• 2001推 Adword

當年賺US$7M 少數獲利的網路公司

年營收 8.6M 相比 Yahoo 717M 不到 2%

• 2002 達 Yahoo 一半

2003拉平 2005超越 2008 成為 3倍 2012 達 322

億美元

• 連結分析排名• 付費排名• 廣告獨立於外• 競價 + 自動化• 點擊才計價

• Business model of Google

Tool Provider → Media → Platform / Channel

Image source: Standford NLP

學習目的

• 這是一門介紹觀念與演算法的課– 搜尋引擎怎麼做的?

– 網路資訊如何收集?

– 什麼是語意分析與 Text Mining?

• 這是一門著重應用與實務的課– 運用最新工具與技術

– 在既有基礎之上進行開發,發展出實際應用

– 培養一技之長,以便未來能夠就業,直接進入產業

前屆成果:租屋搜尋、音樂搜尋、論文搜尋、 鄉民搜尋、電影評分     好康特惠、達人網、旅遊搜尋、美食搜尋、商品口碑等

授課與評分方式

• 主要採用課堂上課,以投影片搭配範例解說。

• 含實作議題討論與問答。

• 評分方式 :

– 指定題目作業 (60%)

• 每組 1~4 人 , 共 3 次

– 期末專題 (40%)

• 每組 1~4 人

• 包含提案與簡報 ( 實機展示 )

參考書目• Introduction to Information Retrieval

Christopher D. Manning, etc. Cambridge University Press, 2008

• 其它

問題討論