軟工人的資料科學奇航-線上遊戲、網路學習與中華職棒 by 許懷中

Post on 12-Jan-2017

6.796 Views

Category:

Data & Analytics

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

軟工人的資料科學奇航 線上遊戲、網路學習、中華職棒

中研院資訊所

許懷中博士

什麼是軟工?

軟工=軟體工程

以系統化方法與定義良好之流程打造高品質軟體

穩定、可重複執行同時不失彈性的開發流程

適當的軟體開發環境

貫串軟體的整個生命週期

需求、設計、開發、測試、維護

2015/8/23 DSC 2015 2

我是軟工人!

在交大十四年,從學士、碩士到博士

大學拿手科目:軟體工程以及物件導向分析與設計

碩士論文主題:軟體整合測試方法與環境

博士論文主題:軟體分析與設計模式 (Design Pattern)

研究所期間在 CMMI 3 的公司兼職,擔任系統整合與開發工程師

資料科學是什麼?

2015/8/23 DSC 2015 4

軟工與資料科學之間有什麼關係呢?

2015/8/23 DSC 2015 5

我的資料科學奇航

2015/8/23 DSC 2015 6

均一教育平台

資料科學與線上遊戲

2015/8/23 DSC 2015 7

線上遊戲的經營困境

高昂的成本

一款遊戲的開發費用介於一百萬到兩億美金之間

代理遊戲

授權金約一百萬美金 (簽約金約三十萬美金)

宣傳費用一檔從數百萬至三千萬台幣不等

網路頻寬每個月三百萬左右

初期投資超過三千五百萬

2015/8/23 DSC 2015 8

線上遊戲的經營困境

極度競爭的環境

平均每年會有兩百款新的線上遊戲上市

2015/8/23 DSC 2015 9

可怕的事實

絕大多數的遊戲生命週期只有四到九個月

在回本前遊戲已經死了

2015/8/23 DSC 2015 10

到底一款遊戲可以活多久?

遊戲的生命週期是可預測的嗎?

玩家是遊戲的生命線

持續進行遊戲的玩家越多=遊戲的生命週期越長

遊戲的生命週期來自玩家對該遊戲的沈迷度

預測玩家對一款遊戲的沈迷度=預測一款遊戲的生命週期

2015/8/23 DSC 2015 11

鑒往知來

量化沈迷度

2015/8/23 DSC 2015 12

2015/8/23 DSC 2015 13

量化沈迷度

上線期間與比例

2015/8/23 DSC 2015 14

量化沈迷度

計算上線率 火山爆發與細水長流的區別?

指定觀察期間的上線率 Ratio of Presence over an Observation Period

=> RoP(OP)

2015/8/23 DSC 2015 15

RoP(OP) 曲線

2015/8/23 DSC 2015 16

符合冪次定律

RoP(OP), FPS2

2015/8/23 DSC 2015 17

RoP(OP) ≈ a ∙ OPβ + b

2015/8/23 DSC 2015 18

玩家沈迷度指標 β

2015/8/23 DSC 2015 19

上線期間與 β

2015/8/23 DSC 2015 20

要如何預測 β ?

β 是由過去的營運記錄中所獲得的統計數據,只能在遊戲開始營運後獲得

如何能在遊戲開始營運前預測 β?

玩家進行線上遊戲的目的在於獲取樂趣

樂趣是純然主觀、情緒上的感受

藉由少量玩家試玩遊戲時的情緒反應來預測β?

量測玩家在遊戲中的感受

現有作法 專家意見、社群

遊戲後問卷

遊戲中問卷

從玩家的生理反應瞭解其在遊戲中的感受

2015/8/23 DSC 2015 21

← 容易受到偏好影響

← 無法真實反應玩家在遊戲中的感受

← 影響遊戲過程

量測玩家在遊戲中的感受

2015/8/23 DSC 2015 22

量化玩家遊戲時的情緒反應

皺眉

負面情緒

皺眉肌 (Corrugator supercilii, CS )

笑容

正面情緒

顴大肌 (Zygomaticus major, ZM)

眼輪閘肌 (Orbicularis oculi, OO)

藉由臉部肌電 (EMG) 捕捉並

實驗室收集數據

2015/8/23 DSC 2015 23

預測模型

玩家遊戲中 生理心理反應

玩家遊戲中 生理心理反應

某未公開遊戲 市場表現

市場表現

某未公開遊戲

已公開遊戲

方法概觀

2015/8/23 DSC 2015 24

Pearson cor: 0.86 Kendal cor: 0.78 Avg. error rate: 11%

預測 β

2015/8/23 DSC 2015 25

小結

此方法僅適用於代理遊戲,不適用於自製遊戲

β 與遊戲營收之間的關係?

玩家情緒反應與遊戲內購買的關係?

離開實驗室收集數據?

非侵入式、非接觸性、無須接線的方法

2015/8/23 DSC 2015 26

資料科學與線上教育

2015/8/23 DSC 2015 27

均一教育平台

K-15, 國中小學線上教育

均一平台與翻轉教育

學生在家學習、老師課堂解惑 線上教學影片、互動式練習題、學習狀況追蹤

利用網路技術提供所有孩子均等的教育機會

2015/8/23 DSC 2015 28

均一教育平台遭遇的問題

學生程度落差大

使用者黏著度低

需要快速、正確、有趣同時不影響學生學習意願的評量方法

適性測驗 (Adaptive Test)

推薦適當的練習題

從學生回答少量挑選過題目的反應,瞭解其程度

2015/8/23 DSC 2015 29

資料科學與適性測驗

從練習題記錄建立使用者模型 推薦練習題

預測一個學生正確回答指定練習題的機率

均一教育平台從 2012/10 上線到 2014/8 為止 近七萬名註冊使用者

一共進行了超過兩千三百萬題練習題

每一題練習題都詳細的記錄了 答題正確與否以及每次嘗試的答案

答題時間與用時

是否使用提示等……資訊

2015/8/23 DSC 2015 30

建立使用者模型之效果比較

2015/8/23 DSC 2015 31

Khan’s Approach Our Approach

練習題推薦

使用者建模

答題記錄 分析

適性測驗

練習題 關係估計

原始計畫

另闢蹊徑

資料本身的缺陷

不平衡的答題數量

受引導的練習順序

練習題的目的在於學習而非評量

獲取其他與練習題相關的資訊

藉由其他手段估計練習題間的關係

2015/8/23 DSC 2015 32

知識地圖

2015/8/23 DSC 2015 33

群眾外包 (Crowdsourcing)

2015/8/23 DSC 2015 34

相似度?

難度?

學習順序? 以1-9分評斷

比較任兩題練習題

VS

領域專家(教育工作者)

群眾工作者(具備大學學歷)

2015/8/23 DSC 2015 35

2015/8/23 DSC 2015 36

http://bountyworkers.net

重要特徵

藉由隨機森林 (Random Forest) 進行迴歸分析,可以取得各項特徵的重要性排序

相似度

知識地圖座標 > 練習題標題 > 知識地圖定義之順序 >

來自使用者建模的特徵 > ……

難度

答題人數 > 答題所需時間 > 學生答題順序 > 答題正確率 > ……

學習順序

知識地圖座標 > 練習題標題 > 學生答題順序 > 答題人數 > ……

2015/8/23 DSC 2015 37

*橘色表示來自練習題資訊的特徵

綠色表示來自答題記錄的特徵

階層性分群

2015/8/23 DSC 2015

3

8

幾何

算數

相關性矩陣

代數

幾何

算數

2015/8/23 DSC 2015 39

適性測驗

難度

1

答對

3 學生

能力

科目

答錯

2015/8/23 DSC 2015 40

2 ……

適性測驗

整套適性測驗機制已於今年七月上線

誰敢來挑戰!

無須冗長測驗,少量測驗題即可瞭解學生程度

提供老師視覺化評量圖表

適當的評估提供適當的學習推薦

提升學習成就

減少挫折感

2015/8/23 DSC 2015 41

資料科學與中華職棒

2015/8/23 DSC 2015 42

資料科學與中華職棒

數據頭 (Stats Head) 與球探 (Scout) 的爭論

棒球的統計科學 Sabermatrics

打擊率、投手防禦率、守備率

上壘率、長打率、九局奪三振率、每局被上壘率

Value Over Replacement Player (VORP, 相較於替補球員之價值)

Win Shares (WS, 勝利貢獻指數)

以比賽資料評估球員攻守表現、價值以及球隊戰力

2015/8/23 DSC 2015 43

2015/8/23 DSC 2015 44

對中華職棒,我有問題!

不離不棄、是我兄弟

死忠球迷 vs 戰績球迷 vs ??球迷

影響票房的要素是什麼?

球隊戰績?球團經營?球迷熱血?

2015/8/23 DSC 2015 45

黑虎事件

黑鷹事件

黑熊事件

黑鯨事件

黑米事件

黑象事件

中華職棒各季平均票房

2015/8/23 DSC 2015 46

Vie

we

rsh

ip

Years

中華職棒各季各隊平均票房

2015/8/23 DSC 2015 47

Years

兄弟象三連霸

兄弟象

二度三連霸

興農牛連霸

La New熊隊史首冠

年度修正後各季各隊平均票房

2015/8/23 DSC 2015 48

Years

Ad

j. v

iew

ers

hip

各隊年度勝率

年度修正後票房

2015/8/23 DSC 2015 49

2015/8/23 DSC 2015 50

各隊年度勝率

年度修正後票房

之逐年差異

So far so good?

影響票房之因素

時間

隊伍

戰績

還可以更深入嗎?

利用機器學習找出影響票房之因素與其重要程度

以各隊該年度與前一年度之比賽數據預測該年度票房

2015/8/23 DSC 2015 51

2015/8/23 DSC 2015 52

Actual adj. viewership

Pre

dic

ted

ad

j. v

iew

ers

hip

Pearson cor: 0.900

R^2: 0.768

Avg. error rate: 9.4%

預測票房

影響票房的要素

2015/8/23 DSC 2015 53

做出最佳預測的要素

每九局保送數

打擊率

每九局保送數(去年)

保送三振比

上壘率(去年)

打擊率(去年)

上壘率

敗場數

三振率

平均失誤數(去年)

三振率(去年)

平均失誤數

勝場數

勝率

隊伍

2015/8/23 DSC 2015 54

軟體工程

資料科學

資料分析流程

2015/8/23 DSC 2015 55

取得資料 瀏覽資料 處理資料 分析資料 詮釋結果

設定問題

網路爬蟲 商談

動手蒐集

群眾外包

有什麼?

缺什麼?

Python, PHP, etc.

耐性

資料視覺化 R, Python, SAS,

Matlab, or

SpreadSheets,etc.

想像力

資料奇航日誌

資料科學並不等於大數據

現實的不完美 系統bug

人為輸入錯誤

資料天生的缺陷

資料俯拾皆是 業界資料、公開資料、實驗室資料、個人資料等等

各種工具 R, Python, Awk, and Bounty Workers, etc.

2015/8/23 DSC 2015 56

http://bountyworkers.net

只要有心

我可以,在座各位一定也可以

我們需要更多、更好的資料

然後我們需要更多有心人投入資料科學的行列

人人都可以成為資料科學家

2015/8/23 DSC 2015 57

誌謝

特別感謝陳昇瑋博士、羅經凱博士、蘇漢益先生、張浩軒先生以及中研院資訊所多媒體網路與系統實驗室 (MMNet Lab.) 的各位伙伴在我資料科學之旅途中的指導與幫助

今日演講內容皆為團隊合作之成果,非我一人之力可以完成

2015/8/23 DSC 2015 58

謝 謝 各 位

許懷中博士

hjhsu@iis.sinica.edu.tw

2015/8/23 DSC 2015 59

Q & A

top related