軟工人的資料科學奇航-線上遊戲、網路學習與中華職棒 by 許懷中
Post on 12-Jan-2017
6.796 views
TRANSCRIPT
軟工人的資料科學奇航 線上遊戲、網路學習、中華職棒
中研院資訊所
許懷中博士
什麼是軟工?
軟工=軟體工程
以系統化方法與定義良好之流程打造高品質軟體
穩定、可重複執行同時不失彈性的開發流程
適當的軟體開發環境
貫串軟體的整個生命週期
需求、設計、開發、測試、維護
2015/8/23 DSC 2015 2
我是軟工人!
在交大十四年,從學士、碩士到博士
大學拿手科目:軟體工程以及物件導向分析與設計
碩士論文主題:軟體整合測試方法與環境
博士論文主題:軟體分析與設計模式 (Design Pattern)
研究所期間在 CMMI 3 的公司兼職,擔任系統整合與開發工程師
資料科學是什麼?
2015/8/23 DSC 2015 4
軟工與資料科學之間有什麼關係呢?
2015/8/23 DSC 2015 5
我的資料科學奇航
2015/8/23 DSC 2015 6
均一教育平台
資料科學與線上遊戲
2015/8/23 DSC 2015 7
線上遊戲的經營困境
高昂的成本
一款遊戲的開發費用介於一百萬到兩億美金之間
代理遊戲
授權金約一百萬美金 (簽約金約三十萬美金)
宣傳費用一檔從數百萬至三千萬台幣不等
網路頻寬每個月三百萬左右
初期投資超過三千五百萬
2015/8/23 DSC 2015 8
線上遊戲的經營困境
極度競爭的環境
平均每年會有兩百款新的線上遊戲上市
2015/8/23 DSC 2015 9
可怕的事實
絕大多數的遊戲生命週期只有四到九個月
在回本前遊戲已經死了
2015/8/23 DSC 2015 10
到底一款遊戲可以活多久?
遊戲的生命週期是可預測的嗎?
玩家是遊戲的生命線
持續進行遊戲的玩家越多=遊戲的生命週期越長
遊戲的生命週期來自玩家對該遊戲的沈迷度
預測玩家對一款遊戲的沈迷度=預測一款遊戲的生命週期
2015/8/23 DSC 2015 11
鑒往知來
量化沈迷度
2015/8/23 DSC 2015 12
2015/8/23 DSC 2015 13
量化沈迷度
上線期間與比例
2015/8/23 DSC 2015 14
量化沈迷度
計算上線率 火山爆發與細水長流的區別?
指定觀察期間的上線率 Ratio of Presence over an Observation Period
=> RoP(OP)
2015/8/23 DSC 2015 15
RoP(OP) 曲線
2015/8/23 DSC 2015 16
符合冪次定律
RoP(OP), FPS2
2015/8/23 DSC 2015 17
RoP(OP) ≈ a ∙ OPβ + b
2015/8/23 DSC 2015 18
玩家沈迷度指標 β
2015/8/23 DSC 2015 19
上線期間與 β
2015/8/23 DSC 2015 20
要如何預測 β ?
β 是由過去的營運記錄中所獲得的統計數據,只能在遊戲開始營運後獲得
如何能在遊戲開始營運前預測 β?
玩家進行線上遊戲的目的在於獲取樂趣
樂趣是純然主觀、情緒上的感受
藉由少量玩家試玩遊戲時的情緒反應來預測β?
量測玩家在遊戲中的感受
現有作法 專家意見、社群
遊戲後問卷
遊戲中問卷
從玩家的生理反應瞭解其在遊戲中的感受
2015/8/23 DSC 2015 21
← 容易受到偏好影響
← 無法真實反應玩家在遊戲中的感受
← 影響遊戲過程
量測玩家在遊戲中的感受
2015/8/23 DSC 2015 22
量化玩家遊戲時的情緒反應
皺眉
負面情緒
皺眉肌 (Corrugator supercilii, CS )
笑容
正面情緒
顴大肌 (Zygomaticus major, ZM)
眼輪閘肌 (Orbicularis oculi, OO)
藉由臉部肌電 (EMG) 捕捉並
實驗室收集數據
2015/8/23 DSC 2015 23
預測模型
玩家遊戲中 生理心理反應
玩家遊戲中 生理心理反應
某未公開遊戲 市場表現
市場表現
某未公開遊戲
已公開遊戲
方法概觀
2015/8/23 DSC 2015 24
Pearson cor: 0.86 Kendal cor: 0.78 Avg. error rate: 11%
預測 β
2015/8/23 DSC 2015 25
小結
此方法僅適用於代理遊戲,不適用於自製遊戲
β 與遊戲營收之間的關係?
玩家情緒反應與遊戲內購買的關係?
離開實驗室收集數據?
非侵入式、非接觸性、無須接線的方法
2015/8/23 DSC 2015 26
資料科學與線上教育
2015/8/23 DSC 2015 27
均一教育平台
K-15, 國中小學線上教育
均一平台與翻轉教育
學生在家學習、老師課堂解惑 線上教學影片、互動式練習題、學習狀況追蹤
利用網路技術提供所有孩子均等的教育機會
2015/8/23 DSC 2015 28
均一教育平台遭遇的問題
學生程度落差大
使用者黏著度低
需要快速、正確、有趣同時不影響學生學習意願的評量方法
適性測驗 (Adaptive Test)
推薦適當的練習題
從學生回答少量挑選過題目的反應,瞭解其程度
2015/8/23 DSC 2015 29
資料科學與適性測驗
從練習題記錄建立使用者模型 推薦練習題
預測一個學生正確回答指定練習題的機率
均一教育平台從 2012/10 上線到 2014/8 為止 近七萬名註冊使用者
一共進行了超過兩千三百萬題練習題
每一題練習題都詳細的記錄了 答題正確與否以及每次嘗試的答案
答題時間與用時
是否使用提示等……資訊
2015/8/23 DSC 2015 30
建立使用者模型之效果比較
2015/8/23 DSC 2015 31
Khan’s Approach Our Approach
練習題推薦
使用者建模
答題記錄 分析
適性測驗
練習題 關係估計
原始計畫
另闢蹊徑
資料本身的缺陷
不平衡的答題數量
受引導的練習順序
練習題的目的在於學習而非評量
獲取其他與練習題相關的資訊
藉由其他手段估計練習題間的關係
2015/8/23 DSC 2015 32
知識地圖
2015/8/23 DSC 2015 33
群眾外包 (Crowdsourcing)
2015/8/23 DSC 2015 34
相似度?
難度?
學習順序? 以1-9分評斷
比較任兩題練習題
VS
領域專家(教育工作者)
群眾工作者(具備大學學歷)
2015/8/23 DSC 2015 35
2015/8/23 DSC 2015 36
http://bountyworkers.net
重要特徵
藉由隨機森林 (Random Forest) 進行迴歸分析,可以取得各項特徵的重要性排序
相似度
知識地圖座標 > 練習題標題 > 知識地圖定義之順序 >
來自使用者建模的特徵 > ……
難度
答題人數 > 答題所需時間 > 學生答題順序 > 答題正確率 > ……
學習順序
知識地圖座標 > 練習題標題 > 學生答題順序 > 答題人數 > ……
2015/8/23 DSC 2015 37
*橘色表示來自練習題資訊的特徵
綠色表示來自答題記錄的特徵
階層性分群
2015/8/23 DSC 2015
3
8
幾何
算數
相關性矩陣
代數
幾何
算數
2015/8/23 DSC 2015 39
適性測驗
難度
1
答對
3 學生
能力
科目
答錯
2015/8/23 DSC 2015 40
2 ……
適性測驗
整套適性測驗機制已於今年七月上線
誰敢來挑戰!
無須冗長測驗,少量測驗題即可瞭解學生程度
提供老師視覺化評量圖表
適當的評估提供適當的學習推薦
提升學習成就
減少挫折感
2015/8/23 DSC 2015 41
資料科學與中華職棒
2015/8/23 DSC 2015 42
資料科學與中華職棒
數據頭 (Stats Head) 與球探 (Scout) 的爭論
棒球的統計科學 Sabermatrics
打擊率、投手防禦率、守備率
上壘率、長打率、九局奪三振率、每局被上壘率
Value Over Replacement Player (VORP, 相較於替補球員之價值)
Win Shares (WS, 勝利貢獻指數)
以比賽資料評估球員攻守表現、價值以及球隊戰力
2015/8/23 DSC 2015 43
2015/8/23 DSC 2015 44
對中華職棒,我有問題!
不離不棄、是我兄弟
死忠球迷 vs 戰績球迷 vs ??球迷
影響票房的要素是什麼?
球隊戰績?球團經營?球迷熱血?
2015/8/23 DSC 2015 45
黑虎事件
黑鷹事件
黑熊事件
黑鯨事件
黑米事件
黑象事件
中華職棒各季平均票房
2015/8/23 DSC 2015 46
Vie
we
rsh
ip
Years
中華職棒各季各隊平均票房
2015/8/23 DSC 2015 47
Years
兄弟象三連霸
兄弟象
二度三連霸
興農牛連霸
La New熊隊史首冠
年度修正後各季各隊平均票房
2015/8/23 DSC 2015 48
Years
Ad
j. v
iew
ers
hip
各隊年度勝率
與
年度修正後票房
2015/8/23 DSC 2015 49
2015/8/23 DSC 2015 50
各隊年度勝率
與
年度修正後票房
之逐年差異
So far so good?
影響票房之因素
時間
隊伍
戰績
還可以更深入嗎?
利用機器學習找出影響票房之因素與其重要程度
以各隊該年度與前一年度之比賽數據預測該年度票房
2015/8/23 DSC 2015 51
2015/8/23 DSC 2015 52
Actual adj. viewership
Pre
dic
ted
ad
j. v
iew
ers
hip
Pearson cor: 0.900
R^2: 0.768
Avg. error rate: 9.4%
預測票房
影響票房的要素
2015/8/23 DSC 2015 53
做出最佳預測的要素
每九局保送數
打擊率
每九局保送數(去年)
保送三振比
上壘率(去年)
打擊率(去年)
上壘率
敗場數
三振率
平均失誤數(去年)
三振率(去年)
平均失誤數
勝場數
勝率
隊伍
2015/8/23 DSC 2015 54
軟體工程
資料科學
資料分析流程
2015/8/23 DSC 2015 55
取得資料 瀏覽資料 處理資料 分析資料 詮釋結果
設定問題
網路爬蟲 商談
動手蒐集
群眾外包
有什麼?
缺什麼?
Python, PHP, etc.
耐性
資料視覺化 R, Python, SAS,
Matlab, or
SpreadSheets,etc.
想像力
資料奇航日誌
資料科學並不等於大數據
現實的不完美 系統bug
人為輸入錯誤
資料天生的缺陷
資料俯拾皆是 業界資料、公開資料、實驗室資料、個人資料等等
各種工具 R, Python, Awk, and Bounty Workers, etc.
2015/8/23 DSC 2015 56
http://bountyworkers.net
只要有心
我可以,在座各位一定也可以
我們需要更多、更好的資料
然後我們需要更多有心人投入資料科學的行列
人人都可以成為資料科學家
2015/8/23 DSC 2015 57
誌謝
特別感謝陳昇瑋博士、羅經凱博士、蘇漢益先生、張浩軒先生以及中研院資訊所多媒體網路與系統實驗室 (MMNet Lab.) 的各位伙伴在我資料科學之旅途中的指導與幫助
今日演講內容皆為團隊合作之成果,非我一人之力可以完成
2015/8/23 DSC 2015 58