曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學
Post on 12-Apr-2017
3.791 views
TRANSCRIPT
Deloitte Data Analytics 12016 資料科學愛好者年會
沒有大數據怎麼辦?
會計師事務所的小數據科學
勤業眾信聯合會計師事務所
企業風險管理 Enterprise Risk Service
曾韵 副總經理[email protected]
July 2016
Deloitte Data Analytics 2
講師簡介
Deloitte Data Analytics 3
About Deloitte
• 支援審計服務• 風險諮詢顧問服務
Deloitte Data Analytics 4
Agenda
沒有大數據怎麼辦
一切就用數據來回答
假帳世界的數據科學
誰偷了我的機密資料?
Q&A
Deloitte Data Analytics 5
你知道嗎,擁有大數據的公司其實沒有想像得多
WWW
首頁
案例A公司:成立30年,總資料量:5.5G
案例B公司:成立35年,總資料量:10+G
案例C公司:成立20年,總資料量:除了ERP
其他都紙本
辦公室OA系統(訂會議室、訂便當)
基本資料 交易紀錄
支援紀錄 客服紀錄
CRM
Deloitte Data Analytics 6
HADOOP是什麼?大象的綽號嗎?
HADOOP不完全等於大數據,沒有HADOOP也可以體驗數據科學
最基本的分析工具:excel、SQL
免錢的進階分析工具:Weka、KNIME
再進階一些的分析工具:R、Python、也可以自己寫!
Source:socialmedialab.upenn.edu Source:ml.cmu.edu
Deloitte Data Analytics 7
會計師事務所裡的資料分析(1) – 審計支援業務iData 工具的主要資料來源包含如下:
1. 財務數據資料 – 各項財務比率,來源為台灣經濟新報(TEJ) 資料庫,IFRS合併資料2. 營收/重大訊息 – 來源為公開資訊觀測站之公告資訊
iData:接案前過濾風險
Deloitte Data Analytics 8
會計師事務所裡的資料分析(1) – 審計支援業務
AuditCloud:執行專案分析
Deloitte Data Analytics 9
會計師事務所裡的資料分析(2) – 舞弊調查使用工具: (依需要轉換)
• ACL / Excel / Access
• MSSQL
• Tableau
• R
• VBScript
• IBM I2 (network)
• Intelly (email)
• EnCase (Forensics)
Deloitte Data Analytics 10
會計師事務所裡的資料分析(2) – 舞弊調查
小蝦米 有事嗎?
財神爺 錢難賺
資料分析案例一銷售價格分析
Deloitte Data Analytics 11
Agenda
沒有大數據怎麼辦
一切就用數據來回答
假帳世界的數據科學
誰偷了我的機密資料?
Q&A
Deloitte Data Analytics 12
第一步,提出問題
促銷活動不夠造成貢獻低?
客戶貢獻太低怎麼提升
創新轉型法令規範
導入工具可以提高生產量嗎
客戶量不夠造成貢獻低?
利潤
1. 我的業務面臨哪些議題
2. 需求是什麼
3. 問題在哪裡
問題和需求是什麼只有自己最清楚但,數據科學可以幫你找出在哪裡
Deloitte Data Analytics 13
案例分享(1) :提出問題問題:如何提早得知即將離職的員工
Deloitte Data Analytics 14
案例分享(1) :提出問題模型建置流程
Deloitte Data Analytics 15
開放資料的生態系(ecosystem)
•成功的開放資料生態系統通常由3個基本角色組成:政府、企業
及市民。各角色提供開放資料予其本身成員及其它角色,亦使用
其所獲得資料提供服務。
– 政府開放資料:進行資料產出、蒐集或購買,受到相
關法規、資訊安全、敏感性、隱私保護等因素限制。
– 企業(私部門)開放資料:進行資料產出或蒐集,並由企
業自行決定是否免費開放使用。
– 市民開放資料:將市民個人相關或非個人相關資料提
供至開放領域。
企業資料
企業資料
市民資料
企業
市民政府
企業資料
政府資料
市民資料
政府資料
市民資料
政府資料
提供資料使用資料提供服務
資料來源: Deloitte LLP
Deloitte Data Analytics 16
案例分享(2):去識別化還能分析嗎?
去識別化
Deloitte Data Analytics 17
案例分享(2):去識別化還能分析嗎?
只有一件
新北市 八里區 H14B23E1 02:23 04:41 02:23 04:55 遺留火種 0 0
去識別化後的資料驗證(1)
Deloitte Data Analytics 18
案例分享(2):去識別化還能分析嗎?
臺南市 新市區 G14K08P1 103/11/08 15:35:03 103/11/08 15:49:03 遺留火種 1 0
6件裡面之有1件死亡火災
去識別化後的資料驗證(2)
Deloitte Data Analytics 19
案例分享(3):變數少有少的做法
報名起始日
報名截止日
活動日期
地點
時間
姓名
生日
有個資法限制,客戶資料無法盡情蒐集
活動內容(text)
市話/手機
郵遞區號
學歷
報名人數
性別
(
六個屬性,一份紙本檔案)
活動資訊
(
六個屬性)
參加者資訊
Deloitte Data Analytics 20
案例分享(3):變數少有少的做法
報名起始日
報名截止日
活動日期
地點
時間
姓名
生日
假日/平日
步行時間
景氣指標
活動當日天候
活動當日氣溫
區域平均人口
區域平均收入
活動內容(text)
市話/手機
郵遞區號
學歷
報名人數
是否連連假
性別
所屬區域
交通車站數
參加人數
是否寒暑假
居住區域
國籍
省籍年齡
星座
早上/中午/下午
活動階段
活動類型
報名總期間
是否跨長假
科系類別
(
六個屬性,一份紙本檔案)
活動資訊
(
六個屬性)
參加者資訊
Google Map
(
超過
個屬性)
最終所使用屬性
50
……
觀察屬性特色
相關係數
特徵選取
從一場活動開始的特徵挖掘:Feature Engineering
Deloitte Data Analytics 21
Agenda
沒有大數據怎麼辦
一切就用數據來回答
假帳世界的數據科學
誰偷了我的機密資料?
Q&A
Deloitte Data Analytics 22
假帳殺手-班佛定律(Benford's Law)
天文學家Simon Newcomb觀察到常用的對數表書籍中,1開頭那一頁比其他頁來得破舊,因此發表此觀點,公式第一位數為N之出現機率 = log(N + 1) − log(N)
奇異電器物理學家Frank Benford發現各種自然現象皆符合特定規則,擴展研究並廣泛測試於2萬多種數據中。
美國數學家Ted Hill提出混和分配仍會收斂於班佛定律的解釋,並提出嚴謹的證明
西班牙數學家發現,一般被認為是隨機分布的質數,其實每個質數的首位數字有明顯的分布規律,它可以被描述了質數的班佛定律。這項新發現除了提供對質數屬性的新洞見之外,進一步推動班佛定律應用於假帳和股票市場異常偵測。
1881年
1938年 1995年 2009年
Deloitte Data Analytics 23
班佛定律的機率分配
除了首位數字的分配外,越後面的數字分佈會越來越均等
0
20
40
60
80
100
120
1 2 3 4 5 6 7 8 9
Actual v.s Expected
Actual Expected
※班佛定律的期望值:在 b進位制中,以n起頭的數出現的機率=
log (n + 1) − log (n)b b
Deloitte Data Analytics 24
茫茫大海,假帳從哪裡開始查?
Deloitte Data Analytics 25
實作案例分享
沒有資料分析工具怎麼辦?
班佛定律簡單到用excel就可以自己做!!
Deloitte Data Analytics 27
競選經費班佛定律分析-支出
0
500
1000
1500
2000
2500
3000
3500
4000
1 2 3 4 5 6 7 8 9
支出 - 1位
Actual Expected
Deloitte Data Analytics 28
適用狀況
Data須有代表
性,能反映觀
察事件的特質• 如公司股票價值能反
映公司的市場價值、
營收和銷售量。
數字不能
有
Max/Min
• 如股票經紀人之佣金;
然其每筆交易之佣金
有最小值。
數字不能
是用來識
別的數字
• 如身分證號
碼。
Deloitte Data Analytics 29
資料筆數限制
觀察數字必須至少4位數以上
除了找到異常值,也可以觀察資料的偏誤情形。
資料筆數必須至少1000筆以上,分析經驗顯示3000
筆左右時多能符合Benford’s Law。
Deloitte Data Analytics 30
競選經費班佛定律分析-支出再看一次
Deloitte Data Analytics 31
就在你我身邊的班佛定律
老闆們,現在就開始用班佛定律檢驗公司的帳款吧
每個人都可以運用班佛定律成為政府的監督者
Deloitte Data Analytics 32
Agenda
沒有大數據怎麼辦
一切就用數據來回答
假帳世界的數據科學
誰偷了我的機密資料?
Q&A
Deloitte Data Analytics 33
企業機密資料外洩事件層出不窮但公司有十萬名員工,資料是誰偷的?怎麼知道誰正在偷公司的資料?
Deloitte Data Analytics 34
讓我們回到可能掉資料的地方看看
偷!!偷!!
偷!!
員工偷的?約聘人員偷的?
廠商偷的?
系統被入侵了?
Deloitte Data Analytics 37
實作案例分享
Deloitte Data Analytics 38
先觀察看看資料(一)
最小值 中位數 90百分位數 99百分位數 最大值
存取個數 1 18 291 1339.36 18791
存取比例 0.00% 0.01% 0.12% 0.56% 7.88%
0
100
200
300
400
1 101 205 322 471 739 1567
人
數
存取檔案數量
90% 10%
常常整理資料夾?
Deloitte Data Analytics 39
先觀察看看資料(二)
資料期間假日共130天
資料期間 最小值 中位數 90百分位數 99百分位數 最大值
存取檔案天數 1 2 10 29.69 118
註:假日為星期六、日
0
100
200
300
400
500
600
700
1 11 21 32 65
人
數
累積下班存取天數
90% 10%
真有那麼常加班?大部分的人都沒什麼在加班
Deloitte Data Analytics 40
縮小調查範圍(一)
誰比較有問題?
存取次數
存取檔案個數
其實出現在這區的最有問題
Deloitte Data Analytics 41
縮小調查範圍(二)
對特定檔案存取次數過高
???
總存取次數
對特定檔案存取次數
Deloitte Data Analytics 42
縮小調查範圍(三)
非上班時間存取比例
使用V
PN
次數
上班時間卻用VPN登入?
經常在非上班時間使用VPN?
“總是”在非上班時間存取?(而且沒用VPN登入,表示人在公司,是在…?)
Deloitte Data Analytics 43
沒有大數據、沒有HADOOP都沒關係!! 簡單的分析工具也可以帶來不同的業務 insight !
我們提供數據化決策依據
帶動客戶決策模式改變
數據會說話!
挖掘小數據的價值,全面提升企業資料驅動的決策力
我們致力於推動數據科學帶來的會計產業轉型
會計師事務所的小數據科學
Deloitte Data Analytics 44
往大數據邁進24x7 Monitoring
Deloitte Data Analytics 45
24x7 Dashboard
Deloitte Data Analytics 46
Communication
Deloitte Data Analytics 47
Geopolitical -1
Deloitte Data Analytics 48
Geopolitical -2
Deloitte Data Analytics 49
Supply Chain Observations
Deloitte Data Analytics 50
往大數據邁進網路威脅情資分析平台
Deloitte Data Analytics 51
往大數據邁進網路威脅情資分析平台
Deloitte Data Analytics 52
Q&A