2013調查報導工作坊 - 資料搜尋與處理
TRANSCRIPT
資料新聞學 資料搜尋 & 處理青平台基金會 / 張維志 – 2013/07/21
青平台 / 張維志
Contact me :
• http://fb.me/opendata.tw
• http://www.opendata.tw
• http://www.opencampus.tw
• http://fb.me/groups/Open.Campus/
• Twitter : @opentaiwan
重點摘要• 資料新聞學 – 先談一下• 資料新聞學 – 工作流程
• 資料收集• 資料清理• 資料解讀• 資料整合• 說出故事
• 團隊與角色 – 找出你的定位
資料新聞學
是什麼?與,為什麼?
資料新聞學 – 是什麼
Data + Journalism
資料 + 新聞(學) ?
資料新聞學 – 是什麼
Data Driven Journalism
從資料中找出故事,用資料來說故事 #DDJ
資料新聞學 – 為什麼
為什麼忽然 (2009)
大家都在談資料新聞學?
資料新聞學 – 為什麼
資料新聞學 – 為什麼
因為,這是一個「數位時代」,「資訊時代」!
資料新聞學 – 為什麼
生活越來越仰賴資訊的流通與解讀
資料來源更多資料產量更大
工具與技術能力更強
資料新聞學
如何做?
資料新聞學 – 如何做
資料新聞學 – 如何做
這是新聞報導…不是論文寫作…
資料新聞學 – 工作流程目的 – 當然是寫出一篇新聞(報導) XD
一切都從這開始:
我有個問題,想找答案我有組資料集 (dataset) 我想看看能「挖掘」出什麼
資料新聞學 – 工作流程我們要的是:從資料下載 -
Html / CSV /
SQL / KML…
• 2010.07.25• 91,731 份文件
到…
http://mirror.wikileaks.info/wiki/Afghan_War_Diary,_2004-2010/
資料新聞學 – 工作流程到… 一篇報導
資料新聞學 – 工作流程
資料新聞學 – 工作流程
Simon ROGERS
“Before a dataset results in a data journalism story, there’s a whole process of sifting and finessing and generally sorting the data out. The split is roughly 70% tidying up the data, 30% doing the fun stuff of visualising and presenting it.”
資料新聞學 – 工作流程
• 資料匯整• 資料清理• 資料解讀• 資料整合
• 說出故事
資料新聞學 – 工作流程
資料新聞學 – 工作流程資料匯整 – 把資料找出來
• 網路搜尋• 政府部門與政府資訊公開法• 開放資料與網路資料庫• NPO / NGO 與倡議組織• 鄉民 (SNS) 與駭客
資料新聞學 – 工作流程資料匯整 – 網路搜尋
網路搜尋 = Use Google?
資料新聞學 – 工作流程資料匯整 – 網路搜尋• Google 以外的選擇 ( 為什麼 ? )
• MS Bing• Yandex ( 俄羅斯 )• DuckDuckGo – 尊重個人隱私• Blippex – 其他的搜尋計算公式• Wolfram Alpha – 人工智慧的表現• Pipl – 找人(但是應該沒台灣人,不支援中文搜尋)
http://www.bbc.co.uk/news/technology-23318889
資料新聞學 – 工作流程資料匯整 – 網路搜尋成為 Google 搜尋的 power user!
• 使用進階功能 http://mashable.com/2011/11/24/google-search-infographic/
• Site:• Author:• Filetype:• Related“:
http://www.googleguide.com/advanced_operators.html
資料新聞學 – 工作流程資料匯整 – 網路搜尋成為 Google 搜尋的 power user!
• 關鍵字的運用• 越詳細找到的東西越符合我們的期待• 不知道要期待什麼,就打簡單的幾個字,加上 “ ~” =
related• 從搜尋結果中再篩選• 搭配搜尋指令使用
資料新聞學 – 工作流程資料匯整 – 政府部門與政府資訊公開法
政府資訊公開法 – 人民有知的權利12 類需主動公開的資料:
• 五、施政計畫、業務統計及研究報告。• 六、 ( 一 ) 公務 - 預算及決算書。• 八、書面之公共工程及採購契約。
資料新聞學 – 工作流程資料匯整 – 政府部門與政府資訊公開法
但是… 政府一般不太情願把資料丟出來。那怎麼辦?
• 寫信去所屬機關跟他們要• 還是不給,找很多人一起去要!• 就是不給,打行政訴訟!
資料新聞學 – 工作流程資料匯整 – 政府部門與政府資訊公開法
http://www.kickstarter.com/projects/cir/foia-machine
資料新聞學 – 工作流程資料匯整 – 政府部門與政府資訊公開法
不過,請先找對機關,問清楚對口單位 XDD
( 這沒有想像中簡單啊 .. )
資料新聞學 – 工作流程資料匯整 – 開放資料與網路資料庫
開放資料 : 資料可被自由使用,不限制使用資格,使用方法,使用範圍。(授權,技術格式,最低收費)
開放資料運動帶來更大量資料的釋出:• 世界銀行 - http://data.worldbank.org/
• 各國政府開放資料平台 – http://data.gov.tw/
• 搜尋 : open data portal / open data catalog
資料新聞學 – 工作流程資料匯整 – 開放資料與網路資料庫
資料新聞學 – 工作流程資料匯整 – NPO / NGO 與其他倡議組織
不管大大小小議題,其實都有人在關心…所以,或許可以先把他們找出來 ..
問題是,這些 NGO/NPO 一般都對資料很無感 XDDD
資料新聞學 – 工作流程資料匯整 – 鄉民 (SNS) 與駭客
這不是鄉民的正義… .
• 鄉民 : Crowdsourcing 群眾外包• 駭客 : 有能力寫程式幫你處理問題
資料新聞學 – 工作流程資料匯整 – 鄉民 + Crowdsourcing
資料新聞學 – 工作流程資料匯整 – 鄉民 + SNS
資料新聞學 – 工作流程資料匯整 – 駭客 / 強大的能量!
資料新聞學 – 工作流程資料匯整 – 駭客 / 強大的能量!
不過這些人,用的語言不太一樣學會跟他們溝通
學會瞭解駭客的文化,技術學會參與
有個組織叫做 g0v
資料新聞學 – 工作流程資料清理 – 資料集的格式與內容• 將資料轉為程式(電腦)可讀可運算格式• 將資料中遺漏,缺失,重複,錯誤格式等找
出並修復
資料新聞學 – 工作流程資料清理 – 程式可讀可運算的資料集
資料不是只是拿來給人看與閱讀資料是要拿來用程式跑過與處理
資料新聞學 – 工作流程資料清理 – 程式可讀可運算的資料集
開放資料格式的五星等級
PDF OCR 試算表
資料新聞學 – 工作流程資料清理 – 程式集的清洗
資料集 : dataset ,指的是一組彼此有關連的資料。
清洗的幾種方法• 移除重複的資料• 將欄位重新合併或是切割• 確定欄位內容格式是否一致 • 去除多餘的空白字元,縮寫是否一致• 檢查時間,數字,文字等格式設定
資料新聞學 – 工作流程資料清理 – 程式集的清洗
使用工具: • Google OpenRefine / http://openrefine.org/
• Data Wrangler / http://vis.stanford.edu/wrangler/
• 或是直接使用試算表程式 (excel, calc…)
資料新聞學 – 工作流程資料解讀 – 定義出資料的含意與可信度• 資料存在的原因• 資料內容與單位
資料新聞學 – 工作流程資料解讀 –資料存在的原因• 資料的存在有他的原因
• 回應的需求• 資料取得的方法• 何時,適用期限
不要對資料過度解讀!
資料新聞學 – 工作流程資料解讀 –資料內容與單位
資料使用的單位是最大的陷阱
資料新聞學 – 工作流程資料解讀 –資料內容與單位
檢驗取得的資料內容與要回答的問題之間的關係
資料新聞學 – 工作流程資料整合 – 整理出一個回答問題的資料集• 原始資料集的重新排序,切割,合併,簡化• 與其他資料集的混搭 – Mashup
• 從空間,時間,連結關係上開始
資料新聞學 – 工作流程資料整合 – 整理出一個回答問題的資料集• 原始資料集的重新排序,切割,合併,
簡化• 只使用資料備份版本• 定出問題與資料範圍• 只保留有用的資料
資料新聞學 – 工作流程資料整合 – 整理出一個回答問題的資料集• 與其他資料集的混搭 – Mashup
• 資料跟自己比較是沒有多大意義• 找出其他可能相關資料集• 建立資料集間的關係(共同 key )
資料新聞學 – 工作流程資料整合 – 整理出一個回答問題的資料集• 從空間,時間,連結關係上開始
• 從不同變數(空間,時間)開始建立基礎模型與呈現
• 將不同資料彙整在同一資料集內
資料新聞學 – 工作流程資料整合 – 整理出一個回答問題的資料集
資料新聞學 – 工作流程接下來?
問題有得到答案嗎?需要更多資料?
那就重新再跑一次吧
資料新聞學 – 工作流程說出故事…
資料新聞學 – 團隊與角色
Want to build a data journalism team? You’ll need these three people
資料新聞學 – 團隊與角色Computer Assisted Reporter
– 電腦輔助報導人
News Applications developer
– 新聞應用程式開發者
Data visualization specialist
– 資料視覺化呈現專家
資料新聞學 – 團隊與角色你該學會的新把戲1. 基礎技能
( Fundamentals )2. 統計( Statistics )3. 程式設計
( Programming )4. 機器學習( Machine
Learning )5. 文字採礦 / 自然語言處理
( Text Mining / Natural Language Processing )
6. 資料視覺化( Data Visualization )
你該學會的新把戲 2
7. 大量資料( Big Data )8. Data Ingestion
9. Data Wrangling
10. 工具( Toolbox)
資料新聞學 – 團隊與角色不過至少…
對資料,統計,程式語言和網路工具… 想辦法多學一點
資料新聞學 – 團隊與角色資料新聞學,
依然是新聞的一種
但這也是我們學習如何「發現」,「閱讀」,「述說」世界的一種方法
重點摘要• 資料新聞學 – 先談一下• 資料新聞學 – 工作流程
• 資料收集• 資料清理• 資料解讀• 資料整合• 說出故事
• 團隊與角色 – 找出你的定位
青平台 / 張維志
Contact me :
• http://fb.me/opendata.tw
• http://www.opendata.tw
• http://www.opencampus.tw
• http://fb.me/groups/Open.Campus/
• Twitter : @opentaiwan