0331 開放資料實作課 @ hpa
TRANSCRIPT
「開放資料」實作工作坊2016年3月31日 @ 衛福部303會議室
本課程內容源自g0v《開放資料Lesson》專案
http://goo.gl/PFM1eb
開放資料
彭專委演講重點
• 開放資料 → 應用 → 報導 (公私協力)
• 官網上的查詢系統、PDF/word不是開放資料,乾淨的檔案才是
• 放上開放資料平台,才有適當授權
不分地方中央、黨派的共同政策
彭專委演講重點
• 開放資料 → 應用 → 報導 (公私協力)
• 官網上的查詢系統、PDF/word不是開放資料,乾淨的檔案才是
• 放上開放資料平台,才有適當授權
4hr
我該怎麼做?
如果我被交辦「請把某個資料變成開放資料」
大綱
•Part 1 把資料變乾淨
•Part 2 把格式存正確
•Part 3 把資料價值提高
•Part 4 重點資料集改善&討論
•尾聲 署內開放資料SOP介紹
應用
原則
Part 1
把資料變乾淨
csv檔
在開放資料的世界裡
沒有合併儲存格這個東西
=不能有合併儲存格
把資料變乾淨
□ 合併儲存格
□ 小計總計
□ 跨儲存格
□ 空白格位
□ 表頭表尾
□ 兩表合一
乾淨資料檢查表
測試一
全國糖尿病支持團體名單
□ 合併儲存格
□ 小計總計
□ 跨儲存格
□ 空白格位
□ 兩表合一
□ 表頭表尾http://data.gov.tw/node/8833
全國糖尿病支持團體名單
□ 合併儲存格
□ 小計總計
□ 跨儲存格
□ 空白格位
□ 兩表合一
□ 表頭表尾http://data.gov.tw/node/8833
V
測試二
血壓、血糖參考標準
□ 合併儲存格
□ 小計總計
□ 跨儲存格
□ 空白格位
□ 兩表合一
□ 表頭表尾http://data.gov.tw/node/8841
血壓、血糖參考標準
□ 合併儲存格
□ 小計總計
□ 跨儲存格
□ 空白格位
□ 兩表合一
□ 表頭表尾http://data.gov.tw/node/8841
V
V
V
測試三
歷年國中學生曾吸菸百分比
□ 合併儲存格
□ 小計總計
□ 跨儲存格
□ 空白格位
□ 兩表合一
□ 表頭表尾http://data.gov.tw/node/9340
歷年國中學生曾吸菸百分比
□ 合併儲存格
□ 小計總計
□ 跨儲存格
□ 空白格位
□ 兩表合一
□ 表頭表尾http://data.gov.tw/node/9340
V
V
V
把資料變乾淨
統計清單
Part 2
把格式存正確
存成csv檔
Excel檔 Csv檔
資料更結構化
舉個例子http://app.raw.densitydesign.org/
把剛才清乾淨的Excel檔
轉成csv檔
怎麼轉成csv檔?
Excel直接存csv檔的缺陷
字元編碼
• ANSI(Big 5):2 byte/1個中文字
• UTF 8 :3-4 byte/1個中文字
UTF 8比較不會缺字
UTF 8是國際碼
我們不只是要csv檔
Excel無法直接存UTF 8的csv
存 UTF8編碼的csv 小工具
• 台南市研考會https://imc-tn.tainan.gov.tw/excel-merge-tool/
• Ronny助教http://g0v.github.io/excel-data-tool/to-csv/
為什麼打開變亂碼?
建議上傳兩份:
① excel② UTF 8的csv
Part 1 + Part 2
綜合演練
□ 合併儲存格
□ 小計總計
□ 跨儲存格
□ 空白格位
□ 兩表合一
□ 表頭表尾
Part 1
把資料清乾淨
Part 2
把格式存正確
□ 線上轉檔工具*2
□ 記事本確認
10 min請把Part 1(清資料)、Part 2(轉格式)完成!
Bonus Part
進階功能
進階情境
• Q1:有很多工作表怎麼辦?
• Q2:地址欄位怎麼填?
• Q3:如果需要經緯度?
Q1:有很多工作表怎麼辦?20個工作表、分存成20個檔 / 存成同1個工作表、1個檔
Q1:有很多工作表怎麼辦?http://g0v.github.io/excel-data-tool/merge-sheets/
上傳你的Excel檔案
下載
把分頁變成欄位欄位起始前一行
Q2:地址欄位怎麼填?原則:越細當然越好、正確性很重要
• 縣市
• 鄉/鎮/市/區
• 村/里
• 鄰
• 大道/路/街/地區
• 段
• 巷/弄/衖
• 樓 (之~)
• 室
Q3:如果需要經緯度?內政部TGOS系統
座標選「WGS 84」 確認完整地址
Part 3
把資料價值提高
有請Ronny老師
品質提升小秘訣
• 辨認重要欄位
• Excel小技巧:vlookup
=vlookup(要找的詞,範圍,答案行,0)
Part 4
重點資料改善&討論
重點資料集
•第一組:健走步道
•第二組:口腔癌篩檢院所名單子抹病理單位院所名單癌友導航醫院名單
•第三組:禁菸場所商家名稱及地址
•第四組:癌友導航 / 哺集乳室
•第五組:癌友導航 / 哺集乳室
•第六組:哺集乳室資料集
重點資料集• Step 1 觀察!
• 資料集有哪些欄位?• 格式有沒有問題?
• Step 2 討論!• 應該減少、增加哪些欄位?【想像應用】
• Step 3 動手!• 增減欄位、把資料變乾淨&把格式存正確
是否應搭配別的資料一起開放?還有哪些資料也可以開放?
25 min25min後,
請各組派一位同仁分享你們的討論跟進度~
重要TIP!
如果你覺得開放資料怎麼這麼麻煩…
重要TIP!
請從已有系統下手!
重要TIP!
請留意系統維運案!
尾 聲
署內開放資料SOP