「データでみえるtokyoガイドブック」 をつくろう | データ

25
http://codefor.tokyo/

Upload: codefortokyo

Post on 21-Jul-2015

298 views

Category:

Government & Nonprofit


4 download

TRANSCRIPT

http://codefor.tokyo/

データのありか

e-Stat政府統計の総合窓口

http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do

data.go.jpデータカタログサイト

http://www.data.go.jp/

e-Gove-Gov | 白書、年次報告書等

http://www.e-gov.go.jp/link/white_papers.html

e-Gove-Gov | 統計調査結果

http://www.e-gov.go.jp/link/statistics.html

統計関係リンク集都道府県のページ

http://www.e-stat.go.jp/SG1/estat/statisticsLinkView.do?method=%E9%83%BD%E9%81%93%E5%BA%9C%E7%9C%8C%E3%81%AE%E3%83%9A%E3%83%BC%E3%82%B8

東京都の統計

http://www.toukei.metro.tokyo.jp/

Open Data Universe

http://codefor.tokyo/odd/

TabulaPDFファイル内の表組から データを取り出すツール

http://tabula.technology/

データの整形

扱い方のポイント

ExcelやPDFで公開されているファイルの作り方は、印刷やディスプレイ表示をした際に人が認識しやすい書式で作られている。 !一方データとして扱う場合には不要な書式、不要な情報が多く含まれている。これを取り除く必要がある。

行政の提供する統計データファイルはShift JISであることが多い。

1.文字コード

ExcelやAdobe Illustrator日本語版ではShift JISという文字コードを採用している。

Shift JISは日本語のみの文字コードで、現在はUTF-8という多様な言語体系を含んだ文字コードが標準的に使用されている。

扱い方のポイント

ウェブで使用するファイル、様々なアプリで使用するファイルはUTF-8へ変換する必要がある。

MultiTextConverter

1.文字コード扱い方のポイント

http://www.rk-k.com/software/mtc

nkfhttp://dev.classmethod.jp/tool/exchange-file-encode-by-nkf/

mihttp://www.mimikaki.net/

※Excelで作業する前提です。

2.不揃いな書式を揃える

実データの表記とExcelが適用する表記法を切り分ける。 →Excelが適用する表記法をリセットし、実データの表記のみが表示されるようにする。

扱い方のポイント

Mac: 「書式」→「セル」 Windows: リボンメニュー「ホーム」「表示形式」タブで標準(特定の形式を指定しない)を選ぶ。

例: 数値における3桁ごとのカンマ区切りを取り除く

例: 値が入る欄に単位も含まれている場合があるので取り除く

例: データとして使わない部分は取り除く

2.不揃いな書式を揃える扱い方のポイント

Excel1シートに含まれるデータ ≠ 1グラフに必要なデータ

3.一シートに含まれる情報量扱い方のポイント

テキストエディタ → Excel という移動

4.アプリ間のデータ移動扱い方のポイント

CSV/TSVファイル「ファイルを開く」

機能で開く

エディタからExcelへ コピー&ペースト

1 2a

2b

csv, tsv…OK

csv…NG, tsv…OK

UTF-8…文字化けする

UTF-8…文字化けしない

Excel → テキストエディタ という移動

4.アプリ間のデータ移動扱い方のポイント

ExcelファイルCSV/TSVで保存したものを「ファイルを開く」機能で開く

Excelからエディタへ コピー&ペースト

1 2a

2b

4.アプリ間のデータ移動扱い方のポイント

Excel ←→ テキストエディタ間のデータの移動は 「TSV形式(タブ区切り形式)をコピペする」のが最も楽!

ベストプラクティス

•コラムごとのデータ形式の変換

•データ形式が間違っているものを検出(数値のコラムに文字列がある、など)

•データの重複を探し出す

•表記揺れの解消

•エラー値の検出と処理

•空白の検出と処理 •使うアプリやプログラム言語に合わせた書式への変更

5.データのクレンジング扱い方のポイント

http://openrefine.org/

5.データのクレンジング扱い方のポイント

https://github.com/DataVisualizationJapan/OpenRefine/tree/localization-to-ja

日本語版を 配布しています

※Javaのインストールが必要です

データの組み合わせ方

東京 × 他の海外の都市を比較

東京のみ

地理的な範囲

東京 × 他の都道府県を比較

構成……パイチャート

関係性…散布図

分布……バブルチャート

比較……棒グラフ

変化……折れ線グラフ

グラフで何を表現するか?

変数の数

1つ

2つ

3~4つ

1つ

1つ

地図で何を表現するか?

http://www.slideshare.net/yuichy/csis-map-140514

余談

http://www.data.go.jp/about-data-go-jp/