warpとデータセット - ndlラボ...2016.7.30 ndl データ利活用ワークショップ...

19
2016.7.30 NDLデータ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARPとデータセット 国立国会図書館

Upload: others

Post on 18-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

2016.7.30 NDLデータ利活用ワークショップ~ウェブ・アーカイブの自治体サイトを可視化しよう~

WARPとデータセット

国立国会図書館

Page 2: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

WARP

Page 3: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

WARPとは

・ウェブサイトのアーカイブ

・2002年に始めて15年目

・2010年から公的機関サイトを大規模に収集

http://warp.da.ndl.go.jp/3

Page 4: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

区分 根拠 対象 サイト数 収集頻度

公的機関 法律

国の機関

5,400

月1回地方自治体

年4回独立行政法人国公立大学

民間 契約公益法人、私立大学、政党、イベント、震災、電子雑誌

4,600 年1~4回

集めているウェブサイト

4

Page 5: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

容量で可視化

本日のターゲット

218TB/633TB

5

都道府県政令指定都市市町村特別地方公共団体(東京23区を含む)

Page 6: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

収集対象 現存する自治体 消えた自治体 合計都道府県 47 - 47政令指定都市 20 - 20市町村 1,698 989 2,687東京23区 23 - 23合計 1,788 989 2,777

内訳

6

Page 7: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

~2009年消えた自治体が多い

2010年~全自治体を保存

保存状況

7

Page 8: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

具体例をみてみましょう

8

・消えた町-佐賀県大和町

・2003年の香川県

・2012年の・・・(うどん県)

・2015年の香川県

http://warp.da.ndl.go.jp/info:ndljp/pid/246720/www.saganet.ne.jp/yamato/

http://warp.da.ndl.go.jp/info:ndljp/pid/236640/www.pref.kagawa.jp/

http://warp.da.ndl.go.jp/info:ndljp/pid/9498887/www.pref.kagawa.jp/

http://warp.da.ndl.go.jp/info:ndljp/pid/6019057/www.my-kagawa.jp/udon-ken/top.html

Page 9: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

データセット

Page 10: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

1. メタデータ

2. 検索API

本日、使えるデータ

10

Page 11: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

・2003年から2015年の自治体サイトの全件メタデータ

・2つのメタデータ

1. メタデータ

(自治体) 2,777 件

(収集回ごとのまとまり) 47,318 件

11

収集対象

収集個体

Page 12: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

ファイルをひとまとめにして保存➄

ここで収集のイメージを

www.pref.kagawa.jp/abc.html

www.pref.kagawa.jp/xyz.html

リンク先のページでも同じようにファイル複製、リンク解析

abc.pref.kagawa.jp

www.pref.kagawa.lg.jp/gikai/

udon.pref.kagawa.jpwww.pref.kagawa.jp/def.html

指定した範囲の全てのファイルを複製するまで繰り返す

起点URLにあるファイルを複製

起点URLwww.pref.kagawa.jp

クローラによる収集

➁ リンクを解析してページ遷移

12

Page 13: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

2つの関係

13

収集対象 収集個体

Page 14: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

WARP画面

14

収集対象

収集個体

Page 15: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

自治体 2015年3月まで 2015年4月以降都道府県

政令指定都市 5日 20日

市町村東京23区 1日

必ずしも100%ではありません

・収集回ごとの時間制限(オーバーしたら停止)

15

・技術的にとれないもの

Page 16: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

http://www.ndl.go.jp/jp/aboutus/standards/opendataset.html

詳細とダウンロードはこちら

16

Page 17: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

・自治体サイトをページ単位で検索できるページ数 62,286,266 ページ自治体数 1,788(47都道府県、20政令指定都市、1,698市町村、東京23区)対象年 2010年、2013年、2015年

・キーワード、外部リンクなど様々な情報を取得

2. 検索API

17

Page 18: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

詳細はこちら

18

Page 19: WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARP とデータセット

・館内でのみ見られるものが19%

⇒ 各グループのPCで見られます

補足

19