図書館検索システムの新しい形を目指して...

71
図図図図図図図図図図 図図図図図図図図図 NDL 図図図図図図 L-Crowd 図図図図 図図 図図 - 図図図図 図図図図図図 図図図図 図図図図 ・・ - 図図図図図図図図図図図図図 [email protected] / [email protected] 2016/10/22(Sat) 図図図図図図図図 図図図図図図図図図図図 2016 図 10 図図図図図図

Upload: kosetsu-ikeda

Post on 16-Apr-2017

225 views

Category:

Science


0 download

TRANSCRIPT

Page 1: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

図書館検索システムの新しい形を目指して~ NDL ラボサーチと L-Crowd を中心に

池田 光雪

- 千葉大学 アカデミック・リンク・センター- 国立国会図書館非常勤調査員[email protected] / [email protected]

2016/10/22(Sat)日本図書館研究会 情報組織化研究グループ 2016年 10月月例研究会

Page 2: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

2 71

● 自己紹介● NDL ラボについて● NDL ラボサーチについて– アプリ・ API ・リソースの疎結合な三層構成

– 実験的諸機能

● L-Crowd について– NDL における書誌誤同定の発見

– NDL デジタルコレクション資料から絵や写真・図表を抜き出す

– NDL デジタルコレクション資料を文字起こしする

● 今後の展開・まとめ

目次

Page 3: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

3 71

● 池田光雪 IKEDA Kosetsu

● 高校生の頃は何となく「図書館」に興味があり筑波大学知識情報・図書館学類に進学– 電子図書館に漠然とした憧れ

– しかし,入学後に「研究」と「システム開発」の違いに気が付き研究方向はスイッチ

– 博論のテーマは「 XML に対する問合せ式の修正」

自己紹介

Page 4: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

4 71

● 2007/4-2016/7筑波大学(学部~博士後期課程)

● 2014/4- 現在国立国会図書館 非常勤調査員– 館内における検証システムの構築などを担当

● 2016/4- 現在千葉大学 アカデミック・リンク・センター特任助教– アカデミック・リンク内に設置された

ミニスタジオや空間整備に取り組んでいる

– 今後は研究データの利活用も……?

自己紹介 cont’d

Page 5: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

5 71

● 今回は NDL で開発した NDL ラボサーチと最近取り組んでいる L-Crowd の話をします

● 発表後にも質疑の時間はありますが,不明な点があれば適宜ご質問ください

本日のテーマ

Page 6: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

6 71

 

NDL ラボとは [1]

“(前略)現代、資料はその身を電子に変え、人々はインターネットに情報を求めて集まるようになっています。

その中で、伝統的な図書館も変革を迫られています。既存のアナログ資料をどのようにインターネットを通じて提供するか、電子的な資料をどう整理して、どのように人々がアクセスできるようにするか。

(中略)NDL ラボは、そういった図書館が抱える課題に対して、実証的な実験を行うことで解決を図るために用意された実験場です。

[1] 国立国会図書館 次世代システム開発研究室 . ”NDL ラボについて ” . NDL ラボ . http:// lab.ndl.go.jp/cms/?q=about, (accessed 2015-08-18)

Page 7: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

7 71

NDL ラボの構造

NDL ラボ

外部研究者

公開

研究成果

移植環境構築データ提供

NDL職員

Page 8: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

8 71

NII の阿辺川武先生が開発 国立国会図書館デジタルコレクション

(以降国デコ)の資料の一部を OCR+α して利用

Wikipedia などの外部情報源から脚注を自動表示

事例 1) 電子読書支援システム [3]

[3] ”NDL ラボ : 脚注表示機能を有した電子読書支援システムの構築実験 ” . NDL ラボ . http:// lab.ndl.go.jp/ni i / , (accessed 2016-10-07)

Page 9: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

9 71

人文情報学研究所の永崎研宣先生が開発 国デコの資料をテキストデータ化するための

プラットフォーム

事例 2) 翻デジ 2014[4]

[4] ” 翻デジ 2014”. NDL ラボ . http:// lab.ndl .go.jp/dhi i /omk2/, (accessed 2016-10-07)

Page 10: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

10 71

人文情報学研究所の永崎研宣先生が開発 国デコの一部資料の絵や写真を俯瞰・検索できる L-Crowd プロジェクトの成果を活用(後述)

事例 3) 国デコ Image Wall[5]

[5] ” 国デコ Image Wall”. NDL ラボ . http:// lab.ndl.go.jp/dhii /kunidicoview/, (accessed 2016-10-07)

Page 11: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

11 71

東京大学の美馬秀樹先生,増田勝也先生が開発 国デコの一部資料に対し,意味的な関連に基づいた探索を可能とするシステム

事例 4) 書誌情報検索・可視化システム [6]

[6] ”NDL ラボ 書誌情報検索・可視化システム ” . NDL ラボ . http:// lab.ndl.go.jp/ut/ , (accessed 2016-10-07)

Page 12: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

12 71

NDL サーチの次期実装プロトタイプとして新たに構築された検索システム

学術的な意味合いよりも実用的意味合いを追求

事例 5) NDL ラボサーチ [7]

[7] ”NDL ラボサーチ ” . NDL ラボ . http:// lab.ndl.go.jp/ndls/, (accessed 2016-10-07)

Page 13: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

13 71

NDL ラボサーチについて

Page 14: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

14 71

Page 15: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

15 71

川島隆徳(国立国会図書館)– バックエンド全般を担当

常川真央(現 アジア経済研究所)– 2013年度まで NDL 非常勤調査員として

ラボサーチのフロントエンド全般を担当.主にシングルページアプリケーションの枠組みを構築

池田光雪( NDL 非常勤調査員 / 千葉大学)– 2014年度からフロントエンド全般を担当.主に細かいデザインや機能を作成

原田隆史( NDL 非常勤調査員 / 同志社大学)– アドバイザー

開発体制

Page 16: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

16 71

1. 高速に動作– Ajax-Solr というエンジンをベースにしている

キャッシュや分散検索等の仕組みが豊富

– ただし NDL サーチとの差は I/O やデータ量が原因?

2. アプリ・ API ・リソースの疎結合な三層構成

3. 実験的諸機能の実装– 表示方法の検討

NDL ラボサーチのポイント・理念

Page 17: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

17 71

アプリ・ API ・リソースの疎結合な三層構成NDL ラボサーチについて

Page 18: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

18 71

個々の構成要素が緊密に結びついている状態を密結合,緩やかに結びつき独立性が高い状態のことを疎結合と呼ぶ

密結合なシステムでは連携を考える必要がない,一元管理が可能などの利点がある一方,柔軟な運用ができない

密結合と疎結合

リソース・アプリ

リソース

APIアプリ

密結合 疎結合

Page 19: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

19 71

疎結合な構成であればある部分だけの交換が可能に

例 1) 同じ見た目のままデータを変えたい

例 2) データはそのままで見た目や機能を一新したい

疎結合であることの利点

リソース

APIアプリ

リソース

APIアプリ アプリ

リソース

Page 20: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

20 71

アプリ部分は NDL LabSearch Client[8, 9] としてオープンソースソフトウェア化

誰もが自由にカスタマイズできるように,という思想

NDL ラボサーチ

リソース

APIアプリ NDL ラボサーチ

NDL所蔵資料 +雑誌記事索引2,300万件

[8] 常川真央 . ” ineku2/ndl- labsearch-cl ient”. GitHub. https:/ /github.com/ineku2/ndl- labsearch-cl ient, (accessed 2015-08-18)

[9] 常川真央 . ”NDL LabSearch Client のご紹介 ” . s l ideshare. http:/ /www.sl ideshare.net/tsunekawamao/ndl-labsearch-cl ient, (accessed 2015-08-18)

Page 21: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

21 71

図書館総合演習の授業で使うために設計– 条件に合致する資料を探すという演習

ログイン機能の追加誰が・いつ・どのような行動をしたかのログを蓄積

発見した資料を出力して提出する機能

NDL ラボサーチの応用例:同志社サーチ

リソース

APIアプリ 同志社サーチ

同志社大学所蔵資料

Page 22: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

22 71

さらなる NDL ラボサーチの応用

リソース

APIアプリ NDL ラボ全文サー

NDL所蔵資料 +全文データ

リソース

APIアプリNDL ラボ OPAC

NDL所蔵資料

いずれも内部での検証用

Page 23: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

23 71

実験的諸機能NDL ラボサーチについて

Page 24: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

24 71

(0) 画面遷移回数を抑える

(1) 表示形式の切り替え

(2) 全レコード表示からの絞り込み

(3) キーワード(タグ)による絞り込み

(4) NOTファセット

(5) 著作数順ソート

(6) ブックマークとレコメンド

(7) ブックマークのエクスポート

(8) アクセスログを使った共起資料の表示

実装した諸機能

表示

絞り込み

拡張

Page 25: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

25 71

資料を表すボックスをクリックするとボックス全体が伸縮して分類や大きさといった詳細な情報が表示される– タイトルをクリックすると全てのメタデータ及びパーマリンクを持つさらに詳細な画面に遷移

検索結果画面と詳細画面を何度も往復させないというコンセプト

エクスポートなどはモーダルウィンドウで行う

(0) 画面遷移回数を抑える

Page 26: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

26 71

Page 27: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

27 71

複数のデザインを提供し,自由に切り替えられるようにする

「大きく表示」「小さく表示」「表」

(1) 表示形式の切り替え

Page 28: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

28 71

やはり昔ながらの表形式は一望性が高く見やすいとの好評を館内では得た

一方,著者やタイトルがリストのように表示され,また詳細な情報もページ遷移することなく確認可能な前述の形式も一定の評価を得た

どちらがより望ましいかはおそらく利用スタイルに依存する

(1) 表示形式の切り替え cont’d

Page 29: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

29 71

全レコードを取得するという Solr の機能 ファセットで絞り込んでいくという使い方

(2) 全レコード表示からの絞り込み

Page 30: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

30 71

図書・雑誌といったような「資料種別」「刊行年」,「分類」のような属性情報を元に所望の資料を絞り込んでいく

検索対象が明確でないときに有用?

(2) 全レコード表示からの絞り込み cont’d

NDC: 645 刊行年 : 2016

NDC が 645 かつ刊行年が 2016

Page 31: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

31 71

いわゆるタグクラウド タイトルの形態素からヒューリスティックに生

(3) キーワード(タグ)による絞り込み

クエリ「殊能 将之」に対するキーワード

Page 32: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

32 71

NOT絞り込みを可能に 明らかに違う条件を除外できる

(4) NOTファセット

雑誌記事索引を除外

Page 33: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

33 71

「『ハリー・ポッター』の原作を読みたい」という欲求があったとする– 著者名はわからないという想定

「ハリー ポッター」をキーワードとして本を NDL サーチで検索しても,原作はあまり上位にはこない– 解説本や楽譜などの派生作品がヒットしてしまう

「シリーズものなど場合,派生作品より 原作者の著作数が一番多いのでは?」という仮定から「著作数順ソート」を実装

(5) 著作数順ソート

Page 34: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

34 71

検索結果の上位 10件のうち, 2(4)件が原作

シリーズものをまとめる関係で少なくカウント

NDL サーチの結果 *

* 2015 年 9 月 5 日時点での http:// iss.ndl .go.jp/ の結果.

Page 35: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

35 71

雑誌記事索引を除外した場合,上位 10 中 5件は原作

5件目以降はほぼずっと原作

資料種別の絞り込みと組み合わせると有用?

NDL ラボサーチの結果 **

* 2015 年 9 月 5 日時点での http:// lab.ndl.go.jp/ndls/ の結果.

Page 36: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

36 71

検索結果からワンクリックでブックマーク ブックマークに登録されている資料の著者名・

NDC ・ NDLC ・出版者名を使って内部で問合せした結果をレコメンドとして表示

(6) ブックマークとレコメンド

ブックマーク レコメンド

Page 37: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

37 71

印刷することを前提に,ブックマークした資料を表形式で表示– 表示する項目を選択可能

– 開架式図書館における探索のためのメモとして

(7) ブックマークのエクスポート

Page 38: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

38 71

NDL サーチの Apache ログから同一ユーザにより一度に閲覧された資料を取得し表示

「この資料を見た人はこの資料も見ています」

(8) アクセスログを使った共起資料の表示

Page 39: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

39 71

NDL ラボは図書館が抱える課題に対して実証的実験を行うことで解決を図る場

NDL ラボサーチは次世代を見据え作られた,疎結合な構成の検索システム

NDL ラボの様々な取り組みに対し,是非ご意見やご感想をお寄せ下さい!– http://lab.ndl.go.jp/

ここまでのまとめ

Page 40: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

40 71

L-Crowd

Page 41: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

41 71

● 人間の力が必要な図書館領域の問題に対し,マイクロボランティアとクラウドソーシングによる解決を図る試み

● いくつかのプロジェクトを実施中

L-Crowd

[10] ” 歌川広重「伊勢参宮・宮川の渡し」 ” . Wikimedia Commons. https://commons.wikimedia.org/wiki /Fi le:Ando_hirosige_miyakawanowatasi. jpg, (accessed 2016-10-07)

Page 42: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

42 71

● crowd(群衆 )+sourcing(業務委託 )● 不特定多数の人々に作業を委託すること● 日本国内ではオンラインマッチングを行う

ランサーズ [10] が有名– 「ロゴを作って欲しい」

– 「システムを構築して欲しい」…他

● L-Crowd をサポートする Crowd4U では,特にヒューマンコンピュテーションなクラウドソーシングに着目している

クラウドソーシング

[10] ” ランサーズ” . http://www.lancers.jp/, (accessed 2016-10-07)

Page 43: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

43 71

● 人の知や力を利用した計算のこと● 画像のタグ付け,

OCR 不可能な文字の文字起こしなど,計算機には出来ないが人には出来る作業を人にやってもらうという方法

● reCAPTCHA[11] が有名

ヒューマンコンピュテーションとは

[11] ”reCAPTCHA: Easy on Humans, Hard on Robots”. https://www.google.com/recaptcha/intro/, (accessed 2016-10-07)

Page 44: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

44 71

● 認証時などのタイミングで表示されている 2 つの文字列を入力させる

● 実は認証に使っている(答えが既知な)のは左の文字列だけで,右の文字列は何を入れてもいい– 右の文字列は機械には読み取れない

● ある人が左右の文字列を入力したとして,左の文字列が正しいのであれば右の文字列も正しいだろうという仮定のもと人に文字起こしをさせている

reCAPTCHA

Page 45: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

45 71

● 数秒から数分といった非常に短時間で終わるボランティアのこと

● Web を活用することにより,パソコンやスマートフォンから電車での移動中やちょっとした休憩時間などにボランティアを行う

マイクロボランティア

Page 46: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

46 71

● 公共と学術目的に利用される,非営利のマイクロボランティア・クラウドソーシングプラットフォーム

● 2011年 11月から運用開始● これまでに 10以上のプロジェクトが

実施されている

Crowd4U[12]

[12] ”Crowd4U とは何でしょうか? ” .http://crowd4u.org/ja/about, (accessed 2016-10-07)

Page 47: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

47 71

● Crowd4U では様々な媒体・方法でタスクに取り組むことができる– 日常的な行動に付随したシステムも複数開発

コンスタントなスループットの維持が期待できる

Crowd4U|タスクへの取り組み方

Page 48: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

48 71

● Web サイトにタスクを埋め込むこともできる

Crowd4U|Web サイトへ埋め込み

[13] lumely. ” 図書の網 ” . http:// lumely.hatenablog.com/, (accessed 2016-10-07)[13]

Page 49: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

49 71

● 床の上を歩くだけでタスクに回答できる– 同志社大学,明治大学,神戸大学,筑波大学に設置

Crowd4U|床システム

Page 50: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

50 71

● スマートフォンがロックから復帰したときにタスクが表示される

● 「スマホボランティア」としてGoogle Play で配信中

Crowd4U|スマートフォンロックアプリ

Page 51: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

51 71

● 人間の力が必要な図書館領域の問題に対し,マイクロボランティアとクラウドソーシングによる解決を図る試み– Crowd4U をプラットフォームとして活用

● 1 つのプロジェクトが完了– NDL における書誌誤同定の発見(終了)

● 2 つのプロジェクトが進行中– 国デコ資料から絵や写真・図表を抜き出す

– 国デコ資料の文字起こし

● さらに新しいプロジェクトも準備中

L-Crowd

Page 52: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

52 71

NDL における書誌誤同定の発見L-Crowd

Page 53: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

53 71

● 横断検索システムで用いるために,全国の県立図書館などから書誌を収集して横断的な書誌を作る

● 検索結果において同じ資料を指す書誌を複数箇所に表示させないためには,書誌を同定する必要がある

背景|全国書誌

[14] ” 国立国会図書館  NDL”. Twitter. https://twitter.com/ndljp, (accessed 2016-10-07)

[14]書誌

書誌

書誌収集

同定 NDL図書館 A図書館 B

全国書誌

Page 54: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

54 71

● ISBN は(その意義からしても)同定キーとして有効なはず

● しかし,調査を進めたところ全く違う図書に同じ ISBN が振られているデータが見つかった– 出版社による ISBN の使い回し等が理由

– 旅行本などにおいて,出版年が違う図書に同じ ISBN を振ってしまっている場合も

● 機械的に同定すると,約 100万の書誌の中に1万組ほど ISBN の重複が見つかる– 全てが間違いというわけでもない

版の微妙な違いなどで複数の書誌を作る,など

同定キーとしての ISBN

Page 55: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

55 71

機械的な判別は難しい

● 次の 2 つは単なる文字列の比較では別の予稿集だが,おそらく同じもの– 正しい同定には人間の判断が必要になる

タイトル 出版社Transportation and traffic theory: 10th International symposium : Jul 1987, Cambridge, MA

Elsevier

Transportation and traffic theory: proceedings of the Tenth International Symposium on Transportation and Traffic Theory, held July 8-10, 1987, at the Massachusetts Institute of Technology, Cambridge, Massachusetts

Elsevier

Page 56: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

56 71

ある書誌に対し,同じ ISBN を持つ別の書誌を(複数)並べ,明らかに違うかを選ばせるタスク

NDL における書誌誤同定の発見

Page 57: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

57 71

● 3 回ずつ,計 22,765 タスク実施– 3 回とも同じ判断が下された : 69.9%

3 回とも同じ書誌であると判定: 45.6% 3 回とも違う書誌であると判定: 24.3%

– 2 回は同じ判断が下された : 18.4%– 全て違う判断が下された : 11.6%

● 判断が分かれたものや,3 回とも違うと判定されたものが実際どうなのかについては現在調査中

NDL における書誌誤同定の発見|結果

Page 58: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

58 71

国デコ資料から絵や写真・図表を抜き出すL-Crowd

Page 59: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

59 71

● 35万点もの図書をはじめとして,非常に多くの資料を公開– その多くがパブリックドメイン

国立国会図書館デジタルコレクション [15]

[15] ” 国立国会図書館デジタルコレクション ” . 国立国会図書館 . http://dl .ndl .go.jp/, (accessed 2016-10-11)

Page 60: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

60 71

● 基本的な導線:表紙のサムネイル画像やメタデータ,検索結果のスニペットから興味関心を引き出す

● 「もう一つの導線」:図書資料中に含まれる絵や写真,図表などから図書全体への関心を喚起する

● もう一つの導線を構築するために,絵や写真,図表が含まれる見開き画像をマイクロボランティアにより集める

デジタルアーカイブへの「もう一つの導線」 [16]

[16] 永崎研宣 , 森嶋厚行 , 池田光雪 , 林亮太 , 太田千尋 . “ オープンサイエンスの基盤としての国デコ Image  Wall I I IF + Crowd4U の活用事例として ” . 第 112 回人文科学とコンピュータ研究会発表会 . 2016, 3p. (to appear)

Page 61: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

61 71

● 見開き画像を表示し,図表や写真を含むかを「はい」「いいえ」で判定

タスク設計

Page 62: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

62 71

人文情報学研究所の永崎研宣先生が開発 国デコの一部資料の絵や写真を俯瞰・検索できる IIIF に対応した表示

結果の利用:国デコ Image Wall[5]

[5] ” 国デコ Image Wall”. NDL ラボ . http:// lab.ndl.go.jp/dhii /kunidicoview/, (accessed 2016-10-07)

Page 63: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

63 71

2 つの API からなるデジタルアーカイブの国際規格– 画像を表示する際に URI で表示の仕方を指定するルー

ル( image API )

– Image API を前提として,画像のメタデータを共有するルール( presentation API )

– 「画像の表示や操作、アノテーションなどの仕方を世界中で共通化できるように支援」

ビューワとデータの分離 今後,国際的なトレンドになる……?

International Image Interoperability Framework(IIIF)[17]

[17] ”International Image Interoperabil ity Framework ”.http:// i i i f. io/ , (accessed 2016-10-07)

Page 64: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

64 71

国デコ資料の文字起こしを行うL-Crowd

Page 65: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

65 71

● 画像でしか公開されていないコレクション(例えば国デコ)が文字起こしされれば,様々な恩恵が得られる– Google などのサーチエンジンから発見が可能に

– 単語の使用頻度のような定量的な分析が可能に

– 読み上げをするためにも全文データは必要

● 一方,文字起こしは非常に高コスト– 欧米と比べ日本語は文字が膨大であり,

OCR の適合率にも限界がある

背景|文字起こし

Page 66: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

66 71

● OCR が認識した領域と,認識した候補を表示させその正誤を判定

タスク設計

Page 67: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

67 71

● 20,644 タスクを実施し,3,979 文字が校正結果として得られた

● OCR をしただけの結果の F値が 76.2 だったことに対し,タスク結果は 89.6 まで向上– 残りは旧字体・異体字・新字体間での誤りや,

「あ」と「ぁ」のような同形間での誤り

– タスク数に対する校正文字数を大幅に増やすことが今後の課題

タスク結果 [18]

[18] 池田光雪 , 林亮太 , 永崎研宣 , 森嶋厚行 . “ 翻デジにおけるマイクロタスク活用の試み” . 人文科学とコンピュータ研究会第 110 回発表会 . 7p, 2016.

Page 68: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

68

今後の展開・まとめ

71

Page 69: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

69 71

● マイクロタスク型クラウドソーシングにより,NDL の所蔵データについては誤同定の発見ができた

● 課題:– 地域資料のような NDL が持たないデータは範囲外

– ISBN を持たない図書は対象外

– NDL の所蔵データと,都道府県立図書館が持つ所蔵データの比較は困難

今後の展開|これまでの成果と課題

Page 70: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

70 71

「都道府県総合目録の将来像に関する 研究プロジェクト」● 京都府域で収集したメタデータと NDL が持つメタデータについて,同定ロジックで一致しているが完全には一致していないものを比較するマイクロタスク型クラウドソーシングを行う– 同志社大学の原田隆史先生が主導

– 正確な書誌同定を行うための基礎データの生成,同定ロジックの高度化などが期待される

今後の展開

Page 71: 図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

71 71

● 新しい図書館検索システムを指向したNDL ラボサーチ– アプリ・ API ・リソースの分離

● マイクロボランティアとクラウドソーシングによる図書館領域の問題解決を図る L-Crowd– Crowd4U チームに是非参加を!

– 第 18 回図書館総合展 (2016/11/8-11/10) でもデモを交えたポスター発表を行います!

まとめ

本スライドではいらすとや ( http://www.irasutoya.com/ ) さんのイラスト素材を使いました.