図書館検索システムの新しい形を目指して...
TRANSCRIPT
図書館検索システムの新しい形を目指して~ NDL ラボサーチと L-Crowd を中心に
池田 光雪
- 千葉大学 アカデミック・リンク・センター- 国立国会図書館非常勤調査員[email protected] / [email protected]
2016/10/22(Sat)日本図書館研究会 情報組織化研究グループ 2016年 10月月例研究会
2 71
● 自己紹介● NDL ラボについて● NDL ラボサーチについて– アプリ・ API ・リソースの疎結合な三層構成
– 実験的諸機能
● L-Crowd について– NDL における書誌誤同定の発見
– NDL デジタルコレクション資料から絵や写真・図表を抜き出す
– NDL デジタルコレクション資料を文字起こしする
● 今後の展開・まとめ
目次
3 71
● 池田光雪 IKEDA Kosetsu
● 高校生の頃は何となく「図書館」に興味があり筑波大学知識情報・図書館学類に進学– 電子図書館に漠然とした憧れ
– しかし,入学後に「研究」と「システム開発」の違いに気が付き研究方向はスイッチ
– 博論のテーマは「 XML に対する問合せ式の修正」
自己紹介
4 71
● 2007/4-2016/7筑波大学(学部~博士後期課程)
● 2014/4- 現在国立国会図書館 非常勤調査員– 館内における検証システムの構築などを担当
● 2016/4- 現在千葉大学 アカデミック・リンク・センター特任助教– アカデミック・リンク内に設置された
ミニスタジオや空間整備に取り組んでいる
– 今後は研究データの利活用も……?
自己紹介 cont’d
5 71
● 今回は NDL で開発した NDL ラボサーチと最近取り組んでいる L-Crowd の話をします
● 発表後にも質疑の時間はありますが,不明な点があれば適宜ご質問ください
本日のテーマ
6 71
NDL ラボとは [1]
“(前略)現代、資料はその身を電子に変え、人々はインターネットに情報を求めて集まるようになっています。
その中で、伝統的な図書館も変革を迫られています。既存のアナログ資料をどのようにインターネットを通じて提供するか、電子的な資料をどう整理して、どのように人々がアクセスできるようにするか。
(中略)NDL ラボは、そういった図書館が抱える課題に対して、実証的な実験を行うことで解決を図るために用意された実験場です。
[1] 国立国会図書館 次世代システム開発研究室 . ”NDL ラボについて ” . NDL ラボ . http:// lab.ndl.go.jp/cms/?q=about, (accessed 2015-08-18)
7 71
NDL ラボの構造
NDL ラボ
外部研究者
公開
研究成果
移植環境構築データ提供
NDL職員
8 71
NII の阿辺川武先生が開発 国立国会図書館デジタルコレクション
(以降国デコ)の資料の一部を OCR+α して利用
Wikipedia などの外部情報源から脚注を自動表示
事例 1) 電子読書支援システム [3]
[3] ”NDL ラボ : 脚注表示機能を有した電子読書支援システムの構築実験 ” . NDL ラボ . http:// lab.ndl.go.jp/ni i / , (accessed 2016-10-07)
9 71
人文情報学研究所の永崎研宣先生が開発 国デコの資料をテキストデータ化するための
プラットフォーム
事例 2) 翻デジ 2014[4]
[4] ” 翻デジ 2014”. NDL ラボ . http:// lab.ndl .go.jp/dhi i /omk2/, (accessed 2016-10-07)
10 71
人文情報学研究所の永崎研宣先生が開発 国デコの一部資料の絵や写真を俯瞰・検索できる L-Crowd プロジェクトの成果を活用(後述)
事例 3) 国デコ Image Wall[5]
[5] ” 国デコ Image Wall”. NDL ラボ . http:// lab.ndl.go.jp/dhii /kunidicoview/, (accessed 2016-10-07)
11 71
東京大学の美馬秀樹先生,増田勝也先生が開発 国デコの一部資料に対し,意味的な関連に基づいた探索を可能とするシステム
事例 4) 書誌情報検索・可視化システム [6]
[6] ”NDL ラボ 書誌情報検索・可視化システム ” . NDL ラボ . http:// lab.ndl.go.jp/ut/ , (accessed 2016-10-07)
12 71
NDL サーチの次期実装プロトタイプとして新たに構築された検索システム
学術的な意味合いよりも実用的意味合いを追求
事例 5) NDL ラボサーチ [7]
[7] ”NDL ラボサーチ ” . NDL ラボ . http:// lab.ndl.go.jp/ndls/, (accessed 2016-10-07)
13 71
NDL ラボサーチについて
14 71
15 71
川島隆徳(国立国会図書館)– バックエンド全般を担当
常川真央(現 アジア経済研究所)– 2013年度まで NDL 非常勤調査員として
ラボサーチのフロントエンド全般を担当.主にシングルページアプリケーションの枠組みを構築
池田光雪( NDL 非常勤調査員 / 千葉大学)– 2014年度からフロントエンド全般を担当.主に細かいデザインや機能を作成
原田隆史( NDL 非常勤調査員 / 同志社大学)– アドバイザー
開発体制
16 71
1. 高速に動作– Ajax-Solr というエンジンをベースにしている
キャッシュや分散検索等の仕組みが豊富
– ただし NDL サーチとの差は I/O やデータ量が原因?
2. アプリ・ API ・リソースの疎結合な三層構成
3. 実験的諸機能の実装– 表示方法の検討
NDL ラボサーチのポイント・理念
17 71
アプリ・ API ・リソースの疎結合な三層構成NDL ラボサーチについて
18 71
個々の構成要素が緊密に結びついている状態を密結合,緩やかに結びつき独立性が高い状態のことを疎結合と呼ぶ
密結合なシステムでは連携を考える必要がない,一元管理が可能などの利点がある一方,柔軟な運用ができない
密結合と疎結合
リソース・アプリ
リソース
APIアプリ
密結合 疎結合
19 71
疎結合な構成であればある部分だけの交換が可能に
例 1) 同じ見た目のままデータを変えたい
例 2) データはそのままで見た目や機能を一新したい
疎結合であることの利点
リソース
APIアプリ
リソース
APIアプリ アプリ
リソース
20 71
アプリ部分は NDL LabSearch Client[8, 9] としてオープンソースソフトウェア化
誰もが自由にカスタマイズできるように,という思想
NDL ラボサーチ
リソース
APIアプリ NDL ラボサーチ
NDL所蔵資料 +雑誌記事索引2,300万件
[8] 常川真央 . ” ineku2/ndl- labsearch-cl ient”. GitHub. https:/ /github.com/ineku2/ndl- labsearch-cl ient, (accessed 2015-08-18)
[9] 常川真央 . ”NDL LabSearch Client のご紹介 ” . s l ideshare. http:/ /www.sl ideshare.net/tsunekawamao/ndl-labsearch-cl ient, (accessed 2015-08-18)
21 71
図書館総合演習の授業で使うために設計– 条件に合致する資料を探すという演習
ログイン機能の追加誰が・いつ・どのような行動をしたかのログを蓄積
発見した資料を出力して提出する機能
NDL ラボサーチの応用例:同志社サーチ
リソース
APIアプリ 同志社サーチ
同志社大学所蔵資料
22 71
さらなる NDL ラボサーチの応用
リソース
APIアプリ NDL ラボ全文サー
チ
NDL所蔵資料 +全文データ
リソース
APIアプリNDL ラボ OPAC
NDL所蔵資料
いずれも内部での検証用
23 71
実験的諸機能NDL ラボサーチについて
24 71
(0) 画面遷移回数を抑える
(1) 表示形式の切り替え
(2) 全レコード表示からの絞り込み
(3) キーワード(タグ)による絞り込み
(4) NOTファセット
(5) 著作数順ソート
(6) ブックマークとレコメンド
(7) ブックマークのエクスポート
(8) アクセスログを使った共起資料の表示
実装した諸機能
表示
絞り込み
拡張
25 71
資料を表すボックスをクリックするとボックス全体が伸縮して分類や大きさといった詳細な情報が表示される– タイトルをクリックすると全てのメタデータ及びパーマリンクを持つさらに詳細な画面に遷移
検索結果画面と詳細画面を何度も往復させないというコンセプト
エクスポートなどはモーダルウィンドウで行う
(0) 画面遷移回数を抑える
26 71
27 71
複数のデザインを提供し,自由に切り替えられるようにする
「大きく表示」「小さく表示」「表」
(1) 表示形式の切り替え
28 71
やはり昔ながらの表形式は一望性が高く見やすいとの好評を館内では得た
一方,著者やタイトルがリストのように表示され,また詳細な情報もページ遷移することなく確認可能な前述の形式も一定の評価を得た
どちらがより望ましいかはおそらく利用スタイルに依存する
(1) 表示形式の切り替え cont’d
29 71
全レコードを取得するという Solr の機能 ファセットで絞り込んでいくという使い方
(2) 全レコード表示からの絞り込み
30 71
図書・雑誌といったような「資料種別」「刊行年」,「分類」のような属性情報を元に所望の資料を絞り込んでいく
検索対象が明確でないときに有用?
(2) 全レコード表示からの絞り込み cont’d
NDC: 645 刊行年 : 2016
NDC が 645 かつ刊行年が 2016
31 71
いわゆるタグクラウド タイトルの形態素からヒューリスティックに生
成
(3) キーワード(タグ)による絞り込み
クエリ「殊能 将之」に対するキーワード
32 71
NOT絞り込みを可能に 明らかに違う条件を除外できる
(4) NOTファセット
雑誌記事索引を除外
33 71
「『ハリー・ポッター』の原作を読みたい」という欲求があったとする– 著者名はわからないという想定
「ハリー ポッター」をキーワードとして本を NDL サーチで検索しても,原作はあまり上位にはこない– 解説本や楽譜などの派生作品がヒットしてしまう
「シリーズものなど場合,派生作品より 原作者の著作数が一番多いのでは?」という仮定から「著作数順ソート」を実装
(5) 著作数順ソート
34 71
検索結果の上位 10件のうち, 2(4)件が原作
シリーズものをまとめる関係で少なくカウント
NDL サーチの結果 *
* 2015 年 9 月 5 日時点での http:// iss.ndl .go.jp/ の結果.
35 71
雑誌記事索引を除外した場合,上位 10 中 5件は原作
5件目以降はほぼずっと原作
資料種別の絞り込みと組み合わせると有用?
NDL ラボサーチの結果 **
* 2015 年 9 月 5 日時点での http:// lab.ndl.go.jp/ndls/ の結果.
36 71
検索結果からワンクリックでブックマーク ブックマークに登録されている資料の著者名・
NDC ・ NDLC ・出版者名を使って内部で問合せした結果をレコメンドとして表示
(6) ブックマークとレコメンド
ブックマーク レコメンド
37 71
印刷することを前提に,ブックマークした資料を表形式で表示– 表示する項目を選択可能
– 開架式図書館における探索のためのメモとして
(7) ブックマークのエクスポート
38 71
NDL サーチの Apache ログから同一ユーザにより一度に閲覧された資料を取得し表示
「この資料を見た人はこの資料も見ています」
(8) アクセスログを使った共起資料の表示
39 71
NDL ラボは図書館が抱える課題に対して実証的実験を行うことで解決を図る場
NDL ラボサーチは次世代を見据え作られた,疎結合な構成の検索システム
NDL ラボの様々な取り組みに対し,是非ご意見やご感想をお寄せ下さい!– http://lab.ndl.go.jp/
ここまでのまとめ
40 71
L-Crowd
41 71
● 人間の力が必要な図書館領域の問題に対し,マイクロボランティアとクラウドソーシングによる解決を図る試み
● いくつかのプロジェクトを実施中
L-Crowd
[10] ” 歌川広重「伊勢参宮・宮川の渡し」 ” . Wikimedia Commons. https://commons.wikimedia.org/wiki /Fi le:Ando_hirosige_miyakawanowatasi. jpg, (accessed 2016-10-07)
42 71
● crowd(群衆 )+sourcing(業務委託 )● 不特定多数の人々に作業を委託すること● 日本国内ではオンラインマッチングを行う
ランサーズ [10] が有名– 「ロゴを作って欲しい」
– 「システムを構築して欲しい」…他
● L-Crowd をサポートする Crowd4U では,特にヒューマンコンピュテーションなクラウドソーシングに着目している
クラウドソーシング
[10] ” ランサーズ” . http://www.lancers.jp/, (accessed 2016-10-07)
43 71
● 人の知や力を利用した計算のこと● 画像のタグ付け,
OCR 不可能な文字の文字起こしなど,計算機には出来ないが人には出来る作業を人にやってもらうという方法
● reCAPTCHA[11] が有名
ヒューマンコンピュテーションとは
[11] ”reCAPTCHA: Easy on Humans, Hard on Robots”. https://www.google.com/recaptcha/intro/, (accessed 2016-10-07)
44 71
● 認証時などのタイミングで表示されている 2 つの文字列を入力させる
● 実は認証に使っている(答えが既知な)のは左の文字列だけで,右の文字列は何を入れてもいい– 右の文字列は機械には読み取れない
● ある人が左右の文字列を入力したとして,左の文字列が正しいのであれば右の文字列も正しいだろうという仮定のもと人に文字起こしをさせている
reCAPTCHA
45 71
● 数秒から数分といった非常に短時間で終わるボランティアのこと
● Web を活用することにより,パソコンやスマートフォンから電車での移動中やちょっとした休憩時間などにボランティアを行う
マイクロボランティア
46 71
● 公共と学術目的に利用される,非営利のマイクロボランティア・クラウドソーシングプラットフォーム
● 2011年 11月から運用開始● これまでに 10以上のプロジェクトが
実施されている
Crowd4U[12]
[12] ”Crowd4U とは何でしょうか? ” .http://crowd4u.org/ja/about, (accessed 2016-10-07)
47 71
● Crowd4U では様々な媒体・方法でタスクに取り組むことができる– 日常的な行動に付随したシステムも複数開発
コンスタントなスループットの維持が期待できる
Crowd4U|タスクへの取り組み方
48 71
● Web サイトにタスクを埋め込むこともできる
Crowd4U|Web サイトへ埋め込み
[13] lumely. ” 図書の網 ” . http:// lumely.hatenablog.com/, (accessed 2016-10-07)[13]
49 71
● 床の上を歩くだけでタスクに回答できる– 同志社大学,明治大学,神戸大学,筑波大学に設置
Crowd4U|床システム
50 71
● スマートフォンがロックから復帰したときにタスクが表示される
● 「スマホボランティア」としてGoogle Play で配信中
Crowd4U|スマートフォンロックアプリ
51 71
● 人間の力が必要な図書館領域の問題に対し,マイクロボランティアとクラウドソーシングによる解決を図る試み– Crowd4U をプラットフォームとして活用
● 1 つのプロジェクトが完了– NDL における書誌誤同定の発見(終了)
● 2 つのプロジェクトが進行中– 国デコ資料から絵や写真・図表を抜き出す
– 国デコ資料の文字起こし
● さらに新しいプロジェクトも準備中
L-Crowd
52 71
NDL における書誌誤同定の発見L-Crowd
53 71
● 横断検索システムで用いるために,全国の県立図書館などから書誌を収集して横断的な書誌を作る
● 検索結果において同じ資料を指す書誌を複数箇所に表示させないためには,書誌を同定する必要がある
背景|全国書誌
[14] ” 国立国会図書館 NDL”. Twitter. https://twitter.com/ndljp, (accessed 2016-10-07)
[14]書誌
書誌
書誌収集
同定 NDL図書館 A図書館 B
全国書誌
54 71
● ISBN は(その意義からしても)同定キーとして有効なはず
● しかし,調査を進めたところ全く違う図書に同じ ISBN が振られているデータが見つかった– 出版社による ISBN の使い回し等が理由
– 旅行本などにおいて,出版年が違う図書に同じ ISBN を振ってしまっている場合も
● 機械的に同定すると,約 100万の書誌の中に1万組ほど ISBN の重複が見つかる– 全てが間違いというわけでもない
版の微妙な違いなどで複数の書誌を作る,など
同定キーとしての ISBN
55 71
機械的な判別は難しい
● 次の 2 つは単なる文字列の比較では別の予稿集だが,おそらく同じもの– 正しい同定には人間の判断が必要になる
タイトル 出版社Transportation and traffic theory: 10th International symposium : Jul 1987, Cambridge, MA
Elsevier
Transportation and traffic theory: proceedings of the Tenth International Symposium on Transportation and Traffic Theory, held July 8-10, 1987, at the Massachusetts Institute of Technology, Cambridge, Massachusetts
Elsevier
56 71
ある書誌に対し,同じ ISBN を持つ別の書誌を(複数)並べ,明らかに違うかを選ばせるタスク
NDL における書誌誤同定の発見
57 71
● 3 回ずつ,計 22,765 タスク実施– 3 回とも同じ判断が下された : 69.9%
3 回とも同じ書誌であると判定: 45.6% 3 回とも違う書誌であると判定: 24.3%
– 2 回は同じ判断が下された : 18.4%– 全て違う判断が下された : 11.6%
● 判断が分かれたものや,3 回とも違うと判定されたものが実際どうなのかについては現在調査中
NDL における書誌誤同定の発見|結果
58 71
国デコ資料から絵や写真・図表を抜き出すL-Crowd
59 71
● 35万点もの図書をはじめとして,非常に多くの資料を公開– その多くがパブリックドメイン
国立国会図書館デジタルコレクション [15]
[15] ” 国立国会図書館デジタルコレクション ” . 国立国会図書館 . http://dl .ndl .go.jp/, (accessed 2016-10-11)
60 71
● 基本的な導線:表紙のサムネイル画像やメタデータ,検索結果のスニペットから興味関心を引き出す
● 「もう一つの導線」:図書資料中に含まれる絵や写真,図表などから図書全体への関心を喚起する
● もう一つの導線を構築するために,絵や写真,図表が含まれる見開き画像をマイクロボランティアにより集める
デジタルアーカイブへの「もう一つの導線」 [16]
[16] 永崎研宣 , 森嶋厚行 , 池田光雪 , 林亮太 , 太田千尋 . “ オープンサイエンスの基盤としての国デコ Image Wall I I IF + Crowd4U の活用事例として ” . 第 112 回人文科学とコンピュータ研究会発表会 . 2016, 3p. (to appear)
61 71
● 見開き画像を表示し,図表や写真を含むかを「はい」「いいえ」で判定
タスク設計
62 71
人文情報学研究所の永崎研宣先生が開発 国デコの一部資料の絵や写真を俯瞰・検索できる IIIF に対応した表示
結果の利用:国デコ Image Wall[5]
[5] ” 国デコ Image Wall”. NDL ラボ . http:// lab.ndl.go.jp/dhii /kunidicoview/, (accessed 2016-10-07)
63 71
2 つの API からなるデジタルアーカイブの国際規格– 画像を表示する際に URI で表示の仕方を指定するルー
ル( image API )
– Image API を前提として,画像のメタデータを共有するルール( presentation API )
– 「画像の表示や操作、アノテーションなどの仕方を世界中で共通化できるように支援」
ビューワとデータの分離 今後,国際的なトレンドになる……?
International Image Interoperability Framework(IIIF)[17]
[17] ”International Image Interoperabil ity Framework ”.http:// i i i f. io/ , (accessed 2016-10-07)
64 71
国デコ資料の文字起こしを行うL-Crowd
65 71
● 画像でしか公開されていないコレクション(例えば国デコ)が文字起こしされれば,様々な恩恵が得られる– Google などのサーチエンジンから発見が可能に
– 単語の使用頻度のような定量的な分析が可能に
– 読み上げをするためにも全文データは必要
● 一方,文字起こしは非常に高コスト– 欧米と比べ日本語は文字が膨大であり,
OCR の適合率にも限界がある
背景|文字起こし
66 71
● OCR が認識した領域と,認識した候補を表示させその正誤を判定
タスク設計
67 71
● 20,644 タスクを実施し,3,979 文字が校正結果として得られた
● OCR をしただけの結果の F値が 76.2 だったことに対し,タスク結果は 89.6 まで向上– 残りは旧字体・異体字・新字体間での誤りや,
「あ」と「ぁ」のような同形間での誤り
– タスク数に対する校正文字数を大幅に増やすことが今後の課題
タスク結果 [18]
[18] 池田光雪 , 林亮太 , 永崎研宣 , 森嶋厚行 . “ 翻デジにおけるマイクロタスク活用の試み” . 人文科学とコンピュータ研究会第 110 回発表会 . 7p, 2016.
68
今後の展開・まとめ
71
69 71
● マイクロタスク型クラウドソーシングにより,NDL の所蔵データについては誤同定の発見ができた
● 課題:– 地域資料のような NDL が持たないデータは範囲外
– ISBN を持たない図書は対象外
– NDL の所蔵データと,都道府県立図書館が持つ所蔵データの比較は困難
今後の展開|これまでの成果と課題
70 71
「都道府県総合目録の将来像に関する 研究プロジェクト」● 京都府域で収集したメタデータと NDL が持つメタデータについて,同定ロジックで一致しているが完全には一致していないものを比較するマイクロタスク型クラウドソーシングを行う– 同志社大学の原田隆史先生が主導
– 正確な書誌同定を行うための基礎データの生成,同定ロジックの高度化などが期待される
今後の展開
71 71
● 新しい図書館検索システムを指向したNDL ラボサーチ– アプリ・ API ・リソースの分離
● マイクロボランティアとクラウドソーシングによる図書館領域の問題解決を図る L-Crowd– Crowd4U チームに是非参加を!
– 第 18 回図書館総合展 (2016/11/8-11/10) でもデモを交えたポスター発表を行います!
まとめ
本スライドではいらすとや ( http://www.irasutoya.com/ ) さんのイラスト素材を使いました.