code4lib 2013参加報告

13
Code4Lib 2013参加報告 (セッション聴講を中心に) 2013324日(土) Code4Lib Conference 2013参加報告会 高久雅生 @tmasao 1

Upload: masao-takaku

Post on 12-Nov-2014

820 views

Category:

Technology


2 download

DESCRIPTION

Code4Lib 2013参加報告会での発表スライドです。 https://www.facebook.com/events/312000325589268/

TRANSCRIPT

Page 1: Code4Lib 2013参加報告

Code4Lib 2013参加報告 (セッション聴講を中心に)

2013年3月24日(土) Code4Lib Conference 2013参加報告会

高久雅生 @tmasao

1

Page 2: Code4Lib 2013参加報告

自己紹介:高久雅生

• 所属:物質・材料研究機構科学情報室 エンジニア – 研究所専門図書館におけるWeb系サービスの研究開発・運用を担当 • 図書館管理システム, 研究者総覧, 機関リポジトリ

• 専門分野:図書館情報学 – 情報検索、情報行動、電子図書館

• コミュニティ活動 – Code4Lib JAPANコアメンバー (2010-) – saveMLAKシステム担当 (2011-) – 情報科学技術協会『情報の科学と技術』編集委員 (2009-),諮問委員 (2012-)

– 情報知識学会 理事 (2008-)

– ジャパンリンクセンター運営委員会システム技術分科会委員 (2012-)

2

Page 3: Code4Lib 2013参加報告

Code4Libのコミュニティ • 北米の図書館エンジニアを中心としたコミュニティ

–オープンソースソフトウェア (Open Source Software; OSS)

–大学図書館や議会図書館、図書館関連団体、企業等に勤める図書館員やITエンジニア

• 普段はメーリングリスト、IRC(チャット)での交流

• 地域コミュニティも

– Code4Lib Midwest, NYC, New England, Maryland/Washington DC., Northwest, etc.

– Code4Lib JAPAN

3

Page 4: Code4Lib 2013参加報告

Code4Libカンファレンスの概要 • 2006年から開始

• 毎年2月に開催

• 参加者:250名~400名 –半数以上は初参加。

• 朝食、ランチを提供

• 発表:シングルトラックセッション –基調講演(60分~)

–通常発表(15~20分): コミュニティの投票で選ばれる。

– ライトニングトーク(5分):カンファレンス当日にWikiで。

• 分科会(ブレイクアウトセッション)

• プレカンファレンス(Tutorial, Workshops) 4

Page 5: Code4Lib 2013参加報告

今年のカンファレンス - Code4Lib Conference 2013 -

• 初めての大規模開催:250名→400名へ!

• 大都市シカゴでの開催!

• ストリーミングビデオ

– https://archive.org/search.php?query=code4lib+2013

• (私自身は2010年から4年連続の参加)

5

Page 6: Code4Lib 2013参加報告

セッション技術レビュー (情報検索分野という観点から)

• 検索技術や検索ツールの話題

–文献検索での関連度順ランキング手法

–大量電子書籍の全文検索のチューニング

–あいまい検索

• 広く情報探索の話題

–検索ログ/アクセスログの分析

–モバイル環境や統合検索の新しい検索インタフェース

–書架ブラウジングツール

6

Page 7: Code4Lib 2013参加報告

今回の発表セッションから

• 検索ツール系(2/12午前のセッション) – 新しい検索手法の提案や事例報告がまとまっていた – Practical Relevance Ranking for 10 million books

• (全文検索結果の関連度ランキング法)

– n Characters in Search of an Author • (著者名のあいまい検索法)

– Citation search in SOLR and second-order operators • (引用文献検索の方法)

• 情報探索・利用行動系(2/13午後のセッション) – De-sucking the Library User Experience

• (OPACのユーザインタフェースの改良とその考え方)

– Google Analytics, Event Tracking and Discovery Tools • (アクセスログの詳細分析;OPAC上でのイベント追跡)

– Actions speak louder than words: Analyzing large-scale query logs to improve the research experience • (Summonでのサーバログ分析用フレームワークの事例報告)

7

Page 8: Code4Lib 2013参加報告

今回の発表セッションから

• 検索ツール系(2/12午前のセッション) – 新しい検索手法の提案や事例報告がまとまっていた – Practical Relevance Ranking for 10 million books

• (全文検索結果の関連度ランキング法)

– n Characters in Search of an Author • (著者名のあいまい検索法)

– Citation search in SOLR and second-order operators • (引用文献検索の方法)

• 情報探索・利用行動系(2/13午後のセッション) – De-sucking the Library User Experience

• (OPACのユーザインタフェースの改良とその考え方)

– Google Analytics, Event Tracking and Discovery Tools • (アクセスログの詳細分析;OPAC上でのイベント追跡)

– Actions speak louder than words: Analyzing large-scale query logs to improve the research experience • (Summonのログ分析環境の事例報告)

8

Page 9: Code4Lib 2013参加報告

Towards Practical Relevance Ranking for 10 million books (1)

• 発表者:Tom Burton-West(ミシガン大学図書館)

• HathiTrustでの全文検索エンジンSolrを使った全文検索サービスからの事例報告 – 70機関以上の図書館が収集した電子書籍リポジトリ

– 約1,050万冊

– 450TB(画像:JPEG2000+TIFF, OCRテキスト, メタデータ)

• 検索における課題 – 超大規模な文書群に対する全文検索

– 多言語(400言語超)

– OCR性能のばらつき

– 全文検索の関連度ランキングの性能評価

– (INEXでの参加報告) 9

Page 10: Code4Lib 2013参加報告

Towards Practical Relevance Ranking for 10 million books (2)

• Solr標準のキーワード重み付け評価法 – TF*IDF

– 文書長による正規化が効きすぎている。

• 既存のランキング評価イニシアティブとの比較、経験 – 書籍の文書長:760KB(10万語)

– 多言語: “die hard” vs (ドイツ語)“die”

• 検索対象: – 書籍全体?章?節?ページ?

• 全文検索における最適化、テスト: – より自動化したい…

– 求む、テストコレクション… 10

Page 11: Code4Lib 2013参加報告

n Characters in Search of an Author (1)

• 発表者:Jay Luker(ハーバード・スミソニアン天体物理学センター)

• 著者名検索の課題(あいまい検索)

– ノイズを増やさず、できるだけヒットさせたい

–異体字(ウムラウト等)

–読み変え;改姓;…

• Solrインデックス用のフィルタを開発!

11

Page 12: Code4Lib 2013参加報告

(自分の経験から)

12

• 研究者総覧SAMURAIにおけるキーワード検索

– http://samurai.nims.go.jp/search.html

– Solrベース

–キーワードの重み付け

• 文書長の正規化は止めた

–氏名検索用に異体字展開

• 高⇔髙, 﨑⇔崎, etc. – Cf. http://kanji-database.sourceforge.net/

Page 13: Code4Lib 2013参加報告

まとめにかえて • トピック

– 次世代目録システム, OPAC 2.0的な話題は少なめに…

– 技術的により深く先進的な( より狭い?)手法の開発 • 学術研究レベルの技術評価や実装も

– コミュニティの深化、多様性の強調 (Code of Conduct)

– エモーション:Aaron Swartz

• 来年は? – 現在、開催都市の選考中(来月中には決定)

• オースティン (TX), ノースカロライナ (NC)

– 発表採択方式:プログラム委員会方式へ?

• JAPANからの貢献を – 日本での様々な試みも紹介を!反応はすごいです!

– 国内でもカンファレンスを!

13