図書館総合展ネットアドバンス主催フォーラム 清田talk

15
Wikipediaに学ぶ情報の組織化 株式会社リッテル 最高技術責任者 (兼 東京大学情報基盤センター 特任講師) 清田 陽司 2010112412回図書館総合展/学術情報オープンサミット2010 ()ネットアドバンス主催フォーラム

Upload: yoji-kiyota

Post on 18-Dec-2014

1.155 views

Category:

Education


5 download

DESCRIPTION

 

TRANSCRIPT

Page 1: 図書館総合展ネットアドバンス主催フォーラム 清田talk

Wikipediaに学ぶ情報の組織化

株式会社リッテル 最高技術責任者

(兼東京大学情報基盤センター特任講師)清田 陽司

2010年11月24日第12回図書館総合展/学術情報オープンサミット2010(株)ネットアドバンス主催フォーラム

Page 2: 図書館総合展ネットアドバンス主催フォーラム 清田talk

関心分野• 自然言語処理技術を応用した情報検索システム

– 対話的ヘルプシステム「ダイアログナビ」• WindowsやOffice利用者向けの質問応答サービス

• 情報検索プロセスの解明– 対話(聞き返し)による情報探しニーズの明確化– 情報の組織化

• 聞き返しをするには何らかの知識構造が必要

– 情報検索手段の変遷• 人に聞く、図書館、データベース、サーチエンジン、掲示板…

図書館レファレンスサービスの課題と共通• レファレンス支援システムの研究

– タクソノミーとフォークソノミーの統合– 実用システムの研究開発

Wikipediaを利用したナビゲーションシステム2

Page 3: 図書館総合展ネットアドバンス主催フォーラム 清田talk

自由回答文の分析

52名の方からの自由回答文を「言選Web」で分析

東京大学情報基盤センター図書館電子化部門・学術情報研究部門にて開発

http://gensen.dl.itc.u-tokyo.ac.jp/ より利用可能

詳しくは

「未来をめざす図書館職員自作アプリ」

ポスター展示へ

Page 4: 図書館総合展ネットアドバンス主催フォーラム 清田talk

言選Web

Page 5: 図書館総合展ネットアドバンス主催フォーラム 清田talk

自由回答文の分析「言選Web」での分析結果情報 438.18電子書籍 194.50利用 182.54利用者 82.59Twitter 57.16Wikipedia 46.67教育利用 45.40情報発信 41.62書籍 37.31研究 36.77教育 25.30紙媒体 24.64信頼性 24.12ツール 20.78可能性 18.16

情報発信者 18.09資料 16.00情報源 14.04利用者側 13.55学生 12.00利用価値 11.30情報検索 11.13教育現場 10.67情報提供 10.36信憑性 9.85図書館司書 9.08図書館利用者 8.61情報利用者側 7.64研究成果 7.14電子資料 6.93

Page 6: 図書館総合展ネットアドバンス主催フォーラム 清田talk

主な観点

• 情報サービス提供者 x 情報サービス利用者– 情報発信(41.62), 情報提供(10.36), 図書館司書(9.08)– 利用者(82.59), 利用者側(13.55), 学生(12.00)

• 媒体– 紙媒体(24.64), ツール(20.78), 電子資料(6.93)

• 期待と危惧– 可能性(18.16), 利用価値(11.30), 利便性(6.11), メリット(5.00)

– 信頼性(24.12), 危険性(6.11), 正確性(6.11)– 情報リテラシー教育(6.21)

Page 7: 図書館総合展ネットアドバンス主催フォーラム 清田talk

分類してみてください

人を運ぶ 荷物を運ぶ

自動車

鉄道

Page 8: 図書館総合展ネットアドバンス主催フォーラム 清田talk

「燃料電池」をどう分類しますか?

• BSH4の記述

燃料電池 NDC: 572.1TT: 化学 27. 物理学 212BT: 電池

• NDC9の記述

572.1電池.化学的発電・蓄電池

(500技術・工学・工業

→ 570化学工業

→ 572電気化学工業)

Page 9: 図書館総合展ネットアドバンス主催フォーラム 清田talk

「燃料電池」の多様な側面

• 「発電」のデバイスでもある

• 「自動車のエネルギー源」の一つでもある

– ガソリン、軽油、電池、ハイブリッド、…

• 「環境技術」の一つでもある

– ごみ廃熱利用、古紙リサイクル、…

• 「水源」の一つでもある

– アポロ計画、スペースシャトルでも活用

Page 10: 図書館総合展ネットアドバンス主催フォーラム 清田talk

Wikipediaでは?

Page 11: 図書館総合展ネットアドバンス主催フォーラム 清田talk

Wikipediaで何ができる?(1)

• コーパスとしての利用

– 定義文の抽出 → 言い換え

• コーパスとは、電子化された自然言語の文章から成る巨大なテキストデータである。

– 翻訳用例の獲得 (言語間リンク)

• 文書集合としての利用

– 単語(Wikipediaエントリ)間の類似度計算

11

Page 12: 図書館総合展ネットアドバンス主催フォーラム 清田talk

Wikipediaで何ができる?(2)

• 表記揺れ辞書としての利用– リダイレクト

• ソフトウエア工学 → ソフトウェア工学

• モンティパイソンズ → モンティパイソン

• 線形代数学 → 線型代数学

• 国道17号線 → 国道17号• 業務上過失致傷罪 → 業務上過失致死傷罪

– 括弧表現• アカンタリア(Acantharea、棘針綱・棘針類とも)は原生生物である放散虫の一群である。

• 東日本電信電話株式会社(ひがしにっぽんでんしんでんわ、通称:NTT東日本、英称:NIPPON TELEGRAPH AND TELEPHONE EAST CORPORATION)は、日本最大手の電気通信事業者である。 12

Page 13: 図書館総合展ネットアドバンス主催フォーラム 清田talk

Wikipediaで何ができる?(3)

• シソーラスとしての利用

– Wikipediaカテゴリ

• 固有表現辞書としての利用

– 地名、人名、組織名

– 商品名

• 菓子: アーモンドグリコ、M&M’s、かっぱえびせん、ポッキー、チョコエッグ、…

• 自動車: カローラ、エスティマ、マーチ、ベンツ、…• テレビドラマ: ごくせん、斉藤さん、7人の女弁護士、…

13

Page 14: 図書館総合展ネットアドバンス主催フォーラム 清田talk

なぜWikipediaを使うのか?

• 多数の参加者による編集

• 半定型データ

• 外部情報リソースとの連携

• 項目の組織化

14

Page 15: 図書館総合展ネットアドバンス主催フォーラム 清田talk

Wikipediaの知見

• ガイドライン(≠ルール)の運用

• Multi-levelの組織化

• フォークソノミーにはコミュニティを創り出す力がある

• ボトムアップのアプローチでも複雑なシステムを作れる可能性はある

– e.g. 伽藍とバザール (Linuxの開発プロセス)

15