京都大学「情報と職業」 20110415講義資料

95
世の中を変える「仕組み」を 創り出すための人生戦略 株式会社ネクスト リッテル研究所 所長/ 東京大学情報基盤センター 特任講師 清田 陽司 Twitter: @kiyota_yoji

Upload: yoji-kiyota

Post on 17-Dec-2014

3.704 views

Category:

Education


0 download

DESCRIPTION

世の中を変える「仕組み」を創り出すための人生戦略

TRANSCRIPT

Page 1: 京都大学「情報と職業」 20110415講義資料

世の中を変える「仕組み」を創り出すための人生戦略

株式会社ネクストリッテル研究所 所長/

東京大学情報基盤センター 特任講師清田 陽司

Twitter: @kiyota_yoji

Page 2: 京都大学「情報と職業」 20110415講義資料

皆さんにとって大事なこと

• 時間

• 知識

• 技術

• 研究テーマ

• 業績

• ポスト

• 語学力

• 家族

• 友人

• 健康

• 体力

• 表現力

• お金

• 経営

Page 3: 京都大学「情報と職業」 20110415講義資料

テーマ

夢を実現するための

人生の「経営」

Page 4: 京都大学「情報と職業」 20110415講義資料

経営に必要なこと

• 資本

– お金

– 時間

– 人的資本 (信用)– 知的資本

– 社会的資本

• 投資

• マネジメント

• コミュニケーション

• バランス感覚

• 流行センス

• ビジョン

• リスクテイク

• 決断

Page 5: 京都大学「情報と職業」 20110415講義資料

理系的能力と文系的能力

• 知識

• 技術力

• 論理的思考

• 数学的センス

• 仮説生成・検証

• 知的好奇心

• 語学力

• マネジメント

• コミュニケーション

• バランス感覚

• 流行に敏感

Page 6: 京都大学「情報と職業」 20110415講義資料

研究分野• 自然言語処理技術を応用した情報検索システム

– 対話的ヘルプシステム「ダイアログナビ」• WindowsやOffice利用者向けの質問応答サービス

• 情報検索プロセスの解明– 対話(聞き返し)による情報探しニーズの明確化

– 情報の組織化• 聞き返しをするには何らかの知識構造が必要

– 情報検索手段の変遷• 人に聞く、図書館、データベース、サーチエンジン、掲示板…

• レファレンス支援システムの研究– タクソノミーとフォークソノミーの統合

– 実用システムの研究開発

リッテルナビゲーターとして実用化 6

Page 7: 京都大学「情報と職業」 20110415講義資料

学部~博士課程

• 工学部電気系長尾研 (現黒橋・河原研) 1997年

– 長尾先生が総長に就任…

• 情報学研究科 修士1期生 1998年

– 中村順一先生に師事、しかし…– その後、黒橋禎夫先生に指導していただくことに

• 博士課程に進学 2000年

– D2のとき黒橋先生が東大に転任…– 学籍を京大に残したまま、東京に移ることを決意

– 東大西田・黒橋研にてMSとの共同研究

Page 8: 京都大学「情報と職業」 20110415講義資料

8

ダイアログナビ

• マイクロソフトとの産学連携研究• 2002年4月~2005年3月に運用

Page 9: 京都大学「情報と職業」 20110415講義資料

9

ダイアログナビのユーザインタフェース

システムとユーザを示すアイコン

大きめのテキストボックス⇒自然文による質問の入力を誘導

対話履歴を表示するフレーム

Page 10: 京都大学「情報と職業」 20110415講義資料

10

ダイアログナビのユーザインタフェース

選択肢(マッチしたテキスト)を表示するフレーム

テキストの種類とスコアをアイコンで表示

Page 11: 京都大学「情報と職業」 20110415講義資料

11

対象とするテキスト集合

• 用語集– Windowsなどの用語の説明

– 4,707件 約 70万文字

• ヘルプ集– Windows, Officeの操作説明

– 11,320件 約 600万文字

• サポート技術情報– マイクロソフト製品に関する

障害情報と対処方法など

– 20,921件 約2,200万文字

マイクロソフトにて作成されたテキスト知識ベース

Page 12: 京都大学「情報と職業」 20110415講義資料

12

ダイアログナビ: 研究の背景現状• ノウハウを必要とする複雑な製品が増えた

PC,携帯電話,ディジタル家電 etc.→ 製品を使う上で様々な疑問が発生

• 疑問に答えるための大量のテキストの蓄積(Web,データベースなど)

たいていの疑問に対応する答え(テキスト)がどこかに存在する

問題点質問に対応するテキストになかなかたどりつけない

質問とテキストの間にギャップが存在

既存のテキスト検索システムのログを分析し,どのようなギャップが存在するかを調査した

Page 13: 京都大学「情報と職業」 20110415講義資料

13

質問とテキストの間の

表現のギャップ

パソコンが固まった

プリンタドライバをインストールすると,Windows XPがハングアップする

Wordを起動すると,Windows XPがフリーズする

ACPIモードを使用すると,青い画面が表示される

• キーワードのレベルe.g. ハングアップ-フリーズ

• キーワードを超えるレベルe.g. パソコンが固まる-ハングアップ-フリーズ-青い画面

Page 14: 京都大学「情報と職業」 20110415講義資料

14

質問とテキストの間の

具体性のギャップ

Windowsでエラーが発生した

52件のテキストが見つかりました。• Windows 98を起動したときに、…というエラーが発生する

• Windows XPでアプリケーションを起動したときに、エラーが発生する• インターネットにダイアルアップで接続しようとしたときに、…というエラーが発生する• 印刷中にエラーが発生して印刷できない• …………………………..

Page 15: 京都大学「情報と職業」 20110415講義資料

15

52件のテキストが見つかりました。• Windows 98を起動したときに、…というエラーが発生する

• Windows XPでアプリケーションを起動したときに、エラーが発生する• インターネットにダイアルアップで接続しようとしたときに、…というエラーが発生する• 印刷中にエラーが発生して印刷できない• …………………………..

質問とテキストの間の

具体性のギャップ

Windowsでエラーが発生した

Page 16: 京都大学「情報と職業」 20110415講義資料

16

エキスパートやコールセンター

Windowsでエラーが発生した

エラーが発生したのはいつですか?

お使いのWindowsは何ですか?

どんなエラーメッセージが出ました

か?

インタラクションで具体性のギャップを解消

(もちろん表現のギャップも柔軟に吸収)

Page 17: 京都大学「情報と職業」 20110415講義資料

17

情報検索のモデル

情報要求 情報集合

マッチング

検索質問 テキスト集合

内部表現 内部表現

合致する情報

自然言語処理技術が必要

テキストの部分集合

経済の成長見通しに関する記事が欲しい

テキスト検索

富士山の高さは?

「3776m」

Open-domainQA

Excelで行を

追加したい

「Excelで行を追加する方法は以下の通りです

…」

本研究のタスク

Page 18: 京都大学「情報と職業」 20110415講義資料

18実運用による評価: ダイアログナビ

表現のギャップ 具体性のギャップ

換喩表現マッチング

GIFの

画像が

表示されない

GIFが

表示されない

?

拡張

•換喩・解釈ペアをコーパスから自動抽出•マッチングへの応用

ユーザ質問文とテキストの柔軟で正確なマッチング

Excelで行を追加したい

•文構造の利用(係り受け関係への重みづけ)

•同義表現辞書

聞き返しによるユーザのナビゲート

応用

マッチングに基づくボトムアップの聞き返し

対話カードによるトップダウンの聞き返し

質問

質問

ORUSBマウスが動かない

エラーが発生した

エラーはいつ発生しますか?1. Windows起動中2. ログイン時3. 印刷中

[エラー]

<UQ>エラーが発生する

<SYS>エラーはいつ発生しますか?

Windows起動中

ログイン時

印刷中

研究のアプローチ

Page 19: 京都大学「情報と職業」 20110415講義資料

19

ユーザ質問文とテキスト文の対応づけと類似度計算

1. 含まれるキーワードが一致する文節どうしを対応づける

2. 係り受けA→B, A’→B’について,文節AとA’,BとB’がそれぞれ対応する場合に, A→BとA’→B’を対応づける

Outlook

メッセージ

壊れる

Outlook

メッセージ

壊れる

Internet Mail

送信

ユーザ質問文 テキスト文

「Outlookでメッセージが壊れた」 「Outlookにおいて,Internet Mailから送信したメッセージが壊れる」

Page 20: 京都大学「情報と職業」 20110415講義資料

20

<メール>

メイル / メッセージ

<読む>

読める / 読める / 読み込める

<受信>

受け取る / 受け取れる

<ブラウザ>

ブラウザー / 閲覧ソフト

<メールを読む>

メールを受信する

<ハングアップする>

画面が固まる / 画面が青くなる / フリーズする

同義表現辞書メール

メイル

メッセージ

<メール>

読む

読める

読み込む

読み込める

<読む>

メール

読む

メール

受信

<メールを読む>

メール

読む

メイル

読む

メッセージ

読む

メール

読める

メイル

読める

メッセージ

読める

メール

読み込む

メイル

読み込む

メッセージ

読み込む

メール

読み込める

メイル

読み込める

メッセージ

読み込める

Page 21: 京都大学「情報と職業」 20110415講義資料

21<時間がかかる> <時間がかかる>

<メールを読む>

<メールを読む>

ユーザ質問文とテキスト文の対応づけと類似度計算

ユーザ質問文 テキスト文「メールを読み込むのが遅い」 「メールの受信に時間がかかる」

メール

読み込む

受信

メール

時間

かかる遅い

3. 同義表現辞書による文節と係り受けの対応づけ

Page 22: 京都大学「情報と職業」 20110415講義資料

22

ユーザ質問文 テキスト文

対応をもつ文節数3 3対応をもつ係り受け数2 2

56.095

55

4523

2323

=×=×+×+

××+×+

=mm

mm

類似度

Outlook

メッセージ

壊れる

Outlook

メッセージ

壊れる

送信

Internet Mail

(係り受けへの重みづけ m=1.0 の場合)

すべての文節数3 5すべての係り受け数2 4

ユーザ質問文とテキスト文の対応づけと類似度計算③

ユーザ質問文の被覆率

テキスト文の被覆率

Page 23: 京都大学「情報と職業」 20110415講義資料

23

テストセットによる評価

ダイアログナビのログ中の質問文に正解テキストを付与したものを利用

評価尺度ε : MRR (Mean Reciprocal Rank)の拡張

• 各々の質問文へのシステムの出力(テキストのスコア順リスト)についてεを計算

• 全質問文のεの平均値をとる

∈=

},,1{

1

1

ni

Ri

i

i

ε

:R:n

1 2 3 4 5・・・

68.031211/1

411/1=

+++

正解テキストの順位番号の集合正解テキストの数

正解

Page 24: 京都大学「情報と職業」 20110415講義資料

24

係り受け重みづけの有効性評価

0.77

0.78

0.79

0.80

0.81

0.82

0.83

0.84

0.85

0.0 0.5 1.0 1.5 2.0 2.5 3.0

m (係り受けへの重みづけ)

εの

平均

0.58

0.59

0.60

0.61

0.62

0.0 0.5 1.0 1.5 2.0 2.5 3.0

m (係り受けへの重みづけ)

εの

平均

値ヘルプ集(163質問文)

サポート技術情報(773質問文)

Page 25: 京都大学「情報と職業」 20110415講義資料

25

提案手法の有効性評価(係り受け重みづけ以外)

手法 ヘルプ集163質問文

サポート技術情報773質問文

ベースライン 0.602 ( ) 0.497+A)同義表現辞書 0.838 (+0.236) 0.561 (+0.064)+C)否定表現フラグ 0.602 ( ) 0.512 (+0.015)+D)文末表現削除 0.605 (+0.003) 0.508 (+0.011)+E)質問タイプ 0.602 ( ) 0.498 (+0.001)+F)製品名 0.602 ( ) 0.519 (+0.022)すべて 0.840 (+0.238) 0.614 (+0.117)

(数値はεの平均値, 係り受け重みづけm=1.0 )

Page 26: 京都大学「情報と職業」 20110415講義資料

26

換喩による係り受けのギャップ

GIFの

画像を

表示する

GIFを

表示する

ユーザ質問文 テキスト文

27.052

32

?

(換喩)

係り受けへの重みづけによる副作用

(m=1.0)

Page 27: 京都大学「情報と職業」 20110415講義資料

27

換喩表現と換喩解釈表現

以下の2種類の表現の組み合わせを扱う(α) AP→V GIFを表示する(β) A(の)→BP→V GIF(の)画像を表示する

(A, B: 名詞, V: 動詞, P: 格助詞, →: 係り受け関係)

仮説: (α)と(β)は換喩とその解釈になっている⇒ (α)を換喩表現, (β)を換喩解釈表現と呼ぶ

コーパスからの自動抽出• (α),(β)のパターンに合致する表現を抽出

頻度の閾値: ≧3,名詞句の一部や括弧を含む表現は除外

• 各々の(α)に対応する(β)をペアとして抽出

Page 28: 京都大学「情報と職業」 20110415講義資料

28

抽出した換喩表現・換喩解釈表現ペア換喩表現(α) # 換喩解釈表現(β) #

エラーが 出る 1681 エラー 表示が 出る 68エラー 画面が 出る 6エラー メッセージが 出る 3

電源を 入れる 290 電源 スイッチを 入れる 5Excelを 開く 147 Excel ファイルを 開く 135

Excel 文書を 開く 9印刷を 実行 141 印刷 プレビューを 実行 12

印刷 ジョブを 実行 4動作が 遅い 123 動作 速度が 遅い 8画像を 挿入 69 画像 ファイルを 挿入 6JPGで 保存 20 JPG 形式で 保存 13アドレスを 開く 4 アドレス 帳を 開く 43MOを 使用 3 MO 装置を 使用 4

約80%のペアは換喩とその解釈として適切

Page 29: 京都大学「情報と職業」 20110415講義資料

29

テストセットによる評価結果

0.60

0.65

0.70

0.75

0.80

0.85

0.90

0.0 0.5 1.0 1.5 2.0 2.5 3.0

m (係り受け関係への重みづけ)

εの

平均

値提案手法

ベースライン

0.51

0.52

0.53

0.54

0.55

0.56

0.57

0.58

0.59

0.0 0.5 1.0 1.5 2.0 2.5 3.0

m (係り受け関係への重みづけ)

εの

平均

提案手法

ベースライン

ヘルプ集(31質問文)

サポート技術情報(140質問文)

Page 30: 京都大学「情報と職業」 20110415講義資料

30

聞き返しの必要性

• ユーザの質問とテキストの間には具体性のギャップが存在

⇒ 聞き返しが不可欠

• 適切な聞き返しが可能で,かつ大規模なテキスト集合に適用可能な先行研究はみられない

ユーザ質問文とテキストのマッチング手法を応用した聞き返しによるユーザのナビゲート

Page 31: 京都大学「情報と職業」 20110415講義資料

31

テキスト集合

漠然

具体

ユーザの質問

マッチング&状況説明文の抽出

Windows 95で起

動時にエラーが発生する

Page 32: 京都大学「情報と職業」 20110415講義資料

32

テキスト集合

漠然

具体

ユーザの質問

困ってます

マッチング&状況説明文の抽出?

エラーが発生した

Page 33: 京都大学「情報と職業」 20110415講義資料

33

テキスト集合

漠然

具体

ユーザの質問

マッチング&状況説明文の抽出

困ってます

対話カードによる具体化

Windows95(=Windows 95で

起動時にエラーが発生する)

Windows起動中

いつ?

お使いのWindowsは?

エラーが発生した

Page 34: 京都大学「情報と職業」 20110415講義資料

34

[エラー]

<UQ>エラーが発生する

<SYS>エラーはいつ発生しますか?

<SELECT>

Windows起動中 goto [エラー/Windows起動中]

ログイン時 goto [エラー/ログイン時]

印刷中 goto [エラー/印刷時]

</SELECT>

[エラー/Windows起動中]

<UQ>Windowsを起動中にエラーが発生する

<SYS>あなたがお使いのWindowsを選んでください。

<SELECT>

Windows 95

retrieve 「Windows 95で起動時にエラーが発生する」

Windows 98

retrieve 「Windows 98で起動時にエラーが発生する」

Windows XP

retrieve 「Windows XPで起動時にエラーが発生する」

</SELECT>

対話カード

質問とのマッチング

システムの発話

テキストとのマッチング

U: Windows起動中

U: エラーが発生した

S: エラーはいつ発生しますか?

1. Windows起動中

2. ログイン時

3. 印刷中

S: あなたがお使いのWindowsを選んでください。

1. Windows 952. Windows 983. Windows XP

U: Windows 95

Page 35: 京都大学「情報と職業」 20110415講義資料

35

U: Windows 95(=Windows 95で起動時にエラーが発生する)

S: 以下の選択肢から選んでください。1. 「<ファイル名>が不正かありません」

というエラーが発生する2. 「JISフォントドライバーがインストール

されていません」 等のエラーが発生する

3. Windows 3.1のロゴ画面が表示されハングアップしてしまう現象が発生する

4. アプリケーションを起動した直後にエラーが発生する

5. …

テキスト集合

Page 36: 京都大学「情報と職業」 20110415講義資料

36

テキスト集合

漠然

具体

ユーザの質問

マッチング&状況説明文の抽出

困ってます

対話カードによる具体化

Windows95(=Windows 95で

起動時にエラーが発生する)

Windows起動中

いつ?

お使いのWindowsは?

エラーが発生した

相補的

ボトムアップ

トップダウン

Page 37: 京都大学「情報と職業」 20110415講義資料

37

実運用による評価の必要性

既存の情報検索システム評価手法

• テストセットによる評価– インタラクションを伴うシステムの評価は不可

• タスク指向評価– 漠然としたユーザの疑問を反映するシナリオ

の設定は困難

⇒ 一般ユーザによる実運用評価が必要

Web上で一般公開運用し、対話ログを評価

Page 38: 京都大学「情報と職業」 20110415講義資料

38

A) 対話セッション単位の評価

成功 失敗 範囲外

知識有 知識無 知識有 知識無 適切 不適切

149 25 15 41 57 91(65%) (11%) (7%) (18%)

174 (76%) 56 (24%)148

230 (100%)378

原因: リソースの不足•テキスト集合•同義表現辞書

顕著な失敗例を分析し,随時修正・作成⇒成功率 60%台 → 70%台

Page 39: 京都大学「情報と職業」 20110415講義資料

39

B) ユーザ行動とシステム応答の分布ユーザ質問の入力

(キーボード)

対話カード応答(完結した応答)(U: こんにちわ)S: こんにちは。

対話カード応答(選択肢提示)(U: エラーが発生した)S: エラーはいつ発生

しますか。

平均選択肢数:3.24

テキストマッチング(該当あり)(U: 行を追加したい)S: 以下の選択肢から

選んでください。

平均選択肢数:14.81

テキストマッチング(該当なし)(U: サービスパックを

入れたい)S: 該当する情報を見

つけることができませんでした。

ユーザの選択(マウス)

ユーザの選択(マウス)

テキストの表示

32回 159回66回 261回計518回

58回14回(CARD) 6回

(RET)

38回(SHOW)

198回

(98回) (420回)

Page 40: 京都大学「情報と職業」 20110415講義資料

40

C) 質問文の長さとシステム応答の関係

質問文の

文節数

対話カード応答 知識ベース応答計

完結応答 選択肢提示 該当あり 該当なし

1 29 17 115 59 2202 3 37 46 47 1333 10 33 30 734 2 22 10 34

5以上 45 13 58合計 32 66 261 159 518

短い質問文に対して有効に働く

一般的に、短い質問文ほど漠然としている⇒ 対話カードによる応答は有効に働いている

Page 41: 京都大学「情報と職業」 20110415講義資料

41

D) 状況説明文の評価評価者1名が3段階で評価

– 最重要情報: ユーザが選択肢を選ぶ上で最も重要な情報

評価 基準 選択肢数

妥当 最重要情報が過不足なく含まれている 213 ( 61%)不十分 最重要情報が含まれていない 27 ( 8%)冗長 最重要情報以外の情報が文字数換算で1/2

以上含まれている 108 ( 31%)合計 348 (100%)

平均文字数: 81.6文字⇒68.9文字(圧縮率15.6%)

Page 42: 京都大学「情報と職業」 20110415講義資料

42

得られた知見

• 情報検索システムの研究には実運用評価が必須

• 実運用のログは自然言語理解研究へのヒントの宝庫

比喩(換喩,暗喩など),省略,照応 etc.

• 情報検索プロセスをうまく説明するモデルの必要性

Page 43: 京都大学「情報と職業」 20110415講義資料

43

研究方針

情報検索システムの研究には一般ユーザによる実運用評価が必要

⇒ 実世界から研究へのフィードバックを重視

現行サービスの分析 システムの実装 実運用

評価

• ユーザの満足度• 関連研究に対する位置づけ

情報検索プロセスのモデル化

自然言語理解

自然言語処理技術 一般ユーザの利用

Page 44: 京都大学「情報と職業」 20110415講義資料

博士課程~ポスドク~助手(助教)

• 3年間では博士号取得できず、ポスドクのポストを2つ経験– 2003年: 東大産学連携研究員@東大 (マイクロソ

フトからの資金)– 2004年: JSTさきがけ研究員 @京大 (河原達也先

生の研究室にてダイアログナビ音声インタフェースの研究に従事)

• 2004年秋に博士号を取得し、東大情報基盤センター図書館電子化研究部門(中川裕志研)に助手として着任

Page 45: 京都大学「情報と職業」 20110415講義資料

本音

• 実運用評価って論文の生産性が悪いなあ

– 評価基準が明確なテーマならもっと論文が書けるんだろうなあ

• でも、検索の本質に迫るには実運用しかないだろう

• 自分はどうしても「みんなの役に立つシステム」を作りたい!

• このままのやり方では研究者の世界でのサバイバルは難しいかも、ではどうする?

Page 46: 京都大学「情報と職業」 20110415講義資料

46

レファレンス・サービスとは

図書館の「コンシェルジェ・サービス」

=利用者の調べものに対する援助サービス

利用者の当初の情報要求は曖昧

⇒利用者に対して多角的な問い返しを行う

⇒どのような資料が必要なのかを明確化

Page 47: 京都大学「情報と職業」 20110415講義資料

47文献・資料

漠然

具体

ダイアログナビの方法論の応用

どんなキーワードで探せばいいの?

自然言語処理の研究を始めたい

○○先生の書いた本を調べたい

ATS-Pってどんなシステム?

NDC(日本十進分類法)による質問の一般化

東大学術情報DB

Kiwi, 言選Web

OPAC

百科事典 (Wikipedia)

日本の原子力発電について調べたい

東大の歴史を調べたい

東大図書館FAQ

Page 48: 京都大学「情報と職業」 20110415講義資料

48

情報探しのニーズ• Webサーチエンジンで探せる質問=事実を問う

質問– 関東大震災はいつ発生しましたか?

– ○○ってどんな病気?

• 本当に探し手が知りたいこと– 大学の学生「関東大震災についてのレポートを書か

なきゃいけなんだけど、いったいどんな資料から調べたらいいの?」

– 難病の患者「この病気について最先端の治療を行っている病院を探す方法は?」

情報の調べ方が曖昧な場合が多い

→調べ方の推薦(レコメンデーション)が必要!

Page 49: 京都大学「情報と職業」 20110415講義資料

情報リテラシー

• 情報を有効に活用できる能力

– 人類の情報蓄積としての知識体系を基盤におく

– 与えられた情報の信頼性を検証する

• ≠コンピュータ・リテラシー

– 「Googleに訊けば何でも見つかる」??

• 情報リテラシーの不足は多くの問題を引き起こしうる

– 悪徳商法、権威への盲従、ポピュリズム…

人生を生きていくうえで不可欠の能力

Page 50: 京都大学「情報と職業」 20110415講義資料

Wikipediaとは?

• オンライン百科事典

– 専門家によるオンライン百科事典プロジェクト「Nupedia」を前身として2001年に発足

– 個人や団体の寄付により運営

• Wikipediaの特徴– 誰もが編集に参加できる (資格制限なし)– ボランティアによる執筆・編集・運営

– Wikiシステム(ブラウザでWeb上のテキストを書き換えることができる)

– 内容は自由に複製・配布・改変できる

Page 51: 京都大学「情報と職業」 20110415講義資料

Wikipediaの信頼性をめぐる議論

• WikipediaとEncyclopædia Britannicaの比較

– 2005年 Nature 「科学用語について比較したところ、Wikipediaの方が誤りが少なかった」

– Britannicaは反論

• 査読制度なし

– 「間違いがあれば迅速に訂正できる仕組みを提供する」という考え方

• 引用文献として使えるか?

– Wikipediaの創始者Jimmy Wales 「Wikipediaを原典として利用すべきではなく、あくまで出発点にすべき」

Page 52: 京都大学「情報と職業」 20110415講義資料

Wikipediaの秩序維持

誰でも編集できるが自由放任ではない

• ガイドライン (5つの原則)– Wikipediaは百科事典

– 中立的な観点: 出典の明記

– 利用はフリー: どの個人も特定の項目を支配できない、著作権侵害の禁止

– 行動規範: 敬意、礼儀正しさ、冷静の維持

– 確固としたルールはない: ルールの精神の尊重

• ページ毎のノート (議論、合意形成の場)• 管理者によるコントロール

– 保護、削除、投稿ブロック、管理者の選任・解任

Page 53: 京都大学「情報と職業」 20110415講義資料

調べ方推薦の要件

53

図書館情報資源

Wikipedia

Wikipediaを橋渡しとして、信頼できる情報資源をお薦めできないか?

Web情報資源

• カバレッジ– どんなキーワードに対しても何かをお薦めして

欲しい– これができないと結局使ってもらえない

• 組織化– 「これを見た人はこんな情報も見ています」で

は不十分!

– 分類ごとにお薦めすべき情報資源には定番が存在

• 信頼性– 「ネットでググる」だけでは不十分!– 信頼できる情報資源が必要

Page 54: 京都大学「情報と職業」 20110415講義資料

Wikipediaの構造各記事にはカテゴリが

付与されている

• いわゆるフォークソノミーの特徴を有する

• カテゴリにもカテゴリを付与できる(ゆるやかな階層構造)

• 複数の上位概念を与えることができる(多重継承)

価格価格(かかく)とは、有形・無形の各種の商品(サービスを含む)の取引に際して提示される金額を言う。基本的には需要と供給のバランスによって決定される。一般には、値段(ねだん)とも呼ばれる。…カテゴリ: [マーケティング][経済学][市場]

価格

マーケティング 経済学 市場

経営学

経済

流通

商業

産業

社会科学社会

ビジネススキル

労働

54

Page 55: 京都大学「情報と職業」 20110415講義資料

タクソノミーとフォークソノミー

フォークソノミー

• ボトムアップ的な分類

• 複数の上位概念

Web的な分類体系

タクソノミー

• トップダウン的な分類

• ひとつの上位概念

図書館的な分類体系55

電気化学

電離層 電池 磁気化学

燃料電池 太陽電池 蓄電池 太陽電池

電池再生可能

エネルギー半導体素子

燃料電池 トランジスタ

Page 56: 京都大学「情報と職業」 20110415講義資料

価格

マーケティング 経済学 市場

経営学

経済

流通

商業

産業

社会科学

社会

ビジネススキル

労働

フォークソノミー型構造

タクソノミー型構造

56

Page 57: 京都大学「情報と職業」 20110415講義資料

57

アイディア: Wikipediaと図書館分類体系の対応づけ

図書館の分類体系をWikipediaで拡張してみよう!

• Wikipedia– Webの汎用的な情報資源としては最も組織化されてい

る(Wikipediaカテゴリ)– Web上の他の情報資源との親和性をもつ

• 図書館分類体系(件名標目表、書架分類法)– 人類が営々と積み重ねてきた知識体系

– 価値判断に必要な情報資源への有力なポインタ

両者を組み合わせて利用することによって、キーワードから探索テーマ(=件名)を自動導出する

→ 導出された件名に関連する情報資源を提示

Page 58: 京都大学「情報と職業」 20110415講義資料

阪神・淡路大震災

経済史

地震災害と防災の歴史

災害

日本の経済史

地震の歴史平成時代

地震

経済(330)

社会福祉(369)

社会(360)

社会科学(300)

地震学(453)

耐震建築地震災害 地震予知

建築構造(524)

建築学(520)

技術(500)

地球科学(450)

自然科学(400)

災害 地震誌(453.2)

経済史(332)

経済史-日本(332.1)

経済史-日本-平成時代(332.107) 図書館オントロジー

(NDC, NDLSH)Wikipedia

震災を引き起こした地震(1995年兵庫県

南部地震)震災が日本経済に与えた影響

震災がその後の防災対策に与えた影響

「経済学事典」(日本経済新聞社, 1996年)

「地震防災の事典」(岡田恒男ほか, 2000年)

「日本被害地震総覧」(宇佐美龍夫, 2003年)

58

Page 59: 京都大学「情報と職業」 20110415講義資料

Web情報資源(サーチエンジン)

情報探索のスタート地点

情報の専門性・信頼性

フォークソノミー

Wikipedia

多様な情報資源•入門書•レファレンスブック•各種データベース•学術雑誌論文•過去の文献・資料

図書館分類体系•NDC•BSH

対応づけ→深い情報探

索へ

59

Page 60: 京都大学「情報と職業」 20110415講義資料

感じていたこと

• このアイディアなら「みんなの役に立つシステムを作りたい」という自分のミッションと合致

• 根拠はないけど自信はある

• でも、自分ひとりの力ではとても無理

• 大学の中の世界ではスピードが不足している

• 外部の力を借りることはできないか?

60

Page 61: 京都大学「情報と職業」 20110415講義資料

起業のきっかけ

学部時代のバイト先の社長と再会

私「こういうシステムを実現したいと考えています」

社長「だったら出資するからぜひ一緒にやってみない?」

61

Page 62: 京都大学「情報と職業」 20110415講義資料

大学発ベンチャーの立ち上げ

• 資金調達

– エンジェル

– 友人・知人

– ベンチャーキャピタル

• ビジネスパートナー

– 経営担当

– 営業担当

– 技術者

• コミットメント

– 一定の関わり

– 一定の出資金

• 大学兼業規程のクリア

– 利益相反にならないように透明化

• 知的財産の処理

– 特許の取得

– 独占的ライセンス

• ミッションの共有

– どんな事業をやるのか?

– どんなexitを目指すのか?

– 会社名

62

Page 63: 京都大学「情報と職業」 20110415講義資料

産学連携の形態

• 共同研究契約

• 委託研究契約

• 寄付金

• 人的交流

• 大学発ベンチャー

• 兼業

• 知的財産のライセンシング

Page 64: 京都大学「情報と職業」 20110415講義資料

リッテルのミッション

A Total Search Solution for Information Literacy• 人間の潜在能力を引き出すITの在り方の追求

• 人間の強みとコンピュータの強みが補い合える仕組みの構築

64

Page 65: 京都大学「情報と職業」 20110415講義資料

リッテルの事業

• 図書館向け事業– 「リッテルナビゲーター」の提供

– 図書館サービスシステムの受託開発

• テキストマイニング事業– マーケティング支援ツール

– 大規模分散処理システムHadoop• Webサービス事業

– レコメンデーションエンジンの提供

– 付随するWebサイト開発

Page 66: 京都大学「情報と職業」 20110415講義資料

リッテルナビゲーター

「情報探索のヒント」検索システム

=パスファインダー自動生成システム

• さまざまな情報リソースの統合検索

• 曖昧な質問(キーワード)から具体的な探し方へのナビゲーション

– Wikipediaと件名標目表を用いたテーマグラフの自動導出

Page 67: 京都大学「情報と職業」 20110415講義資料

67

Page 68: 京都大学「情報と職業」 20110415講義資料

リッテルナビゲーターの主な機能

• テーマグラフの自動生成

– 分野の自動的な導出

– 分野からの情報探し

• 日本十進分類法(NDC)による資料検索

• 関連キーワード探し

• 他のサーチエンジンとのリンク

– OPAC、JapanKnowledge、Google Scholarなど

• JapanKnowledgeとの連携

– 検索結果をWikipediaと比較できる

Page 69: 京都大学「情報と職業」 20110415講義資料

WikipediaとJapanKnowledgeの比較

• 東京スカイツリー

• 宗教改革

• コーパス言語学

69

Page 70: 京都大学「情報と職業」 20110415講義資料

70

Page 71: 京都大学「情報と職業」 20110415講義資料

71

Page 72: 京都大学「情報と職業」 20110415講義資料

72

Page 73: 京都大学「情報と職業」 20110415講義資料

導入実績

• 東京大学ほか約10大学の図書館で利用

• 国立国会図書館「リサーチ・ナビ」

– レファレンス情報のポータルサイト

– 週に数千回のアクセス

Page 74: 京都大学「情報と職業」 20110415講義資料

直面した課題

• 広めていくには時間がかかる

– 図書館の世界は数年単位でしか動かない

• 会社のランニングコストは確実にかかる

– 10名未満の組織でも年数千万円は出ていく

• 人の入れ替わり

– 離れて行く人を引き留めることはできない

• 「やりたいこと」と「やらなければいけないこと」とのギャップ

Page 75: 京都大学「情報と職業」 20110415講義資料

課題をどうクリアする?

• こだわりを捨てる

– 周辺分野にも積極的にチャレンジ

• 初心からぶれない

– 腹を据えてコミットメント

– ぶれているのに気づいたらすぐ修正

• 信頼できる相談相手

– 人生のパートナー

Page 76: 京都大学「情報と職業」 20110415講義資料

Hadoop• Apache財団が支援するオープンソースソフト

ウェア

• 大規模・分散・高速バッチ処理システム

• Googleの「MapReduce論文」「Google File System論文」のアイディアを実装

• 多数の企業で利用されている

– 米Yahoo!とFacebookが主導

– 国内でも楽天・クックパッドなどが利用

Page 77: 京都大学「情報と職業」 20110415講義資料

リッテルでのHadoop活用

• 当初はリッテルナビゲーターのインデックス生成で利用

• 蓄積されたノウハウをもとに、Hadoop構築支援サービスをビジネスとして展開

Page 78: 京都大学「情報と職業」 20110415講義資料
Page 79: 京都大学「情報と職業」 20110415講義資料

リッテルのexit

• 不動産情報ポータルHOME’Sを運営する株式会社ネクストによる完全子会社化→吸収合併

– いわゆるM&A

• 買収価格は出資額の数倍

– リッテルの4年間トータルでは若干の赤字

– DCF法 (Discount Cash Flow) による評価

• 決め手は「ミッションの合致」

– ネクストのミッションは「情報非対称性の解消」

Page 80: 京都大学「情報と職業」 20110415講義資料

株式会社ネクスト リッテル研究所

• 「情報の非対称性解消」というビジョンの実現に必要とされる技術群の研究開発

• 研究所としての目標

– ユーザの感性に寄り添うインタラクティブなサーチ

• まずはモバイルデバイスをターゲットとした直感的サーチインタフェースを目指す

Page 81: 京都大学「情報と職業」 20110415講義資料

要素技術

• レコメンデーション– 協調フィルタリング

– プロファイル分析

• 自然言語処理

• 機械学習– 教師(あり/なし)学習

– 教師なし学習

– 確率モデル

• 多変量解析

• グラフ理論– ナビゲーションシステム

• 大規模分散処理インフラ– Hadoop– 検索エンジン (Solr)– KVS (Cassandra)

• 地理情報・時間情報解析

• SSD• クローリング

• Web UI

Page 82: 京都大学「情報と職業」 20110415講義資料

自分の人生を「経営」するということ

• みなさんは自分という「会社」の社長兼筆頭株主です

• 経営に必要な基本ツール

– B/S 貸借対照表(バランスシート)

– P/L 損益計算書

Page 83: 京都大学「情報と職業」 20110415講義資料

バランスシート

資産•流動資産

•現金・預金•売掛金•商品など

•固定資産•不動産•設備•投資有価証券•長期貸付金など

負債•流動負債

•手形・買掛金など•固定負債

•長期借入金

資本•資本金•資本剰余金•利益剰余金など

Page 84: 京都大学「情報と職業」 20110415講義資料

人生のバランスシート

信頼•食事をおごった•プレゼントをした•勉強を教えてあげた•…

約束•人と会う約束•仕事を紹介してもらった•食事をおごられた

資本=自由

Page 85: 京都大学「情報と職業」 20110415講義資料

自由=選択肢を増やすこと

Page 86: 京都大学「情報と職業」 20110415講義資料

世界のバランスシート

お金(価値)

モノ

(自然から借りてきた資源)

ヒト(情報)

Page 87: 京都大学「情報と職業」 20110415講義資料

お金の意味の変化

• 以前は、モノ>>ヒト

– お金≒モノ

• 第三次産業革命以降は、モノ<<ヒト

– お金≒ヒト

※時給に換算される仕事は「モノ」扱い

※ただし、「モノ」をゼロにすることはできない

Page 88: 京都大学「情報と職業」 20110415講義資料

価値はどこで生まれる?

• ヒトとヒトの間のネットワーク

– 世の中の信用の総量

• 新たな「仕組み」の創造

Page 89: 京都大学「情報と職業」 20110415講義資料

お金を稼ぐことの意味

• 自由=選択肢を増やす

– 選択肢を増やすことで自分の可能性が増える

• 世の中への貢献

– 自分の人生への意味づけ

Page 90: 京都大学「情報と職業」 20110415講義資料

長尾先生から学んだこと

• 大事なことは3つ

– すぐやること

– イヤなことからやること

– 楽しんでやること

• 京大の学生1人あたりに年間で投じられている費用(≒国民の税金)は?

Page 91: 京都大学「情報と職業」 20110415講義資料

Life is short…

• 過去・現在・未来、どれが一番大事?

Page 92: 京都大学「情報と職業」 20110415講義資料

文系的能力の重要性

• 理系的能力と両方持ち合わせていれば鬼に金棒

Page 93: 京都大学「情報と職業」 20110415講義資料

楽しんでやり続けるには?

• 世の中の新しい「仕組み作り」に関わる

– ニッチでもかまわない

• 自分が何で貢献できるかを考える

Page 94: 京都大学「情報と職業」 20110415講義資料

読書案内

• 坪田一男 (講談社ブルーバックス)– 「理系のための研究生活ガイド」

– 「理系のための人生設計ガイド」

• 小飼弾 (アスペクト) 「弾言」

• 西原理恵子 (理論社) 「この世でいちばん大事な「カネ」の話」

Page 95: 京都大学「情報と職業」 20110415講義資料

おわりに

• 人生において起こるすべてのイベントに意味がある

• イベント遭遇率が高い環境に身を置くことが大事