職業ごとの行動に関する知識の収集

35
職職職職職職職職職職職職職職職職 職職職職 , 職職職職 , 職職職職 , 職職職 ( 職職職 )

Upload: miho-matsunagi

Post on 12-Apr-2017

251 views

Category:

Science


1 download

TRANSCRIPT

Page 1: 職業ごとの行動に関する知識の収集

職業ごとの行動に関する知識の収集

馬緤美穂 , 笹野遼平 , 高村大也 , 奥村学 ( 東工大 )

Page 2: 職業ごとの行動に関する知識の収集

目的 : 職業について知る

•職業について「何をしているか」という知識 : マーケティングやジョブマッチングに有用

•すぐに思いつくような知識に加え、すぐには  思いつかないような知識も収集したい

2

将来「医者」になりたいでも、「医者」ってどんなことをしているのかな?

「医者」は「手術をする」「患者を診る」

職業です

「医者」は「論文を書く」こともあります

Page 3: 職業ごとの行動に関する知識の収集

2 つの手法で行動を収集する3

職業が主体の行動に着目 個人の行動に着目

・薬剤師が薬を調剤する・薬剤師が薬局に常駐する

「薬剤師」が主体として現れるテキストソーシャルメディア上の「薬剤師」による投稿

雨の中、学会に行ってきた

昨日も勉強会に行きました

Page 4: 職業ごとの行動に関する知識の収集

関連研究

•Web から人間の属性について知識を獲得⁃年齢 , 性別など様々な属性について存在 [Inui 2008, Sap 2014,

Bergsma 2014]⁃多くは属性に関連する単語を獲得

•本研究 : 行動という単位で知識獲得

4

患者を診察する 患者を看護する

患者

医者 看護師

行動に着目→ より関係性が明確な  知識が獲得可能

Page 5: 職業ごとの行動に関する知識の収集

提案手法 5入力

「医者」について知りたい

ソーシャルメディア

「医者」は「患者を診る」「論文を出す」

職業です

出力

「医者」は「患者を診る」「診断を下す」

職業です

出力

東京の医者。 

内科の医者です

① 職業と紐付けられた   ユーザを収集

家で寝る : 1000患者を診る : 60

職業と関連付いていない行動 ( ソーシャルメディ

ア )患者を診る : 60

海外に行く : 100

職業と関連付いていない行動 (Web テキスト )

頻度の比較

頻度の比較

医者が患者を診る : 50

医者が海外に行く : 40

医者が診断を下す : 60

職業と関係する行動の候補

患者を診る : 50

家で寝る : 40論文を出す :

60

② ユーザによる行動の収集職業と関係する行動の候補

手法 A: 職業が主体として明示された行動からの獲得

手法 B: 職業に紐付けられた個人の 行動からの獲得

Web テキスト

Page 6: 職業ごとの行動に関する知識の収集

手法 A: 職業が主体として明示されたテキストから行動を獲得•Web テキストから、職業が主体として明示 (= ガ格に表現 ) された行動を述語項ペアとして収集

•職業と関連付けていない場合の頻度と比較

6

医者が病院で患者を診る。医者が海外に行く。

患者を診る : 50病院で診る : 40

海外に行く : 5

患者を診る : 50

診断を下す : 40

海外に行く : 5

患者を診る : 60診断を下す : 50

海外に行く : 4000

医者の行動一覧 医者に限定しない場合の頻度

Page 7: 職業ごとの行動に関する知識の収集

比較指標 : カイ二乗値•「職業と行動が独立である」とした場合に行動が出現する  

頻度の期待値と比べ、実際の行動の頻度がどれだけ大きいか

7

医者 医者ではない

患者を診る 50 (    ) 10 (    )

患者を診る以外 500 (    ) 5000 (    )

期待値

カイ二乗値

E1, 1 = (50 + 10) * (50 + 500)  

(50 + 10 + 500 + 5000)頻度全体に占める「医者」の割合

= 5.93

「患者を診る」の全頻度

Page 8: 職業ごとの行動に関する知識の収集

提案手法 8入力

「医者」について知りたい

ソーシャルメディア

「医者」は「患者を診る」「論文を出す」

職業です

出力

「医者」は「患者を診る」「診断を下す」

職業です

出力

東京の医者。 

内科の医者です

① 職業と紐付けられた   ユーザを収集

家で寝る : 1000患者を診る : 60

職業と関連付いていない行動 ( ソーシャルメディ

ア )患者を診る : 60

海外に行く : 100

職業と関連付いていない行動 (Web テキスト )

頻度の比較

頻度の比較

医者が患者を診る : 50

医者が海外に行く : 40

医者が診断を下す : 60

職業と関係する行動の候補

患者を診る : 50

家で寝る : 40論文を出す :

60

② ユーザによる行動の収集職業と関係する行動の候補

手法 A: 職業が主体として明示された行動からの獲得

手法 B: 職業に紐付けられた個人の 行動からの獲得

Web テキスト

Page 9: 職業ごとの行動に関する知識の収集

① 職業と紐付けられたユーザの収集

•ソーシャルメディア中でユーザが記載した   プロフィール情報を参照

•「対象の職業を持つ可能性が高い」と判断できるユーザをルールベースで収集

9

東京在住。作家です看護師。趣味はピアノ!

父は医者です。夢は公務員。

元アナウンサーです医者です。ニュース配信中好きな歌手  YUI!

東京の医者。 

内科の医者です

都内在住の看護師です。

今回は夜勤をなんとか乗り越えました!

昨日はずっと雨だったけど、病棟にいたから気付かなかった

夜勤は少し疲れた

プロフィール

ユーザの投稿

Page 10: 職業ごとの行動に関する知識の収集

② ユーザ自身による行動の収集

•① で紐付けられたユーザの投稿から、ルールベースでユーザ自身の行動を抽出

10

最近ずっと家で寝てるやっと論文を提出しまし

た明日は学会に行きたい

彼が学会に行ってきた。先生に怒られた

走ってきた犬を撫でた

職業が紐付けられたユーザ集団

患者を診る : 50家で寝る : 40

ご飯を食べる : 60

学会に行く : 40

都内在住の看護師です。

今回は夜勤をなんとか乗り越えました!

昨日はずっと雨だったけど、病棟にいたから気付かなかった

夜勤は少し疲れた

プロフィール

ユーザの投稿

Page 11: 職業ごとの行動に関する知識の収集

•手法 A と同様に、カイ二乗値に基づいて職業と関連付けていない場合の行動の 頻度と比較

11

患者を診る : 60家で寝る : 1000

ご飯を食べる : 1500

学会に行く : 50

職業と関連付いていない場合のそれぞれの行動の頻度

② ユーザ自身による行動の収集

患者を診る : 50家で寝る : 40

ご飯を食べる : 60

学会に行く : 40

Page 12: 職業ごとの行動に関する知識の収集

実験

1. 実験設定2. 評価 1: ユーザと職業の紐付け精度 

( 手法 B)3. 評価 2: 2 手法で獲得された知識の精度

( 手法 A&B)4. 2 手法の比較

12

Page 13: 職業ごとの行動に関する知識の収集

実験設定•28 職業に手法 A, B を適用

•使用データ⁃手法 A: 約 65億の述語項構造から構成されるデータ

⁃手法 B: 2013 年の Twitter ストリーミングデータ

13

アナウンサー シェフ 栄養士 警備員 弁護士 薬剤師 駅員

作家 カウンセラー 医者 美容師 音楽家 パイロット 教師

カメラマン 学芸員 編集者 保育士 看護師 公務員 劇団員

大工 探偵 エンジニア 主婦 画家 歌手 記者

・見る 少女 :ヲ格 公園 : デ格・診る 医者 : ガ格 患者 :ヲ格 病院 : デ格

Page 14: 職業ごとの行動に関する知識の収集

評価 1: ユーザと職業の紐付け精度

•職業ごとに (最大 )100 人について             「紐付けられた職業とプロフィールが一致しているか」 2 人が評価

14

主婦編

集者

記者

エン

ジニ

ア薬

剤師

カウ

ンセラ

ー音楽

家学芸

員弁

護士

看護

師劇団

員画

カメラ

マン

美容

師栄養士保育士

公務

員作

家教

アナ

ウン

サー駅

員シェ

フ歌

手医

者大

工警備

パイ

ロッ

ト探偵

0.0%20.0%40.0%60.0%80.0%

100.0%紐付け精度

平均: 75.6%精度 80% 以上: 17/28 職

…収集人数が 100 人以下

学芸員 , 駅員 , 探偵ソーシャルメディア上で職業を明示するユーザがほぼ存在しな

ノイズを単純な方法では除去できない

・ YUI は世界一の歌手です ( ファン )・護送船パイロット。ポラード星人を ・追って地球に。 (架空の人物 )・農二 2 年 サッカー部 部室警備員 (その職業ではない )

Page 15: 職業ごとの行動に関する知識の収集

評価 2: 2種類の手法で獲得された知識の精度

•評価対象 : 200件以上知識 ( 述語項ペア ) が獲得された職業・手法

15

アナウンサー シェフ 栄養士 警備員 弁護士 薬剤師 駅員

作家 カウンセラー 医者 美容師 音楽家 パイロット 教師

カメラマン 学芸員 編集者 保育士 看護師 公務員 劇団員

大工 探偵 エンジニア 主婦 画家 歌手 記者

赤字…手法 A, B で評価 (13 職業 )  青字…手法 B で評価 (11 職業 )黒字…評価の対象外 (4 職業 )

Page 16: 職業ごとの行動に関する知識の収集

•獲得できた知識の上位 100件をクラウドソーシングサービス「ランサーズ」でアンケート評価 

•評価した 100件中、正しく (1+2) 獲得できていた知識の精度を分析

16

問題文と職業の関係について、どう思いますか?

(1)その職業の人が取る行動としてすぐに思いつく(2)その職業の人が取る行動としてはすぐに思いつかないが、   その職業の人はこの行動を他の職業の人よりも取っていそうだ(3)その職業の人にとって一般的な行動だとは思わない

文「目の前で調理する」 職業「シェフ」

評価 2: 2種類の手法で獲得された知識の精度

Page 17: 職業ごとの行動に関する知識の収集

評価結果 : 手法 A17

教師弁

護士

記者

作家

看護

師シェ

アナ

ウン

サー

カメラ

マン

カウ

ンセラ

ー主婦

医者歌

エン

ジニ

ア大

工警備

員栄養士

薬剤

師駅

員探偵

パイ

ロッ

ト美容

師保育士画

家公

務員編

集者

学芸

員音楽

家劇団

員0

100200300400500600700800900

行動の獲得数

獲得数

職業名が主体として明示されることが少ない

劇団員

Page 18: 職業ごとの行動に関する知識の収集

評価結果 : 手法 A18

教師弁

護士

記者

作家

看護

師シェ

アナ

ウン

サー

カメラ

マン

カウ

ンセラ

ー主婦

医者歌

エン

ジニ

ア大

工警備

員栄養士

薬剤

師駅

員探偵

パイ

ロッ

ト美容

師保育士画

家公

務員編

集者

学芸

員音楽

家劇団

員0

102030405060708090

100

手法 A の精度

精度(%)

コスプレにチャレンジするFX で稼ぐ

主婦

Web 上の広告で言及されやすい

傾向 : 50% 以上の精度で行動を獲得

Page 19: 職業ごとの行動に関する知識の収集

評価結果 : 手法 B•評価した24職業 : 職業の紐付け精度と行動の獲得精度には相

関 (r=0.55)が見られた

19

主婦編

集者

記者

エン

ジニ

ア薬

剤師

カウ

ンセラ

ー音楽

家看

護師弁

護士劇団

員画

カメラ

マン美容

師栄養士保育士公

務員

作家教

アナ

ウン

サーシェ

フ歌

手医

者大

工警備

員0

20

40

60

80

100手法 B の精度

精度(%)

← 紐付け精度が高い 紐付け精度が低い →

悩みを打ち明ける

栄養士

主観的な内容が多い

今日は○○ホールで歌わせて頂きます!

歌手

自身の活動について積極的に投稿

Page 20: 職業ごとの行動に関する知識の収集

2 手法の比較20

アナ

ウン

サー

作家

カメラ

マン

シェ

カウ

ンセラ

医者

エン

ジニ

主婦

弁護士

看護

歌手

教師

記者

0102030405060708090

100 手法 B の精度

アナ

ウン

サー

作家

カメラ

マン

シェ

カウ

ンセラ

医者

エン

ジニ

主婦

弁護士

看護

歌手

教師

記者

0102030405060708090

100 手法 A の精度

…すぐに思いつく行動 …すぐには思いつかない行動

Page 21: 職業ごとの行動に関する知識の収集

アナ

ウン

サー

作家

カメラ

マン

シェ

カウ

ンセラ

医者

エン

ジニ

主婦

弁護士

看護

歌手

教師

記者

0102030405060708090

100 手法 B の精度

比較 : 全体21

手法A (平均: 58.5)

手法B ( 平均 : 58.3)

アナ

ウン

サー

作家

カメラ

マン

シェ

カウ

ンセラ

医者

エン

ジニ

主婦

弁護士

看護

歌手

教師

記者

0102030405060708090

100 手法 A の精度

…すぐに思いつく行動 …すぐには思いつかない行動

全体の精度

手法 B が得意

手法 A が得意

同等の性能

少なくとも一方で50% 以上

Page 22: 職業ごとの行動に関する知識の収集

アナ

ウン

サー

作家

カメラ

マン

シェ

カウ

ンセラ

医者

エン

ジニ

主婦

弁護士

看護

歌手

教師

記者

0102030405060708090

100 手法 B の精度

比較 : すぐに思いつく行動22

アナ

ウン

サー

作家

カメラ

マン

シェ

カウ

ンセラ

医者

エン

ジニ

主婦

弁護士

看護

歌手

教師

記者

0102030405060708090

100 手法 A の精度

…すぐに思いつく行動 …すぐには思いつかない行動

すぐに思いつく行動の精度

手法 A を用いた方が収集されやすい傾向

手法A

手法B

Page 23: 職業ごとの行動に関する知識の収集

アナ

ウン

サー

作家

カメラ

マン

シェ

カウ

ンセラ

医者

エン

ジニ

主婦

弁護士

看護

歌手

教師

記者

0102030405060708090

100 手法 B の精度

比較 : すぐには思いつかない行動

23ア

ナウ

ンサ

作家

カメラ

マン

シェ

カウ

ンセラ

医者

エン

ジニ

主婦

弁護士

看護

歌手

教師

記者

0102030405060708090

100 手法 A の精度

…すぐに思いつく行動 …すぐには思いつかない行動

手法A

手法B

すぐには思いつかない行動の精度

手法 B を用いた方が収集されやすい傾向

Page 24: 職業ごとの行動に関する知識の収集

考察•手法によって、収集できる行動の性質には差がある

•手法ごとの視点の違い⁃手法 A… 職業が主体として明示されている→ 第三者が客観的に見た行動⁃手法 B… ソーシャルメディア中の個人の経験→ 第三者からは見えにくい、個人の行動

24

相談を受け付けるパートナーに就任する弁護団を結成する弁護を担当する

手法 A で獲得された行動 手法 B で獲得された行動

書面を書く書面を作成する事務所に出る判決文を読む

弁護士の行動

第三者から見た行動 本人視点の行動

Page 25: 職業ごとの行動に関する知識の収集

まとめ•2 つの手法で職業に関する行動を収集

⁃職業が主体として明示されたテキストから収集 ( 手法 A)⁃ソーシャルメディア上のユーザから収集 ( 手法 B)

•結果 : 同等の精度で行動が獲得できた

25

• 職業が主体となる行動を収集

• 個人の行動に着目して収集学会に行く

勉強会に行く

薬を調剤する薬局に常駐す

薬剤師の行動・薬剤師が薬を調剤する・薬剤師が薬局に常駐する

雨の中、学会に行ってきた

昨日も勉強会に行きました

すぐには思いつかないがその職業でしている人は多い

すぐに思いつく

Page 26: 職業ごとの行動に関する知識の収集

補足: Twitter データの使用方法

•使用した API: gardenhose⁃最近までツイートデータのクロール用に提供されていた API⁃言語判定器 1で「日本語」と判定されたツイートを収集(毎時間

5万~40万ツイート程度)⁃ 確実に日本語を収集するため「ひらがな 2 文字以上」が連続して

いるツイートをしているユーザの投稿を利用

•データの加工方法⁃@ ( ユーザ名 ) や顔文字、記号は除去⁃次の条件に合致するツイートは使用しない

URL やハッシュタグ (特定のトピックを示す ) を含むRT(リツイート、他者のツイートの引用 )

26

1. LanguageGuesser (Lingua) http://gensen.dl.itc.u-tokyo.ac.jp/LanguageGuesser/LanguageGuesser_ja.html

Page 27: 職業ごとの行動に関する知識の収集

補足:ユーザの紐付けにおけるルールの詳細

•対象の職業を含み、かつ以下の条件を全て満たす⁃その直前が「元」でない⁃直後が判定詞「です」、句点「。」、空白、または 行末である

•以下の条件を満たさない⁃「父」「母」「姉」などの家族を表す語を含まない⁃「夢」「趣味」を含まない⁃「ニュース」「 bot 」などの単語をプロフィールに 含まない

⁃「学生」「主婦」をプロフィールに含まない

27

Page 28: 職業ごとの行動に関する知識の収集

補足 : ユーザの紐付けにおけるノイズの例

•ノイズ : プロフィール中で職業名を記載して いるが、実際にはその職業ではないパターン•ノイズが複雑すぎて単純な方法では除去できない職業

28

野球観戦 / 映画・ DVD鑑賞 / アナウンサー ( ファン )YUI は世界一の歌手です ( ファン )護送船パイロット。ポラード星人を追って地球に。 (架空の人物 )農二 2 年 サッカー部 部室警備員 ( 職業ではない )鳥大工 3 年 ( 別の単語 )

Page 29: 職業ごとの行動に関する知識の収集

補足: 28 職業の選定基準

•以下の基準を満たす職業から 28 職業を選定⁃次の職業関係の情報を表す Web サイトに掲載されている13歳のハローワーク Wikipedia の「職業一覧」

⁃65億個の述語項構造データに 10,000回以上出現している

⁃JUMAN辞書において主辞形態素にカテゴリ「人」が付与されている

29

Page 30: 職業ごとの行動に関する知識の収集

補足:クラウドソーシングの質問文30

Page 31: 職業ごとの行動に関する知識の収集

補足:クラウドソーシングにおける品質管理方法

•クラウドソーシングは一般人が作業に 従事するため、次のように品質を管理

1. 品質管理問題の導入⁃50問作業させるごとに 2問容易な問題を設け、どちらも正解したユーザの作業のみを使用

2. 複数人によるタグ付け⁃同内容を 5 人がタグ付けし、複数人の判断を合計することで判断の揺れを吸収

31

Page 32: 職業ごとの行動に関する知識の収集

補足:評価結果の集計方法

•「すぐに思いつく」•「すぐには思いつかないが、職業に関係すると思える」⁃各選択肢において、3人以上回答している

•全体的な性能⁃「すぐに思いつく」または「すぐには思いつかないが、職業に関係すると思える」と4人以上回答している

32

Page 33: 職業ごとの行動に関する知識の収集

補足:手法 B の精度におけるエラー分析 (詳細 )

•行動が獲得できなかった職業⁃探偵・駅員…職業と紐付けられたユーザがほとんど存在しな

かった

•栄養士 , カウンセラー⁃投稿に主観的な内容の多い職業であるため、職業に関係すると見られる行動がほとんど存在しなかったエネルギーを感じる ( カウンセラー )悩みを打ち明ける (栄養士 )

•公務員⁃守秘義務が存在するためか、投稿中にはほぼ職業に関係する投

稿が存在しない

33

Page 34: 職業ごとの行動に関する知識の収集

補足:勉強会に行く薬剤師の例

•明日も薬局勤務。今週は月〜木の 4 連勤。   久しぶりだわ。明日は弁当会…もとい、勉強会です。アラミスト点鼻とザイザル錠。花粉症 コンビですね。•今日は勉強会。弁当は梅の花らしい。内容は 今更ながらリバロらしい。•ベタニスの勉強会でした。久しぶりに身になる勉強会だった。•リフレックスの勉強会でした。演者の MR が、  先生の質問に全然答えられなくて残念な感じだったな。

34

※ リバロ、ベタニス、リフレックス:いずれも薬の商品名  MR:製薬会社で営業を行う人間

Page 35: 職業ごとの行動に関する知識の収集

評価結果:すぐには思いつかない行動の比較

•手法 B の方がすぐには思いつかない行動を収集しやすい傾向⁃並べ替え検定では有意水準 5% で有意差

•例:カメラマン

59

手法A

手法B

写真をレタッチするレンズを買う写真展に行く撮影会に行く