荒牧 英 治 京都大学/ jst さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

37
荒荒荒荒 荒荒荒荒JST 荒荒荒荒 荒荒荒 荒荒荒荒 荒荒荒荒 荒荒荒荒 荒荒荒 < 荒荒荒 > 荒荒荒荒荒 荒荒荒荒荒荒荒荒荒荒

Upload: gage-foley

Post on 03-Jan-2016

120 views

Category:

Documents


0 download

DESCRIPTION

老いと < ことば > ブログ・テキストから測る老化. 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学. 背景 老化 は 発達 ほど研究されていない. < 老化 > V.S. < 発達 > KAKEN プロジェクト数 5175 V.S. 27986 CiNii 論文数 7688 V.S . 91248. 2014/07/26 accessed. 発達時,何がどのように獲得されるのか? 老いる時,何がどのように失われるのか? 何が普通に起こることなのか?. これまで 老化度の測定 (物理的検査). 骨年齢の判定 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

荒牧英治 京都大学/ JST さきがけ久保圭 大阪大学四方朱子 京都大学

老いと < ことば >フロク・テキストから測る老化

Page 2: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学
Page 3: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

背景老化は発達ほど研究されていない

• <老化> V.S. <発達>– KAKEN プロジェクト数• 5175 V.S. 27986

– CiNii 論文数• 7688 V.S. 91248

2014/07/26 accessed

• 発達時,何がどのように獲得されるのか?• 老いる時,何がどのように失われるのか?– 何が普通に起こることなのか?

Page 4: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

これまで老化度の測定(物理的検査)

同志社大学 老化度判定ドックの測定項目より抜粋

• 骨年齢の判定• 血管年齢の測定• 血液検査• 高次脳機能検査–カードソーティンク検査

• 前頭葉機能の評価)• 問診( QOL )

(本研究の目指すところ)言語年齢

Page 5: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

さまざま言語能力の測定法と本研究の測定法

読む

聞く

話す

書く

語彙量

語彙のレベル

文法の複雑さ

表現の丁寧さ

行為 測定項目

理解語彙量

文章について様々な指標を

計算する

書かれた

本研究はウェフ上で

Page 6: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

概要

• 背景 & 目的• 材料–ウェフ上からどのようなテキストを集めたか

• 手法• 結果• 考察

Page 7: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

3つの材料

• 小中学生作文テータ– 郵便事業株式会社主催「手紙作文コンクール」入賞

作品• 小学生低学年( 22 人: 26 人)• 高学年( 17 人: 32 人)• 中学生( 5 人: 43 人)

• 日本語学習者作文テータ– 日本語を学ぶ留学生のテキスト

• 初級 31 名,上級 124 名

• 高齢者フロクテータ– フロク・リンク集を用いて無作為に抽出

• 50 代, 60 代, 70 代, 80 代以上(男女別 10 名ずつ)

Page 8: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

小学生(低学年)男子の例

ぼくは、無線や電気などに興味を持っています。それで、科学館のアマチュア無線クラフに入っています。今日は、そのアマチュア無線クラフの活動をしました。フォックステーリンクという、競技をしました。

Page 9: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

80歳男性の例

音楽作曲のゴーストライター問題で謝罪記者会見を聴いたがあの会見を聴いていて彼は音楽の素人だと思った。

あの言葉のなかで 「アレンジとか編曲をお願いした」と言っていたが アレンジ=編曲 だから普通の音楽人ならあんな言葉は出ないだろう。

Page 10: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

90歳女性の例

20 年のオリンピック開催地が東京に決まりました。私はもともと東京五輪開催にはあまり賛成ではありませんでした。東京にあまり多くの外国人が入ってくるのは何だか煩わしい感じがしたからです。でも家族はみな「東京オリンピックが実現するといいね!」と盛り上がっていました。私にとってオリンピックといえば、昭和11年に開催されたベルリンオリンピックがやはりいちばん印象に残っています。

Page 11: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

概要

• 背景 & 目的• 材料• 手法–関連研究で提案されてきた手法–本研究室で開発した手法

• 結果• 考察

Page 12: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

指標指標 略記 説明 単位 対象

D-LEVEL 日本語版 LEV 文の複雑さ示す 単文 文法能力

構文木の深さ DEP 文の複雑さ示す 単文 文法能力

日本語学習辞書レベル JEL 語彙の難しさ 単語 語彙能力

特殊性 FPU 語彙の特殊性 単語 語彙能力

具体性 NER 固有名詞の割合 単文 語彙能力

タイプ・トークン割合 TTR 語彙の量 文章 語彙能力

機能表現レベル FNC 難易度 単文 その他

ポライトネス PLT 丁寧さ 単文 その他• 従来から使用されていた指標• 本研究で開発した指標

Page 13: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

D-LEVEL 日本語版 (LEV)

Cheunga, H. and S. Kemper, Competing complexity metrics and adults' production of complex sentences. Applied Psycholinguistics, 1992. 13(1): p. 53-76.

文法の複雑さを示す

Page 14: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

D-LEVEL 日本語版 (LEV)

Cheunga, H. and S. Kemper, Competing complexity metrics and adults' production of complex sentences. Applied Psycholinguistics, 1992. 13(1): p. 53-76.

文法の複雑さを示す

Page 15: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

D-LEVEL 日本語版 (LEV)

Cheunga, H. and S. Kemper, Competing complexity metrics and adults' production of complex sentences. Applied Psycholinguistics, 1992. 13(1): p. 53-76.

文法の複雑さを示す

Page 16: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

構文木の深さdepth of sentence tree (DEP)

• 文の複雑さを示す.• 構文木の最大の深さ(句構造と依存構造)

http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP

5 levels4 levels

Page 17: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

頻度・使用者数比(≒専門用語)Frequency per User Popularity (FPU)

• ソーシャルメティア 10万人の発言を 8ヶ月間調査

• 語の特殊性 ( 語の出現頻度/語のユーザ数 )

• 値が低い → 一般的• 値が高い → ユーザ数が出現頻度と比較し少ない語– スランクや専門用語

Eiji Aramaki, Sachiko Maskawa, Mai Miyabe, Mizuki Morita and Sachi Yasuda: A Word in a Dictionary is used by Numerous Users, International Joint Conference on Natural Language Processing (IJCNLP2013), 2013 (2013/10/18, Nagoya, Japan).

Page 18: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

TYPE ・ TOKEN割合Type Token Ratio (TTR)

• Type (異なり語数)と Token (延べ語数)の比率( Type / Token ).この値が大きいほど,語彙量が多い.文章全体で集計した.

潜在使用語彙 . : 19,000

INPUT

Page 19: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

日本語学習語彙レベル Japanese Educational Lexicon Level

(JEL)

• 語彙の難易度を示す• 難易度は日本語学習辞書

に収載されている語彙レベルを用いた

砂川有里子 , 学習辞書編集支援データベース作成について - 『学習辞書科研』プロジェクトの紹介」 . 日本語教育連絡会議論文集 , 2012. 24.

レベル example

LEVEL6 愛敬LEVEL5 愛国LEVEL4 愛犬LEVEL3 愛情LEVEL2 合うLEVEL1 会う

具体性・抽象性Named Entity Ratio (NER)

• 固有名詞の割合=固有名詞数 ÷全名詞数

• 抽象名詞の割合=抽象名詞数 ÷全名詞数

Page 20: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

機能表現難度Difficulty of Functional

Expression (FNC)

• 機能表現の難易度• この値が大きいほど,

文章内で用いられている機能表現の難易度が高い

• 難易度は A1, A2, B, C, F の 5段階に分かれており,これを 1 (A1) から 5 (F) に変換した.文ごとに算出し,平均した.

松吉俊 , 佐藤理史 , and 宇津呂武仁 , 日本語機能表現辞書の編纂 . 自然言語処理 , 2007. 14(5): p. 123-146.

ポライトネス Politeness of Functional

Expression (PLT)• 機能表現のポライトネス

の度合い• この値が大きいとき,丁寧であることをあらわす.

• 口語体= 1 ,常体= 3 ,敬体= 5 ,堅い文体= 5に変換した.文ごとに算出し,平均した.

難易度

ポライトネス

をとおして 3 3

をとおしまして

3 5

をとおし 3 1

Page 21: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

「メンション情報を利用した Twitterユーザプロフィール推定における単語重要度算出手法の考察」上里

Page 22: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

測定例(研究会プロシーティンク)

専門用語 多

抽象名詞 多

「メンション情報を利用した Twitterユーザプロフィール推定における単語重要度算出手法の考察」上里 et. al

「老いと<ことば>:フロク・テキストから測る老化」荒牧 et. a

Page 23: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

専門用語をフォントサイズに反映

Page 24: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

概要

• 背景 & 目的• 材料• 手法• 結果–(詳細はプロシーティンクに)–ワンショットのテータ–時系列テータ( 5 年)

• 考察

Page 25: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学
Page 26: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

• いくつかの指標で上昇を確認– 成長の過程を捉えられている

• 女性優位から男性優位へ

• では 老化においては…

文法の複雑さ( DEV )

語彙の難しさ( JEL )

文法の複雑さ( DEP )

中央値

25% の分布

最低値

最高値

はこひげ図の見方 発達期では

Page 27: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

老化は Super Flat!!

Page 28: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

• 他にも3指標( LEV, FNC, DEP )が同傾向

• (仮説 1) 高齢者になっても言語能力は落ちない ( 結晶化知性 ) [Horn1967]

• (仮説 2) 言語能力が落ちない高齢者だけが書いている

日本語学習語彙レベルを例に小括

Cattell, R.B., Abilities: Their structure, growth, and action. New York: Houghton Mifflin. 1971.Horn, J.L. and R.B. Cattell, Age differences in fluid and crystallized intelligence. Acta Psychologica, 1967. 26.

Page 29: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

6 名の長期執筆テータ• 高齢者長期フロクテータ( 5 年執筆 ; n=5 )

– 70 歳以上,かつ, 5 年以上の期間にわたって執筆されたタキスト

– 執筆年ごとに 500 文ずつを収集した• 認知症患者長期フロクテータ( 5 年執筆 ; n=1 )

– ある認知症患者(最終執筆時 70 代男性)のテキスト

桜の花の下でお茶をいただきながら68才の男が桜の花の下でゆっくりとお茶を飲んでいる姿を想像して見てください。その男はこの春(平成 17 年 3月)認知症と 診断さ れ て家にひき こもっているのです。それから半年今は結構元気になって……

言葉が書けない言葉が書けないは・・・文字が書かないとおなじ。パソコンで文字がかけていたわたしですがなぜか文字の変換が出来ない今日です。言葉をかくにはそれなりの言葉をさがし読んでいただける言葉にすれなはとはよういではなしのです。とみにそのかいすが多くなった。

2006 年 11月 2010 年 12月

Page 30: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

通常の高齢者(70歳以上)語彙レベル変化

個人差はあるものの低下傾向

Page 31: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

通常の高齢者 (70歳以上 ) と認知症患者

発症時から低い

Page 32: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

通常の高齢者 (70歳以上 ) と認知症患者

発症時から低い桜の花の下でお茶をいただきながら68才の男が桜の花の下でゆっくりとお茶を飲んでいる姿を想像して見てください。その男はこの春(平成 17 年 3月)認知症と 診断さ れ て家にひき こもっているのです。それから半年今は結構元気になって……

Page 33: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

2つの指標で同様の変化

日本語学習語彙レベル タイプ/トークン比

認知症では発症前にそれらが同時に起こった

語彙が簡単になる 語彙のバリエーションが減る

Page 34: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

まとめ• 本研究では– 自然言語処理( NLP )を人間の能力測定の道具と

して使うこと(新しい NLP の利用法)を提案– 老化の過程で測定可能な変化あり

• 語彙が簡単になる• 語彙のバリエーションが減る

– 通常の老化と認知症患者との間の大きな差異あり– BUT: 材料に大きな選択バイアス

• 今後の予定– 大規模テータの収集– 医療応用(認知症,発達障害(アスペルガー症候群))

Page 35: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

大規模テータの収集

京都大谷高校(夏休みの宿題)

Page 36: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

100 から 7 を引いて,

それからまた 7 を引いてみて?

前にアレで見たぞ!認知症のアレだろう!

失敬な!ワシはボケてなどおらん!

検査を受けるのを嫌がる認知症の患者さんは多い

Page 37: 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学

PI 荒牧英治 Ph.D. (総括)久保圭 (テータ

収集/助言 )四方朱子 (実験/統計処

理)

Role of Authors

Thank you

本研究遂行にあたって開示すべき関係にある企業はありません

COI掲示

http://mednlp.jp

宮部真衣 Ph.D. (ツール構築 )

Acknowledgement