2012/08/06 annotation ws
TRANSCRIPT
『現代日本語書き言葉均衡コーパス』に対する 読文時間・視線情報アノテーションに向けて
浅原 正幸 国立国語研究所
狩野 芳伸 科学技術振興機構
小野 創 近畿大学
植田 禎子 日本システムアプリケーション
National Institute for Japanese Language and Linguistics Center for Corpus Development
はじめに~研究内容~
均衡コーパスに読文時間を付与します
2012/08/05 テキストアノテーションWS at NII 2
• 言語学 – コーパスコンコーダンサを利用して、コーパス中の用例や頻度を手掛かりとし、
言語の運用実態を分析する
• 言語処理 – 統計的機械学習(生成モデル)などを利用して、人間の言語生産過程を再現す
る
アノテーションがないコーパスによる研究形態には限界がある
アノテーション: コーパスに付与する各種言語情報 メタデータ 文境界・語境界・形態論情報(品詞、活用)・文節境界 固有表現、属性-属性値、評価表現、事象のモダリティ 統語論情報(係り受け、句構造、並列)、意味論情報(表層格、深層格) 省略、共参照、事象の時間的順序関係、因果関係
言語コーパスを利用した研究 アノテーションのないコーパス利用
2012/08/05 3 テキストアノテーションWS at NII
言語コーパスを利用した研究 アノテーションのあるコーパス利用
• 言語学 – コーパスコンコーダンサを利用して、コーパス中の用例や頻度を手掛かりとし、
言語の運用実態を分析する – アノテーションを手掛かりとして、分析対象を絞り込んで調査することができ
る • 言語処理
– 統計的機械学習(生成モデル)などを利用して、人間の言語生産過程を再現する
– 構造学習(識別モデル)などを利用して、アノテーションを再現することにより言語解析器を実現することができる
2012/08/05 4 テキストアノテーションWS at NII
アノテーション: コーパスに付与する各種言語情報 メタデータ 文境界・語境界・形態論情報(品詞、活用)・文節境界 固有表現、属性-属性値、評価表現、事象のモダリティ 統語論情報(係り受け、句構造、並列)、意味論情報(表層格、深層格) 省略、共参照、事象の時間的順序関係、因果関係
アノテーションの誤りと揺れの存在
アノテーションの利用者の立場 • 言語学
– 言語の運用実態を分析する上での典拠となるアノテーション 正しく一貫して付与されていることを求める
• 言語処理 – 学習用訓練データや、評価用ベンチマークデータとなるアノテーショ
ン 正しく一貫して付与されていることを求める
アノテーションの生産者の立場 • 誤り: 作業マニュアル・言語テストの整備、作業環境の整備、作
業者を訓練することにより、できる限り誤りが入らないようにする • 揺れ:本質的にあいまいな言語現象について、統制した仕様を策定
することにより、一意にアノテーションができるようにする
2012/08/05 5 テキストアノテーションWS at NII
このようなノウハウは ISO/TC37/SC4 language resource management で情報共有されており MAF, LAF, SynAF, SemAF, PISA などが公開されている
コーパスとアノテーションの関係
• アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text
Text
Writer
productive
2012/08/05 6 テキストアノテーションWS at NII
コーパスとアノテーションの関係
• アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text
• アノテーション – 読み手(Reader) による受容過程(receptive process)による
Annotation
Text
Writer
productive
Annotation
Reader
receptive
2012/08/05 7 テキストアノテーションWS at NII
アノテーションの誤りと揺れの原因を探る
• アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text
• アノテーション – 読み手(Reader) による受容過程(receptive process)による
Annotation
Text
Writer
productive
Annotation
Reader ① 書き手と読み手が 言語規範を
共有しているとは限らない
receptive
2012/08/05 8 テキストアノテーションWS at NII
アノテーションの誤りと揺れの原因を探る
• アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text
• アノテーション – 読み手(Reader) による受容過程(receptive process)による
Annotation
Text
Writer
productive
Annotation
Reader
②書き手が常に言語規範どおりの処理を行っているわけでもない
receptive
① 書き手と読み手が 言語規範を
共有しているとは限らない
2012/08/05 9 テキストアノテーションWS at NII
アノテーションの誤りと揺れの原因を探る
• アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text
• アノテーション – 読み手(Reader) による受容過程(receptive process)による
Annotation
Text
Writer
productive
Annotation
Reader
③読み手が常に言語規範どおりの処理を行っているわけでもない
receptive
① 書き手と読み手が 言語規範を
共有しているとは限らない
②書き手が常に言語規範どおりの処理を行っているわけでもない
2012/08/05 10 テキストアノテーションWS at NII
アノテーションの誤りと揺れの原因を探る
• アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text
• アノテーション – 読み手(Reader) による受容過程(receptive process)による
Annotation
Text
Writer
productive
Annotation 1
Reader1
③読み手が常に言語規範どおりの処理を行っているわけでもない
receptive
① 書き手と読み手が 言語規範を
共有しているとは限らない
②書き手が常に言語規範どおりの処理を行っているわけでもない
Reader2
Annotation 2
④ 複数の読み手が言語規範を 共有しているとは限らない
Annotation 3
Reader3
2012/08/05 11 テキストアノテーションWS at NII
アノテーションの誤りや揺れをまず認める 次に何をするか
• アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text
• アノテーション – 読み手(Reader) による受容過程(receptive process)による
Annotation
アノテーションの誤りや揺れの原因:まとめ ① 書き手と読み手が言語規範を共有しているとは限らない ② 書き手が常に言語規範どおりの処理を行っているわけでもない ③ 読み手が常に言語規範どおりの処理を行っているわけでもない ④ 複数の読み手が言語規範を共有しているとは限らない 定量的に「誤りやすさ」や「揺れやすさ」を評価する
2012/08/05 12 テキストアノテーションWS at NII
アノテーションの誤りと揺れの定量的な評価 過去に行ったこと
以下では、主に統語論情報(係り受け)レベルのアノテーションについて、 誤りと揺れの定量的な評価を試みたものを示す 1. BCCWJの係り受けアノテーション作業の作業者間の揺れの評価
BCCWJ の係り受けアノテーションは1人の作業者により並列構造をアノテーションし、 自動解析器により係り受け構造の付与したものを修正している。 評価しているものは「先行工程の誤りを検出できるか否か」
2. ゲームによる係り受けアノテーションの揺れの評価 係り受けアノテーションを shift-reduce 法に基づくアクションを人手で指定する UI を作成し、全く係り受けアノテーションがない文を複数人にアノテーションさせる 心理言語学実験で用いられる作例を正解率や反応時間を測定する – 中間埋め込み文に基づくガーデンパス文
• 一意の構造を持つもの (誤りを評価) • 複数の可能な構造を持つもの (揺れを評価)
アノテーション基準を示しコーパス全体に網羅的に評価することが困難
2012/08/05 13 テキストアノテーションWS at NII
私が実施したいこと 心理言語学的な実験結果をコーパスに付与する
「BCCWJ コアデータ (約100万語)」 もしくは「均衡がとれている最小集合 (約30万語)」 に、心理言語実験の一次情報(読解速度など)を網羅的に付与する ⇒先行研究:Dundee Eye Tracking Corpus [Kennedy+ 2003] • 英語、フランス語を対象 • 10人の母語話者の視線走査情報を収録 • 新聞社説 20 ファイル (5行 40 画面) • 研究用途に一次情報が配布されている
2012/08/05 テキストアノテーションWS at NII 14
(Kennedy 氏の web ページより)
私が実施したいこと 心理言語学的な実験結果をコーパスに付与する
「BCCWJ コアデータ (約100万語)」 もしくは「均衡がとれている最小集合 (約30万語)」 に、心理言語学的な実験結果(一次情報:読解速度)を網羅的に付与する
2012/08/05 テキストアノテーションWS at NII 15
BCCWJ コアデータ (約 100万語)
BCCWJ 教科書コーパス
心理言語学で利用される作例
アノテーション
視線走査法
自己ペース読文法
大人 L2学習者 L1学習者
アノテーション方法
• 読文速度の取得 – 視線走査装置を利用した読文速度の取得 – 自己ペース読文法による読文速度の取得
• 被験者の情報取得 – アンケート – 語彙数推定 – ワーキングメモリ容量推定
2012/08/05 テキストアノテーションWS at NII 16
アノテーション方法 視線走査装置を利用した読文速度の取得
• 視線走査装置 – Eyelink CL
• NINJAL と NII に1台ずつ調達ずみ
• BCCWJ から適切なサンプルを抽出し、被験者実験を行う
• 被験者の眼球運動から読文速度を取得する
2012/08/05 テキストアノテーションWS at NII 17
アノテーション方法 視線走査装置を利用した読文速度の取得
• 文字単位に Interest Area を設定
2012/08/05 テキストアノテーションWS at NII 18
アノテーション方法 視線走査装置を利用した読文速度の取得
• 停留箇所の出力
2012/08/05 テキストアノテーションWS at NII 19
アノテーション方法 視線走査装置を利用した読文速度の取得
• サッケードの出力
2012/08/05 テキストアノテーションWS at NII 20
アノテーション方法 視線走査装置を利用した読文速度の取得
• BCCWJ の各単位との重ね合わせ – 文字単位、短単位、文節単位の分析が可能
2012/08/05 テキストアノテーションWS at NII 21
アノテーション方法 自己ペース読文法による読文速度の取得
• 視線走査を用いない、安価な機器で可能な実験方法 • 被験者がスペースキーを おしながら文字列を表示 させ、順に読んでいく • 後戻りはできない • 英語では視線走査法との 相関が示されているが、 日本語では示されていない (単位を考慮するべき) • 本研究では最適な単位を実験により調査する
2012/08/05 テキストアノテーションWS at NII 22
アノテーション方法 読文に際しての課題
• 被験者がきちんと文を読んでいるかを確認するために課題を課す – 文の内容を問う問題 – 単語の有無を問う問題
2012/08/05 テキストアノテーションWS at NII 23
アノテーション方法 被験者の情報取得
• 読文速度に顕著な差異が出た場合の原因究明 – 被験者の語彙数によるものか – 被験者のワーキングメモリ容量によるものか
• 以下の被験者に対する調査を行う – アンケート
言語形成地・年齢・性別・最終学歴(学部・専攻)・学年(L1言語学習者)・母語(L2言語学習者)
– 語彙数推定 – ワーキングメモリ容量推定
2012/08/05 テキストアノテーションWS at NII 24
アノテーション方法 被験者の情報取得~語彙数推定
単語親密度に基づく語彙数推定実験「百羅漢」[天野+ 2003] – 50語提示して、単語を知っているか否かを答えてもらう – 単語親密度順に並べ、連続2語「知らない」と答えた部分をもっ
て語彙数を推定する
2012/08/05 テキストアノテーションWS at NII 25
アノテーション方法 被験者の情報取得~ワーキングメモリ容量推定
• リーディングスパンテスト[苧坂 2002] • 1か所だけ下線が引か れた例文を被験者に 呈示し、音読させな がら、下線部単語を 記憶してもらう • 全ての文呈示後に、 下線部単語を順に 回答させる
2012/08/05 テキストアノテーションWS at NII 26
アノテーション方法 まとめ
• 読文速度の取得(一次情報の取得) – 視線走査装置を利用した読文速度の取得
機材は調達ずみ (NINJAL 1 台, NII 1 台) 利用経験のある研究者の協力を得て、実験方法を確立する
– 自己ペース読文法による読文速度の取得 英語では視線走査法との相関が示されている [Just+ 1982] 日本語では視線走査法との相関が自明ではないので、さまざまな単位で評価する
• 被験者の情報取得(読み手側の情報) – アンケート
言語形成地・年齢・性別・最終学歴(学部・専攻)・学年(L1言語学習者)・母語(L2言語学習者)
– 語彙数推定 「百羅漢」 [天野 2003]
– ワーキングメモリ容量推定 リーディングスパンテスト [苧坂 2002]
2012/08/05 テキストアノテーションWS at NII 27
2012/08/05 テキストアノテーションWS at NII 28
BCCWJ コアデータ (約 100万語)
BCCWJ 教科書コーパス
心理言語学で利用される作例
アノテーション
視線走査法
自己ペース読文法
大人 L2 L1
目的: • BCCWJ コアデータのアノテーションが誤りやすい部分の検出 • 読み手をプロファイルした時空間的な分析 • 言語教育に資する適切なリーダビリティ評価 • 言語政策に資する言語現象の難易度評価 • 作例ベースに基づくデータと均衡コーパスに基づくデータを統合し、共
有化し、心理言語学の実験結果の信頼性をサポート • 言語処理、特に言語解析器の訓練データやデザインに利用 • 文脈ありと文脈なしでの差分
2012/08/05 テキストアノテーションWS at NII 29
BCCWJ コアデータ (約 100万語)
BCCWJ 教科書コーパス
心理言語学で利用される作例
アノテーション
視線走査法
自己ペース読文法
大人 L2 L1
目的: BCCWJ コアデータのアノテーションが誤りやすい部分の検出 視線走査や自己ペースリーディングなどの心理言語学的な実験結果の一次情報を網羅的に付与し、文読解に負担がかかる文を同定する • 文読解に時間がかかる文から順に、アノテーション誤りの有無を調査する • 文読解の時間の分散が大きい順に、アノテーションゆれの有無を調査する
誤り検出 ゆれ検出
2012/08/05 テキストアノテーションWS at NII 30
BCCWJ コアデータ (約 100万語)
BCCWJ 教科書コーパス
心理言語学で利用される作例
アノテーション
視線走査
自己ペースリーディング
大人 L2 L1
目的: 読み手をプロファイルした時空間的な分析 読み手の世代、性別、地域などをプロファイルし、BCCWJ のメタデータに記述されたプロファイルと比較調査する • 書き手と読み手の世代差、性差、地域差が、文読解にどう影響を与えるかを調
査する • プロファイル毎に共有されない言語規範を各種アノテーションをもとに明らか
にする
読み手の プロファイル
書き手の プロファイル
2012/08/05 テキストアノテーションWS at NII 31
BCCWJ コアデータ (約 100万語)
BCCWJ 教科書コーパス
心理言語学で利用される作例
アノテーション
視線走査
自己ペースリーディング
大人 L2 L1
目的: 言語教育に資する適切なリーダビリティ評価 BCCWJ コアデータを共通ベンチマークとし、大人、L2 言語学習者、L1 言語学習者のデータを収集する • 誰にとってどのくらい読みにくいテキストなのかを定量的に評価する • 何が読みにくいテキスト足らしめているのかを各種アノテーションをもとに明
らかにする
言語学習者の 一次データ
共通ベンチマーク
2012/08/05 テキストアノテーションWS at NII 32
BCCWJ コアデータ (約 100万語)
BCCWJ 教科書コーパス
心理言語学で利用される作例
アノテーション
視線走査
自己ペースリーディング
大人 L2 L1
目的: 言語政策に資する言語現象の難易度評価 教科書コーパスを共通ベンチマークとし、大人、L1 言語学習者のデータを収集する • 教科書コーパスの難易度(文字・語彙)の妥当性を検証する
言語学習者の 一次データ
共通ベンチマーク
2012/08/05 テキストアノテーションWS at NII 33
BCCWJ コアデータ (約 100万語)
BCCWJ 教科書コーパス
心理言語学で利用される作例
アノテーション
視線走査
自己ペースリーディング
大人 L2 L1
目的: 作例ベースに基づくデータと均衡コーパスに基づくデータを統合し、共有化し、心理言語学の実験結果の信頼性をサポート 心理言語学研究者に作例を提供していただき、均衡コーパス(BCCWJ コアデータ) と混ぜて、再実験を行い、心理言語実験結果の信頼性をサポートする
作例と均衡コーパスの対比
2012/08/05 テキストアノテーションWS at NII 34
BCCWJ コアデータ (約 100万語)
BCCWJ 教科書コーパス
心理言語学で利用される作例
アノテーション
視線走査
自己ペースリーディング
大人 L2 L1
目的: 言語処理、特に言語解析器の訓練データやデザインに利用 • 人間の読解情報を直接訓練データに利用する(Ando 法に基づく半教師あり学習) • 人間の読解情報に基づく特徴量デザインの再検討 • 人間の読解情報に基づくアルゴリズムデザインの再検討
人の動作を 機械に組み込む
2012/08/05 テキストアノテーションWS at NII 35
BCCWJ コアデータ (約 100万語)
BCCWJ 教科書コーパス
心理言語学で利用される作例
アノテーション
視線走査
自己ペースリーディング
大人 L2 L1
目的: 文脈ありと文脈なしでの差分分析 文脈あり(文書単位提示) と文脈なし(文単位提示) の両方の実験を行い、 差分から文間の関係認識が必要な個所を同定する • 文脈がないことにより処理が時間がかかる⇒言語処理でも文間の処理が必要
文脈の有無による 対比
私が実施したいこと [再掲] 心理言語学的な実験結果をコーパス全体に付与す
る
2012/08/05 テキストアノテーションWS at NII 36
BCCWJ コアデータ (約 100万語)
BCCWJ 教科書コーパス
心理言語学で利用される作例
アノテーション
視線走査
自己ペース読文法
大人 L2 L1
心理言語実験 1次情報 書き手の
言語規範の モデル化
読み手の 言語規範の モデル化
アノテーションの誤りや揺れの原因:まとめ ① 書き手と読み手が言語規範を共有しているとは限らない ② 書き手が常に言語規範どおりの処理を行っているわけでもない ③ 読み手が常に言語規範どおりの処理を行っているわけでもない ④ 複数の読み手が言語規範を共有しているとは限らない
おわりに
言語の受容過程の記録として読文速度・視線情報アノテーション • 心理言語実験手法に基づくアノテーション
– 視線走査法 – 自己ペース読文法 – 被験者を多角的に評価
• アンケート・語彙数・ワーキングメモリ容量 • 利用目的
– BCCWJ コアデータのアノテーションが誤りやすい部分の検出 – 読み手をプロファイルした時空間的な分析 – 言語教育に資する適切なリーダビリティ評価 – 言語政策に資する言語現象の難易度評価 – 作例ベースに基づくデータと均衡コーパスに基づくデータを統合し、
共有化し、心理言語学の実験結果の信頼性をサポート – 言語処理、特に言語解析器の訓練データやデザインに利用 – 文脈ありと文脈なしでの差分
2012/08/05 テキストアノテーションWS at NII 37