2012 09-25-sig-ifat

日本語記述の緻密化を目指した超大規模コーパスの構築

国立国語研究所コーパス開発センター

浅原正幸前川喜久雄今田水穂保田祥小西光

2012/9/25 SIG-IFAT short talk 1

国立国語研究所は

Web アーカイブを構築します


超大規模コーパスプロジェクト(2011-2016)

Web テキストを中心に100億語規模のテキストコーパスを構築

『現代日本語書き言葉均衡コーパス』

書籍・雑誌・新聞(約3500万語)図書館の図書(約3000万語)特定分野毎(約3500万語)

情報源 :

実際に使用されたデータから「代表データ」を提示

目的 :

規模が小さい手作業のため収集に限界

問題点 :

1 億語

Ⅰ コーパスの現状と将来像 Ⅱ 超大規模コーパス（イメージ）

Ⅲ 実施体制

【現状】

【将来】

『日本語記述の緻密化を目指した超大規模コーパス』

ウェブ上の全日本語データ情報源 :

稀言語現象の情報を収集し、より実態を反映した日本語「言語モデル」の構築を目指す

目的 :

ウェブ文書タイプ情報の自動推定自動形態素解析によりデータ収集の効率化を図る

工夫 :

1 0 0 億語

機械翻訳・音声翻訳の精度向上国語（日本語）辞書の用例自動収集日本語使用実態の定量的な把握に基づく言語政策の策定に貢献

応用 :

無作為抽出

文書タイプ情報推定

形態素解析

時系列データ追加

構築

日本語超大規模コーパス

言語変化の分析

言語モデルの構築

応用のための統計量推定

辞書用例の自動抽出

【連携研究機関】

[人文学系分野]

[工学系分野]

応用開発研究

研究者・辞書編集者

企業・出版社


Web アーカイブシステムの構成• 収集

– Heritrix クローラに基づく、月次のバルク収集– テキスト(HTML)のみの収集

• 組織化– リンクー被リンク情報の構造化– 収集日時の保存– メタデータ（出自）を補完するレジスタ推定– 教師なし機械学習に基づく未知語収集と人手による辞書構築– 文分割、形態素解析、文節認定、係り受け解析

• 利活用– NutchWAX (lucene-ja), Solr 系の転置索引による検索ツール– Open Source Wayback による時系列提示– 接尾辞配列による文用例検索ツール

• 保存– WARC ファイル形式(ISO 28500:2009)による永続保存– 収集月毎の語彙表/N-gram情報の保存


2012 09-25-sig-ifat

Documents