東京大学　情報基盤センター（情報理工学系研究科、情報学府　兼担）...

東京大学　情報基盤センター（情報理工学系研究科、

情報学府　兼担）中川裕志

言語を情報する

Do information language

入力文：私はりんごを食べた。

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる , agent= 私 , target= りんご , time=past)

英語の語彙に変換（つまり意味表現のレベルないしはそれに近い深さで変換　　対訳辞書利用

(action=eat, agent=I, target=an apple, time=past)

構文および形態素の生成（語順の変換）して翻訳出力を得る。

対訳辞書利用

noun=I, verb （ past)=ate, noun=an apple

出力文： I ate an apple.

昔の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった。

また、形態素解析、構文解析、意味解析が正確に動作すると想定している。

しかし、なかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯　 hot water 、　もったいない ? 、check という習慣が日本にない！

昔の機械翻訳

対訳辞書日本語意味

りんご APPLE 意味英語

ALLPE if bear noun or singular: apple if plural: apples

単数の場合には an apple, 複数なら apples を選ぶのは、構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例：私はみかんを食べた。 I ate an orange.

入力文：私はりんごを食べた。翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた。違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an apple に置き換え

結果出力： I ate an apple.当然ながら、冠詞の選択などは文法規則によって行う。

つまり、相当程度に従来の構文規則や、形態素解析技術と共同することになる。

少し前の機械翻訳： example based machine translation

類似検索の部分が重要。ここで構文解析を使うことも可能だが、だんだん古典的な機械翻訳に近づく。

翻訳対を集めれれば集めるほどが翻訳の質があがる。この収集作業は機械的にできる。

少し前の機械翻訳： example based translation

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得る。アンチ言語学理論

2 言語並行コーパスが蓄積文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付け、すなわち対訳

を自動的に抽出文同士の対応はあるが、単語列同士の対応は不明探索空間が膨大

IBM の Peter Brown ， S. Della Pietra, V. Della Pietra, Robert Mercer らの 1993 年の Computational Lingusiticsの超有名かつ超難解な論文“ The Mathematics of Statistical Machine Translation:Parameter Estimation” を中心に解説

Bayes の定理Canadian Hansard : French-English Bilingual

corpusフランス語の単語列 :f に対して妥当な英語

の単語列 : e 　を求めるなお、以下では f,e は単語あるいは句、 f,e は文。

Given French string: f, find e^=arg maxePr(e|f)

種々の f に対応しそうな e はやたらと多い！！

then

))Pr(Pr(argmax

)Pr(

))Pr(Pr()Pr(

^

f|eee

f

f|eee|f

e　

なぜ Pr(e|f) ではなく、 Pr(f|e)×Pr(e) か？

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文（文字

列）　 f 　に対して、対応すべき正しい英語を求めるのが目的

Pr(e|f) 直接では、正しい英文 e に高い確率が割り当てられる可能性が低い。

正しい英文という要因を直接考慮するために Pr(e) を別個の情報源から得て利用する。

Alignment とは？

• The1 poor2 don’t3 have4 any5 money6

• Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) don’t(3,4) have(3,4) any(3,4)

money(3,4))=A(e,f)=a

• フランス語 vs 英語の対訳コーパスを用いて　フランス語単語列 f が英単語列 e に翻訳され

る確率 t(f|e) を対訳コーパスから評価する方法

導出は数学的に大変難しいので、結果だけを示す。

さて、いよいよ難解な論文の説明

フランス語単語列 f が英単語列 e に翻訳される確率 t(f|e) を求める。

1. t(f|e) の初期値を適当に決める2. 対訳コーパス中の S個の対訳文 f(s),e(s) ： 1=<s =<S各々の組 (f(s),e(s)), に対して、 ef の翻訳回数の期待値

　　　　を計算する。　　 ccorpus(f|e; f(s),e(s)) の値は f,e が f(s),e(s) の対訳の組に出現した

ときだけ０でない。また、 ei (i=1,..,l) は対訳英文の各単語、 l は対訳文に含まれる英単語の語彙数

)e,f;|()|(...)|(

)|()e,f;|( (s)(s)

0

(s)(s) efcefteft

eftefc corpus

l

近年、ＭＴの評価尺度として頻繁に使用されているＢＬＥＵが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている。例えば、ＳＹＳＴＲＡＮのようなルールベー

スＭＴの結果のＢＬＥＵ値は悪いが、人間が見ると悪くない、という場合もある。

もう一つの問題としてＳＭＴが良い訳文を生成しているのか、という問題がある。

機械翻訳評価尺度についての議論

代表的なＭＴ評価尺度（１）

ＢＬＥＵ

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log4

1exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

i

iiiWER

の語数参照訳

置換語数削除語数挿入語数1

代表的なＭＴ評価尺度（２）

PER(position independent WER)

GTM(General Text Matcher)機械翻訳文と参照訳との最長一致単語列の集

合 :MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallpre

recallpreGTM

i

iiMMSrecall

i

iiMMSpre

2

),(,

),(

の語数参照訳参照訳機械翻訳文

の語数機械翻訳文参照訳機械翻訳文

評価尺度とＭＴ方式の関係

この議論を整理すると、評価尺度とＭＴ方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳（ＲＭＴ）

統計翻訳（ＳＭＴ）

ＢＬＥＵ悪い？？良い？？

人間の評価けっこう良い部分的な訳は良い

代替尺度良いところは良いと評価する尺度がほしい

特許文に対するＳＭＴの評価利用データ：ＪＡＰＩＯ提供の公開特許公報要約／ＰＡＪ対訳データ (1993 年から 2004 年までの 12 年分。Ｇ０６分野７７万文で学習、 1000 文でパラメータ調整、 500 文で評価

フレーズベースＳＭＴ入力文をフレーズ（翻訳する上で固定的に扱える単位）に分割 SMT は短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

Tommrow 　　 I 　　　　　 will go 　　　　　 to the conference 　　　　　　　　　　 in Japan

明日　　　　　　　 Φ 　　　　　　日本の　　　　　会議に　　　　　　行きます

機械翻訳のＭＴ評価尺度による評価

MT2006(ＮＩＳＴ主催）での Best なＢＬＥＵは 0.35 。　よって、特許翻訳ではフレーズベース SMT はかなり期待できる。

個々のフレーズは統計翻訳で求める

ＢＬＥＵＷＥＲＰＥＲＧＴＭ0.2713 0.848 0.452 ０．８８

１

自然言語処理の歴史的変遷

参考：辻井潤一「ことばとコンピュータ」月間言語に２０００年に連載

言語論の歴史を振り返ると :古代編

I. モノには正しい名前がある：ソクラテス

II. 言語の背後の論理へ：アリストテレスIII. 修辞法の習得へ：クインティリアヌス話言葉から書き言葉へ観念から実用への流れ

言語論の歴史を振り返ると中世編

I. 文法（品詞論、統語論、語用論）：ポールロワイヤル

II. 観念の表現：ロックIII. 意味の素性への分解：コンディヤック構造と意味現代的な問題は出揃っているI. 印刷技術のための統一された言語の構築：

キャクストン印刷という実用的問題から言語を制御

言語論の歴史を振り返ると近世編

I. 真の言語を求めてインドヨーロッパ祖語：フンボルト

II. 言語のダーウィニズムそして革命が

ソシュール

• 思想は星雲のようなもので、その中で必然的に区切られているものは何もない

• 言語が現れる以前は何一つ判別できるものはない

言語の恣意性言語の共時態を対象にした研究言語の構造を明らかにすること

そして今

• ソシュールの合理的言語処理• その困難に苦闘するうちに• 計算機技術の進歩によって巨大なコーパ

スを得て我々はどこへ向かうのか？

認知革命認知革命以前の問い：言語の科学は物理学のよ

うに演繹的に構成できるのか？ (1950 年代）データのみから帰納する。直観を排除：構造主義しかし、計算機パワーが貧弱だった計算のモデルを欠いた帰納だけでは大きな発展が難しかった。

1960 年代：認知革命：人間の言語処理、情報処理についてのトップダウンモデルチョムスキーの変形文法ニューウェル、サイモンの問題解決：人工知能計算機の能力のそれなりの進歩による部分多し。

チューリングテストチューリングテストをパスする自然言語処理機械を作るには？大きな九九表

文と意味の対応表、日本語文と英語文の対応表これではごまかしみたい。本質が分かった気がしない。無限に多い場合を考慮すると対応表が爆発

無限の可能性に対応できる計算メカニズムチョムスキー型、人工知能型アプローチ無限に多い文や文脈を計算モデルとして考えきれるのか？中川個人としては「分割と統治」の方法論しか思い浮かばない

Top down vs Bottom up合理主義 vs 経験主義

陥りがちなことは、現実のデータを見ない理論 (TopDown)理論的方向性のないデータ集積

(BottomUp)機械翻訳の研究の歴史を例に T vs B の葛藤の様相を示そう。

Bottom Up 旧世代：構造主義思弁的だった言語学を科学にしようとした試み収集した言語データを主観を排して？？観察し、言

語の本質的要素を明らかにする。動詞の接尾辞「て」 vs「で」

同じ「て」だが、鼻音の動詞「死んで」の後では「で」になる。

鼻音 vs 　非鼻音　という相補分布でなければいけない。最小対 (minimal pair) の考え方：

しかし、「死んで」と「生きて」を同じカテゴリーだと見るのは全く主観を排して議論できるのだろうか。

合理主義出発点：言語から独立した計算のモデルを想定できるだけ単純なモデルが見通しがよい。言語を実世界から切り離したソシュール的アイデア最初はパフォーマンスが悪いが、いずれは BottomUpシステムを上回る。 BT は現実のデータしか見ないから、予測能力が低いのだ。しかし、最初のモデルが外れだったら？

チョムスキーの個別言語に依存しない言語理論（普遍文法）に依拠

言語だけを相手にしたとき、自立した言語のモデルは構文論が最適

下図のどこかのレベルで言語 A から言語 B に移行する。移行するレベルにおいては、言語 A と言語 B の表現の

間で変換対応表を作れる（という信念）たとえ対応表が膨大でも

言語独立な表現（＝意味？？）

深層格表現（動作主、経験者 etc)

構文構造表現

句構造表現

単語列

言語 A の文言語 B の文

移行派原理主義： transfer fundamentalist

移行派原理主義の問題点レベルが上がるにつれて構造が大きくなる。それで

も言語 A から Bへ移行できるのは、部分の意味は一度決まると、それを組み合わせ

ることで全体の意味が決まるという構成性原理を前提にしてるからなのだが……

言語 A,B 間で単語の対応は一意的でない。湯、水　 water

一方の言語にしか存在しない文法的性質や機能語あり冠詞、名詞の性それでも複雑な変換表を作ればなんとかごまかせる

かも

移行派原理主義の問題点最も深刻なのは

意味の文脈依存性名詞の単数、複数の区別のない言語 A からある言語

Bへ変換するには、文脈情報が必要。しかも文脈の数は無限。

デフォールトを単数に変換し、文脈で証拠が出れば複数と変換。

「けっこうです」”thank you” or “no thank you”デフォールトでは解けない！？

記号について-- 少し視野を広げ人工知能の視点から --

記号と公理系から閉じた知識体系を作る（前記ヴィトゲンシュタイン )記号はそれ自体でひとつの存在。記号を用い

た推論は、想定する集合上での操作として定義できる（外延的論理）

80 年代までの人口知能はこの路線だった。なにしろ、入出力が貧弱で計算機の外側の世界と通信できなかったから

しかし、限定目的の貧弱なシステムしか作れなかった。（エキスパートシステム）

80 年代後半から外界とのインタラクションが重視されるようになった。ロボットにおける subsumption architecture分散知能エージェント（これは現在ではソフトウェア

工学）文脈情報を考慮した記号処理への動き

記号は、a. コアになる意味b. 文脈に依存した、つまり言語使用における意味

からなる。そこで、 b. を考慮するために事例を大量に集め

て事例ベース翻訳が考案された。翻訳事例

「太郎は小説を読んだ」 vs “Taro read a novel”には太郎＝人間、小説＝文字メディア、という文脈によって「読む」を規定する力あり。

しかし、それにしても個々の単語のコアな意味は予め与えないと動かない。

文脈情報を考慮した記号処理への動き

単語の意味単語の意味を要素に分解して表現する方法（ 80

年代）Kill = cause (someone (alive death))

何を基本要素におけば十分なのか？90 年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する。大規模コーパス（２０ヶ月分の NY タイムス）で、

capital の資本、首都の意味の曖昧さ解消などが９０％の精度でできた。

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている。

経験主義あるいはデータ主義文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBM の統計的機械翻訳（ 90 年代初頭）人間でも気がつかないような英仏の言い回しの翻

訳を純粋に機械的手法（統計的機械学習）で発見した。EM, ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 (教師データ）

これがなかなか簡単に入手できない

現実には、質の悪い翻訳対データでなんとかしないと対訳でない場合。同じ内容について、あるいは

同じトピックについての述べている２言語コーパス

基本語彙の辞書くらいはある計算機は早いし、記憶容量も大きいとは言え機械学習パラダイムもなんとなく出尽くし

た？？人間との共同作業？？

補遺： 2 言語コーパスからの対訳抽出

Parallel Corpus （平行、対訳コーパス）Aligned Corpus: 種々の研究あり。要はどのよう

にして 2 つの言語のコーパスにおける文、単語、複合語、句を対応付ける (align) するかに集中。

９０年代前半にきれいな 2 言語対訳コーパスを対象にした多数の研究があり。

９０年代後半に、 Noisy Parallel Corpus 　への展開が試みられた (Fung94,Fung98)

二言語コーパスからの対訳抽出-- Aligned corpus の場合 --

対訳コーパスからの対応文のペアを求める

Gale and Church 19932 言語の文書　 S,T から対応付け (Alignment)

A を求める。S と T の対応する文のペアを bead という。

例 B=( 言語　 language),

B=(les eaux mineral, mineral water)

Alignment=argmaxA P(A|S,T)= argmaxA P(A,S,T)

Bk は文書先頭から k番目の構造（名詞句などのようなもの）

)(),,(

K

k kBPTSAP1


例 B=( 言語　 language), B=(les eaux mineral, mineral water)

これらから分かるように、よい対応付けは、単語や collocation レベルでの 2 言語での対応付けから得られる構造 : Bk の確からしさ P(Bk) が大きいものを集めて作る。

具体的なアルゴリズムはＤＰによる

)(maxarg),,(maxarg

K

k kAA BPTSAPAlign1


このようにして、文内部の対応がうまく付く文同士が高い対応付け確率を持つとする。

文書同士で文同士が高い対応付けを持つペアを連ねるように選ぶと対応文ペアが求まる。文書を構成する各文同士の対応付けもまた、文の対応

付け確率を用いたＤＰによる。構造を作る単語同士の対訳の他に、文の長さが

類似しているほど、よく対応する文のペアと考える方法も加味できる。

Aligned corpus からの単語や collocation 対訳抽出の概要

対訳判定の尺度：　各言語の対訳文毎に対訳かどうか判定した

い表現 w1,w2 （＝各言語から抽出された表現）が出現する文としない文を数える。

w1,w2 が対訳文の出現する確率による。ただし、この確率＝０なら EM アルゴリズムで推定。 Kupiec93

w1,w2 の相互情報量　 Haruno93, Smadja96w1,w2 の Dice係数　 Smadja96ヒュ－リスティック

語の共起とその有意さの尺度あるテキストの単位（文、段落など）への W1 （言

語 A),w2 （言語 B) の contingency matrix 　（頻度） a+b+c+d=N

相互情報量

Dice係数

W2 出現 W2非出現W1 出現 a b

W1非出現 c d

))((log

)2()1(

)2,1(log)2,1(

caba

aN

wPwP

wwPwwMI

)()(

2)2,1(

caba

awwDice

Champollion ( Smdja et al 96)Translating collocations ： based on

sentence aligned bilingual corpus１つの言語において Xtract で　

collocation を抽出相手側の言語の対応文である統計的フィルタをパスするような分布で出現している collocation を対訳とする。

フィルタとしては、相互情報量、 Dice係数を比較した結果、

Champollion

Dice係数は、 X=0,Y=0(双方の言語の文に collocation の要素がない場合）に影響されないので、精度が高いので、これを使う。

大雑把には collocation （の要素たち）のDice係数が閾値以上のもののみを残す。

なお、極端に出現頻度の低い要素語は捨てる。

)Y(freq)X(freq

)Y,X(freq)Y,X(Dice

11

112

Champollion

Canadian Hansards (50MB order) 3000, 5000 collocations extracted by

Xtract中頻度の 300 collocations で評価Xtract の error rate = 11%Incorrect translations = 24%Correct translations = 65%Champollion’s precsion = 73%

基本的方法は、まず双方の言語で用語あるいは collocation を抽出し、次に何らかの方法で対応をつけようとする。

二言語コーパスからの対訳抽出-- non aligned corpus の場合 --

非平行な同一分野の 2 言語コーパスからの訳語抽出

• Non-parallel comparable corpora• Similarity of context is cue.

• 　　　　　　　　　　　　　　　　　 language A

• language B

• Calculation of contexts similarity is heavy

a b X c d

a’ b’ Y c’ d’

東京大学 情報基盤センター （情報理工学系研究科、 情報学府 兼担）...

Documents

東京大学　情報基盤センター（情報理工学系研究科、情報学府　兼担）...