おーぷん万葉プロジェクトの進捗とizumoのその後

18
おーぷん万葉プロジェクトの進捗 …と、Izumoのその後 2015/12/12 東海道らぐ@横浜(in JSP) はしもとまさ

Upload: masahiko-hashimoto

Post on 08-Jan-2017

2.125 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: おーぷん万葉プロジェクトの進捗とIzumoのその後

おーぷん万葉プロジェクトの進捗…と、Izumoのその後

2015/12/12 東海道らぐ@横浜(in JSP)はしもとまさ

Page 2: おーぷん万葉プロジェクトの進捗とIzumoのその後

自己紹介

● 東海道らぐ元名古屋案内人です– 現在は関東地方担当。

● ちびぎーこ保護者会(別名:日本openSUSEユーザ会)の人– 冬コミ原稿書きました! (12/31 東「メ」36b)

…ん? またうち売り子やるの???

● おーぷん万葉プロジェクトやってます!

Page 3: おーぷん万葉プロジェクトの進捗とIzumoのその後

おーぷん万葉とは(過去スライドの話)

● 目的「自由な日本語入力環境を手に入れよう!」– 現在: かな漢字変換ソフト「Izumo」を開発中。

● 現状の問題点:– ビックデータと叫ばれる時代に、開発がアクティブで

自由にコミットメントできる日本語入力システムがない???– インプットメソッド(UI側)も残念な状況orz

→ そんな現状を打破したい!てのが目的です。

この辺りが過去(ぇ

Page 4: おーぷん万葉プロジェクトの進捗とIzumoのその後

今年のおーぷん万葉の成果…

● 特になし(ぇ– 地道に実験ばかりに明け暮れた…– 一応OSCにはおーぷん万葉で出展

● メンバーが1人→3人(?)になった– 意外にも方向性はほぼ一緒だった(…と思う(^^)

Page 5: おーぷん万葉プロジェクトの進捗とIzumoのその後

来年は…①辞書構築に専念

● 目的「自由な日本語入力環境を手に入れよう!」

→ 「中立でオープンな日本語辞書を手に入れよう」

● 来年のおーぷん万葉では…– どんなアプリでも利用できるオープンな辞書を開発する– mecab依存の辞書から脱却

● おーぷん万葉の対象から外れる(or 優先度が落ちる)もの– 日本語入力のUI部 ←IBusとかあの辺り

M氏からツッコまれそう…^^;てことで後継プロジェクト募集中!!!

Page 6: おーぷん万葉プロジェクトの進捗とIzumoのその後

来年は…②Izumo開発停止!?

● これまで = かな漢字変換「Izumo」を開発

→ 「Izumo」ではなく別の名前で開発します

てか既にそれで動いてる…

理由:– Izumofsとか出てきてしまった!(ぎゃふん)

– そもそも既にCannaのフォークを止めている

※ 但し、従来のCannaフォーク版はIzumoの名前を継続します  開発停止中だけどね〜

Izumoって名称は元々Cannaフォーク版だった頃の名残で「Canna → 神無月 → Izumo」というものでした

Page 7: おーぷん万葉プロジェクトの進捗とIzumoのその後

新しいかな漢字変換「Genji」

● Izumo をやめて、 Genji を開発していきます

パッケージ構成:– Genji: 大元のソフト(全体)。下記ライブラリを含む

● Murasaki: かな漢字変換&形態素解析のライブラリ● Fujitsubo: 辞書管理のライブラリ● Aoi: 入出力部のライブラリ ←Glibを使用

Fujitsubo辺りは変動ありかも…

Page 8: おーぷん万葉プロジェクトの進捗とIzumoのその後

ここから先は Izumo→Genji の進捗

で、結局 Genji はどうなるの!?編

Page 9: おーぷん万葉プロジェクトの進捗とIzumoのその後

従来のかな漢字変換の実装は?

● 過去: N文節最長一致法 ← Canna 等● 現在: コスト最小法 ← mecab / Mozc 等

現在の主流は、ビタビアルゴリズム(コスト最小法)どの解説本にも載っているし、むしろそれしか載ってない

Page 10: おーぷん万葉プロジェクトの進捗とIzumoのその後

解説① N文節最長一致法

● 例文: 「きょうはあひるやきです」

今日 歯 あ 昼 焼きで 酢

今日は あ 昼 焼きです

今日は 家鴨 焼きです

今日は あひる焼きです

6文節

4文節

3文節

2文節一番少ないのでこれを選択!

ポイント:文節 = 自立語(名詞・動詞等) + 付属語(助詞等)

Page 11: おーぷん万葉プロジェクトの進捗とIzumoのその後

解説② コスト最小法

文頭

の 名前は

中野

注:ちょっと(かなり?)端折って説明します^^;

です

文末ので す

綿 市 花 課

例: 「わたしのなまえはなかのです」を変換する場合 (コストの値はテキトーです^^;)

10

30 15

30 1510

15 40

20

50

● 単語生起コスト: 単語の出現優先度を表したコスト● 連接コスト: 単語と単語の結びつきやすさを表したコスト

→ 全て足して、合計値が最も低いルートが候補になります

15

30 4045

20

2020

20

50

20

25

3040

45

2020

出現頻度の高い単語は単語生起コストが低い

「名前」と「花」という単語は結びつきにくいので連接コストは高い

Page 12: おーぷん万葉プロジェクトの進捗とIzumoのその後

がしかし、コスト最小法って…

● 結局のところ、単語と単語のつながりしか判定できてない

● 文脈解釈とか意義解釈とか全然やってないので当たり前といえば当たり前かも

元々mecab(=形態素解析器)で用いてた手法→ それって本当にかな漢字変換には向いてるの?

Page 13: おーぷん万葉プロジェクトの進捗とIzumoのその後

というわけでこんな例文

手元に Mozc がある場合は

「にわにはにわにわとりがいる」

を変換してみよう!(一発で変換できるか?)

Page 14: おーぷん万葉プロジェクトの進捗とIzumoのその後

…何度も話しているので^^;

Mozc だと

「庭には庭鶏がいる」

と変換されます

こけこっこ〜

Page 15: おーぷん万葉プロジェクトの進捗とIzumoのその後

でもこれ、そもそものお話として…

コスト最小法では変換できないのでは?

庭 庭 鶏には が いる

庭 二 鶏には が いる羽

正解の変換のほうが単語数が多いため単語生起コストがどうしても高くなる

N文節最長一致法の場合は、恐らく実装による「二羽」で1文節だが、そもそもそんな単語が辞書にあるか…

Page 16: おーぷん万葉プロジェクトの進捗とIzumoのその後

仮説。

コスト最小法は形態素解析には向いていてもかな漢字変換には不向きである…?

Page 17: おーぷん万葉プロジェクトの進捗とIzumoのその後

というわけで「Genji」に課せられた課題

「にわにはにわにわとりがいる」を変換できること

対策案: (まだ実験中…)– 係り受けを利用する– 文節単位でコストを計算する

※ただし、なるべく計算に縛られたくない

コスト最小法に変わる新しい実装が必要…かも

Page 18: おーぷん万葉プロジェクトの進捗とIzumoのその後

ご清聴、ありがとうございましたm(_ _)m