アヒルヤキを変換してみよう
TRANSCRIPT
3
おーぷん万葉プロジェクトとは?
● 目的「自由な日本語入力環境を手に入れよう!」
● 現状の問題点:– ビックデータと叫ばれる時代に、開発がアクティブで
自由にコミットメントできる日本語入力システムがない?● 例: mozc, Anthy... (但し、SKKを除く!)
→ そんな現状を打破したい!てのが目的です。
4
そそ、東海道らぐも紹介しないとね
● 大阪、京都、名古屋、浜松…などを中心に活動する東海道らぐ(Tokaido Linux User Group)です!
http://tokaidolug.colorfultime.net● ほぼ小江戸らぐの丸ぱくり。● 参加団体(というより主な参加者):
– おーぷんここん– Ejectコマンドユーザ会(の名古屋支部?)
– Netwalker実験所
– Linux Mint Japan(の浜松の方)
5
東海道らぐに期待の新星現る!
● 名前: あひるさん ( @ahiru3net )● 職業: 名古屋の学生さん
● 主に、Ejectコマンドユーザ会に出没– あひるさんをいろんなイベント(勉強会)に誘う
「あひる釣り師」という職業があるらしい
そそ、あひるさんには有名なニックネームがありますねちょっとアイコンを拡大してみましょう!
注:本人使用許可承諾済み
7
ところで、「あひる焼き」って…
● どんな日本語なのでしょう???
● 品詞は???– 動詞 or 名詞 or 形容詞?
– そもそもこれって「単語」なの?
「アヒルヤキ」って日本語変換できますか?
8
今回のお題。
● 「アヒルヤキ」を形態素解析 or かな漢字変換します
● 形態素解析 or かな漢字変換する文:– 「アヒルヤキ」 期待値「あひる焼き」– 「アヒルヤキタイ」 期待値「あひる焼きたい」– 「アヒルヤキタベタイ」 期待値「あひる焼き食べたい」
● 今回使用するツール:– Juman、Mecab、FreeWnn、Canna
9
形態素解析器① JUMAN
● 京都大の黒橋・河原研究室で開発– http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN
● 最新バージョンは 7.0.1 (2014/12/22)– 古くからありますが、結構更新されてますね
● Web版が公開されてるので試してみましょう!– http://lotus.kuee.kyoto-u.ac.jp/nl-resource/cgi-bin/juman.cgi
10
結果: JUMAN
● あひるやき– あひる 普通名詞 代表表記:家鴨/あひる
– や 接続助詞– き 動詞 代表表記:着る/きる
● あひるやきたい「あひるやき」まで同上
– たい 接尾辞 代表表記:たい/たい
● あひるやきたべたい「あひるやき」まで同上
– たべ 動詞 代表表記:食べる/たべる
– たい 接尾辞 代表表記:たい/たい
注:出力は途中省略してます。
詳しくは自分で試してみてください!
12
形態素解析器② MeCab
● 現在最も使用されている形態素解析器http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
● 開発はGoogle日本語入力 & mozcの工藤拓氏
● GPL, LGPL, BSDライセンスのオープンソース● 「和布蕪(めかぶ)」は開発者の好物らしい。。。
● 辞書は国立国語研究所が開発しているUnidicを使用します。
13
結果: Mecab
● あひるやき– あひる 家鴨 名詞-普通名詞-一般– やき 焼き 接尾辞-名詞的-一般
● あひるやきたい– あひる 家鴨 名詞-普通名詞-一般– やき 焼く 動詞-一般 五段-カ行 連用形-一般
– たい たい 助動詞 終止形-一般
● あひるやきたべたい「あひるやき」まで「あひるやき」と同じ
– たべ 食べる 動詞-一般 下一段-バ行 連用形-一般
– たい たい 助動詞 終止形-一般
14
考察: MeCab
● さすがですね・・・(^^)● 「あひるやき」を、「あひる(名詞)」「やき(接尾辞)」に分割しています。– JUMANはこれができていませんでした…
– 接尾辞= 「〜さん」のような辞(単独で文節にならない)
● JUMANでは「たい」を接尾辞としていましたがMeCabでは「たい」を助動詞としています– 文法的にはどちらも正解ですが、統一できないものかしら?– Unidicには「形状詞」(=形容動詞?)という品詞も出てきて個人的には許せない(笑)
15
かな漢字変換① FreeWnn
● 京都大・オムロン等が開発したWnnのオープンソース版
http://www.freewnn.org/
OSC京都で話をするとめちゃくちゃ盛り上がります(笑)● 名称の由来は
「わたしの(W)なまえは(N)なかのです(N)」
● FreeWnnプロジェクトのサーバーがあるとかないとか…– いろいろあって放置してます…ごめんなさい(^^;;;;;
● 辞書は付属のPubdicPlusを使用します
16
結果: FreeWnn
● あひるやき:
アヒルや 気
● あひるやきたい:
アヒルや 気 対
● あひるやきたべたい:
アヒルや 気 食べたい
注)スペースは文節区切りで、意図的に追加しています
本来は追加されていません
17
考察: FreeWnn
● まぁこんなもんですよね・・・– フォローするようですが、Wnnの開発開始が1987年
– 辞書語彙数= 44330語● 「アヒルや」というように「名詞+接続助詞」で区切っている点は、JUMANと同じですね
● 「あひる」をそのまま「あひる」とせずに「アヒル」とカタカナ変換してしまったのはかな漢字変換システム的に興味深い点
18
かな漢字変換② Canna
● NECが開発していたものをオープンソース化
http://canna.sourceforge.jp/
MITライセンス
● 最近は開発がストップしてしまっています。。。– 最後のリリースが 2004/5/20
– 現在フォークして「Izumo」を開発中です。。。
https://github.com/hashimom/Izumo
● 辞書は付属のPubdicPlusを使用します
19
結果: Canna
● あひるやき
あ 昼 焼き
● あひるやきたい
あ 昼 焼きたい
● あひるやきたべたい
あ 昼や 気 食べたい
注)スペースは文節区切りで、意図的に追加しています
本来は追加されていません
20
考察: Canna
● なんだかビミョ〜だ– 開発開始= 1991年・・・FreeWnnの2年後ですね
● 実は、FreeWnnと同じPubdicPlusでも語彙数はCannaの方が若干少ない
– Canna= 42001語 (FreeWnn= 44330語)
– 「あひる」はCannaの方には含まれていない
● 「やき」はどうやって「焼き」と変換できたのか?– 辞書には見当たらない? 要調査!
21
まとめ
● 「あひる焼き」を「あひる」と「焼き」とに分けられるか?というのがポイントだった
● やっぱし語彙数– mecabで使用したUnidicは単純計算で756463語ある
– FreeWnnやCannaは語彙数を増やすとばけるかも?