social ime
TRANSCRIPT
未踏ソフト最終報告会
奥野 陽慶應義塾大学修士 1 年
http://www.social-ime.com/
Web 公開
目次
1. 背景・目的2. 成果報告3. 今後の予定
自己紹介奥野 陽(おくの よう)慶應義塾大学院修士 1 年ブログ: http://d.hatena.ne.jp/nokuno/
2002 ~ 2005 :サークルでゲーム制作
2006 :卒業研究で Web アプリを研究
2007 :未踏ソフトで IME 開発(←今ここ)
Web 2.0 時代の日本語入力とは?
背景
インターネット
シングルユー
ザ
マルチユー
ザ
PC サーバ
従来の IME Social IME
集合知変換のログ単語の辞書
収集
データが価値を生み出す日本語入力ならデータが分散しない
目的
アプリケーション
ワープロ
メール
ブラウザ
日本語入力
デバイス
データ
収集
応用サーバ上のデータを使った機能
予測入力
ライフログ
辞書共有
データ 専門用語流行語
省入力発想支援
備忘録娯楽性
を変換
目次
1. 背景・目的2. 成果報告3. 今後の予定
Social IME の構成
専用クライアントと変換サーバが通信
通信
クライアント サーバ
Windows
TSF
Linux
Anthy
Web サイト
ふれっく
自動投稿(公共モード)
クライアントサイド
見た目は普通の IME 切り替えて併用可能
変換 (Space キー ) の瞬間にサーバと通信TSF ( Text Services Framework )を使って実装
予測入力最初の数文字+ TAB キーで予測入力省入力や発想支援に利用
例
おね→お願いしますあぷり→アプリケーションにほ→日本語みと→未踏そふ→ソフトウェア
「て」 +TAB
辞書共有
例
未踏性(みとうせい)集合知(しゅうごうち)創発(そうはつ)
亀田 和毅(ともき)初音ミク(はつねみく)東方 永夜抄(えいやしょう)
変換できない単語を登録できるみんなで専門用語や流行語の辞書を共有
言語バー
入力切替 半角・全角
公共モー
ド
単語登録
CA
PS
切替(
後述
)
TSF ( Text Services Framework )
Windows 上でのテキスト入力のしくみアプリケーションと IME をつなぐ役割
Social IME MS IME
TSF Manager
音声入力
Application Application
変換プロトコル変換→伸縮→確定の3操作に通信が必要独自プロトコルを使用( HTTP 上に移行予定)
コネクション
変換 (Space)
伸縮 (Shift+←)
確定 (Enter)
サーバ
サーバサイド
inetd
social-ime
libanthy
TCP/IP
Client
nkf
Server
簡易サーバー
syslog
文字コード変換
Anthy の API
ログ
Linux のツールのお世話にAnthy の田畑氏と協力
ベンチマーク 結果
レスポンスタイム スループット
0.2秒/回 33回/秒
多人数の使用にはサーバ増設が必要
レスポンスタイム
意外と気にならない程度
(1台のサーバで処理できる回数)スループット
(変換にかかる時間)
ふれっく
公共モード
公共モード時、外部サイトに自動投稿
クリック
公共モード 私的モード
投稿ライフログ
Twitterからアクセス禁止アクセス禁止までの経緯
自動投稿期間: 11/17 ~ 11/1818 時間に約 800回の投稿
単語のみの投稿が多かったスパムに間違えられた?
原因
対策: 変換後の長さが 10 文字以上の場合のみ投稿
「ふれっく」とは?2006 年下期・高木さんのプロジェクトライフログを蓄積してタグクラウド表示
リンク
http://frec.hbbox.net/LimeServer/
他
対応サイト
デモ
創聖のアクエリオン灼眼のシャナ旋光の輪舞幽遊白書銀塊犬夜叉東方紅魔郷・妖々夢・永夜抄
目次
1. 背景・目的2. 成果報告3. 今後の予定
今回の評価
1. 通常の IME の動作の再現2. 単語登録・辞書共有3. Web 上のサービス4. 予測入力機能
公共モード
実現
実現
追加
計画していたこと 結果
方針転換:外部サイトに任せられる部分は任せる自分は IME としての機能に専念サーバサイドの開発者を募集中
現在の課題
12月中(冬コミまで)に解決したい課題無変換キーの実装デフォルト IME の設定公共モードの設定を保存全角ス ペースの入力SHIFT による伸縮を軽くする辞書をユーザ 別・カテゴリ別にわける
長期計画修士在籍中の 2 年間(以上)の計画
データの「入れ物」を作る
実際に入れるデータを増やす
目標: 集合知の実現
今回やったこと
来年やること
IME として使えるデータの共有
ユーザを 増やす外部データの入力Google コーパス?
Google コーパス
Web 全 体から 200億文日本語 N-gram形式( N:1 ~ 7 )DVD6枚組、 26GB
単語1 単語2 単語 3 頻度グーグル で 検索 1042グーグル で 調べる 854
3-gram の例
形式:
予測エンジンスケーラビリ
ティ
コーパス辞書データ
Social IME Version 2.0 (仮)大規模コーパスに基づく予測変換
オフライン対応カスタマイ ズ版
クライアント サーバ
検索Hatena::IMEニコニコ IMEmixi IME東方変換機
通信
カスタマイ ズ版
質疑応答
ご清聴ありがとうございました。引き続き質疑応答をお願いしま
す。
http://www.social-ime.com/