social ime

29
未未未未未未未未未未 未未 未 未未未未未未未未 1 未 http ://www.social-ime.com /

Upload: yoh-okuno

Post on 20-Jun-2015

2.352 views

Category:

Technology


4 download

TRANSCRIPT

Page 1: Social IME

未踏ソフト最終報告会

奥野 陽慶應義塾大学修士 1 年

http://www.social-ime.com/

Page 2: Social IME

Web 公開

Page 3: Social IME

目次

1. 背景・目的2. 成果報告3. 今後の予定

Page 4: Social IME

自己紹介奥野 陽(おくの よう)慶應義塾大学院修士 1 年ブログ: http://d.hatena.ne.jp/nokuno/

2002 ~ 2005 :サークルでゲーム制作

2006 :卒業研究で Web アプリを研究

2007 :未踏ソフトで IME 開発(←今ここ)

Page 5: Social IME

Web 2.0 時代の日本語入力とは?

背景

インターネット

シングルユー

マルチユー

PC サーバ

従来の IME Social IME

集合知変換のログ単語の辞書

収集

Page 6: Social IME

データが価値を生み出す日本語入力ならデータが分散しない

目的

アプリケーション

ワープロ

メール

ブラウザ

日本語入力

デバイス

データ

収集

Page 7: Social IME

応用サーバ上のデータを使った機能

予測入力

ライフログ

辞書共有

データ 専門用語流行語

省入力発想支援

備忘録娯楽性

を変換

Page 8: Social IME

目次

1. 背景・目的2. 成果報告3. 今後の予定

Page 9: Social IME

Social IME の構成

専用クライアントと変換サーバが通信

通信

クライアント サーバ

Windows

TSF

Linux

Anthy

Web サイト

Twitter

ふれっく

自動投稿(公共モード)

Page 10: Social IME

クライアントサイド

見た目は普通の IME 切り替えて併用可能

変換 (Space キー ) の瞬間にサーバと通信TSF ( Text Services Framework )を使って実装

Page 11: Social IME

予測入力最初の数文字+ TAB キーで予測入力省入力や発想支援に利用

おね→お願いしますあぷり→アプリケーションにほ→日本語みと→未踏そふ→ソフトウェア

「て」 +TAB

Page 12: Social IME

辞書共有

未踏性(みとうせい)集合知(しゅうごうち)創発(そうはつ)

亀田 和毅(ともき)初音ミク(はつねみく)東方 永夜抄(えいやしょう)

変換できない単語を登録できるみんなで専門用語や流行語の辞書を共有

Page 13: Social IME

言語バー

入力切替 半角・全角

公共モー

単語登録

CA

PS

切替(

後述

Page 14: Social IME

TSF ( Text Services Framework )

Windows 上でのテキスト入力のしくみアプリケーションと IME をつなぐ役割

Social IME MS IME

TSF Manager

音声入力

Application Application

Page 15: Social IME

変換プロトコル変換→伸縮→確定の3操作に通信が必要独自プロトコルを使用( HTTP 上に移行予定)

コネクション

変換 (Space)

伸縮 (Shift+←)

確定 (Enter)

サーバ

Page 16: Social IME

サーバサイド

inetd

social-ime

libanthy

TCP/IP

Client

nkf

Server

簡易サーバー

syslog

文字コード変換

Anthy の API

ログ

Linux のツールのお世話にAnthy の田畑氏と協力

Page 17: Social IME

ベンチマーク 結果

レスポンスタイム スループット

0.2秒/回 33回/秒

多人数の使用にはサーバ増設が必要

レスポンスタイム

意外と気にならない程度

(1台のサーバで処理できる回数)スループット

(変換にかかる時間)

Page 18: Social IME

Twitter

ふれっく

公共モード

公共モード時、外部サイトに自動投稿

クリック

公共モード 私的モード

投稿ライフログ

Page 19: Social IME

Twitter に自動投稿

シンプルなライフログを 蓄積

http://twitter.com/socialime

Page 20: Social IME

Twitterからアクセス禁止アクセス禁止までの経緯

自動投稿期間: 11/17 ~ 11/1818 時間に約 800回の投稿

単語のみの投稿が多かったスパムに間違えられた?

原因

対策: 変換後の長さが 10 文字以上の場合のみ投稿

Page 21: Social IME

「ふれっく」とは?2006 年下期・高木さんのプロジェクトライフログを蓄積してタグクラウド表示

リンク

http://frec.hbbox.net/LimeServer/

対応サイト

Page 22: Social IME

デモ

創聖のアクエリオン灼眼のシャナ旋光の輪舞幽遊白書銀塊犬夜叉東方紅魔郷・妖々夢・永夜抄

Page 23: Social IME

目次

1. 背景・目的2. 成果報告3. 今後の予定

Page 24: Social IME

今回の評価

1. 通常の IME の動作の再現2. 単語登録・辞書共有3. Web 上のサービス4. 予測入力機能

公共モード

実現

実現

追加

計画していたこと 結果

方針転換:外部サイトに任せられる部分は任せる自分は IME としての機能に専念サーバサイドの開発者を募集中

Page 25: Social IME

現在の課題

12月中(冬コミまで)に解決したい課題無変換キーの実装デフォルト IME の設定公共モードの設定を保存全角ス ペースの入力SHIFT による伸縮を軽くする辞書をユーザ 別・カテゴリ別にわける

Page 26: Social IME

長期計画修士在籍中の 2 年間(以上)の計画

データの「入れ物」を作る

実際に入れるデータを増やす

目標: 集合知の実現

今回やったこと

来年やること

IME として使えるデータの共有

ユーザを 増やす外部データの入力Google コーパス?

Page 27: Social IME

Google コーパス

Web 全 体から 200億文日本語 N-gram形式( N:1 ~ 7 )DVD6枚組、 26GB

単語1 単語2 単語 3 頻度グーグル で 検索 1042グーグル で 調べる 854

3-gram の例

形式:

Page 28: Social IME

予測エンジンスケーラビリ

ティ

コーパス辞書データ

Social IME Version 2.0 (仮)大規模コーパスに基づく予測変換

オフライン対応カスタマイ ズ版

クライアント サーバ

検索Hatena::IMEニコニコ IMEmixi IME東方変換機

通信

カスタマイ ズ版

Page 29: Social IME

質疑応答

ご清聴ありがとうございました。引き続き質疑応答をお願いしま

す。

http://www.social-ime.com/