social ime

Post on 20-Jun-2015

2.355 Views

Category:

Technology

4 Downloads

Preview:

Click to see full reader

TRANSCRIPT

未踏ソフト最終報告会

奥野 陽慶應義塾大学修士 1 年

http://www.social-ime.com/

Web 公開

目次

1. 背景・目的2. 成果報告3. 今後の予定

自己紹介奥野 陽(おくの よう)慶應義塾大学院修士 1 年ブログ: http://d.hatena.ne.jp/nokuno/

2002 ~ 2005 :サークルでゲーム制作

2006 :卒業研究で Web アプリを研究

2007 :未踏ソフトで IME 開発(←今ここ)

Web 2.0 時代の日本語入力とは?

背景

インターネット

シングルユー

マルチユー

PC サーバ

従来の IME Social IME

集合知変換のログ単語の辞書

収集

データが価値を生み出す日本語入力ならデータが分散しない

目的

アプリケーション

ワープロ

メール

ブラウザ

日本語入力

デバイス

データ

収集

応用サーバ上のデータを使った機能

予測入力

ライフログ

辞書共有

データ 専門用語流行語

省入力発想支援

備忘録娯楽性

を変換

目次

1. 背景・目的2. 成果報告3. 今後の予定

Social IME の構成

専用クライアントと変換サーバが通信

通信

クライアント サーバ

Windows

TSF

Linux

Anthy

Web サイト

Twitter

ふれっく

自動投稿(公共モード)

クライアントサイド

見た目は普通の IME 切り替えて併用可能

変換 (Space キー ) の瞬間にサーバと通信TSF ( Text Services Framework )を使って実装

予測入力最初の数文字+ TAB キーで予測入力省入力や発想支援に利用

おね→お願いしますあぷり→アプリケーションにほ→日本語みと→未踏そふ→ソフトウェア

「て」 +TAB

辞書共有

未踏性(みとうせい)集合知(しゅうごうち)創発(そうはつ)

亀田 和毅(ともき)初音ミク(はつねみく)東方 永夜抄(えいやしょう)

変換できない単語を登録できるみんなで専門用語や流行語の辞書を共有

言語バー

入力切替 半角・全角

公共モー

単語登録

CA

PS

切替(

後述

TSF ( Text Services Framework )

Windows 上でのテキスト入力のしくみアプリケーションと IME をつなぐ役割

Social IME MS IME

TSF Manager

音声入力

Application Application

変換プロトコル変換→伸縮→確定の3操作に通信が必要独自プロトコルを使用( HTTP 上に移行予定)

コネクション

変換 (Space)

伸縮 (Shift+←)

確定 (Enter)

サーバ

サーバサイド

inetd

social-ime

libanthy

TCP/IP

Client

nkf

Server

簡易サーバー

syslog

文字コード変換

Anthy の API

ログ

Linux のツールのお世話にAnthy の田畑氏と協力

ベンチマーク 結果

レスポンスタイム スループット

0.2秒/回 33回/秒

多人数の使用にはサーバ増設が必要

レスポンスタイム

意外と気にならない程度

(1台のサーバで処理できる回数)スループット

(変換にかかる時間)

Twitter

ふれっく

公共モード

公共モード時、外部サイトに自動投稿

クリック

公共モード 私的モード

投稿ライフログ

Twitter に自動投稿

シンプルなライフログを 蓄積

http://twitter.com/socialime

Twitterからアクセス禁止アクセス禁止までの経緯

自動投稿期間: 11/17 ~ 11/1818 時間に約 800回の投稿

単語のみの投稿が多かったスパムに間違えられた?

原因

対策: 変換後の長さが 10 文字以上の場合のみ投稿

「ふれっく」とは?2006 年下期・高木さんのプロジェクトライフログを蓄積してタグクラウド表示

リンク

http://frec.hbbox.net/LimeServer/

対応サイト

デモ

創聖のアクエリオン灼眼のシャナ旋光の輪舞幽遊白書銀塊犬夜叉東方紅魔郷・妖々夢・永夜抄

目次

1. 背景・目的2. 成果報告3. 今後の予定

今回の評価

1. 通常の IME の動作の再現2. 単語登録・辞書共有3. Web 上のサービス4. 予測入力機能

公共モード

実現

実現

追加

計画していたこと 結果

方針転換:外部サイトに任せられる部分は任せる自分は IME としての機能に専念サーバサイドの開発者を募集中

現在の課題

12月中(冬コミまで)に解決したい課題無変換キーの実装デフォルト IME の設定公共モードの設定を保存全角ス ペースの入力SHIFT による伸縮を軽くする辞書をユーザ 別・カテゴリ別にわける

長期計画修士在籍中の 2 年間(以上)の計画

データの「入れ物」を作る

実際に入れるデータを増やす

目標: 集合知の実現

今回やったこと

来年やること

IME として使えるデータの共有

ユーザを 増やす外部データの入力Google コーパス?

Google コーパス

Web 全 体から 200億文日本語 N-gram形式( N:1 ~ 7 )DVD6枚組、 26GB

単語1 単語2 単語 3 頻度グーグル で 検索 1042グーグル で 調べる 854

3-gram の例

形式:

予測エンジンスケーラビリ

ティ

コーパス辞書データ

Social IME Version 2.0 (仮)大規模コーパスに基づく予測変換

オフライン対応カスタマイ ズ版

クライアント サーバ

検索Hatena::IMEニコニコ IMEmixi IME東方変換機

通信

カスタマイ ズ版

質疑応答

ご清聴ありがとうございました。引き続き質疑応答をお願いしま

す。

http://www.social-ime.com/

top related