amebaにおける絵文字

28
Ameba 研研研研研研研 研研研研研 研研研研研 研研研研 1

Upload: moai-kids

Post on 21-Nov-2014

70.847 views

Category:

Technology


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Amebaにおける絵文字

研究課題:Amebaにおける絵文字

新規開発局 プログラマ 大平哲也

1

Page 2: Amebaにおける絵文字

1 はじめにAmeba の各種サービス上で、絵文字がどのように扱われているか調査を行った。動機としては以下2点である。・ データの蓄積

携帯電話コンテンツのオープン化が進み、いわゆる CGM サイトと呼ばれるブログや SNS 系のサービスも多くが携帯電話に間口を開いている。Ameba についても例外でなく、「アメーバブログ1」や「Ameba なう2」などを筆頭に、携帯から閲覧投稿できるのみでなく、携帯絵文字データを含んだメッセージをサービス上で使用可能になっている。その結果として、絵文字についてもデータ解析に必要十分なデータが蓄積され、解析するための環境が整った。

メッセージ性の強いコミュニケーション目的の自然文の中でどのように絵文字が使用されているか、については、かつてはキャリア網を流れるメールメッセージデータを用いてのみ分析が可能であったが、CGM サービスの興隆によりキャリア外のユーザでも把握できるようになった。

・ 絵文字利用状況の把握への欲求 上述の蓄積されたデータを元に絵文字の利用状況を解析することで、CGM サイ

トの中での絵文字の使用傾向や、どんな意図・文脈で使われているかの把握ができる。

同種の解析結果については、「WebDB Forum20093」にて百度(バイドゥ)の基調講演にて携帯サイト全般における絵文字の使用傾向が示された4が、CGM サイトを対象としたものは少なくとも Web 上での文献では存在しないため、当該調査を行うことで社内外へのなにかしらの貢献にもつながるのではないか、と判断した。

2 本論の流れ本論では、以下の2段階の流れで調査した内容を記す

Ameba サービスにおける絵文字の扱われ方 Ameba サービス内での絵文字の使用傾向

まず始めに、Ameba サービスの機能仕様として、絵文字がどのように扱われているかを調査した。具体的には、携帯絵文字と PC 固有の絵文字(Ameba 絵文字)の相互変換の仕様やマッピングテーブルについて、である。あわせて最近の潮流も加味した上で、問題点の指摘やサービス改善に向けての提案を行う。

次に、Ameba サービスに対して投稿された絵文字データを元に、絵文字の使用傾向の解析を行った。今回は「絵文字の使用頻度」と「絵文字の文意解析(ある絵文字がどんな文脈で使われているか)」、「絵文字の使用者属性(どんな属性・・・性別、年齢・・・のユーザが使用しているか)」について調査を実施した。その結果と、そこから見える傾向や分析結果について記す。

3 Ameba サービスにおける絵文字の扱われ方

1 アメーバブログ.ブログサービス http://ameblo.jp/2 Ameba なう.マイクロブログサービス http://now.ameba.jp/3 http://db-event.jpn.org/webdbf2009/4 http://internet.watch.impress.co.jp/docs/event/webdb2009/20091120_330426.html

2

Page 3: Amebaにおける絵文字

3.1 Ameba サービスにおける絵文字の種類Ameba には「Ameba 絵文字」と「みんなの絵文字」の2種類が存在する。・ Ameba 絵文字

Ameba サービスが用意している絵文字。一部絵文字については、サービスによっては PC-携帯間の相互変換を実施している(相互変換については後述する)

・ みんなの絵文字1

ユーザがドット絵によって絵文字を作成する事ができる機能。作成した絵文字は他ユーザが利用してブログ記事などを書いたりすることができる。

それぞれ PC インターフェースでの使用を想定しており、絵文字の実体は画像ファイルである。(Ameba 絵文字:PNG、みんなの絵文字:GIF)

3.2 各サービスにおける絵文字の使用可否Ameba サービスで絵文字が使用できるサービスは以下4つとなる。2

それぞれの対応を表としてまとめる。サービス名 Ameba 絵文字貼付 相互変換 みんなの絵文字貼付

アメーバブログ ○ △ ○

Ameba なう ○ ○ ×

アメばた会議3 ○ ○ ×

Ameba メッセージ4 ○ × ×

・ Ameba 絵文字貼付 Ameba 絵文字が貼付け可能かどうか

・ 相互変換 Ameba 絵文字について、PC 用の画像絵文字と、携帯のキャリア絵文字との相

互変換が行われるかどうか・ みんなの絵文字貼付

「みんなの絵文字」が貼付け可能かどうか※「アメーバブログ」については、携帯から投稿したキャリア絵文字は PC 閲覧時にAmeba 絵文字に変換されるが、逆のケース(PC→携帯)は通常操作では変換されない

3.3 Ameba 絵文字と携帯絵文字の相互変換一部の Ameba 絵文字については、携帯キャリア絵文字との相互変換を実施している。相互変換とは以下のような状況を指す。

・ PC から投稿した Ameba 絵文字(画像)を含むコンテンツが、携帯電話から閲覧した際に携帯キャリア絵文字で表示される

・ 携帯電話から投稿したキャリア絵文字を含むコンテンツが、PC から閲覧した際にAmeba 絵文字(画像)で表示される。

Ameba 絵文字⇔携帯絵文字のマッピングテーブルは、DoCoMo の絵文字変換機能5における各サービスとの変換テーブルをベースとして作成されている。

1 http://helps.ameba.jp/faq/blog/article/post_98.html2 2010 年 2月現在3 http://amebabbs.ameba.jp/4 http://msg.ameba.jp/5 http://www.nttdocomo.co.jp/service/communication/imode_mail/function/emoji_convert/

index.html

3

Page 4: Amebaにおける絵文字

図 1 1

たとえば図1を参考にすると、DoCoMo では「晴れ 」絵文字を au、SoftBank宛に送信した場合、それぞれ「 」「 」といった意匠の似た絵文字に変換される。

Ameba 絵文字についても、DoCoMo の絵文字と意匠の似た絵文字同士1対1で対応するように絵文字をマッピングしており、「晴れ」の場合は「 」が対応している。「 」が PC から投稿された場合は、携帯上ではキャリアにより「 」「 」「 」に変換表示され、携帯電話から同種の絵文字が投稿された場合は、PC 上では「 」に変換表示される、ということである。

な お 、 Ameba サ ー ビ ス で 絵 文 字 変 換 対 応を し て い る 携 帯 キ ャ リ ア はDoCoMo、au、SoftBank(iPhone除く)の三種である。

すべての変換ルールについては、筆者作成の「アメーバ絵文字ツール2」(図2)により閲覧、検索が可能となっているので、参考まで。

1 http://www.nttdocomo.co.jp/service/communication/imode_mail/function/emoji_convert/index.html より図引用

2 http://nd-ilab.jp/emoji

4

Page 5: Amebaにおける絵文字

図 2

3.4 現在の Ameba 絵文字⇔携帯絵文字変換の問題点調査を進めるうちにいくつかの問題点に気づいたので、以下列挙して指摘する。

3.4.1 意匠・デザインのズレ一部絵文字については、Ameba 絵文字と携帯キャリア絵文字のデザインや意味するものに大きな差・ズレが生じている。たとえば DoCoMo における iモードアイコン「 」は、Ameba 絵文字に変換されると「

」のようにムンクの叫びのような絵文字に変換される。逆のケースで考えると、PC から「 」という文脈・意図で投稿したユーザの思惑と離れて、携帯表示時にキャリアのサービスアイコン「 」が表示されてしまう、ということであり、問題がある。

同種の問題を抱えていると思われる絵文字について、以下図3に列挙する。な お 絵 文 字 の並び順は 、左か ら順に 「 Ameba 絵 文 字 」 「 DoCoMo 」 「 au 」「SoftBank」となり、空白の箇所は該当する絵文字が存在しないものとなる。

図 3

なお、この種の問題は Ameba 固有の問題ではなく、絵文字の相互変換を行う際に生じる問題でもある。たとえば DoCoMo は「地下鉄」の意匠を「 」としている(おそらくMetro の”M”の意)が、他キャリアでは鉄道の意匠となっている(図4)。

5

Page 6: Amebaにおける絵文字

図 4

DoCoMo の絵文字は見た目が「M」のため、「今日も で昼」のように「マクドナルド」の意として使われるケースもあるとされる1が、他キャリア向けに同文章を変換すると各キャリアとも地下鉄の意匠に変換表示されるため、意図が正確に伝わらなくなってしまう(「今日も で昼」という意図では無いため)。

3.4.2 フォールバック変換によるズレすべての絵文字が1対1で変換対応をしている訳ではなく、いくつかの絵文字が1つの絵文字にマッピングされているケースが存在する。この現象は一般的にフォールバック(fallback、一方通行)変換と呼ばれるが、該当すると変換された後に元の絵文字に復元することができなくなるため、問題が生じるケースがある。

たとえば、DoCoMo における「 」「 」は au ではいずれも「 」にマッピングされており、au から投稿した「 」が「 」「 」どちらにマッピングされるかは、サービス次第となる2。

3.4.3 相互変換絵文字にマッピングされていない絵文字の扱いDoCoMo は基本・拡張あわせて 252 の絵文字が存在し(隠し絵文字は除く)、Amebaに つ い て も DoCoMo の 絵 文 字 に合わ せ て 変 換 テ ー ブ ル を作成し て い る が 、au、SoftBank ともに 252 種以上の絵文字が用意されているため au・SoftBank 固有の絵文字を無視していることになる。

Ameba では、多くのサービスで変換テーブルに対応しない絵文字については、投稿時に削除する、という対応を行っており、au や SoftBank でのみ扱える絵文字が投稿できない。たとえば au のモヤイ像「 」のような絵文字は、投稿時に削除される。

3.4.4 イーモバイルや iPhone 絵文字への未対応現在のところ、イーモバイル3、iPhone 絵文字4それぞれについては未対応である。

なお余談ではあるが、「アメーバブログ」向けの iPhone アプリ5が存在し、iPhone からAmeba 絵文字が投稿可能な設計になっているが、 iPhone から投稿した Ameba 絵文字付き記事を DoCoMo、au、SoftBank のいずれの携帯で閲覧した場合でも、キャリア絵文字に変換されずに画像のまま表示される。6

3.5 改善の提案上記を踏まえて、いくつか改善の提案をする。・ Ameba 絵文字⇔3キャリア携帯間の絵文字の意匠を揃える。

具体的には「 」のようなものを適切なものに修正する、という事を指す。・ 相互変換テーブルに対応していない絵文字が携帯から投稿された場合も、その携帯か

1 http://internet.watch.impress.co.jp/docs/event/webdb2009/20091120_330426.html2 http://japan.cnet.com/column/pers/media/story/0,2000058034,20390204-4,00.htm な ど を参考のこと

3 http://emobile.jp/service/pdf/mail_change_200805.pdf4 http://www.studio-rose.com/emoji/emoji01.html に絵文字一覧が掲載されている5 http://content.ameba.jp/iphone_blog/6 2010年 2月現在

6

Page 7: Amebaにおける絵文字

ら閲覧した場合に絵文字として表示されるように機能修正をする。具体的には「 」が au から投稿された場合、少なくとも au の端末からは「 」と見えるようにする、という事を指す。

・ 少なくとも iPhone 絵文字については相互変換対応を行う・ iPhone アプリの機能修正(投稿した Ameba 絵文字がキャリア絵文字に変換される

ようにする)

4 Ameba サービス内での絵文字の使用傾向続いて、Ameba サービスの中で扱われている絵文字の使用傾向について調査した。今回は主に以下の観点に基づいて調査を行った。・ 絵文字の使用頻度・ 絵文字の文意解析・ 絵文字の使用者属性

今回は以下の2つのサービスについて、ある期間の投稿記事中に使われている絵文字の傾向解析を実施した。・ Ameba なう・ アメーバブログ

4.1 絵文字の使用頻度4.1.1 Ameba なう

○ 使用データ以下の期間のデータについて、つぶやき中の絵文字出現頻度を調査した。期間 2009 年 12月 10日~2010 年1月13日データ件数 約 540万件(PC から:170万/携帯から:370万)

○ 出現頻度 ベスト20(PC・携帯総計)出現頻度の高い絵文字ベスト20は以下のような結果となった。なお下記は PC・携帯から投稿されたものの総数となる。

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

11.

12.

7

Page 8: Amebaにおける絵文字

13.

14.

15.

16.

17.

18.

19.

20.

結果から類推できる傾向としては・ 感情表現系の絵文字が多い(顔文字系など)・ 文意文脈を補うアノテーション用途で使われているケースが多い(ビックリマーク、汗、音符、矢印など)。文章に絵文字を加味することで、文脈を適切に補っていると推察される。

といった事が挙げられる。

なお、今回の解析結果では、感情表現とは異なる文脈の絵文字の登場は 29位の晴れ「」が最初である。アイテムや生き物系の絵文字としては 44位のネコ「 」が初出であった。

「WebDB Forum2009」にて百度が発表した内容1によると、携帯サイト全般でもっと多く使われている絵文字は「 」であり、それ以外も「 」「 」など、サイトのナビゲーションを示すアイコンとして多く使われる絵文字が頻度上位となっているが、明らかに今回の結果は、携帯サイト全般の傾向とは異なることが伺える。簡単にまとめると、以下のようになる。

携帯サイト全般 CGM サイト(Ameba なう)・ サイトナビゲーションのアイコンとし

て使われているケースが多い・ 記号、数字、アイテム系の絵文字が多

・ 感情表現や、アノテーション系の絵文字が多い

・ 顔や手など身体表現系のものが多い

○ 出現頻度 グラフ(PC・携帯総計)絵文字の出現頻度を円グラフでまとめたものを以下に記す。

1 http://internet.watch.impress.co.jp/docs/event/webdb2009/20091120_330426.html の 「 絵文字頻度ランキング」

8

Page 9: Amebaにおける絵文字

表 1

※凡例の数字は、Ameba 絵文字の絵文字 ID となる。ex.031→

出現頻度上位 10位までの絵文字で全体の 41%、20位のものまでで全体の 62%を占める。なお、出現頻度上位 50位までに登場する絵文字のうち、感情表現系の絵文字が占める割合は、絵文字の種類としては 45/50 = 90%(感情表現系以外のものは「 」「 」「」「 」「 」のみ)となり、出現数の比率としては全体の 84%を占める。

○ 出現頻度ベスト10(携帯からのみ投稿)上述の結果は PC・携帯を合わせたものであるが、PC からのみ投稿されたもの、携帯からのみ投稿されたものについても出現頻度上位ベスト 10 を以下提示する。結論としては、大きな傾向の差は見られない。

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

○ 出現頻度ベスト10(PC からのみ投稿)

1.

9

Page 10: Amebaにおける絵文字

2.

3.

4.

5.

6.

7.

8.

9.

10.

4.1.2 アメーバブログ(Ameba 絵文字)「アメーバブログ」についても同種の調査を行った。

○ 使用データ以下の期間のデータについて、記事中の絵文字出現頻度を調査した。期間 2010 年1月 16日~2010 年 2月1 4日データ件数 約 1500万件

○ 出現頻度 ベスト20(PC・携帯総計)出現頻度の高い絵文字ベスト20は以下のような結果となった。なお下記は PC・携帯から投稿されたものの総数となる。

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

11.

12.

13.

14.

10

Page 11: Amebaにおける絵文字

15.

16.

17.

18.

19.

20.

細かい順序が異なるものの、概ね「Ameba なう」と同じように感情表現・アノテーション系の絵文字が多い、という傾向が見て取れる。

マイクロブログとブログサービスで、ユーザの使用するコンテキスト・ユースケースに若干の差があると思われるものの、「何かしらのメッセージ性をもった文章を投稿する」という意味では共通していることも傾向の類似性の要因と思われる。

○ 出現頻度 グラフ(PC・携帯総計)絵文字の出現頻度を円グラフでまとめたものを以下に記す。出現頻度上位 10位までの絵文字で全体の 43%、20位のものまでで全体の 62%を占め、上位絵文字の出現比率については「Ameba なう」の解析結果と大体同じ傾向となっている。

表 2

4.1.3 アメーバブログ(みんなの絵文字)「アメーバブログ」では「みんなの絵文字」も使用可能なため、こちらについても調査を行った。

○ 使用データ以下の期間のデータについて、記事中の絵文字出現頻度を調査した。期間 2010 年1月 16日~2010 年 2月1 4日データ件数 約 1500万件

11

Page 12: Amebaにおける絵文字

○ 出現頻度 ベスト20出現頻度の高い絵文字ベスト20は以下のような結果となった。「みんなの絵文字」は PC 向けのサービスなので、以下の結果は PC から投稿されたもののみの順位となる。

1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.ユーザ作成の絵文字ということで、Ameba 絵文字や、携帯絵文字とは意匠は大きく異なるものもあるが、星が煌めくようなもの(「 」「 」「 」)やハート(「 」「」)、顔文字(「 」「 」「 」「 」「 」)など、Ameba 絵文字の上位の結果と同様に感情表現やアノテーションの意図・目的で使用されている絵文字が多いと類推される。

○ 出現頻度 グラフ絵文字の出現頻度を円グラフでまとめたものを以下に記す。

12

Page 13: Amebaにおける絵文字

表 3

出現頻度上位 10位までの絵文字で全体の 6%、20位のものまでで全体の 9%、100位までで 19%、という傾向で、出現頻度 100位以下の絵文字のボリュームが 81%と非常に大きくなっている。Ameba 絵文字が約 340 種であるのに対し、「みんなの絵文字」の累計絵文字作成数は約180万個ということもあり、「みんなの絵文字」の使用傾向は CGM サービスらしく非常にロングテールな傾向を示している事が伺える。

4.1.4 ここまでのまとめ・ 「Ameba なう」、ならびに「アメーバブログ」の投稿記事を用いて、絵文字の使用

頻度を調査した・ 出現頻度上位の絵文字は、感情表現系、アノテーション系の絵文字が多く、記号系の

絵文字は少ない。・ Ameba 絵文字については、使用頻度の上位 10 絵文字で全体の4割を占め、上位 20

絵文字で全体の6割を占める。・ 「みんなの絵文字」では使用頻度上位 20 絵文字で全体の 9%、上位 100 絵文字でも僅か 19%となっており、ロングテールな傾向を示している。

4.2 絵文字の文意解析ある絵文字が、どのような文脈で多く使われているか、調査した。調査の手法として、「Ameba なう」などの記事中において、どんな語と連続して語られているかを抽出することで、文脈を類推する。具体的な手法としては「コロケーション文字の抽出」というアプローチを用いた。

コロケーションとは以下の様に定義されるある単語と単語の”よく使われる組み合わせ、自然な語のつながり”のこと。1

今回は、絵文字の直前に出現する文字列のうち、頻出するパターンの抽出を実施した。直前の語のみを抽出した理由としては、ヒューリスティックな理由であるがたとえば「

1 http://park1.wakwak.com/~english/note/note-collocation.html より引用

13

Page 14: Amebaにおける絵文字

」と「おはよう」という挨拶語を一緒に用いる際、「 おはよう」よりも「おはよう」といった使われ方がされる事が多いためとなる。

なお、絵文字には「単語」「添加」「感情表現」「装飾」の4種の用いられ方があるとされる1が、当該手法では結果として「添加」としての絵文字を対象とし、その絵文字のコロケーション文字を抽出する、という形になる。

コロケーション文字の抽出手段としては、「n-gram Prefix Span2」と呼ばれる、頻出パターンマイニングの手法「Prefix Span3」を n-gramモデルの言語モデルに展開した手法を採用した。

4.2.1 Ameba なう○ 使用データ以下の期間のデータを用いて、ある特定の絵文字の直前に出現するコロケーション文字を調査した。「使用頻度」の解析を行ったものと同じデータである。期間 2009 年 12月 10日~2010 年1月13日データ件数 約 540万件(PC から:170万/携帯から:370万)

○ ある絵文字と一緒に語られるコロケーション文字出現頻度が多かった絵文字を中心に、解析結果を紹介する。

・絵文字直前に出現する文字のうち頻度の高いものベスト20は以下のような結果となった。うんうん おはようぃっしゅ〜こちらこそ やったー おはよん みんなDAIGO~ ・°・いえいえ わかったそっか サンキューただいま〜 こちらこそありがとうあら ただいまぁおはなう はじめましてお帰りなさい b

ノイズ的な語(たとえば「b」は「(o^-')b」のような顔文字の断片である)も一部存在するが、今回は特に手作業で除去はせず、生データをそのまま提示する。

ノイズがあるとはいえ、大まかな傾向が掴める結果と思われる。たとえばハート については、以下のような傾向が言える。

対人的なあいさつや、受け答えと一緒に使われることが多い(うんうん、こちらこそ等)

ポジティブな語と一緒に使われている(やったー、サンキュー等)

1 [山本+ 2010] 絵文字を考慮したテキスト解析の研究2 http://chasen.org/~taku/publications/nlp2002.pdf 3 http://ibisforest.org/index.php?PrefixSpan などを参考のこと

14

Page 15: Amebaにおける絵文字

あらら やべっありゃ やべうわっ おはようございますそっかぁ そうそういえいえ 寝すぎたm はぁ~ありゃりゃ うーんあれ 寒いーやばっ きゃーっ確かに ふぅ先程のハート は明らかに異なる傾向が見られる。まとめると、以下のような事が言えるかと思われる。

感嘆詞とともに使われることが多い(あらら、ありゃ、うわっ、等) 若干ネガティブなイメージの語と一緒に使われている(やばっ、寒いー、等)

・b なるほどただいま σゲッツ~ いえいえ YEAR

お疲れさま~ おぉ~ただいま~ お仕事お疲れ様ですおかえりなさい うんうん今日 1日頑張って行きましょう あけおめことよろおかえり ただいまぁおはよん 今日はゆきくん はーいキラキラ は概ねハート と同じような傾向が見られる。

対人的なあいさつや、受け答えと一緒に使われることが多い(ただいま、いえいえ、等)

・おはよー お疲れさまです確かに あけおめーおぉ~ 初なうあけましておめでとう おはようございます今日は天気良いから頑

張りましょうなんと 了解すごーい やったーこんばんは サイコーお疲れさまでした いいなぁよっしゃ ただいま同じく すごっビックリマーク の意匠に沿う形で、物事を強調したり、驚いている様が感じられる

ポジティブな感嘆詞と一緒に使われることが多い(おぉ~、すごーい、等)

15

Page 16: Amebaにおける絵文字

・天気を示す絵文字は、朝のあいさつ(おはよう等)と一緒に語られることが多い。まず「晴れ」について結果を提示する。ノ 皆さんおはようございますおはようさん おはなぅおはようございま~す 山ちゃんおはようございます/ あけおめです明けましておめでとう おはようございまーすおはです おっは~おはよ~ございます おはよございますおはょー おはよーですおはぁ おはようございます今日は天気ぉはょ~ 今

朝のあいさつと一緒に使われることが多い(おはようさん、おはです、等)

・続いて「雪」についての結果である。おはようございます 今おはよー おはよーございますおはよ そっちはおはよ~ 明日雪雪だー オハョ今日も寒いね 今日は寒いね外は おはす雪降ってる~ 雪積もってる雪ですか 寒くてメリークリスマス 初雪 についても晴れ と同様に、朝のあいさつと共に使われるケースが多い。文脈として、「朝のあいさつ」+「今日の天気」を同時に相手に伝える、という行為を効率的に行うためにこのような表記を多くのユーザが好んで行っている、と考えられる。

朝のあいさつと一緒に使われることが多い(おはようございます、おはよー、等)

「雪」を表す際にも用いられる(雪降ってる~、雪積もってる、等)

・ノ 超眠いNight おやすみですおはようございます おやちゅみおはよう おやすみっo そろそろそろそろ寝よう ねむ~いお休みなさ~い そろそろ寝よ ねみー ねんね

16

Page 17: Amebaにおける絵文字

おはよ おやすみなさい渧 皆さんおやすみなさい о゜絵文字の意匠どおり、眠た気なワードと多く語られている。

眠いという気持ちや、寝る行為を表す語と一緒に使われることが多い(そろそろ寝よう、おやすみです、等)

・煆 しますなんだ あ~うぜぇ 意味わからんありえん かっイラつく やなだよね あぁノ にイライラめ~ 眠いあー う~だな しやがったこちらも絵文字の意匠どおり、若干のイライラや怒りを感じさせる語が多い。

イライラや怒りの気持ちを表す語と一緒に使われることが多い(うぜぇ、イラつく、等)

・ブヒッ 食べましたありがとん 初なうおはようございます だよーおやすみ いじりおやすみなさい だわお腹すいた 食べ過ぎ おはよう お腹空いた~しゃぶしゃぶ ブ~0 ぶ~だよ~ 太ったブタ のイメージから想起される事柄(鳴き声、食べ過ぎ・太り過ぎの象徴)を表すような語と一緒に語られる事が多い。「ありがとん」という語尾の活用は、絵文字文化ならではの遊び心が感じられる。

空腹状態や満腹状態など、食事行為と関連性が高い語と一緒に使われることが多い(お腹すいた、食べ過ぎ、等)

鳴き声と思われる語が多い(ブヒッ、ブ~、等)

○ ある語と一緒に語られることが多い絵文字上述とは逆に、「ある語と一緒に語られることが多い絵文字」について、いくつかの語を対象に調査した。

17

Page 18: Amebaにおける絵文字

・ おはよう「おはよう」という語と一緒に語られる絵文字は以下になる。以下表は、出現頻度の多い絵文字について、Ameba 絵文字の ID順に並べたものである。なお、若干の表記ゆれ語(おはよぅ、おはよ、おはよー等)の結果についても一緒くたにして記載している。

おおまかに言って、「おはよう」という語と一緒に使われる絵文字は以下のような分類が行える。

動物(ブタ、ひよこ、ペンギンなど) 植物(ブーケ、クローバー、チューリップなど) 天気(雨、晴れ、雪など) 心象表現(ハート、汗、音符、ビックリマークなど) 身体表現(手など) 顔文字

動植物は、若干コミカルさも加味した心象のメタ表現として用いていると思われる。天気関連の絵文字については、あいさつとともにその日の天候を伝える、という機能的側面を果たしていると思われる。一方、心象表現や身体表現、顔文字は、話者の感情をそのまま表現するために使われている、と類推される。

やや乱暴なまとめだが、朝のあいさつ「おはよう」は、後者3者(心象表現、身体表現、顔文字・・・おおむね笑顔や強調表現が多い)に象徴されるような感情表現とともに用いられることが多い、という分析も可能である。

・ おやすみ「おはよう」と同様に、夜のあいさつ「おやすみ」についても調査した。こちらについても、いくつかの表記ゆれ語(おやすみー、おやすみっ、おやすみぃ)の結果についても一緒くたにして記載をしている。

18

Page 19: Amebaにおける絵文字

おおむね、傾向としては「おはよう」と同じような傾向であるが、 やなど、夜を象徴する絵文字が一緒に使われていることが特徴と言える。

・ 寒い今回の調査期間が 12月~2月ということもあり、寒さに関する語や絵文字が量も文脈も多様に含まれていたため、傾向を調査した。「寒い」という表現が含まれている語すべてを対象にし、それらを合わせた結果について以下記載する。

ペンギン や雪 などの、寒さを象徴するものが多く用いられていたり、心象表現についても や のように気持ちが落ち気味、ネガティブな心象を表している絵文字が多く用いられている。日本の多くの人が、寒さに対してポジティブな感情よりもネガティブな感情を持っている、という事がこういった結果からも伺える。

4.2.2 アメーバブログ「アメーバブログ」についても同様の調査を行ったが、結果が重複するため一部の紹介のみに留める。

○ 使用データ以下の期間のデータを用いて、ある特定の絵文字の直前に出現するコロケーション文字を調査した。「使用頻度」の解析を行ったものと同じデータである。期間 2010 年1月 16日~2010 年 2月1 4日データ件数 約 1500万件

○ ある絵文字と一緒に語られるコロケーション文字・こんばんは ポチッとおしてくださいねこんにちは こんばんゎもうすぐバレンタイン 皆様いつもありがとうございます よろしく

19

Page 20: Amebaにおける絵文字

可愛い〜 皆さまおおむね「Ameba なう」と同じような傾向であると思われる。なお、調査期間にバレンタインデーが含まれている。バレンタイン関連のワードが含まれているのはそのためである。

・ノ いや〜m お久しぶりですって言われました うーん/ しもうた〜o さぼっててごめんなさい若干ノイズが多めのため判別が困難であるが、ネガティブな語と一緒に用いられている、という傾向は「Ameba なう」と変わらないと思われる。

一方、「Ameba なう」では多かった感嘆詞(ありゃ、うわっ等)が上位にはリストアップされていないところが、対人コミュニケーションの要素の強いマイクロブログに比して第三者へのメッセージ的な意図も強いブログの特徴とも言えるかもしれない。

4.2.3 ここまでのまとめ・ 「コロケーション文字の抽出」というアプローチで、絵文字がどんな文脈で語られて

いるか、文意解析を試みた。・ コロケーション文字の抽出には n-gram Prefix Span の手法が参考になる。・ 抽出結果を見る限り、絵文字の意匠・イメージに一致する語が多く語られていること推察できる。

4.2.4 コロケーション文字データの公開「Ameba なう」の解析結果について、出現頻度上位 100位程度までの絵文字については、コロケーション文字の抽出結果を Google Docs 上にて外部公開しており1、誰でも自由に使用可能である。データはタブ区切りの TSV形式プレーンテキストファイルとなっている。

4.3 絵文字の使用者属性ある絵文字が、どのような属性のユーザに多く使われているか、調査した。ここで言うユーザ属性とは、ユーザの「性別」ならびに「年齢(年代)」を指す。Ameba サービスでは、図 5 のようにユーザの会員登録時の必須入力項目として「性別」「生年月日」を入力する欄が存在し、ユーザが各欄の情報を登録する仕組みになっている2。

1 http://docs.google.com/leaf?id=0B5kuQ0wVMAkMY2E1MDRjZjQtOWVhOS00OGU4LTljNjktNzM3OWMxOGYxZTZj&hl=ja

2 入力情報は、会員登録後に管理画面から編集可能である。今回はある時点でのスナップショット情報を用いた。

20

Page 21: Amebaにおける絵文字

図 5 3

今回はこちらの情報を使用し、絵文字つき記事を投稿したユーザの属性情報を解析し、絵文字の使用者属性の解析を試みた。

4.3.1 Ameba なう○ 使用データ以下の期間のデータを用いて、ある特定の絵文字の使用者属性を調査した。「使用頻度」「コロケーション文字抽出」の解析を行ったものと同じデータである。期間 2009 年 12月 10日~2010 年1月13日データ件数 約 540万件(PC から:170万/携帯から:370万)

○ Ameba なうのユーザ属性本題に入る前に、「Ameba なう」の使用者の属性傾向について簡単に触れる。

・ 性別「Ameba なう」記事投稿者の性別分布は以下グラフのようになり、女性の比率が非常に高い(約 73%)。

表 4

・ 年代年代については以下のグラフのようになる。100歳以上など信憑性に疑いのあるデータも存在するが、10代~40代にユーザが集中していることがわかる。また、男性の方が若干ではあるが使用ユーザの年齢層が高めである。

3 https://user.ameba.jp/

21

Page 22: Amebaにおける絵文字

表 5

○ 絵文字投稿ユーザの属性上記を前提として、「Ameba なう」に絵文字を投稿するユーザの属性解析を実施した。

・ 全絵文字

表 6

絵文字投稿ユーザのうち女性が 79%で約8割となっており、「Ameba なう」の記事投稿ユーザの属性と比べても女性の比率が高いことが伺える。定性的な感覚から女性の方が絵文字を使うイメージは高いが、実際に数字の上でも裏付けられている。

一方、世代の比率については、下記グラフのとおり一般の記事投稿ユーザの傾向と大きな差は無い。CGM サービスなどを使いこなせる IT リテラシーのユーザは 30代以下に集中しており、そのユーザ層と、絵文字文化が定着している層が一致しているから、とも言えるかもしれない。

表 7

以下、個々の絵文字について概観する。

22

Page 23: Amebaにおける絵文字

表 8

ハートマークについては女性の使用率の高さが顕著である。特に 10代~30代では男性:女性の比率が1:10~20程度の開きがある。何かしらポジティブな感情表現として文章中にハートマークを使用する事が女性の間では一般化されているとともに、男性にとっては若干の照れがあることが仮説として想像できるが、少なくとも数字の上での差は圧倒的である。

表 9

こちらはハートマークほど女性の比率が高くなく、男性も普通に使用している様が伺える。

・一方、男性の使用比率が高い絵文字として「ビール」の絵文字が挙げられる。

表 10

上記グラフの通り、20代~40代の男女比でも2~5倍程度の開きとなっており、絵文字全体の使用傾向から考えると男性が使用している比率が高いことが伺える。

23

Page 24: Amebaにおける絵文字

なお、10代未満の投稿は、一般知識としての関心であり、自らの飲酒行為をさしているものでは無いと期待する。

他に同様の傾向を示す絵文字として「 」「 」が挙げられる。

・逆に、女性の使用比率が著しく高い絵文字が「リボン」である。

表 11

上記グラフのように、ごく一部しか男性からの投稿が確認できない。他に同様の傾向を示す絵文字として、先述のハート系の絵文字や「 」が挙げられる。

・比較的高い年齢層に使用される絵文字が「コーヒー」である。

表 12

全絵文字では特に 10代~30代のボリュームが多いが、コーヒーの絵文字を投稿している層はもう少しシニア寄りで、10代が少なく、30代~40代が多めな傾向になっている。「違いが分かる」ためにはある程度の年月を重ねる必要がある、ということかもしれない。

他に同様の傾向を差すものとしては、ビールや車、温泉「 」など、10代の一般的なライフスタイルとは離れたところにあると思われるモノが挙げられる。

4.3.2 ここまでのまとめ・ 「Ameba なう」においては絵文字つきの記事投稿を行っているのは8割が女性で、女性から絵文字が投稿される比率が高い。(すべての投稿記事では 73%が女性からの投稿)

24

Page 25: Amebaにおける絵文字

・ リボン「 」は女性、ビール「 」は男性など、性別差によって投稿の傾向が異なる絵文字が存在する。

・ コーヒー「 」など、世代によって使用傾向が異なる絵文字が存在する。

5 デモアプリの紹介「Ameba なう」、「アメーバブログ」における絵文字の使用傾向について以上述べてきたが、上述の解析結果を用いた応用として、デモンストレーション用の簡単なアプリ作成をあわせて行ったので、本論で紹介する。

5.1 Ameba 絵文字 IME1

文章を入力すると、その文章にふさわしい Ameba 絵文字をサジェストするツールである。サジェスト用の辞書データには、上述のコロケーション文字抽出結果を用いている。

Adobe AIR にて実装を行っており、インストールには Adobe AIR Runtime2が必要である。なお、「IME」と謳っているが、特に IME 的な機能は実装していない。

図 6

アプリを起動すると図 6 のような画面が表示される。ここで何かしらの文章を入力するとその文章と共に使われる事が多い絵文字がサジェストされる。

図 7

図 7 は「こんにちは」と入力した結果で、 や といった絵文字がサジェ

1 http://nd-ilab.jp/amebaemojiime2 http://get.adobe.com/jp/air/

25

Page 26: Amebaにおける絵文字

ストされていることが分かる。

図 8

入力を続けると、図 8 のような文章が生成できる。生成した文章は、図 9 のようにそのままコピー&ペーストをして「Ameba なう」のエディタに貼付け、投稿を行うことが可能となっている。

図 9

5.2 絵文字感情分析1

絵文字は、何かしらの感情表現に用いられるケースが多いことが分かったので、絵文字の出現傾向を元に文章の感情分析を試みた。以下図1 0 が、今回作成したデモアプリの画面となる。

1 こちらのツールは非公開となる

26

Page 27: Amebaにおける絵文字

図 10

それぞれの絵文字について、「積極性」と「感情」の2軸でプロットを行い、スコア付けを行う。(たとえばハート は積極性-高い、感情-前向き、など)そして、文章中に含まれている絵文字の内容を元にスコアの加点を行い、結果として割り当てられる座標に記事データをプロットする。その結果が図1 0 のような画面である。

座標の位置によって、以下のような意味付けを行っている。・ 右上(赤):積極性-高い/感情-前向き・ 右下(黄):積極性-低い/感情-前向き・ 左上(緑):積極性-高い/感情-後向き・ 左下(青):積極性-低い/感情-後向きたとえば、右上にマッピングされている文章は図 11 のようなものである。

(いいとも観てたよん 今日の大湖も素敵 白い巨塔当たったぁスゴイ 生モンシュッシュが聴けて嬉しかったよん VIVA凱旋門 大湖の生歌声が聴けて嬉しかった)

27

Page 28: Amebaにおける絵文字

図 11

また、左下にマッピングされる文章は図1 2 のようなものである。(あ~。。今日もコタツで寝ちゃぃそぉ 2 F に上がる気力ナシ www)

28

Page 29: Amebaにおける絵文字

図 12

6 全体の考察とまとめ以上、Ameba サービスにおける絵文字の扱いについて調査を行った。

絵文字の使用頻度については、感情表現やアノテーション目的の絵文字が多く使われていることが分かった。

また、コロケーション文字抽出による文意解析においては、絵文字とともに語られている語の抽出により絵文字がどのような文脈で語られているかが類推できる結果が得られた。

今後の展開については以下3点を考えている。なお、下記については一部達成済みの事項も含まれる。1. 3.5 で挙げたような改善点の指摘や、今回の結果のフィードバックをサービス担当者

に対して行い、サービスの発展に活かす。2. 4.2.4 で挙げたように、今回の解析結果の一部を外部公開する。3. 今回は n-gram Prefix Span と呼ばれる手法などを用いて大規模テキスト群のマイニ

ングを実施した。その知見や経験を今後のデータ解析やアプリ開発に応用していく。

最後に蛇足ではあるが、今回のデータ解析において、並列分散処理フレームワークとして著名な「Hadoop1」を使用し、解析の効率化・高速化に欠かせないツールとして大いに役に立ったことを付け足しておく。

7 謝辞本論は社内の成果報告会(おひろめ会)や、サービス担当者向けのデータ解析報告会など

1 http://hadoop.apache.org/

29

Page 30: Amebaにおける絵文字

で発表した内容をまとめたものである。上記の場で様々な意見、アイデアをいただいた各位にこの場を借りて感謝いたします。

8 参考文献[1] 工藤拓, 山本薫, 坪井祐太, 松本裕治. 言語情報を利用したテキストマイニング. 情報処理研究会報告 SIGNL-148, 2002. http://chasen.org/~taku/publications/nlp2002.pdf[2] 坪井祐太. 頻出部分文字列のマイニング. 情報処理学会研究報告. 自然言語処理研究会報告 2003(108)  pp.147-154 20031106http://2boy.org/~yuta/publications/nl158-slides.pdf[3]  山本千尋,別所克人,内山俊郎,内山 匡. 絵文字を考慮したテキスト解析の研究. 情報処理学会 第 72会全国大会 人工知能と認知科学, 2010.[4] 萩原正人, 水野貴明. モバイル検索システムのための絵文字に対する意味解析 . 言語処理学会 第 16会年次大会 , 2010

30