エフスタ東京vol3...
TRANSCRIPT
ビッグデータ解析手法を用いてソーシャルメディアの評価分析を実現する
JAWS-UG 会津
自己紹介
石川 智史 ( いしかわ さとし )
現職• 株式会社シンク ( 会津営業部 兼 開発本部品質管理グループ )
• オープン系 Web アプリケーション開発エンジニア
活動• JAWS-UG 会津
Amazon AWS を楽しく勉強するためのコミュニティ。• エフスタ会津
IT エンジニアのためのスキルアップコミュニティ。• Code For Aizu
会津のオープンデータ活用を促進するためのコミュニティ。
それでは本題に入ります…
今一度よくお考えいただきたい
皆さん
姉ヶ崎寧々は本当に天使なのでしょうか
Twitter の評価分析だ!
果たして、 Web ページのみの検証で十分だと言えるのだろうか。
ソーシャル評価分析手法
Twitterのツイートを取得
形態素解析を行う
係り受け解析を行う
P/N判定を行う
1. 以下のキーワードを含むツイートを取得
姉ヶ崎寧々/高嶺愛花/小早川凜子
2. 品詞に分解し、品詞間の依存性を解析
ex 「姉ヶ崎 寧々 は 天使 だ」
3. 抽出した品詞を P/N 判定し比率を算出 ポジティブワード:かわいい、天使
ネガティブワード:薄情、不機嫌
名詞 名詞助詞
名詞助動詞
システム化したらこうなった!
アプリケーション基盤
Tweet の取得
形態素解析・係り受け解析
Twitter API Yahoo Web API
Google App Engine for Java
続きは Web で
http://loveplus-analyzer.appspot.com
もうこれは天使でいいんじゃねぇかと
つまりは
姉ヶ崎寧々とは
最高に可愛いエロいの大好き俺の嫁
ソーシャル評価分析サービス
Twitter などのソーシャルデータから、ブランドや商品に対する評価分析を行う
Salesforce radian6
この後会場の約 98% の方が
深刻な問題に直面します
いったい誰を嫁にすればいいのか ∑ ( ゚Д ゚ ;)
Amazon EMR がその問題を解決します。
決められない。決められない。
決められない。決められない。
決められない。決められない。
Amazon EMR
Amazon EMR (Elastic MapReduce)• Amazon AWS のサービスの一つ• Hadoop をベースに莫大なデータを処理できるサービ
ス
主な利用シーン• ログ分析• ウェブインデックス作成• データウェアハウス• 機械学習• 科学シミュレーション
ビッグデータ解析に欠かせないサービス
解決方法
Amazon EMR + 機械学習ライブラリ Mahoutで
嫁を選定するための単純ベイズ分類器を作成する
ベイズ分類器生成の流れ
1. 学習データとして各ヒロインを支持するユーザプロフィールを取得
ベイズ分類器
2. 学習データと Mahout の APIによりベイズ分類器を生成する
3. 分類器にたいして、自分自身のプロフィールを入力
4. 幸せな未来が約束される
自分自身のプロフィール
学習データ
1.学習データの入力
Web サービス化してみた
2.ベイズ分類器の作成
EC2
Web API
ベイズ分類器
3.作成したベイズ分類器を移行
ベイズ分類器
デモサイト
続きは Web で
http://loveplus-classificator.appspot.com/
奇跡のサービスといっても過言じゃない
つまりは
Amazon EMR とは
誰も傷つけることなくあなたの最高の嫁を見つけ出してくれる
Windows Azure でも !
ありがとうございました