uec.r#3 yjdnjlpを使ってみた

Post on 05-Jul-2015

1.245 Views

Category:

Documents

6 Downloads

Preview:

Click to see full reader

TRANSCRIPT

UEC.R(R 勉強会 in 電通大)

Rでテキストマイニング

--YjdnJlpパッケージを使って --

自己紹介

名前:早川 敦士

電気通信大学システム工学科三年

サークルはMMAと ICESに所属 ツイッターは、@gepuro ブログは、 http://d.hatena.ne.jp/gepuro/

資料は、 http://www.slideshare.net/gepuro/

学外で社会人の方も参加される勉強会でプレゼンテーションをやらせてもらっています。

Rって何?

正しくは R言語と言います

統計解析を得意とするプログラミング言語

プログラミングをするのに難しい知識は不要

プログラムを書くことを専門としていない人も使っています。

誰が使ってるの?

金融業界

マーケティング

経営工学

医療業界

生物学

統計学

Web業界

などなど・・・

なんで Rを使うの?

最新の手法を使うため

多くのソフトでは、古典的な手法しか使えない

無料

同じ計算を繰り返すのが楽

早い( Excelと比べて)

たくさんのデータを扱える( Excelと比べて)

Excelから R言語を使う事もできます。

テキストマイニングって何ぞや

マイニングとは、「発掘」を意味する英単語

テキストデータから、価値ある情報を発掘すること

何が嬉しいの?

数値データに比べて、量が多い。

世の中にあるすべての文章が分析対象になる。

新聞、雑誌、 webサイト、ブログ、ツイッターなど

つまり、

webからデータをとれば、無限のように情報がある

実際にやってみた

分析するテキストデータを手に入れる。

日経経済新聞の記事を対象にしました。

http://www.nikkei.com/

NY円、続伸 1ドル= 80円 70~ 80銭で終了 対ユーロは大幅高( 2011/5/14 6:39 )

http://www.nikkei.com/markets/kawase/summary.aspx?g=DGXNASM7IAA05_14052011000000

これくらいの文章なら読めるけど・・・

できる事なら、読みたくない

新聞の記事全部を読めますか?

ツイッターのつぶやきを全部読めますか?

たくさんのデータから、価値ある情報を発掘する。

テキストマイニング

発掘結果

keyphrase score 1 ユーロ 100

2 低金利 97

3 円買い 96

4 値動き 88

5 リスク資産 85

・・・・

scoreが高いほど、重要そうな情報 3番目に「円買い」とある。

円買いというのが重要らしい。

記事を読むことなく、それが分かった。

YahooJapanのデベロッパーネットワークの登録が必要です。

http://developer.yahoo.co.jp/sitemap/ アプリケーション IDの登録 無料です。

テキストマイニングの可能性の一つ

刻々と変化する為替や株式

秒単位で動くツイッター

ツイッターのつぶやきを分析すれば、

株価や為替の変動が予測できるのでは?

変動の直前にそれが分かれば・・・・

実現すれば、あなたは第一人者になれるはず

終わりに

テキストマイニングをしてみませんか?

R言語で世の中を分析してみよう

情報を持つものが勝つ時代

ご清聴ありがとうございました。

参考

Tokyor13 - YjdnJlpパッケージと Tokyo.R翻訳プロジェクトの紹介

http://www.slideshare.net/yokkuns/tokyor13-yjdnjlptokyor

top related