introduction of rmecab

14
第2回Japan.R RMeCabで、 テキスト解析を 行う @gepuro

Upload: atsushi-hayakawa

Post on 05-Jul-2015

2.034 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Introduction of RMeCab

第2回Japan.R

RMeCabで、テキスト解析を

行う@gepuro

Page 2: Introduction of RMeCab

自己紹介早川 敦士電気通信大学

システム工学科三年

Page 3: Introduction of RMeCab

●学祭でジャンク市をやったり、

●合宿で花火を打ち上げたりしてます。

Page 4: Introduction of RMeCab

● 富士山に登ったり、

● 部誌を書いたり、

● 2011 年度 S-PLUS学生研究奨励賞で特別賞を頂いたり、

● DBCLSでバイトしたり、

してます。

Page 5: Introduction of RMeCab

興味

テキストマイニングデータマイニング統計学品質管理

Page 6: Introduction of RMeCab

自己紹介

ブログhttp://d.hatena.ne.jp/gepuro/

Twitter @gepuro

Page 7: Introduction of RMeCab

RMeCabって?

テキストマイニングの為のツールで

RからMeCabを呼び出して使用するインターフェースです。

Page 8: Introduction of RMeCab

http://rmecab.jp/wiki/index.php?RMeCabからRMeCab_0.98_R_x86_64-unknown-linux-gnu.tar.gzをダウンロードして、>install.packages(“RMeCab_0.98_R_x86_64-unknown-linux-gnu.tar.gz”,destdir=”,”,repos=NULL)でインストールできる。

詳しくは、上記のサイトで。

インストール

Page 9: Introduction of RMeCab

形態素解析> rlt <- RMeCabC("お腹が空いた",0)

> unlist(rlt)

名詞 助詞 動詞 助動詞

"お腹" "が" "空い" "た"

> rlt <- RMeCabC("お腹が空いた",1)

> unlist(rlt)

名詞 助詞 動詞 助動詞

"お腹" "が" "空く" "た"

Page 10: Introduction of RMeCab

ターム・文書行列をつくる> novel <- docMatrix("novel",c("名詞","形容詞"))

> novel[4:15,] docsterms bocchan_NATUME hana_AKUTAGAWA kokoro_NATUME [[LESS-THAN-1]] 0 0 0 [[TOTAL-TOKENS]] 12492 1646 34937 am 1 0 0 glad 1 0 0 see 1 0 0 to 1 0 0 you 1 0 0 —— ? 1 0 0 あいつ 5 0 0 あした 1 0 0 あすこ 3 0 2 あそこ 1 0 0

Page 11: Introduction of RMeCab

ターム・文書行列をつくる

docMatrixdocMatrixの引数の引数

minFreq=n:n回以上出現するタームを出力kigo=1:記号を総語数にカウントするweight:重み付け “tf*idf,”tf*idf*norm”dic:ユーザー辞書の指定co:共起語の行列を作るなどなど・・・

Page 12: Introduction of RMeCab

参考

Rによるテキストマイニング入門

著:石田 基広

出版社:森北出版株式会社

RとLinuxと・・・http://rmecab.jp/wiki/index.php?RMeCab

Page 13: Introduction of RMeCab

ご清聴ありがとうございました。

Page 14: Introduction of RMeCab

Webからコーパスを収集するのに良いツールor

データクリーニングに関する教科書・サイト

をご存知でしたら、ご教授願います。