第1008回 ドキッ!分析屋だらけの、大ザーユー会 -...

13
第1008回 ドキッ!分析屋 だらけの、大ザーユー会 ブログの類似記事を表示させてみる (LTのネタが無かったので、今日作った)

Upload: atsushi-hayakawa

Post on 01-Jul-2015

980 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: 第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる

第1008回 ドキッ!分析屋

だらけの、大ザーユー会

ブログの類似記事を表示させてみる(LTのネタが無かったので、今日作った)

Page 2: 第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる

自己紹介

● 電気通信大学大学院修士一年● 早川 敦士(@gepuro)● 専攻:信頼性工学、品質管理● 研究テーマ:オンライン状態監視システムを用

いた保全活動の改善● 興味:(データ|テキスト)マイニング、マーケティン

グなど

Page 3: 第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる

活動

執筆に関わったり

iAnalysis合同会社で、仕事を手伝ったり、

gepulog(http://blog.gepuro.net)でブログを更新したり。

Page 4: 第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる

こんなブログです。

Page 5: 第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる

勉強がてら、

Flask(Pythonのマイクロフレームワーク)で作成

さくらVPS 1Gプランでサービスを動かしてる。

● きっかけは○ ノリで独自ドメインを買った○ wordpressのインストールでコケたので、自分で作った。

データベースは、sqlite3とmemcachedを使ってる。

レスポンスは問題ない。

Page 6: 第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる

完成品は、

Page 7: 第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる

似ているかもしれない記事を表示するが

→あまり似てない

何故だ?

Page 8: 第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる

中身は、

1. mecabで単語を切り出す2. コサイン類似度

以上。

これだけでは、上手くいかないですね。

● 名詞も形容詞も副詞など全部使ってる。● 辞書は追加していない● ソースコードが書かれている記事に対して、特

殊な処理を行なってない。● タグを利用していない。● コサイン類似度以外は試していない

Page 9: 第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる

実装方法

裏で、バッチを回してます。

サーバのメモリを節約するために、シェルスクリプトを多用してます。必要な時に、必要なだけリソースを消費する。

Page 10: 第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる

実装方法

Page 11: 第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる
Page 12: 第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる

結果は散々だけど、

関連記事を表示させることによって、内部リンクが増えるので、サイトの滞在時間が伸びると嬉しい。

今後、調査したい。

● 調査に十分なアクセスがない。

コンテンツを充実させるのが先なのでは?

Page 13: 第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる

データだけじゃなくて、

データを分析してアレコレやるだけじゃなくて、

提供するコンテンツの量や質も大事だと気付かされました。

今後も、学んだり・感じた事をブログに残していこう。