breezeで始めるデータ分析
TRANSCRIPT
Epicは形態素解析器です。
epic
MeCabやNLTKのTokenizerのようなものです。
僕はScalaが大好きです。 僕 名詞,代名詞,一般,*,*,*,僕,ボク,ボク は 助詞,係助詞,*,*,*,*,は,ハ,ワ Scala 名詞,固有名詞,組織,*,*,*,* が 助詞,格助詞,一般,*,*,*,が,ガ,ガ 大好き 名詞,形容動詞語幹,*,*,*,*,大好き,ダイスキ,ダイスキ です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス 。 記号,句点,*,*,*,*,。,。,。 EOS
【MeCabの出力結果】
回帰分析犯罪率 街灯数 人口 学校数
0.05 123 20000 23
0.09 24 3024 5
0.01 132 15325 12
0.10 32 8525 2
こんなデータがあります。
ここから犯罪率が街灯数などから影響があるか知りたい
回帰分析犯罪率 街灯数 人口 学校数
0.05 123 20000 23
0.09 24 3024 5
0.01 132 15325 12
0.10 32 8525 2
犯罪率=街灯数×a + 人口×b + 学校数×c + d
こう置けると仮定します
回帰分析犯罪率 街灯数 人口 学校数
0.05 123 20000 23
0.09 24 3024 5
0.01 132 15325 12
0.10 32 8525 2
上のようなデータをたくさん集め、a, b, c, dを求める
犯罪率=街灯数×a + 人口×b + 学校数×c + d