pyladies tokyo meet up #6
TRANSCRIPT
PyData 基本のキ+
解析をするにあたって覚えておくと役立ついくつかのこと
かたやなぎ のぶこ
PyLadies Tokyo meetup #6Python + Data = PyData ! PyLadies Tokyo データ祭!
2015 年 6 月 20 日(土)
自己紹介
@nobolis@nobolispy
かたやなぎ のぶこ
農水省系研究機関研究員(ポスドク)
研究テーマ生態系の物質循環を予測するモデルを用いた
土壌由来温室効果ガスの定量
土壌表面からのガスを測定 モデルを使って排出量推定3
大学院生時代 現在
今日の話題に入る前に質問です。
プログラミング初心者?
データ解析はあまりしたことがない?
今日の話題
1. PyData についての基本的な話自分が始めたときにこまったこと
2. 解析をするにあたって覚えておくと役立つこと
1. PyData についての基本的な話
PyData = Python + Data
私の用途:1. データ処理–ファイルの分割、欠測値補完、値抽出、 etc.
2. 数値計算–統計解析、分析、 etc.
PyData の基本ツール
Python 2.x 系 /3.x 系 お好きな方を。
1. NumPy 多次元配列が扱える。
2. Pandas DataFrame が便利。データベースっぽい使い方ができる。
3. matplotlib データの可視化。グラフ描きツール。
4. IPython ・ Ipython notebook ・ Jupiter対話型シェルと ブラウザでの操作ツール
5. Sympy 記号計算。方程式を解いたりできる。
6. Scikit-Learn 機械学習
7. SciPy Numpy より高度な科学計算(特殊関数、積分、統計、 etc. )
PyLadies Tokyo #3
Python for Beginners
プログラミング初心者・ Python 初心者だった私が Python でデータ解析を始めようと思ったときに困ったこと
データ解析ツールがいろいろあることはわかったけど、どうやったら使えるんだろう???
パッケージを入手して import
ipython notebook demoImport 宣言
https://github.com/nobolis/PyLadiesTokyo_6_demo/blob/master/PyLadies6_demo_v1.ipynb
パッケージとライブラリ• パッケージ– サードパーティ製パッケージ
• Numpy, Scipy, etc.
– Python とは別に入手が必要
• ライブラリ– Python 標準ライブラリ
– Python にもとから同梱されているライブラリ
• 使うときはいずれも import 宣言して利用– 組み込み関数・定数・型を除く
参考 : Python エンジニア養成読本
パッケージの入手(インストール)
Mac ・ Linuxpip install numpypip install scipypip install pandaspip install scikit-learnpip install matplotlibpip install ipython# ipython notebook に必要な異存ライブラリpip install pyzmqpip install jinja2pip install tornado
パッケージの入手(インストール)
Windowspip でインストールしようとするとエラーが出る
パッケージあり
非公式ビルド版 / ディストリビューションがおすす
め
非公式ビルド版Unofficial Windows Binaries for Python Extension Packages
ディストリビューションAnaconda, Enthought Canopy, Python(x, y), WnPython, Pyzoどうしたらいい?
2. 解析をするにあたって覚えておくと役立つこと
解析をするにあたって覚えておくと役に立つかもしれない 5 つのこと
1. データには背景がある。
2. データの俯瞰が大切。
3. 統計値は必ずしも正しくない。
4. 数式はこわくない。
5. 解析は楽しい。
2.1 データには背景がある。2. 解析にあたって覚えておくと役立つこと
大学院生時代 現在
データを集める人 集められたデータを解析する人
土壌表面からのガスを測定 モデルを使って排出量推定
データを集める仕事と集められたデータを解析することの利点
• データがどうやってとられたのかを知っている
ため、
データの確からしさについての勘が働く
–はずれ値は
• ほんとうに現象としてあった?
• 計算時のミス?
• 分析時のミス?
• 観測の作業ミス?
覚えておくと役立つこと 1
データには背景がある。
• 可能な場合は解析する前にデータがどのようにとられたか確認しよう
• 確認が出来ない場合は現場の状況をできるだけ想像してみよう
意味のない解析の回避
適切な欠損値補完
2.2 データの俯瞰が大切。2. 解析にあたって覚えておくと役立つこと
データを集める仕事と集められたデータを解析することの欠点
現場での詳細なプロセス・依存関係について知っているため、詳細な点に気をとられてしまう
俯瞰的な視点を持たずに解析をおこなうと、整合性のとれない解析をおこなってしまう
覚えておくと役立つこと 2
データの俯瞰が大切。
部分を意識しつつ、全体のことを忘れない!
データを俯瞰する
いきなり解析しないまずざっくりした絵をかいてみる
分布型・データの傾向を確認
外れ値をチェックする
グループ化せずに値を見る
etc.
ipython notebook demoデータの俯瞰
https://github.com/nobolis/PyLadiesTokyo_6_demo/blob/master/PyLadies6_demo_v1.ipynb
2.3 統計値は必ずしも正しくない。
2. 解析にあたって覚えておくと役立つこと
覚えておくと役立つこと 3
統計値は必ずしも正しくない。
解析をすれば統計値自体は得られるが、適用した手法が不適切ならば、その値が正しいとはいえない。
ipython notebook demo線形回帰
https://github.com/nobolis/PyLadiesTokyo_6_demo/blob/master/PyLadies6_demo_v1.ipynb
2.4 数式はこわくない。2. 解析にあたって覚えておくと役立つこと
覚えておくと役立つこと 4
数式はこわくない!• 数式は簡潔に変数間の関係を表すもの
• 慣れれば文字よりも速やかに書いてあることが理解できるようになる
• 見た瞬間に「ぎゃーーー」となっても、次の瞬間には冷静さを取り戻して一つ一つ理解していこう
ipython notebook demo数式
https://github.com/nobolis/PyLadiesTokyo_6_demo/blob/master/PyLadies6_demo_v1.ipynb
2.5 解析は楽しい2. 解析にあたって覚えておくと役立つこと
覚えておくと役立つこと 4
解析は楽しい• 練習ばかりしてても楽しくない
• 自分が知りたいと思うデータの解析をすれば、コードを学ぶのも楽しくなる
• 仕事で解析するならばそのデータに興味を持って解析しよう
• 仕事ではないならば、自分の知りたいことを知るために解析しよう
楽しいデータ解析
気象庁 各種データ・資料
http://www.jma.go.jp/jma/menu/menureport.html
国連食糧農業機関 FAO の統計量データベース
http://faostat3.fao.org/home/E
政府統計の総合窓口 e-Stat
http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do
野球データ
http://shinyorke.hatenablog.com/entry/2015/05/04/022627@shinyorke
Kaggle
https://www.kaggle.com/
競技プログラミング
http://cocodrips.hateblo.jp/entry/2014/09/16/134759@cocodrips
http://cocodrips.hateblo.jp/entry/2014/09/16/134759
解析をするにあたって覚えておくと役に立つかもしれない 5 つのこと
1. データには背景がある。
2. データの俯瞰が大切。
3. 統計値は必ずしも正しくない。
4. 数式はこわくない。
5. 解析は楽しい。
Thank you for your attention !