pyladies tokyo meet up #6

Post on 07-Aug-2015

367 Views

Category:

Data & Analytics

8 Downloads

Preview:

Click to see full reader

TRANSCRIPT

PyData 基本のキ+

解析をするにあたって覚えておくと役立ついくつかのこと

かたやなぎ のぶこ

PyLadies Tokyo meetup #6Python + Data = PyData ! PyLadies Tokyo データ祭!

2015 年 6 月 20 日(土)

自己紹介

@nobolis@nobolispy

かたやなぎ のぶこ

農水省系研究機関研究員(ポスドク)

研究テーマ生態系の物質循環を予測するモデルを用いた

土壌由来温室効果ガスの定量

土壌表面からのガスを測定 モデルを使って排出量推定3

大学院生時代 現在

今日の話題に入る前に質問です。

プログラミング初心者?

データ解析はあまりしたことがない?

今日の話題

1. PyData についての基本的な話自分が始めたときにこまったこと

2. 解析をするにあたって覚えておくと役立つこと

1. PyData についての基本的な話

PyData =   Python + Data

私の用途:1. データ処理–ファイルの分割、欠測値補完、値抽出、 etc.

2. 数値計算–統計解析、分析、 etc.

PyData の基本ツール

Python 2.x 系 /3.x 系 お好きな方を。

1. NumPy  多次元配列が扱える。

2. Pandas   DataFrame が便利。データベースっぽい使い方ができる。

3. matplotlib データの可視化。グラフ描きツール。

4. IPython ・ Ipython notebook ・ Jupiter対話型シェルと ブラウザでの操作ツール

5. Sympy 記号計算。方程式を解いたりできる。

6. Scikit-Learn 機械学習

7. SciPy   Numpy より高度な科学計算(特殊関数、積分、統計、 etc. )

PyLadies Tokyo #3

Python for Beginners

プログラミング初心者・ Python 初心者だった私が Python でデータ解析を始めようと思ったときに困ったこと

データ解析ツールがいろいろあることはわかったけど、どうやったら使えるんだろう???

パッケージを入手して import

ipython notebook demoImport 宣言

https://github.com/nobolis/PyLadiesTokyo_6_demo/blob/master/PyLadies6_demo_v1.ipynb

パッケージとライブラリ• パッケージ– サードパーティ製パッケージ

• Numpy, Scipy, etc.

– Python とは別に入手が必要

• ライブラリ– Python 標準ライブラリ

– Python にもとから同梱されているライブラリ

• 使うときはいずれも import 宣言して利用– 組み込み関数・定数・型を除く

参考 : Python エンジニア養成読本

パッケージの入手(インストール)

Mac ・ Linuxpip install numpypip install scipypip install pandaspip install scikit-learnpip install matplotlibpip install ipython# ipython notebook に必要な異存ライブラリpip install pyzmqpip install jinja2pip install tornado

パッケージの入手(インストール)

Windowspip でインストールしようとするとエラーが出る

パッケージあり

非公式ビルド版 / ディストリビューションがおすす

非公式ビルド版Unofficial Windows Binaries for Python Extension Packages

ディストリビューションAnaconda, Enthought Canopy, Python(x, y), WnPython, Pyzoどうしたらいい?

2. 解析をするにあたって覚えておくと役立つこと

解析をするにあたって覚えておくと役に立つかもしれない 5 つのこと

1. データには背景がある。

2. データの俯瞰が大切。

3. 統計値は必ずしも正しくない。

4. 数式はこわくない。

5. 解析は楽しい。

2.1 データには背景がある。2. 解析にあたって覚えておくと役立つこと

大学院生時代 現在

データを集める人 集められたデータを解析する人

土壌表面からのガスを測定 モデルを使って排出量推定

データを集める仕事と集められたデータを解析することの利点

• データがどうやってとられたのかを知っている

ため、

データの確からしさについての勘が働く

–はずれ値は

• ほんとうに現象としてあった?

• 計算時のミス?

• 分析時のミス?

• 観測の作業ミス?

覚えておくと役立つこと 1

データには背景がある。

• 可能な場合は解析する前にデータがどのようにとられたか確認しよう

• 確認が出来ない場合は現場の状況をできるだけ想像してみよう

意味のない解析の回避

適切な欠損値補完

2.2 データの俯瞰が大切。2. 解析にあたって覚えておくと役立つこと

データを集める仕事と集められたデータを解析することの欠点

現場での詳細なプロセス・依存関係について知っているため、詳細な点に気をとられてしまう

俯瞰的な視点を持たずに解析をおこなうと、整合性のとれない解析をおこなってしまう

覚えておくと役立つこと 2

データの俯瞰が大切。

部分を意識しつつ、全体のことを忘れない!

データを俯瞰する

いきなり解析しないまずざっくりした絵をかいてみる

分布型・データの傾向を確認

外れ値をチェックする

グループ化せずに値を見る

etc.

ipython notebook demoデータの俯瞰

https://github.com/nobolis/PyLadiesTokyo_6_demo/blob/master/PyLadies6_demo_v1.ipynb

2.3 統計値は必ずしも正しくない。

2. 解析にあたって覚えておくと役立つこと

覚えておくと役立つこと 3

統計値は必ずしも正しくない。

解析をすれば統計値自体は得られるが、適用した手法が不適切ならば、その値が正しいとはいえない。

ipython notebook demo線形回帰

https://github.com/nobolis/PyLadiesTokyo_6_demo/blob/master/PyLadies6_demo_v1.ipynb

2.4 数式はこわくない。2. 解析にあたって覚えておくと役立つこと

覚えておくと役立つこと 4

数式はこわくない!• 数式は簡潔に変数間の関係を表すもの

• 慣れれば文字よりも速やかに書いてあることが理解できるようになる

• 見た瞬間に「ぎゃーーー」となっても、次の瞬間には冷静さを取り戻して一つ一つ理解していこう

ipython notebook demo数式

https://github.com/nobolis/PyLadiesTokyo_6_demo/blob/master/PyLadies6_demo_v1.ipynb

2.5 解析は楽しい2. 解析にあたって覚えておくと役立つこと

覚えておくと役立つこと 4

解析は楽しい• 練習ばかりしてても楽しくない

• 自分が知りたいと思うデータの解析をすれば、コードを学ぶのも楽しくなる

• 仕事で解析するならばそのデータに興味を持って解析しよう

• 仕事ではないならば、自分の知りたいことを知るために解析しよう

楽しいデータ解析

気象庁 各種データ・資料

http://www.jma.go.jp/jma/menu/menureport.html

国連食糧農業機関 FAO の統計量データベース

http://faostat3.fao.org/home/E

政府統計の総合窓口 e-Stat

http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do

野球データ

http://shinyorke.hatenablog.com/entry/2015/05/04/022627@shinyorke

Kaggle

https://www.kaggle.com/

競技プログラミング

http://cocodrips.hateblo.jp/entry/2014/09/16/134759@cocodrips

http://cocodrips.hateblo.jp/entry/2014/09/16/134759

解析をするにあたって覚えておくと役に立つかもしれない 5 つのこと

1. データには背景がある。

2. データの俯瞰が大切。

3. 統計値は必ずしも正しくない。

4. 数式はこわくない。

5. 解析は楽しい。

Thank you for your attention !

top related