深層学習による害獣自動認識と...
TRANSCRIPT
深層学習による害獣自動認識と監視カメラ向け実装の試行
立命館大学 理工学研究科 電子システム専攻
動的再構成システム研究室
〇初田慎弥・孟林・泉知論
アウトライン
•研究背景・目的
•深層学習
•組込みシステムへの実装
•まとめ
研究背景・目的
アライグマとそれによる被害アライグマは過去ペットとして人気があった
現在ではそれらが野生化し、様々な問題を引き起こしている
2012年度の農業被害額は約3億3千万円
特定外来生物に指定されている
アライグマによる地方別農作物被害金額の推移
「アライグマ防除の手引き(計画的な防除の進め方)」より
アライグマアライグマ捕獲数の推移
寺社への損害
アライグマによる文化財など寺社への損害も大きい
天井を破壊される、柱を傷つけられる、糞尿など
被害例 捕獲用の罠
本研究の目的
カメラを用いたアライグマ自動検知システムの開発を目指す
現在では人間の目で後から見分けている
⇒自動化し、リアルタイムで
アライグマ!
監視カメラやフィールドカメラ
システムに求める条件
寺社などに設置し、生息や侵入を監視するシステム
•複数設置可能
•価格や消費電力、計算時間は抑える
•様々な角度・姿勢で映るアライグマを認識
安価な組込システムを用い、機械学習で認識する
同研究室の研究
•動物全般の認識
同様に機械学習を用い、動物の認識を行う。生態調査が主
•地図の認識
地図記号を認識し、地図を自動で解析するための研究
深層学習
畳み込みニューラルネットワーク
主に画像認識に使用されるニューラルネットワーク、略称”CNN”
生物の脳の視覚野を参考に開発された
入力画像が何であるかを確率で表す
A 90%
B 5%
C 3%
D 2%
画像 CNN
CNNの学習
機械学習では膨大な出題とその正解の組のデータが必要となる
CNNでは画像とラベル
画像に対する解答と正解ラベルを比較し、内部のパラメータを更新する
A 90% 100%
B 5% 0%
C 3% 0%
D 2% 0%
画像 CNN
パラメータ更新
正解解答
CIFAR-10, CIFAR-100 datasetラベル付けされた画像のデータセット作者はAlex Krizhevsky, Vinod Nair, Geoffrey Hinton
枚数:それぞれ6,000枚
クラス数:10(CIFAR-10),100(CIFAR-100)
https://www.cs.toronto.edu/~kriz/cifar.html
CIFAR-100の例アライグマ画像600枚あり
32
32
32
32
CIFAR-10の例
飼育施設にて撮影された画像
画像枚数の増強,対象動物の姿勢の再現を目的に我々が飼育施設にて撮影した画像を用いる
撮影時期:2016年11月14日13:00~16:00
撮影場所:(財)弘前市みどりの協会弥生いこいの広場
32
32
侵入する様子のアライグマ画像
性能評価に,実際に寺社に侵入する様子のアライグマ画像を用いる
提供:関西野生生物研究所
撮影時期:2013年~2014年、夏冬
内容:侵入口に出入りする様子、柱を昇り降りする様子など
データベースの構築
以上の画像を組み合わせて3つのデータベースを構築
画像枚数は以下の通りアライグマ(弘前)
アライグマ(CIFAR-100)
タヌキ(弘前) 動物(CIFAR-10)
学習用 10,000 500 2,500 20,000
テスト用 1,600 100 200 4,000
アライグマ(CIFAR-100)
アライグマ,タヌキ(弘前)
動物(CIFAR-10)
モデル1 〇 - 〇
モデル2 - 〇 〇
モデル3 〇 〇 〇
CNNの構成
Caffeに用意されているCIFAR-10向けのサンプルを使用
認識の結果
実際に侵入する様子のアライグマ画像を用いて学習済みのモデル(識別器1,2,3)を評価する
識別器が分類した結果を以下に示す
学習にアライグマ画像を両方使用すると認識率が向上した
アライグマ タヌキ ネコ シカ イヌ ウマ 認識率
識別器1 74 182 59 29 30 19.8%
識別器2 104 11 216 23 15 5 27.8%
識別器3 224 9 110 22 7 2 59.9%
考察
アライグマ画像について,
▪CIFAR-100:整った姿勢のものが多く,撮影環境は様々
▪飼育施設のもの:侵入する様子を再現したものが多く,撮影環境は限定されている
両方を用いたことでそれぞれの特徴を学習し,認識率が向上したと考えられる
約60%という認識率は他の手法と組み合わせることで十分に活用できる数字だと思われる
組込みシステムへの実装
Raspberry Pi 3 Model-B
Raspberry Pi上での実装
組込みシステムによく用いられるARMプロセッサを搭載したRaspberry Piに実装する
ARMプロセッサ
携帯電話などの電力に制限がある組込みシステムによく用いられている。低消費電力が特徴。
領域の特定
CNNは、写真全体ではなく対象の部分のみを入力する必要がある。
× 〇
スライディングウィンドウ方式
一定の大きさのウィンドウをスライドさせてゆき、ウィンドウに対して認識を行う方式
簡単だが、計算量が多い
背景差分
直前から動きのあった部分のみを取り出す方式
簡単で、なおかつ計算量を軽減できる
実行時間の短縮化
カメラ画像の大きさが640×480、5段階の大きさに対応とすると、CNNの実行時間は約7msecなので
1/20程度に短縮できた
スライディングウィンドウ
背景差分
CNN適用回数 2416回 約100回
実行時間 約16.9秒 約0.7秒
まとめ
まとめと今後の展望
まとめ
•害獣の生息や侵入を監視することを目的に深層学習のためのデータベースを構築した.
•二種類のアライグマ画像を組み合わせると認識率が向上した.
•Raspberry Pi上にて計算負荷を考慮した実装を行った.
今後の展望
•背景差分法を使用した場合の精度評価
•実地での実験