fast, accurate detection of 100,000 object classes on a single machine

CVPR論文紹介＠Japan CV Day2

Fast, Accurate Detection of 100,000

Object Classes on a Single Machine

takmin

紹介する論文

Fast, Accurate Detection of 100,000 Object Classes on a Single Machine

Thomas Dean, Mark A. Ruzon, Mar Segal, Jonathon Shlens, Sudheendra Vijayanarashmhan, Jay Yagnik (Google)

CVPR2013 Best Paper

この論文の目的：

カテゴリ数が膨大な場合でも高速に物体検出を行う。

物体検出の流れ

特徴量ベクトル

モデルフィルター

モデルとの類似度

内積

サンプルから学習

Sliding Window

クラス数が膨大な場合の物体検出

内積モデルフィルターモデルフィルターモデルフィルターモデルフィルターモデルフィルター

フィルターの内積計算に膨大な時間がかかる。

使用するフィルターを絞り込みたい。

Locality-Sensitive Hashing (LSH)で絞り込み！

モデルフィルターモデルフィルターモデルフィルターモデルフィルターモデルとの類似度

LSHによるフィルターの絞り込み

内積

WTA Hash

バイナリベクトル

Hash Table

フィルター候補フィルター候補

モデルフィルターモデルフィルターモデルフィルターモデルフィルターモデルフィルターモデルとの類似度モデルとの類似度

内積

WTA Hash

Hash Table

形状の情報を維持したままバイナリ化

Winner-take-all(WTA) Hash

)2,3,4,1(1

0.3, 0.7, 0.2, 0.5

)3,4,1,2(2

順列(N=2)

入力 X N=2, K=3

)2,3,4,1(1

0.3, 0.7, 0.2, 0.5

)3,4,1,2(2

順列(N=2)

入力 X N=2, K=3

)2,3,4,1(1

0.3, 0.7, 0.2, 0.5

)3,4,1,2(2

順列(N=2)

入力 X N=2, K=3

0.5 0.3,

)2,3,4,1(1

0.3, 0.7, 0.2, 0.5

)3,4,1,2(2

順列(N=2)

入力 X N=2, K=3

0.2 0.3, 0.5,

)2,3,4,1(1

0.3, 0.7, 0.2, 0.5

)3,4,1,2(2

順列(N=2)

入力 X N=2, K=3

0.7 0.3, 0.5, 0.2,

)2,3,4,1(1

0.3, 0.7, 0.2, 0.5

0.3, 0.5, 0.2, 0.7

)3,4,1,2(2

0.3, 0.5, 0.2

順列(N=2)

入力 X N=2, K=3

)2,3,4,1(1

0.3, 0.7, 0.2, 0.5

0.3, 0.5, 0.2, 0.7

)3,4,1,2(2

0.3, 0.5, 0.2

順列(N=2)

入力 X N=2, K=3

最大値

)2,3,4,1(1

0.3, 0.7, 0.2, 0.5

0.3, 0.5, 0.2, 0.7 0.7, 0.3, 0.5, 0.2

)3,4,1,2(2

0.3, 0.5, 0.2 0.7, 0.3, 0.5

順列(N=2)

入力 X N=2, K=3

i=1 i=2

)2,3,4,1(1

0.3, 0.7, 0.2, 0.5

0.3, 0.5, 0.2, 0.7 0.7, 0.3, 0.5, 0.2

)3,4,1,2(2

0.3, 0.5, 0.2 0.7, 0.3, 0.5

100 010

順列(N=2)

入力 X N=2, K=3

i=1 i=2

最大値

)2,3,4,1(1

0.3, 0.7, 0.2, 0.5

0.3, 0.5, 0.2, 0.7 0.7, 0.3, 0.5, 0.2

)3,4,1,2(2

0.3, 0.5, 0.2 0.7, 0.3, 0.5

100010

100 010

順列(N=2)

入力 X

出力

N=2, K=3

i=1 i=2

N*K次元ベクトル

WTA hashは係数の順序を保存

WTAで、赤点の順序が符号化された場合、以下の３つのフィルターの形状は等しいとみなす。

歪みやゆらぎに強い。

WTA hashは係数の順序を保存

起伏の近い形状同士の内積は大きくなる。

内積

WTA Hash

Hash Table

Multi-band LSH-style hash table (作成)

001 010 001 100 010 100 ・・・ WTA Vectors C B A

Filter IDs

モデルフィルターモデルフィルターモデルフィルターモデルフィルターモデルフィルター

WTA Hash

Filter IDs

Multi-band LSH-style hash table (作成)

001 010 001 100 010 100

・・・ WTA Vectors C

Create

001 010 001 100 010 100 ・・・ Sub Vectors

Filter IDs

001 010 Hash Tables 001 100 010 100 ・・・

(A, D,...,M)

(C, D,…,K) (A, C,…,M)

Multi-band LSH-style hash table (検索)

001 010 001 100 010 100 ・・・ WTA Vector

WTA Hash

Multi-band LSH-style hash table (検索)

001 010 001 100 010 100

・・・

001 010 Hash Tables 001 100 010 100 ・・・

WTA Vector

001 010 001 100 010 100

・・・ Sub Vectors

A B C D E F G H I J K L M

Threshold

Histogram

A, C, D, M

Filter IDs A D M ・・・ C D K ・・・ A C M ・・・・・・

Deformable Part Modelsへの適用

Deformable Part Models P. Felzenswalb et al, “Object Detection with Discriminatively Trained

Part Based Models”, PAMI, 32(9), 2010

物体を「パーツの類似度＋パーツ位置の歪み」で認識

各パーツはHOG特徴量で記述しLatent SVMで学習

学習後の各パーツのHOGフィルターにWTAを適用

実験(PASCAL VOC2007)

PASCAL VOC2007

20カテゴリ

訓練画像5000枚＋試験画像最大5000枚

パラメータ

パーツサイズ：6x6 cells

rootフィルタなし

K=4, W=4, 3000 hash tables

Average Precision

Base = Deformable Part Model

Accuracy Versus Speed and Memory

Hash Table数と精度の関係

Hash keysが16または18bitになるようWを調整

メモリ使用率と精度の関係

メモリ量はハッシュテーブル数の関数

速度と精度の関係

20クラス検出の速度

100,000カテゴリでの実験

ImageSearch-100kというデータセットを新たに作成

“Freebase”*からカテゴリをリスト化して、Google Image Searchで画像を取得

Bounding Boxはない

１クエリーあたり最大500枚。平均300枚。

80%を学習に、20%を評価に使用。

*K. Bollacker et al. , “Freebase: a collaboratively created graph database for structuring

human knowledge”, In ACM SIGMOD International Conference on Management of Data,

pp.1247-1250. 2008

学習

１回目の学習では画像全体をBounding Boxとみます。

２回目以降、もしBounding Boxのスコアが前回より高くなったら、それを新たなBounding Boxとして使用する。

5000台のマシンで10回学習を行った。（24時間）

検出

K=16, W=4, N=2400

RAM 20GBのマシン１台で実験

処理時間とmean Average Precisionの関係

カテゴリ数とmean Average Precisionの関係

Top 6 detection results

t = 8 sec

Hand-labeled Ground Truth

ラベル付けされた545個のオブジェクトに対するmean average precisionのヒストグラム

Revisiting VOC 2007 with 10,000 Detectors

学習カテゴリ数を変化させて、VOCの20クラスを認識

処理速度が一定となるようにパラメータを調整。

結論

線形の畳み込み演算をLSHによって序数の演

算に置き換えることで、スケーラブルな物体検出手法を提案

Deformable Part Models (DPM)に適用したところ

オリジナルのDPMと同等の性能

性能はクラス数の増加によって低下

100,000個のカテゴリを１枚あたり、１台のPCLで２０秒以内に検出

DPM以外のモデルにも適用可能

fast, accurate detection of 100,000 object classes on a single machine

Technology

accurate 4 project

incidencia mundial 90 por 100,000 mujeres america latina 12...

convocatoria proyecta 100,000 2016

rapid and accurate detection of novel coronavirus sars-cov...

accurate manufacture versi 4_revisi.pdf

automated detection of mycobacterial growth on 96-well...

การบวกลบจำนวนซึ่งมีผลลัพธ์และตัวตั้งไม่เกิน...

rapid, accurate, nucleobase detection using...

agintariak eta langileria autoridades y personal acebes...

manual book accurate 4

alta beef · 2019. 8. 22. · agieren sie im frühen...

pembahasan accurate

manual accurate enterprise edition versi4_final

face detection and smile detection

esbl-assay - oxford biosystems · klebsiella pneumoniae...

latency-based congestion detection and control for...

· ob3 - costi controllabili obiettivi 2017 strutture...

accurate, your business indicator

แผนงานบริหารงานทั่วไป ·...

miscellaneous parts - trane.com · pdf file- calorimetric...