ilsvrc2015 手法のメモ

160112 DL勉強会

片岡裕雄, Ph.D. 産業技術総合研究所

知能システム研究部門コンピュータビジョン研究グループ

http://www.hirokatsukataoka.net/

SergeyZagoruyko,Tsung-YiLin,PedroPinheiro,AdamLerer,SamGross,SoumithChintala,PiotrDollár,FAIR(FacebookAIResearch),inILSVRC,2015.

【1】

手法

LinksポスターhLp://image-net.org/challenges/talks/COCO-ICCV15-clean.pdf

結果

・FacebookはCOCOObjectDetecSonにフォーカスしていた・DeepMask[Pinheiro+,NIPS2015]による候補領域とFastR-CNNに対して複数の改善・IteraSveLocalizaSon(+1.0AP)やTop-downrefinement(+0.7AP)などのテクニックも有効・パッチを分解して特徴評価・BBox回帰するFovealstructure[Gidaris+,ICCV2015]により+2.0AP・複数の重なり率による誤差MulS-thresholdlossにより+1.5AP・トレーニングは4MaxwellGPUを用いて4日間，8x4Kepler/ElasScAveragingSGD[Zhang+,NIPS2015]により2.5日・BaseModelにより30.1AP，Horizontalflipにより31.1AP，ROIPooling'2crop'により32.1AP，7-modelensembleにより33.5AP・SegmentaSonはDeepMask(ProposalBBoxes)-FastRCNN(ScoredBBoxed)-DeepMask(ScoredSegments)により実行・将来展望として背景との混同や微小領域の高精度化，コンテキストの活用，fast/proposal-freeな検出が挙げられる

・MSCOCOdatasetの検出にて第2位・FastR-CNNが19.7%の検出率に対して33.5%(約66%の向上,MSRAは37.3%)

CUImage(ChineseUniv.ofHongKong)"CUImage-poster.pdf",CascadedNetworksforObjectDetecSonwithMulS-ContextModelingandHierarchicalFine-Tuning,inILSVRC,2015.

【2】

手法

LinksポスターhLp://image-net.org/challenges/posters/CUimage_poster.pdf[1]X.Zeng,etal.Window-ObjectRelaSonshipGuidedRepresentaSonLearningforGenericObjectDetecSons,axivpreprint.[2]W.Ouyang,etal.FactorsinFinetuningDeepModelforobjectdetecSon,axivpreprint.[3]J.Yan,etal.CRAFTObjectsfromImages,axivpreprint.[4]W.Ouyang,etal.Deepid-net:DeformabledeepconvoluSonalneuralnetworksforobjectdetecSon.CVPR,2015.[5]J.Yan,etal.ObjectdetecSonbylabelingsuperpixels.CVPR,2015.

結果

・MulS-context[1]:複数のパッチサイズ/複数のコンテキストを含む画像を評価，特徴を連結させてSVMによりスコアリング・Cascadedhierarchicalfeaturelearning[2]:クラスごとに異なる有効な特徴を評価するために階層的カスケード特徴学習を実行，階層的クラスタリングが物体のグルーピングに適用されそれぞれのモデルをfine-tuning・CascadeRegion-Proposal-NetworkandFastRCNN(CRAFT)[3]:RPNの候補領域を再評価(IoU>0.7をposi,IoU<0.3をnega)して候補領域をさらに絞り込み，Cascade識別器により識別

・ImageNetDetecSonにおいて52.7%,ImageNetDetecSonにて3位(MSRAは62.1%)・CRAFTにより候補領域の精度が94+%

WM(Univ.ofChineseAcademyofSciences,PekingUniv.)LiShen,ZhouchenLin,inILSVRC,2015.

【3】

手法

LinksポスターhLp://image-net.org/challenges/talks/WM_presentaSon.pdf[1]K.He,X.Zhang,S.RenandJ.Sun.SpaSalpyramidpoolingindeepconvoluSonalnetworksforvisualrecogniSon.InECCV2014.

結果

・VGG-likeアーキテクチャ・ModelAは22層構成，最後のMaxプーリング層をSPP層[1]に置き換え・ModelBはmulS-scaleの統合，サンプルの非一様分布によるバランスサンプリング・RelayBack-PropagaSon(右図)による勾配消失の防止

・Place2にて優勝,ClassificaSonerrorが16.87%

ION,(CornellUniversity,MicrososResearch),SeanBell,KavitaBala,LarryZitnick,RossGirshick,“Inside-OutSideNet:DetecSngObjectsinContextwithSkipPoolingandRecurrentNeuralNetworks”,inILSVRC,2015.

【4】

手法

Links論文hLp://arxiv.org/pdf/1512.04143.pdfポスターhLp://image-net.org/challenges/talks/ion-coco-talk-bell2015.pdf

結果

・FastR-CNNをベースにする・FRCNNのROIpoolingは必要部の局所領域のみしか識別に用いないが，提案ではconv3/conv4/conv5を統合，次元圧縮して全結合層へ入力・さらにNormalizaSon，Rescaleの処理も加える・4方向に走査可能なRNNを2つ積み上げることですべての特徴マップに対して表現可能・IONDetectorにより+5.1mAP・さらにデータの追加により+3.9mAP・FasterR-CNNのRPNを用いてデータ数を増やす・RPNは9anchorから22anchorに変更，7scalesx3aspectraSos,32x32・トレーニングにより+4.1mAP・Nodropout,longerwithlargermini-batches,セグメンテーションによる正規化・MR-CNN(PASCALデータ追加，閾値の設定，左右反転画像など)

・MSCOCOdetecSonにて第3位(学生トップ)・31.0%(test-compeSSon),runSme2.7s・33.1%(post-compeSSon)

CUvideoTeam,KaiKang(ChineseUniv.ofHongKong),“ObjectDetecSoninVideoswithTubeletsandMulS-contextCues”,inILSVRC,2015.

【5】

手法

LinksポスターhLp://image-net.org/challenges/talks/Object%20DetecSon%20in%20Videos%20with%20Tubelets%20and%20MulS-context%20Cues%20-%20Final.pdf[1]Wang,Lijunetal.VisualTrackingwithFullyConvoluSonalNetworks.ICCV2015.[2]J.Yan,etal.CRAFTObjectsfromImages,axivpreprint.[3]W.Ouyang,etal.Deepid-net:DeformabledeepconvoluSonalneuralnetworksforobjectdetecSon.CVPR,2015.

結果

・ビデオによる物体検出・初期値として静止画により検出・(1)時系列の候補領域(TemporalTubeletRe-scoring)のスコア値算出・静止画による検出はフレーム間で不安定なため，領域の時系列評価を行うのがTubelet・信頼度の高い領域の追跡[1]，空間的なMax-pooling，時間軸でのスコア再計算・空間的なMax-poolingにより，最大値領域のみを残す(Kalmanfilterによるbbox推定)・(2)MulS-contextsuppression(MCS)&MoSonGuidedPropagaSon(MGP)・MCSはすべてのbboxのスコア値をソート，時系列でハイスコアのクラスが変化しないものは検出結果として残す・MGPは検出結果をより時間的に後のフレームに伝播させ，前に検出されたものを後のフレームでも探索，NMSしやすい・(1),(2)のモデル統合・候補領域はCRAFT[2]・識別はDeepID-Net[3]

・ILSVRC2015VIDにて67.8%の検出率

JiankangDeng,(Amax),“CascadeRegionRegressionforRobustObjectDetecSon”,inILSVRC,2015.

【6】

手法

Links論文hLp://image-net.org/challenges/talks/JiankangDeng_UTS&NUIST-R.pdf

結果

・ベースラインはVGG-16(45.6)・アップデートとして，RPN12anchors(+0.72),CascadeRegionRegression(+2.93),LearntoCombine(+1.75),LearntoRank(+1.94),AddiSonalData(+2.64),VGG-16ensemble,MulSmodelsensemble(+2.87%)・最終的な検出率は58.98まで上昇(@validaSon2セット)・各畳み込みの工程毎にbboxregressionを行うCascadeRegionRegressionが効果的であり，2.93%も検出率が上昇した・ModelEnsembleはVGG-16,GoogLeNetやその他アーキテクチャから取り出した特徴マップを統合

・ILSVRC2015VID(External)にて73.1%の検出率

JieShao,XiaotengZhang,JianyingZhou,ZhengyanDing,(Trimps),inILSVRC,2015.

【7】

手法

LinksポスターhLp://image-net.org/challenges/talks/Trimps_ilsvrc2015.pdf

結果

・複数のモデルを統合，スコア値により統合(+1.07%),ラベルによる統合(+1.17%)・7xBN-IncepSon(GoogLeNet-like;32layers)・2xMSRA-Net(PReLU;22layers)・データ拡張あり・LocalizaSonはFast-R-CNNをベースラインとした・候補領域はEdgeBoxes

・ILSVRC2015objectlocalizaSoin12.29%で2位(追加データOK-extradataでは1位)・ILSVRC2015objectVID46.1%で4位(extradataでは3位)・SceneclassificaSon17.98%のエラー率で4位・ILSVRC2015objectdetecSonでは44.6%で7位

MIL-UT,MasatakaYamaguchi,QishenHa,KatsunoriOhnishi,MasatoshiHidaka,YusukeMukuta,TatsuyaHarada,inILSVRC,2015.

【8】

手法

LinksポスターhLp://image-net.org/challenges/posters/MILUT.pdf

結果

・FastR-CNN+VGG-16をベースラインとする・FC7(sosmaxの前の層)を特徴として使用・第4のmax-pooling層をRoIpoolinglayerに置き換える・RoIpoolingによる特徴と画像全体のCNN特徴を組み合わせる・Bboxregressionも適用する・BayesianopSmizaSonによるモデルの統合

・ILSVRC2015DETwithexternaldataにて47.0%,第3位