cvpr2017 3d computer vision papers

CVPR20173D Computer Vision papers

東京大学相澤山﨑研究室2017/10/03 B4 金子真也

プレゼンター

プレゼンテーションのノート

相澤山崎研所属の金子真也が～というテーマで発表をさせていただきます。

1

What is this？• 3D Computer VisionとしてカテゴライズされているCVPR2017の論文を一覧にしました

• それぞれの論文に対し, Abstract翻訳(by Google) + 内容をよく表す図を使って1ページにまとめてます

• 個人的に一通り3DCV系の論文を軽く目を通すためのまとめだと考えてもらえれば幸いです

• 個人的に面白そうだと思った論文を太線や色付きにしているので参考にしてください

• CVPR2017 accepted papers on the Webhttp://www.cvpapers.com/cvpr2017.html

http://www.cvpapers.com/cvpr2017.html

Papers

3

Poster1-11. Face Normals “in-the-wild” using Fully Convolutional Networks2. A Non-Convex Variational Approach to Photometric Stereo

Under Inaccurate Lighting3. A Linear Extrinsic Calibration of Kaleidoscopic Imaging System

From Single 3D Point4. Polarimetric Multi-View Stereo5. An Exact Penalty Method for Locally Convergent Maximum

Consensus6. Deep Supervision With Shape Concepts for Occlusion-Aware

3D Object Parsing7. Amodal Detection of 3D Objects: Inferring 3D Bounding Boxes

From 2D Ones in RGB-Depth Images

4

Poster1-21. Exploiting 2D Floorplan for Building-Scale Panorama RGBD

Alignment2. A Combinatorial Solution to Non-Rigid 3D Shape-To-Image

Matching3. NID-SLAM: Robust Monocular SLAM Using Normalised

Information Distance4. End-To-End Training of Hybrid CNN-CRF Models for Stereo5. Learning Shape Abstractions by Assembling Volumetric

Primitives6. Locality-Sensitive Deconvolution Networks With Gated Fusion

for RGB-D Indoor Semantic Segmentation7. Acquiring Axially-Symmetric Transparent Objects Using

Single-View Transmission Imaging

5

Poster1-28. Regressing Robust and Discriminative 3D Morphable Models

With a Very Deep Neural Network9. End-To-End 3D Face Reconstruction With Deep Neural

Networks10. DUST: Dual Union of Spatio-Temporal Subspaces for

Monocular Multiple Object 3D Reconstruction

6

Poster2-11. Scalable Surface Reconstruction From Point Clouds With

Extreme Scale and Density Diversity2. Synthesizing 3D Shapes via Modeling Multi-View Depth

Maps and Silhouettes With Deep Generative Networks3. General Models for Rational Cameras and the Case of

Two-Slit Projections4. Accurate Depth and Normal Maps From Occlusion-Aware

Focal Stack Symmetry5. A Multi-View Stereo Benchmark With High-Resolution

Images and Multi-Camera Videos6. Non-Contact Full Field Vibration Measurement Based on

Phase-Shifting7. A Minimal Solution for Two-View Focal-Length Estimation

Using Two Affine Correspondences

7

Poster2-18. PoseAgent: Budget-Constrained 6D Object Pose Estimation

via Reinforcement Learning9. An Efficient Background Term for 3D Reconstruction and

Tracking With Smooth Surface Models

8

Poster2-21. Surface Motion Capture Transfer With Gaussian Process

Regression2. Visual-Inertial-Semantic Scene Representation for 3D Object

Detection3. Template-Based Monocular 3D Recovery of Elastic Shapes

Using Lagrangian Multipliers4. Learning Category-Specific 3D Shape Models From Weakly

Labeled 2D Images5. Simultaneous Geometric and Radiometric Calibration of a

Projector-Camera Pair6. Learning Barycentric Representations of 3D Shapes for

Sketch-Based 3D Shape Retrieval7. Geodesic Distance Descriptors

9

Poster3-11. Self-Calibration-Based Approach to Critical Motion Sequences

of Rolling-Shutter Structure From Motion2. Semi-Calibrated Near Field Photometric Stereo3. Semantic Multi-View Stereo: Jointly Estimating Objects and

Voxels4. Learning to Predict Stereo Reliability Enforcing Local

Consistency of Confidence Maps5. The Misty Three Point Algorithm for Relative Pose6. The Surfacing of Multiview 3D Drawings via Lofting and

Occlusion Reasoning7. A New Representation of Skeleton Sequences for 3D Action

Recognition8. A General Framework for Curve and Surface Comparison and

Registration With Oriented Varifolds

10

Poster3-19. Learning to Align Semantic Segmentation and 2.5D Maps for

Geolocalization10. A Generative Model for Depth-Based Robust 3D Facial Pose

Tracking11. Fast 3D Reconstruction of Faces With Glasses12.An Efficient Algebraic Solution to the Perspective-Three-

Point Problem

11

Poster4-11. Semantically Coherent Co-Segmentation and Reconstruction of

Dynamic Scenes2. On the Two-View Geometry of Unsynchronized Cameras3. Using Locally Corresponding CAD Models for Dense 3D

Reconstructions From a Single Image4. A Clever Elimination Strategy for Efficient Minimal Solvers5. Convex Global 3D Registration With Lagrangian Duality6. DeMoN: Depth and Motion Network for Learning Monocular

Stereo7. 3D Bounding Box Estimation Using Deep Learning and

Geometry8. A Dataset for Benchmarking Image-Based Localization

12

Poster4-21. SGM-Nets: Semi-Global Matching With Neural Networks2. Stereo-Based 3D Reconstruction of Dynamic Fluid Surfaces by

Global Optimization3. Fine-To-Coarse Global Registration of RGB-D Scans4. Analyzing Computer Vision Data - The Good, the Bad and

the Ugly5. Product Manifold Filter: Non-Rigid Shape Correspondence

via Kernel Density Estimation in the Product Space6. Unsupervised Vanishing Point Detection and Camera

Calibration From a Single Manhattan Image With Radial Distortion

7. Toroidal Constraints for Two-Point Localization Under High Outlier Ratios

13

Poster4-28. 4D Light Field Superpixel and Segmentation9. Exploiting Symmetry and/or Manhattan Properties for 3D

Object Structure Estimation From Single and Multiple Images

Abstracts

Poster1-1

16

Poster1-11. Face Normals “in-the-wild” using Fully Convolutional Networksこの作業では、特に人間の顔に焦点を当て、単一の輝度画像から表面法線を推定する問題に対するデータ駆動アプローチを追求します。現時点で利用可能な顔データベースをデータセット構築に活用し、深い畳み込みニューラルネットワークを顔面の法線を「野生のもの」と見積もるタスクに合わせる新しい方法を紹介します。私たちは、挑戦的な表現や顔のポーズなど、画像から顔の正常を正確に回復できる完全な畳み込みネットワークを訓練します。最先端のシェイプシェーディングシェーディングと3D再構成技術と比較し、提案されたネットワークが実質的により正確で現実的なノーマルを回復できることを示します。さらに、既存の他の面特異的表面回復法とは対照的に、私たちはネットワークの完全な畳み込み性のために明示的なアライメントステップを解決する必要はありません。

17

Poster1-12. A Non-Convex Variational Approach to Photometric Stereo

Under Inaccurate Lightingこの論文では、キャリブレーションまたはキャリブレーションされていない測光ステレオ法のいずれかによって得られた、不正確な照明の存在下で測光ステレオ問題に取り組んでいます。ノイズと外れ値の正確なモデリングに基づいて、堅牢な変分アプローチが導入されています。明示的に自己影を説明し、再評価ミスマイターに頼ることによって、キャスシャドウと鏡面性の堅牢性を強制する。結果として得られる非凸モデルは、計算効率の良い交互再重み付き最小二乗アルゴリズムによって解決される。暗黙のうちに統合性を強制するので、新しい変種アプローチは、照明の強度と方向の両方を改善することができます。

18

Poster1-13. A Linear Extrinsic Calibration of Kaleidoscopic Imaging System

From Single 3D Point

本論文では、鏡の法線と距離を推定することにより、万華鏡画像システムの新しい外来校正を提案する。この論文で解決すべき問題は、複数の反射を通して一貫したすべてのミラーパラメータの同時推定です。鏡面ごとにパラメータを推定するために参照3Dオブジェクトの直接画像と鏡像のペアを利用する従来の方法とは異なり、本発明の方法は、連立した推定問題を線形連立方程式の解にする。この論文の主な貢献は、未知のジオメトリの単一3D点の万華鏡2D投影からの複数のミラーパラメータの線形推定を導入することです。合成された画像と実際の画像を用いた評価は、従来の方法と比較して提案されたアルゴリズムの性能を示す。

19

Poster1-14. Polarimetric Multi-View Stereoマルチビュー・ステレオは、3次元再構成のための機能対応に依存しているため、特徴のないシーンを扱う際に根本的に欠陥があります。本論文では、3次元再構成のための多視点からのエピポーラ制約と偏光からのピクセル毎の測光情報を組み合わせた偏光多視点ステレオを提案する。偏光は表面法線情報を明らかにし、したがってフィーチャーレス領域に深度を伝播するのに役立ちます。偏光マルチビューステレオは完全にパッシブであり、データキャプチャは偏光子または偏光カメラのいずれかで簡単に行うことができるので、制御されていない照明で屋外に適用することができます。拡散偏光または鏡面偏光のみに限定される偏光からの形状に関する以前の研究とは異なり、本発明者らは、混合偏光を有する実世界の物体を扱うことができる新規な偏光撮像モデルを提案する。我々は、偏光から表面方位角を推定する際に正確に2つのタイプの曖昧さがあることを証明し、グラフ最適化と等深度輪郭追跡でそれらを解決する。このステップは、完全な3次元再構成のために後で一緒に融合される最初の深度マップ推定を大幅に改善する。幅広い実験結果は、セラミックタイル、白い壁のオフィスルーム、屋外での反射率の高い車など、フィーチャーレス3Dオブジェクトの最新のマルチビューステレオ方法よりも高品質の3D再構成と優れたパフォーマンスを示します。

20

Poster1-15. An Exact Penalty Method for Locally Convergent Maximum

Consensus最大コンセンサス推定は、コンピュータビジョンにおいて非常に重要な役割を果たす。現在、最も一般的なアプローチは、安価であるが解決策の品質を保証しない、非決定論的仮説 - 検証アルゴリズムのクラスから引き出される。他の極端な場合には、本質的に徹底的な探索であり、実用的な大きさの入力に対してコストがかかる可能性のあるグローバルアルゴリズムが存在する。この論文は、局所的に収束する最大コンセンサスアルゴリズムを提案することによって両極端の間のギャップを埋めることを目指している。我々の方法は、線形相補性制約を用いて問題を定式化し、元の問題と等価であるペナルティ・バージョンを定義することに基づいている。ペナルティ問題に基づいて、最大コンセンサス問題を決定論的に解くことができるFrank-Wolfeアルゴリズムを開発する。ランダム化手法と比較して、我々の方法は決定論的かつ局所的に収束している。グローバルアルゴリズムに比べて、我々の方法は現実的な入力サイズではるかに実用的です。さらに、我々のアプローチは当然ながら幾何学的な残差に関する問題に適用可能である。

21

Poster1-16. Deep Supervision With Shape Concepts for Occlusion-Aware

3D Object Parsing単眼3Dオブジェクトの解析は、オクルージョンの推論や全体的なシーンの解釈を含むさまざまなシナリオで非常に望ましいです。我々は、単一のRGB画像を考慮して、視覚的状態を推測しながら、2次元画像および3次元空間における意味的部分を局所化するための深い畳み込みニューラルネットワーク（CNN）アーキテクチャを提示する。私たちの重要な洞察は、最終的なタスクに関連する中間概念を逐次推論するために、ドメイン知識を活用して、隠れた層を深く監督することによってネットワークを正統化することです。グラウンドトゥルースの3D形状と関連する概念を使用して必要な量のトレーニングデータを取得するために、3DオブジェクトCADモデルをレンダリングして、大規模な合成データを生成し、オブジェクト間の難しいオクルージョン構成をシミュレートします。私たちは合成データのみでネットワークを訓練し、2Dおよび3DのキーポイントのローカリゼーションとインスタンスセグメンテーションのためのKITTI、PASCAL VOC、PASCAL3D +、IKEAの拡張版を含む実イメージベンチマークで最先端のパフォーマンスを実演します。経験的な結果は、標準的なエンドツーエンドのトレーニングに比べてより少ない過剰適合をもたらす、実際の画像に合成データから知識の効果的な転写を示すことによって、私達の深い監督方式の有用性を実証します。

22

Poster1-17. Amodal Detection of 3D Objects: Inferring 3D Bounding Boxes

From 2D Ones in RGB-Depth Images本論文では、3次元物体検出のアモーダル知覚問題を扱う。このタスクは、3D世界でのオブジェクトのローカリゼーションを検出するだけでなく、RGB-Dイメージに一部が表示されている場合でも、物理的なサイズとポーズを見積もることです。最近のアプローチでは、深度チャネルからポイントクラウドを利用して3D空間内で直接3Dフィーチャを利用しようと試み、従来の2.5D表現アプローチよりも優れていることを実証しました。 Amodal 3D検出問題は、2.5D表現フレームワークに固執し、2.5D視覚的外観を3Dオブジェクトに直接関連付けることで再考します。屋内での物体の3次元位置、物理的大きさ、方向を同時に予測する新しい3次元物体検出システムを提案する。 NYUV2データセットの実験は、本発明者らのアルゴリズムが最先端技術よりも著しく優れていることを示し、3Dアモダル物体検出のための特徴を符号化することができる2.5D表現を示している。ソースコードとデータはすべてhttps://github.com/phoenixnn/Amodal3Detにあります。

Poster1-2

24

Poster1-21. Exploiting 2D Floorplan for Building-Scale Panorama RGBD

Alignment本稿では、2Dフロアプランを利用してパノラマRGBDスキャンを整列させる新しいアルゴリズムを紹介する。効果的なパノラマRGBDアラインメント技術が存在するが、そのようなシステムは、非常に高密度のRGBD画像サンプリングを必要とする。我々のアプローチは、フロアプラン画像を利用して必要なスキャン数を大幅に減らすことができます。我々は、従来のスキャン・トゥ・スキャン・アラインメントとは対照的に、フロアプラン上のスキャン配置として、新規なマルコフ・ランダム・フィールド推論問題を定式化する。技術的貢献は、マルチモーダル画像対応手がかり（スキャンとスケマティックフロアプランの間）と、固有の積み重ねバイアスを回避する新規なカバレッジポテンシャルにあります。提案されたアプローチは、5つの挑戦的な大きな屋内空間で評価されている。われわれが知る限りでは、建物規模の3Dポイントクラウドアライメントに2Dフロアプランイメージを使用する最初の有効なシステムを紹介します。ソースコードとデータはコミュニティと共有され、屋内マッピング研究をさらに強化します。

25

Poster1-22. A Combinatorial Solution to Non-Rigid 3D Shape-To-Image

Matching我々は、3D形状を非剛性に3D画像データにマッチングさせる問題のための組み合わせソリューションを提案する。この目的のために、形状を三角形メッシュとしてモデル化し、このメッシュの各三角形を剛性に変換して画像に適切に適合させる。隣接する三角形間の距離と相対回転にペナルティを課すことにより、イメージと形状情報の間のマッチングが妥協されます。本稿では、次の2つの大きな課題を解決します。第1に、適切なグラフ理論的手法を用いて、結果として生じる大規模なNPハードコンビナトリアル問題を解決します。第2に、無限の6次元Lie群SE（3）の効率的な離散化を提案する。私たちの知る限りでは、これは非剛体3D形状 - 画像マッチングのための最初の組み合わせ式です。既存のローカル（勾配降下）最適化方法とは対照的に、我々は良好な初期化を必要とせず、最適解の範囲内にある解を得る。我々は、非剛体3次元形状と非剛体3次元形状と画像の位置合わせの2つの問題について提案された方法を評価し、有望な結果を提供することを実証する。

26

Poster1-23. NID-SLAM: Robust Monocular SLAM Using Normalised

Information Distance我々は、正規化情報距離（NID）メトリックに基づく直接単眼SLAMアルゴリズムを提案する。測光誤差最小化に基づく現在の最先端の直接的な方法とは対照的に、我々の情報理論的NIDメトリックは、照明、天候、およびシーンの構造変化による外観変化に頑健性を提供する。合成屋内でのライティングの変化や天候（直射日光、雨、雪）の変化を乗り越えて、車載カメラから収集した実際のデータを使用して、ローカライゼーションとマッピングを成功させています。我々のアプローチは、OpenGLを使用するコンシューマGPU上でリアルタイムに実行され、最先端の測光方式に匹敵するローカライゼーション精度を提供しますが、外観変化に対する堅牢性において、直接方式とフィーチャベース方式の両方よりも顕著に優れています。

27

Poster1-24. End-To-End Training of Hybrid CNN-CRF Models for Stereo

我々は、ステレオ推定のための新規かつ原理的なハイブリッドCNN + CRFモデルを提案する。我々のモデルは、畳み込みニューラルネットワーク（CNN）と条件付きランダムフィールド（CRF）の両方の利点を統一された手法で利用することを可能にする。 CNNは、マッチングのための表現豊かな特徴と、CRFの単項と二進のコストを計算するために使用される特有のカラーエッジを計算します。推論のために、近似的に提案された高並列近似最小化器を計算するために小さな固定数の反復しか必要としない、高度に並列なデュアルブロック降下アルゴリズムを適用する。本稿では、大規模データのエンドツーエンドでハイブリッドCNN + CRFモデルを訓練するための構造化出力支援ベクトルマシン（SSVM）に基づく理論的に健全な方法を提案する。当社の訓練されたモデルは、浅いCNNを使用しているにもかかわらず、CRFの最終出力にいかなる種類の後処理も適用していないにもかかわらず、非常にうまく機能します。 Middlebury 2014やKitti 2015などの難しいステレオベンチマークで組み合わせたモデルを評価し、個々のコンポーネントのパフォーマンスも調べます。

28

Poster1-25. Learning Shape Abstractions by Assembling Volumetric

Primitives我々は、3Dボリュームプリミティブを使用してオブジェクトをアセンブルすることを学ぶことによって、複雑な形状を抽象化するための学習フレームワークを提示する。私たちのフレームワークは、3Dオブジェクトのシンプルで幾何学的に解釈可能な説明を生成するだけでなく、データ内の一貫した構造を自動的に発見し、活用することもできます。この方法を使用すると、シェイプコレクションのインスタンス間で一貫性のある解析を取得し、解釈可能なシェイプ類似性測度を構築するために活用できるシェイプ表現を予測できます。我々はまた、画像ベースの予測と形状操作のアプリケーションを検討します。

29

Poster1-26. Locality-Sensitive Deconvolution Networks With Gated Fusion

for RGB-D Indoor Semantic Segmentation本稿では、RGB-Dデータを用いた室内セマンティックセグメンテーションについて述べる。一般的に使用されているデコンボリューションネットワーク（DeconvNet）はこの課題に関して素晴らしい結果を達成しましたが、まだ2つの面で改善の余地があることがわかります。 1つは、境界セグメンテーションです。 DeconvNetは、各ピクセルのラベルを予測するために大きなコンテキストを集約し、オブジェクト境界のセグメンテーション精度を本質的に制限します。もう一つはRGB-D融合についてです。最近の最先端の方法は、異なる場面で異なるカテゴリを描写する際の2つのモダリティの様々な寄与に関わらず、通常、等重量スコア融合によるRGBおよび深度ネットワークを融合する。この2つの問題に対処するために、我々は最初に、各モダリティ上の境界セグメンテーションを洗練するために、ローカリティに敏感なDeconvNet（LS-DeconvNet）を提案する。 LS-DeconvNetは生のRGB-Dデータから各DeconvNetにローカルで視覚的かつ幾何学的な手がかりを組み込み、鋭いオブジェクト境界を回復しながら大きなコンテキストで粗い畳み込みマップをアップサンプリングすることを学ぶことができます。 RGB-D融合に向けて、我々は効果的に2つのLS-DeconvNetsを結合するためのゲート融合層を導入する。このレイヤーは、高性能のオブジェクト認識のために各ピクセルのRGBと深度の寄与を調整することを学ぶことができます。大規模なSUN RGB-Dデータセットと一般的なNYU-Depth v2データセットの実験は、我々のアプローチがRGB-D室内セマンティックセグメンテーションの新しい画期的な結果を達成することを示しています。

30

Poster1-27. Acquiring Axially-Symmetric Transparent Objects Using Single-View Transmission Imaging

我々は、軸対称透明物体の高品質再構成のための新規で実用的な解決法を提案する。特殊なケースでは、そのような透明なオブジェクトは現実世界に広がっています。これらの一般的な例は、非常にユニークで視覚的に魅力的な形態を有し、視覚およびグラフィック用途に興味のある再構成を可能にする眼鏡、タンブラー、ゴブレット、カラフなどである。当社の取得設定では、このようなオブジェクトを単一の視点からイメージングし、LCDパネルから放出された少数のパターンでそれらを直接後ろから照らす。次に、再構成ステップは、対象物の幾何学的形状および屈折率の最適化に基づいて、対象物を通過する光線の透過および屈折のシミュレーション結果の差を最小にする。オブジェクトの軸対称性を強力な形状として利用しているため、シンプルな商品取得設定を使用して単一の視点から堅牢な再構成を実現できます。本発明者らは、本発明者らのアプローチを用いて、いくつかの共通の回転対称およびより複雑なn倍対称透明物体の高品質再構成を実証する。

31

Poster1-28. Regressing Robust and Discriminative 3D Morphable Models

With a Very Deep Neural Network顔の3次元形状は、区別できることがよく知られている。それにもかかわらず、これは顔の認識にはほとんど使用されず、常に制御された視聴条件の下で使用されます。これは、単一視点の3D顔再構成の既存の方法では深刻だが見過ごされがちな問題の症状であると主張している。「野生の中で」適用すると、3D推定値は不安定であり、過規則化されたものと一般的なもの。それに応じて、我々は、識別可能な3Dモーフィング可能顔モデル（3DMM）を回帰するための頑強な方法を説明する。私たちは、畳み込みニューラルネットワーク（CNN）を使用して、入力写真から直接3DMMの形状とテクスチャパラメータを退縮させます。膨大な数のラベル付きサンプルを生成する方法を提供することにより、この目的に必要なトレーニングデータの不足を克服します。我々のCNNによって生成された3D推定値は、MICCデータセット上の最先端技術の精度を上回っている。 3D-3D顔面照合パイプラインと組み合わせて、他の現代システムで使用される不透明な深い特徴ベクトルではなく、3D顔形状を表現として使用するLFW、YTFおよびIJB-Aベンチマークでの最初の競合顔認識結果を示します。

32

Poster1-29. End-To-End 3D Face Reconstruction With Deep Neural

Networks単一の2D顔画像からの単眼3D顔形状再構成は、その広い用途のために活発な研究領域であった。深層ニューラルネットワーク（DNN）の成功に触発されて、単一2D画像からのエンドツーエンド3D FAce再構成（UH-E2FAR）のDNNベースのアプローチを提案します。私たちのDNNモデルは、RGB画像と初期の3D顔形状レンダリングの両方を使用して反復的に3D顔を再構成し、洗練する最近の作品とは異なり、複雑な3Dレンダリングプロセスは避けられます。さらに、顔面再構成を改善するために、マルチタスクロス機能と融合畳み込みニューラルネットワーク（CNN）の2つのコンポーネントをDNNアーキテクチャに統合します。マルチタスクロス機能により、3D顔再構成は、中立3D顔形状再構成と表現的3D顔形状再構成に分割される。中立的な3D顔形状は、クラス特有のものである。従って、より高い層の特徴が有用である。これとは対照的に、表現力のある3D顔形状は、より低いまたは中間の層の特徴を好む。融合-CNNでは、異なる中間層からの特徴が融合され、3D表現的顔形状を予測するために変換される。広範な実験を通して、私たちは、3D顔再構成の精度を向上させるためのエンドツーエンドフレームワークの優位性を実証します。

33

Poster1-210. DUST: Dual Union of Spatio-Temporal Subspaces for

Monocular Multiple Object 3D Reconstruction我々は、単一のカメラによって取得された不完全な2D軌道から複数の変形オブジェクトの3D形状を再構成するアプローチを提示する。さらに、我々は同時に、空間セグメンテーション（すなわち、各フレーム内の各オブジェクトを識別する）と時間的クラスタリング（すなわち、シーケンスをプリミティブアクションに分割する）を提供する。これは、既存の作業を進化させます。これは、単一のオブジェクトと非閉塞トラックの問題のみに取り組んでいます。部分観測から一度にいくつかのオブジェクトを扱うために、我々は、空間軌道と時間空間の部分空間の和集合として点軌道をモデル化し、拡張されたラグランジュ乗数を介して両方のモダリティ、非観測点軌道および3D形状のパラメータを最適化する。このアルゴリズムは完全に監督されておらず、初期化を必要としない定式化をもたらす。私たちは、複雑な動きと密接な相互作用を伴うさまざまな活動を行ういくつかの人間の被験者を対象に、挑戦的なシナリオでの方法を徹底的に検証します。最先端の3D再構成結果を達成するアプローチを示し、空間的および時間的セグメンテーションも提供します。

Poster2-1

35

Poster2-11. Scalable Surface Reconstruction From Point Clouds With

Extreme Scale and Density Diversity本論文では、点密度の極端なジャンプ（我々の実験では3桁の大きさ）を扱うことができる、マルチスケールのマルチビューステレオポイントクラウドから3Dサーフェスメッシュをロバストに計算するためのスケーラブルなアプローチを提示する。我々のアプローチの根幹は、オクトリーデータパーティショニング、ローカルDelaunay四面体化、グラフカット最適化の組み合わせです。グラフのカット最適化は、局所的な4面体化が同じトポロジーを共有していない場合でも、局所的なドロネー四面体化から表面仮説を抽出するために1回、重複する表面仮説をマージするために1回、この定式化により、サブ問題ごとに一定のメモリ消費量を得ると同時に、Delaunayベースの最適化の密度非依存補間特性を保持することが可能になる。複数のパブリックデータセットでは、我々のアプローチは、精度、完全性、外れ値の復元力という点で最先端技術と非常に競争力があることを示しています。さらに、新たに記録された20億ポイントのデータセットと、4桁を超えるポイント密度の変動を処理することにより、プロセスあたり9GB未満のRAMを必要とすることで、我々のアプローチのマルチスケールの可能性を実証します。

36

Poster2-12. Synthesizing 3D Shapes via Modeling Multi-View Depth Maps and Silhouettes With Deep Generative Networks

我々は、3D形状の生成モデルを学習する問題を研究する。ボクセルまたは3D部品は、複雑な3D形状を構築するための基礎となる表現として広く使用されてきた。しかし、ボクセルベースの表現はメモリ要求が高く、部品ベースのモデルでは、キャッシュされた部分または豊富にパラメータ化された部分の大量のコレクションが必要です。我々は、多視点の奥行きマップまたはそれらの対応するシルエットに関する生成モデルを学習し、決定論的レンダリング関数を使用してこれらの画像から3Dシェイプを生成する代わりのアプローチをとる。形状の多視点表示は、3Dボクセルよりもはるかに高い解像度で2D深度マップおよびシルエットをモデル化することができるので、細かい細部の3Dモデルの生成を可能にする。さらに、我々の手法は当然ながら、1つまたはいくつかの視点の深さマップから基礎となる3D表現を回復する能力をもたらす。実験では、フレームワークがバリエーションと詳細を備えた3Dシェイプを生成できることを示しています。また、モデルには、オクルードされたオブジェクトを使用した実際のタスクにサンプル外の一般化力があることも示しています。

MIT + DeepMind

37

Poster2-13. General Models for Rational Cameras and the Case of Two-Slit

Projections最近[19]で紹介された合理的なカメラモデルは、抽象的な非線形イメージングシステムとそれらのマルチビュージオメトリを研究するための一般的な方法論を提供します。このペーパーは、合理的なカメラの「物理的な実現」を研究するためのフレームワークを基礎にしています。より正確には、物理的な視線とイメージポイントとの間のマッピング（元の説明にはない）を明示的に説明します。これにより、直接的および逆投影の簡単な分析式を提供できます。我々はまた、様々な射影変換の作用下で軌道を描く、「固有の」カメラモデルを考慮し、固有のパラメータの一般的な概念に導く。この方法論は一般的であるが、2つのスリットカメラの詳細な研究によって具体的に示されており、線形投影の対を用いてモデル化する。この単純な解析形式により、対応するプリミティブカメラのモデルを記述し、明確な幾何学的意味を持つ固有のパラメータを導入し、2視点対応を特徴付けるエピポーラテンソルを定義することができます。これは、動きと自己較正による構造の新しいアルゴリズムにつながります。

38

Poster2-14. Accurate Depth and Normal Maps From Occlusion-Aware Focal

Stack Symmetry我々は、4Dライトフィールドからの一貫した深さマップと法線マップを共同で推定するための新しいアプローチを紹介します。まず、焦点スタックの対称性からコストボリュームを構築する。しかし、以前のアプローチとは対照的に、我々は、頑健に閉塞に対処できるように部分焦点スタックを導入している。このアイデアは既に、より優れた視差マップをもたらす。第2に、マルチラベル最適化のための最近のサブラベル精度の方法でさえも、コスト面から区分的な平坦視差マップのみを回復し、法線は主に画像平面に向いている。これにより、これらのアプローチから回復された法線マップは、潜在的な後続のアプリケーションには不適切です。したがって、法線方向への新規な先行リンク深さで正則化を提案し、結果として生じる通常のフィールドの滑らかさを課す。次に、深度と法線を共同して最適化することで、最近のベンチマークでの精度で以前の作業を上回る推定値を達成します。

39

Poster2-15. A Multi-View Stereo Benchmark With High-Resolution Images

and Multi-Camera Videos既存のマルチビューステレオベンチマークの限界に動機付けられて、我々はこのタスクのための斬新なデータセットを提示する。この目標を達成するために、高精度レーザースキャナーを使用して様々な屋内外のシーンを記録し、さまざまな視野の高解像度DSLR画像と低解像度ステレオ動画の両方をキャプチャしました。画像をレーザ走査と整列させるために、幾何学的条件に基づいて測光誤差を最小化する堅牢な手法を提案する。以前のデータセットとは対照的に、私たちのベンチマークは斬新な課題を提示し、自然の風景から人工の屋内外の環境に至るまで多様な視点やシーンの種類をカバーしています。さらに、われわれははるかに高い時間的および空間的分解能でデータを提供する。当社のベンチマークは、ハンドヘルド携帯機器の重要な使用事例を初めてカバーし、高解像度のDSLRカメラ画像を提供します。私たちは、データセットとオンライン評価サーバーをhttp://www.eth3d.netから入手できます。

40

Poster2-16. Non-Contact Full Field Vibration Measurement Based on

Phase-Shifting振動計測システムは、業界で広く使用されています。加速度センサ、レーザ変位計、カメラでマーカを追跡する方法など、様々な振動計測技術が提案されている。しかしながら、これらの方法は、1つの点のみが測定され、マーカーを必要とすることを可能にする制限を有する。本発明者らは、位相シフトに基づく振動及び形状の両方の新規の非接触全磁場測定技術を提示する。私たちの重要なアイデアは、振動する物体の位相シフト誤差を分析するためにFFTを使用して振動する物体の周波数を取得することです。本発明者らの提案するアルゴリズムは、フレーム間最適化及びピクセル間最適化を反復することによって位相シフト誤差を推定する。我々のアプローチの特徴は、マーカやテクスチャなしで、異なる周波数の振動の表面を全領域で測定することです。当社の開発したシステムは、デジタル光処理（DLP）プロジェクタとカメラ（毎秒100フレーム）で構成された低コストのシステムです。実験の結果、物体の低周波振動を高い精度で非接触で測定できることが示された。また、振動物体表面の再構成を高精度に行うことができる。

41

Poster2-17. A Minimal Solution for Two-View Focal-Length Estimation

Using Two Affine Correspondences2つのアフィン対応を用いた最小解を提示して、2つの半較正カメラ間の共通焦点距離および基本行列、すなわち共通焦点距離を除く既知の固有パラメータを推定する。我々の知る限りでは、この問題は解決されていません。提案手法は、局所アファイン変換から導出された線形制約を用いて点対応に基づく手法を拡張する。得られた多変量多項式系は、隠れ変数技法によって効率的に解かれる。局所親和性のジオメトリを観察し、無効な根を排除する新規条件を導入する。残りの候補の中から最良のものを選択するために、特に高レベル雑音の場合の最近のものより優れた根選択技術が提案される。提案された2点アルゴリズムは、合成データと公的に利用可能な実像ペアの両方で検証される。提案されたソリューションのMatlab実装がこのペーパーに含まれています。

42

Poster2-18. PoseAgent: Budget-Constrained 6D Object Pose

Estimation via Reinforcement Learning最先端のコンピュータビジョンアルゴリズムは、次に検討すべき仮説について個別の選択を行うことによって効率を達成することが多い。これにより、計算資源を有望な候補に割り当てることができますが、そのような決定は区別できません。結果として、これらのアルゴリズムはエンドツーエンドの方法で訓練するのが難しい。本研究では、6Dオブジェクトの姿勢推定のための効率的なアルゴリズムを学習することを提案する。我々のシステムは、ポーズ推定システムが現在CNNによってパラメータ化された確率論的ポリシーとなる強化学習を用いて、既存の最先端のポーズ推定システムのパラメータを最適化する。さらに、計算時間を大幅に短縮する効率的なトレーニングアルゴリズムを紹介します。我々は、学習された姿勢推定手順が限られたリソースをより有効に活用し、困難なデータセットの最先端技術を向上させることを経験的に示している。我々のアプローチは、複雑なアルゴリズムパイプラインの微分可能なエンドツーエンドの訓練を可能にし、所定の計算予算を最適に活用することを学ぶ。

43

Poster2-19. An Efficient Background Term for 3D Reconstruction and

Tracking With Smooth Surface Models我々は、1つまたは複数のビューから観察されるオブジェクトの視覚的な船体内で滑らかなスプラインのような表面として表現される3Dモデルを縮小し制約するための新しい戦略を提示する。この新しい「バックグラウンド」または「シルエット」という用語は、レイキャスティングまたはレイポテンシャルに基づく配合の精度と、イメージプレーンの距離変換に基づく以前のアプローチの効率性を組み合わせたものです。全体的な定式化は、内部非線形最小化（レイキャスティング）と表面ジオメトリ、カメラポーズおよびデータ対応の共同最適化を交互に行うことによって解決される。 3D再構成と物体追跡に関する実験は、新しい定式化が、例えば非凸形状をモデル化する場合のように、既存の手法のいくつかの欠点を訂正することを示している。さらに、我々の提案は、オブジェクトセグメンテーションの欠陥に対してより頑強であり、測定における不確実性の存在を本質的に扱う（例えば、RGB-Dカメラによって提供される画像におけるヌル深度値）。

Poster2-2

45

Poster2-21. Surface Motion Capture Transfer With Gaussian Process

Regressionキャプチャされた4Dモデル間でモーションを転送する問題を解決します。我々は特に、被験者間の動きを伝播させることによって4Dデータセットを自動的に増大させる能力が、人間の視覚コーパス上に構築された最近のビジョンアプリケーションの大部分に関心を持つヒト被験者に焦点を当てている。対応するキーポーズの疎なセットが知られている2つの被験者のための4Dトレーニングセットが与えられると、我々の方法は、新たに捕捉された動きを1つの被験者から別の被験者に移すことができる。訓練集合に関して非常に多様な入力運動への伝達を一般化する目的で、この方法は、非線形姿勢補間に基づく新しい伝達モデルに寄与する。ガウスプロセス回帰をベースにして、このモデルは、モーション転送中のポーズ相互依存性を考慮に入れて、個々のモーションプロパティを捕捉して保持することを意図しています。私たちの実験では、既存のポーズマッピング法よりも視覚的に定性的かつ定量的な改善が見られ、最先端技術と比較して本手法の汎化能力が確認されています。

46

Poster2-22. Visual-Inertial-Semantic Scene Representation for 3D Object

Detection我々は、電話から無人機までのモダンなモビルプラットフォームで普及しているビデオおよび慣性センサ（加速度計およびジャイロメータ）を使用して、3次元空間の物体を検出するシステムについて説明します。慣性は、オブジェクトにクラス固有のスケールプリオーサーを課す能力を提供し、グローバルな方向参照を提供します。空間におけるオブジェクトの意味（アイデンティティ）および構文（ポーズ）属性の事後的な最小限の表現は、ローカリゼーションおよびマッピングフィルタによって維持され得る幾何学的な項と尤度関数とに分解することができる。識別的に訓練された畳み込みニューラルネットワークによって近似することができる。得られたシステムは、リアルタイムで因果的にビデオストリームを処理することができ、永続的なシーン内のオブジェクトの表現を提供する：証拠とともにオブジェクトの存在に対する信頼が高まり、以前に見られたオブジェクトは一時的に閉塞されても彼らの復帰は自動的に再検出をプライミングすると予測されます。

47

Poster2-23. Template-Based Monocular 3D Recovery of Elastic Shapes

Using Lagrangian Multipliers本論文では、固定単眼カメラからの弾性形状の3次元復元のための効率的なテンプレートベースの方法を提示する。オブジェクトの弾力性を利用することにより、非拡張性制約を使用するアイソメトリックメソッドとは対照的に、大きな範囲の変形を処理することができます。我々の方法は、ラグランジュ乗数を用いた鞍点問題として表現され、機械的制約と光学的制約の両方を統合し、ディリクレの境界条件を固定または自由に統合する線形システムとなる。我々は、材料の性質に関する事前知識が必要でないことを実験的に示す。これは、異なる種類の材料を有する弾性および非弾性の物体を用いた本発明の方法の一般的な有用性を示す。既存の技術との比較は、25％から130％の範囲の歪みを有する合成および実際の弾性物体に対して行われ、誤差が小さくなる。

48

Poster2-24. Learning Category-Specific 3D Shape Models From Weakly

Labeled 2D Images最近、研究者は、クラスラベル、キーポイント、および地上真理図地形セグメンテーションからなる手動アノテーションを使用して、2D画像からカテゴリ固有の3D形状モデルを構築する大きなプロセスを実施しました。しかし、フィギュアグラウンド分割の注釈は、依然として労働集約的で時間がかかる。このような手作業によるアノテーションを提供する負担をさらに軽減するために、我々は、弱くラベル付けされた2D画像のみを使用することによって、カテゴリー固有の3D形状モデルを学ぶための最も初期の努力を行っている。一般的なオブジェクトセグメンテーションとカテゴリ固有の3次元形状再構成の基本的な関係を明らかにすることにより、クラスターレベルの学習カリキュラムに沿ってこれらの2つの問題を共同で解決する新しいフレームワークを提案します。困難なPASCAL VOCベンチマークの包括的な実験では、弱い教師付き学習フレームワークを使用して訓練されたカテゴリ固有の3次元形状モデルが、高価なマニュアルセグメンテーションアノテーションを使用した最先端の手法のパフォーマンスにある程度まで近づく可能性があることが示されています。さらに、この実験では、共通のオブジェクトセグメンテーションを支援するために3D形状モデルを使用することの有効性も実証されています。

49

Poster2-25. Simultaneous Geometric and Radiometric Calibration of a

Projector-Camera Pair本発明者らは、プロジェクタ - カメラ対の幾何学的及び放射的較正を同時に可能にする新規な方法を提示する。シンプルで特殊なハードウェアを必要としません。私たちは、特別に設計された投影パターンを、異なる測色特性の印刷されたパターンにあらかじめワープし、整列させます。いくつかの方向でパターンをキャプチャした後、我々は、異なるカラーチャネルにおける2つのパターンのコーナ位置を推定することによって幾何学的較正を実行する。投影された四角の内部に含まれる情報を使用して、プロジェクタのラジオメトリック較正を実行します。我々の方法は、より効率的かつユーザフレンドリである一方で、すべてが別個の幾何学的および放射測定の較正を必要とする現在の方法と同等であることを示す。

50

Poster2-26. Learning Barycentric Representations of 3D Shapes for Sketch-Based 3D Shape Retrieval

2Dスケッチと3Dシェイプは2つの異種ドメインに由来するため、スケッチを使用して3Dシェイプを取得することは難しい問題です。本論文では、スケッチベースの3次元形状検索のための3次元形状の2次元投影の重心を学習することを提案する。具体的には、まず、2つの深い畳み込みニューラルネットワーク（CNN）を使用して、スケッチの深い特徴と3次元形状の2次元投影を抽出する。 3D形状の場合、複数の投影の深い特徴のWasserstein重心を計算して重心表示を形成します。最後に、メトリックネットワークを構築することにより、差別的かつコンパクトな3D形状を学び、検索のためのスケッチ機能を学ぶために、深い特徴空間の3D形状とスケッチのWasserstein重心に差別的な損失を定式化する。提案された方法は、SHREC'13およびSHREC'14スケッチトラックベンチマークデータセットで評価される。最先端の手法と比較して、提案手法は検索性能を大幅に向上させることができる。

51

Poster2-27. Geodesic Distance Descriptors

Gromov-Hausdorff（GH）距離は、距離空間間の距離を測定するために伝統的に使用されています。これは非剛体形状の比較と等価曲面のマッチングに適合し、一方の面を他方の面に埋め込む際の最小の歪みとして定義され、最適な対応はこの歪みを最小にするマップとして記述することができる。このような最小化を解決することは、一致した表面に対してすべての対の測地線距離の事前計算および記憶を必要とする困難な組み合わせ問題である。サーフェス上の関数をコンパクトに表現する一般的な方法は、ラプラス - ベルトラミ演算子（LBO）の主要な固有関数にそれらを投影することです。トランケートされたとき、LBOの基礎は最小最小の意味で有界勾配をもつ関数を表現するのに最適であることが知られている。 Spectral-GMDSのような方法は、このアイデアを利用して、切り詰められたスペクトル領域で動作することによってGH距離に関連する最小化を簡素化し、効率的に近似し、ほぼ等角の形状のマッチングのための状態を得る。しかしながら、測地線距離のような表面上の特定の機能のみを考慮する場合、最適化された基礎はより良い代替案と考えることができる。さらに、GH距離を近似する現在の単純化は、置換行列の低ランク近似および緩和による誤差を導入する。ここでは、測地距離のコンパクトな近似に最適な測地距離ベースをFrobeniusノルムに関して定義します。

Geodesic Distance Descriptor（GDD）を抽出するために提案された基準を使用します。測地距離の情報は、基底関数の線形結合としてエンコードされます。次に、これらのアイデアを使用して、情報をほとんど失うことなく、メトリックスペースの一致する問題を効率的かつ正確に近似する方法を示します。提案された基底と記述子を効率的に近似するために、実際に測地距離をすべて計算して格納することなく、最近の方法を取り入れています。これらの観察は、形状対応に非常に単純で効率的な手順を構築するために使用されます。実験結果は、GDDが最先端の形状マッチング手順の精度と効率の両方を改善することを示している

Poster3-1

53

Poster3-11. Self-Calibration-Based Approach to Critical Motion Sequences of Rolling-Shutter Structure From Motion

本稿では、ローリングシャッタ（RS）SfMのクリティカルモーションシーケンス（CMS）について考察する。線形化された純回転を有するRSカメラモデルを用いて、RS歪みは、「虚数」カメラの2つの内部パラメータと、レンズ歪みと同様の1パラメータ非線形変換とによって近似的に表現され得ることを示す。次に、スキューとアスペクト比が未知であり、画像シーケンスにおいて変化する、仮想カメラの自己較正として問題を再定式化する。この定式化では、CMSの一般的な表現を導出する。我々は、我々の方法が最近文献で報告されたCMSを説明し、縮退に対処するための新たな救済策を提示できることも示している。我々の理論的結果は実験結果と良く一致する。ナイーブなバンドル調整を採用したときに見られる縮退と、私たちの方法でそれらがどのように解決されるかを説明しています。

54

Poster3-12. Semi-Calibrated Near Field Photometric Stereo

光源の強度が不明な近距離点光源（いわゆる半較正設定）の下で、測光ステレオの非線形問題に取り組んでいます。深度、アルベド、強度の強固な共同回復を目的とした変分アプローチが提案されている。得られた非凸モデルは、各サブ問題の構築が反復的に再重み付けされた最小二乗法を利用する、収束可能な交互最小化スキームによって数値的に解決される。特に、多様体最適化技術は、ランク1行列多様体に対応する部分問題を解決するのに使用される。実世界のデータセットの実験では、この新しいアプローチが収束に関する理論的保証だけでなく、より正確なジオメトリを提供することが実証されています。

55

Poster3-13. Semantic Multi-View Stereo: Jointly Estimating Objects and

VoxelsRGB画像からの高密度3D再構成は、オクルージョン、テクスチャレスまたは反射面、および他の課題のために非常に悪い問題である。我々は、これらのあいまいさに対処するために、オブジェクトレベルの形状を提案する。この目的のために、多視点の画像エビデンスを複数のオブジェクトからの3D形状情報と統合する確率的モデルを作成する。このモデルの推論は、シーン内のオブジェクトの存在と正確な3Dポーズと同様に、シーンの高密度3D再構成をもたらす。我々の手法は、入力形状では捕捉されなかった詳細を復元することができ、画像の証拠が弱い閉塞領域では入力モデルをデフォルトにする。その確率的性質のために、アプローチは、3Dモデルの近似ジオメトリに加えて、シーンに存在しない入力形状に対処することができる。我々は、いくつかの挑戦的な屋内と屋外のデータセットについて、そのアプローチを定量的に評価する。

56

Poster3-14. Learning to Predict Stereo Reliability Enforcing Local Consistency of Confidence Maps

信頼性測定は、ステレオマッチングアルゴリズムによって実行される信頼性の低いディスパリティ割り当てを推定し、最近証明されたように、いくつかの目的に使用することができる。このペーパーは、深いネットワークによって、地元の一貫性の前提を利用した最先端の信頼措置の有効性を高めることを目指しています。私たちは、ランダムフォレストとCNNに基づいた5つの成果の高いものを含む23の信頼度測定法、2つの一般的なステレオアルゴリズムとKITTI 2012データセットの小さなサブセット（194フレームのうちの25）でネットワークを訓練することで、実験結果は、我々のアプローチが、残りのフレームに対する23の信頼度測定値のすべての有効性を劇的に増加させることを示している。さらに、再トレーニングをせずに、KITTI 2015とミドルベリー2014のさらなる相互評価を報告します。これは、大幅に異なる入力データを処理する場合でも、それぞれの信頼度に対して顕著な改善が得られることを示しています。私たちが知る限り、これは従来のピクセル単位の信頼度推定を超えた最初の方法です。

57

Poster3-15. The Misty Three Point Algorithm for Relative Pose

水中画像からのシーン再構成には、海洋研究およびレクリエーション画像操作のための有用性があるため、重要な関心がある。本論文では、水中映像の2つのビューカメラ動き推定のための新しいアルゴリズムを提案する。我々の方法は、水の減衰特性によってもたらされる制約と色の外観に対するその影響を利用して、水中カメラの2つの観察ビューに対する点の深さの差を決定する。さらに、カメラの相対的姿勢を推定するために、このような観測点の3つの深度差を利用するアルゴリズムを提案する。未知の水中減衰係数が与えられた場合、我々の方法は相対運動をスケールまで推定する。結果は一般化されたカメラとして表されます。実際のデータとシミュレートされたデータの両方について評価する。

58

Poster3-16. The Surfacing of Multiview 3D Drawings via Lofting and Occlusion Reasoning

近年、複数のビューからのシーンの3次元再構成が、孤立した特徴点、強度、または曲線構造を関連付ける方法によって、印象的な進歩を遂げています。一般的な設定では、制御された取得、限られた数のオブジェクト、オブジェクト上の豊富なパターン、または特定のモデルに従うオブジェクトカーブを必要とせず、これらの方法の大部分は、再構成されたシーンの未構成ポイントクラウド、メッシュ、カーブのネットワークとして3D図面を作成することを除いていくつかの例外があります。しかし、ロボット工学、都市計画、工業デザイン、ハードサーフェスモデリングなどの多くのアプリケーションでは、明確な3D曲線、サーフェス、およびそれらの空間的関係を作成する構造化表現が必要です。表面表現を再構成することは、計算された表現にぶら下がる足場のように機能する3D図面によって制約を受けることができ、再構成の堅牢性と品質が向上します。この論文では、表面再構成による3D描画を完了する方法の1つとして、ロフト・アルゴリズムによるオクルージョンの推論を検討します。

59

Poster3-17. A New Representation of Skeleton Sequences for 3D Action Recognition

この論文は、スケルトンシーケンス（すなわち、人間のスケルトンジョイントの3D軌道）を用いた3D動作認識のための新しい方法を提示する。提案手法は、各スケルトンシーケンスを、深層ニューラルネットワークを用いた空間時間特徴学習のために、数フレームからなる3つのクリップに変換する。各クリップは、スケルトンシーケンスの円柱座標の1つのチャネルから生成されます。生成されたクリップの各フレームは、スケルトンシーケンス全体の時間情報を表し、関節の間にある特定の空間的関係を組み込んでいる。クリップ全体は、異なる空間関係を有する複数のフレームを含み、人間の骨格の有用な空間構造情報を提供する。深い畳み込みニューラルネットワークを用いて、生成されたクリップのフレームからスケルトンシーケンスの長期的な時間情報を学習し、MTLN（Multi-Task Learning Network）を使用して、生成されたクリップのすべてのフレームを並列に処理することを提案する行動認識のための空間構造情報を組み込むこと。実験結果は、提案された新しい表現の有効性と、3次元動作認識のための特徴学習法を明らかに示している。

60

Poster3-18. A General Framework for Curve and Surface Comparison and Registration With Oriented Varifolds

このホワイトペーパーでは、曲線、曲線セット、サーフェスなどの方向付けされた幾何学的形状または無向きの幾何学的形状間のデータ忠実度メトリックの構築に関する一般的な設定を紹介します。これらのメトリックは、局所的な接線ベクトルまたは法線ベクトルの分布としての形状の表現と、これらの空間上の再現カーネルの定義に基づいています。 1つの共通の設定で組み合わされ、現在および変数の以前のフレームワークを拡張する構造は、形状の任意の種類のパラメータを必要とせずに容易に計算することができ、ある種の例えば、不具合悪いセグメンテーションから。次に、形状比較、クラスタリング、異型登録などのさまざまな問題で使用された場合、そのようなメトリックの汎用性と可能性について、合成例を用いて感覚を与えます。

61

Poster3-19. Learning to Align Semantic Segmentation and 2.5D Maps for Geolocalization

我々は、GPSによって提供された位置の粗い推定から開始し、周囲の建物の単純な未テクスチャ2.5Dモデルを使用して、都市環境におけるジオローカリゼーションのための効率的な方法を提示する。我々は、ポーズを最適化する新規で効率的で堅牢な方法である：入力画像のセマンティックセグメンテーションとこの推定からの建物のレンダリングを考慮して、ポーズ推定を改善するための最良の方向を予測するためにディープネットワークを訓練する。次に、良い姿勢に収束するまでこのCNNを繰り返し適用します。このアプローチは、2.5Dモデルが広範に利用可能である一方で、取得および適合することが困難な周囲の参照画像の使用を回避する。したがって、トレーニング中に見えない場所にも適用することができます。

62

Poster3-110. A Generative Model for Depth-Based Robust 3D Facial Pose Tracking

重度の閉塞と任意の表情変動を伴う制約されていないシナリオでは、深さベースの堅牢な3D顔面ポーズ追跡の問題を考慮する。洗練された訓練や手作業による介入を必要とする従来の深さベースの差別的またはデータ駆動型の方法とは異なり、我々は、その場での姿勢追跡と顔モデル適応を一体化する生成フレームワークを提案する。特に、顔モデルの根底にある分布と不確実性を生成し予測する柔軟性を持つ統計的な3次元顔モデルを提案する。さらに、ICPベースの顔面姿勢推定を用いる先行技術とは異なり、入力点群に対する顔モデルの可視性に基づいて姿勢を正規化するレイ可視性制約を提案し、これはオクルージョンに対するロバスト性を増強する。 BiwiおよびICT-3DHPデータセットの実験結果は、提案されたフレームワークが効果的であり、最先端の深度ベースの方法を上回ることを示しています。

63

Poster3-111. Fast 3D Reconstruction of Faces With Glasses

我々は眼鏡をかけた人々の高速3D顔再構成のための方法を提示する。我々の方法は、再構築される顔が眼鏡によって部分的に閉塞される場合を明示的かつロバストにモデル化する。私たちは、データベースや学習を必要とせずに、多種多様な形、色、スタイルに対応するシンプルで汎用的なモデルを提案しています。私たちのアルゴリズムはシンプルで高速であり、メモリとランタイムリソースの両方を少量しか必要とせず、商品携帯電話で高速なインタラクティブ3D再構成が可能です。合成データおよび実データに対する我々のアプローチの徹底的な評価は、眼鏡の明示的モデル化による優れた再構成結果を示す。

64

Poster3-112. An Efficient Algebraic Solution to the Perspective-Three-Point Problem

この作業では、3つの既知の基準点の観測からカメラの位置と姿勢を決定するための古典的な視点3点（P3P）問題に対する代数的解を提示する。従来のアプローチとは対照的に、三角測量系のシステムを定式化するために、対応する幾何学的制約を採用することによって、カメラの姿勢を直接決定する。これは、未知の回転行列とそれに続くカメラの位置を決定するために、代数的アプローチに従って効率的に解かれる。最近の代替案と比較して、本発明の方法は、不要な（および数値的に不安定な）中間結果を計算することを回避し、より低い計算コストで高い数値精度および堅牢性を達成する。これらのメリットは、名目上の幾何学的構成に近い公称および近似に近い両方のモンテカルロシミュレーションによって検証されます。

PnP問題を解いた強そうな手法（読んどきたい）

Poster4-1

66

Poster4-11. Semantically Coherent Co-Segmentation and Reconstruction

of Dynamic Scenes本論文では、複数の静的カメラまたは移動カメラからの複雑な動的シーンの空間的および時間的にコヒーレントな意味的コセグメンテーションおよび再構成のためのフレームワークを提案する。セマンティック・コセグメンテーションは、空間的にも、1つの時点でのビュー間でも、時間的にも、類似の形状および外観を有する動的オブジェクトの間隔の広い時間間隔の間で、意味クラス・ラベルのコヒーレンスを利用する。セマンティック・コヒーレンスは、複雑なシーンのセグメンテーションと再構成を改善することを示しています。ビューと時間の間に一貫したセマンティックラベリングを強制することによって、シーンの意味的に一貫性のあるオブジェクトベースのコセグメンテーションおよび再構成のための共同式が提案される。意味論的トラッキングは、幅広く離れた動的オブジェクトのインスタンス間の意味ラベリングおよび再構成において時間的な一貫性を強制するために導入されている。動的オブジェクトのトラックレットは、ジョイントセグメンテーションと再構成で利用された外観の事前の学習と前兆の形成を可能にします。手持ち式移動カメラを用いた屋内および屋外の困難なシーケンスの評価は、セグメンテーションの精度の向上、時間的に一貫性のある意味ラベル付けおよび動的シーンの3D再構成を示す。

67

Poster4-12. On the Two-View Geometry of Unsynchronized Cameras

我々は、複数の非同期カメラからのビデオシーケンスからカメラジオメトリと時間シフトを同時に推定するための新しい方法を提示する。基本行列または画像間の時間シフトが未知のホモグラフィの同時計算のためのアルゴリズムが開発されている。我々の方法は、最小限の対応関係を使用する（基本行列では8、ホモグラフィでは4半分）ので、RANSACを使用したロバスト推定に適しています。さらに、我々は、数秒までの正しい時間シフトを見いだして、大幅に非同期であるシーケンスに対する適用性を拡張する反復アルゴリズムを提示する。我々は、合成された広範囲の現実世界のデータセットの方法を評価し、その結果は、カメラ同期の問題に対する幅広い適用性を示している。

Microsoft

68

Poster4-13. Using Locally Corresponding CAD Models for Dense 3D Reconstructions From a Single Image

我々は、1つの画像内に2次元ランドマークとシルエットのセットが与えられた場合、物体の密な3次元形状を推定する問題を調査する。このような問題に取り組む前に、密集したCADモデルの辞書があります。しかし、十分に大きなCADモデルの辞書を使用することは、一般的に計算上実行不可能である。一般化を促進するための辞書学習の一般的な戦略は、辞書要素の線形結合を可能にすることである。しかし、これもまた、大部分のCADモデルをグローバルな高密度対応に容易に配置することができないため、問題があります。本稿では、2ステップ戦略を提案する。まず、直交マッチングを使用して、辞書内の「最も近い」単一のCADモデルを投影画像に対して迅速に選択します。第2に、局所的な高密度対応に基づく新しいグラフ埋め込みを使用して、CADモデルの疎な線形結合を可能にする。我々は、合成シナリオと実世界シナリオの両方で実験的にフレームワークを検証し、3Dメッシュ再構成と容積表現の両方に対する我々のアプローチの優位性を実証する。

69

Poster4-14. A Clever Elimination Strategy for Efficient Minimal Solvers

私たちは、コンピュータビジョンの最小限のソルバを体系的に生成する新しい洞察を提示します。これにより、より小さくて速いソルバが実現します。多くの最小限の問題公式は、画像測定値が線形方程式のみに入る線形および多項式の結合されたセットである。このようなシステムを解くことは、線形方程式に現れないすべての未知数をまず除去し、残りの未知数に解を拡張することによって有用であることを示す。これは、リフトによる線形化によって完全非線形システムに一般化することができます。このアプローチは、未知の焦点距離および/または放射状歪みを有する部分的に較正された相対的なカメラポーズ計算の3つの問題において、より効率的なソルバーにつながることを実証する。また、以前には知られていなかった部分的に較正されたカメラの基本行列について、新たな興味深い制約を生成する。

70

Poster4-15. Convex Global 3D Registration With Lagrangian Duality

ユークリッド変換による3Dモデルの登録は、コンピュータビジョンの多くのアプリケーションの中核となる基本的なタスクです。この問題は、回転制約が存在するために非凸形であり、従来の局所最適化方法を局所極小に詰まる傾向にする。この論文では、一般的な幾何学的位置合わせモダリティ（つまり、ポイントツーポイント、ポイントツーライン、ポイントツープレーン）を統合した統一された定式化によって、さまざまな3D登録問題でグローバルに最適な変換を見つけることに取り組んでいます。この定式化は、最適化問題を対応の数と性質の両方から独立させる。我々の提案の主な新規性は、この問題のための強化されたラグランジュ二重緩和の導入であり、以前の同様のアプローチ[32]を上回っている。実際、理論的な保証がないにもかかわらず、合成と実際の実験の両方で網羅的な実験的評価は常に、二元性理論を利用して保証された世界的最適解を回復させる厳しい緩和をもたらした。したがって、我々の手法は、より計算集中的なBranch and Bound法に基づいて最先端の代替案[34]の時間の一部を実行しながら、グローバルな最適性保証を用いて効果的に3D登録を解決することを可能にする。

71

Poster4-16. DeMoN: Depth and Motion Network for Learning

Monocular Stereo本稿では、学習問題として動きから構造を定式化する。拘束されていない連続画像から奥行きとカメラの動きを計算するために、畳み込みネットワークをエンドツーエンドでトレーニングします。このアーキテクチャは、複数の積み重ねられたエンコーダ/デコーダネットワークから構成されており、コア部分はそれ自体の予測を改善することができる反復的なネットワークである。ネットワークは、深度と動きだけでなく、表面法線、画像間のオプティカルフロー、マッチングの信頼度を推定します。アプローチの重要な要素は、空間的な相対的な違いに基づくトレーニングの喪失です。モーションメソッドの従来の2フレーム構造と比較して、結果はより正確で堅牢です。一般的な単一画像ネットワークの深さとは対照的に、DeMoNはマッチングの概念を学び、したがって、トレーニング中に見られない構造によく一般化します。

72

Poster4-17. 3D Bounding Box Estimation Using Deep Learning and Geometry

我々は、単一の画像から3次元物体の検出および姿勢推定のための方法を提示する。物体の3次元方向を後退させるだけの現行の技術とは対照的に、本発明の方法は、まず深い畳み込みニューラルネットワークを用いて比較的安定した3次元物体特性を回帰し、次にこれらの推定を2次元物体バウンディングボックスによって提供される幾何学的制約と組み合わせて、バウンディングボックス。第1のネットワーク出力は、新規のハイブリッド離散連続損失を用いて3D物体の方向を推定し、これはL2損失よりも顕著に優れている。 2番目の出力は、代替案と比較して分散が比較的小さい3Dオブジェクトの次元を回帰し、多くのオブジェクトタイプでよく予測できます。これらの推定値と、2D境界ボックスによって課せられた平行移動の幾何学的制約と相まって、安定した正確な3Dオブジェクトポーズを回復することができます。我々は、3D方位推定の正式なメトリックと、得られた3D境界ボックスの精度の両方において、困難なKITTIオブジェクト検出ベンチマーク[2]で我々の方法を評価する。概念的には単純であるが、我々の方法は、セマンティックセグメンテーション、インスタンスレベルセグメンテーション、フラットグラウンドプライオリティ[4]、サブカテゴリ検出[23] [24]を活用するより複雑で計算コストの高い手法を凌駕する。離散連続損失は、Pascal 3D +データセットの3D視点推定の最先端技術の結果ももたらします[26]。

Zoox（激強自動運転ベンチャー）

73

Poster4-18. A Dataset for Benchmarking Image-Based Localization

画像ベースのローカリゼーションのベンチマーキングのための斬新なデータセットが提示される。視覚的な場所認識とローカリゼーションに関する研究の関心が高まっているため、過去数年間にいくつかのデータセットが公開されています。既存のデータセットの明らかな制限の1つは、クエリーイメージの正確なグランドトゥルースカメラポーズは、意味のある3Dメトリックシステムでは利用できないということです。これは、部分的には、これらのデータセットの基礎となる3DモデルがStructure from Motionメソッドから再構築されているためです。現在のところ、ローカリゼーションの精度のメトリック評価にはほとんど注意を払っていません。本稿では、高度な視覚的位置検出技術が要求精度の高いタスクに適用できるかどうかの問題に取り組んでいます。我々は、カメラとLiDARスキャナを用いて、大きな屋内環境のトレーニングデータを取得しました。さらに、携帯電話のカメラで2000を超えるクエリ画像を収集しました。 LiDARポイントクラウドを参考にして、世界座標系で正確に6自由度のカメラポーズを推定するための半自動アプローチを採用しました。提案されたデータセットは、公正で直感的なメトリックを使用して、さまざまなアルゴリズムのパフォーマンスを定量的に評価することを可能にします。

Poster4-2

75

Poster4-21. SGM-Nets: Semi-Global Matching With Neural Networks

Microsoft

本稿では、セミグローバルマッチング（SGM：Semi-Global Matching）を用いた高密度視差マップを予測するためのディープニューラルネットワークについて述べる。 SGMは、高精度で計算速度が速いため、実際のシーンで広く使用されている正規化方法です。 SGMは正確な結果を得ることができるが、視差マップの滑らかさおよび不連続性を制御するSGMのペナルティパラメータの調整は不安であり、経験的方法が提案されている。我々は畳み込みニューラルネットワークからなるSGM-Netsと呼ばれる学習ベースのペナルティ推定法を提案する。 SGM-Netsには小さな画像パッチとその位置が入力され、3Dオブジェクト構造のペナルティが予測されます。ネットワークを訓練するために、実際の環境でLiDARセンサによって捕捉されたようなまばらに注釈された視差マップを使用することができる新規な損失関数を導入する。さらに、物体構造をより識別的に表現するために、正または負の視差変化に応じて異なるペナルティを展開する新規なSGMパラメータ化を提案する。当社のSGM-Netsは、KITTIベンチマークデータセットの最先端技術の精度を上回りました。

76

Poster4-22. Stereo-Based 3D Reconstruction of Dynamic Fluid Surfaces by Global Optimization

動的流体表面の3次元再構築は、コンピュータビジョンにおけるオープンで困難な問題である。各サーフェスポイントを独立して再構築し、しばしばノイズ深度マップを返す従来のアプローチとは異なり、我々はすべての3Dポイントの深度と法線を同時に回復する新規なグローバル最適化アプローチを提案する。伝統的な屈折ステレオ設定を使用して、予め生成されたランダムパターンの波状の外観を捕捉し、パターンを追跡することによって、捕捉された画像と既知の背景との間の対応を推定する。光が流体界面を1回だけ屈折すると仮定すると、クロスビューの標準的な一貫性制約と単一ビューの標準的な一貫性制約の両方を組み込んだ目的関数を最小にします。重要なアイデアは、スネルの法則に基づいた光屈折に必要な法線は、1つのビューから2番目のビューだけでなく、ローカル3Dジオメトリから推定されるものと一致する必要があるということです。さらに、流体の屈折率を推定するための有効な再構成誤差メトリックが設計される。我々は、提案された手法が正確であり、従来のステレオベースの方法より優れていることを示す合成データと実データの両方に関する実験結果を報告する。

77

Poster4-23. Fine-To-Coarse Global Registration of RGB-D Scans

室内環境のRGB-Dスキャンは、不動産、インテリアデザイン、バーチャルリアリティなど、多くのアプリケーションにとって重要です。しかし、長いビデオシーケンスにわたってハンドヘルドカメラからRGB-D画像をグローバルに一貫した3Dモデルに登録することは依然として困難です。現行の方法は、しばしば、追跡またはドリフトを失うことがあり、したがって、大きな環境（例えば、異なる部屋の平行壁）における顕著な構造を再構成することができない。この問題に対処するために、細かいスケールでの堅牢な登録を活用して、粗いスケールでの新しい対応や構造的制約の種子検出と施行を活用する「細かいことから粗い」グローバル登録アルゴリズムを提案します。グローバル登録アルゴリズムをテストするために、SUN3Dデータセットからの25シーンの手動でクリックされたポイント対応を10,401個のベンチマークで提供します。このベンチマークの実験では、我々のfine-to-coarseアルゴリズムが従来の方法よりも長いRGB-Dシーケンスを登録することがわかりました。

78

Poster4-24. Analyzing Computer Vision Data - The Good, the Bad and the Ugly

近年、コンピュータービジョン（CV）アルゴリズムを訓練し評価するために、多数のデータセットが公開されています。これらの貴重な貢献は、CVソリューションを、自律走行などの安全関連アプリケーションに使用できるレベルまで押し上げるのに役立ちました。しかし、CV評価のためのテストデータの品質および有用性に関する主な質問は未だに答えられていない。研究者とエンジニアは、可能な限り多くのテストデータを使用して、すべてのテストケースをカバーしようとします。この論文では、この課題に対する別の解決方法を提案します。 CVドメイン内の潜在的な危険のリストであるCV-HAZOPチェックリストの改良版をベースにしたデータセット分析の方法を紹介します。ステレオビジョンを例にとって、我々は過去20年間の28のデータセットの広範な調査を提供する。私たちは、カスタマイズされたチェックリストを作成し、データセットMiddlebury、KITTI、Sintel、Freiburg、およびHCIに適用して、徹底的な特性評価と定量的比較を提示します。ハザードフレームが難しいフレームと相関していることを示す、解析されたデータセットに9つの最先端のステレオマッチングアルゴリズムを適用することにより、難しいステレオ状況の識別のためのチェックリストの有用性を確認します。困難なデータセットは、小さなサブセットであっても意味のあるアルゴリズム評価が可能であることを示しています。最後に、将来のデータセット作成に参加したい研究者のインスピレーションとして、現在のデータセットではまだカバーされていないテストケースのリストを提供します。

79

Poster4-25. Product Manifold Filter: Non-Rigid Shape Correspondence via Kernel Density Estimation in the Product Space

変形可能な形状間の対応関係の計算のための多くのアルゴリズムは、記述子空間内の最近隣一致のいくつかの変形に依存する。これは、例えば、機能対応フレームワークの後処理段階として使用される様々な点ごとの対応回復アルゴリズムである。そのような頻繁に使用される技法は、考慮される形状について暗黙的に限定的な仮定（例えば、近似測定）を行い、実際には精度の欠如および劣悪な外見の結果を生じる。私たちは、単射対応を保証し、はるかに高い精度と滑らかさを生み出すことができる代替の回復技術を提案します。他の方法とは異なり、我々のアプローチは、解析された形状が等尺性であるという仮定に依存しない。カーネル密度推定の統計的枠組みから提案手法を導出し、いくつかの困難な変形可能な3D形状マッチングデータセットの性能を実証する。

80

Poster4-26. Unsupervised Vanishing Point Detection and Camera Calibration From a Single Manhattan Image With Radial Distortion

この記事では、単一画像からの放射状歪みを伴うカメラの自動較正に関する。正方形ピクセルとゼロスキューの軽い仮定の下では、シーン内の線が画像内の円に投影され、焦点線と放射状の歪みのあいまいさまでカメラを較正するには3本の線で十分であることが知られている。較正結果は、線が短い円弧に投影される傾向があるため、達成が難しい正確な円の推定に大きく依存します。この問題を克服するために、短い円弧エッジを仮定すると、対応する円の中心を通る線をロバストに決定することが可能であることを示す。これらのラインは、以後、サーキュララインのライン（Lines of Circle Centers（LCC））と呼ばれ、平行線のセットを検出し、マンハッタンに関する歪み、焦点距離、およびカメラの向きの中心および量を含む較正パラメータを推定する新しい方法で使用されるフレーム。半合成画像と実画像の両方で広範な実験を行った結果、より多くの情報を提供しながら、単一画像からの教師なし較正における最先端の手法よりも優れています。

81

Poster4-27. Toroidal Constraints for Two-Point Localization Under High Outlier Ratios

モデルサイズが大きくなると2D-3Dの一致がより曖昧になるため、クエリーイメージを3Dモデルに対して大規模にローカライズすることは難しい問題です。これは、非常に低いinlier比率を扱うことができる姿勢推定戦略の必要性を作り出す。本稿では、2D-3Dマッチングプロセスから得られる幾何学的情報の新しい洞察を引き出す。現代の記述子は視点の大きな変化に対して不変ではないので、クエリー記述子に最も近い所与の点を三角測量するために使用される空間の光線を見つけることができる。 2つの対応がカメラをトーラスの表面上に置くことを制限することはよく知られている。三角測量の方向性の知識を追加することで、2つのマッチだけからカメラの位置を近似することができます。この位置を1マイクロ秒未満で計算できる幾何学的ソルバーを導出する。このソルバーを使用して、一致数に2次的に比例する単純で強力な外れ値フィルターを提案します。私たちはソルバーの精度を検証し、現実の環境での本手法の有用性を実証します。

82

Poster4-28. 4D Light Field Superpixel and Segmentation

2D画像のスーパーピクセルセグメンテーションは、多くのコンピュータビジョンタスクで広く使用されてきた。しかし、ガウスイメージングの原理に限定されているが、デフォーカスおよびオクルージョン境界領域におけるあいまいさに対する完全なセグメンテーション解決法はない。本稿では、光空間の画像画素、すなわち、光線の本質的な要素を考慮し、曖昧さを排除するライトフィールドスーパーピクセル（LFSP）セグメンテーションを提案します。 LFSPは最初に数学的に定義され、次にLFSP自己相似性と呼ばれるリフォーカス不変メトリックがセグメント化性能を評価するために提案される。ライトフィールド内に80個の近傍を含むクリークシステムを構築することにより、ロバストな再焦点不変LFSPセグメンテーションアルゴリズムが開発される。合成フィールドライトと実ライトフィールドの両方のデータセットの実験結果は、従来の評価メトリクスの点で最先端のものより優れていることを示しています。さらに、異なるライトフィールドリフォーカスレベル下でのLFSP自己相似性評価は、提案されたアルゴリズムのリフォーカス不変性を示す。

83

Poster4-29. Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation From Single and Multiple Images

多くの人工物は、固有の対称性とマンハッタン構造を持っています。正射投影モデルを仮定することにより、この論文は、入力が同じカテゴリ、例えば複数の異なる車からの単一または複数の画像である場合に生じる、対称および/またはマンハッタン構造のキューを使用した3D構造およびカメラ投影の推定に取り組む。具体的には、単一の画像の場合の分析は、マンハッタンだけでカメラ投影を復元するのに十分であることを意味し、その後、3D構造を一意的に対称性を利用して再構築することができる。しかしながら、マンハッタン構造は、閉塞のために単一の画像から観察することは困難であり得る。この目的のために、我々は対称性を利用することもできるが、マンハッタン軸を必要としない多重画像の場合に拡張する。我々は、対称性を利用し、入力と同じカテゴリーの複数の画像を使用して、運動方法から新しい剛性構造を提案する。 Pascal3D +データセットの実験結果は、本手法がベースライン手法よりも著しく優れていることを示しています。

cvpr2017 3d computer vision papers

Engineering