영상기반 3차원 정보 인지를 위한 인공지능 기술 동향€¦ · 때마다, 보다...

17
2 www.iitp.kr * 황영배 박민규* 김성제* 박한무* 김성흠* 전자부품연구원 책임연구원 전자부품연구원 선임연구원 * 실제 환경과 객체들은 모두 3차원 공간 안에서 3차원 좌표와 3차원 체적을 가지고 있기 때문에 3차원 정보를 정확하게 인지하는 것은 4차 산업혁명의 분야인 자율주행자동차나 3D 프린터, 증강/가상현실 등을 위한 핵심 기술이라고 할 수 있다. 예전에는 정확한 3차원 정보를 획득하기 위해서 레이저/라이다 센서나 구조광 방식의 3차원 스캐너가 필요했었지 만, 최근 인공지능 기술의 발전으로 인해 카메라로 획득된 2차원 영상으로부터 3차원 정보 인지가 가능한 기술들이 다양하게 연구되고 있다. 본 고에서는 이러한 영상에 기반하여 3차원 정보 인지를 위한 인공지능 기술 동향에 대해서 다룬다. I. 서론 4차 산업혁명에서 주목받고 있는 분야인 자율주행자동차, 3D 프린터, 증강/가상현실을 개발 하고 실현하기 위해서는 주변 환경과 대상 객체들에 대한 정확한 3차원 정보를 얻는 것이 매우 중요한 핵심 기술로 생각되고 있다. 이러한 3차원 정보를 얻기 위해서 레이저나 라이더 기반의 센서들이 많이 개발되어 왔으며, 객체에 대한 정밀한 3차원 정보를 획득하기 위해 구조광이나 모아레 방식의 3차원 스캐너에 대해서도 많은 연구가 진행되어 왔다. 최근, 인공지능 기술이 딥러닝과 같은 높은 성능을 내는 방법론들로 인해서 비약적으로 발전하 고 있으며, 이러한 인공지능 기술을 통해 카메라로부터 얻어진 2차원 영상을 이용하여 3차원 정보 를 정확하게 인지하는 기술들이 최근 활발하게 연구되고 있다. 이러한 카메라 영상은 다른 센서들 에 비해 상대적으로 비용이 저렴하고 컴팩트하며, 최근 스마트폰이나 블랙박스 등의 보급으로 인해 누구나 쉽게 영상을 얻을 수 있고, 인터넷에 영상 기반의 방대한 데이터가 존재하고 있다. * 본 내용은 황영배 책임(☎ 031-739-7478, [email protected])에게 문의하시기 바랍니다. ** 본 내용은 필자의 주관적인 의견이며 IITP의 공식적인 입장이 아님을 밝힙니다. 영상기반 3차원 정보 인지를 위한 인공지능 기술 동향

Upload: others

Post on 31-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 영상기반 3차원 정보 인지를 위한 인공지능 기술 동향€¦ · 때마다, 보다 정교한 3차원 복원 결과물을 얻을 수 있다. 3D-R2N2의 Encoder는 2D

2 www.iitp.kr

주간기술동향 2018. 9. 5.

*

황영배 박민규* 김성제* 박한무* 김성흠*

전자부품연구원 책임연구원

전자부품연구원 선임연구원 *

실제 환경과 객체들은 모두 3차원 공간 안에서 3차원 좌표와 3차원 체적을 가지고 있기

때문에 3차원 정보를 정확하게 인지하는 것은 4차 산업혁명의 분야인 자율주행자동차나

3D 프린터, 증강/가상현실 등을 위한 핵심 기술이라고 할 수 있다. 예전에는 정확한 3차원

정보를 획득하기 위해서 레이저/라이다 센서나 구조광 방식의 3차원 스캐너가 필요했었지

만, 최근 인공지능 기술의 발전으로 인해 카메라로 획득된 2차원 영상으로부터 3차원 정보

인지가 가능한 기술들이 다양하게 연구되고 있다. 본 고에서는 이러한 영상에 기반하여

3차원 정보 인지를 위한 인공지능 기술 동향에 대해서 다룬다.

I. 서론

4차 산업혁명에서 주목받고 있는 분야인 자율주행자동차, 3D 프린터, 증강/가상현실을 개발

하고 실현하기 위해서는 주변 환경과 대상 객체들에 대한 정확한 3차원 정보를 얻는 것이

매우 중요한 핵심 기술로 생각되고 있다. 이러한 3차원 정보를 얻기 위해서 레이저나 라이더

기반의 센서들이 많이 개발되어 왔으며, 객체에 대한 정밀한 3차원 정보를 획득하기 위해

구조광이나 모아레 방식의 3차원 스캐너에 대해서도 많은 연구가 진행되어 왔다.

최근, 인공지능 기술이 딥러닝과 같은 높은 성능을 내는 방법론들로 인해서 비약적으로 발전하

고 있으며, 이러한 인공지능 기술을 통해 카메라로부터 얻어진 2차원 영상을 이용하여 3차원 정보

를 정확하게 인지하는 기술들이 최근 활발하게 연구되고 있다. 이러한 카메라 영상은 다른 센서들

에 비해 상대적으로 비용이 저렴하고 컴팩트하며, 최근 스마트폰이나 블랙박스 등의 보급으로

인해 누구나 쉽게 영상을 얻을 수 있고, 인터넷에 영상 기반의 방대한 데이터가 존재하고 있다.

* 본 내용은 황영배 책임(☎ 031-739-7478, [email protected])에게 문의하시기 바랍니다.

** 본 내용은 필자의 주관적인 의견이며 IITP의 공식적인 입장이 아님을 밝힙니다.

영상기반 3차원 정보 인지를 위한 인공지능 기술 동향

Page 2: 영상기반 3차원 정보 인지를 위한 인공지능 기술 동향€¦ · 때마다, 보다 정교한 3차원 복원 결과물을 얻을 수 있다. 3D-R2N2의 Encoder는 2D

기획시리즈 – 인공지능

정보통신기술진흥센터 3

본 고의 II장에서는 2장의 스테레오 영상으로부터 인공지능 기술을 이용하여 깊이를 추정하

는 기술의 동향에 대해서 설명한다. 본 방법에 의해 영상의 장면 전체에 대한 3차원 정보를

획득할 수 있기 때문에 자율주행자동차와 이동 로봇 등을 위한 깊이 센서로 중요한 역할을

할 수 있다. III장에서는 대상 객체에 대해서 3차원 정보를 복원하는 기술을 설명하며, 한 장

혹은 그 이상의 2차원 영상들을 통해서 3차원 포인트 클라우드를 획득하는 기술을 포함한다.

IV장에서는 카메라 영상을 통한 사람의 행동이나 동작에 대한 인식을 위해 2차원 영상으로부

터 사람에 대한 3차원 자세를 추정하는 기술을 설명하며, V장에서는 앞서 설명한 방법에 기반

하여 얻어진 3차원 정보를 객체의 종류에 따라서 분류하는 기술에 대해서 설명한다. 끝으로

VI장에서는 결론 및 시사점을 제시한다.

II. 인공지능 기반 깊이 추정 기술

2014년도 CVPR에서 발표된 Zbontar와 LeCun의 연구[1]가 큰 반향을 일으켰고, 이후 CNN

뿐만 아니라 Fully Convolutional Network(FCN), Conditional Adversarial Network(CAN), Recurrent

Neural Network(RNN)와 같은 기술이 도입되기 시작하였다. 초기 연구는 주로 패치와 패치 간의

비교를 통해 유사도를 추정하는데 초점을 두었으며, 가장 대표적인 MC-CNN(Matching Cost-

CNN)[1]은 [그림 1]과 같은 형태의 네트워크 구조를 갖는다.

이 후 내적 연산을 담당하는 레이어를 두는 방법이 토론토 대학의 R. Urtasun 교수 연구팀에

정확도가 높은 버전 속도가 향상된 버전

<자료> Zbontar and LeCun, Journal of Machine Learning Research, Vol.17(1), 2016.

[그림 1] MC-CNN 네트워크 구조

Page 3: 영상기반 3차원 정보 인지를 위한 인공지능 기술 동향€¦ · 때마다, 보다 정교한 3차원 복원 결과물을 얻을 수 있다. 3D-R2N2의 Encoder는 2D

4 www.iitp.kr

주간기술동향 2018. 9. 5.

의해 제안이 되었으며[2], 동일 논문에서 좌우 영상에 대해 가중치를 공유하는 샴 네트워크

(Siamese network) 구조를 도입하였다. 비슷한 시기에 중국의 Baidu 연구진도 샴 네트워크 구

조를 도입한 깊이 추정 방법을 제안하였는데[3], Content-CNN[2]과 다른 점은 두 장의 영상

패치를 이용하여 다중 해상도 정보를 고려한 샴 네트워크를 설계하였다는 점이며, [그림 2]와

같은 네트워크 구조를 갖는다.

정합 비용을 계산하기 위한 딥러닝 기술의 단점은 모든 픽셀에 대해 대응되는 픽셀과의

유사도를 계산해야 하기 때문에 GPU를 사용하더라도 수행 속도가 수 초에서 수십 초에 이른

다는 것이며, 정합 비용을 따로 계산하고 집적하는 과정 없이 두 영상으로부터 바로 깊이를

예측하는 end-to-end 형태의 네트워크 구조를 이용하는 방법이 제안되었다[4]-[7]. 초기

end-to-end 네트워크는 콘볼루션(convolution)으로만 이루어진 형태(FCN)가 많았으며[4] 수행

속도가 0.1초 이하로 향상되어 실시간 수행이 필요한 상황에서도 딥러닝 기술이 사용될 수

<자료> A. Kendall et al., IEEE International Conference on Computer Vision(ICCV), 2017.

[그림 3] End-to-End 네트워크 구조를 갖는 깊이 추정 방법[5]

<자료> Chen et al., IEEE International Conference on Computer Vision(ICCV), 2015.

[그림 2] DeepEmbed[3] 네트워크 구조

Page 4: 영상기반 3차원 정보 인지를 위한 인공지능 기술 동향€¦ · 때마다, 보다 정교한 3차원 복원 결과물을 얻을 수 있다. 3D-R2N2의 Encoder는 2D

기획시리즈 – 인공지능

정보통신기술진흥센터 5

있음을 보였다. 하지만 추정된 깊이 영상의 정확도가 기존 기술에 비해 높지 않아서 이후

다양한 형태의 end-to-end 네트워크 구조가 제안이 되었다.

자율비행 드론을 만드는 미국 스타트업 Skydio에서는 [그림 3]과 같이 전통적인 스테레오

정합 과정(정합 비용 계산, 정합 볼륨 생성, 정합 비용 집적, 깊이 결정)을 수행하는 것과 유사

한 형태로 end-to-end 네트워크를 설계하여 좋은 성능을 보였다[5]. 중국의 국방과학기술대학

에서도 이와 유사한 컨셉으로 3가지 과정을 고려한 [그림 4]와 같은 end-to-end 네트워크 구조

를 제안하였다[6]. 특이한 점은 특징량의 불변성을 고려한 정합 비용 계산과 깊이 영상 추정

후 영상을 후처리하는 과정까지 네트워크에 포함되어 있다는 점이며, ResNet을 이용했을 경

우 현재 시점(2018년 6월)에서 가장 좋은 성능을 보여줌을 확인할 수 있다.

Austria Institute of Technology(AIT)에서도 후처리 과정을 포함하는 네트워크 구조를 제안하

였는데[7], Skydio 연구진과 다른 점은 깊이 영상을 후처리하기 위해 콘볼루션 네트워크를 이

용하지 않고, 전통적인 Conditional Random Field(CRF)를 수행하되, CRF에 필요한 파라미터와

Unary Potential을 학습하기 위해 딥러닝 기법을 사용하였다는 점이다.

한편으로는 약 10년 이상 널리 사용되어 오고 있는 Semi-Global Matching(SGM)[8]을 딥러닝

기술을 이용해 향상시키고자 하는 노력도 있었다. 스위스 ETH 취리히의 M. Polleyfeys 연구

그룹에서는 SGM에서 사용되는 두 개의 전역 파라미터를 픽셀마다 다르게 정의하기 위한 네트

워크를 설계하였고[9], 이를 통해 기존 SGM의 성능을 크게 향상시킬 수 있음을 보였다.

<자료> Z. Liang et al., IEEE Computer Vision and Pattern Recognition(CVPR), 2018.

[그림 4] 특징의 일관성을 고려한 딥러닝 기반 깊이 추정 방법[6]

Page 5: 영상기반 3차원 정보 인지를 위한 인공지능 기술 동향€¦ · 때마다, 보다 정교한 3차원 복원 결과물을 얻을 수 있다. 3D-R2N2의 Encoder는 2D

6 www.iitp.kr

주간기술동향 2018. 9. 5.

III. 인공지능 기반 3차원 복원 기술

3차원 복원 기술은 실존하는 물체의 3차원 형상(Shape)과 표면의 색상(Color) 정보를 디지

털화하는 기술로, 전통적인 3차원 복원 과정은 숙련된 디자이너가 그래픽스 소프트웨어를

이용하여 3차원 모델을 제작하는 방식을 통해 이루어졌다[10]. 그러나 전통적인 3차원 복원

방식은 오랜 시간 수작업을 통해 3차원 모델을 제작해야 하는 단점과 디자이너의 숙련도에

따라 3차원 모델의 품질 차이가 크다는 한계 요소를 가져, 이에 대한 대안으로 컴퓨터 비전

분야에서는 단일 또는 복수 개의 2차원 영상의 분석을 통한 3차원 복원 기술이 지속적인 관심

을 받았다[11]-[14]. 최근에는 대규모 데이터베이스 공개[15]와 딥러닝 기법의 출현[16]으로

인해 기존의 방법으로는 풀리지 않던 컴퓨터 비전 문제들이 해결되기 시작하였고, 이러한

딥러닝 기법은 3차원 복원 기술에도 적용되기 시작했다[17]-[20].

R. Girdhar[17]은 2차원 영상과 이에 대응하는 3차원 물체의 형상 정보를 효과적으로 학습하

기 위해 Autoencoder와 AlexNet 구조[16]를 결합한 TL-embedding 네트워크를 제안하였다. 학

습 과정에서는 다수의 2차원 영상들과 복셀화된 3차원 물체의 형상 정보를 입력으로 하여

네트워크를 학습하고, 테스트 과정에서는 Autoencoder의 encoding 부분은 제거하고, 2차원

영상만을 입력으로 하여 가장 유사한 3차원 복셀 모델을 생성한다.

3D Recurrent Reconstruction Neural Network(3D-R2N2)[18]는 다양한 시점에서 촬영한 단일

또는 복수 개의 2차원 영상을 입력으로 하여 3차원 복셀 모델을 복원하는 Long Short-Term

Memory(LSTM) 구조 기반의 딥러닝 네트워크로, 실사 영상에 대해서 기존의 단일 2차원 영상

기반 복원 기술[14] 대비 우수한 복원 성능을 보였다. 3D-R2N2 네트워크는 Recurrent 네트워크

<자료> A. Seki and M. Pollefeys, IEEE Computer Vision and Patten Recognition(CVPR), 2018.

[그림 5] SGM-nets[9] 접근 방법

Page 6: 영상기반 3차원 정보 인지를 위한 인공지능 기술 동향€¦ · 때마다, 보다 정교한 3차원 복원 결과물을 얻을 수 있다. 3D-R2N2의 Encoder는 2D

기획시리즈 – 인공지능

정보통신기술진흥센터 7

구조를 포함하고 있기 때문에, 동일 물체에 대한 복수 개의 입력이 누적되어 학습이 진행될

때마다, 보다 정교한 3차원 복원 결과물을 얻을 수 있다. 3D-R2N2의 Encoder는 2D Convolution

Neural Network로, 2차원 입력 영상을 저-차원 특징 벡터로 변환하고, 변환된 벡터는 3D

Convolutional LSTM의 입력으로 전달한다. Decoder는 3D-LSTM의 은닉 상태 정보를 기반으로

3차원 복셀 모델의 복원을 수행한다. [그림 7]은 PASCAL 3D+ 데이터셋에 대한 3차원 복원

성능의 주관적 결과를 나타낸 그림이다. 이를 통해 3D-R2N2 기법이 기존의 방법인 Kar et

al.[14]에 비해 주관적으로 우수한 3차원 복원 결과를 보여주는 것을 확인할 수 있다.

(a) 학습 네트워크 (b) 테스트

<자료> R. Girdhar et al., in European Conference on Computer Vision(ECCV), 2016.

[그림 6] TL-embedding 네트워크[17]

<자료> J. Wu et al., in European Conference on Computer Vision(ECCV), 2016.

[그림 7] MarrNet의 3차원 복원 네트워크 개념도[19]

Page 7: 영상기반 3차원 정보 인지를 위한 인공지능 기술 동향€¦ · 때마다, 보다 정교한 3차원 복원 결과물을 얻을 수 있다. 3D-R2N2의 Encoder는 2D

8 www.iitp.kr

주간기술동향 2018. 9. 5.

MarrNet[19]은 인간의 3차원 인지 과정이 depth와 surface normal과 같은 2.5차원의 스케치

정보와 과거 경험에 의해서 생성된 3차원 형상 정보의 결합으로 이루어진다는 연구 결과를

바탕으로 제안되었다. 앞서 살펴보았던 딥러닝 네트워크 구조와는 달리 MarrNet은 2.5D 스케

치 정보의 추정 단계와 추정된 스케치 정보를 이용하여 3차원 형상 정보를 생성하는 단계로

구성되어 있다.

앞서 소개했던 딥러닝 기반 3차원 복원 과정[17]-[19]은 3차원 형상 정보만을 정교하게 복원

하는 기술 개발에 초점이 맞춰져 있었고, 3차원 물체의 색상 정보를 복원하는 과정은 고려하

고 있지 않았다. 하지만, 가장 최근에 제안된 Im2Avatar[20] 기술은 3차원 물체의 형상과 표면

의 색상을 함께 복원하는 기술로, 3차원 형상을 복원하는 네트워크와 색상을 복원하는 네트워

크, 이 두 네트워크의 결과물을 합성하여 최종 복원 결과물을 생성하는 네트워크로 구성된다.

[그림 8]는 Im2Avatar 네트워크의 결과물을 시각화한 것으로, Im2Avatar의 최종 결과물이 색상

정보를 더 가지고 있기 때문에 3D-R2N2[18]에 비해 조금 더 시각적으로 만족도를 제공하는

것을 확인할 수 있다.

2차원 영상을 이용한 딥러닝 기반 3차원 복원 기술은 Shapenet[15] 데이터셋이 공개된 이후,

활발히 연구 개발이 진행되고 있으며, 전통적인 비-딥러닝 기반의 기존 기술 대비 복원 성능에

있어서도 주관적/객관적으로 우수한 결과를 보여주고 있다. 하지만, 복원된 3차원 모델의 복셀

<자료> Y. Sun et al., in arXiv preprint arXiv:1804.06375, 2018.

[그림 8] Im2Avatar의 시각화된 결과물[20]

Page 8: 영상기반 3차원 정보 인지를 위한 인공지능 기술 동향€¦ · 때마다, 보다 정교한 3차원 복원 결과물을 얻을 수 있다. 3D-R2N2의 Encoder는 2D

기획시리즈 – 인공지능

정보통신기술진흥센터 9

해상도는 64×64×64 수준으로 아직까지는 저해상도 수준이며, 색상 복원에 대한 연구도 이제

시작되고 있는 상황으로 향후 지속적인 연구 개발을 통해 복원 성능의 개선이 필요한 상황이다.

IV. 인공지능 기반 3차원 자세 추정 기술

딥러닝 기반 3차원 자세 추정 방법은 크게 영상에서 3차원 자세를 한 번에 추정하는 일괄

추정 방식과 2차원 자세를 먼저 추정한 후 3차원으로 변환하는 2단계 추정 방식으로 구분할

수 있다. 일괄 추정 방식은 City University of Hong Kong(CUHK)에서 최초로 시도되었는데, Li와

Chan은 몸체 검출(body part detection)과 자세 회기 분석(pose regression)을 위한 feature network

를 학습하고, 두 작업을 동시에 수행하는 multi-task framework를 제안하였다[22]. 스위스 EPFL

의 Darrell 연구팀은 사람의 3차원 자세 모델을 학습된 오토인코더(autoencoder)로 인코딩하고,

RGB 영상의 feature network와 사상(mapping) 관계를 다시 학습함으로써 영상과 자세 모델

사이의 연관관계를 표현하는 구조를 제안하였다[23]. 펜실베니아 대학의 Daniilidis 연구팀은

각 관절의 3차원 위치를 복셀 공간에서의 heatmap으로 표현하고, 이를 넓은 범위부터 단계적

으로 추정 범위를 좁혀가는 coarse-to-fine network를 제안하였다[24]. 일괄 추정 방식은 각

관절들의 3차원 위치를 한 번에 추정하는 통합된 네트워크 구조를 정의할 수 있지만, 학습을

위해서는 각 영상마다 3차원 관절 위치가 표기된 데이터가 필요하기 때문에, 일반적인 환경에

서의 데이터를 대량으로 확보하기 어렵다는 단점을 가지고 있다.

2단계 추정 방식은 첫 단계에서 기존의 2차원 자세 추정 기술들을 이용하여 초기 위치를

정하고, 학습을 통해 3차원 위치 정보로 변환하는 과정을 거친다. 2차원 자세 추정 기술은

일반적인 환경에서의 데이터 확보가 수월하며, 자세 정보가 표기된 데이터베이스들이 많이

공개되어 있다[25]-[27]. 또한, 2, 3차원 자세 변환을 위한 학습에는 가상의 데이터를 활용하는

<자료> S. Li and A. B. Chan, Asian Conference on Computer Vision(ACCV), 2014.

[그림 9] CUHK의 Multi-task framework[22]

Page 9: 영상기반 3차원 정보 인지를 위한 인공지능 기술 동향€¦ · 때마다, 보다 정교한 3차원 복원 결과물을 얻을 수 있다. 3D-R2N2의 Encoder는 2D

10 www.iitp.kr

주간기술동향 2018. 9. 5.

것이 가능하기 때문에, 일괄 추정 방식에 비해 상대적으로 학습 데이터 확보가 수월한 편이다.

캐나다 University of British Columbia(UBC)의 Little 연구팀은 fully connected residual network

를 연결하여 2차원 자세를 3차원 자세로 변환하는 네트워크 구조를 제안하였다[28]. 3차원

자세 변환 학습을 위해 먼저 3차원 골격을 임의의 시점에 위치한 카메라에 사상하고, 이를

이용하여 가상의 2차원 자세를 생성하는 방식으로 2차원-3차원 변환 쌍을 만들었다. 자세

추정 시에는 Hourglass network[29]를 이용하여 입력 영상의 2차원 자세를 추정한 후, 제안한

네트워크를 이용하여 3차원 자세로 변환하였다.

MS COCO dataset[25] MPII Human Pose dataset[26] Posetrack dataset[27]

[그림 10] 2차원 자세 추정 데이터베이스

<자료> F. Moreno-Noguer, IEEE Computer Vision and Pattern Recognition(CVPR), 2017.

[그림 11] IRI(CSIC-UPC)의 EDM 기반 2D-3D 변환 네트워크 구조[30]

Page 10: 영상기반 3차원 정보 인지를 위한 인공지능 기술 동향€¦ · 때마다, 보다 정교한 3차원 복원 결과물을 얻을 수 있다. 3D-R2N2의 Encoder는 2D

기획시리즈 – 인공지능

정보통신기술진흥센터 11

스페인 IRI(CSIC-UPC)의 Moreno-Noguer는 영상에서 검출된 관절점들의 2차원 위치들을

Euclidean Distance Matrices(EDM)를 이용하여 표현하고, 이를 다시 3차원 EDM으로 변환하는

방식을 제안하였다[30]. EDM은 사람의 골격 모델을 각 관절들의 상대적 거리로 표현하는데,

rotation과 translation에 불변인 특성을 가진다. 이 연구에서는 관절들의 2/3차원 좌표를 직접적

으로 학습하는 대신 EDM으로 정규화된 정보를 학습하는 방식을 취함으로써 영상의 다양한

변화에도 안정적으로 자세를 추정할 수 있도록 하였다.

2단계 추정 방식의 연구들은 3차원 자세로의 변환을 학습하기 위해 특정 자세에 대한 3차원

골격 데이터를 확보하고 있어야 하는데, 이러한 3차원 골격 데이터는 다중 시점 영상 획득

시스템 등을 이용하여 획득하거나 가상의 3차원 자세를 생성하여 얻을 수 있다. 하지만, 3차원

데이터 획득 시스템을 이용하는 방법은 대량의 데이터를 얻기 어려워 한정된 자세에 대해서

만 학습할 수 있으며, 가상 데이터를 이용하는 방법은 실제 사람이 취할 수 있는 자세와 동떨

어진 데이터가 생성될 수 있다는 문제점을 가지고 있다. 이를 해결하기 위해 CUHK의 Wang

연구팀은 Generative Adversarial Networks(GAN) 기반의 3차원 자세 추정 프레임워크를 제안하

였다[31]. 제안하는 프레임워크는 2차원 영상에서 3차원 자세를 생성하는 generator network와

생성된 자세가 현실적인 자세인지를 판단하는 discriminator network로 구성되어 있다. 두 네트

워크를 동시에 학습함으로써 주어진 3차원 자세 데이터뿐만 아니라 임의의 2차원 자세에서도

현실적인 3차원 자세를 생성할 수 있음을 보였다.

최근에는 사람의 자세뿐만 아니라 실루엣 정보를 함께 이용하여 자세를 복원하려는 시도도

함께 이루어지고 있는데, 이러한 방식은 매우 낮은 모수 공간(parameter space)에서 사람의

모델을 복원할 수 있다는 장점이 있다. MPI의 Black 팀에서는 2차원 자세 추정 결과를 이용해

3차원 메시 모델과 정합하는 방법을 제안하였다[32]. 제안한 알고리즘은 먼저 2차원 관절과

<자료> W. Yang et al., IEEE Computer Vision and Pattern Recognition(CVPR), 2018.

[그림 12] CUHK의 GAN 기반 3차원 자세 추정 프레임워크와 추정 결과[31]

Page 11: 영상기반 3차원 정보 인지를 위한 인공지능 기술 동향€¦ · 때마다, 보다 정교한 3차원 복원 결과물을 얻을 수 있다. 3D-R2N2의 Encoder는 2D

12 www.iitp.kr

주간기술동향 2018. 9. 5.

대응하도록 메시 모델의 자세를 생성한 후, 입력 영상의 실루엣과 최대한 유사하도록 메시

모델을 변형시키는 방식을 사용하였다. 펜실베니아대학 Daniilidis 연구팀에서는 메시 모델의

자세를 생성할 때 관절점의 위치뿐만 아니라 2차원 영상의 실루엣 정보를 함께 고려하는 방식

을 제안하였다[33].

2단계 자세 추정 방식은 최종 자세 추정 결과가 2차원 자세 추정 결과에 영향을 받기 때문

에, 2차원 자세 추정 정확도가 높지 않을 경우 변환된 3차원 자세 역시 부정확해지는 문제가

발생할 수 있다. 최근 딥러닝 기술의 발전으로 2차원 자세 추정 기술들의 성능이 비약적으로

향상되었으나, 다수의 사람들이 서로 복잡하게 상호작용하는 환경에서는 여전히 많은 연구들

이 필요한 상황이다. 이러한 환경은 자기 자신뿐만 아니라 다른 사람들에 의해서도 폐색

(occlusion)이 빈번하게 발생하며 각 관절들이 뒤섞여 검출되기 때문에 여러 명의 자세를 동시

에 추정하는 것이 쉽지 않다. CMU의 Sheikh 연구팀은 상향식(bottom-up) 자세 추정 알고리즘

을 제안하여 이러한 문제를 해결하고자 하였으며[34], 최근에는 영상 시퀀스를 활용하여 추적

알고리즘 기반의 자세 추정 알고리즘들도 연구되고 있다[35]-[36].

V. 인공지능 기반 3차원 객체 분류 기술

일반적으로 3D 데이터는 측정된 물체의 공간적인 정보를 담은 3차원 점군의 집합이나 이

점군들의 연결 정보를 더해 물체 표면을 정의하는 폴리건 메시 형태, 공간을 작은 단위로

<자료> G. Pavlakos et al., IEEE Computer Vision and Pattern Recognition(CVPR), 2018.

[그림 13] 펜실베니아대학의 실루엣 복원 네트워크[33]

Page 12: 영상기반 3차원 정보 인지를 위한 인공지능 기술 동향€¦ · 때마다, 보다 정교한 3차원 복원 결과물을 얻을 수 있다. 3D-R2N2의 Encoder는 2D

기획시리즈 – 인공지능

정보통신기술진흥센터 13

분할하여 물체가 점유되고 있는 3차원 영역을 정의하는 복셀 형태로 표현하게 된다. 이러한

3D 표현법을 기반하여 3D 물체를 분류하거나 검색하는 일에 있어, 동일한 점군 집합이 회전,

크기 변환이나 비선형적 변형에 불변하는 특징을 설계하는 연구가 있어 왔다(e.g. 3D shape

contect, curvature, geodesic distance on a mesh, slippage, spin image, etc.). 최근, RGB 픽셀의

2D 영상 분야에서는 데이터를 분류하는 문제를 다루는데 있어, Convolutional Neural Networks

(CNN) 구조가 기존의 학습기(k-NN, random forest, AdaBoost, SVM, etc.)를 대체하고 독보적인

표준(ImageNet, VGG, ResNet, DenseNet, etc)이 되어 가고 있다. 그에 따라 2D 평면으로 정의되

는 영상과 다른 형태의 데이터에 대해서도 딥러닝이 확장되는 과정에서, 종래에 제한적인

실험에서 유도된 가정들로 3D 데이터 특징량을 설계하던 연구에도 변화가 있었다.

가장 대표적으로 ShapeNet[37]에서는 정형화 되지 않은 입력 3D 데이터를 정형화된 복셀

공간으로 변환한 후, 기존의 convolution 필터를 선형적으로 한 차원씩 증가시키는 방법을 사

용하였다. 반면 MV-CNN[38]에서는 3D 물체를 복수 개의 2D 평면으로 투영된 시점 영상들로

표현하여 기존에 개발된 2D convolution 필터를 활용할 수 있었다. 이와 같이 물체를 픽셀 평면

으로 샘플링하는 방법과 공간에서 물체가 점유하는 영역으로 3D를 표현하는 방법을 혼합하여

사용할 때 성능이 가장 좋은 것으로 보고되었다[39].

딥러닝 방법론의 중요한 특징은 많은 양의 파라메터를 가지는 필터 집합으로 데이터를 추

상화하는 구조를 설계하고, 데이터의 주어지는 의미(e.g. labels, values)가 특정 비용 함수를

<자료> Z. Cao et al., IEEE Computer Vision and Pattern Recognition(CVPR), 2017.

[그림 14] CMU의 자세 추정 프레임워크 Openpose[34]

Page 13: 영상기반 3차원 정보 인지를 위한 인공지능 기술 동향€¦ · 때마다, 보다 정교한 3차원 복원 결과물을 얻을 수 있다. 3D-R2N2의 Encoder는 2D

14 www.iitp.kr

주간기술동향 2018. 9. 5.

최소화하는 형태로 학습(e.g. classification, regression, etc.)하여 새로운 데이터에 부여될 의미

를 가장 잘 예측하는 필터 계수 값을 자동으로 찾는 것이다. 3D 분야에 딥러닝을 적용하는

문제에서 초창기 연구들은 2D 영상 데이터에 특화된 선형 필터로 3D 데이터를 어떻게 다룰

수 있는지 혹은 심층 구조를 어떻게 확장하여 3D 데이터에 적용할 수 있을지에 대한 내용이었

다. 예를 들어, ShapeNet과 MV-CNN에서는 선형 필터를 사용하기 위해 데이터를 우리에게 익

숙한 정형 공간(e.g. 복셀 공간, 시점 영상)으로 변환하는 전처리를 수행하는데, 이러한 인위적

인 가정에서 정보 손실이 발생하는 단점이 있었다.

<자료> Wu et al., 3D ShapeNets: A Deep Representation for Volumetric Shapes(Fig. 2), CVPR 2015.

[그림 15] ShapeNet의 3D Convolution을 통한 3D 모델 분류 및 검색[37]

<자료> Su et al., Multi-view Convolutional Neural Networks for 3D Shape Recognition(Fig. 1), ICCV 2015.

[그림 16] 다시점(Multivew)으로 투영된 2D 영상 집합으로 3D 모델을 표현하는 방법론[38]

Page 14: 영상기반 3차원 정보 인지를 위한 인공지능 기술 동향€¦ · 때마다, 보다 정교한 3차원 복원 결과물을 얻을 수 있다. 3D-R2N2의 Encoder는 2D

기획시리즈 – 인공지능

정보통신기술진흥센터 15

또 물체의 메시 표현법에 직접 적용하는 새로운 필터링 방식도 소개되었으며[40], 비선형적

3D 표면 데이터에 특화되는 심층 구조를 학습하기 위한 방식이 연구되어 왔다. 하지만 3D

표면 모델로 Non-euclidean 공간을 가정하는 것은 연산량 측면에서 부담이 크고, 이를 다루는

필터를 효율적으로 구현하는 것에 많은 이슈가 있었다. 예를 들어, SpecCNN에서는 입력 메시

를 다루는 convolution 연산을 Fourier 도메인의 multiplication으로 처리하는 등의 독특한 구성을

보여주었지만, 일반적이지 않은 학습방법은 응용범위가 제한적이었다.

앞서 언급된 전처리 과정에서 오는 정보 손실 문제 및 3D 데이터의 일반성을 확보하기 위한

구현상 이슈들은 최근 연구들의 중요한 주제가 되고 있다. 특히, 주요한 성과로 단순 점군

집합의 각 지점[41] 혹은 계층적인 표면 영역[42]에 직접적으로 필터링을 수행하고, 이를 합쳐

<자료> Qi et al., Volumetric and Multi-View CNNs for Object Classification on 3D Data(Fig. 1), CVPR 2016.

[그림 17] 3D 모델을 점유한 복셀 공간 및 2D 랜더링 집합으로 정의한 표현법[39]

<자료> Qi et al., PointNet++ Deep Hierarchical Feature Learning on Point Sets in a Metric Space(Fig. 2), NIPS 2017.

[그림 18] 학습 샘플 공간을 효율적으로 관리하는 PointNet++의 흐름도[42]

Page 15: 영상기반 3차원 정보 인지를 위한 인공지능 기술 동향€¦ · 때마다, 보다 정교한 3차원 복원 결과물을 얻을 수 있다. 3D-R2N2의 Encoder는 2D

16 www.iitp.kr

주간기술동향 2018. 9. 5.

나가는 방식으로 3D 데이터를 추상화하는 방법을 들 수 있다. PointNet은 모델을 정의하는

점군 집합 표현법 그대로를 학습에 사용했다는 점에서도 중요한 의미를 가지며, 매우 복잡한

점군 집합에서 각 점들이 가지는 공간적인 정보가 효율적인 방식으로 학습되는 것을 보이면

서 이후 3D 인지를 위한 심층 구조 설계 방향에 큰 영향을 주게 된다.

이어지는 연구에서도 점군 집합들로 이루어진 입력 모델을 분류/검색하는데 있어, 가정된

정형 공간 대신 데이터 기반으로 분할되는 공간에서 심층 학습이 집중적으로 이루어진다[43].

대부분의 연산이 물체 표면 주변에서 이루어지기에 메모리와 연산량 관리에 큰 장점이 있었

다. 나아가, SPLATNet[44]에서는 점군 간의 연결성을 고려한 학습법을 제시하며 최신 동향에

서 주목을 받고 있다. 앞서 PointNet에서 분할 연산된 결과를 합치는 단순 max-pooling layer를

중요도를 고려하여 적응적으로 합칠 수 있는 Bilateral convolutional layer(BCL)를 학습하는 것으

로 개선하여 성능 향상을 보일 수 있었다. 2018년 기준으로 이 방법론이 3D인지 분야의 state-

of-the-art 중 하나로 평가 받고 있다.

VI. 결론 및 시사점

2D 영상으로부터 3차원 정보를 인지하는 기술은 컴퓨터 비전에서 전통적으로 연구되어 왔

던 기술로써 최근 인공지능 기술의 발전으로 인해 급격하게 그 성능이 향상됨으로써 실제

산업 분야에 적용되기 위해 다양한 기술들이 연구 개발되고 있다. 인공지능 기반의 깊이 추정

기술은 자율주행 자동차에 실적용되어 의미 있는 성능을 보여주고 있으며, 3차원 복원 기술은

<자료> Su et al., SPLATNet: Sparse Lattice Networks for Point Cloud Processing(Fig. 3), CVPR 2018.

[그림 19] BCL을 활용하여 3D 및 2D-3D 추론하는 SPLATNet 구조[44]

Page 16: 영상기반 3차원 정보 인지를 위한 인공지능 기술 동향€¦ · 때마다, 보다 정교한 3차원 복원 결과물을 얻을 수 있다. 3D-R2N2의 Encoder는 2D

기획시리즈 – 인공지능

정보통신기술진흥센터 17

3D 프린팅에 사용될 수 있을 정도로 정밀한 3차원 정보를 획득할 수 있다. 사람의 자세 추정

기술은 한 장의 2D 영상에서도 다수의 사람에 대해 정확한 자세를 인식하는 수준에 이르렀고,

기존의 2D 영상에 대한 딥러닝 기반의 객체 분류 기술들을 3차원 포인트 클라우드에 적용하려

는 시도도 최근 활발하게 이루어지고 있다.

[ 참고문헌 ]

[1] J. Zbontar and Y. LeCun, “Stereo Matching by Training a Convolutional Neural Network to Compare Image Patches, in Journal of Machine Learning Research(JMLR),” Vol.17, Issue 1, 2016, pp.2287-2318.

[2] W. Luo et al., “Efficient Deep Learning for Stereo Matching,” in IEEE Computer Vision and Pattern Recognition(CVPR), 2016, pp.5695-5703.

[3] Z. Chen et al., “A Deep Visual Correspondence Embedding Model for Stereo Matching Costs,” in IEEE International Conference on Computer Vision(ICCV), 2015, pp.972-980.

[4] N. Mayer et al., “A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation,” in IEEE Computer Vision and Pattern Recognition(CVPR), 2016, pp.4040-4048.

[5] A. Kendall et al., “End-to-End Learning of Geometry and Context for Deep Stereo Regression,” in IEEE International Conference on Computer Vision(ICCV), 2017, pp.66-75.

[6] Z. Liang et al., “Learning for Disparity Estimation through Feature Constancy,” in IEEE Computer Vision and Pattern Recognition(CVPR), 2811-2820, 2018.

[7] P. Knobelreiter et al., “End-to-End Training of Hybrid CNN-CRF Models for Stereo,” in IEEE Computer Vision and Pattern Recognition(CVPR), 2017, pp.1456-1465.

[8] H. Hirschmuller, “Stereo Processing by Semiglobal Matching and Mutual Information,” In IEEE Trans. on Pattern Analysis and Machine Intelligence(TPAMI), Vol.30, Issue 2, 2008, pp.328-341.

[9] A. Seki and M. Pollefeys, “SGM-Nets: Semi-global matching with neural networks,” in IEEE Computer Vision and Pattern Recognition(CVPR), 6640-6649, 2017.

[10] 추창우, 박지영, 김호원, 박정철, 임성재, 구본기, “3차원 복원 기술 동향,” 한국전자통신연구원, 전자통신동향분석,

제 22권 제 4호: 1-11, 2007.

[11] W. E. Carlson., “An algorithm and data structure for 3d object synthesis using surface patch intersections,” In Conference on Computer graphics and interactive techniques(SIGGRAPH), 16(3):255–263, July 1982.

[12] B. Curless and M. Levoy., “A volumetric method for building complex models from range images,” In Conference on Computer graphics and interactive techniques(SIGGRAPH), 1996, pp.303-312.

[13] S. Chaudhuri, E. Kalogerakis, L. Guibas, and V. Koltun., “Probabilistic reasoning for assembly-based 3d modeling,” In ACM SIGGRAPH 2011 Papers, SIGGRAPH’11, New York, NY, USA, 2011, pp.35:1–35:10.

[14] A. Kar, S. Tulsiani, J. Carreira, and J. Malik. “Category-specific object reconstruction from a single image, In Computer Vision and Pattern Recognition(CVPR) 2015, pp.1966–1974, Boston, MA, USA, June 7-12, 2015.

[15] A. X. Chang, T. Funkhouser, L. Guibas, P. Hanrahan, Q. Huang, Z. Li, S. Savarese, M. Savva, S. Song, H. Su, et al.

“Shapenet: An information-rich 3d model repository,”arXiv preprint arXiv:1512.03012, 2015.[16] A. Krizhevsky, I. Sutskever, G.E. Hinton, “Imagenet classication with deep convolutional neural networks,” n Neural

Information Processing Systems(NIPS), 2012, pp.1097-1105.

[17] R. Girdhar, D. F. Fouhey, M. Rodriguez, and A. Gupta. “Learning a predictable and generative vector representation for objects,” European Conference on Computer Vision(ECCV), 2016, pp.484-499.

[18] C. B. Choy, D. Xu, J. Gwak, K. Chen, and S. Savarese, “3dr2n2: A unified approach for single and multi-view 3d object reconstruction. In European Conference on Computer Vision(ECCV), 2016, pp.628–644.

[19] J. Wu, Y. Wang, T. Xue, X. Sun, W. T. Freeman, and J. B. Tenenbaum, “MarrNet: 3D Shape Reconstruction via 2.5D Sketches,” In Advances In Neural Information Processing Systems, 2017, pp.540-550.

Page 17: 영상기반 3차원 정보 인지를 위한 인공지능 기술 동향€¦ · 때마다, 보다 정교한 3차원 복원 결과물을 얻을 수 있다. 3D-R2N2의 Encoder는 2D

18 www.iitp.kr

주간기술동향 2018. 9. 5.

[20] Y. Sun, Z. Liu, Y. Wang, and S. E. Sarma, “Im2Avatar: Colorful 3D Reconstruction from a Single Image,” arXiv preprint arXiv:1804.06375, 2018.

[21] D. DeTone, T. Malisiewicz and A. Rabinovich, “Toward Geometric Deep SLAM,” arXiv:1707.07410v1, 2017.[22] S. Li and A. B. Chan, “3D Human Pose Estimation from Monocular Images with Deep Convolutional Neural Network,” in

Asian Conference on Computer Vision(ACCV), 2014, pp.332-347.

[23] B. Tekin, I. Katircioglu, M. Salzmann, V. Lepetit, and P. Fua, “Structured Prediction of 3D Human Pose with Deep Neural Networks,” in British Machine Vision Conference(BMVC), 2016, pp.130.1-130.11.

[24] G. Pavlakos, X. Zhou, K. G. Derpanis, and K. Daniilidis, “Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose,” in IEEE Computer Vision and Pattern Recognition(CVPR), 1263-1272, 2017.

[25] Microsoft Common Objects in Context Dataset(MS COCO), http://cocodataset.org

[26] MPII Human Pose Dataset, http://human-pose.mpi-inf.mpg.de/

[27] PoseTrack Dataset, https://posetrack.net/

[28] J. Martinez, R. Hossain, J. Romero, and J. J. Little, “A simple yet effective baseline for 3d human pose estimation,” in IEEE International Conference on Computer Vision(ICCV), 2659-2668, 2017.

[29] A. Newell, K. Yang, and J. Deng, “Stacked Hourglass Networks for Human Pose Estimation,” in European Conference on Computer Vision(ECCV), 483-499, 2016.

[30] F. Moreno-Noguer, “3D Human Pose Estimation from a Single Image via Distance Matrix Regression,” in IEEE Computer Vision and Pattern Recognition(CVPR), 1561-1570, 2017.

[31] W. Yang, W. Ouyang, X. Wang, J. Ren, H. Li, and X. Wang, “3D Human Pose Estimation in the Wild by Adversarial

Learning,” in IEEE Computer Vision and Pattern Recognition(CVPR), 5255-5264, 2018.[32] F. Bogo, A. Kanazawa, C. Lassner, P. Gehler, J. Romero, and M. J. Black, “Keep it SMPL: Automatic Estimation of 3D

Human Pose and Shape from a Single Image,” in European Conference on Computer Vision(ECCV), 561-578, 2016.[33] G. Pavlakos, L. Zhu, X. Zhou, and K. Daniilidis, “Learning to Estimate 3D Human Pose and Shape from a Single Color

Image,” in IEEE Computer Vision and Pattern Recognition(CVPR), 459-468, 2018.[34] Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh, “Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields,” in

IEEE Computer Vision and Pattern Recognition(CVPR), 1302-1310, 2017.

[35] U. Iqbal, A. Milan, and J. Gall, “PoseTrack: Joint Multi-Person Pose Estimation and Tracking,” in IEEE Computer Vision and Pattern Recognition(CVPR), 4654-4663, 2017.

[36] R. Girdhar, G. Gkioxari, L. Torresani, M. Paluri, and D. Tran, “Detect-and-Track: Efficient Pose Estimation in Videos,” in IEEE Computer Vision and Pattern Recognition(CVPR), 350,359, 2018.

[37] Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang, X. Tang, and J. Xiao, “3D ShapeNets: A Deep Representation for Volumetric Shapes,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2015, pp.1912-1920.

[38] H. Su, S. Maji, E. Kalogerakis, and E. Learned-Miller, “Multi-view Convolutional Neural Networks for 3D Shape

Recognition,” In Proceedings of the IEEE International Conference on Computer Vision(ICCV), 2015, pp.945-953.[39] C. R. Qi, H. Su, M. Nießner, A. Dai, M. Yan, and L. J. Guibas, “Volumetric and Multi-View CNNs for Object Classification

on 3D Data,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016, pp.5648-5656.[40] D. Boscaini, J. Masci, E. Rodola, and M. Bronstein, “Learning shape correspondence with anisotropic convolutional neural

networks,” In Advances in Neural Information Processing Systems(NIPS), 2016, pp.3189-3197.[41] C. R. Qi*, H. Su*, K. Mo, and L. J. Guibas, “PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation,”

In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2017, pp.77-85.

[42] C. R. Qi, Li Yi, H Su, and L. J. Guibas, “PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space,” In Advances in Neural Information Processing Systems(NIPS), 2017, pp.5099-5108

[43] R. Klokov and V. S. Lempitsky, “Escape from Cells: Deep Kd-Networks for the Recognition of 3D Point Cloud Models,” In Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017, pp.863-872.

[44] H. Su, V. Jampani, D. Sun, and S. Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz, “SPLATNet: Sparse Lattice Networks for Point Cloud Processing,” In Proceedings of the IEEE Conference on Computer Vision and Pattern

Recognition(CVPR), 2018, pp.2530-2539.