uav-bs 환경에서 서비스 처리량 최대화를 위한 강화학습 기반의 uav...

7
ISSN 2383-630X(Print) / ISSN 2383-6296(Online) Journal of KIISE, Vol. 47, No. 7, pp. 700-706, 2020. 7 https://doi.org/10.5626/JOK.2020.47.7.700 이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평 가원의 지원을 받아 수행된 연구임(No.2019-0-01287, 분산 엣지를 위한 진 화형 딥러닝 모델생성 플랫폼) 이 논문은 2019 한국컴퓨터종합학술대회에서 ‘UAV-BS 환경에서 서비스 처 리량 최대화를 위한 강화학습 기반의 UAV 배치 연구의 제목으로 발표된 논 문을 확장한 것임 논문접수 : 2019827(Received 27 August 2019) 논문수정 : 2020320(Revised 20 March 2020) 심사완료 : 2020423(Accepted 23 April 2020) †† 학생회원 종신회원 : : 경희대학교 컴퓨터공학과 학생 [email protected] 경희대학교 컴퓨터공학과 교수(Kyung Hee Univ.) [email protected] (Corresponding author) Copyright2020 한국정보과학회ː개인 목적이나 교육 목적인 경우, 이 저작물 의 전체 또는 일부에 대한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때, 사본은 상업적 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처를 반드시 명시해야 합니다. 이 외의 목적으로 복제, 배포, 출판, 전송 등 모든 유형의 사용행위 를 하는 경우에 대하여는 사전에 허가를 얻고 비용을 지불해야 합니다. 정보과학회논문지 제47권 제7(2020. 7) UAV-BS 환경에서 서비스 처리량 최대화를 위한 강화학습 기반의 UAV 배치 연구 (Deploying UAV based on Reinforcement Learning for Throughput Maximization in UAV Environments) 박유민 홍충선 †† (Yu Min Park) (Choong Seon Hong) 현재 5G의 상용화가 이루어지는 단계이지만 통신 품질의 안정화를 위해서는 많은 기지국이 필 요하다. 따라서 지상 기지국을 대신하여 UAV를 통해 이동성과 경제적 이점을 얻을 수 있도록 연구가 이 루어지고 있다. 이에 본 논문은 UAV-BS 환경에서 사용자들의 요구량과 지상 기지국 위치를 고려하여 최 적의 서비스 처리량을 가질 수 있는 위치를 찾는 기법을 제안한다. The Air-To-Ground Path Loss Model을 토대로 가상 통신 환경 구축하고, 서비스 요구량에 따른 채널 사용 시간 분배를 위해 Max-Min Airtime Fairness를 적용한다. 더불어, 본 논문은 최적의 서비스 처리량 위치를 찾기 위한 방법으로 강화 학습 중 Proximal Policy Optimization(PPO)을 사용한다. 결과적으로 본 연구를 통해 서로 다른 요구량을 가진 사용자들이 임의로 배치되어 있을 때, 학습 모델을 통해 높은 서비스 처리량을 가진 위치를 찾을 수 있었다. 키워드: UAV 기지국, UAV 배치, 무선 통신, 5G, 강화학습, 처리량 최대화 Abstract Because of the commercialization of the 5G network, many base stations must enhance a reliable communication quality. Thus, many studies are being conducted to provide mobility and economic benefits to the UAVs-Base Station (UAVs-BS) on behalf of the ground base stations. In this paper, we propose a system to identify a location wherein multiple users can access optimal service throughput by considering users’ requirements and the Base Station(BS)’s position in UAVs communication. Based on the Air-To-Ground(A2G) Path Loss Model, the virtual communication environment is established and Max-Min Airtime Fairness is applied for equitable channel usage time distribution according to user requirements. Additionally, the Proximal Policy Optimization (PPO) algorithm is applied to set an optimal location with the maximum throughput. As a result, the proposed systems allow the UAVs to be in the locations with high service throughput for users with different demands. Keywords: UAV base station, UAV deployment, wireless communication, 5G, reinforcement learning, throughput maximization

Upload: others

Post on 22-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: UAV-BS 환경에서 서비스 처리량 최대화를 위한 강화학습 기반의 UAV ...networking.khu.ac.kr/layouts/net/publications/data... · 2020-07-15 · uav-bs 환경에서

ISSN 2383-630X(Print) / ISSN 2383-6296(Online)

Journal of KIISE, Vol. 47, No. 7, pp. 700-706, 2020. 7

https://doi.org/10.5626/JOK.2020.47.7.700

․이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평

가원의 지원을 받아 수행된 연구임(No.2019-0-01287, 분산 엣지를 한 진

화형 딥러닝 모델생성 랫폼)

․이 논문은 2019 한국컴퓨터종합학술 회에서 ‘UAV-BS 환경에서 서비스 처

리량 최 화를 한 강화학습 기반의 UAV 배치 연구’의 제목으로 발표된 논

문을 확장한 것임

논문 수 : 2019년 8월 27일

(Received 27 August 2019)

논문수정 : 2020년 3월 20일

(Revised 20 March 2020)

심사완료 : 2020년 4월 23일

(Accepted 23 April 2020)

††

학생회원

종신회원

:

:

경희 학교 컴퓨터공학과 학생

[email protected]

경희 학교 컴퓨터공학과 교수(Kyung Hee Univ.)

[email protected]

(Corresponding author임)

CopyrightⒸ2020 한국정보과학회ː개인 목 이나 교육 목 인 경우, 이 작물

의 체 는 일부에 한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때,

사본은 상업 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처를 반드시

명시해야 합니다. 이 외의 목 으로 복제, 배포, 출 , 송 등 모든 유형의 사용행

를 하는 경우에 하여는 사 에 허가를 얻고 비용을 지불해야 합니다.

정보과학회논문지 제47권 제7호(2020. 7)

UAV-BS 환경에서 서비스 처리량 최 화를 한 강화학습 기반의 UAV 배치 연구

(Deploying UAV based on Reinforcement Learning for

Throughput Maximization in UAV Environments)

박 유 민† 홍 충 선

††

(Yu Min Park) (Choong Seon Hong)

요 약 재 5G의 상용화가 이루어지는 단계이지만 통신 품질의 안정화를 해서는 많은 기지국이 필

요하다. 따라서 지상 기지국을 신하여 UAV를 통해 이동성과 경제 이 을 얻을 수 있도록 연구가 이

루어지고 있다. 이에 본 논문은 UAV-BS 환경에서 사용자들의 요구량과 지상 기지국 치를 고려하여 최

의 서비스 처리량을 가질 수 있는 치를 찾는 기법을 제안한다. The Air-To-Ground Path Loss

Model을 토 로 가상 통신 환경 구축하고, 서비스 요구량에 따른 채 사용 시간 분배를 해 Max-Min

Airtime Fairness를 용한다. 더불어, 본 논문은 최 의 서비스 처리량 치를 찾기 한 방법으로 강화

학습 Proximal Policy Optimization(PPO)을 사용한다. 결과 으로 본 연구를 통해 서로 다른 요구량을

가진 사용자들이 임의로 배치되어 있을 때, 학습 모델을 통해 높은 서비스 처리량을 가진 치를 찾을 수 있었다.

키워드: UAV 기지국, UAV 배치, 무선 통신, 5G, 강화학습, 처리량 최 화

Abstract Because of the commercialization of the 5G network, many base stations must enhance

a reliable communication quality. Thus, many studies are being conducted to provide mobility and

economic benefits to the UAVs-Base Station (UAVs-BS) on behalf of the ground base stations. In

this paper, we propose a system to identify a location wherein multiple users can access optimal

service throughput by considering users’ requirements and the Base Station(BS)’s position in UAVs

communication. Based on the Air-To-Ground(A2G) Path Loss Model, the virtual communication

environment is established and Max-Min Airtime Fairness is applied for equitable channel usage time

distribution according to user requirements. Additionally, the Proximal Policy Optimization (PPO)

algorithm is applied to set an optimal location with the maximum throughput. As a result, the proposed

systems allow the UAVs to be in the locations with high service throughput for users with different

demands.

Keywords: UAV base station, UAV deployment, wireless communication, 5G, reinforcement learning,

throughput maximization

Page 2: UAV-BS 환경에서 서비스 처리량 최대화를 위한 강화학습 기반의 UAV ...networking.khu.ac.kr/layouts/net/publications/data... · 2020-07-15 · uav-bs 환경에서

UAV-BS 환경에서 서비스 처리량 최 화를 한 강화학습 기반의 UAV 배치 연구 701

1. 서 론

차세 이동 통신인 5G는 2018년부터 채용되는 무선

네트워크 기술로써 리미터 를 이용하는 통신이다.

재 5G의 상용화가 진행되고 있지만 리미터 의 직진

성으로 인해 간에 손상되지 않도록 근거리로 셀을 구

성한 네트워크를 구축해야 한다. 이런 특징으로 인해

5G의 안정 인 상용화를 해서는 많은 기지국 설치가

요구되지만, 지상에서 새로운 기지국을 설치하는 것은

경제 비효율성을 야기한다[1]. 따라서 지상 기지국을

신하는 방안으로 UAV-Base Station(UAV-BS) 연

구가 이루어지고 있다[1].

UAV(Unmanned Aerial Vehicle) 는 드론은 조종

사가 직 탑승하지 않은 비행체를 말한다[2]. 최 의

UAV는 군사 인 용도로 개발되었지만 재는 군사

인 용도보다는 민간 부분과 공공 부분을 포함한 다양한

분야에서 사용되고 있다. 특히 UAV는 비용 인 측면,

line-of-sight(LoS) 통신, 그리고 변하는 상황에 한

자유로운 움직임에서 큰 이 을 가지고 있어 통신 분야

에서 잠재력을 가지고 있다. 그러나 UAV 기반의 무선

통신은 최 배치 문제, 한정된 에 지, 보안 등 해결해

야 할 많은 이슈들이 있다.

이를 해결하기 해 다양한 연구들이 진행 인데 논

문[3]은 에 지 소비 최소화와 UAV 간 력을 보장하

기 한 분산 UAV 포트를 리하는 알고리즘을 제시

했다. 논문 [4]에서는 UAV-BS 환경에서 격하게 바

는 환경에 하여 유동 인 Channel Modeling 에

한 연구를 했다. 군집화 분석을 해 비 지도 학습 기반

의 방법을 사용했으며 실제 환경에서 높은 정확도와 유

연성을 가진 결과를 보여주었다.

본 논문은 서로 다른 요구량을 가진 사용자들에 해

높은 처리량을 제공할 수 있도록 UAV를 배치하는 문

제를 해결하는 방안을 제안하고자 한다. 본 논문은 선행

연구들과 달리 두 가지 측면에서 차이가 있다. 먼 ,

UAV가 최 화된 처리량을 낼 수 있는 치를 찾기

해 강화학습을 사용하여 문제를 해결했다. 이것은 기존

의 알고리즘 인 방법과 비교하여 변하는 환경에 한

응력에서 장 을 가질 수 있다. 두 번째는 UAV가 사

용자들과 아무리 가까워도 실제 통신 자원을 제공하는

Base Station(BS)에서 멀어지면 통신량이 감소하는 측

면을 고려하 다. 따라서 사용자의 치뿐만 아니라

UAV와 연결된 BS의 치까지 변수로 하여 실제 통신

환경에서 사용할 수 있도록 설계했다. 본 연구의 결과로

통신 서비스를 받는 사용자의 치가 불균일하게 분포

되어 있고 사용자들은 서로 다른 서비스 요구량을 가지

고 있을 때 UAV를 통한 안정 이고 효율 인 통신이

가능할 것이다.

본 논문의 2장에서는 강화학습과 UAV 통신에서 처

리량 최 화를 한 연구들을 살펴보고, 3장에서는 본

논문의 강화학습 환경 구축을 해 사용한 모델들에

해 설명한다. 4장에서 제안한 시스템 모델과 다른 알고

리즘 방법과의 서비스 처리량 비교를 통해 성능평가 내

용을 다루며, 마지막 5장은 논문의 결론 향후 연구

방향을 제시한다.

2. 련 연구

2.1 Reinforcement Learning(강화학습)

강화학습은 주어진 환경에서 설정된 행동들을 반복하

며 보상을 많이 받는 방향으로 Parameter들을 수정하는

략을 취한다. 그림 1은 Agent가 주어진 환경에서 행

동에 한 보상을 받으며 학습되는 과정의 시나리오 그

림이다. 기존에 없던 환경에서 인공지능을 학습해야 하

는 상황에서는 학습시킬 데이터가 없으므로 기계학습

에서도 강화학습이 합하다.

강화학습에도 여러 기법이 존재하고 크게 Value-based

와 Policy-based로 분류할 수 있다. Value-based와 달

리 Policy-based는 행동들이 연속 인 경우와 실제 로

이나 드론의 학습에 합하다. Policy-based 기법

에서는 표 으로 Trust Region Policy Optimization

(TRPO), Proximal Policy Optimization (PPO)가 존재

하고 PPO는 TRPO를 발 시킨 기법으로 TRPO보다

간략하고 범용 인 방법이다[5]. 따라서 본 논문에서 강

화학습 에서도 PPO를 이용하여 서비스 처리량 최

화를 한 UAV의 치를 찾는 방안을 연구한다.

2.2 UAV-BS 환경에서의 최 배치 연구

논문 [6]은 처리량의 최 화 문제에 한 방안으로

Tabu-Search를 기반의 역 최 화 알고리즘을 제안하

고 있다. UAV가 움직일 수 있는 범 를 일정한 격자로

가정하고 사용자와의 통신을 보장하는 범 에서 최 화

된 치를 찾았다. 이를 통해, 기 배치와 비교하여 평

그림 1 인식-행동-학습 루

Fig. 1 The perception-action-learning loop

Page 3: UAV-BS 환경에서 서비스 처리량 최대화를 위한 강화학습 기반의 UAV ...networking.khu.ac.kr/layouts/net/publications/data... · 2020-07-15 · uav-bs 환경에서

702 정보과학회논문지 제47권 제7호(2020. 7)

균 26%정도의 처리량이 상승된 치를 찾을 수 있었다.

그러나 격자로 UAV 움직임을 제한시킨 것은 연속 인

실제 환경에서 오차를 낼 수 있다는 한계를 지닌다.

논문 [7]에서는 서로 다른 서비스 요구량을 가진 사용

자들에 해 처리량을 최 화시키는 지 을 찾는 방법

으로 휴리스틱한 방법과 근사 알고리즘을 제안하 다.

먼 휴리스틱한 방법은 각 사용자의 서비스 요구량을

가 치로 하여 각 사용자의 가 치를 곱한 치의

에 UAV를 치시키는 방법이다. 치를 찾는 계산 시

간이 짧아 빠르게 지 을 찾을 수 있지만, 정확도 측면

에서 좋지 않은 방법이다. 다른 방법인 근사 알고리

즘은 UAV의 주변을 격자로 하여 모든 격자 에 한

상 처리량을 도출하여 처리량 최 지 을 찾는 방법

이다. 휴리스틱한 방법과 비교하면 속도는 느리지만 정

확한 치를 찾을 수 있다. 하지만 논문 [6]과 마찬가지

로 UAV 움직임을 격자로 제한시켜 연속 인 실제 환

경에서 오차를 낼 수 있다는 한계를 지닌다. 따라서 본

논문은 UAV가 움직일 수 있는 범 를 연속 인 공간

으로 하여 최 의 치를 찾는 방안을 제시한다.

논문 [8]은 선행 연구에서 UAV의 Backhaul Connec-

tions의 치를 고려하지 않는 을 보완하여 UAV 배치

와 무선 자원 할당을 했다. 처리량 최 화라는 non-

convex 최 화 문제를 풀기 해 Successive Convex

Programming(SCP)를 통해 non-convex를 convex로

축소해 해결하는 수치 인 근 방법을 제시했다. 실제

사용자들의 치와 요구량이 변하는 통신에서는 빠르

게 최 지 을 찾는 것이 요하다. 따라서 수치 인

근을 통해서는 빠르게 최 지 을 찾는 것에 어려움이

있다. 본 논문에서는 논문 [8]과 마찬가지로 Base Station

이라는 Backhaul Connection의 치를 고려하 고

UAV의 최 배치 문제를 해결하는 방법으로는 수치 인

근 방법이 아닌 강화학습을 통한 근 방법을 제시한다.

논문 [9]는 UAV와 사용자와의 통신에서 QoE(사용자

통신 경험의 품질)을 최 화시키는 치를 찾았다. 치

를 찾는 방법으로는 Q-learning을 기반으로 강화학습을

사용하 고 K-means 군집화를 통해 사용자들을 분류

후 각 군집에 UAV를 배치하는 방법으로 다 다 환

경을 만들었다. 하지만 Q-learning은 표 인 Value-

based 강화학습으로 드론의 학습에 합하지 못하다.

따라서 본 논문에서는 2.1 에서 언 한 PPO를 사용할

것이며 QoE 신 처리량을 극 화하는 곳에 UAV를

배치하는 것이 목표이다.

3. 제안 사항

3.1 시스템 모델

본 논문은 그림 2와 같이 지상 기지국으로는 통신이

그림 2 시스템 모델

Fig. 2 The system model

불안정한 상황, 즉 경기장, 콘서트장과 같은 상황에서

UAV를 통해 통신을 지원할 수 있도록 한다. UAV를

통해 통신 서비스를 받는 사용자의 치가 불균일하게

분포되어 있고 사용자들은 서로 다른 서비스 요구량을

가지고 있다고 가정한다. 이 상황에서 UAV를 최

치에 배치함으로써 처리량을 향상할 수 있도록 방법을

제안한다. UAV의 통신 처리량은 해당 UAV에게 통신

연결이 되어있는 BS의 거리도 요한 요소 하나이

다. 따라서 UAV가 최 의 서비스 처리량을 낼 수 있는

치를 찾을 때 고려될 사항으로는 BS의 치, 통신 사

용자들의 치, 그리고 사용자들의 요구량들이다. 실

에서 자주 바 는 사용자들의 치 서비스 요구량에

해 빠르게 최 의 치를 찾는 방안으로 2.1 에서 언

한 강화학습 모델을 용한다. 한, 가상 환경 구

을 해 3.2 의 네트워크 모델과 3.3 의 강화학습 모

델을 제안한다.

3.2 네트워크 모델

The Air-To-Air(A2A) Path Loss Model: UAV와

BS간의 통신 과정에서 거리 에 따른 신호 감쇄 효과

로 인한 (신호 잡음비)을 계산하기 한 모델이

다. 식 (1)은 거리 , 빛의 속도와 BS의 통신 주

수 를 통해 UAV와 BS 간의 통신 손실을 구하는 식

이다. 이 게 구한 통신 손실을 식 (2)와 식 (3)에 차례

로 입하여 통신 세기와 SNR을 각각 구할 수 있다.

log

(1)

(2)

(3)

결과 으로 와 BS에서 제공하는 역폭 을

식 (4)에 입하여 UAV가 사용자들에게 제공할 수 있

는 실제 역폭을 구할 수 있다.

log (4)

The Air-To-Ground(A2G) Path Loss Model: UAV

Page 4: UAV-BS 환경에서 서비스 처리량 최대화를 위한 강화학습 기반의 UAV ...networking.khu.ac.kr/layouts/net/publications/data... · 2020-07-15 · uav-bs 환경에서

UAV-BS 환경에서 서비스 처리량 최 화를 한 강화학습 기반의 UAV 배치 연구 703

알고리즘 1 Calculate Throughput CapacityInput: , , for ∀∈,

Output: for ∀∈

1: ←A2APathLoss(, , )2: for ∈

3: ←A2GPathLoss( , , )

4: ← 05: end for6: ′←

7: AvailableAirtime ← 18: while ′≠ ∅ and AvailableAirtime > 0.001f9: RemainedNum ← ′

10: DistributedAirtime ← AvailableAirtime / RemainedNum

11: for ∈ ′

12: if ≥

13: SurplusAirtime ← -

14: ←

15: AvailableAirtime←AvailableAirtime-SurplusAirtime 16: Delete from ′

17: else18: ←+ DistributedAirtime19: AvailableAirtime←AvailableAirtime-DistributedAirtime20: end if21: end for22: end while23: for ∈

24: ←

25: end for

와 사용자간의 통신 과정에서 거리에 따른 신호 감쇄

효과로 인한 (신호 잡음비)을 계산하기 한 모

델이다[6]. 식 (5)에서 는 통신 간에 장애물에 없

는 line-of-sight가 될 확률이고 는 통신 간에

장애물이 있을 확률이다. 따라서

라는 식을 얻을 수 있다. 그리고 와 는 각각,

와 에서 추가 인 감쇄 수치이다. 식 (6)의 와

는 설정 환경에 따라 변하는 상수이다.

log

(5)

exp

(6)

식 (5)에서 얻은 은 앞서 A2A Model에서와 같이

식 (2)와 식 (3)에 입하여 을 구할 수 있고 식

(7)을 통해 사용자의 Data Capacity 를 구할 수

있다.

log (7)

Max-Min Airtime Fairness: 사용자들의 서로 다른

서비스 요구량에 따른 채 사용 시간, 즉, Airtime

을 공평하게 분배를 한 방법이다. 식 (8)은 모든 사용

자에 한 채 사용 시간의 합은 1 이하가 되도록 하

여 UAV가 제공할 수 있는 역폭을 서비스 요구량에

따라 나 수 있게 하는 것을 의미한다[10].

≤ (8)

for ∀∈ (9)

식 (9)를 통해 사용자∈의 분배된 채 사용 시

간과 Data Capacity로 Throughput Capacity

을 구할 수 있다.

max∈

(10)

결과 으로 본 논문에서 해결해야 할 문제는 식 (10)

이 의미하는 바와 같이 모든 사용자에 한

Throughput Capacity를 더한 최종 처리량이 최 가 되

는 곳에 UAV의 치를 구하는 것이다.

알고리즘 1은 Max-Min Fairness 기반의 알고리즘으

로 BS의 치 , UAV의 치 , 사용자 집합 에

한 치 와 요구량 , 그리고 최 의 역폭

을 입하여 채 사용 시간을 분배하고 통신 처리량

( )을 구하는 과정을 나타낸다. 1부터 4까지는 BS

의 역폭을 구하고 실제 사용자가 제공 받을 수 있는

역폭까지 구하는 부분이다. 6부터 22까지가 서비스

요구량에 따른 채 사용 시간을 분배하는 부분으로

4에서 모든 사용자는 최 에 채 사용 시간을 0으로

기화한다. 사용자들은 각 반복에 하여 Available-

Airtime/RemainNum 만큼 채 사용 시간을 늘려주게

된다. 12에서는 추가된 채 사용 시간으로 사용자

요구량을 충족시키는지 확인한다. 만약 사용자 요구량을

충족시켰다면 최소 충족 채 사용 시간 SurplusAirtime

을 도출하여 AvailableAirtime에서 빼주고 해당 사용자

의 채 사용 시간 에 SurplusAirtime을 더해

다. 그리고 해당 사용자는 만족한 채 사용 시간을 구

했으므로 집합 ′에서 제외한다. 사용자 요구량을 충족

시키지 못한 사용자들은 DistributedAirtime을 채

사용 시간에 추가해주고 반복을 재개한다. 이 반복

은 집합 ′가 공집합이 되거나 AvailableAirtime이 최

소량 0.0001f 미만이 될 때까지 실행된다. 결과 으로

23부터 24까지 도출된 사용자들의 채 사용 시간

과 Data Capacity 을 통해 최종 처리량을 구할

수 있다.

Page 5: UAV-BS 환경에서 서비스 처리량 최대화를 위한 강화학습 기반의 UAV ...networking.khu.ac.kr/layouts/net/publications/data... · 2020-07-15 · uav-bs 환경에서

704 정보과학회논문지 제47권 제7호(2020. 7)

3.3 강화학습 모델

강화학습에 한 시뮬 이션은 Unity를 통해 환경 구

축을 했고 ML-Agents 컴포 트와 Tensorflow를 통해

학습하 다[11]. 에피소드가 시작되면 10명의 사용자가

반지름이 250m인 범 안에서 임의로 배치한다. 그리고

UAV와 BS의 기 치는 항상 (-250, -250)으로 고정

하며 본 논문에서는 UAV의 높이에 따른 통신 범 를

고려하지 않았기 때문에 UAV는 항상 최 의 높이에

치한다고 가정을 하고 x, z축 방향으로의 이동만으로

제한하 다. 사용자는 서로 다른 서비스 요구량을 가지

고 있으며 사용한 네트워크 모델들의 식에 따라 사용자

들에 한 체 처리량을 계산한다. Action으로는 UAV

가 임의의 지 으로 이동하는 것이고 그 후 처리량을

계산하여 이 처리량과 비교한다. 만약 처리량이 증가

했다면 증가치 만큼 Reward를 주고 그 지 않으면 에

피소드를 종료하고 학습 모델의 변수들을 업데이트한다.

이 게 에피소드를 반복하여 UAV의 Action이 처리량

이 높아지는 방향으로 학습되게 된다. 그림 3은 본 논문

에서 사용될 학습 에피소드의 체 인 순서도이다. 표 1

은 강화학습에 사용된 구성 요소들을 보여주고 있다.

그림 3 강화학습 에피소드 순서도

Fig. 3 The flowchart of the reinforcement learning episode

표 1 강화학습 구성 요소

Table 1 The reinforcement learning components

Component Description

StatePositions and Service Requirements

of Each user

ActionRandom movement to x-axis, z-axis

of UAV

Rewardpost movement Throughput -

pre movement Throughput

4. 성능평가

실제 성능평가를 해 사용된 통신 변수들의 설명과

값들은 표 2에서 확인할 수 있다. UAV가 지원하는 통

신을 일반 LTE 서비스라고 가정하 기 때문에 주 수

와 역폭을 표 1에서와 같이 정의되었다. 한, 도시

상황에서의 통신이라고 가정하여 그에 따른 환경 상수

(, ), 추가 감쇄 수치(, )이 정의되었다[6].

4.1 성능평가 방법

본 논문은 총 3가지의 방법들과의 조로 성능 평가

를 하 다. 먼 DisMean Search은 BS의 치와 사용

자들의 치만을 고려하여 모든 거리의 합이 최소가 되

는 지 에 UAV를 배치하는 것이다. 해당 방법을 통해

본 논문에서 제안하는 방법을 통한 처리량과 사용자들

의 서비스 요구량을 고려하지 않았을 때의 처리량과 비

교할 수 있다. 한, 처리량 결과들을 객 인 수치로

비교하기 해서 Optimal Search를 사용하 다. Optimal

Search는 DisMean Search로 찾은 지 으로부터 반경

150m에서 1m 간격으로 모든 을 비교하여 가장 처리

량이 높은 지 을 찾는 방법이다. 최 지 이 될 수 있

는 치들을 모두 비교하는 방법으로 실행 시간을 고려

하지 않는다면 가장 최 에 근사한 치를 찾을 수 있

다. Optimal(NonBS) Search는 BS의 치를 고려하지

않고 사용자들의 치와 요구량만을 고려하여 처리량이

가장 높은 지 을 찾는 방법이다. Optimal(NonBS)

Search를 통해 UAV의 최 치를 찾음에 있어 BS의

치를 고려하는 것에 한 향력을 악할 수 있다.

(8)

표 2 변수 정의 사용 값

Table 2 The notion definitions and values

Notion Description Value

Transmitter frequency

Transmitting power

Antenna gains for the transmitter

Antenna gains for the receiver

Total System Losses

Bandwidth for Base Station

Noise Power for BS and UAV

Constants on the environment4.88

0.49

Additional losses

in and 0.1

21

Page 6: UAV-BS 환경에서 서비스 처리량 최대화를 위한 강화학습 기반의 UAV ...networking.khu.ac.kr/layouts/net/publications/data... · 2020-07-15 · uav-bs 환경에서

UAV-BS 환경에서 서비스 처리량 최 화를 한 강화학습 기반의 UAV 배치 연구 705

그림 4 사용자의 서비스 요구량에 따른 UAV 최 치 그래

Fig. 4 The UAV optimal position graph in the user’s service requirements

성능 을 기 처리량 에서 얼마나

증가했는지를 수치로 나타내기 해 식 (9)을 사용하

다. 식 (9)로 비교 처리량 을 Optimal

Search의 처리량 과 비교하여 최 처리

량보다 얼마나 증가했는지 비율을 도출한다.

4.2 성능평가 결과

그림 4는 사용자 서비스 요구량에 따른 UAV의 최

치 그래 이다. 그림 4의 (a)은 임의의 실험 경우

하나로 각 방법의 결과들이 서로 다른 치에 배치되었

다. 표 3은 그림 4의 (a) 상황에서 각 방법에 한 성능

을 수치로 나타낸 표이다. 최 화된 성능과 비교하여 제

안한 PPO는 99%의 성능을 보여주었다. BS의 치를

고려하지 않은 상태의 최 화된 치의 성능인 Optimal

(NonBS)는 약 55%로 상 으로 낮은 수치임을 확인

할 수 있다. 그와 반 로 사용자들의 요구량을 고려하지

않고 사용자들과 BS의 심의 치인 DisMean는 80%

이상으로 Optimal(NonBS)와 비교하여 높은 성능을 내

었다. 이 결과를 바탕으로 최 화된 치에 UAV를 배

치하는 데 있어 BS의 치에 한 변수는 사용자들의

요구량보다 향력이 있음을 추가로 알 수 있었다.

그림 4의 (b)와 (c)는 경기장 는 공연장과 같이 어

느 지역의 요구량이 증가했을 때의 상황이다. 제안한 방

법을 통해 UAV가 해당 증가한 지역으로 조 씩 이동

한 걸 확인할 수 있다. 결과 으로 해당 실험을 통해 서

비스 요구량이 많은 지역 즉, 인구 집 지역과 가까운

표 3 수행 능력 결과표

Table 3 The performance results table

Method Performance (0~1)

PPO 0.9933442

DisMean 0.8006116

Optimal (NonBS) 0.5539271

그림 5 임의의 경우에 한 방법별 수행 능력 그래

Fig. 5 The performance graph by the methods in random

cases

곳에서 UAV가 통신 지원을 하는 것이 최종 처리량을

높이는 데 도움을 주는 것을 알 수 있다.

그림 5는 사용자의 치 요구량이 무작 로 변한

10가지 경우에 한 각 방법의 성능을 그래 로 나타낸

것이다. DisMean 방법은 Optimal(NonBS) 방법보다는

모든 경우에서 높은 성능을 내었지만 제안한 방법과 비

교하여 20% 이상 성능이 낮음을 확인할 수 있다. 이로

인해 UAV와 연결된 BS의 치를 고려하는 것이 최

치를 찾는 데에 요한 요소임을 알 수 있다. 제안한

강화 학습 PPO 기반의 방법은 최 화된 치에서의 성

능과 비교하여 항상 97% 이상의 성능을 냈다. 결과 으

로 각 사용자의 서비스 요구량과 BS의 치를 고려한

제안한 PPO가 Optimal에 가장 가까운 처리량을 보여주

었다. 이 게 임의의 상황에서 최 의 치를 찾을 수

있는 것으로 사용자들의 치나 서비스 요구량이 변하

는 상황에서 제안한 방법이 효과 으로 사용될 수 있다

는 것을 알 수 있다.

Page 7: UAV-BS 환경에서 서비스 처리량 최대화를 위한 강화학습 기반의 UAV ...networking.khu.ac.kr/layouts/net/publications/data... · 2020-07-15 · uav-bs 환경에서

706 정보과학회논문지 제47권 제7호(2020. 7)

5. 결론 향후 연구

본 논문에서는 UAV-BS 환경에서 서로 다른 서비스

요구량을 가진 사용자들에 해 서비스 처리량 최 화

치를 찾는 방법을 연구하 다. 최 의 치를 찾기

해 강화학습 기반의 PPO라는 기법을 사용하 다. 한,

사용자들의 치와 요구량뿐만 아니라 UAV와 연결된

Base Station(BS)과의 거리를 함께 고려하 다. 결과

으로 제안한 방법을 통해 BS의 치를 고려하지 않은

성능인 Optimal(NonBS)과 비교하여 30% 이상의 차이

를 내었고 최 화된 성능인 Optimal과는 차이 3% 미만

의 성능을 내었다. 이 게 본 논문에서 제안한 강화학습

기반의 방법을 통해 실제 실에서 사용자들의 치 이

동, 변하는 요구량에 맞게 빠르고 정확하게 최 의 치

를 찾을 수 있다. 앞으로 본 논문에서 고려하지 않은

UAV의 고도 변화에 따른 통신, 다수의 UAV 통신, 배

터리 효율, 그리고 보안 등 이슈들을 향후 연구에서 고

려하여 본 논문을 발 시킬 수 있을 것이다.

References

[ 1 ] Li, Bin, Zesong Fei, and Yan Zhang, "UAV com-

munications for 5G and beyond: Recent advances

and future trends," IEEE Internet of Things

Journal, Vol. 6, No. 2, pp. 2241-2263, Dec. 2018.

[ 2 ] International Civil Aviation Organization, 2011, "ICAO's

circular 328 AN/190 : Unmanned Aircraft Systems,"

[Online]. Available: https://www.icao.int/Meetings/

UAS/Documents/Circular%20328_en.pdf (accessed 2019,

Apr. 10)

[ 3 ] Lynskey, Jared, Kyi Thar, Thant Zin Oo, and Choong

Seon Hong, "Facility Location Problem Approach

for Distributed Drones," Symmetry, Vol. 11, No. 1,

pp. 118, Jan. 2019.

[ 4 ] Wang, Jing-Ling, Yun-Ruei Li, Abebe Belay Adege,

Li-Chun Wang, Shiann-Shiun Jeng, and Jen-Yeu

Chen, "Machine Learning Based Rapid 3D Channel

Modeling for UAV Communication Networks," 2019

16th IEEE Annual Consumer Communications &

Networking Conference (CCNC), pp. 1-5, IEEE, 2019.

[ 5 ] Schulman, John, Filip Wolski, Prafulla Dhariwal,

Alec Radford, and Oleg Klimov. "Proximal policy

optimization algorithms," arXiv preprint arXiv:1707.

06347, 2017.

[ 6 ] ur Rahman, Shams, Geon-Hwan Kim, You-Ze Cho,

and Ajmal Khan, "Positioning of UAVs for

throughput maximization in software-defined disaster

area UAV communication networks," Journal of

Communications and Networks, Vol. 20, No. 5, pp.

452-463, Nov. 2018.

[ 7 ] ur Rahman, Shams, and You-Ze Cho, "UAV positioning

for throughput maximization," EURASIP Journal

on Wireless Communications and Networking 2018,

No. 1, pp. 31, Dec. 2018.

[ 8 ] Li, Peiming, and Jie Xu, "Placement optimization

for UAV-enabled wireless networks with multi-hop

backhauls," Journal of Communications and Infor-

mation Networks, Vol. 3, No. 4, pp. 64-73, Dec. 2018.

[ 9 ] Liu, Xiao, Yuanwei Liu, and Yue Chen, "Reinforce-

ment Learning in Multiple-UAV Networks: Deploy-

ment and Movement Design," arXiv preprint arXiv:

1904.05242, 2019.

[10] Danna, Emilie, Subhasree Mandal, and Arjun Singh,

"A practical algorithm for balancing the max-min

fairness and throughput objectives in traffic engi-

neering," 2012 Proceedings IEEE INFOCOM, pp.

846-854, IEEE, 2012.

[11] Juliani, Arthur, et al., "Unity: A general platform for

intelligent agents." arXiv preprint arXiv:1809.02627,

2018.

박 유 민

2019년 2월 경희 학교 응용수학과(학사)

컴퓨터공학과(학사). 2019년 3월~ 재

경희 학교 컴퓨터공학과 석사과정. 심

분야는 Reinforcement Learning, Edge

Computing, UAV-BS, Network Opti-

mization

홍 충 선

1983년 경희 학교 자공학과(공학사)

1985년 경희 학교 자공학과(공학석사)

1997년 Keio University, Department

of Information and Computer Science

(공학박사). 1988년~1999년 한국통신통

신망연구소 수석연구원/네트워킹 연구실

장. 1999년~ 재 경희 학교 컴퓨터공학과 교수. 심분야

는 인터넷 서비스 망 리구조, 미래인터넷, IP mobility,

Sensor Networks, Network Security