인공신경망 가격 예측 모델 - newma.or.krc0%ce%b0%f8%bd%c...※ 본 원고의 내용은 본...

23
신유통 포커스 18-15호 인공신경망 가격 예측 모델 정민제 · 최영찬 (서울대학교 박사과정 · 서울대학교 교수) ※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화 사업단”의 “ICT 활용 수급예측 정보시스템 구축” 부분이며, 2017년 제7호 「신유통 리서치」에 게재된 자료입니다.

Upload: others

Post on 31-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

신유통 포커스18-15호

인공신경망 가격 예측 모델

정민제 · 최영찬(서울대학교 박사과정 · 서울대학교 교수)

※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화 사업단”의 “ICT 활용 수급예측 정보시스템 구축” 부분이며, 2017년 제7호 「신유통 리서치」에 게재된 자료입니다.

Page 2: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

인공신경망 가격 예측 모델정민제(서울대학교 박사과정)

최영찬(서울대학교 교수)1. 연구추진 배경 및 목적

1.1. 연구추진 배경

가. 연구의 필요성

◦ 농산물 가격의 높은 변동성

< 그림 1 > - <높은 변동성으로 초래되는 현상>

< 그림 2 > -

농산물 가격은 비농산물 가격과 비교해 높은 변동성을 가지고 있으며, 이는 소비자 입장에서는 구매 부담을, 생산자 입장에서는 수입의 불안정성을 유발한다.

◦ 농산물 가격 예측의 중요성

< 그림 3 > - <가격 안정화를 위한 정부의 수급조절 방안>

농산물 가격에 있어 이상 징후가 포착됐을 시, 정부가 산지로부터 구매해 왔던 물량을 적절한 시점에 공급한다면 가격 안정을 도모할 수 있다. 이러한 측면에서 농산물 가격 예측은 중요한 의의를 가지며, 농산물 유통 가치사슬의 후생을 제고할 수 있다.

◦ 채소 가격의 중요성과일과 달리 채소는 식재료 중 가장 빈번하게 사용되고 있으며, 특히 양파/배추/무/마늘/고

Page 3: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

추 등 5대 채소는 국민 식생활의 필수 식재료로 활용되고 있는 품목이다. 상기 5대 채소는 주로 노지에서 재배되므로 통제 불가능한 기상 여건에 따라 생산량의 편차가 큰 수준이다. 즉, 5대 채소 수확량은 가뭄, 태풍, 홍수 등 기상에 크게 의존하고 있으며, 그에 따라 가격 변동성도 다른 농산물과 비교해 큰 편이다. 5대 채소는 식생활에 필수 요소인 만큼 높은 가격 변동성은 소비자 후생을 크게 악화시키는 요인으로 작용한다.

◦ 5개 채소 가격예측의 필요성가격 변동성이 큰 5개 품목을 대상으로 적절한 가격 예측모델이 개발된다면, 정부 입장에서는 수급 조절이 용이해 지고, 소비자와 생산자 입장에서는 전반적인 후생이 증가가 가능하다.

1.2. 연구 목적 및 기대효과

가. 연구 목적

◦ 5대 채소 단수예측모델 개발본 연구의 목적 중 하나는 수요/공급 논리에 의한 가격 등락을 파악하기 위한 5대 채소 관련 단수예측모델을 개발하는데 있다. 이를 위해 먼저 주산지 기상데이터를 이용한 단수(단위수확량) 추정 모델을 개발하고, 경영비 및 수확기 도매가격을 활용해 재배면적 모델을 추가로 개발해 전국 생산량을 추가로 추정하였다.

◦ 5대 채소 월별 도매시장 가격예측 모델 개발단수예측모델에서 산출된 추정 단수를 예측변수로 적용해 5대 채소 관련 월별 도매시장 가격예측 모델 개발하였다.

나. 기대 효과

◦ 가격 변동성이 큰 5개 품목을 대상으로 적절한 가격 예측모델이 개발된다면, 정부 입장에서는 효과적으로 수급을 조절할 수 있다.

◦ 이를 통해 소비자와 생산자 입장에서는 전반적인 후생의 증가를 꾀할 수 있다.

Page 4: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

2. 인공신경망을 이용한 5대 채소 가격예측모델 개발

2.1. 모델 개요

◦ 예측모델 프로세스< 그림 4 > - 가격예측모델 프로세스

먼저 에피넷에서 제공하는 기상데이터 및 통계청 데이터를 활용해 단수와 재배면적을 추정한다. 추정된 단수 및 재배면적을 기반으로 전국 생산량을 산출하고, 산출된 생산량을 가격예측모델의 예측변수 중 하나로 적용한다.

◦ 활용 데이터정교한 가격예측모델 개발을 위해서는 지역 산지조직 관련 데이터가 필요하지만, 현실적인 어려움으로 도매시장 가격/반입량과 본 과제를 통해 수집되고 있는 비정형 지수를 주요 데이터로 활용하였다.

< 그림 5 > - 농업유통 기본 프로세스

활용 데이터에 대한 구체적인 내용은 아래와 같다.

< 표 1 > - 활용 데이터

구분 데이터 관리기관 단위가격 관련 도매시장 가격/반입량 가락시장, aT센터 등 시간, 일, 월 등생산 관련 농산물 재배면적, 생산량 통계청 연도, 분기기상 관련 기상 데이터 에피넷 시간, 일

Page 5: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

2.2. 인공신경망(Neural network)

가. 인공신경망 개념

인공신경망은 인간의 신경망과 같이 인공뉴런들과 이러한 뉴런들을 연결시켜주는 매개체로 구성되어 있다. 그 프로세스를 살펴보면, 정보가 전달될 시 입력정보에 가중치를 부여하여 계산된 값을 활성화 함수(activation function)를 이용해 출력 값을 산출하여 타겟이 되는 변수를 예측하는 모형이다. 즉, 주어진 과거의 입력 데이터 값과 해당 출력 데이터 값들을 통해 가중치들이 반복적으로 조정되고, 이를 통해 입·출력간의 관계가 학습되는 모형으로 설명될 수 있다. 인공신경망은 최근 주목받고 있는 딥러닝(Deep learning)의 기본 뼈대를 형성하고 있는 이론으로, cNN, rNN 등 다양한 방법론이 존재한다.

나. 인공신경망의 구조

◦ 입력층(Input Layer)외부 자료를 받아들이는 층. 뉴런수는 입력 변수 수와 동일하다.

◦ 은닉층(Hidden Layer)입력층과 출력층 사이에 위치하며 입력층으로부터 신호를 받아 특성을 추출하여 출력층으로 전달한다.

◦ 출력층(Output Layer)출력층은 은닉층으로부터 신호를 받아 외부로 출력한다.

다. 구조 및 프로세스< 그림 6 > - 인공신경망 구조

◦ 입력층(Input layer)은 , 은닉층(Hidden layer)은 , 출력층(Output layer)은

1)

2)

Page 6: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

3)

4)

∥ ∥

◦ 여기서 는 신경망을 통해 출력된 값, 는 실제 출력값으로, 오차함수(loss function) 를 최소화 하는 가중치를 결정하는 것이 인공신경망의 궁극적인 목적이다.

라. 앞먹임 신경망(Feedforward neural network)을 토대로 한 기본 개념

◦ 본 내용은 ‘오카타니 타카유키’의 ‘딥러닝 제대로 시작하기’를 토대로 작성

입력층에서 네 개의 입력 를 받는다 가정하면, 이 유닛이 받는 총 입력 u는 아래와 같다.

각 입력마다 다른 가중치(weight) 를 곱한 값을 합하고, 여기에 바이어스(bias)라 불리는 값을 더한다.이 유닛의 출력 z는 총 입력 u에 대한 활성화 함수(activation function)라 불리는 함수 f의 함숫값이다.

만약, 은닉층을 3개의 유닛으로 설정하면 총 3*4 = 12개이며, 각 결합마다 다른 가중추가 가 주어진다.

여기에, 다시 활성화 함수를 적용해 아래와 같은 출력을 생각할 수 있다.

따라서, 아래와 같은 일반화를 고려할 수 있는데, u는 각 입력에 가중치가 곱해진 각각의 가중합을 의미하고, z는 각각의 가중합을 활성화 함수에 적용함을 의미한다.

활성화 함수는 다양한 종류가 존재하는데, 크게는 아래 표와 같이 정리할 수 있다.

Page 7: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

< 표 2 > - 문제유형에 따른 활성화 함수 및 오차함수유형 활성화 함수 오차함수회귀 항등사상 제곱오차

이진 분류 로지스틱 함수 우도의 로그다클래스 분류 소프트맥스 함수 교차 엔트로피

결국, 오차함수를 최소화하는 가중치를 설정하는 것이 인공신경망의 최대 목적이며, 회귀 문제에 있어 활용되는 오차함수는 아래와 같다.

∥ ∥

마지막으로, 간단한 이진 분류(이항 문제)에 대한 인공신경망 예를 들어보면, 이진 분류는 보통 d = 0, d = 1과 같은, 즉 남자 = 1, 여자 = 0, 또는 yes = 1, no = 0 과 같은 출력 변수를 분류하는 문제로 정의할 수 있다.

이것은 를 모델화하는 것으로, 주어진 x에 대한 d의 추정이 이 모델을 사용해 사후확률을 계산한 뒤, 그 값이 0.5를 초과하면 1, 아니면 0으로 간주하는 모델이다(로지스틱 함수를 활성화 함수로 사용).

여기서 가중치 w를 정하는 방법은 통계학 추정에서도 핵심적으로 활용되는 MLE(Mxaimum likelihood estimation)을 활용한다. MLE는 가중치 w에 대한 우도 (likelihood)를 구한 후, 그 우도를 가장 크게 하는 가중치 w를 구하는 것인데,

여기서 로그를 취한 이유는 식을 단순화하기 위함이며, 로그는 단조성을 가지므로 우도에 로그를 취하여 부호를 변경한 것을 오차함수로 설정한다.

log log

출력층의 활성화 함수는 로지스틱 함수를 활용하는데, 먼저 사후확률 은 조건부 확률의 정의로부터 아래와 같이 정의된다.

결국, 은 다음과 같은 로지스틱 함수로 정의 가능하다.

log

Page 8: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

지금까지 이진분류에 대한 인공신경망 이론을 간단하게 정리해 봤는데, 실제 구현에서 인공신경망의 가중치 w를 최적화하기 위해서는 손실함수를 최소화하는 hyper parameter를 설정해야 한다. 가중치 w가 자동으로 결정되는 매개변수라면, hyper parameter (ex : learning rate, 레이어, 히든 노드 등)는 사용자가 결정해야 하는데, 본 연구에서는 몇 가지 방법을 통해 최적의 hyper parameter를 설정했으며, 각 모형마다 상이한 값이 적용되었다

2.3. 인공신경망과 기존 계량방법론과의 차이

◦ 기존 계량방법론은 통계학의 고전적 가정을 기반으로 변인간의 관계 규명에 초점을 맞추고 있는 반면, 비모수 방법론인 기계학습(Machine learning)은 목표로 하는 출력값에 최대한 가까워지게 모델을 학습시키는 것이 목적이다.

◦ 설명력이 아닌 단순 예측력에 있어서는 기계학습이 기존 계량방법론보다 우수함이 여러 연구에서 증명되었다.

< 표 3 > - 기계학습과 계량 방법론 특징

구분 기계 학습 계량 방법론

주요 방법론• 인공신경망, Support vector machine,

Random forest, Hidden markov model 등

• OLS, GLS, VAR, VECM 등

주요 적용 분야 • 이미지 인식, 네트워크 침입신호 탐지, 자율주행 등

• 사회과학 연구분야, 설문/실험 연구, 금융 및 경제 관련 연구 등

예측력

• 특정한 input 값이 입력되었을 시, 목표로 하는 출력값(예 : 가격, 단수 등)에 최대한 가까워지도록 학습

• 목적 자체가 오차함수의 최소화이므로 예측력 우수

• 여러 가정(제약) 및 검정통계량에서 제시된 범위를 기반으로 모델이 생성

• 기계학습과 비교해 예측력은 우수하지 않음

2.4. 단수예측모델

가. 모델 개요

단수는 기상에 강한 영향을 받으므로 먼저 품목별 생육시기를 파악하였다. 품목별 주산지를 통계청과 도매시장 데이터에 의거해 선정(ex : 양파 = 무안, 마늘 = 창녕 등)하였다. 단수를 예측하기 위한 핵심 요소인 기상 데이터는 에피넷에서 제공하는 데이터를 활용했으며, 생육시기를 고려해 품목마다 약 130개의 기상변수를 일차적으로 생성하였다. 그 후에는 상관관계, Ridge 및 PCR regression 등을 활용해 단수에 미치는 주요 변수 선정하였고, 전체 데이터를 학습/검증/테스트 데이터로 분리한 후 인공신경망을 통해 모델을 개발하였다.

Page 9: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

나. 주산지 선정 및 생육 프로세스 파악

(1) 주산지 선정

◦ 양파

< 그림 7 > - 양파 주산지

도 주산지전라남도 무안경상남도 창녕경상북도 영천제주도 제주

◦ 봄 배추

< 그림 8 > - 봄 배추 주산지

도 주산지강원도 영월

전라남도 나주경상북도 문경

◦ 고랭지 배추

< 그림 9 > - 고랭지 배추 주산지

도 주산지

강원도

평창태백강릉정선삼척

Page 10: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

◦ 가을 배추

< 그림 10 > - 가을 배추 주산지

도 주산지전라남도 해남전라북도 고창충청남도 당진경상북도 문경

◦ 봄 무

< 그림 11 > - 가을 배추 주산지

도 주산지경기도 화성강원도 정선

충청남도 당진전라북도 부안

◦ 고랭지 무

< 그림 12 > - 고랭지 무 주산지

도 주산지

강원도평창

홍천

Page 11: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

◦ 가을 무

< 그림 13 > - 가을 무 주산지

도 주산지경기도 평택

전라남도 영암충청남도 당진경상북도 안동

◦ 마늘

< 그림 14 > - 마늘 주산지

도 주산지전라남도 고흥충청남도 서산경상북도 의성경상남도 창녕제주도 제주

\◦ 건고추

< 그림 15 > - 건고추 주산지

도 주산지

전라남도 해남

충청남도 청양

경상북도안동

고창

Page 12: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

(2) 생육 프로세스 파악 및 변수 선정

◦ 품목별 생육 프로세스는 농촌진흥청 자료를 활용했으며, 아래와 같이 품목별 생육 프로세스를 정리 및 학습하였다.

< 그림 16 > - 생육 프로세스 예시

◦ 생육 프로세스를 파악한 후, 약 130개의 기상변수를 생성한 후 몇 가지 방법을 통해 주요 변수를 투표 형식으로 선정하였는데, 그 몇 가지 방법은 아래와 같다.

가장 먼저 상관관계 분석을 활용했으며, 단수와의 상관관계가 0.4 이상인 변수를 추출하였다.

< 그림 17 > - 상관관계 예시

Page 13: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

또한, Ridge 및 PCR regression을 적용해 주요 변수를 추출하였다.

◦ Ridge regression 의 행렬식이 활용되는데, 괄호 안 계산에는 eigenvalue(고유값)이 활용된다. 다중공선성이 존재할 경우, 의 계산이 불안정한 즉, ill-conditioned matrix가 되므로, 능형 회귀는 이러한 문제를 준다.

어느 수준의 λ를 더해줘야 하는지는 크게 두 가지 방법이 존재한다. 첫 번째 방법은 아래와 같다.

, 여기서

두 번째 방법은 Ridge trace 활용하는 것으로, λ값을 증가시키면서 궤적을 보고 결정하는 방법이다.

◦ PCR regression주성분 분석을 응용한 회귀 방법으로 각 변수의 주성분을 zi라 하면 이들 간 관계를 서로 orthogonal로 가정한다(상관관계 = 0). 개별 변수의 분산 비율을 기반으로 설명력을 파악할 수 있다.

Page 14: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

다. 모델 결과

(1) 품목 및 주산지별 단수예측모델

< 표 4 > - 단수예측모델

품목 모델

양파

⦁전라남도 = (전년 단수, 10/12/2월 평균온도, 10/2/3월 최저온도, 2월 습도 80 이상 일수, 12/2월

영하 온도 일수, 12월 최고온도, 10월 일조시간)

⦁경상북도 = (전년 단수, 10월 평균온도, 10월 최저온도, 10월 누적강수량, 9월 평균습도, 10월 영

하 온도 일수)

⦁경상남도 = (전년 단수, 11/2월 최고온도, 9/1월 최저온도, 1월 누적강수량, 10월 영하 온도 일

수, 12월 최고온도, 10월 일조시간)

⦁제주도 = (1/3월 강수량, 1/3월 일조시간, 2월 습도 80이상 일수, 12/1월 영하 온도 일수, 10월

평균습도, 10월 습도 60이하 일수)

배추

⦁강원도 = (전년 단수, 3월 최저온도, 2월 일조시간, 2월 영하 온도 일수)

⦁전라남도 = (전년 단수, 12월 최고온도, 9월 일조시간)

⦁경상북도 = (전년 단수, 10/11월 평균온도, 2월 최저온도, 1월 누적강수량, 2월 평균습도, 2월 습

도 80 이상 일수, 2월 습도 60이하 일수)

고랭지

배추

⦁강원도 = (전년도 단수, 평창 4월 영하 일수, 평창 4/5월 누적강수량, 평창 5월 평균습도, 평창 5

월 일조시간, 태백 4월 영하 일수, 태백 4월 누적강수량, 태백 4월 평균습도, 태백 5

월 일조시간)

가을

배추

⦁경기도 = (전년도 단수, 2월 습도 60이하 일수, 10월 최고온도, 12월 누적강수량, 11월 평균습도,

10월 30도 초과 일수)

⦁전라북도 = (전년도 단수, 8/9월 최저온도, 10월 평균습도, 10월 평균온도)

⦁충청남도 = (전년도 단수, 8월 평균습도, 9월 평균온도, 9월 강수량, 10월 강수량)

⦁경상북도 = (전년도 단수, 8/9월 평균습도, 10월 평균온도)

Page 15: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

봄 무

⦁경기도 = (전년도 단수, 3월 평균온도, 8/10월 평균습도, 8월 일조시간)

⦁강원도 = (1월 평균온도, 3/4월 영하 일수)

⦁전라북도 = (전년도 단수, 3/4월 평균습도, 2/3/4월 습도 80이상 일수, 1월 영하 일수, 11월 누

적강수량)

⦁충청남도 = (전년도 단수, 1/2/3월 누적강수량, 4월 일조시간, 1/2월 평균습도, 2월 습도 80이상

일수, 1/2/3월 습도 60이하 일수)고랭지

무⦁강원도 = (전년도 단수, 평창 4/6/7월 평균온도, 평창 4/6월 영하 일수, 평창 6월 영하 일수, 홍

천 3월 평균온도, 홍천 3월 누적강수량, 홍천 3월 평균습도)

가을무

⦁경기도 = (전년도 단수, 8/10월 최고온도, 8월 최저온도, 10월 누적강수량, 10월 일사량)

⦁전라남도 = (전년도 단수, 9월 평균온도, 8월 최저온도, 8월 누적강수량, 8월 습도, 9월 30도 초

과 일수)

⦁충청남도 = (전년도 단수, 8월 최저온도, 7/8/9월 누적강수량, 10월 일사량, 8/9월 습도, 10월

영하 일수)

⦁경상북도 = (전년도 단수, 8월 최저온도, 9/10월 누적강수량, 7/9/10월 일사량, 9/10월 평균습도,

10월 영하 일수)

마늘

⦁전라남도 = (10/2/3월 평균온도, 10/2월 최저온도, 10/3월 습도 60이하 일수)

⦁충청남도 = (전년도 단수, 9월 평균온도, 3월 최고온도, 10/12/1/4월 평균습도, 12/1/4월 습도 80

이상 일수, 1/4월 습도 60이하 일수, 11월 누적강수량)

⦁경상북도 = (전년도 단수, 10/3월 평균온도, 4월 최저온도, 11월 누적강수량, 12월 일조시간,

9/10월 평균습도, 9월 습도 80이상 일수)

⦁경상남도 = (전년도 단수, 9월 일조시간, 10/12월 영하 일수)

⦁제주도 = (3월 최저온도, 11월 최고온도, 9월 누적강수량, 9월 일조시간, 11월 평균습도, 9/11월

습도 80이상 일수)

건고추

⦁전라남도 = (전년도 단수, 3월 최저온도, 2월 누적강수량, 3월 최고온도, 2/5월 일조시간)

⦁충청남도 = (전년도 단수, 4/5월 최저온도, 4/7월 누적강수량, 2월 일조시간)

⦁경상북도 = (전년도 단수, 3/4월 최저온도, 4월 최고온도, 7월 30도 초과 일수, 7월 일조시간, 7월

누적강수량)

Page 16: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

(2) 모델 결과

< 그림 18 > - 양파, 봄 배추 결과

< 그림 19 > - 봄 무, 마늘 결과

Page 17: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

< 그림 20 > - 건고추 결과

2.5. 가격예측모델

가. 품목별 예측모델 변수

가격예측모델은 도매시장 가격 및 반입량과 비정형 지수를 주요 변수로 활용해 구성되었다. 해당월의 평균을 활용한 relative level 변수와 주식시장에서 활용하는 price indicator를 별도로 개발해 가격 변동성을 설명할 수 있는 예측변수를 적용하였고(Michael et al., 2005, International Journal of Forecasting 참고), 월별로 hyper-parameter를 조정하는 등 월별 모델을 구성(변수는 동일)하였다(Wang el al., 2016, International Journal of Forecasting 참고)예측변수의 종류는 아래와 같다.

< 그림 21 > - 가격예측모델 예측변수 종류

기본적인 도매시장 관련 변수(가격, 반입량 등)와 더불어 상대적인 편차를 이용한 Relative level 변수를 생성해 활용하였다. 또한 주식시장에서 가격 변동성 지표로 활용되는 MACD와 같은 지표를 모델에 적용하였다. 마지막으로 더아이엠씨에서 제공하는 5대 채소에 대한 비정형 지수(웹 데이터 텍스트 데이터 수집을 통한)를 모델에 적용해 모델의 정교함을 제고하였다.

Page 18: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

< 그림 22 > - 품목별 예측모델 변수

나. 주요 결과변동성이 큰 배추/무의 경우, 예측오차가 다른 세 품목에 비해 큰 수준이다. 건고추/마늘 등 저장성이 강한 품목의 경우 예측오차는 상기 두 품목과 비교해 크게 낮은 수준이지만, 등락 예측에서는 좋은 성능을 보이지 못하였다.

< 표 5 > - 5대 채소 가격예측모델 오차율(error rate)

구분 예측오차(t+1) 회귀분석(OLS)배추 9.78% 18.78%무 12.73% 16.73%

건고추 3.89% 5.96%마늘 2.37% 4.89%양파 5.71% 15.53%

< 그림 23 > - 배추 및 양파 실제/전망치 비교

Page 19: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

다. 기타 모델

(1) 급등/급락 분류 모델

그 외 가격의 급등/급락을 분류할 수 있는 예측모델 개발을 시도하였다. 실수 범위 내 실제 가격을 예측하는 것도 중요하지만, 급등/급락 예측이 가능한 모델도 필요하다는 판단 아래, ‘Chebyshev inequality’를 이용해 급등/급락 범위를 지정한 후, 인공신경망을 포함한 여러 알고리즘 성능을 테스트하였다. 본 모델은 양파를 대상으로 개발을 시도하였다.본 테스트 모델의 프로세스는 다음과 같다. 첫 째, 데이터를 정제한 후 월별 가격을 ‘Chebyshev inequality’를 이용해 급등/급락 가격의 범위를 지정하였다. 따라서 급등/급락 가격 범위는 1로, 그 외 가격 범위는 0으로 코딩하였다. 둘 째, 인공신경망을 포함한 여러 알고리즘을 테스트하였다. 셋 째, 모델에 대한 평가를 실시하였다.

(2) Chebyshev inquality

Chebyshev inquality(CI)를 이해하기 위해서는 Markov inquality를 이해하는 것이 필요하다. 를 음이 아닌 정수, 그리고 랜덤 상수를 으로 가정했을 때, 다음과 같은 관계를 생각할 수 있다.

상기 식은 아래와 같이 변경될 수 있는데,

≥ ≥

그리고 의 기댓값은 아래와 같이 표현될 수 있다.

and ≥

and

정리해 보면, 기댓값에 대한 아래 부등식이 도출된다.

≥ ≥

Page 20: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

이것을 이용해 CI를 표현해 보면,

상기 식에서 는 데이터의 평균을, 는 표준편차의 상수배, 그리고 는 데이터의 표준편차를 의미한다. 상기 식은 아래와 같이 변형될 수 있는데,

≤ ≥

여기서 Markov inequality를 이용하면,

≥ ≤

상기 관계에서 아래와 같은 식을 유도할 수 있고,

≥ ≥

이것은 여집합을 이용해 풀면,

≤ ≥

여기서

따라서 다음과 같은 관계식을 도출할 수 있다.

≤ ≥ ≥

(3) 급등/급락 범위 지정 및 분석 결과

◦ Chebyshev inequality를 이용해 급등/급락 범위를 산출한 결과, 30.41% 초과, -26.04 미만이면 급등/급락으로 처리할 수 있는 것으로 나타났다. 따라서 전달 대비 등락률이 30.41 초과 -26-04 미만이면 1로 코딩, 그 외의 경우일 시 0으로 코딩하였다.

Page 21: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

Period Logit SVM Ann RF Bayse kNNAccuracy 79.5% 83.9% 82.2% 91.2% 71.4% 80.4%Hit ratio 25.3% 80.0% 72.5% 40.5% 60.0% 40.2%

Hit ratio ratio to Logit 1.00 3.16 2.86 1.60 2.37 1.59

◦ 분석 결과는 아래 표 및 그림과 같은데, Accuracy는 급등/급락 및 그 외의 경우 구분 없이 모든 경우를 대상으로 한 예측 정확도를 의미한다. 반면, Hit ratio는 급등/급락에 대한 예측 정확도를 의미한다. 따라서 본 모델의 경우, Hit ratio가 중요한 지표로 생각될 수 있다.

◦ 인공신경망(Ann) 외 로짓 회귀(Logit), 서포트벡터머신(SVM), 랜덤포리스트(Random forest), 나이브 베이즈(Bayse), kNN 등 총 5개의 알고리즘이 추가로 적용되어 예측 성능을 비교해 보았다. 그 결과, 서포트벡터머신과 인공신경망이 가장 좋은 예측 성능을 보였다.

< 표 6 > - 급등/급락 모델 알고리즘 별 결과

< 그림 24 > - 알고리즘 별 Hit ratio

◦ 본 테스트 모델은 여러 가지 한계점을 가지고 있는데, 그 중 가장 큰 한계점이 급등/급락 범위에 관한 것이다. 보통 분류 모델에서 y로 사용되는 변인은 명확한 행동에 의한 기준으로 분류 범위가 지정되어야 하나, 본 분석에서는 임의로 범위를 지정하였다. 특히 실수 영역에 있는 가격을 대상으로 임의의 범위를 지정함에 따라, 정보 손실이 필연적으로 발생하였다. 따라서 본 분류 모델은 모델의 정확도에 초점을 맞추기 보다는 급등/급락 예측을 위한 모델 개발을 위한 시작점으로 보는 것이 맞다.

라. 요약 및 시사점

◦ 요약결과 요약을 위해, 총 세 가지 사항을 언급하고자 한다.

첫 째, 계량모형 대비 인공신경망의 예측 성능이 더 높은 것으로 나타났으며, 예측모델의 정확도 개선을 위해서는 인공신경망과 같은 기계학습 기반의 방법이 적절함을 알 수 있다.

둘 째, 배추/무와 같이 가격의 등락이 큰 품목의 경우 정확도가 상대적으로 낮아지는 문제는

Page 22: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

고도화를 통한 개선이 필요한 부분이다.

셋 째, 중요한 것은 평이한(normal) 패턴을 감지하는 것이 아닌 가격의 급등/급락을 감지하는 것인데, 현재 적용된 변수 외 급등/급락을 잘 예측할 수 있는 예측변수 개발이 필요하다.

◦ 시사점시사점으로는 첫 째, 정교한 가격예측모델 개발을 위해서는 충분한 양의 산지유통 조직의 데이터(농가계약물량, 주요 APC 저장량/출하량/폐기량 등)가 필요하다. 특히 농협은 농업 가치사슬을 고려했을 때 그 전반에 걸쳐 대부분에 관여하고 있는 조직이다. 만약 농협 데이터가 확보될 시, 예측력 정확도의 제고 뿐만 아니라, 조직 의사결정에 유용하게 활용될 BI 시스템구축도 가능하다.

< 그림 25 > - 산지데이터 확보 시, 예측력 향상 제고

농협이 보유하고 있는 산지데이터를 활용할 시, 도매시장에 일정 수준의 물량이 투입될 경우 시장 가격이 어떻게 변화하는지 등 다양한 형태의 예측과 시뮬레이션이 가능하다.

< 그림 26 > - 작황을 기준으로 한 출하의사결정 시스템 예시

둘 째, 농업 유통 관련인의 정성적인 의견도 데이터로 기록 및 산출될 필요가 있다. 예컨대, 유통인을 대상으로 전문가 pool을 구성한 후, 이들을 대상으로 가격 전망에 대한 월별 설문을 진행한다. 전문가가 예상하는 가격의 변량을 기반으로 예측변수를 개발할 수 있고, 이러한 변

Page 23: 인공신경망 가격 예측 모델 - newma.or.krC0%CE%B0%F8%BD%C...※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화

수는 가격예측에 정확성을 제고하는데 기여할 수 있다.

셋 째, 타 분야 예측에 활용된 우수한 기술적 방법을 추가적으로 모델에 적용할 필요가 있다. 석유, 금융, 전기수요 등 수요 예측이 활발하게 연구되고 있는 분야에서는 상당한 수준의 모델이 지속적으로 개발되고 있는 상황이다. 이러한 연구결과를 농산물 가격예측에 적용한다면 획기적인 정확도 개선이 가능할 것이다.