농업분야 비정형데이터 분석b3%f3%be%f7%ba%d0%be... · 신유통 포커스 18-13호...

18
신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화 사업단”의 “ICT활용 수급예측 정보시스템 구축”부분이며, 2017년 제7호 「신유통 리서치」에 게재된 자료입니다.

Upload: others

Post on 21-Sep-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 농업분야 비정형데이터 분석B3%F3%BE%F7%BA%D0%BE... · 신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본

신유통 포커스18-13호

농업분야

비정형데이터 분석

조인호(㈜더아이엠씨 이사)

※ 본 원고의 내용은 본 연구원에서 수행한 “과학기술기반 채소류 수급유통 고도화 사업단”의 “ICT활용 수급예측 정보시스템 구축”부분이며, 2017년 제7호 「신유통 리서치」에 게재된 자료입니다.

Page 2: 농업분야 비정형데이터 분석B3%F3%BE%F7%BA%D0%BE... · 신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본

농업분야 비정형데이터 분석

조인호㈜더아이엠씨 이사

1. 비정형데이터를 활용한 소비추정1.1. 연구개요

데이터는 ‘기존 데이터 처리 방식으로는 처리가 대단히 어려운 데이터’로 정의할 수 있으며, 따라서 빅데이터로 정의된 데이터도 특정 시점에 존재하는 저장 및 분석 기술에 의해 결정된다. 과거와 비교하여 정보처리 기술의 발전으로 인해 처리가 가능해진 데이터의 형태로는 트위터와 페이스북, 카톡과 같은 소셜미디어를 통해서 발생하는 비정형 데이터센서 기술의 발달로 인해 사물을 포함하여 소통되는 실시가 데이터, 위성기술의 발달로 인한 기상 데이터와 GPS를 활용한 데이터 등을 들 수 있다. 이렇게 수집된 빅데이터를 활용하기 위한 분석기법은 크게 분석기술과 표현기술로 분류된다. 분석기술은 데이터 마이닝, 기계학습, 자연어 처리, 패턴 인식 등의 기술에 기반하고 있으며, 최근 비정형 데이터의 증가로 인해 자연어 처리 기술을 기반으로 한 텍스트 마이닝과 오피니언 마이닝, 행위자간 연결을 분석하는 소셜 네트워크 분석, 유사한 특징을 공유하는 집단 혹은 어휘들을 도출하기 위한 군집분석 등이 활용되고 있다. 표현기술은 분석된 데이터의 의미와 가치를 시각화하기 위한 기술로서 NodeXL, Gephi, R기반 패기지 등이 활용되고 있다. 빅데이터의 활용의 전제조건인 데이터 수집 기기의 비용 및 전송 비용은 계속해서 하락하고 있으며 데이터의 실시간 활용을 가능하게 하는 모바일기기의 확산 또한 지속적으로 증가하고 있는 상황이다.

농업분야와 관련된 빅데이터의 활용에 있어서 우리나라도 정부 3.0의 진행과 더불어 기상을 비롯한 농업관련 데이터들의 개방이 촉진되고 있으며 개방된 공공데이터의 효과적 활용을 위한 시도들이 다방면에서 이루어지고 있다. 이와 함께 소셜미디어를 비롯한 다양한 플랫폼을 통한 데이터들이 과거와는 다른 속도로 생산 및 축적되고 있고, 이러한 비정형데이터를 활용할 수 있는 기법들이 발전함에 따라 정형데이터와 비정형데이터의 결합을 통해 농업분야를 포함한 다양한 분야의 의사결정에 기여하고자 하는 시도들이 지속적으로 증가하고 있다. 그럼에도 불구하고 아직까지 농업분야에서는 빅데이터를 활용한 연구가 타 분야에 비해서 상대적으로 부족하며, 특히 우리나라에서는 ICT와의 결합을 통한 농업데이터의 생산 및 축적, 그리고 기상데이터를 통한 농업예측의 정교화를 시작하는 단계에 머물고 있다. 또한 농식품의 생산/유통/소비 단계에서 다양한 데이터가 발생하고 있으나 아직까지 유통과 소비단계에 대한 데이터의 활용은 모색단계에 머물고 있다.

또한 빅데이터는 대규모의 시간과 비용을 요구되었던 기존의 전통적인 자료수집을 대처 혹은 보완하거나 전통적인 방식을 통해서는 획득이 불가능했던 정보들을 확보할 수 있는 가능성을 지속적으로 확장하고 있다. 그러나 수집된 빅데이터를 통계적 추론 혹은 예측을 위한 과정으로 편입시키는 것은 쉽지 않다. 예를 들어 대량의 데이터를 통계적 모델링에 결합시키기 위해서는 수집된 텍스트에서 추출된 특정 정보들을 수치화하는 것을 필요로 하는 동시에 이렇게 치환된 수치들이 통계적 가정을 충족시킬 것을 요구한다. 본 연구는 이러한 맥락에서 채소 소비와 관련된 비정형 텍스트 데이터의 수치화와 이를 활용한 예측모델의 고도화 가능성을 검토하고, 이를 채소수급예측에 적용하는데 목적을 두고 이루어졌다.

Page 3: 농업분야 비정형데이터 분석B3%F3%BE%F7%BA%D0%BE... · 신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본

1.2. 방법론 : 분석데이터의 구성과 핵심어 구성 채소 소비와 관련된 비정형데이터 처리 및 예측 분석 결합 과정은 데이터 수집, 데이터 전처리, 핵심어 추출, 핵심어를 활용한 비정형 지수 구성, 지수의 적정성 검토, 예측 활용 가능성 확인 등의 과정을 거쳤다. 먼저 데이터 수집은 양파, 배추, 무, 고추, 마늘을 키워드로 포털사이트인 네이버를 대상으로 진행했다. 또한 소비자의 양파, 배추, 무, 고추, 마늘에 대한 관심을 잘 나타낼 수 있도록 뉴스 외에 블로그, 지식인, 카페 등의 카테고리에서 수집하였으며, 포털사이트 이외에 홈페이지의 데이터도 함께 수집하기 위하여 웹 카테고리에서도 데이터 수집을 진행하였다. 데이터는 2009년 1월 1일부터 2017년 5월 31일까지 총 8년 5개월 동안 진행하였으며, 일단위로 수집하였다. 수집도구는 더아이엠씨에서 개발한 텍스톰(Textom)을 통해 수집하였으며, 수집된 결과는 엑셀파일로 저장하였다. 수집된 데이터의 연도별 총량은 아래와 같다.

< 표 1 > - 수집 데이터량

구분 배추 무 고추 마늘 양파

2009 년 106,965 110,676 221,268 224,391 237,342

2010 년 157,559 162,611 285,221 304,961 317,557

2011 년 192,839 195,079 338,554 356,975 361,119

2012 년 199,425 207,943 429,889 446,198 435,523

2013 년 260,619 284,565 487,576 484,643 481,987

2014 년 393,358 411,473 558,814 576,337 602,658

2015 년 508,674 502,153 734,743 631,191 695,153

2016 년 558,233 547,848 737,711 686,092 653,967

2017 년 72,760 84,295 82,446 83,782 82,903

합계 2,450,432 2,506,643 3,876,222 3,794,570 3,868,209

수집된 비정형 데이터는 분석용 데이터로 전환하기 위해 형태소 분석과 불용어 제거 등의 데이터 전처리과정을 진행하였다. 데이터 전처리는 비정형데이터를 분석용 데이터로 정형화하는 과정으로 특수문자(!, @, #, $ 등)와 불용어(조사, 틀린 맞춤법 등) 등을 제거하는 클리닝 작업과 형태소별(명사, 형용사, 부사 등)로 단어를 구분하는 가정제 작업 과정과 함께 동일단어임에도 다른 의미를 가지는 단어 (예, 양파의 경우 가수이름으로 사용되는 양파와 채소의 구분), 다른 단어임에도 동일의미를 가지는 단어 (예., 박대통령, 박근혜대통령, 대통령 등을 같은 단어로 처리)로 처리하는 작업과정을 포괄하며 자동화와 수작업이 동시적으로 이루어지게 된다. 형태소 분석을 위해서 본 분석은 창원대에서 개발한 형태 분석기(Espresso_K)를 사용하였다.

다음으로 위의 과정을 통해 확정된 분석용 데이터 세트로부터 각 채소 작목별로 핵심어를 추출하는 과정을 진행하였다. 핵심어 추출이란 비정형데이터에서 분석에 사용될 단어를 선정하는 과정을 의미하는데 주로 선정된 키워드와 관련성을 가질 것으로 판단되는 단어들을 다양한 수학적 알고리즘을 통해 추출하였다. 본 과제에서는 소셜 네트워크 분석 방법 (선정된 키워드와의 연결정도 활용), 비정규분포, TF-IDF (Term Frequency-Inverse Document Frequency) 등의 방법을 통해 핵심연관어를 선정하였다. 구체적으로 소셜네트워크 분석방법은 단어 간 동시출현 관계를 메트릭스로 구성한 후 연결중심성 (degree centrality)를 활용하여 주요 핵심어를 선정하였다. 상기한 동시출현이란 주어진 문장, 텍스트 전체에서 단어들이 동시에 출연하는 것을 말하는데, 문서 내에서 둘 이상의 단어가 함께 사용하

Page 4: 농업분야 비정형데이터 분석B3%F3%BE%F7%BA%D0%BE... · 신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본

고 있다는 것은 문장 내에서 밀접한 관계를 가진다는 의미한다(강명구, 2000). 연결정도중심성은 단단어와 다른 단어와 얼마만큼의 관계를 맺고 있는가를 통해 그 단어의 중요성을 계량화 하는 방법(Freeman, 1979)으로 연결정도중심성이 높을수록 분석 대상이 된 텍스트를 요약하는 중요한 단어로 추정된다. 두 번째로 사용된 방법인 문서 간 편차 (TF-IDF, Term Frequency-Inverse Document Frequency)는 이 지표는 문서 내 특정 단어의 빈도(TF)에 여러 문서 내의 특정단어 빈도의 역수(IDF)를 곱해서 가중치로 활용하여 계산된다(Salton & McGill, 1983).

×

마지막으로 비정규분포를 활용한 방법은 우리가 사용하는 용어들은 기간에 따라 일반적으로 큰 변화를 보이지 않는 분포를 가질 것으로 추정하며, 예상되는 분포의 형태로부터 차별성을 가지는 문서 혹은 단어를 선택하는 방법이다. 즉 일반적으로 추정되는 정상분포에서 통계적으로 벗어나는 단어들이 특정 시점에서 텍스트의 차별성을 구성하는데 중요한 역할을 할 것으로 추정하였으며, 이를 위해 단어의 Skewness와 kurtosis를 가중치로 활용하였다. 아래는 각 방법을 통하여 최종적으로 구성된 작목별 50개의 핵심어 리스트의 예시이다.

< 표 2 > - 고추 연결정도 활용지수 단어 리스트

김장 복숭아 줄기 고향 벼 고추잠자리 할머니 축제 태양초 수확

고추밭 여름 참깨 시골 피해 농사 풋고추 농촌 건조 자연농약 날씨 홍고추 옥수수 가을 호박 영양 농가 추석 가지열무김치 밭 농작물 옥상 계절 씨 아침 농장 식물 감자전

깻잎 친환경 수박 피망 꽃 냉면 유기농 열무 농부 걱정

< 표 3 > - 마늘 연결정도 활용지수 단어 리스트

김장 오이 열무 장아찌 농사 쫑 식초 마늘장아찌 매실 감자

꽈리고추 아찌 겨자 체험 씨 일 골뱅이 애호박 가지 축제

삼계탕 인삼 농산물 바질 재배 국수 감사 풋고추 실청 껍질

피클 지역 대추 부족 밭 파프리카 엄마 깨소금 모양 부추

구입 물기 마음 이용 양파 크기 제주도 홍고추 통깨 설탕

< 표 4 > - 무 연결정도 활용지수 단어 리스트

김장 쪽파 배추 생강 소금물 무우 수확 무청 고춧가루 소금

김치 총각김치 천일염 농사 새우젓 총각무 무채 가을무 농수

산물 알타리무

장터 젓갈 액젓 깍두기 순무 주말농장 찹쌀 행사 재배 절임

텃밭 농산물 동치미 파김치 굴 인삼 재료 농협 기온 마늘배추김치 제철 농장 저장 채소 미나리 고구마 농작물 시래기 비닐

Page 5: 농업분야 비정형데이터 분석B3%F3%BE%F7%BA%D0%BE... · 신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본

< 표 5 > - 배추 연결정도 활용지수 단어 리스트

김장 도착 걱정 수확 날씨 어머니 소금물 노인 김장철 장터무 서리 가정 독거 정성 고생 복지 구입 체험 직거래

농민 농사 김장용 아줌마 김치냉장고 소금 엄마 월동 박스 농가

구매 쪽파 절임 가족 배송 생강 양념 살림 시작 신랑무채 천일염 계획 추위 농촌 농약 택배 마을 친환경 문화

< 표 6 > - 양파 연결정도 활용지수 단어 리스트

김장 참외 죽순 열무 오이 텃밭 활동 장아찌 실파 완두콩열무김치 수박 제철 물김치 쑥갓 골뱅이 매실 웰빙 냉면 샌드위치

냉채 소금 부족 부침개 카레 농장 소면 무안 설탕 상추

겨자 감자 노랑 체험 토마토 감자전 갈색 보관 아스파라거스 줄기

키위 통깨 강판 마요네즈 초절임 풋고추 재배 주재료 밥상 국수

1.3. 연구결과 : 비정형지수의 활용성 검토 본 연구의 목적은 비정형지수의 구성에 그치는 것이 아니라 구성된 비정형 지수들이 실제로 품목별 소비변화를 나타내는 안정적인 지표로 활용 가능한지를 확인하는 동시에 품목별 가격을 예측하는 변수로 적정한지를 검토하는데 있다. 본 연구는 이를 위하여 상기의 방법으로 차별적으로 구성된 핵심어들을 활용하여 기간별로 세 종류의 비정형 지수를 구성하였으며, 다음 단계로는 해당 지수들에 대해 정형 데이터인 구매량 (농진청 패널 데이터), 가격, 단수 등과 상관성을 검토하는 과정을 통해 각 지수값들의 활용가능성 검토를 실시하였다. 아래는 각 작목별로 구성된 지수와 구매량 사이의 상관계수를 예시한 것이다.

< 표 7 > - 비정형지수의 구매량과이 상관계수

구분 특이치활용방법

문서 간 불균등분포 활용방법

연결정도활용방법

배추 0.77 0.65 0.78무 0.91 0.84 0.86

고추 0.78 0.87 0.78마늘 0.88 0.88 0.86양파 0.92 0.89 0.90

아래는 구성된 비정형 지수를 포함하지 않은 ARIMA 구매량 예측모형과 비정형 지수를 포함한 구매량 예측모형을 비교한 결과이다. 각 채소 작목에 대하여 비정형 지수를 포함한 결합모형이 단순 모형에 비하여 줄어든 오차를 보임으로써 결합모형이 전체적으로 우수하게 나타났다.

Page 6: 농업분야 비정형데이터 분석B3%F3%BE%F7%BA%D0%BE... · 신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본

< 그림 1 > - 단순모형과 비정형지수결합 모형의 추정량 비교

< 표 8 > - 비정형지수의 구매량과이 상관계수

구분 배추 무 고추 마늘 양파단순모형 382209 280797 80682 78027 141050

비정형지수 결합모형 150004 170661 53626 55272 68326

마지막으로 본 연구는 확인된 구매량과 비정형지수 사이의 높은 상관성을 바탕으로 최종적으로 비정형지수를 통해 소비량을 추정하고자 하였다. 소비량의 추정을 위해서 본 연구에서는 먼저 농진청 농식품소비자패널 데이터를 활용하여 각 월의 채소구매 비율을 산출하였다. 다름으로는 산출된 월별 채소구매비율을 활용하여 농림축산식품 주요통계 자료인 연간 1인당 채소소비량 데이터를 월간 1인당 채소소비량(단위 : g)으로 변환하였다. 마지막으로 비정형지수에 관심지수에 회귀가중치를 부여하고, 월간 1인당 채소소비량(g)의 분포와 동일하게 비정형지수의 분포를 변환하여 월별 1인당 채소소비량을 추정하였다.

< 표 9 > - 1인당 연간 채소 소비량(단위 : kg)

연도 배추 무 고추 마늘 양파2009 33.8 16.8 1.7 5.8 22.12010 41.7 20.9 3.6 7 28.72011 61.7 25 3.6 7.8 30.42012 51.6 23.3 3.6 7.8 262013 56.2 25.9 3.7 8.9 26.72014 58.5 25.8 3.4 8.2 30.62015 49.3 24.7 3.4 6.8 26.7

Page 7: 농업분야 비정형데이터 분석B3%F3%BE%F7%BA%D0%BE... · 신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본

월 배추 무 고추 마늘 양파1월 4.7 6.3 6.3 3.8 7.82월 4.7 6.3 6.0 3.5 6.73월 4.2 8.5 7.9 4.7 8.14월 3.6 8.7 8.0 5.9 8.25월 4.8 7.5 8.2 12.8 10.36월 6.0 6.1 8.4 30.6 14.17월 4.7 4.7 8.2 13.2 9.18월 6.3 5.7 17.1 6.2 7.69월 8.7 7.4 13.5 4.5 7.210월 6.1 8.4 7.4 4.0 6.811월 37.6 23.5 4.4 7.4 7.412월 8.6 7.0 4.7 3.5 6.8

< 표 10 > - 월간 구매비율(%)

< 그림 2 > - 추정된 월별 채소 소비량

Page 8: 농업분야 비정형데이터 분석B3%F3%BE%F7%BA%D0%BE... · 신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본

2. 비정형 농업기상자료를 활용한 도매가격 예측

2.1. 연구개요 : 비정형 농업기상자료의 활용가. 연구배경

우리나라는 가격안정을 위해 수급정책을 펴고 있으나, 노지에서 재배되는 채소류의 경우 기상 여건에 따라 생산량의 변화가 크고, 대체 작물의 존재로 인해 가격 변동이 크게 나타난다 (Nam & Choe, 2015). 예를 들어, 2010년 10월 배추는 가락시장에서 한 포기에 12,410원으로 거래되었으나 2011년 5월에는 한 포기에 600~700원으로 폭락하였다. 정부는 가격 폭등으로 인한 재배면적 증가와 소비부진을 배추파동의 원인으로 분석하고, 1만 톤의 산지자율폐기를 추진하였다. 채소값 파동으로 2005년부터 2009년까지 배추, 대파, 마늘, 양파 등의 채소를 약 364,000톤 정도 산지 폐기하였으며, 이를 환산한 금액은 290억 원이 넘는 것으로 나타났다 (Kim & Yoon, 2011).또한 농산물유통정보에서 제공하는 월간 도매가격을 살펴보면 2015년 9월 배추의 경우 kg당 611원이었던 상품도매가격이 2016년 9월 2,104원으로 전년 대비 244% 상승하였고, 무 역시 2015년 9월 kg당 455원이었던 상품도매가격이 2016년 9월 1,186원으로 전년 대비 160% 상승하였다. 이와 같이 극심한 가격변동을 보이는 채소류의 경우 수급이나 가격 예측에 대한 연구는 이루어지고 있으나, 비정형데이터를 활용한 연구는 활발하지 않았다.

나. 연구목적기존의 연구에서는 정형데이터만을 이용하여 도매가격 또는 생산성을 예측하였으나, 본 연구에서는 비정형 농업기상 자료를 이용하여 채소류 중 배추의 상품 도매가격을 예측하고자 한다. 2009년 1월부터 2016년 10월까지의 포털사이트의 비정형 농업기상 데이터를 활용해 시계열모형을 구축하여, 기상자료의 변화에 따른 도매가격을 추정한다. 이는 빅데이터 상 비정형 자료가 예측변수로서의 활용이 가능하다는 것을 보이는 계기가 될 것이다.

2.2. 방법론 및 분석결과 : 비정형 농업기상 데이터의 구성 및 분석결과가. 비정형 농업기상 데이터의 구성

빅데이터 분석 솔루션인 텍스톰(Textom)을 이용하여 네이버 블로그, 카페, 뉴스, 웹 채널에서 채소류 키워드를 포함하고 있는 문서의 월별 데이터를 수집하고, 수집된 문서 중 작물의 생장과 관련이 있는 농업기상 키워드를 선정하여 해당 키워드의 출현빈도를 월별 데이터로 구성하였다. 여기서 고려된 농업기상 키워드는 아래에 나열된 두 개의 표와 같다.

< 표 11 > - 농업기상 키워드

구분 저온 고온 습해 가뭄 기타피해

키워드

냉해 폭염 장마 가뭄 태풍동해 고온 호우 건조 강풍상해 강우 황사저온 폭우 재해서리 강수한파 다습폭설 습해

Page 9: 농업분야 비정형데이터 분석B3%F3%BE%F7%BA%D0%BE... · 신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본

< 표 12 > - 작목별 기타피해 목록

구분 고추 마늘 양파

키워드역병 고자리파리 노균병

탄저병 고자리파리담배나방

< 그림 3 > - 농업기상 데이터 샘플

농업기상 키워드의 출현빈도는 작목별 연간 문서량을 이용하여, 2016년 문서량을 기준으로 표준화하였으며, 분석을 위해 농산물유통정보에서 제공하는 작목별 상품도매가격 자료와 함께 시계열 자료로 구성하였다.

나. 선행적 상관성을 이용한 도매가격 변동성 추정(1) 상관분석

작목별 파종시기부터 출하시기 전까지인 재배기간에 나타난 비정형 농업기상 데이터를 활용하여 도매가격과의 상관관계를 검토해 선행적 상관을 보이는 기상요인을 추출하였다.

< 그림 4 > - 작목별 재배기간

Page 10: 농업분야 비정형데이터 분석B3%F3%BE%F7%BA%D0%BE... · 신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본

< 그림 5 > - 월별 배추 도매가격에 선행하는 기상요인

< 그림 6 > - 월별 무 도매가격에 선행하는 기상요인

< 그림 7 > - 출하시기 고추 도매가격에 선행하는 기상요인

< 그림 8 > - 출하시기 마늘 도매가격에 선행하는 기상요인

< 그림 9 > - 출하시기 양파 도매가격에 선행하는 기상요인

① 도매가격 변동성 추정 각 작목별로 도매가격에 선행하는 상관성을 보이는 기상요인의 전년대비 당해년도 출현빈도를 이용하여 도매가격의 변동성을 추정하였다.

Page 11: 농업분야 비정형데이터 분석B3%F3%BE%F7%BA%D0%BE... · 신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본

< 그림 10 > - 전년대비 6월 도매가격 변동성 추정

다. 시계열분석을 이용한 도매가격 예측(1) 방법론 : 시계열모형

시계열분석 (time-series analysis)은 시간의 흐름에 따라 동일한 관측주기로 관측된 시계열 자료를 분석하는 방법이다. 자료가 생성된 시스템을 이해하고 과거의 자료를 이용하여 시스템을 가장 잘 설명하는 모형을 찾아, 미래를 예측하는 것이 시계열분석의 목적이다 (Cho & Lee, 2014). 본 연구에서는 현 시점의 변량이 과거의 변량들에 의해 영향을 받는 자기회귀모형 (autoregressive model, AR model)을 이용하였다. 시점에서의 시계열 는 개의 과거값들과 오차항 의 선형결합으로 이루어진 차 자기회귀모형식은 아래의 식과 같이 표현한다.

∙∙∙

(2) 분석절차 도매가격의 그래프를 통해 추세를 확인하고, DW (Durbin-Watson) 검정을 통해 자기상관이 있는지 확인한다. DF 단위근검정 (Dickey-Fuller unit root tests)을 시행하여 정상성을 확인한 뒤, 도매가격 자료만을 이용하여 자기회귀모형을 적합한다.도매가도매가격과 비정형 농업기상 자료의 교차상관분석을 통해 선행하는 농업기상을 선별하고, 선행하는 시차의 비정형 농업기상을 결합하여 자기회귀모형을 적합한다. 도매가격만을 이용하여 예측한 단순모형과 비정형 농업기상을 활용한 모형의 AIC, 예측오차 등의 비교를 통해 두 연구모형의 성능을 비교한다.

Page 12: 농업분야 비정형데이터 분석B3%F3%BE%F7%BA%D0%BE... · 신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본

variable df estimate standard error t Value P-value

intercept 1 695.0646 58.8896 11.8 <.0001March 1 167.865 66.1478 2.54 0.013April 1 260.2382 65.9206 3.95 0.0002

August 1 266.9272 66.0233 4.04 0.0001

(3) 분석결과(배추 예시)◦ 배추의 월별 상품 도매가격

아래의 그림은 2009년 1월부터 2016년 10월까지 월별 배추 상품 도매가격이며, 시간에 따른 추세는 없는 것으로 보인다.

< 그림 11 > - 월별 배추 상품 도매가격(2009년 1월~2016년 10월)

아래의 그림은 월 평균 배추 상품 도매가격이다. 배추 도매가격은 월에 따라 다르게 나타나는데, 아래 그림에서 3, 4, 8, 9월에 가격이 높은 것을 알 수 있다. 이를 모형에 반영하기 위해 모형에 3, 4, 8, 9월의 가변수를 적용하였다.

< 그림 12 > - 월 평균 배추 상품 도매가격(2009년 1월~2016년 10월)

◦ 단순모형 DW검정 결과 배추 상품 도매가격은 자기상관이 있으며, DF 단위근검정 결과 배추 상품 도매가격은 유의수준 0.1에서 단위근이 없는 것으로 나타나 정상화 과정을 거치지 않고 AR모형의 적합이 가능한 것으로 나타났다. 2016년 10월까지의 데이터를 사용하여 자기회귀모형에 적합한 결과는 아래의 표에 나타나있다. AR모형 (p=1,5,12)이 선택되었으며, 잔차는 백색잡음 과정을 만족하였다. 추정된 모형은 아래의 식과 같으며, 여기서 March, April, August, September는 해당 월의 가변수이다. 추정된 모형을 이용한 2016년 11월 예측값은 972.7원이며, 실제 가격은 847원이다.

< 표 13 > - 단순모형 결과

Page 13: 농업분야 비정형데이터 분석B3%F3%BE%F7%BA%D0%BE... · 신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본

variable df estimate standard error t Value P-value

September 1 442.3177 66.2062 6.68 <.0001AR1 1 -0.6244 0.0735 -8.5 <.0001AR5 1 -0.1866 0.0793 -2.35 0.0209AR12 1 0.2438 0.0795 3.07 0.0029

obs 94AIC 1298.67428

1298.67428 1300.3684

◦ 비정형 농업기상 활용모형 농업기상모형은 단순모형 절차를 따르되, 배추 상품 도매가격과의 교차상관분석 결과 선행하는 상관성을 가지는 비정형 농업기상자료를 활용하였다. 2016년 10월까지의 데이터를 사용하여 자기회귀모형에 적합한 결과는 아래 표와 같다. AR(1)모형이 선택되었으며, 잔차는 백색잡음 과정을 만족하였다. 추정된 모형은 아래 식과 같으며, 여기서 March, April, August, September는 해당 월의 가변수, V1은 frost damage, V2는 cold wave, V3는 heat wave이다. 추정된 모형식을 이용한 2016년 11월 예측값은 782.1원이며, 실제 가격은 847원이다. 농업기상모형의 AIC와 AICC는 각각 1272.65, 1275.06로 단순모형의 AIC=1298.67와 AICC=1300.37 보다 더 낮게 나타나 우수한 성능을 보였다. 예측오차의 크기 역시 농업기상모형은 64.9로 단순모형의 125.7보다 낮아 예측력 역시 더 우수했다.

< 표 14 > - 비정형 농업기상 활용모형 결과

variable df estimate standard error t Value P-value

intercept 1 836.3145 103.5127 8.08 <.0001March 1 100.2882 86.5432 1.16 0.2499April 1 244.3836 79.4724 3.08 0.0028

August 1 274.8712 78.5987 3.5 0.0008September 1 332.9209 95.4446 3.49 0.0008

lag1(frost damage) 1 -2.67 1.0246 -2.61 0.0109lag2(cold wave) 1 0.5119 0.2449 2.09 0.0396lag1(heat wave) 1 0.6344 0.2877 2.2 0.0302

AR1 1 -0.6435 0.09 -7.15 <.0001obs 94AIC 1298.67428

1298.67428 1300.3684

\

Page 14: 농업분야 비정형데이터 분석B3%F3%BE%F7%BA%D0%BE... · 신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본

◦ 단순모형과 비정형 농업기상 활용모형의 비교 상단과 같은 절차로 전월까지의 관측치 만을 사용하여 단순모형과 농업기상모형을 적합한 후, 월동배추, 봄배추, 고랭지배추, 가을배추의 출하시기인 2016년 1월, 5월, 8월, 11월의 가격을 예측하였다. 아래의 표는 단순모형과 비정형 농업기상 활용모형의 모형적합도를 비교한 결과이다. 출하시기의 배추 상품 도매가격을 예측하기 위한 단순모형과 농업기상 모형을 비교한 결과, 농업기상모형의 AIC와 AICC가 단순모형보다 낮아 더 우수한 성능을 보인다. 또한 예측값 역시 농업기상모형의 예측오차의 크기가 더 작아 단순모형보다 예측력이 더 우수하게 나타났다.

< 표 15 > - 단순모형과 비정형 농업기상 활용모형 적합도 비교

AIC AICC Actualprice

Forecast price

Prediction error

ForecastJanuary

simple model 1153.9 1155.8552

527.7 -24.3unstructured agricultural

weather model 1077.0 1079.1 553.0 1.0

ForecastMay

simple model 1210.9 1212.31143

1035.8 -107.2unstructured agricultural

weather model 1132.7 1134.7 1092.8 -50.2

ForecastAugust

simple model 1252.0 1253.41524

1003.4 -520.6unstructured agricultural

weather model 1173.4 1175.3 1016.2 -507.8

ForecastNovement

simple model 1298.7 1300.4847

972.7 125.7unstructured agricultural

weather model 1272.9 1275.1 782.1 -64.9

3. 채소 소비 트랜드 분석3.1. 연구개요

본 분석은 채소 소비와 관련하여 우리사회에서 발생하고 있는 거시적 및 미시적 소비트랜드의 변화양상을 모니터링하기 위한 목적으로 수행되었다. 주지하다시피 우리사회는 과거에 비해서 1인 가구의 증가와 고령화 등 사회구조의 변화와 더불어 소비 트랜드 또한 빠르게 변화하는 양상을 보여주고 있으며 채소류를 포함한 농산물 분야의 소비 패턴 또한 이러한 변화과정으로부터 자유롭지 않은 것이 사실이다. 그럼에도 불구하고 아직 농산물 및 농식품 분야에서는 소비 트랜드의 변화를 체계적으로 모니터링할 수 있는 체계가 구축되지 못하고 있는 실정이다. 본 분석은 상기한 필요성을 고려할 때 향후 채소류 뿐 만 아니라 농산물 분야에서 발생하는 소비 트랜드 및 이슈들을 실시간으로 모니터링할 수 있는 체계를 구축하기 위한 준비단계로서 중요한 의미를 가진다고 하겠다. 본 분석은 크게 농식품분야의 소비트랜드의 연차별 변화 분석, 5대 채소류에 대한 연차별 소비트랜드 변화 분석, 그리고 각 작목에 대한 세부적 트랜드 변화를 월별로 분석한 결과를 제시하였다.

3.2. 분석과정 본 분석은 네이버의 전 채널을 대상으로 농식품과 소비를 포함하고 있는 텍스트를 2011년부터 2016년까지의 기간에 걸쳐 수집하여 분석 데이터로 구성하였다. 분석 과정은 핵심이슈 및 핵심어 사전을 구성한 뒤 연도별 핵심어를 추출하고, 데이터를 표준화하였다. 핵심이슈 및 핵심어 사전 구성은 농식품 소비와 관련된 웹데이터를 일별로 수집 후 각각의 소비패턴에 부합하는 표현을 추출하였다. 소비

Page 15: 농업분야 비정형데이터 분석B3%F3%BE%F7%BA%D0%BE... · 신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본

성향이 드러나는 명사와 형용사적 표현(혼자 먹기 등)들을 키워드를 핵심어 사전으로 구성하였다. 연도별 데이터를 구간 내에서 최대값을 100으로 표준화하고, 구성된 핵심어 사전을 활용하여 각각의 소비 성향을 추출하였다.

3.3. 분석결과 아래는 상기한 세 가지의 분석에 대한 결과를 제시한 것이다. 먼저 아래 그림은 2011년부터 2016년의 분석대상 기간 가운데 2011, 2013, 그리고 2016년에 대하여 소비트렌드의 추이를 분석한 결과의 예시이다. 농식품 거시 트랜드 분석의 기준으로 사용된 세 개의 축 (감성소비-이성소비, 개인소비-집단소비, 유목성향-집단성향)은 핵심어에 대한 요인분석의 결과를 토대로 하여 대칭적인 개념으로 설정되었다. 예를 들어 감성소비-이성소비 축은 요인분석 결과 스타일, 예쁘게, 재미있는, 체험 등의 단어가 하나의 요인으로 나타난 결과를 토대로 감성소비로 명명하였으며, 이성소비는 효율성, 무료, 평점, 후기 등과 같이 합리적 평가를 바탕으로 한 소비와 관련된 단어들로 구성된 요인에 대하여 연구자가 명명한 개념이다. 대칭적으로 이를 시각화한 것은 각 축들에서 나타나는 변화가 상호배타성을 가지는 지를 확인하기 위해서 이루어졌다. 본 분석의 결과는 연차별로 개인소비 성향, 감성적 소비 성향, 정착 서비 성향이 지속적으로 증가하는 경향을 보여주고 있다. 구체적으로 2011과 2013년 대비 2016년에는 집단소비에서 개인소비 성향이 상대적으로 증가하였다. 그리고 2011년까지는 이성적 소비 성향이 강하게 드러났으나 2013년 이후 감성적인 소비성향이 증가하는 양상을 보여주고 있다. 또한 유목성향과 정착성향은 년차별로 큰 차이를 보이지 않는 상태에서 안정적인 소비요소로 나타났다. 그러나 본 분석에서는 1인가구의 증가와 함께 예상되었던 개인소비 성향의 강화보다는 집단소비 성향이 증가하는 있음을 보여주고 있다. 이는 유행, 쿡방, 인기 등 집단소비를 구성하는 키워드에 기인한 바가 크다. 다시 말해서 농식품의 소비가 1인, 혼밥 등과 연결되기 보다는 쿡방과 같은 방송 미디어에 의해서 영향을 많이 받으며 이러한 양상은 최근에 더욱 강해지고 있는 것으로 판단된다.

< 그림 13 > - 농식품 소비 트랜드 추이 변화(2011년~2016년)

작목별 소비트랜드 분석은 상기한 방법으로 수집된 데이터를 채소명으로 분류한 후 수행하였다. 세부적으로는 연도별 구분된 데이터에서 채소의 소비와 관련된 핵심어 단어의 빈도를 추출하고, 각 작목별로 최대출현빈도를 100으로 한 표준화를 통해 연도별 소비 트렌드 변화를 분석하였다. 아래의 그림에서 보이듯이 본 분석의 결과는 모든 작목에 대하여 2013년 이후 가성비에 대한 관심이 증가하고 있음을 보여줌으로써 채소류에 대한 소비의사결 과정이 우리사회의 전반적인 경향성과 다르지 않음을 확인해 주고 있다. 유기농에 대한 관심 또한 모든 작목에 대하여 하락하는 추세를 보여주고 있으며, 특히 고추의 경우에 감소추세가 두드러지게 나타났다. 1인용 (+혼밥)은 무를 제외하고는 지속적인 증가추세

Page 16: 농업분야 비정형데이터 분석B3%F3%BE%F7%BA%D0%BE... · 신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본

를 보여주고 있다. 쿡방의 경우에도 모든 작목에 걸쳐서 20113년부터 증가추세를 보이며, 특히 고추의 경우 증가추세가 가파르게 나타나 방송의 영향이 가장 큰 품목으로 나타났다.

< 그림 14 > - 작목별 연도별 세부 소비 트랜드

다음으로 아래는 작목별 월별 세부트랜드를 키워드의 출현빈도로 분석한 것이다. 이는 앞 서 이루어진 표준화를 통한 트랜드 확인이 각 키워드 출현빈도의 상대적인 증감을 표현하고 있어 실제 세분적인 단위에서 소비와 관련된 특정 키워드들의 변화양상을 확인하기 어려운 점을 보완하기 위하여 이루어졌다. 아래 그림에서 제시된 바와 같이 키워드 별 월별 단순 출현빈도를 볼 때 모든 작목에서 건강과 외식에 대한 관심이 타 이슈에 비해서 상대적으로 높게 나타나고 있어 우리사회에서의 채소 소비가 건강에 대한 고려를 통하여 이루어지고 있음을 보여주고 있다. 또한 무를 제외한 작목에서 유기농의 출현빈도가 높게 나타나고 있으며, 무의 경우에도 안전에 대한 관심이 높게 나타남으로써 농식품의 안전성에 대한 소비자의 관여도가 높음을 보여주고 있다. 이와 함께 전체적으로 건강, 유기농, 안전 등의 키워드가 높은 월별 출현빈도를 가지는 반면, 1인용, 소포장, 직거래에 대한 출현빈도가 낮게 나타남으로써 채소소비에서는 아직까지 가족구성의 변화가 반영되지는 않고 있는 것으로 판단된다.

Page 17: 농업분야 비정형데이터 분석B3%F3%BE%F7%BA%D0%BE... · 신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본

< 그림 15 > - ‘17년 월별 세부 소비 트랜드

4. 결언

본 연구는 먼저 웹 기반 구조화되지 않은 정보를 사용하여 장기적으로 채소 소비를 추정하거나 가격을 예측하는데 필수적인 요인으로 활용할 수 있는지에 대한 검증을 실시하였다. 해당 분석의 결과는 본 분석을 통해서 구성된 비정형 지수들이 채소류 소비와 강한 상관성을 안정적으로 확보할 수 있음을 보여주었다. 또한 비정형지수로 표현된 웹 기반의 채소 소비관련 메시지의 빈도 및 구성의 변화가 채소 소비의 변화에 선행하는 것을 함께 확인하였다. 그리고 본 분석은 상기한 성과를 바탕으로 기존의 가격예측 시계열 모형에 비정형지수들을 결합했을 때 예측에서 발생하는 오차를 실제 줄이고 있음도 함께 확인하였다. 따라서 본 분석은 안정적이면서도 즉시성을 가지는 소비 관련된 데이터를 확보하기 힘든 현재의 상황을 획기적으로 개선할 수 있는 방향을 설정해 주었다는 점에 있어서 그 의의가 크다고 하겠다. 또한 가격결정에 미치는 생산량의 영향이 큰 채소류에서도 확인된 성과는 과일, 유제품 등 기호, 사회적 관심, 환경적 요인의 변화 등에 의해 소비가 영향을 받을 가능성이 큰 농식품에의 확대적용 가능성은 대단히 클 것으로 판단된다.

이와 함께 비정형 텍스트를 활용하여 추출한 농업기상 요인을 통한 도매가격 추정 분석 결과는 일반 기상과 함께 비정형농업기상 지수가 생산 및 가격을 예측하는데 주요한 변수로 결합될 수 있음을 보여주었다. 본 분석에서 주요한 예로 활용된 배추의 경우 노지에서 재배되는 경우가 많아 기상 여건에 영향을 많이 받기 때문에, 생산량이나 도매가격 추정 시 기상을 고려해야 하는 것은 필수적이다. 그러나 본 분석에서는 실제 농업기상 자료를 활용한 기존의 연구와는 다르게 본 연구에서는 웹상의 비정형 농업기상 정보를 활용하여 작형별 출하시기 도매가격을 예측한 단순모형과 비교하였을 때 비정형 농업기상요인을 포함한 모형이 더 우수한 것으로 나타났다. 이는 기상과 같이 일반적인 정량적 자료가 존재하는 경우에도 생산자 혹은 소비자의 관여도를 반영한 추가적인 자료의 구성 가능성을 확인한 것으로 의의를 가진다고 하겠다.

Page 18: 농업분야 비정형데이터 분석B3%F3%BE%F7%BA%D0%BE... · 신유통 포커스 18-13호 농업분야 비정형데이터 분석 조인호 (㈜더아이엠씨 이사) ※ 본

마지막으로 본 연구에서 제시한 소비트랜드 분석 결과는 거시적 측면과 미시적 측면에서 지속적인 소비트랜드의 모니터링이 필요하며 이를 위해서는 특정 작목에 부합되는 모니터링 체계의 구축과 관리가 필수적임을 확인해 주고 있다. 구체적으로 채소 소비의 경우 거시적 측면에서는 우리사회의 일반적인 소비트랜드을 반영하는 경향을 강하게 보이지만 각 작목별로는 소비와 관련된 관심 이슈들이 차별적으로 구성되는 것을 확인할 수 있었다. 또한 월별 소비트랜드의 변화 또한 미시적인 시점에서도 소비트랜드의 변화가 존재하고 있음을 보여주었다. 따라서 채소를 포함하여 적절한 수급조절정책 혹은 재배 의사결정 지원을 위해서는 각 작목에 대하여 지속적인 소비관련 이슈변화를 모니터링할 수 있는 시스템의 구축이 요구된다고 하겠다.