powerpoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이,...

45
관광 재방문율 상위도시의 특성을 기반으로 한 지자체의 지역 별 관광자원 개발 전략 제언 - 토픽모델링 및 SNA 분석을 활용하여 - SA216 1

Upload: others

Post on 23-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

관광 재방문율 상위도시의 특성을 기반으로 한 지자체의 지역 별 관광자원 개발 전략 제언

- 토픽모델링 및 SNA 분석을 활용하여 -

SA216

1

Page 2: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Contents

1. Problem Definition

1.1 Problem Recognition

1.2 Literature Review Problem & Objective 1.3 Problem & Objective 1.4 Overview

2. Data Analyzing Process

2.1 Decision Tree

2.2 Topic Modeling I 2.3 Social Network Analysis 2.4 Regression 2.5 Topic Modeling II

3. Result & Interpretation

3.1 Result Utilization

3.2 Tourism Strategies

2

Page 3: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Leadership Theory 3. 리더십 DATA ANALYSIS 조직행동론 3조

1 효과성 및 효율성 부족 지방자치단체의 경쟁적인 관광산업 개발이 효율적으로 이루어지지 못하고 효과가 없는 부분이 있다.

2 지역별 특성과 관광객의 니즈가 서로 연결되지 못하고, 대규

모 개발과 민선 자치장의 정치적 문제로 변질되고 있다.

Ex) 대규모 개발, 선심성 공략

지역별 관광자원강점 파악 부재

현대 관광산업의 이슈

{ 국내 관광개발에 대한 문제 인식 }

3 관광아이템 차별화 부재 전국적으로 유행이라 하는 트렌드에 민감하게 반응하여 ‘따라하기 방식’ 의 관광개발이 많다. Ex) 낚시 관련 축제 (송어, 빙어 등)

4 지자체의 재정문제로 효율적 관광 개발 전략 필요성이 증가했으며 재정문제에 따른 대안으로 무수히 시작된 PROJECT FINANCING이 중도 취소되는 사례도 많다.

관광산업을 위한 재정 문제

‘지자체 관광개발 사업의 문제점 및 대안‘, 한국문화관광연구원‘, 2010

3

Page 4: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Literature Review TRAVEL & DATA

이민재 외2, ‘지자체의 관광자원 브랜드 자산이 브랜드 충성도에 미치는

영향에 대한 탐색적 연구: 지자체의 관광자원 브랜드를 대상으로, 경희대학교, 2012

강인규, ‘DEA모형을 활용한 문화관광축제의 효율성 평가’, 전남대학교, 2011

박진영 외1, ‘경주지역 관광객의 관광동기와 재방문객 유치를 위한 방

안에 관한 연구‘, 대한관광경영학회, 2012

조완섭 외3, ‘SNS 데이터 분석을 통한 스마트 충북관광 구축‘, 충북대학교,

2015

4

재방문과 타인추천의사, 브랜드 인지도, 관광지의 이미지, 방문객의 만족도

자료포괄분석, 축제 평가법, 투입 대비 산출

다중회귀분석, 재방문의사의 영향 관계, 재방문 동기

텍스트마이닝, 감정분석, 토픽모델링

Page 5: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

5

분석주제

Problem & Objective TRAVEL & DATA

관광 재방문율 상위도시의 특성을 알아보고 타 지방자치단체에서도 활용 가능한

지역 별 관광자원 개발 전략 제언

Page 6: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

1 의사결정나무

3 속성 별 영향력 파악

회귀분석

Overview TRAVEL & DATA

Process

6

재 방문율 상위 지역 검색

2 상위 지역 속성 파악

Topic Modeling & SNA

4 사례 적용 전략수립

결과적용 미래 유망 관광테마 선정 관광자원 중요 속성 파악

Page 7: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Data

Decision Tree

Topic Modeling

공통특성분석 개인특성분석

5개 도시 선정

Topic Modeling SNA

개별특성

공통특성

Data Collecting

Topic Modeling

Regression

다른 관광지에도 모델을 적용

Clustering

Overview TRAVEL & DATA

1

2

5 3

4

7

6

Page 8: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

DATA

ANALYSING

PROCESS

Sample ▶ Explore ▶ Modify ▶ Model ▶ Assess

8

Page 9: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

의사결정나무 (Decision Tree) – SAS E Miner 1

DATA ANALYSIS TRAVEL & DATA

9

국민여행실태조사 (2014) 데이터

개별

원시데이터

응답자특성 여행기록부

개인

방문지베이스 단위여행베이스

가구

가공데이터

통합

본인 직접 동기에 의한 관광을 다녀온 후 재방문 의사가 높았던 지역을 탐색

*본인 동기를 확인하기 위해 ‘개인‘ 데이터를 사용하였고 전체 과정의 기간 일관성을 위해 2014년으로 기간을 통일했다.

관광객의 인구통계적 정보를 분류기준으로 삼아 , 재방문 의사가

높은 세그먼트를 분류한다. 이로부터 선정된 세그먼트를 통하여 주요 관광지를 선정

*각 세그먼트가 가진 인구통계적 특성이 비교적 명확한 집단이 방문한 관광지를 중요하게 여겼다.

분류기준으로 선정된 인구통계적 속성(변수)을 마케팅 세그먼트에

활용 가능

Page 10: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Decision Tree 의사결정나무

10

변수명 변수설명 변수역할 변수유형

marry 미혼/결혼/사별/이혼 여부 INPUT NOMINAL

month 여행을 다녀온 월 INPUT NOMINAL

inc1_1 연 소득 INPUT INTERVAL

sex 성별 INPUT BINARY

school1 최종학력 INPUT NOMINAL

school2 졸업여부 INPUT NOMINAL

occ1 직업분류1 INPUT NOMINAL

occ2 직업분류2 INPUT NOMINAL

age 연령 INPUT INTERVAL

ara_size 지역규모 (대도시, 중소도시, 읍/면) INPUT NOMINAL

sr_type 조사구(주택)유형 (아파트, 일반주택) INPUT BINARY

fac 가구내 가구원 수 INPUT ORDINAL

count 몇 번째 여행인지 표기 INPUT INTERVAL

Bin_q_6_7 재방문의사 (5는 1) TARGET BINARY

Q3 여행 주 목적 (여가, 친지방문 등등) - NOMINAL

Q6_1 여행한 시/도 및 시/군/구 - NOMINAL

Q6_7 재방문의향 (1~5점척도) - ORDINAL

Type1 여행유형 (국내 관광여행, 해외 여행 등) - NOMINAL

응답자특성 + 여행기록지 데이터 중요 변수목록

Exploring

Sampling

‘개인’ 데이터 관측치가 총 27,560개 샘플링X 모든 데이터를 모델 구축에 사용 데이터분할X

2014_개별_여행기록부_개인여행.sav

2014년_개별_Data

• 여행기록부 개인용_국내 관광여행 및 해외여행

- 단위 여행 베이스 - 방문지 베이스

• 응답자 특성_ 개인용

Page 11: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Decision Tree 의사결정나무

11

Exploring

Page 12: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Decision Tree 의사결정나무

12

Exploring

나이

직업

재방문의향

지역규모

연 소득

혼인형태

Page 13: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Decision Tree 의사결정나무

Modifying

Type1 (여행유형)을 국내여행이라고 응답한 사람만 *국내 관광객에 대한 데이터만 필요

Q3 (여행 주 목적)을 1. 여가/위락/휴가 로 응답한 사람만 *관광과 관련이 없는 조사자들을 걸러냄

RAW DATA 필터링

데이터 합치기

여행기록지 데이터 + 응답자특성 데이터 방문지시도 속성

파생변수

재방문의사 (Binominal) - 5점 1, 1~4점 0 *설문을 긍정적으로 응답하려는 편향이 조사에서 흔히 나타나므로, 5점만 재방문을 확신

응답데이터에서 이상치를 찾을 수 없음 *일반적인 이상치는 발견되지 않았고, 통계적인 이상치를 제거해야 할 이유가 없음.

결측치 없음

이상치 & 결측치

PID PSID 나이 소득 연봉 직업 …

PID PSID 방문지시도 여행주목적 재방문 여행유형 …

여가/ 위락/ 휴가

1 or 0

응답자특성

여행기록부

국내

13

입력변수

인구통계적 속성의 일부 속성 제외 *거주지 / 월 평균 소득

Page 14: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Decision Tree 의사결정나무

목표변수

재방문의사 - Yes = 1, No = 0

분리규칙 지정

유의수준 : 0.2 최대 가지 : 3개, 최대 깊이 : 3개 최소 범주형 크기 : 5

알고리즘

지니, 카이제곱, 엔트로피 세 가지 알고리즘 중에 가장 높은 정확도를 가진 모형 선택 지니

14

Modeling

Page 15: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

모델 보기 Decision Tree 의사결정나무

타겟비율 약 60% 이상, 충분한 세그먼트 구성원 수를 이루는 Leaf에 대해 더 관찰해보았다

15

Page 16: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Decision Tree 의사결정나무

인구통계적 특성 반영

재방문의사가 5인 관광객들만의 방문지를 보면, 보편적인 초대형 관광지가 주를 이룸

인구통계적 특성을 반영한 재방문이 높은 관광지(Leaf)는 보편적인 대형 관광지이기보다 중소도시의 내실 있는 관광지 위주

Assessment

중요하게 선정된 분류기준

나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인 속성 발견

초대형 관광지는 물론, 중·소도시의 관광지에서 관광객의 재방문의사가 높게 나타남

% 관광지

3.32 제주 서귀포시

3.08 강원 속초시

3.05 부산 해운대구

2.9 전남 여수시

2.69 강원 강릉시

변수명 분리규칙개수 중요도

inc1_1 3개 1

age 2개 0.9741

school1 2개 0.8286

fac 1개 0.689

month 1개 0.4169

16

세그먼트의 전체 대비 여행지 점유율

% 관광지

52.8 전북 임실군

26.4 전남 곡성군

17.6 전남 보성군

7.06 강원 평창군

4.65 경기 안성시

5.58 충남 태안군

2.33 전남 여수시

5.2 부산 해운대구

5.2 경기 평택시

5.2 강원 원주시

5.2 강원 강릉시

5.2 강원 동해시

재방문율 상위 관광지 선정(5개) 의사결정나무 결과로 나온 세그먼트 속성으로

방문객을 필터링 하여 그 집단 관광객이 2014년 동안 가장 많이 방문한 지역을 계산

Page 17: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

텍스트 마이닝 – 토픽 모델링 I 2

DATA ANALYSIS TRAVEL & DATA

Decision Tree 에서 5군데 선정 {

개별 관광지의 핵심 관광자원은?

17

% 관광지

52.8 전북 임실군

26.4 전남 곡성군

7.06 강원 평창군

5.58 충남 태안군

5.2 강원 강릉시

토픽모델링이란?

토픽모델링은 LDA(Latent Dirichlet Allocation)

알고리즘을 이용 한 확률 모델이다. 수집한 각 문서들은

토픽들의 집합으로 이뤄져 있다는 가정에서 출발한다.

토픽모델링은 주어진 문서가 어떤 토픽으로 이뤄져있고,

각 토픽이 어떤 키워드로 구성되어있는지 파악할 수 있는

분석도구이다.

검색어 수집 검색어 선정 포스트 수집 토픽모델링

Page 18: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Text Mining 검색어 선정

*2015년 6월 현재 검색엔진 점유율 1위인 NAVER의 '연관 검색어' 서비스를 활용하여 추가로 검색 할 단어를 선정하였다.

Java 이용하여 각 연관검색어 별 포스팅 수 추출 *“OO 여행”, “OO 관광” *해당 검색어의 중요도를 반영하는 수치

검색어마다의 연관검색어 + 지도서비스의 연관주요장소를 모두 수집

검색어 수집경로

1

2 3

18

Page 19: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

2

Text Mining 관광지 별 토픽 모델링

검색어 선정기준

“태안 여행” 연관 검색어 포스트 수 태안 204336

충남 태안 18566

아이들과 여행 4854

팜카밀레 3246

서산여행 2353

충남 여행 1855

아이들과 갈만한곳 1587

신진항 785

태안 가볼만한곳 784

태안 팜카밀레 460

태안 1박2일 298

태안 여행코스 217

태안 2박3일 59

충남 갈만한곳 26

태안 자연휴양림 24

태안 갈만한곳 10

태안오징어축제 0

충남당진아이들과놀러갈만한곳 0

“태안 관광” 연관 검색어 포스트 수 신두리사구 1982

관광레저형 기업도시 841

태안 신두리 해안사구 766

태안관광레저도시 27

지도검색 안면도

꽃지해수욕장

만리포해수욕장

천리포수목원

3

포스트 수가 많은 순으로 나열 후 중요도에 따라 검색어 선정

해당 지역명은 1차 검색과 동일한 결과이므로 제외

최대한 중복되는 결과가 없도록 적절한 검색항목 배제

다른 관광지와 겹치는 검색어 제외

Page 20: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Text Mining 관광지 별 토픽 모델링

Page 21: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Text Mining 관광지 별 토픽 모델링

크롤링

네이버 블로그 포스트 2014.01.01-2014.12.31

5개 관광지 10,311개 수집

전북 임실 1,294개 전남 곡성 1,351개 강원 평창 2,513개 충남 태안 2,182개 강원 강릉 2,971개 R(LDA 패키지)

토픽모델링 실시

*토픽개수 = 20개 *α = 0.1 * β = 0.1 *iteration = 3000

토픽별 단어의 확률분포토픽 내에 포함된 단어를 정렬함

토픽모델링

Topic1 Topic2 ··· Topic9 Topic10 ··· Topic19 Topic20

1 0.0223 0.0169 ···

0.0300

0.0173 ···

0.0173

0.0173

2 0.0173 0.0134 ···

0.0212

0.0138 ···

0.0138

0.0138

3 0.0152 0.0108 ···

0.0192

0.0130 ···

0.0130

0.0130

4 0.0133 0.0108 ···

0.0177

0.0108 ···

0.0108

0.0108

5 0.0127 0.0099 ···

0.0127

0.0103 ···

0.0103

0.0103

6 0.0127 0.0099 ···

0.0124

0.0097 ···

0.0097

0.0097

7 0.0108 0.0093 ···

0.0124

0.0095 ···

0.0095

0.0095

8 0.0102 0.0091 ···

0.0122

0.0095 ···

0.0095

0.0095

9 0.0093 0.0091 ···

0.0119

0.0092 ···

0.0092

0.0092

10 0.0093 0.0088 ···

0.0099

0.0089 ···

0.0089

0.0089

··· ··· ··· ··· ··· ··· ··· ··· ···

Topic1 Topic2 ··· Topic9 Topic10 ··· Topic19 Topic20

1 계곡 섬진강 ··· 청산 레일 ··· 장미 순천

2 곡성 천문대 ··· 완도 곡성 ··· 곡성 여수

3 이름 곡성 ··· 바다 바이크 ··· 기차 부산

4 입구 기차마을 ··· 서편제 섬진강 ··· 기차마을 박물관

5 전남 마을 ··· 여행 모습 ··· 섬진강 강원

6 도림 이야기 ··· 마을 예약 ··· 장미공원 강원도

7 사찰 음식 ··· 청산도의 아이 ··· 레일 섬진강

8 유명 레일 ··· 왈츠 엄마 ··· 마을 구례

9 풍경 지리산 ··· 코스 날씨 ··· 축제 유명

10 전라남도 체험 ··· 도착 풍경 ··· 사진 전주

··· ··· ··· ··· ··· ··· ··· ··· ···

21

Page 22: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

소셜 네트워크 분석(SNA) 은

기존의 통계적 분석으로 접근할 수 없었던

개체간 ‘관계’ 와 ‘상호작용’ 을 계량적으로 분석하여

거시적,미시적 관계 패턴을 파악하는 방법으로

관계의 형성/구조/변화를 측정.

단어 쌍(X,Y)의 LIFT를 계산하여 SNA 분석 (Gephi) 연결정도 중심성(Degree Centrality)을 기준으로 각

노드들이 연결됨 각 노드는 Degree의 크기가 커질수록 커짐 노드 간의 관계가 클수록 화살표가 굵어짐

SNA 분석이란?

해석하기

사회 연결망 분석 (Social Network Analysis) 3

DATA ANALYSIS TRAVEL & DATA

토픽모델링I 결과를 바탕으로

22

Page 23: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Text Mining SNA분석

연관성 매트릭스

검색어 선정 기준

다양성을 높이기 위해 20가지 토픽에 선정된 단어를 추상적인 단어/관광장소 이름 등 골고루 사용

관광 관련 논문을 참조하여 조사자의 주관이 적게 개입되도록 선정함

선정된 단어들의 중복을 최대한 적게 하기 위해 중복단어 제거

주요 관광지와 관련된 속성들간의 관계성을 알아보고자 함

Topic1 Topic2 ··· Topic9 Topic10 ··· Topic19 Topic20

1 계곡 섬진강 ··· 청산 레일 ··· 장미 순천

2 곡성 천문대 ··· 완도 곡성 ··· 곡성 여수

3 이름 곡성 ··· 바다 바이크 ··· 기차 부산

4 입구 기차마을 ··· 서편제 섬진강 ··· 기차마을 박물관

5 전남 마을 ··· 여행 모습 ··· 섬진강 강원

6 도림 이야기 ··· 마을 예약 ··· 장미공원 강원도

7 사찰 음식 ··· 청산도의 아이 ··· 레일 섬진강

8 유명 레일 ··· 왈츠 엄마 ··· 마을 구례

9 풍경 지리산 ··· 코스 날씨 ··· 축제 유명

10 전라남도 체험 ··· 도착 풍경 ··· 사진 전주

··· ··· ··· ··· ··· ··· ··· ··· ···

박자현 외 1, ‘토픽모델링을 활용한 국내 문헌정보학 연구동향 분석‘, 정보관리학회지 2013, 연세대학교 문헌정보학과 전희주 외1, ‘소셜 네트워크 분석을 활용한 생보사와 손보사의 대면/비대면 채널의 적합성 비교‘, 한국데이터정보과학회지, 2014

중심성 분석

30X30 모든 키워드의 1:1 매칭 연관성

중심성 분석 기준에는 역동성과 인기 노드를 찾는 Degree법과 독립성을 가지고 네트워크 내 정보 흐름을 쥐고 있는 핵심 노드를 찾는 Closeness법 외에 Betweeness, Eigenvector법 등이 있음.

본 과정에서는 Average Degree 법을 사용

P(X)=X 단어의 Term Frequency(단어 빈출 빈도)

Lift = P(Y|X)/P(Y) = P(X&Y)/(P(X)*P(Y))

토픽모델링I 의 결과를 바탕으로 SNA분석을 진행

23

Page 24: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Text Mining SNA분석 지역별 SNA 결과

강원 강릉

강원강릉 W

오죽헌 4E-05

경포대 3.8E-05

주문진 2.2E-05

모래시계 1.4E-05

해돋이 1.2E-05

초당 1E-05

일출 9.6E-06

레일바이크 9.1E-06

모래사장 8.2E-06

수산시장 6.7E-06

게스트하우스 4.3E-06

바다 4.2E-06

조개 3.8E-06

기차 3.7E-06

해산물 3.5E-06

충남 태안

충남태안 W

할아비바위 0.00016

백사장항 0.00013

팜카밀레 0.00013

신두리 7.9E-05

낙조 4.4E-05

백사장 3.1E-05

갯벌 2.9E-05

자연휴양림 2.1E-05

바다낚시 2.1E-05

사구 0.00002

대하 1.9E-05

해수욕장 1.8E-05

꽃게 1.6E-05

천연기념물 1.6E-05

레저형 1.4E-05

강원 평창

강원평창 W

대관령 2.4E-05

풍력발전기 2E-05

봉평 1.5E-05

백두대간 1.4E-05

목장 1.4E-05

연애소설 0.00001

숲길 9.2E-06

계곡 8.1E-06

메밀 8.1E-06

산행 7.5E-06

석탑 6.5E-06

동강 6.3E-06

텐트 5E-06

단풍 4.2E-06

캠핑 4.2E-06

전남 곡성

전남곡성 W

섬진강 1.4E-05

원효대사 1.3E-05

기차마을 1E-05

사찰 9.1E-06

지리산 8.4E-06

절경 7.5E-06

천문대 6.7E-06

기차 5.8E-06

산행 5.6E-06

장미공원 5.5E-06

서편제 4.1E-06

문경 3.4E-06

해변 3.3E-06

숙소 3.1E-06

고요 2.7E-06

전북 임실

전남임실 W

필봉농악 0.00029

사선대 0.00027

옥정호 0.00022

강천사 0.00011

섬진강종주 0.00011

운암 4.6E-05

한려 4.3E-05

내장산 3.7E-05

물안개 1.7E-05

자연휴양림 1.6E-05

새만금 1.4E-05

절경 1.4E-05

남해 1.4E-05

치즈마을 1.2E-05

고인돌 1.1E-05

24

Page 25: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

전북 임실

전남임실 W

필봉농악 0.00029

사선대 0.00027

옥정호 0.00022

강천사 0.00011

섬진강종주 0.00011

운암 4.6E-05

한려 4.3E-05

내장산 3.7E-05

물안개 1.7E-05

자연휴양림 1.6E-05

새만금 1.4E-05

절경 1.4E-05

남해 1.4E-05

치즈마을 1.2E-05

고인돌 1.1E-05

Text Mining SNA분석 SNA 결과 해석하기

25

Page 26: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

전북 임실

전남임실 W

필봉농악 0.00029

사선대 0.00027

옥정호 0.00022

강천사 0.00011

섬진강종주 0.00011

운암 4.6E-05

한려 4.3E-05

내장산 3.7E-05

물안개 1.7E-05

자연휴양림 1.6E-05

새만금 1.4E-05

절경 1.4E-05

남해 1.4E-05

치즈마을 1.2E-05

고인돌 1.1E-05

Text Mining SNA분석 SNA 결과 해석하기

26

강원평창 W

대관령 2.4E-05

풍력발전기 2E-05

봉평 1.5E-05

백두대간 1.4E-05

목장 1.4E-05

연애소설 0.00001

숲길 9.2E-06

계곡 8.1E-06

메밀 8.1E-06

산행 7.5E-06

석탑 6.5E-06

동강 6.3E-06

텐트 5E-06

단풍 4.2E-06

캠핑 4.2E-06

전북 임실 강원 평창

Page 27: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

회귀분석 (Multiple Regression Analysis) 4

DATA ANALYSIS TRAVEL & DATA

다른 관광지의 특성을 개별모델에 적용시킬 수 있을까?

관광지 5군데의 개별 특성/전체적 특성을 각각 밝혀냈을 때, 이로부터 구축된 모델을 다른 관광지로부터도 적용할 수 있는가?

개별 관광지의 강점/약점 파악 용이

효율적 관광자원 개발

지역의 특색을 잘 살린 관광자원 개발

27

Page 28: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Regression 회귀분석

상위 15개 단어를 중요하다고 판단하여 회귀분석 전처리 단계에 이용 항목별 만족도_관광정보 및 안내시설

항목별 만족도_관광지 물가

항목별 만족도_관광지 편의시설

항목별 만족도_관광지 혼잡도

항목별 만족도_교통

항목별 만족도_문화유산

항목별 만족도_쇼핑

항목별 만족도_숙박시설

항목별 만족도_식당 및 음식

항목별 만족도_자연경관

항목별 만족도_지역 관광종사자의 친절성

항목별 만족도_체험프로그램

회귀분석을 위한 전처리 단계

데이터 전처리

SNA에서 확률 순으로 상위 15개 단어들을 관찰. 항목별 만족도 설문의 12개 각 응답지마다 확률순으로 나열된 각 단어를 할당하고, 가장 유의미한 응답지 6개를 선정함

관광지 편의시설

문화유산

숙박시설

식당 및 음식

자연경관

체험프로그램

항목별 만족도_관광정보 및 안내시설

항목별 만족도_관광지 물가

항목별 만족도_관광지 편의시설

항목별 만족도_관광지 혼잡도

항목별 만족도_교통

항목별 만족도_문화유산

항목별 만족도_쇼핑

항목별 만족도_숙박시설

항목별 만족도_식당 및 음식

항목별 만족도_자연경관

항목별 만족도_지역 관광종사자의 친절성

항목별 만족도_체험프로그램

28

가구 단위로 움직이는 관광에 대한 적용을 위해 ‘2014년 가구 데이터’를 활용

Page 29: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

도시 별 입력변수와 반응변수

2014년 가구 응답 데이터에서 지역당 설문 건수가 30건 이상인 도시를 우선 선정 설문 건 수가 30건 미만일 경우 통계적 의미가 하락될 수 있음

총 51개 도시 선발

6개 변수에 대해 도시 별로 요약통계량을 계산 그 중 대표로 하는 값을 입력변수로 사용하기로 결정

시군 별 설문 응답의 평균값을 해당 지역의 대표값으로 선정 최빈값의 경우 4값이 다수를 차지하여 무의미함

도시 별 입력변수와 반응변수

반응변수 생성하기

Sampling

KOSIS국가통계포털 ‘2014년 시군구별 관광지 방문객 수’ 데이터

선정된 51개 시에 관한 2014년 총 방문객 수

입력변수와 Join

Training Data Set

요약통계량 값 예시 (q12_1)

Regression 회귀분석

결측 전 Training Data set 일부

29

Page 30: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Exploring

*이상치와 결측치를 다른 요약통계량 값으로 대치하기에 해석상 오류가 있을 것으로 예상되어 삭제하기로 함

이상치 -- 응답 보기 값 ‘9’를 이상치로 판단함 결측치 -- “숙박시설” 만 결측치 존재 이는 당일여행의 경우 응답을

하지 않았기에 발생하였음을 추측할 수 있음

도시 별로 ‘결측치’와 값’9’를 제외한 값들로 요약통계량 대표값 입력 51개 행에 대한 도시 별 입력변수

이상치 & 결측치

그래프 탐색

Regression 회귀분석

30

Page 31: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

탐색결과 반응변수 ‘traveler’ 값이 정규성과 차이가 있음을 알 수 있었다. 이에 대한 대응방안을 고려하였다.

Modifying

1. 발생횟수 성격의 현재 반응변수를 포아송 분포를 가정하고 로그를 취해 파생변수를 만들어 반응변수로 대치한다.

2. 지역 별 총인구 수 데이터를 참조하여 파생변수를 만들어 반응변수로 대치한다. 3. 일반선형회귀가 아닌 일반화 선형모델을 사용하여 GLM 함수로 모델을 구축한다. 이는 방안1의

포아송 분포 가정과 유사한 방안이다.

반응변수’traveler’ 및 시도해 본 파생변수

Regression 회귀분석

31

Page 32: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

반응변수와 각각의 입력변수는 이론적으로 양의 상관관계를 가지는 것이 일반적 변수를 모두 2014년 기간으로 선정하였고 51개 도시는 서로 중복되지 않음 입력변수는 초기 1~5의 선택지 응답으로 구성되어 같은 Scale을 가지고 있음 반응변수에 관한 설명력을 회귀분석을 통해 비교, 대조하게 될 것

회귀분석

Modeling Regression 회귀분석

회귀분석 변수 목록

32

Page 33: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Modeling Regression 회귀분석

EM 다이어그램

모델 평가

33

1. Enterprise Miner 선형회귀 분석을 활용하여 아래 4가지 선형모델을 최종후보로 하여 모델링을 진행함

2. 반응변수 ‘traveler’, 모델옵션 ‘GLM’일 때 설명력(R-Square)이 높게 나왔으며 이후 본 모델에서 최적화 옵션 기법을 또 달리하여 가장 설명력이 높은 회귀모델을 추구

3. 전부 후진제거 기법을 변수선택 모델로 선정하여 진행하였으나, 선택한 6개 변수가 모두 포함되는 방향을 추구

회귀분석

Page 34: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

해석하기

Assess

38.2%의 설명력을 보였고 C(p)값이 7을 보였다. 마케팅 분야의 일반적 선호 설명력 값인 40%를 넘지 않으나 근사하며 사회과학 분야의 선호 값인 30%는 크게 넘기고 있음

결과 분석에서 Condition Index값을 확인해 보면 다중공선성 문제가 다소 있음을 알 수 있음. 따라서 예측을 위한 회귀식을 구하기 위해서는 변수제거 혹은 주성분분석 등 추가 행동이 필요하나 우리는 입력변수간의 영향력을 상대적으로 비교하기 위함이므로 문제를 생략하고 넘어가기로 함

-- Enterprise Miner – Analysis of Variance Sum of Source DF Squares Mean Square F Value Pr > F Model 6 1.6249656E14 2.708276E13 4.33 0.0017 Error 42 2.6283338E14 6.2579376E12 Corrected Total 48 4.2532994E14 Model Fit Statistics R-Square 0.3820 Adj R-Sq 0.2938 AIC 1450.2253 BIC 1454.5031 SBC 1463.4681 C(p) 7.0000 Analysis of Maximum Likelihood Estimates Standard Parameter DF Estimate Error t Value Pr > |t| Intercept 1 -3652901 12960663 -0.28 0.7794 q12_1 1 612970 2594175 0.24 0.8144 q12_11 1 -7292916 2872874 -2.54 0.0149 q12_2 1 -1196633 2580261 -0.46 0.6452 q12_4 1 -237854 1748084 -0.14 0.8924 q12_5 1 -1713784 3361062 -0.51 0.6128 q12_8 1 10800865 3163184 3.41 0.0014

결과 Log

Regression 회귀분석

34

Page 35: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

중요성 판별

최종 모델 결과의 Parameter 별 Estimate 값을 가지고 변수 간 중요성을 판별하였다. ‘관광지 편의시설’이 가장 높은 중요도를 보였으며 ‘체험 프로그램’과 ‘자연경관’이 뒤를 이었다. ‘관광정보 및 안내시설’이 가장 낮은 중요도를 보였다.

Assess

위 지표 중 정부와 민간이 투자를 통해 만족도를 높이기 효과적인 부분은 편의시설, 체험 프로그램 등이 있다. 위 결과에 따르면 두 요인이 모두 주요한 요인으로서 전략적인 관광 투자 요인으로서 삼을 수 있음을 알 수 있다.

다양한 지역에서 투자가 이뤄지는 쇼핑 부문에서는 예상보다 적은 중요도를 보였다. 이는 한정된 자원에서 선별적 진흥전략을

추구 해야 할 경우 쇼핑 또는 안내시설 등은 후순위로 전략을 정하는 것이 나을 수 있음을 알려준다.

Parameter Estimate Abs(esti) Rank Label_name Percent

Intercept -3,652,901 3,652,901 3 자연경관 14.32%

q12_1 612,970 612,970 6 쇼핑 2.40%

q12_2 -1,196,633 1,196,633 5 문화유산 4.69%

q12_4 -237,854 237,854 7 관광정보 및 안내시설 0.93%

q12_5 -1,713,784 1,713,784 4 식당 및 음식 6.72%

q12_8 10,800,865 10,800,865 1 관광지 편의시설 42.34%

q12_11 -7,292,916 7,292,916 2 체험 프로그램 28.59%

결과 해석 및 적용

Regression 회귀분석

35

Page 36: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Latent Dirichlet Allocation & Word Clustering

텍스트 마이닝 – 토픽 모델링 II 5

DATA ANALYSIS TRAVEL & DATA

관광지

선정

검색어

선정

포스트

수집

토픽모델링 1 + SNA

토픽모델링 2

[ ] 5군데 통합한 Data 새로운 토픽&단어 클러스터링

1

2

3

4

5군데 전체 관련된 키워드를 바탕으로 하여, 토픽모델링을 재실시함.

서로 연관성이 있는 토픽이 하나의 클러스터로 묶임. 각 클러스터는 해당하는 관광자원의 상위 범주로 묶임.

전북 임실 1,294개 전남 곡성 1,351개 강원 평창 2,513개 충남 태안 2,182개 강원 강릉 2,971개

10,311개의

포스트

36

Page 37: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Text Mining 토픽모델링분석

앞서 분석한 5개 도시의 개별 속성은 이후 진행 할 SNA 및 RG분석에서 활용하여 추가적인 해석을 진행함 본 과정을 넘어가기 앞서 5개 도시에 대한 공통적인 속성을 알아보고자 추가 토픽모델링 과정을 진행함

5군데 통합데이터를 이용하여 토픽모델링을 실시 통합 토픽모델링의 파라미터는 앞서 개별로 토픽모델링한 파라미터와 동일

*토픽개수 = 10개 *α = 0.1, β = 0.1 *iteration = 3000

37

Page 38: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Text Mining 토픽모델링분석

토픽모델링 결과를 바탕으로 계층형 클러스터링(Hierachy Clustering) 진행 (WEKA)

클러스터링 결과로 나온 Tree를 바탕으로 토픽들을 6개의 군집으로 분리

토픽들의 군집에 나오는 단어를 바탕으로 타이틀을 부여

Tree의 가지의 높이가 낮을수록 그룹화가 먼저 발생

클러스터링 (WEKA)

38

Page 39: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Text Mining 토픽모델링분석

클러스터링 결과 및 그룹 타이틀(여행 테마)

6개의 그룹으로 분류

39

Page 40: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Text Mining 토픽모델링분석

0.00%

5.00%

10.00%

15.00%

20.00%

25.00%

30.00%

35.00%

다양한

풍경여행

문화,역사 탐방

여행

기분전환 여행 가족적인

분위기의 여행

체험활동 여행 지역명

21.86%

8.27%

14.57%

32.09%

18.33%

4.88%

토픽의 그룹별 출현 확률

40

Page 41: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

41

RESULT

INTERPRETATION Strategy ▶ Example ▶ Reference

Page 42: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

2 토픽모델링 결과

관광테마 발견

Topic Modeling

변수의 중요도 차이 발견

1 회귀분석 결과 Regression

1. 다양한 풍경여행 2. 가족적인 분위기의 여행 3. 체험활동 여행

1. 관광지 편의시설 2. 체험 프로그램 3. 자연 경관

3 Tourism

관광개발전략 제안 분석 최종 결과

토픽모델링의 결과로 각 관광지마다 특수한 테마를 부여

항목별 만족도를 회귀분석하여, 투자대비 산출효과가 큰 변수들 발견

1. 가족적 유대 강화와 교육적 측면을 위한 체험 중심의 관광 자원 개발

2. 어린 자녀와 함께하기에 불편함이 없는 관광 편의 시설 요인 정비 3. 자연경관 및 연관된 문화적 측면의 강화

2010년 이후 국내 관광 트렌드는 단체관광객 중심의 대량 관광에서 국민복지차원의 가족관광객 중심으로 변하고 있음. 따라서 가족단위의 관광자원 개발이 중요! 1

지방의 중소도시에서 대규모 자원 투자가 아니더라도 지역 환경 기반의 효율적인 관광 자원 전략을 통해 관광 매력도를 높일 수 있음

42

1 윤정헌, ‘가족관광객의 관광동기, 관광지 선택속성 및 관광만족의 영향관계’, 관광레저연구, 2010

Page 43: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

관광자원 발굴 및 개발

예시 적용 : 전남 목포

43

• 자연환경: 유달산,갓바위,삼학도 • 문학적 측면: 목포의 눈물 ,목포는 항구다, 무료국악공연 • 교육적 측면: 자연사박물관, 해양문화재연구소(해양 분야), 목포근대역사관 및 근현대유적(역사 분야) • 체험프로그램: 도자기체험, 목공예체험,갯벌생태체험

1. 보유 관광자원 조사 및 후보 선정

2. 전략

3. 전략적용 후 예상결과

• 해양 및 근현대 역사와 관련된 문화 측면의 강점을 살릴 수 있는 자원이 상당히 있음을 확인하였다. 더불어 성장이 가능한 각종 체험프로그램이 현재 운영중임을 알 수 있으나 외부 방문객들에게 있어서 다른 관광자원들과 연계되어 홍보 및 활용되지 않는 것으로 보였다.

• 체험 및 교육 측면 개발을 통한 관광지로서 목포의 차별화와 강점 강화를 주 목표로 하며 상대적으로 빈약한 관광지 편의시설 등에 대한 보완 투자가 이뤄지도록 한다.

• 편의시설의 수가 부족하지는 않으나 숙박관련 시설들이 가족단위 여행객들이 사용하는데 불편하지 않도록 정비 및 안내가 필요하다.

• 해양, 역사 관련 교육문화도시의 이미지로 높은 관광 매력도를 키워나간다. 편의시설 및 체험 프로그램의 연계 발전 및 홍보를 통해 가족단위 여행의 대표적 상징을 만들어 나간다.

Page 44: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Problem Definition & Results • 정광렬 외2, ‘지자체 관광개발 사업의 문제점 및 대안’, 한국문화관광연구원, 2010 • 이민재 외2, ‘지자체의 관광자원 브랜드 자산이 브랜드 충성도에 미치는 영향에 대한 탐색적 연구: 지자체의 관광자원 브랜드를 대상으

로, 경희대학교, 2012 • 강인규, ‘DEA모형을 활용한 문화관광축제의 효율성 평가’, 전남대학교, 2011 • 박진영 외1, ‘경주지역 관광객의 관광동기와 재방문객 유치를 위한 방안에 관한 연구‘, 대한관광경영학회, 2012 • 이영진 외1, ‘관광분야에서 SNS 빅데이터 활용 방법 모색’, 관광연구저널, 2014, 경희대학교 • 전효재, ‘스마트 관광객과 미래 관광산업의 육성’, DIGIECO, 한국문화관광연구원 • 윤정헌, ‘가족관광객의 관광동기, 관광지 선택속성 및 관광만족의 영향관계’, 관광레저연구, 2010 Decision Tree & Regression • 김성섭 외2, ‘의사결정나무분석 방법을 이용한 방한 일본인 쇼핑관광객의 상품 구매활동 연구’, 대한관광경영학회, 2006 • 오영섭, ‘메디컬 에스테틱 관광과 한류 인식이 관광이미지, 한국음식 인식, 관광 만족, 행동 의도의 영향 관계’, 한국조리학회지, 2010 Topic Modeling & SNA • 박자현 외1, ‘토픽모델링을 활용한 국내 문헌정보학 연구동향 분석‘, 정보관리학회지, 2013 • David M.blei 외2, ‘Latent Dirichlet Allocation’, Journal of Machine Learning Research 3, 2013 • 전희주 외1, ‘소셜 네트워크 분석을 활용한 생보사와 손보사의 대면/비대면 채널의 적합성 비교‘, 한국데이터정보과학회지, 2014 • 전희주, ‘소셜 네트워크분석을 활용한 통계학회 논문집과 응용통계연구 공저자 네트워크 비교’, 한국데이터정보과학회지, 2015 • 조완섭 외3, ‘SNS 데이터 분석을 통한 스마트 충북관광 구축‘, 충북대학교, 2015

- 참고 도서 – 권정민, ‘빅데이터 분석 도구 R 프로그래밍‘, 에이콘출판, 2012 양병화, '다변량 데이터 분석법의 이해', 커뮤니케이션북스, 2006 이종원, SAS를 이용한 통계분석’, 박영사, 2003 전치혁, '데이터마이닝 기법과 응용', 한나래아카데미, 2012 SAS, 'Enterprise Miner: 손쉽게 따라 하는 SAS 가이드', 자유아카데미, 2014 -활용 프로그램 : SAS Enterprise Guide 5.1, SAS Enterprise Miner 13.2,R programing, Java, Gephi 0.8.2, WEKA

참고문헌

44

Page 45: PowerPoint 프레젠테이션 · 2017-06-21 · 중요하게 선정된 분류기준 부산 나이, 연 소득, 가구 구성원 수, 직업 등 유용한 분리기준으로 쓰인

Thank you!

45