gis 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 …1 gis 데이터 및...

13
1 GIS 데이터 텍스트 테이터 통합분석을 바탕으로 관광 마케팅 전략 수립 참가유형: 기획부문 팀명: 창작동화 2관광 데이터 분석대회 출처: tripadvisor.com

Upload: others

Post on 10-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 …1 GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 관광 마케팅 전략 수립 참가유형:

1

GIS 데이터 및 텍스트 테이터

통합분석을 바탕으로 한

관광 마케팅 전략 수립

참가유형: 기획부문

팀명: 창작동화

제 2회 관광 빅 데이터 분석대회

출처: tripadvisor.com

Page 2: GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 …1 GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 관광 마케팅 전략 수립 참가유형:

2

기획 요약

본 기획의 차별성: GIS 데이터 및 텍스트 데이터 통합분석 - 초기 분석 진행 완료

기존 데이터마이닝 분석 기법

∙ 외래관광객 국적 별 선호지역 연관 분석

“외래관광객들의 관광 경로와 관광지 리뷰 텍스트 데이터를 통합 분석”

분석 결과를 토대로 구체적인 맞춤형 관광 지원 시스템 기획 가능:

어느 관광객에게 어느 지역에 대한 마케팅을 어떤 방식으로 지원할 것인가?

외래관광객 만족도 향상 및 지역 성장 도모

온라인 텍스트 분석

∙ 관광 웹사이트 및 SNS의

국내 관광지 리뷰 텍스트 분석

지리정보시스템(GIS) 분석

∙ 위치 데이터 시각화

∙ 관광경로 분석

Page 3: GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 …1 GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 관광 마케팅 전략 수립 참가유형:

3

분석 주제 및 세부목표

• 분석 주제 및 목표:

방한 외래관광객의 여행 경로 분석 및 관광 리뷰 온라인 텍스트 분석을 통하여

관광객 국적 별 맞춤형 여행 경로 및 경유 관광지 정보 제공에 관한 마케팅 전략 수립

• 기대 효과:

외래관광객 만족도 향상 및 관광객들에게 잘 알려지지 않은 국내 다양한 지역 성장 도모

• 세부 목표:

관광 리뷰

텍스트 분석

관광객 여행

경로 파악

지역 그룹화 및

국적 별 방문 지역

상관관계 분석

GIS 데이터 활용

관광지역 시각화 데이터 전처리

출처: tripadvisor.com

Page 4: GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 …1 GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 관광 마케팅 전략 수립 참가유형:

4

분석 필요성

2. 각종 SNS 및 관광 관련 사이트에 방한 외래관광객들이 작성한 수 많은 리뷰들이 존재하고

이러한 데이터가 실시간으로 쌓이고 있으나, 아직 국내 관광 리뷰 텍스트 분석은 활발히

진행되지 않고 있음

Fig 1. 공공 데이터 포털 Fig 2. 서울 열린 데이터 광장

Fig 3. tripadvisor.com에서 확인할 수 있는 방한 외래관광객의 리뷰

1. 로밍 데이터 누적에 따라 파악할 수 있는 궤도

(trajectory, 경로)데이터가 끊임없이 쌓이고 있으며

지리/교통 관련 데이터 또한 점점 개방되고 있음

• 공공 데이터 포털 (data.go.kr)

• 서울 열린 데이터 광장 (data.seoul.go.kr) 등

Page 5: GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 …1 GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 관광 마케팅 전략 수립 참가유형:

5

분석 적합성

• 각종 공공정보 및 오픈API 활용 가능: 빅 데이터 통합 분석 - 다각적인 인사이트

1. 지리데이터 통합 분석: 제공된 외래관광객의 방대한 로밍 통화이력-위치 데이터와 함께

오픈 지도데이터, 우편번호DB 주소 데이터를 통합하여 관광객 밀집 지역/관광 경로 등

을 시각화 할 수 있고 개괄적인 인사이트를 얻을 수 있음

2. 온라인 텍스트 분석: 수치화 하기 어려운 외래관광객의 국내 관광 만족도 및 불만사항에

대하여 온라인 상에 축적된 대량의 텍스트 리뷰 마이닝을 통해 분석 가능

빅 데이터 통합 분석 ⇒ 마케팅 전략 수립 지원

로밍 데이터

통화이력 위치정보

“관광 마케팅의 과학화 및 맞춤화”

공공 관광 데이터

공간정보 문화행사정보

오픈 GIS 데이터

지리 데이터

관광 리뷰 데이터

온라인 상 텍스트 리뷰

3Vs: Volume, Velocity, Variety 지속적인 개방

Page 6: GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 …1 GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 관광 마케팅 전략 수립 참가유형:

6

세부목표에 따른 분석 전략

1. 데이터 전처리

- 분석 결과에 왜곡이 없도록 중복데이터 및 아웃라이어 처리

2. GIS 데이터를 활용한 관광객 방문지역 시각화 및 그룹화

- 오픈 지도 데이터 및 ArcGIS 툴을 이용하여 관광객 방문 지역 개괄적 파악

- 이를 바탕으로 우편번호DB 내 시군구 정보와 zip code를 매칭하여 지역 그룹화

3. 국적 별 방문 지역 상관관계 분석

- 국적-방문지역 간 상관관계 분석을 통해 지역 별 유치 가능한 관광객 국적 범주를 세분화

4. 관광객 여행 경로 파악

- 각 관광객의 시간 별 기지국 위치 변화를 통해 여행 경로 파악

5. 온라인 관광 리뷰 텍스트 분석을 통한 관광객의 지역 별 만족도 및 불편사항 파악

- 온라인 텍스트 데이터를 수집하여 지역 별 만족도를 분석하고 이를 경로 분석 결과와 통합

Page 7: GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 …1 GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 관광 마케팅 전략 수립 참가유형:

7

분석 전략 1: 데이터 전처리

1. Noisy 데이터 제거

– 한 관광객이 같은 날짜에 같은 기지국 위치에서

여러 번 통화한 경우 한 건으로 취급

• 가정: “통화 빈도가 많으면 관광객이 많다”

• 동일 지역/동일 날짜에 같은 관광객이 여러 번 통화한

경우 중복 통화로 간주해야 차후 정확한 분석 결과를 얻

을 수 있음

– 초기 분석 결과 약 34.2%의 중복 이력

2. 관광지로 보기 어려운 위치에서의 이력 처리

– 공항 혹은 항구는 관광지로 보기 어려움

• 공항/항구 인근 기지국 이력의 경우 분석에서 제외

인천공항, 김포공항, 김해공항 처리

이 외의 공항 및 항구의 경우 기지국 불분명: 추가 데이터 필요

• 초기 분석 결과 주요 공항에서의 이력이 전체 이력의

11.2% 차지

– 추후 관광객 위치를 기반으로 기차나 버스로 이동중

인 관광객의 통화 이력 또한 분리하여 처리 가능

89%

11%

관광지

공항

동일 관광객 동일 날짜 동일 지역

Fig 4. 로밍 데이터 일부 - 동일 관광객이 동일 날짜에 동일한 지역에서 여러 번 통화한 경우

Fig 5. 로밍 데이터 통화 지역 비율: 관광지 vs. 공항

Page 8: GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 …1 GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 관광 마케팅 전략 수립 참가유형:

8

분석 전략 2: 데이터 시각화 및 지역 그룹화

id 우편번호 시군구 그룹 no.

1 699921 서귀포시 1

2 690801 제주시 1

3 132924 도봉구 4

4 135080 강남구 3

그룹 no. 시군구

1 제주시 서귀포시

2 광주시

3 강남구 서초구 …

4 도봉구 성북구 …

2. 시/군/구 단위로 지역 그룹화

– 우정사업본부에서 제공하는 우편번호 DB를 활용하여

zip code와 시군구 정보 맵핑

– 지리적 위치/행정 구역 상의 통화량을 기반으로 그룹화

• 데이터가 너무 많기 때문에 각각의 위치를 전부 고려하면

분석에 필요한 중요한 특성들이 파악되기 어려울 수 있음

1. 위치 별 통화량 시각화 - GIS 데이터 매시업

– 대량의 데이터에 대한 개괄적인 정보 파악을 위해

ArcGIS 툴을 활용하여 시각화

• 방한 외래관광객 방문 지역을 한 눈에 알 수 있음:

서울/경기도 및 부산, 제주도에 밀집. 그 밖에 대구,

대전, 광주, 울산 등 광역시와 전주, 안동 등 관광 특

화지역에 집중되어 있음. 그 이외의 산발적인 위치

에 대해서는 추후 분석을 위하여 그룹화 필요.

Fig 6. ArcGIS 활용 로밍 데이터 통화 이력 시각화

Page 9: GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 …1 GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 관광 마케팅 전략 수립 참가유형:

9

분석 전략 3: 국적 별 관광객 방문 지역 파악

• 외래관광객 국적 별 특성 분석:

국적 별 지역 관광 빈도 파악

– 지역마다 관광객의 국적 비율이 다름

– 국적과 지역 간 상관관계 분석을 통해 맞춤형

관광 마케팅의 토대 마련

– 그룹화 된 지역 간 상관관계 분석을 통해 유치

가능한 관광객 국적 범주를 세분화

43.9%

31.1%

4.5%

4.0%

0.4%

4.7% 2.1%

1.0% 2.2%

6.1%

외래관광객 국적 비율

N01

N02

N03

N04

N05

N06

N07

N08

N09

N10 제주도

광주 부산

대구

대전

서울

Fig 8. 국적 별 지역 관광 빈도 파악 Fig 7. 국적 별 지역 관광 빈도 파악

Page 10: GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 …1 GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 관광 마케팅 전략 수립 참가유형:

10

분석 전략 4: 관광객 지역 간 여행 경로 파악

• 관광객 여행 경로 파악

– 각 관광객의 시간 별 기지국 위치 변화를 분석

하여 경로 파악 가능

– 로밍 데이터가 한 번 뿐인 관광객은 데이터

전처리 과정을 통해 배제

1. 한 지역 내에서의 경로 데이터 (intra-city)

• 해당 지역의 관광객 안내 시스템 및 교통 최적화 지원

• 외래관광객 국적 별 선호지역 분석을 접목하여 맞춤

형 관광코스 개발

2. 지역 간 경로 데이터 (inter-city)

• 지역 간 이동경로 최적화 지원

• 지역 간 이동 중 추가로 경유할 수 있었던 지역 분석

• 이후 텍스트 마이닝 분석을 통해 도출할

추천 관광지역을 경유하는 관광 서비스 개발

Fig 9. 지역 간 여행 경로 예시

Page 11: GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 …1 GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 관광 마케팅 전략 수립 참가유형:

11

분석 전략 5-1: 텍스트 분석 설계를 위한 방한 외래관광객 인터뷰

• 방한 외래관광객들에게 인터뷰 진행

Q: 대한민국을 여행하면서 불편한 사항이나 개선했으면 좋겠다고 생각한 점이

무엇입니까?

• 서울/부산/제주를 제외한 타 지역의 경우

영어로 제공되는 관광 정보가 부족한 편이다.

• visitkorea.or.kr과 같은 국가 운영 관광 사이트 보다는

tumblr와 같은 개인 블로그의 관광정보를 주로 활용한다.

Talha Liaqat 파키스탄, 29세

• 서울의 경우 대부분의 관광명소가 지하철로 연결돼 있어서

괜찮은데, 지방 여행의 경우 터미널에서 한국어로 된 시간표를 읽고

물어 물어 가야 하기 때문에 너무 힘들다.

• 설악산, 지리산을 등산하고 싶었는데 차마 엄두가 나지 않았다.

Vina Sari Yosephine 인도네시아, 33세

외래 관광객 인터뷰의 필요성:

텍스트 분석 단계에서 활용할 단어 분류기준 및

기준 컨셉 선정에 대한 가이드 라인 제공

Page 12: GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 …1 GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 관광 마케팅 전략 수립 참가유형:

12

분석 전략 5-2: 관광 리뷰 텍스트 분석을 통한 관광 지역 만족도 분석

• 관광 리뷰 온라인 텍스트 분석

– 외래관광객들이 많이 이용하는 블로그, SNS 및 관광 웹사이트에서

국내 여행지 관광 리뷰 텍스트 수집 (ex. tumblr, twitter, tripadvisor 등)

– 로밍 데이터에서는 빈도가 낮지만, 즉 잘 알려지지 않은 관광지이지만,

텍스트 분석 결과 만족도가 높은 관광지 파악

– 이러한 관광지가 앞서 분석한 주요 여행 경로 사이에 존재한다면,

해당 지역과 관련하여 다양한 관광 서비스 제공 가능

분류 텍스트마이닝

군집화 평가분석

수집

추천관광지 도출

경로 데이터 매시업

맞춤형 관광 마케팅/서비스 제공

+

웹 데이터

DW

Text Analytics

Fig 10. 텍스트 분석 프레임워크

Page 13: GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 …1 GIS 데이터 및 텍스트 테이터 통합분석을 바탕으로 한 관광 마케팅 전략 수립 참가유형:

13

분석 결과의 활용 방안

• 외래관광객들에게 잘 알려지지 않은 국내 다양한 지역에 대해

교통/경로 정보 및 관광 정보를 지원할 수 있는 서비스 마련

1. 맞춤형 여행 경로 시스템/앱 개발

– 국적, 성별, 연령, 방문 예정 도시, 예상 체류기간 등을 기반으로

맞춤형 최적 여행 경로를 제공하는 시스템 또는 앱 개발

– 여행객 실시간 위치를 반영하여 국적 별 맞춤 언어로 관광 정보 지원 가능

– 데이터가 축적됨에 따라 지속적으로 업데이트 가능

2. 지역 별 관광 예산 배분 시 가이드라인 제공

– 국적 별 선호 관광 지역 수요 트렌드를 분석하여 지역 별 관광 예산 배분 시

개괄적인 가이드라인 제공 및 성장가능성이 있는 관광 지역에 적절한 배분 가능

분석 결과를 토대로 구체적인 맞춤형 관광 지원 시스템 기획 가능:

어느 관광객에게 어느 지역에 대한 마케팅을 어떤 방식으로 지원할 것인가?