[시각화]도서 분석을 통한 사람들의 심리&마음 파악

1
Part 1. 3개년 도서 데이터를 통한 분석 가능성 판단 Part 2. 9개년 도서 빅데이터 분석 Part 3. 9개년 도서 빅데이터 분석 순위 데이터 2006년~2014년 총 9년 동안 각 연도별로 상위 50위 베스트셀러 목록 수집 데이터 변수: 순위/도서명 데이터 수집 전략: 이미 구축되어 있는 DB의 활용 온, 오프라인 통합 서점 점유율 1위 교보문고 → 도서의 순위 선정에 반영 온라인 서점 점유율 1위 yes 24 → 도서의 리뷰 추출에 반영 _ 베스트셀러 시각화 _ 연도별 키워드 형태소 추출 _ 사람들의 생각과 심리 변화 확인 _ 도서의 생애주기와 판매 추세선 군집들 확인 : 나이테를 통해 50위 내에 들었는지 여부를 나이테 형식으로 나타냄. : 언제 베스트셀러 목록에 들어왔느냐에 따라 구분지어 나타냄. 9개년 도서 빅데이터 분석 베스트셀러 시각화 분석을 위한 수집 데이터 PART 2. GOAL. 약 90만개의 형태소를 객관적으로 분석하는 프로세스 불용어(무의미한 형태소) 제거의 객관적 기준 마련 연도별 키워드 도출 : 해석사례 _ 상처라는 말에 이전보다 능동적으로 직면할 수 있게 됨 인사이트 2006년~2014년 총 9년 동안의 리뷰 수집 리뷰 데이터 데이터 내용: 2006년부터 2014년까지 각 연도별로 상위 50위 베스트 셀러 리뷰 수집 데이터 수집 전략: 해당 웹사이트에서 해당 도서의 리뷰를 모두 웹 크롤링 PART 3. 사람들의 생각과 심리 변화 파악 항상 가장 높은 위치를 차지하는 joy 항상 0의 값을 가지는 anger 2009년 love와 surprise의 위치가 역전 연도별 감정의 추이 분석 과정 형태소 중 ‘감정어’ 만 남김 연도별 30위 감정어를 기준 각 감정이 차지하는 연도별 비중을 분석 연도별 감정의 추이 분석 내용 베스트셀러 판매순위 변동 추세선을 5가지로 군집화 분석 과정 2012년~2014년 총 3년 동안 각 연도별로 상위 50위 내 베스트셀러 목록 수집 도서 판매 추세선 군집화 2. 수집 데이터 분석 프로세스 데이터 수집 전략_ 이미 구축되어 있는 DB의 활용 데이터 변수_ 순위, 도서명 분석을 위한 수집 데이터 2. 시각화를 통한 인사이트 도출 시각화를 통한 인사이트 도출 3개년 도서 빅데이터 분석 _ 사람들의 생각과 심리 변화 시각화 1. 도서 생애주기(판매 순위 추세선) 유형화 PART 1. CONTENTS 도서 추세선 시각화 도서 생애주기 시각화 _나이테 도서 생애주기유형화 아기가 잘 먹는 이유식은 따로 있다 살아갈 날들을 위한 공부 미 비포 유 내가 사랑한 유럽 TOP10 나미야 잡화점의 기적 나는 까칠하게 살기로 했다 꾸뻬씨의 행복 여행 강신주의 감정수업 ETS TOEIC Test RC 공식실전서 1000 ETS TOEIC Test LC 공식실전서 1000 고구려4 고구려1 감사합니다 한국 가끔은 제정신 가까이 시간을 파는 상점 총, 균, 쇠 창문을 넘어 도망친 100세 노인 가장 낮은데서 피는 꽃 가시 고백 1 125 250 우리 버리 인생 행복 이루 현실 아프 배우 상처 그녀 성공 자신 도서 생애주기유형화 2006 JOY SURPRISE LOVE ANGRY 2007 2008 2009 2010 2011 2012 2013 2014 도서 생애주기유형화 사람들의 관심이 점점 증가하는 도서 사람들의 관심이 점점 감소하는 도서 사람들의 관심이 증대되었다가 다시 감소하는 도서 정확한 주기가 없는 도서 영어 학습 관련 도서 인사이트 고유한 시각화 프로세스 정립 연도별 키워드 추출 방법론 제시 기존 형태소 분석 방법론(워드클라우드)의 범위 확장 데이터에 기반한 객관적 형태소 분석 방법론 제시 프로젝트 의의 사람들의 심리와 마음을 파악하는 도구로서 베스트 셀러를 착안 연도별 도서 리뷰를 통해 사람들의 심리를 대변하는 키워드 발견 순위데이터, 리뷰데이터 형태소 데이터 의미있는 형태소 도출 박스플롯 시각화 시각화를 통한 인사이트 도출 9개년 도서 형태소 데이터 분석 데이터 수집 범위: 2006년~2014년 총 9년 동안의 리뷰 수집 데이터 내용: 수집한 베스트셀러의 리뷰를 형태소 단위로 분할 데이터 수집 전략: 해당 리뷰를 형태소 분석기로 분할 형태소의 연도 별 출현량 → 2006~2014년 형태소 추세 → 데이터 전처리 논리 (c) 2015 CC BY-NC-ND 2.0 본 정보시각화 결과물은 빅데이터 연합동아리 BOAZ에서 지영은 숙명여자대학교 경영학과 13, 모경현 서울과학기술대학교 산업공학과 10, 안주연 이화여자대학교 일반대학원 통계학과 14, 김유현 이화여자대학교 영상디자인과 11, 황채은 서울시립대학교 도시공학과 12이 진행하였습니다.

Upload: boaz-bigdata

Post on 07-Jan-2017

896 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: [시각화]도서 분석을 통한 사람들의 심리&마음 파악

Part 1. 3개년 도서 데이터를 통한 분석 가능성 판단

Part 2. 9개년 도서 빅데이터 분석

Part 3. 9개년 도서 빅데이터 분석

순위 데이터

2006년~2014년 총 9년 동안

각 연도별로 상위 50위 베스트셀러 목록 수집

데이터 변수: 순위/도서명

데이터 수집 전략: 이미 구축되어 있는 DB의 활용

온, 오프라인 통합 서점 점유율 1위 교보문고 → 도서의 순위 선정에 반영

온라인 서점 점유율 1위 yes 24 → 도서의 리뷰 추출에 반영

_ 베스트셀러 시각화

_ 연도별 키워드 형태소 추출

_ 사람들의 생각과 심리 변화 확인

_ 도서의 생애주기와 판매 추세선 군집들 확인

: 나이테를 통해 50위 내에 들었는지 여부를 나이테 형식으로 나타냄.

: 언제 베스트셀러 목록에 들어왔느냐에 따라 구분지어 나타냄.

9개년 도서 빅데이터 분석 – 베스트셀러 시각화

분석을 위한 수집 데이터

PART 2.

GOAL.

약 90만개의 형태소를 객관적으로 분석하는 프로세스

불용어(무의미한 형태소) 제거의 객관적 기준 마련

연도별 키워드 도출 :

해석사례 _ 상처라는 말에 이전보다

능동적으로 직면할 수 있게 됨

인사이트

2006년~2014년 총 9년 동안의 리뷰 수집

리뷰 데이터

데이터 내용: 2006년부터 2014년까지 각 연도별로

상위 50위 베스트 셀러 리뷰 수집

데이터 수집 전략: 해당 웹사이트에서

해당 도서의 리뷰를 모두 웹 크롤링

PART 3. 사람들의 생각과 심리 변화 파악

항상 가장 높은 위치를 차지하는 joy

항상 0의 값을 가지는 anger

2009년 love와 surprise의 위치가 역전

연도별 감정의 추이분석 과정

형태소 중 ‘감정어’ 만 남김

연도별 30위 감정어를 기준

각 감정이 차지하는 연도별 비중을 분석

연도별 감정의 추이 분석 내용

베스트셀러 판매순위 변동 추세선을 5가지로 군집화

분석 과정

2012년~2014년 총 3년 동안

각 연도별로 상위 50위 내 베스트셀러 목록 수집

도서 판매 추세선 군집화

2. 수집 데이터 분석 프로세스

데이터 수집 전략_ 이미 구축되어 있는 DB의 활용

데이터 변수_ 순위, 도서명

분석을 위한 수집 데이터

2. 시각화를 통한 인사이트 도출

시각화를 통한 인사이트 도출

3개년 도서 빅데이터 분석

_ 사람들의 생각과 심리 변화 시각화

1. 도서 생애주기(판매 순위 추세선) 유형화

PART 1.

CONTENTS

도서 추세선 시각화

도서 생애주기 시각화 _나이테

도서 생애주기유형화

아기가 잘 먹는 이유식은 따로 있다 살아갈 날들을 위한 공부 미 비포 유 내가 사랑한 유럽 TOP10 나미야 잡화점의 기적

나는 까칠하게 살기로 했다 꾸뻬씨의 행복 여행 강신주의 감정수업 ETS TOEIC Test RC 공식실전서 1000

ETS TOEIC Test LC 공식실전서 1000

고구려4 고구려1 감사합니다 한국

가끔은 제정신 가까이 시간을 파는 상점 총, 균, 쇠 창문을 넘어 도망친

100세 노인

가장 낮은데서 피는 꽃 가시 고백

1

125

250

우리 버리인생 행복 얻 이루 돈 죽현실아프배우 상처그녀 성공자신

도서 생애주기유형화

2006

JOY

SURPRISE

LOVE

ANGRY

2007

2008

2009

2010

2011

2012

2013

2014

도서 생애주기유형화

사람들의 관심이 점점 증가하는 도서

사람들의 관심이 점점 감소하는 도서

사람들의 관심이 증대되었다가 다시 감소하는 도서

정확한 주기가 없는 도서

영어 학습 관련 도서

인사이트

고유한 시각화 프로세스 정립

연도별 키워드 추출 방법론 제시

기존 형태소 분석 방법론(워드클라우드)의 범위 확장

데이터에 기반한 객관적 형태소 분석 방법론 제시

프로젝트 의의

사람들의 심리와 마음을 파악하는 도구로서

베스트 셀러를 착안

연도별 도서 리뷰를 통해

사람들의 심리를 대변하는 키워드 발견 순위데이터, 리뷰데이터

형태소 데이터

의미있는 형태소 도출

박스플롯 시각화

시각화를 통한 인사이트 도출

9개년 도서 형태소 데이터 분석

데이터 수집 범위: 2006년~2014년 총 9년 동안의 리뷰 수집

데이터 내용: 수집한 베스트셀러의 리뷰를 형태소 단위로 분할

데이터 수집 전략: 해당 리뷰를 형태소 분석기로 분할

형태소의 연도 별 출현량 → 2006~2014년 형태소 추세 → 데이터 전처리 논리

(c) 2015 CC BY-NC-ND 2.0 본 정보시각화 결과물은

빅데이터 연합동아리 BOAZ에서

지영은 숙명여자대학교 경영학과 13,

모경현 서울과학기술대학교 산업공학과 10,

안주연 이화여자대학교 일반대학원 통계학과 14,

김유현 이화여자대학교 영상디자인과 11,

황채은 서울시립대학교 도시공학과 12이 진행하였습니다.