an information gain approach to car sales forecasting using the...

35
An information gain approach to Car sales forecasting using the context of online consumer reviews 오상호, 김예진 2017-09-25 1

Upload: others

Post on 29-Jun-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

An information gain approach to Car sales forecasting using the context of

online consumer reviews

오상호, 김예진

2017-09-25

1

Page 2: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

• 프로젝트 목적➢ 3차년도 과제의 일환으로 Information Gain을 활용한 Product Sales Forecasting 타 산업군의

적용가능성 검토

• 프로세스

2

Car Sales Forecasting using Online Reviews

Task1.MarketAnalysis

Task2.Data

Collection

Task3.Review DataSpamfiltering

Task4.SentimentAnalysis

Task5.Information

Gain

Task6.Lasso

Regression

Task7.Result

Analysis

Data 수집 및 정리 Data 가공 및 분석 결과 도출

수행 기간: 2017년 5월 15일 ~ 8월 15일까지

Page 3: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task1. Market Analysis

1,403,165 1,375,152

1,453,806

1,578,475 1,588,573

2012 2013 2014 2015 2016

국산차 판매량(대수)

8.5% ▲ 0.6% ▲

• 국산차의 판매대수는 2014년 기준 2년간 9.2% 증가 → 시장의 규모 커짐

• 5년간 현대차의 내수시장 점유율 7.2%하락 → 경쟁이 치열해짐 →국산차와 수입차까지 파악 필요

• 2016년 개별소비세관련 정책 종료 → 시장의 성장률 하락 → 가격에 민감한 소비자층이 많음.

43.5

41.9

41.5

39.2

36.3

31.4

29.9

28.2

28.9

29.5

9.5

9.9

9.4

8.7

9.9

3.9

3.9

4.8

4.4

6.1

3.1

4.2

4.2

5.5

5.7

8.5

10.2

11.9

13.4

12.4

0 20 40 60 80 100

12년

13년

14년

15년

16년

12~16년도 국내 자동차시장 점유율

현대 기아 쉐보레 르노 쌍용 수입

➢ 목적

➢ 데이터 접근성을 파악하기 위한 사전 조사 및 데이터 수집 ( 15,16,17년도 데이터 수집가능)

Task1.MarketAnalysis

Task2.Data

Collection

Task3.Review DataSpamfiltering

Task4.SentimentAnalysis

Task5.Information

Gain

Task6.Lasso

Regression

Task7.Result

Analysis

Page 4: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task1. Market Analysis

0

20,000

40,000

60,000

80,000

100,000

15년도 브랜드별 월별 판매규모

현대 기아 쉐보레 쌍용 르노

• 데이터 취합 후 대략적인 트렌드 파악 및 선행 보고서 수집

• 4월, 6~7월, 12월이 대체로 판매량이 높음.

• 프로모션(할인금액,판촉)의 영향을 받아 판매량이 증가하는 달이 존재함. →월별로 데이터 수집

Task1.MarketAnalysis

Task2.Data

Collection

Task3.Review DataSpamfiltering

Task4.SentimentAnalysis

Task5.Information

Gain

Task6.Lasso

Regression

Task7.Result

Analysis

Page 5: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task2. Data Collection

5

Task1.MarketAnalysis

Task2.Data

Collection

Task3.Review DataSpamfiltering

Task4.SentimentAnalysis

Task5.Information

Gain

Task6.Lasso

Regression

Task7.Result

Analysis

➢ 목적

➢ 소비자의 감성, 제품에 대한 평가가 반영된 소비자 리뷰 data 수집

Description Type

리뷰 사이트 소비자가 제품에 대해 평가 글을 남기는 사이트인 Naver blog Text

리뷰 모델리스트 2015년 기준 국산차, 해외차 TOP5 브랜드의 TOP3 자동차모델 Text

리뷰 수집 기간 2015년 1월 ~ 2015년 12월 (12개월간)

자동차 Sales data 자동차 판매량

Data 현황

Page 6: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task3. Spam Filtering

6

Task1.MarketAnalysis

Task2.Data

Collection

Task3.Review DataSpamfiltering

Task4.SentimentAnalysis

Task5.Information

Gain

Task6.Lasso

Regression

Task7.Result

Analysis

➢ 목적

➢ Title 및 Tag의 스팸단어 포함 유무를 통해 수집된 리뷰를 가공

브랜드 BEFORE AFTER 브랜드 BEFORE AFTER

현대 117,720 9,414 BMW 53,236 5,539

기아 77,860 3,694 BENZ 27,244 3,127

쉐보레 29,358 2,898 AUDI 52,604 4,447

쌍용 20,823 2,784 VOLKSWAGEN 73,169 3,327

르노삼성 22,911 1,676 LEXUS 4,877 156

스팸 사전

Page 7: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task4. Sentiment Analysis

7

Task1.MarketAnalysis

Task2.Data

Collection

Task3.Review DataSpamfiltering

Task4.SentimentAnalysis

Task5.Information

Gain

Task6.Lasso

Regression

Task7.Result

Analysis

➢ 목적

➢ 소비자가 중요하게 생각하는 자동차의 Attribute 추출

• 자동차 회사 홈페이지에서 제공하는 차량기능정보를 정리 > Attribute 후보군으로 선정

1. Attribute 후보군 선정

색감 외형 출력

휠 인테리어 토크

변속기 트렁크 연비

배기량 센터콘솔 소음

연료종류 수납공간 속력

도어 프레임 가격

스티어링 제동시스템 브랜드

후방가이드라인 에어백 연비

선바이저 브레이크

시트 안전성

엔진

구매정보

스타일

성능(제원)

편의

디자인

공간

안전

<Attribute 후보군>

• Review에서 등장하는 명사를 추출하고, Frequency순으로 정리

• Attribute후보군에 해당하는 단어에 대해동의어 정리

2. Review의 명사추출 및 동의어정리

• Attribute의 Frequency 순위 1~9위 선정

3. Attribute 선정

Page 8: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task4. Sentiment Analysis

8

Task1.MarketAnalysis

Task2.Data

Collection

Task3.Review DataSpamfiltering

Task4.SentimentAnalysis

Task5.Information

Gain

Task6.Lasso

Regression

Task7.Result

Analysis

➢ 목적

➢ 소비자가 중요하게 생각하는 자동차의 Attribute 추출

• 자동차 회사 홈페이지에서 제공하는 차량기능정보를 정리 > Attribute 후보군으로 선정

1. Attribute 후보군 선정

• Review에서 등장하는 명사를 추출 후, Frequency순으로 정리

• Attribute후보군에 해당하는 단어에 대해동의어 정리

2. Review의 명사추출 및 동의어정리

• Attribute의 Frequency 순위 1~9위 선정

3. Attribute 선정

Word Frequency Word Frequency

1 차량 45989 11 가격 9396

2 현대 21169 12 인테리어 8937

3 디자인 19679 13 스파크 8607

4 모델 19008 14 디젤 7947

5 자동차 14967 15 사용 7883

6 사람 12115 16 쉐보레 7869

7 기아 11901 17 연비 7720

8 색감 11021 18 신형 7200

9 엔진 10208 19 국내 7056

10 사진 9562 20 시작 6147

<Review의 명사 Frequency>

단어 Frequency

Page 9: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task4. Sentiment Analysis

9

Task1.MarketAnalysis

Task2.Data

Collection

Task3.Review DataSpamfiltering

Task4.SentimentAnalysis

Task5.Information

Gain

Task6.Lasso

Regression

Task7.Result

Analysis

➢ 목적

➢ 소비자가 중요하게 생각하는 자동차의 Attribute 추출

• 자동차 회사 홈페이지에서 제공하는 차량기능정보를 정리 > Attribute 후보군으로 선정

1. Attribute 후보군 선정

• Review에서 등장하는 명사를 추출하고, Frequency순으로 정리

• Attribute후보군에 해당하는 단어에 대해동의어 정리

2. Review의 명사추출 및 동의어정리

• Attribute의 Frequency 순위 1~9위 선정

3. Attribute 선정

Word Synonym

색감색, 차량색상, 차량색깔, Color, 검정색, 화이트, 레드,블랙, 블루

가격 Price, 금액

연비 연비효율, 최고연비, 평균연비, 실연비, 공인연비

브랜드 차량브랜드, 제조회사, Brand

속도 가속도, 빠르기, 고속도, 저속, 고속도, 최고속도

안전 주행안전감, 안전도, 안전성과, 안전성, 안전사양

출력 최대출력, 최고출력, 고출력, 엔진출력

시트 카시트

외관 외형, 외관상, 외부, 익스테리어

인테리어 실내인테리어, 내부인테리어, 실내, 실내공간, 차량내부

<Attribute의 동의어>

Page 10: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task4. Sentiment Analysis

10

Task1.MarketAnalysis

Task2.Data

Collection

Task3.Review DataSpamfiltering

Task4.SentimentAnalysis

Task5.Information

Gain

Task6.Lasso

Regression

Task7.Result

Analysis

➢ 목적

➢ 소비자가 중요하게 생각하는 자동차의 Attribute 추출

• 자동차 회사 홈페이지에서 제공하는 차량기능정보를 정리 > Attribute 후보군으로 선정

1. Attribute 후보군 선정

• Review에서 등장하는 명사를 추출하고, Frequency순으로 정리

• Attribute후보군에 해당하는 단어에 대해동의어 정리

2. Review의 명사추출 및 동의어정리

• Attribute의 Frequency 순위 1~9위 선정

3. Attribute 선정

Attribute

후보군

Review의

명사

Frequency

색감, 브랜드, 안전, 출력, 연비속도, 외형, 인테리어, 가격 Word

Defimition

Page 11: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task4. Sentiment Analysis

11

Task1.MarketAnalysis

Task2.Data

Collection

Task3.Review DataSpamfiltering

Task4.SentimentAnalysis

Task5.Information

Gain

Task6.Lasso

Regression

Task7.Result

Analysis

선정한 Attribute에 대한 정의

Attribute 정의

1 색감 차량의 색상, 색에서 받는 느낌

2 브랜드 제품의 제조회사

3 안전 제품의 안전도평가지수

4 출력 제품의 최고출력

5 연비 제품의 km당 연비소모량

6 속도 제품의 최고 속도

7 가격 해당 자동차의 판매가격

8 외형 차량 외관의 길이

9 인테리어 차량 내부의 폭

Page 12: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task4-1. Sentiment scoring for Online reviews

12

Task1.MarketAnalysis

Task2.Data

Collection

Task3.Review DataSpamfiltering

Task4.SentimentAnalysis

Task5.Information

Gain

Task6.Lasso

Regression

Task7.Result

Analysis

Sentiment Analysis 정리

• Valence of online review

형용사, 명사, 동사의 Sentiment library의 기반 Scoring

*library는 리뷰를 기반으로 만듦

𝑊𝑜𝑟𝑑𝑠𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 → 1 ,𝑊𝑜𝑟𝑑𝑠𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 → −1

단어의 앞 또는 뒤에 부정 어휘(ex. 안,않,없,못)가 있을 경우, 단어 점수에 ‘-1’을 곱함

Example

‘안 좋다’ = ‘안(-1) x 좋다(+1)= -1

𝑅𝑒𝑣𝑒𝑖𝑤 𝑉𝑎𝑙𝑒𝑛𝑐𝑒 𝑆𝑐𝑜𝑟𝑒 = 𝑊𝑜𝑟𝑑𝑠𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 +𝑊𝑜𝑟𝑑𝑠𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒

• 한 리뷰안에 sentiment 기반의 scoring을 sum하여 리뷰의 스코어를 계산함

• Supported online review

𝑂𝑛𝑙𝑖𝑛𝑒 𝑐𝑜𝑛𝑠𝑢𝑚𝑒𝑟 𝑟𝑒𝑣𝑒𝑖𝑤 = ቊ𝑠1: 𝑖𝑓 𝑛𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 > 0, 𝑆𝑢𝑝𝑝𝑜𝑟𝑡𝑒𝑑 𝑟𝑒𝑣𝑖𝑒𝑤𝑠2: 𝑖𝑓 𝑛𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 = 0, 𝑁𝑜𝑡 𝑠𝑢𝑝𝑝𝑜𝑟𝑡𝑒𝑑 𝑟𝑒𝑣𝑖𝑒𝑤

Page 13: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task4-2. Find Valence Threshold

➢ 목적

➢ Sentiment Score를 통해 리뷰의 긍정/부정을 구분하기 위함

➢ 방법

➢ 총 리뷰 20,858개 중 샘플 1%(209개)를 랜덤 추출함

➢ 연구원 3명이 직접읽고 긍정,부정을 구분함

➢ 구분된 샘플을 기준으로 Accuracy, Sensitivity, Specificity, Cover rate를이용하여 검증

➢ 제한

➢ Accuracy, Sensitivity, Specificity≥ 0.75 보다 큰 threshold 값을 대상

➢ 𝐶𝑜𝑣𝑒𝑟 𝑟𝑎𝑡𝑒가 가장 높은 threshold 값을 찾음

13

Page 14: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task4-2. Find Valence Threshold

14

(0, 5) (0, 6) (0, 7) (-1, 5) (-2, 5)

ACC 0.8 0.82 0.8 0.84 0.88

Sensitivity 0.82 0.8 0.76 0.89 0.94

Specificity 0.77 0.78 0.84 0.81 0.83

ACC_cover 0.45 0.41 0.49 0.36 0.38

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

ACC

Sensitivity

Specificity

ACC_cover

➢ 위 그림과 같이 다양한 valence threshold 값을 고려함➢ Valence threshold 값을 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒

∗ , 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒∗ = (0, 7)로 설정

➢ 설정된 valence threshold 값을 통해 Review valence는 아래 식과 같이 표현

𝑅𝑒𝑣𝑖𝑒𝑤 𝑣𝑎𝑙𝑒𝑛𝑐𝑒 ቊ𝐼𝑓 𝑅𝑒𝑣𝑖𝑒𝑤 𝑣𝑎𝑙𝑒𝑛𝑐𝑒 𝑠𝑐𝑜𝑟𝑒 ≥ 7 , 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑟𝑒𝑣𝑖𝑒𝑤𝐼𝑓 𝑅𝑒𝑣𝑖𝑒𝑤 𝑣𝑎𝑙𝑒𝑛𝑐𝑒 𝑠𝑐𝑜𝑟𝑒 ≤ 0 , 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 𝑟𝑒𝑣𝑖𝑒𝑤

Page 15: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task5. Information Gain

15

Task1.MarketAnalysis

Task2.Data

Collection

Task3.Review DataSpamfiltering

Task4.SentimentAnalysis

Task5.Information

Gain

Task6.Lasso

Regression

Task7.Result

Analysis

➢ 목적

리뷰를 두개의 set으로 구분하여 𝑅𝑒𝑣𝑖𝑒𝑤가 𝑠1, 𝑠2로 나눠지는데 영향을 미치는 제품 속성 명사의 정도

를 수치화

➢ 진행

➢ 해당 월에 Review가 존재하지 않는 차종은 삭제 후 진행.

➢ 국산차 (올란도, 코란도, 코란도 스포츠, 티볼리, SM3 삭제) -> 10개의 차종으로 진행

➢ 수입차 (LEXUS ES, LEXUS CT, LEXUS NX 삭제) -> 12개 차종으로 진행

Information Gain

𝑆𝑒𝑡

𝐶𝑟𝑖𝑡𝑒𝑟𝑖𝑎

𝑠1 𝑠2

𝑆𝑢𝑝𝑝𝑜𝑟𝑡 𝑆𝑢𝑝𝑝𝑜𝑟𝑡𝑒𝑑 𝑟𝑒𝑣𝑒𝑖𝑤𝑠 𝑁𝑜𝑡 𝑠𝑢𝑝𝑝𝑜𝑟𝑡𝑒𝑑 𝑟𝑒𝑣𝑖𝑒𝑤𝑠

𝑉𝑎𝑙𝑒𝑛𝑐𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑟𝑒𝑣𝑒𝑖𝑤𝑠 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 𝑟𝑒𝑣𝑒𝑖𝑤𝑠

Page 16: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task6. Multiple Linear Regression

16

Task1.MarketAnalysis

Task2.Data

Collection

Task3.Review DataSpamfiltering

Task4.SentimentAnalysis

Task5.Information

Gain

Task6.Lasso

Regression

Task7.Result

Analysis

➢ 목적

➢ 다중선형회귀모델은 판매량에 대한 독립변수들의 유의한 영향력을 파악

➢ 이를 통해 판매량예측을 하기 위해 사용

➢ 예측모델을 위한 다중선형회귀식

BaseLine Base-attri Model1 Model2 Model3 Model4 Model5 Model6 Model7 Model8 Model9 Model10

Attribute O O O O O O

Support O O O O O O O O

N_Support O O O O O O

Positive O O O O O O

Negative O O O O O O

➢ 총 12개의 모델 선정

Page 17: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task6. Multiple Linear Regression

17

Task1.MarketAnalysis

Task2.Data

Collection

Task3.Review DataSpamfiltering

Task4.SentimentAnalysis

Task5.Information

Gain

Task6.Lasso

Regression

Task7.Result

Analysis

➢ 목적

➢ 다중선형회귀모델은 판매량에 대한 독립변수들의 유의한 영향력을 파악

➢ 이를 통해 판매량예측을 하기 위해 사용

➢ 예측모델을 위한 다중선형회귀식

Information Gain

Page 18: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task7. Model Estimation & Selection

18

Task1.MarketAnalysis

Task2.Data

Collection

Task3.Review DataSpamfiltering

Task4.SentimentAnalysis

Task5.Information

Gain

Task6.Lasso

Regression

Task7.Result

Analysis

➢ 목적

➢ 수요예측 모델의 성능 비교

➢ 검증지표

➢ Mean absolute percentage error(MAPE) - 작은오차에 민감함➢ Root Mean Square Error(RMSE) – 큰오차에 민감함➢ Correlation - 상관관계

➢ 위의 3가지 지표를 통해 가장 판매량 예측력이 높은 모델을 찾음.➢ 판매량 예측에 목적이 있기 때문에 학습에 대한 지표(Adjusted R-squared)보다예측에 대한 지표(MAPE, RMSE, Correlation)가 가장 높은 Model을 최적 예측 모형으로 선택함.

Page 19: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task7. Model Estimation & Selection

19

Model MAPE RMSE CorrelationAdjusted

R-squared

BaseLine 9.77 0.09 0.718 0.912 Baseline - Attri 8.64 0.08 0.693 0.552

Model1 7.20 0.07 0.824 0.891 Model2 6.45 0.06 0.855 0.910 Model3 6.80 0.06 0.836 0.878 Model4 6.48 0.06 0.843 0.882 Model5 6.48 0.06 0.853 0.897 Model6 10.86 0.11 0.651 0.907 Model7 8.52 0.08 0.755 0.935 Model8 9.35 0.09 0.740 0.920 Model9 9.77 0.10 0.679 0.909

Model10 9.23 0.09 0.697 0.914

• Model 2가 모든 지표의 관점에서 가장 뛰어남• Baseline – atrri Model은 MAPE, RMSE 부분에서 Baseline Model 보단 뛰어나나,

Correlation과 Adjusted R2부분에서는 뒤쳐짐

Page 20: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task7-1. Performance validation

20

Task1.MarketAnalysis

Task2.Data

Collection

Task3.Review DataSpamfiltering

Task4.SentimentAnalysis

Task5.Information

Gain

Task6.Lasso

Regression

Task7.Result

Analysis

➢ 목적

➢ 선택된 예측모델의 성능 검증 (Model 2)

➢ 결과

➢ 다음 장의 그래프의 점은 13week x 22 product = 286개의 예측 값임.

➢ 그림과 같이 information gain을 고려한 Model2의 Actual sales에 대한 오차가 Model_baseline보

다 작은 것을 볼 수 있음.

➢ 판매량이 상대적으로 낮은 경우를 제외하고는 예측 값이 Actual sales에 더욱 가까운 것을 알 수

있음.

Information Gain

Page 21: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

ln(C

um

ula

tive

Sale

s)

Number of data

4

5

6

7

8

9

10

11

12

13

0 50 100 150 200 250 300

Actual Model3 Model8

Page 22: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

ln(C

um

ula

tive

Sale

s)

Number of data

4

5

6

7

8

9

10

11

12

13

0 50 100 150 200 250 300

Actual Model2 Model7

Page 23: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task7-2. Significant variables

23

Task1.MarketAnalysis

Task2.Data

Collection

Task3.Review DataSpamfiltering

Task4.SentimentAnalysis

Task5.Information

Gain

Task6.Lasso

Regression

Task7.Result

Analysis

➢ 목적

➢ 예측모델에서 추출된 주요 회귀계수 값을 통하여 소비자가 관심을 가지는 속성을 파악

➢ 결과

➢ Model2의 𝑎𝐺𝑎𝑖𝑛에 대한 분석 domain은 Positive/Negative reviews임.

➢ 대표적으로 유의한 변수들로는 𝑎𝐺𝑎𝑖𝑛,(𝑡−1)𝐵𝑟𝑎𝑛𝑑 , 𝑎𝐺𝑎𝑖𝑛,(𝑡−1)

𝐸𝑥𝑡𝑒𝑟𝑖𝑜𝑟 을 볼 수 있음.

➢ 𝑎𝐺𝑎𝑖𝑛,(𝑡−1)𝐸𝑥𝑡𝑒𝑟𝑖𝑜𝑟 의 회귀계수 값은 -3.5244로 negative significant value로 추정됨. 계수가 값이 음수로

표현된 것은 제품 구매 시, 제품 속성 exterior가 부정적으로 언급될수록 판매량에 부정적인 영향

을 미친다는 것임.

➢ 𝑎𝐺𝑎𝑖𝑛,(𝑡−2)𝐵𝑟𝑎𝑛𝑑 가 회귀계수 값 9.0997로 positive significant value로 추정되었다. 회귀계수 값이 양수이

므로 제품 속성 Brand에 대해 소비자들의 긍정적 언급이 많을수록 판매량에 긍정적인 영향을 미

치는 것을 알 수 있다.

Information Gain

Page 24: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Task7-2. Significant variables

24

Parameter Coefficient ParameterGain

domainParameter

Gain domain

ParameterGain

domain

𝐼𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡 𝑎0 6.956628 𝑎𝑉𝑜𝑙𝑘𝑠𝑤𝑎𝑔𝑒𝑛𝐵𝑟𝑎𝑛𝑑 -0.307468

𝑎𝐺𝑎𝑖𝑛,(𝑡−1)𝑆𝑎𝑓𝑒𝑡𝑦

2.641940 𝑎𝐺𝑎𝑖𝑛,(𝑡−2)𝑆𝑎𝑓𝑒𝑡𝑦

3.456708

𝑎𝑇𝑖𝑚𝑒 0.160411 𝑎𝑅𝑒𝑣𝑖𝑒𝑤,(𝑡−1)𝑉𝑜𝑙𝑢𝑚𝑒 0.002225

𝑎𝐺𝑎𝑖𝑛,(𝑡−1)𝑃𝑜𝑤𝑒𝑟

4.117789 𝑎𝐺𝑎𝑖𝑛,(𝑡−2)𝑃𝑜𝑤𝑒𝑟

2.065483

𝑎𝐻𝑦𝑢𝑛𝑑𝑎𝑖𝐵𝑟𝑎𝑛𝑑 1.709017 𝑎𝑅𝑒𝑣𝑖𝑒𝑤,(𝑡−2)

𝑉𝑜𝑙𝑢𝑚𝑒 0.052004 𝑎𝐺𝑎𝑖𝑛,(𝑡−1)𝐹𝑢𝑒𝑙𝐸𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑦

0.573618 𝑎𝐺𝑎𝑖𝑛,(𝑡−2)𝐹𝑢𝑒𝑙𝐸𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑦

0.609786

𝑎𝐾𝑖𝑎𝐵𝑟𝑎𝑛𝑑 1.639108 𝑎𝑅𝑒𝑣𝑖𝑒𝑤,(𝑡−1)

𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑉𝑎𝑙𝑒𝑛𝑐𝑒 -0.002474 𝑎𝐺𝑎𝑖𝑛,(𝑡−1)𝑆𝑝𝑒𝑒𝑑

1.438796 𝑎𝐺𝑎𝑖𝑛,(𝑡−2)𝑆𝑝𝑒𝑒𝑑

8.723414

𝑎𝐶ℎ𝑒𝑣𝑟𝑜𝑙𝑒𝑡𝐵𝑟𝑎𝑛𝑑 0.788870 𝑎𝑅𝑒𝑣𝑖𝑒𝑤,(𝑡−1)

𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 𝑉𝑎𝑙𝑒𝑛𝑐𝑒 0.020826 𝑎𝐺𝑎𝑖𝑛,(𝑡−1)𝑃𝑟𝑖𝑐𝑒

0.000000 𝑎𝐺𝑎𝑖𝑛,(𝑡−2)𝑃𝑟𝑖𝑐𝑒

-2.519821

𝑎𝑅𝑒𝑛𝑎𝑢𝑙𝑡𝐵𝑟𝑎𝑛𝑑 0.508206 𝑎𝑅𝑒𝑣𝑖𝑒𝑤,(𝑡−2)

𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑉𝑎𝑙𝑒𝑛𝑐𝑒 0.000000 𝒂𝑮𝒂𝒊𝒏,(𝒕−𝟏)𝑬𝒙𝒕𝒆𝒓𝒊𝒐𝒓

-3.524367 𝑎𝐺𝑎𝑖𝑛,(𝑡−2)𝐸𝑥𝑡𝑒𝑟𝑖𝑜𝑟

-1.503867

𝑎𝐵𝑀𝑊𝐵𝑟𝑎𝑛𝑑 -0.601434 𝑎𝑅𝑒𝑣𝑖𝑒𝑤,(𝑡−2)

𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 𝑉𝑎𝑙𝑒𝑛𝑐𝑒 0.000000 𝑎𝐺𝑎𝑖𝑛,(𝑡−1)𝐼𝑛𝑡𝑒𝑟𝑖𝑜𝑟

-2.729619 𝒂𝑮𝒂𝒊𝒏,(𝒕−𝟐)𝑰𝒏𝒕𝒆𝒓𝒊𝒐𝒓

-2.647452

𝑎𝐵𝑒𝑛𝑧𝐵𝑟𝑎𝑛𝑑 -0.073345 𝑎𝐺𝑎𝑖𝑛,(𝑡−1)

𝐶𝑜𝑙𝑜𝑟 1.286723 𝑎𝐺𝑎𝑖𝑛,(𝑡−2)𝐶𝑜𝑙𝑜𝑟

2.464139

𝑎𝐴𝑢𝑑𝑖𝐵𝑟𝑎𝑛𝑑 -0.557362

𝑎𝐺𝑎𝑖𝑛,(𝑡−1)𝐵𝑟𝑎𝑛𝑑

6.479266 𝒂𝑮𝒂𝒊𝒏,(𝒕−𝟐)𝑩𝒓𝒂𝒏𝒅

9.099796

Page 25: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Future works

• Model 1-5와 Model 6-10의 결과 설명

– Attribute가 추가되면 결과값이 더 좋지 않은 것에 대한 근거 탐색

• Baseline – attri Model에서 낮은 Correlation 과 R-squared 수치

• Significant variable의 추가 근거

– 회귀분석에서 coefficient 값이 크다고 과연 좋은 것인가에 대한 설명

25

Page 26: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

APPENDIX

26

Page 27: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Appendix – Crawling data 수집 현황

27

브랜드 모델명 차종 검색어Crawling개수

합계

현대

소나타 중형 현대 소나타 | YF | LF 28,984

117,720그랜저 준대형 현대 그랜저 | IG | HG 47,616

아반떼 준중형 현대 아반떼 | MD | AD 41,120

기아

더 뉴 모닝 경차 기아 모닝 | TA 20,628

77,860올 뉴 쏘렌토 중형SUV 기아 쏘렌토 | UM 26,026

올 뉴 카니발 대형MPV 기아 카니발 | YP 31,206

쉐보레

스파크 경차 쉐보레 스파크 | M300 | M400 14,957

29,358올란도 소형MPV 쉐보레 올란도 | J309 3,383

말리부 중형 쉐보레 말리부 | V300 | V400 11,018

쌍용

티볼리 소형SUV 쌍용 티볼리 | X100 10,193

20,823코란도스포츠 밴 쌍용 코란도스포츠 | Q150 2,309

뉴코란도C 소형SUV 쌍용 코란도C | C200 8,321

르노삼성

QM3 소형SUV 르노삼성 QM3 4,922

22,911SM3 준중형 르노삼성 SM3 | L38 7,079

SM5 중형 르노삼성 SM5 | L43 10,910

Page 28: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Appendix - Spam filtering 사전

28

단어군 관련단어총개수

타이틀(Title)

중고매물, 무사고, 엔카, 중고차매매, 인천중고차, 부천중고차, 강남매매단지, 매매단지, 실매물, 중고차시세, 중고차가격, 뷰카, 올레카, 팝니다, 판매완료, 허위매물, 114, 싼곳, 1등, 무사고, 중고차매입, 100%, 실키로수, 팔아요, 판매완료, 보험수리

26

금융 및 보험프로모션, 할인, 가격, 견적비교, 최저가, 최저가제시, 리스견적, 판매, 시세, 직거래, 견적서, 리스, 할인내역, 비용, 매매, 특가세일, 공동구매, 최고가, 시세표, 할부, 금리, 신용할부, 한도, 상담, 출장문의, 만원, 보증, 전액할부, 중고시세, 개별소비세, 비교견적, 특판, 반값, 금액, 거래장터, 원가절감, 무상보증, 비용확인, 보험수리, 자차보험료, 보험대차, 사고시, 사고, 실손의료보험, 안심옵션

45

자동차수리및튜닝

브이쿨썬팅, 시공, 시공점, 듀얼폴리싱, 유리막코팅, 광택, 중고부품, 수입차중고부품, 트위터, 오디오, 텐셔닝세트, 후미등, 에어매틱, 경고등, 수리, 가죽시트, 교체, 교환, 이태리정품휠, 정품, 블랙박스, 트윈듀얼, 배터리, 튜닝작업, 튜닝, 장착, 스피커, 휠복원, 엔진오링교환, 머플러, 금호타이어, 커스텀, 루마썬팅, 순정, 한국타이어, 네비게이션, 내비게이션, 네비매립, 브이쿨, V-KOOL, 틴팅, 썬팅, 헤드라이트복원, 범퍼이식, 교체장착, 얼라이먼트, 판금도색, 카본필름, 방음, 튜닝샵, 얼룩제거, 열쇠제작, 매트, 핸들, 타이밍벨트, 도색, 유리, 루프스킨, 광각미러, 밧데리, 문콕, 정비마을, 언더코팅, 무료출장, 출장수리, 락해제, 복원, 전문점, 배터리출장, 서브우퍼, 순정휠, 복원작업, 순정타이어, 순정부품, 장착전문, 매장교체, 휠창고, 카스킨, LED, 기어봉, 루프스킨, 루프박스, 엔진오일, 덴트복원, 하이패스

85

렌트 장기렌트카, 렌트카, 렌터카, 대차서비스, 수입차렌트, 장기렌트, 장기리스, 장기랜트, 렌트견적, 리스견적 10

기타

시계, 매거진, 배출가스, 뻥연비, 수입차판매순위, 전쟁, 자동차상식, 공개, 마이서비스, 배송정보, 영화, 주택시장, 보청기, 뺑소니, 면도, 촬영, 도어락, 자전거캐리어, 리콜, 키분실, 키제작, 렌더링, 지킬, 오일웍스, 자소서, 판매순위, 지킬, 오일웍스, 자소서, 뉴스, 인치, 제원비교, 이효리, 연예인, 1등, 현황, 포이보스, 레이싱모델, 리콜현황, 잠금해제, 항공기, 렌더링, 골프, 브랜드별, 원격시동경보기, 신차수출알바, 벤치마킹, 안전도, 와일드카드, 순위, 판매량, 엑추타입, 인치, 자동문, 포인트카, 방문키, 아우토디테일러, 남아프리카, 청음, 데일리환경, 출고기간, 신차검수, 싸게파는곳, 저렴한곳, 이벤트, 스페셜경제, 렌더링

67

태그(Tag)

중고#가격, #제원, #연비, #중고차판매, #중고차수출, #중고차수출업체추천, #부천중고차, #인천중고차, #일산중고차, #부천자동차매매단지, #인천중고차매매단지, #부천중고차딜러, #수입중고차, #송내중고차, #lpi중고차, #lpg중고차, #중고차매매, #경매, #중고차시세, #최고가, #싼곳, #허위매물, #거래중개소, #거래소, #중고차딜러, #딜러아카데미, #중고차추천, #중고차가격보기, #매매단지, #자동차매매, #자동차아카데미, #자동차세일즈, #전문딜러, #허위매물, #실키로수

35

금융 및 보험#할인, #리스, #할부, #딜러, #신차할인, #최저가, #판매조건, #할인조건, #구매혜택, #가격, #원가절감, #친절상담, #상담문의, #안심보장, #안심옵션, #판매점, #저렴한곳, #싼곳, #시세, #자차보험료, #사고대차, #보험대차, #자동차보험, #사고견적

24

자동차수리및튜닝

- #분당썬팅, #분당브이쿨, #브이쿨썬팅, #아트웍스, #중랑구광택, #랜드로버, #랜드로버광택, #중고자동차부품, #자동차부품, #수입차중고부품, #CJ모터스, #C모터스, #자동차튜닝, #자동차스피커, #스피커튜닝, #카오디오, #오디오튜닝, #사운드24, #PHASS, #부산벤츠수리, #벤츠수리, #벤츠정비, #판금도색, #덴트, #수입차정비, #국산차정비, #벤츠c클래스오일교환, #벤츠오일교환, #오스람HID, #D2R, #4200K, #자동차램프, #순정HID, #전주블랙박스, #전주벤츠블랙박스, #벤츠라이트, #벤츠스포일러, #벤츠데일라이트, #벤츠신형개조, #벤츠악세사리, #벤츠튜닝, #벤츠범퍼, #벤츠머플러, #벤츠일루미네이티드, #델코밧데리, #로케트밧데리, #수입차밧데리, #무료출장방문, #볼보, #포르쉐, #링컨컨티넨탈MKS, #카오디오, #전주라이트, #썬팅, #블랙박스, #코팅, #광택, #유리막, #와이퍼교체, #문콕, #도색, #시공, #필름, #랩핑, #썬팅, #커스텀, #튜닝, #휠, #타이어, #언더코팅, #수리전문, #랩핑, #전문점, #교체전문, #LED, #실내크리닝, #썬루프, #교환점, #손세차, #룸미러, #룸미러장착, #룸미러배선, #스팀세차, #열쇠집, #전체도색, #정비, #게이트맨수리, #순정, #장착전문, #디스크연마, #루프박스, #방음, #엔진룬방음, #루프스킨, #후방센서, #후방감지기, #잘하는곳, #범퍼교환, #썬루프고장, #루프수리, #와이퍼, #점검, #하체보강, #AS, #카센타, #범퍼복원, #매립, #수입차정비, #리플렉터, #취급점, #타이어프로, #자동차키제작, #타이어교체, #카뷰티, #하이패스, #네비게이션, #내비게이션, #네비매립, #네비게이션매립, #합성유, #엔진오일, #실내등사이즈, #테일램프, #파인드라이브, #밧데리, #배터리, #판금, #잔유제거, #합성유세척, #향균필터, #교체, #덴트복원, #브레이크액, #오일교환

135

렌트 #장기렌트카, #대차서비스, #수입차렌트, #국산차장기렌트, #법인장기렌트, #법인차량리스, #오토리스, #자동차리스, #렌트 9

기타

#벤츠안경테, #벤츠안경, #아이스웰안경원, #서울역안경원, #보청기, #차키제작, #비엔티엔, #취준생, #공채준비, #과식, #다이어트, #예술, #세계여행, #대리, #과장, #경매장, #패션, #명품신발, #감성구두, #온천, #판금도장, #홍보, #동호회, #아이나비, #사랑방, #레이싱모델, #인치, #차검수, #제원, #임재범, #실장, #차장, #팀장, #이지카경보기신제품, #랜트교육, #비디오폰, #인터폰, #미니굴삭기, #안전도평가, #방진, #에어크리너, #신차관리, #클린디젤마케팅연구소, #모텔, #단독주택, #오피스텔, #아파트, #빌라, #연비절약방법, #방음방법, #연료절감장치, #친구생일선물, #지인선물, #차량용어, #광고음악, #광고팝송, #임대아파트, #스토키사고, #공업사

59

총 합계 495

Page 29: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Appendix – Frequency

29

▶ Attribute의 Frequency 순위 9위(출력)과 10위(트렁크)의 발생빈도가1000번 이상 차이발생→ 상위 9위로 결정

Word Frequency Word Frequency Word Frequency

1 차량 45989 31 아반떼 4438 61 운전 3106

2 현대 21169 32 시승 4383 62 버튼 3105

3 디자인 19679 33 하이브리드 4374 63 이미지 3092

4 모델 19008 34 장착 4355 64 이후 3046

5 자동차 14967 35 속도 4257 65 구매 3041

6 사람 12115 36 공간 4165 66 변화 3009

7 기아 11901 37 기능 4096 67 위치 3000

8 색감 11021 38 외관 4086 68 중국 2953

9 엔진 10208 39 터보 3988 69 기술 2815

10 사진 9562 40 포스팅 3959 70 설명 2750

11 가격 9396 41 이야기 3915 71 소비자 2745

12 인테리어 8937 42 고객 3857 72 사랑 2711

13 스파크 8607 43 한국 3809 73 우리나라 2694

14 디젤 7947 44 가솔린 3800 74 서울 2653

15 사용 7883 45 SUV 3719 75 전시 2646

16 쉐보레 7869 46 성능 3712 76 의미 2645

17 연비 7720 47 관심 3689 77 회사 2635

18 신형 7200 48 인기 3653 78 만족 2626

19 국내 7056 49 보고 3602 79 공개 2621

20 시작 6147 50 안전 3582 80 작업 2563

21 티볼리 6062 51 모터쇼 3580 81 BMW 2547

22 쌍용 5845 52 확인 3558 82 수준 2543

23 시장 5382 53 미국 3521 83 깔끔 2536

24 브랜드 5369 54 쏘나타 3486 84 예정 2523

25 판매 5097 55 출력 3409 85 이용 2503

26 주행 4854 56 비교 3347 86 힘 2502

27 문제 4727 57 평가 3274 88 소나타 2470

28 시간 4688 58 제품 3255 89 트렁크 2459

29 옵션 4561 59 차종 3190 90 카니발 2456

30 경차 4480 60 느낌 3127 91 집 2451

Page 30: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Appendix – Word Definition

30

Word Definition

색감 제품의 색상, 색에서 받는 느낌

브랜드 제품의 제조회사

안전 제품의 안전도평가지수 (100점만점)

출력 제품의 최고출력 (ps)

연비 제품의 km당 연료소모량 (km/l)

속도 제품의 최고속도 (km/h)

가격 제품의 판매가격 (홈페이지기준)

외형 제품의 외관 & 제품의 전장 (mm)

인테리어 제품의 내부공간 & 제품의 축거 (mm)

Page 31: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Appendix – Sentiment Analysis 결과

31

Color Brand Safety PowerFuel

EfficiencySpeed CarSeat Exterior Interior LIKE

Senti_Rev

eiwScoreWrite.Day Released ManufactureProductProduct2 URL Title

0 0 0 0 5 0 0 0 0 0 2 201501 201501 KIA 모닝 기아 모닝 or TA http://blog.naver.com/nandeasoo?Redirect=Log&logNo=220226755341&from=section쉐포레 스파크(LPG) 수동 연비.

0 1 0 0 0 0 0 0 0 1 2 201501 201501 KIA 모닝 기아 모닝 or TA http://blog.naver.com/77gjvt?Redirect=Log&logNo=220226910557&from=section신년맞이 복권!

0 1 0 0 0 0 0 0 0 0 2 201501 201501 KIA 모닝 기아 모닝 or TA http://blog.naver.com/jgw0992?Redirect=Log&logNo=220235922458&from=section삼둥이달력 /꽃다발 /용봉동 고봉민김밥 /엘사인형 / 용봉동 기아자동차서비스센터

0 0 0 1 0 0 0 0 1 0 12 201501 201501 KIA 모닝 기아 모닝 or TA http://blog.naver.com/bridgenews?Redirect=Log&logNo=220236445044&from=section기아차, 경차 모닝에 터보 달았다

0 0 0 0 1 0 0 0 0 0 5 201501 201501 KIA 모닝 기아 모닝 or TA http://blog.naver.com/ksc5381?Redirect=Log&logNo=220236883130&from=section더모닝 TCI 출시!

0 0 0 0 0 0 1 0 2 45 5 201501 201501 KIA 모닝 기아 모닝 or TA http://blog.naver.com/mines3838?Redirect=Log&logNo=220236521008&from=section[레이 자동차 꾸미기]마이 레이 소개할께용^^

0 0 1 1 2 0 2 0 1 32 17 201501 201501 KIA 모닝 기아 모닝 or TA http://blog.naver.com/japchodh?Redirect=Log&logNo=220236977492&from=section2015 더뉴모닝 신차발표회 다녀왔어요~

0 1 0 0 0 0 1 0 1 5 -3 201501 201501 KIA 모닝 기아 모닝 or TA http://johnsweek.net/220238177640[쉐보레] 2015 트랙스(Trax) 타 보는 중~

0 1 0 1 2 0 0 0 0 0 10 201501 201501 KIA 모닝 기아 모닝 or TA http://blog.naver.com/michel_mg?Redirect=Log&logNo=220237915531&from=sectionKIA The New Morning(더뉴 모닝)

0 0 0 0 1 0 0 0 0 0 7 201501 201501 KIA 모닝 기아 모닝 or TA http://blog.naver.com/wskfuelbuddy?Redirect=Log&logNo=220237920809&from=section경차 수요 급증

0 0 0 0 1 1 0 0 0 5 9 201501 201501 KIA 모닝 기아 모닝 or TA http://blog.naver.com/soppalla?Redirect=Log&logNo=220237696420&from=section중장년층 경차 수요 급증 이렇게 많은혜택이~~ ^^

0 0 1 0 3 0 0 0 0 2 0 201501 201501 KIA 모닝 기아 모닝 or TA http://blog.naver.com/eornjs623?Redirect=Log&logNo=220237884535&from=section중장년층 경차 수요 급증 포스팅 해봤어요~

0 0 1 1 1 0 7 0 5 36 38 201501 201501 KIA 모닝 기아 모닝 or TA http://blog.naver.com/dlquddb3?Redirect=Log&logNo=220237528647&from=section기아 더 뉴 모닝 착석기!!!!

0 0 0 1 0 0 0 0 2 0 12 201501 201501 KIA 모닝 기아 모닝 or TA http://niggalar4898.blog.me/220238492618경차의 변화는 무죄! 선두주자인 모닝....

0 1 0 0 0 0 0 0 0 1 1 201501 201501 KIA 모닝 기아 모닝 or TA http://blog.naver.com/ogc3840?Redirect=Log&logNo=220239234167&from=section기아 모닝의 맞수..쉐보레 스파크

0 1 0 0 0 0 0 0 0 0 3 201501 201501 KIA 모닝 기아 모닝 or TA http://blog.naver.com/nav_dd?Redirect=Log&logNo=220238641208&from=section현대기아자동차!! 한눈에 알아보자!!

0 0 0 0 0 0 0 1 0 21 10 201501 201501 KIA 모닝 기아 모닝 or TA http://rolinluna.blog.me/220238458540기아 레이 터보 피엘이 - 레이계의 아이돌 배래리님과의 만남

0 0 1 0 0 0 0 0 0 20 0 201501 201501 KIA 모닝 기아 모닝 or TA http://blog.naver.com/lovehwkim?Redirect=Log&logNo=220240244197&from=section[bl소설모음] 보이시즌님 소설(공금이었네요 파일 내립니다,)

0 1 0 0 0 1 0 0 0 20 1 201501 201501 KIA 모닝 기아 모닝 or TA http://blog.naver.com/youdom2195?Redirect=Log&logNo=220241323219&from=section시민정신!!! 과연 몇점이나 될까요?

0 1 0 0 0 0 0 0 0 4 3 201501 201501 KIA 모닝 기아 모닝 or TA http://blog.naver.com/eedensoft?Redirect=Log&logNo=220241530184&from=section개그맨 이세진 쇼미더 모닝 웨딩플래너로 변신 ~~ ㅋㅋ

0 0 0 0 0 0 0 1 0 14 27 201501 201501 KIA 모닝 기아 모닝 or TA http://xiaojing.kr/220242148942기아 자동차 기아레드멤버스 리뉴얼 런칭소식

0 0 0 5 2 0 6 6 0 0 10 201501 201501 KIA 모닝 기아 모닝 or TA http://fridei.blog.me/220243703380아슬란 G330 풀옵션, 1박2일 시승기

0 0 0 0 2 0 0 0 0 0 -6 201501 201501 KIA 모닝 기아 모닝 or TA http://blog.naver.com/anticalf?Redirect=Log&logNo=220243576217&from=section경차충돌 시험

0 1 2 1 1 0 0 0 3 4 28 201501 201501 KIA 모닝 기아 모닝 or TA http://itsit.kr/220240093972쇼미더모닝 영상으로 보는 기아 더 뉴 모닝의 특징

0 1 2 1 0 0 0 0 0 8 17 201501 201501 KIA 모닝 기아 모닝 or TA http://easyitblog.com/220244864240새롭게 돌아온 기아자동차 더뉴모닝과 쇼미더모닝 영상 후기!

Page 32: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Appendix – Accuracy, Sensitivity, Specificity, Cover rate

32

Page 33: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Appendix – Information Gain 추출

33

Page 34: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

Lasso output

34

Page 35: An information gain approach to Car sales forecasting using the …nemo.yonsei.ac.kr/wp-content/uploads/2017/10/upload_test.pdf · 2017-10-02 · Task4. Sentiment Analysis 10 Task1

현재 진행상황

35

• 월례 미팅 COMMENT 반영 작업 진행중

R-Squared= 1 −𝑆𝑆𝐸

𝑆𝑆𝑇=

σ(𝑦𝑖− ො𝑦𝑖)

σ(𝑦𝑖−ത𝑦)

Adjusted R-Squared = 𝑅𝐴2 = 1 −

𝑛−1

𝑛−𝑝−11 − 𝑅2 =

▶ 오차가 작아도 n에 dependent 한 결과값

▶설명변수의 개수가 다른 회귀모형을 비교할 때 사용R-Squared 처럼 반응 변수 y의 전체 변이 중에서 설명변수들에 의해설명되는 비율로 해석하는 것은 아님.

N : 표본의 개수P : 설명변수 개수