트랜스퍼러닝과 텍스트문서분류 - github pages · 2020-02-10 · 소개....

32
트랜스퍼 러닝과 텍스트 문서 분류 고재선

Upload: others

Post on 22-May-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

트랜스퍼 러닝과텍스트 문서 분류

고재선

Page 2: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

소개

고재선

-통신공학전공, 법학전문대학원졸업

-대학원(법학박사) 과정

- 2014년부터변호사로 근무

-관심분야 : 특허법, 디지털포렌식, 자연어처리

Page 3: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

소개

데이터가부족할때는,

트랜스퍼러닝을한번생각해보자.

Page 4: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

목차

1. 트랜스퍼러닝

2. 워드임베딩/CNN 문서 모델

3. 트랜스퍼러닝예제

4. 요약및결론

Page 5: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

* 이하의 그림 및 내용들은 국내 번역출간예정인 Dipanjan Sarkar, Raghav Bali,Tamoghna Ghosh가 저술한, “Hands-On Transfer Learning with Python”의 내용을주로인용하였습니다.

Page 6: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

1. 트랜스퍼 러닝

트랜스퍼러닝(Transfer Learning)?

≒하나의설정에서배운무엇인가를,

다른설정에서도 일반화할수있도록활용하는환경*

*이안굿펠로,요슈아벤지오,에런쿠빌공저, 심층학습(Deep Learning),류광역

Page 7: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

1. 트랜스퍼 러닝

트랜스퍼러닝(Transfer Learning)?

≒하나의설정에서배운무엇인가를,

다른설정에서도 일반화할수있도록활용하는환경*

≒다른분야의학습모델을 가져와유사한분야에서 적용하는 것

*이안굿펠로,요슈아벤지오,에런쿠빌공저, 심층학습(Deep Learning),류광역

Page 8: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

1. 트랜스퍼 러닝

기존머신러닝 트랜스퍼러닝

Page 9: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

1. 트랜스퍼 러닝

트랜스퍼러닝

*Miguel González-Fierro, A Gentle Introduction To Transfer Learning For Image Classification

Page 10: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

1. 트랜스퍼 러닝

트랜스퍼러닝을사용하는이유?

1. 성능의 향상

2. 모델개발/학습 시간 단축

Page 11: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

1. 트랜스퍼 러닝

영상(CV) 분야의트랜스퍼러닝?

대량의이미지데이터셋으로

학습시킨모델을사용하여

구체적인 문제들을해결

*http://www.image-net.org

Page 12: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

1. 트랜스퍼 러닝

자연어처리의트랜스퍼러닝은?

- 워드임베딩을중심으로 논의

- 최근 ELMO, BERT 등의 사전학습모델등장

Page 13: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

목차

1. 트랜스퍼러닝

2. 워드임베딩/문서 분류 모델

3. 트랜스퍼러닝예제

4. 요약및결론

Page 14: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

2. 워드 임베딩/문서 분류 모델

임베딩?

- 워드임베딩 : 단어를실수벡터 값으로맵핑시키는 것

- 어떻게맵핑? *https://www.learnopencv.com/universal-sentence-encoder/

Page 15: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

2. 워드 임베딩/문서 분류 모델

워드임베딩모델 : Word2vec, Glove

- Word2vec : 문장내단어들의위치를 기반으로학습

- Glove : 전체단어들의 통계정보(동시출현확률)를 사용

*Jeffrey Pennington, Richard Socher, Christopher D. Manning, GloVe: Global Vectors for Word Representation

Page 16: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

2. 워드 임베딩/문서 분류 모델

* Jacob Devlin, et all, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

워드임베딩모델 : ELMO, BERT

- 문맥에따라같은단어라도다른벡터로 표현(Word2vec 에서의다의어, 동음이의어문제)

- 대량의텍스트데이터를미리학습하는 모델

Page 17: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

2. 워드 임베딩/문서 분류 모델

CNN 문서모델 *

* Misha Denil, et all, Modelling, Visualising and Summarising Documents with a Single Convolutional Neural Network, 2014

Page 18: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

2. 워드 임베딩/문서 분류 모델

CNN 문서모델*

- 인풋레이어 : 워드임베딩

- 워드임베딩 -> 문장임베딩 -> 문서임베딩

- 문장과문서의 길이가다를수있으므로,

- 0으로패딩 or 자르기

* Misha Denil, et all, Modelling, Visualising and Summarising Documents with a Single Convolutional Neural Network, 2014

Page 19: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

목차

1. 트랜스퍼러닝

2. 워드임베딩/문서 분류 모델

3. 트랜스퍼러닝예제

4. 요약및결론

Page 20: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

3. 트랜스퍼 러닝 예제

IMDB 영화리뷰 – 긍정/부정분류

- 트레이닝데이터 25,000개, 테스트데이터 25,000개

*http://ai.stanford.edu/~amaas/data/sentiment/

Page 21: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

3. 트랜스퍼 러닝 예제

IMDB 영화리뷰 – 긍정/부정분류

- 트레이닝데이터 25,000개, 테스트데이터 25,000개

- 사전학습된 Glove 벡터(Wikipedia 2014 + Gigaword 5 )

- 약 83.7%

Page 22: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

3. 트랜스퍼 러닝 예제

IMDB 영화리뷰 – 긍정/부정분류

- 트레이닝데이터 25,000개, 테스트데이터 25,000개

- 사전학습된 Glove 벡터(Wikipedia 2014 + Gigaword 5 )

- 약 83.7%

Page 23: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

3. 트랜스퍼 러닝 예제

만약트레이닝데이터가 1,250개만있다면?(5%)

- 적은데이터 -> 성능이안나옴[=70%]

- 이 경우 트랜스퍼러닝을 고려해볼 수있음

- 영화평과유사한상품 구매평가데이터!

Page 24: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

3. 트랜스퍼 러닝 예제

아마존제품구매평가 - 긍정/부정분류

- 학습용데이터 360만개, 테스트용데이터 40만개

*https://www.kaggle.com/bittlingmayer/amazonreviews

Page 25: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

3. 트랜스퍼 러닝 예제

아마존제품구매평가 - 긍정/부정분류

- 학습용데이터 360만개, 테스트용데이터 40만개

- 샘플 20만개학습

Page 26: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

3. 트랜스퍼 러닝 예제

아마존->IMDB 트랜스퍼러닝

- 구매평으로업데이트된 Glove 임베딩 + 1,250개데이터학습

Page 27: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

3. 트랜스퍼 러닝 예제

아마존->IMDB 트랜스퍼러닝

- 구매평으로업데이트된 Glove 임베딩 + 1,250개데이터학습

Page 28: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

3. 트랜스퍼 러닝 예제

아마존->IMDB 트랜스퍼러닝

- 구매평으로업데이트된 Glove 임베딩 + 1,250개데이터학습

- 86.3%!

Page 29: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

3. 트랜스퍼 러닝 예제

아마존->IMDB 트랜스퍼러닝

- 업데이트된임베딩 + 25,000개데이터학습

- 87.3%!!

Page 30: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

3. 트랜스퍼 러닝 예제

트랜스퍼러닝결과

IMDB 5% IMDB 100% AMAZON->IMDB(5%)

AMAZON->IMDB (100%)

70% 83% 86.3% 87.3%

Page 31: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

목차

1. 트랜스퍼러닝

2. 워드임베딩/문서 분류 모델

3. 트랜스퍼러닝예제

4. 요약및결론

Page 32: 트랜스퍼러닝과 텍스트문서분류 - GitHub Pages · 2020-02-10 · 소개. 고재선-통신공학전공, 법학전문대학원졸업-대학원 (법학박사) 과정-2014

4. 요약 및 결론

학습에필요한데이터가부족하거나,

성능향상이필요할때,

트랜스퍼러닝고려해볼수도있다.