모두를 위한 텍스트 분석 koala · ‣ 지원 데이터 수집 소스 4가지: 네이버...

44
KoALA Korean NAtural Language Application MONDATA(몬데이터) 모두를 위한 텍스트 분석 (Final Updated 2019. 02. 18)

Upload: others

Post on 20-Jan-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

KoALAKorean NAtural Language Application

MONDATA(몬데이터)

모두를 위한 텍스트 분석

(Final�Updated�2019.�02.�18)

KoALA 튜토리얼 목차 �2

1. KoALA 시작하기

1) 분석화면 들어가기

2) KoALA 분석화면 소개

3) KoALA의 기본 원리 - 컴포넌트 연결

2. KoALA로 분석하기

1) 텍스트 분석 프로세스

2) 컴포넌트 소개 ➊ 데이터 수집

➋ 전처리

: 형태소 분석, 개체명 인식

➌ 분석

: 단어빈도분석, 감성분석, LDA 토픽모델링, 키워드추출, 동시출현분석

➍ 시각화

: 워드클라우드, 네트워크 다이어그램, 클러스터 다이어그램,

히스토그램, 동시출현매트릭스

3. KoALA 분석샘플

1) 분석 샘플 예제

➊ 워드클라우드 작성

➋ 감성분석

➌ 문서에서 핵심주제 추출하기 (LDA 토픽모델링)

➍ ➍ 키워드 추출로 진짜 핵심 키워드 도출하기

➎ 동시출현 분석으로 문서 내용 더 깊게 이해하기

4. KoALA 관리기능

1) 데이터 관리

2) 사전관리

5. FAQ

1. KoALA 시작하기

�41. KoALA 시작하기 - 1) 분석화면 들어가기

1) 분석화면 들어가기

➊ www.koala4text.com 회원가입 후 로그인

➋ ‘분석프로젝트’ 클릭

➌ ‘+ 새프로젝트’ 클릭

➍ 새 프로젝트 제목 입력 후 ‘시작’ 클릭 (프로젝트명은 수정이 불가하므로 알아보기 쉽게 신중히 입력해 주세요.)

영상: https://youtu.be/xXmAgz6ab_c

�51. KoALA 시작하기 - 2) 분석화면 소개

2) 분석화면 소개

➊ 컴포넌트 팔레트원하는 컴포넌트를 선택하는 공간

➋ 작업창컴포넌트들을 연결하여 분석 파이프라인을 구성하는 공간

➌ 속성창

컴포넌트 세부속성을

설정하는 공간

➍ 컴포넌트 도움말

➎ 컴포넌트 파이프라인

자주쓰는 분석 파이프라인

➏ 분석진행상황

분석 진행상황 확인

➐ 작업로그

작업로그 확인

영상: https://youtu.be/pmQIBP50OGE

�61. KoALA 시작하기 - 3) KoALA의 기본 원리

3) KoALA의 기본 원리 - 컴포넌트 연결

➊ 컴포넌트 팔레트에서

원하는 컴포넌트를 선택하여 작업창으로 드래그&드롭

➋ 컴포넌트를 선택하면

‘삭제’, ‘연결’, ‘실행’ 버튼 확인 가능

‘연결’을 클릭한 상태로

연결하고자 하는 컴포넌트로 연결

➌ 두 컴포넌트가 연결된 것 확인 가능

영상: https://youtu.be/N4h5LL3U5QY

�71. KoALA 시작하기 - 3) KoALA의 기본 원리

3) KoALA의 기본 원리 - 컴포넌트 연결

➊ 컴포넌트 팔레트에서

원하는 컴포넌트를 선택하여 작업창으로 드래그&드롭

➋ 컴포넌트를 선택하면

해당 컴포넌트에 연결 가능한 컴포넌트들이

파란색으로 하이라이트 되어서

연결 가능한 컴포넌트 선택에 참고 가능

2. KoALA로 분석하기

�92. KoALA로 분석하기 - 1) 텍스트 분석 프로세스

1) 텍스트 분석 프로세스

‣ 일반적인 텍스트 분석 프로세스 ‣ KoALA에서는 각 단계에 해당하는 컴포넌트를 연결하여 분석 프로세스를 파이프라인으로 구성하여 분석 시행

�102. KoALA로 분석하기 - 1) 텍스트 분석 프로세스

1) 텍스트 분석 프로세스

‣ 일반적인 텍스트 분석 프로세스 ‣ KoALA에서는 각 단계에 해당하는 컴포넌트를 연결하여 분석 프로세스를 파이프라인으로 구성하여 분석 시행

�112. KoALA로 분석하기 - 1) 텍스트 분석 프로세스

1) 텍스트 분석 프로세스 ➊ 데이터수집

(1) 클릭

(2) 검색 키워드 입력

(3) 수집대상 선택

(4) 언어 선택

(5) 수집 대상 일자 선택

(6) 수집할 게시물 개수 선택

(6) 실행

(7) 클릭

�122. KoALA로 분석하기 - 2) 컴포넌트 소개

➊ 데이터수집‣ 지원 데이터 수집 소스 4가지: 네이버 카페, 트위터, 레딧, 클리앙 (2018. 11. 25 기준) ‣ 지원 언어 : 한국어, 영어 ‣ 하나의 데이터 수집 컴포넌트로 하나의 수집 소스로부터 데이터 수집 가능

영상: https://youtu.be/5dB5WppwWQw

�13

‣ 지원 데이터 수집 소스 4가지: 네이버 카페, 트위터, 레딧, 클리앙 (2018. 11. 25 기준) ‣ 지원 언어 : 한국어, 영어 ‣ 하나의 데이터 수집 컴포넌트로 하나의 수집 소스로부터 데이터 수집 가능

(8) 클릭

(9) 수집 내용 확인 가능

➊ 데이터수집

2. KoALA로 분석하기 - 2) 컴포넌트 소개

영상: https://youtu.be/5dB5WppwWQw

�142. KoALA로 분석하기 - 1) 텍스트 분석 프로세스

1) 텍스트 분석 프로세스 ➋ 전처리

�15

‣ 형태소 분석이란?문장을 뜻을 가진 가장 작은 단위인 형태소로 구분하고 품사를 구별하여 태깅하는 과정으로텍스트 분석을 위해 필수적으로 수행해야하는 작업

‣ 텍스트 분석에서 시간이 오래 걸리고 난이도가 높은 작업으로 KoALA를 사용하면 KoALA의 100만건 규모의 사전을 활용하여 고성능의 형태소 분석 가능

➋ 전처리: 형태소 분석

(2) 클릭

(3) ‘연결’ 클릭한 상태로 “형태소분석” 컴포넌트로드래그&드롭

(1) 컴포넌트 배치

(4) 클릭

2. KoALA로 분석하기 - 2) 컴포넌트 소개

영상: https://youtu.be/zm2qMcx12Mg

�16

‣ 개체명인식이란?지명, 사명, 인명 등 개체명을 인식해서 분석에 활용가능하게 하는 과정

‣ KoALA의 100만건 규모의 사전을 활용하여 고성능의 개체명 인식 가능

➋ 전처리: 개체명인식

(4) 클릭

(2) 클릭

(3) ‘연결’ 클릭한 상태로 “개체명인식” 컴포넌트로드래그&드롭

(1) 컴포넌트 배치

2. KoALA로 분석하기 - 2) 컴포넌트 소개

영상: https://youtu.be/zm2qMcx12Mg

�172. KoALA로 분석하기 - 1) 텍스트 분석 프로세스

1) 텍스트 분석 프로세스 ➌ 분석

�18

➌ 분석

특정 단어들이 전체 문서에서 얼마나 빈번하게 나타나는지 분석

문서가 어떤 주제들로 이루어져 있는지 분석

단어들이 동시에 출현하는 경우 연관성이 높은 것이라고 보고, 원하는 키워드의 연관 단어를 추출하는 분석

문서에서 핵심 키워드를 추출

단어의 감성수준을 수치화하는 분석방법

2. KoALA로 분석하기 - 2) 컴포넌트 소개

분석

텍스트마이닝

데이터

단어

활용

뉴스 기사

11월

코알라

출시

매출

급증

텍스트 분석

관광

불편 신고

1) 쓰레기 문제

2) 바가지 요금

3) 대중교통 문제

4) 지나친 상업화

�192. KoALA로 분석하기 - 1) 텍스트 분석 프로세스

1) 텍스트 분석 프로세스 ➍ 시각화

�20

➍ 시각화

문서 내 단어 빈도의 분포를 시각화 주요 키워드들의 분포 확인

2. KoALA로 분석하기 - 2) 컴포넌트 소개

‣ 단어빈도분석, 감성분석, 키워드 추출 결과를워드클라우드, 히스토그램으로 시각화 가능

�21

➍ 시각화

클러스터링 결과를 그룹별로 시각화

2. KoALA로 분석하기 - 2) 컴포넌트 소개

‣ LDA 토픽모델링 분석 결과를 클러스터 다이어그램, 히스토그램으로 시각화 가능

�22

➍ 시각화

동시 출현 결과 매트릭스 형태로 시각화 키워드간의 상호관계를 시각화

2. KoALA로 분석하기 - 2) 컴포넌트 소개

‣ 동시출현분석 결과를동시출현 매트릭스, 네트워크 다이어그램으로 시각화 가능

3. KoALA 분석샘플

�24

➊ 워드클라우드 작성

3. KoALA 분석샘플 - 1) 분석 샘플 예제

(1) 파이프라인 구성: 데이터 수집 → 형태소분석 → 개체명인식 → 단어빈도분석 → 워드클라우드 순서로 연결

*연결방법: 앞 컴포넌트를 클릭한 뒤 ‘연결’ 클릭한 상태로 다음 컴포넌트로 드래그&드롭

(2) 작업창에서 ‘데이터수집’ 컴포넌트를 클릭 후 속성창 설정

- 검색어 입력 : BTS

- 수집대상 선정 : 트위터

- 대상언어 선정 : 한국어

- 시작일 설정 : 2018. 06. 01

- 종료일 설정 : 2018. 11. 25

- 데이터양 설정 : 100건

(3) 첫 컴포넌트인 ‘데이터 수집’클릭 후 ‘실행(여기부터 실행)’ 클릭

영상: https://youtu.be/OKdxxXH2eMU

�25

➊ 워드클라우드 작성

3. KoALA 분석샘플 - 1) 분석 샘플 예제

(4) 작업창에서 ‘워드클라우드’ 클릭 후 속성창의 출력파일 눈(. )모양 아이콘 클릭 (5) 워드클라우드 결과 확인

*글씨 크기가 크고 두꺼울수록 자주 등장하는 단어임을 의미

영상: https://youtu.be/OKdxxXH2eMU

�26

➋ 감성분석

3. KoALA 분석샘플 - 1) 분석 샘플 예제

(1) 파이프라인 구성: 데이터 수집 → 형태소분석 → 개체명인식 → 감성분석 → 히스토그램 순서로 연결

(2) ’감성분석’ 컴포넌트 클릭 후 ‘실행(여기부터 실행)’ 클릭

*23페이지의 “➊ 데이터 수집을 통한 워드클라우드 작성”예제에 이어서 동일 데이터를 활용하여 분석하기 위해 기존 파이프라인의 ‘개체명인식’ 컴포넌트와 ‘감성분석’ 컴포넌트 연결

영상: https://youtu.be/u3joPZuCwZ8

�27

➋ 감성분석

3. KoALA 분석샘플 - 1) 분석 샘플 예제

(3) 작업창에서 ‘히스토그램’ 클릭 후 속성창의 출력파일 눈( )모양 아이콘 클릭

(4) 감성 히스토그램 확인

* 강한 긍정 : ++ 긍정 : + 중립 : 0 부정 : - 강한 부정 : - - * 중립이 많고 긍정적인 트윗이 많다는 의미로 해석 가능

영상: https://youtu.be/u3joPZuCwZ8

�28

➌ 문서에서 핵심주제 추출하기(LDA 토픽모델링)

3. KoALA 분석샘플 - 1) 분석 샘플 예제

(1) 파이프라인 구성: 데이터 수집 → 형태소분석 → 개체명인식 → LDA토픽모델링 → 클러스터 다이어그램 순서로 연결

*이전 예제에 이어서 동일 데이터를 활용하여 분석하기 위해 기존 파이프라인의 ‘개체명인식’ 컴포넌트와 ‘LDA토픽모델링’ 컴포넌트 연결

(2) 작업창에서 ‘클러스터 다이어그램’ 컴포넌트를 클릭 후 속성창 설정

- 제목 : 방탄소년단

영상: https://youtu.be/VjmtuowZpkQ

�29

➌ 문서에서 핵심주제 추출하기(LDA 토픽모델링)

3. KoALA 분석샘플 - 1) 분석 샘플 예제

(3) ‘LDA토픽모델링’ 컴포넌트 클릭 후 ‘실행(여기부터 실행)’ 클릭

(4) 작업창에서 ‘클러스터 다이어그램’ 클릭 후 속성창의 출력파일 눈( )모양 아이콘 클릭

(5) 각 토픽별 키워드를 확인하여 토픽 주제 도출

영상: https://youtu.be/VjmtuowZpkQ

�30

➍ 키워드 추출로 진짜 핵심 키워드 도출하기

3. KoALA 분석샘플 - 1) 분석 샘플 예제

(1) 파이프라인 구성: 데이터 수집 → 형태소분석 → 개체명인식 → 키워드추출 → 워드클라우드 순서로 연결

*이전 예제에 이어서 동일 데이터를 활용하여 분석하기 위해 기존 파이프라인의 ‘개체명인식’ 컴포넌트와 ‘키워드추출’ 컴포넌트 연결

(2) ‘키워드추출’ 컴포넌트 클릭 후 ‘실행(여기부터 실행)’ 클릭

영상: https://youtu.be/Bpns2WMkXKk

�31

➍ 키워드 추출로 진짜 핵심 키워드 도출하기

3. KoALA 분석샘플 - 1) 분석 샘플 예제

(3) 작업창에서 ‘히스토그램’ 클릭 후 속성창의 출력파일 눈( )모양 아이콘 클릭 (4) 키워드추출결과 워드클라우드 확인

*다른 일반적인 문서에서보다 ‘BTS’관련 트윗 글에서 유독 많이 등장하는 단어들로 핵심 키워드들이라고 할 수 있음 트위터에서 BTS의 수상을 위해 투표 참여 독려를 하는 팬들의 트윗이 많다는 것을 확인 가능

영상: https://youtu.be/Bpns2WMkXKk

�32

➎ 동시출현 분석으로 문서 내용 더 깊게 이해하기

3. KoALA 분석샘플 - 1) 분석 샘플 예제

(1) 파이프라인 구성: 데이터 수집 → 형태소분석 → 개체명인식 → 동시출현분석 → 동시출현매트릭스 → 네트워크다이어그램 순서로 연결

영상: https://youtu.be/KIxb9-f33c0

�33

➎ 동시출현 분석으로 문서 내용 더 깊게 이해하기

3. KoALA 분석샘플 - 1) 분석 샘플 예제

(2) ‘동시출현분석’ 컴포넌트 클릭 후 속성창에서 ‘키워드’ 입력

*동시출현분석의 키워드는 분석중인 문서에서 키워드와 함께 등장하는

단어들을 분석하기 위해 입력하는 키워드임

예제에서는 BTS 관련 트윗에서 ‘태형’과 함께

등장하는 내용을 더 깊게 이해하기 위해

키워드로 ‘태형’을 입력함

(3) ‘동시출현분석’ 컴포넌트 클릭 후 ‘실행(여기부터 실행)’ 클릭

(2)

(3)

영상: https://youtu.be/KIxb9-f33c0

�34

➎ 동시출현 분석으로 문서 내용 더 깊게 이해하기

3. KoALA 분석샘플 - 1) 분석 샘플 예제

(4) 작업창에서 ‘동시출현매트릭스’ 클릭 후 속성창의 출력파일 눈( )모양 아이콘 클릭

(5) 동시출현매트릭스 결과 확인

* BTS 관련 트윗에서 ‘태형’과 함께

뷔, 사진전 등이 주요 연관 키워드로 확인됨

확인 결과 ‘BTS의 뷔(태형)이 ‘사진전 열어줬으면 하는 아이돌’ 팬투표 1위로선정되었다고 함

영상: https://youtu.be/KIxb9-f33c0

4. KoALA 관리기능

�364. KoALA 관리기능 - 1) 데이터 관리

1) 데이터 관리

➊ ‘데이터 관리’ 클릭

➋ ‘파일올리기’ 클릭

➌ 드래그 앤 드롭하여 파일 업로드 가능

➍ 내가 업로드한 파일을 분석에 사용할 경우 (1) ‘형태소분석’ 컴포넌트 클릭 후 속성창에서 입력파일 ‘+’클릭 (2) 분석에 사용할 데이터 파일 ‘선택’ 클릭 (3) 입력파일 확인 후 원하는 분석 파이프라인을 구성하여 분석 진행

*분석과정에서 생성된 중간과정의 파일들 모두 확인 가능

*텍스트(txt) 파일 업로드 가능

(1)

(3)(2)

영상: https://youtu.be/qNpE0O8zp3c

�374. KoALA 관리기능 - 1) 데이터 관리

1) 데이터 관리

➍ 내가 업로드한 파일을 분석에 사용할 경우 (1) ‘형태소분석’ 컴포넌트 클릭 후 속성창에서 입력파일 ‘+’클릭

(2) 분석에 사용할 데이터 파일 ‘선택’ 클릭

(3) 입력파일 확인 후 원하는 분석 파이프라인을 구성하여 분석 진행

(1)

(3)(2)

영상: https://youtu.be/qNpE0O8zp3c

�38

2) 사전 관리 - 불용어 관리

4. KoALA 관리기능 - 2) 사전 관리

➊ ‘사전 관리’ 클릭

➋ ‘개별단어등록’ 클릭

➌ 분석에서 사용하지 않을 (불용어 처리할) 단어 입력 불용어 ‘Y’ 선택 후 ‘+’ 클릭하여 단어 등록

‣ 불용어(Stopword)란?텍스트 분석에서는 의미가 없는 단어를 제거하는 작업이 필요함. 자주 등장 하지만 문장 해석에 큰 도움이 되지 않는

a, the, 조사 등의 단어는 불용어로 KoALA 사전에서 미리 정의하여 제거해줌.그 외 분석가가 추가로 제거하고 싶은 단어가 있을 경우 ‘사전관리’ 기능을 통해 불용어 추가 가능

영상: https://youtu.be/-nbZ0DNgmVc

�39

2) 사전 관리 - 불용어 관리 예시

4. KoALA 관리기능 - 2) 사전 관리

[ 사전관리 Before ] [ 사전관리 After ]

*센트룸 구매후기 빈도분석결과

구매후기에서 일반적으로 많이 나오는 ‘배송’, ‘구매’, ‘만족’ 등의 키워드가 빈출됨

구매 후기에서 일반적으로 나오는 해당 키워드들을 불용어 처리한 결과

센트룸의 특징을 볼 수 있는 빈도분석 결과를 확인 가능하게 됨

영상: https://youtu.be/-nbZ0DNgmVc

�40

2) 사전 관리 - 개체명 관리

4. KoALA 관리기능 - 2) 사전 관리

‣ 개체명이란?인명, 지명, 기관명 등 주로 고유명사를 등록하여 분석의 성능을 향상시키기 위해 사용됨

➋ 단어, 개체명 입력 후 개체명그룹, 형태소태그 선택 (개체명그룹, 형태소태그는 필수지정 아님)

➌ ‘+’ 클릭하여 단어 등록

➊ ‘개별단어등록’ 클릭

* 개체명 등록을 통해 ‘아이유’, ‘이지은’, ‘IU’, ‘i.u.’를 모두 ‘아이유’라는 동일한 개체명으로 인식하여 분석 가능

영상: https://youtu.be/-nbZ0DNgmVc

5. FAQ

�425. FAQ

1) 라이선스가 용량 기준인데 용량 부과기준이 뭔가요?

‣ KoALA 라이선스는 사용가능 용량을 기준으로 책정되어있습니다. 사용용량은 데이터 업로드할 때와 분석 과정에서 중간생성 파일이 생성될 때

마다 차감됩니다.

‣ 쉽게 말해 컴포넌트 하나하나를 실행할 때마다 해당 용량이 차감된다고 생각하시면 됩니다. 실행 버튼을 클릭할 때마다 예상 파일 출력 용량을 확

인할 수 있기 때문에 사용에 참고 가능합니다.

‣ 트위터 1만 건을 수집할 경우 차감 용량은 3MB정도이니 라이선스 구입과 분석설계에 참고부탁드립니다.

2) 에러가 발생했어요

‣ 분석 수행중 에러가 발생한 경우 작업창 오른쪽 ‘분석진행상황’창의 진행중 프로젝트 오른쪽에 말풍선 모양의 아이콘이 생성됩니다. 에러 메시지를 확인 하신 후 컴포넌트 옵션을 확인해주세요.

‣ 말풍선 모양이 출현하지 않는 경우 건의사항 게시판에 에러가 발생한 시점과 상황을 자세히 남겨주시면 최대한 빠르게 대응하겠습니다.

�435. FAQ

3) 할인회원 인증은 어떻게 하나요?

‣ KoALA 회원 가입 시 ‘추가 가입 정보’에서 ‘회원 유형’을 ‘학생/기업/기간 회원(할인)’으로 선정한 후 관련 정보를 기입합니다.

‣ ‘첨부파일’에 ‘+파일추가’를 클릭하여 신분을 증명할 수 있는 학생증, 사원증, 명함 등을 업로드

합니다.

‣ KoALA 우상단의 계정 정보 클릭 후 ‘회원소속정보’ 클릭

‘회원 유형’을 ‘학생/기업/기간 회원(할인)’으로 선정한 후 관련 정보를 기입합니다.

‣ ‘첨부파일’에 ‘+파일추가’를 클릭하여 신분을 증명할 수 있는 학생증, 사원증, 명함 등을 업로드

합니다.