파이썬으로 -...

27

Upload: others

Post on 20-Sep-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정
Page 2: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

파이썬으로네이버블로그다긁어오기

Page 3: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

목차

1. 웹스크래핑Web Scraping

2. 파이썬및라이브러리설치 beautifulsoup4

requests

lxml

3. 네이버개발자설정1. Open API 신청 (ID/SECRET 발급)

2. 애플리케이션등록

3. API 권한설정

4. 네이버API 예제

5. 네이버블로그스크래퍼

• 파이썬으로네이버블로그다긁어오기 3

Page 4: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

1. 웹스크래핑Web Scraping

Page 5: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

웹스크래핑Web Scraping

• 파이썬으로네이버블로그다긁어오기 5

웹스크래핑이란HTTP를통해웹사이트의내용을긁어다원하는형태로가공하는것

즉, 웹사이트의데이터를수집하는모든작업을의미함

Page 6: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

크롤링? 파싱?

크롤링 웹크롤러crawler라는단어에서유래되었으며크롤러란조직적, 자동화된방법으로월드와이드웹을탐색하는컴퓨터프로그램

크롤링은크롤러가하는작업을부르는말로, 여러인터넷사이트의페이지(문서, html 등)를수집해서분류하는것

대체로찾아낸데이터를저장한후쉽게찾을수있게인덱싱수행

파싱

파싱이란어떤페이지(문서, html 등)에서내가원하는데이터를특정패턴이나순서로추출하여정보를가공하는것

파싱이란일련의문자열을의미있는토큰token으로분해하고이들로이루어진파스트리parse tree를만드는과정

입력토큰에내제된자료구조를빌드하고문법을검사하는역할을함

• 파이썬으로네이버블로그다긁어오기 6

Page 7: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

2. 파이썬및라이브러리설치

Page 8: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

파이썬다운로드

• 파이썬으로네이버블로그다긁어오기 8

Page 9: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

파이썬설치

• 파이썬으로네이버블로그다긁어오기 9

Page 10: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

파이썬라이브러리설치

Command Prompt 열기 [시작] – [실행] – cmd.exe

파이썬라이브러리추가명령어 pip install beautifulsoup4

pip install requests

pip install lxml

• 파이썬으로네이버블로그다긁어오기 10

Page 11: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

3. 네이버개발자설정

Page 12: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

Open API 이용신청

• 파이썬으로네이버블로그다긁어오기 12

https://developers.naver.com/products/search/

Page 13: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

애플리케이션등록

• 파이썬으로네이버블로그다긁어오기 13

Page 14: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

API 권한설정

• 파이썬으로네이버블로그다긁어오기 14

Page 15: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

4. 네이버 API 예제

Page 16: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

네이버API 예제

https://developers.naver.com/docs/search/blog/

• 파이썬으로네이버블로그다긁어오기 16

Page 17: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

네이버API 예제

• 파이썬으로네이버블로그다긁어오기 17

Page 18: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

네이버API 예제결과

• 파이썬으로네이버블로그다긁어오기 18

Page 19: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

5. 네이버블로그스크래퍼

Page 20: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

라이브러리선언및네이버개발자 ID/SECRET 선언

• 파이썬으로네이버블로그다긁어오기 20

Page 21: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

라이브러리선언및네이버개발자 ID/SECRET 선언

• 파이썬으로네이버블로그다긁어오기 21

Page 22: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

get_blog_count()

• 파이썬으로네이버블로그다긁어오기 22

Page 23: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

get_blog_post()

• 파이썬으로네이버블로그다긁어오기 23

Page 24: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

get_blog_post()

• 파이썬으로네이버블로그다긁어오기 24

Page 25: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

get_blog_post()

• 파이썬으로네이버블로그다긁어오기 25

Page 26: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

스크래핑수행

• 파이썬으로네이버블로그다긁어오기 26

Page 27: 파이썬으로 - SuanLabsuanlab.com/assets/slectures/python/NaverBlogScraper.pdf네이버개발자설정 1. Open API 신청(ID/SECRET 발급) 2. 애플리케이션등록 3. API 권한설정

• 파이썬으로네이버블로그다긁어오기 27