파이썬으로 -...
TRANSCRIPT
파이썬으로네이버블로그다긁어오기
목차
1. 웹스크래핑Web Scraping
2. 파이썬및라이브러리설치 beautifulsoup4
requests
lxml
3. 네이버개발자설정1. Open API 신청 (ID/SECRET 발급)
2. 애플리케이션등록
3. API 권한설정
4. 네이버API 예제
5. 네이버블로그스크래퍼
• 파이썬으로네이버블로그다긁어오기 3
1. 웹스크래핑Web Scraping
웹스크래핑Web Scraping
• 파이썬으로네이버블로그다긁어오기 5
웹스크래핑이란HTTP를통해웹사이트의내용을긁어다원하는형태로가공하는것
즉, 웹사이트의데이터를수집하는모든작업을의미함
크롤링? 파싱?
크롤링 웹크롤러crawler라는단어에서유래되었으며크롤러란조직적, 자동화된방법으로월드와이드웹을탐색하는컴퓨터프로그램
크롤링은크롤러가하는작업을부르는말로, 여러인터넷사이트의페이지(문서, html 등)를수집해서분류하는것
대체로찾아낸데이터를저장한후쉽게찾을수있게인덱싱수행
파싱
파싱이란어떤페이지(문서, html 등)에서내가원하는데이터를특정패턴이나순서로추출하여정보를가공하는것
파싱이란일련의문자열을의미있는토큰token으로분해하고이들로이루어진파스트리parse tree를만드는과정
입력토큰에내제된자료구조를빌드하고문법을검사하는역할을함
• 파이썬으로네이버블로그다긁어오기 6
2. 파이썬및라이브러리설치
파이썬다운로드
• 파이썬으로네이버블로그다긁어오기 8
파이썬설치
• 파이썬으로네이버블로그다긁어오기 9
파이썬라이브러리설치
Command Prompt 열기 [시작] – [실행] – cmd.exe
파이썬라이브러리추가명령어 pip install beautifulsoup4
pip install requests
pip install lxml
• 파이썬으로네이버블로그다긁어오기 10
3. 네이버개발자설정
Open API 이용신청
• 파이썬으로네이버블로그다긁어오기 12
https://developers.naver.com/products/search/
애플리케이션등록
• 파이썬으로네이버블로그다긁어오기 13
API 권한설정
• 파이썬으로네이버블로그다긁어오기 14
4. 네이버 API 예제
네이버API 예제
https://developers.naver.com/docs/search/blog/
• 파이썬으로네이버블로그다긁어오기 16
네이버API 예제
• 파이썬으로네이버블로그다긁어오기 17
네이버API 예제결과
• 파이썬으로네이버블로그다긁어오기 18
5. 네이버블로그스크래퍼
라이브러리선언및네이버개발자 ID/SECRET 선언
• 파이썬으로네이버블로그다긁어오기 20
라이브러리선언및네이버개발자 ID/SECRET 선언
• 파이썬으로네이버블로그다긁어오기 21
get_blog_count()
• 파이썬으로네이버블로그다긁어오기 22
get_blog_post()
• 파이썬으로네이버블로그다긁어오기 23
get_blog_post()
• 파이썬으로네이버블로그다긁어오기 24
get_blog_post()
• 파이썬으로네이버블로그다긁어오기 25
스크래핑수행
• 파이썬으로네이버블로그다긁어오기 26
• 파이썬으로네이버블로그다긁어오기 27