구글

구글을

기술지탱하는

1 장 구글의 탄생

• Task 2 Brand Image (conclusion)

* Contents

1. Search Engine2. 검색 Back-end3. Crawling4. Index5. Search Server



* Search Engine is

• Search Server - Mange 이용자와의 통신- Judge 요청해석 / 처리내용- Edit and Send, for 보기 쉬운 결론• Back – end- Create Crawling & Index• Index



* Search Engine Develop-ment

• Correct web page from world’s web server

• Crawler- URL server 가 전체 Crawler 지휘



* 검색 Back-end

• Crawler - Crawling ; 웹 페이지를 수집하는 기술

• Repository ; 임시저장소• Creating Index ; Web page 를 검색용

인덱스로 만들어 내는 과정



* Crawling

• Think 이용자의 편의성• Expand 하드웨어• Rank 웹 페이지


Internet

Repository

Index

Crawler

Crawling


* Index

• Save data• Search 요청 받은 데이터• Rank 특정한 키에 연관된 정보

-> 효율적 검색 , 간결한 데이터 표현• Express 문자열 by 숫자



* Index - Creating

• Analyze Web page 구조• Word Index• Link Index• Ranking Index



* Search Server

• Think 이용자의 편의성• Expand 하드웨어• Rank 웹 페이지• Search 복잡한 문제



Lexi-con

* Search Server

Search

Server

Bar-rels

DocIn-dex

User

검색요청

결과반환

wordID 를 역 Index 에서 검색하여 docID List 가져옴

docID 에 Ranking Function 을 적용 , 점수 높은 순으로 정렬

Ranking 의 상위 docID 각각에 대해Web Page 정보 추출


구글을

기술지탱하는

2 장 구글의 공룡화


* Contents

1. Internet 을 검색하는 거대 System2. 검색 Cluster3. 진화된 Google 의 Web 검색 절차4. Google 의 기본적인 사상



* Internet 을 검색하는 거대 System

1. Expand System

Scale-up뛰어난 하드웨어 도입

Scale-out하드웨어의 수 늘림

Strong point

단순한 시스템변경할 필요 없는 소프트웨어

장비의 수 증가 가능비교적 저렴한 비용

Weak point

비싼 가격 ( 고성능 하드웨어 ) 처음부터 복수의 하드웨어로 소프트웨어를 개발잘못된 설계 , 장비 수 늘려도 개선되지 않음



* Internet 을 검색하는 거대 System

2. Connect 하나의 시스템-Rack-Cluster-Data Center

3. 검색 엔진 개량- 검색서버의 대규모화- 검색 back-end 의 대규모화



* 검색 Cluster

• Treat 검색 by 복수의 서버 조합• GWS(Google Web Server)• LB(Load Balancer)• Document Server



* 검색 Cluster

1. Join 근접한 데이터 센터



* 검색 Cluster

2. Disperse 부하를 다수의 서버로 - GWS(Google Web Server) ; 각각의 검색 요청을 한 곳에 모으는 역할- LB(Load Balancer) 부하가 가벼운 곳으로 일을 넘김

LB

GWS GWSGWS

Index Server

Docu-ment

Server



* 진화된 Google 의 Web 검색 절차

• Index Server- Request shared cluster- Rank Web Pages than 이전

• Document Server- Send Web Page 내용 to 복수 shared



Docu-ment

Server

Index Server

* 진화된 Google 의 Web 검색 절차

GWS

sharedshared

shared

sharedshared

shared

User 검색요청

검색요구 to Index Server 의 모든 shared cluster

GWS, 반환된 것 중 상위만 채택

docID 로 정보요구 to Document Server

Html Page 만들어 결과 출력



* Google 의 기본적인 사상1. 높은 Software 신뢰성

- Hardware 의 고장에 유연한 대처2. Disperse 부하 , by Hardware 추가

- 분산 System 으로 병목현상 방지3. Choice 비용 대비 고성능 Hardware


구글

Technology