kr dag aws_bye(서종호)20141206(공개)

13
AWS BYE

Upload: jongho-seo

Post on 15-Jul-2015

209 views

Category:

Internet


0 download

TRANSCRIPT

Page 1: Kr dag aws_bye(서종호)20141206(공개)

AWS BYE

Page 2: Kr dag aws_bye(서종호)20141206(공개)

http://sola99.tistory.com

목차

1. Scale Out 패턴 (AWS 자동 스케일 아웃 패턴)

2. AWS 장애 사례

3. AWS 환상 타파

4. Next~

Page 3: Kr dag aws_bye(서종호)20141206(공개)

http://sola99.tistory.com

1. Scale Out 패턴 (서버 수의 동적 증감)

1.1 해결하고 싶은 문제

1.3 구현

1.2 해결

1.4 동작 구조

웹 서비스

과도한 트래픽 요청 처리

높은 사양 서버 필요, 처리 단가 올라감, 서버 사양 제한 있음

스케일 아웃 : 같은 사양 서버 여러 대 배치하여 요청 처리

다수의 가상 서버 가동하고 로드 밸런서를 사용하여 각 가상 서버에

부하를 분산

가상 서버 서비스 : EC2 (Elastic Compute Cloud)

이미지 서비스 : AMI (Amazon Machine Image)

로드 밸런서 서비스 : ELB (Elastic Load Balancing)

모니터링 툴 서비스 : CloudWatch

자동 스케일 인/아웃 : Auto Scaling

DNS 서비스 : Route 53

EC2

Auto Scaling

EC2 EC2

AMI

ELB

CloudWatch

알람

Route53

사용자 접근 시 내부 동작 흐름

Page 4: Kr dag aws_bye(서종호)20141206(공개)

http://sola99.tistory.com

1. Scale Out 패턴 (서버 수의 동적 증감)

1.5 장점

1.7 주의점

서비스 연속성 : 트래픽 양 증가에 따른 자동 EC2 인스턴스 배치

비용 절감 : 트래픽 양 감소에 따른 자동 EC2 인스턴스 삭제

자동으로 동작하므로 운영이 쉽다

ELB 아래 필요수 만큼 EC2 배치로 ScaleUp과 비교하면 처리 능력

한계가 매우 높음

수 분 사이 급격한 트래픽 변동 대응 어려움(증가 배포 시간 걸림),

미리 특정 시간에 증가 스케줄링이 필요

HTTP 세션 관리나 SSL 처리 역활 : ELB or Web/AP 서버 중 택일

ELB는 사양에 따라 분산량 변경 구조 불가로 EC2인스턴스 통일 필요

안정성을 높이기 위해 여러 곳의 가용존에 분산 스케일 아웃 필요

1.6 Auto Scaling (쿠키런)

1.8 Auto Scaling (Animoto)

출시 직후(9만명), 출시 후 일주일(120만명 돌파), EC2(2대~100대)

Page 5: Kr dag aws_bye(서종호)20141206(공개)

http://sola99.tistory.com

1. Scale Out 패턴 (AWS 자동 스케일 아웃 패턴)

⁎도메인(가비아)

① Route53

1.9 상세 동작 구조

Route53

ELB

AMI

감시

사용자 접근 시 내부 동작 흐름 Data복제 흐름

Master EC2

콘텐츠 NFS 서버

Clone1 EC2

콘텐츠 NFS

로컬 복제

Clone2 EC2

콘텐츠 NFS

로컬 복제

CloneY EC2

Auto Scaling CloudWatch RDS(DB)

마운트

마운트

동기 동기

Read Write

심볼릭 링크

Read Write

심볼릭 링크

ELB제외

Auto Scaling Group

알람 변경

상태정보

① campaign.sola99.com

④ ⑤

Page 6: Kr dag aws_bye(서종호)20141206(공개)

http://sola99.tistory.com

1. Scale Out 패턴 (AWS 자동 스케일 아웃 패턴)

② ELB

③ EC2

1.9 상세 동작 구조

Route53

ELB

AMI

감시

사용자 접근 시 내부 동작 흐름 Data복제 흐름

Master EC2

콘텐츠 NFS 서버

Clone1 EC2

콘텐츠 NFS

로컬 복제

Clone2 EC2

콘텐츠 NFS

로컬 복제

CloneY EC2

Auto Scaling CloudWatch RDS(DB)

마운트

마운트

동기 동기

Read Write

심볼릭 링크

Read Write

심볼릭 링크

ELB제외

Auto Scaling Group

알람 변경

상태정보

① campaign.sola99.com

④ ⑤

Master EC2

CloneY EC2(AMI)

Page 7: Kr dag aws_bye(서종호)20141206(공개)

http://sola99.tistory.com

1. Scale Out 패턴 (AWS 자동 스케일 아웃 패턴)

④ 감시 (측정치 전송) 1.9 상세 동작 구조

Route53

ELB

AMI

감시

사용자 접근 시 내부 동작 흐름 Data복제 흐름

Master EC2

콘텐츠 NFS 서버

Clone1 EC2

콘텐츠 NFS

로컬 복제

Clone2 EC2

콘텐츠 NFS

로컬 복제

CloneY EC2

Auto Scaling CloudWatch RDS(DB)

마운트

마운트

동기 동기

Read Write

심볼릭 링크

Read Write

심볼릭 링크

ELB제외

Auto Scaling Group

알람 변경

상태정보

① campaign.sola99.com

④ ⑤

⑤ 알람

Page 8: Kr dag aws_bye(서종호)20141206(공개)

http://sola99.tistory.com

1. Scale Out 패턴 (AWS 자동 스케일 아웃 패턴)

⑥ 알람 발생 후 Action 전달 1.9 상세 동작 구조

Route53

ELB

AMI

감시

사용자 접근 시 내부 동작 흐름 Data복제 흐름

Master EC2

콘텐츠 NFS 서버

Clone1 EC2

콘텐츠 NFS

로컬 복제

Clone2 EC2

콘텐츠 NFS

로컬 복제

CloneY EC2

Auto Scaling CloudWatch RDS(DB)

마운트

마운트

동기 동기

Read Write

심볼릭 링크

Read Write

심볼릭 링크

ELB제외

Auto Scaling Group

알람 변경

상태정보

① campaign.sola99.com

④ ⑤

⁎부하 발생 방법 Apache Bench(ab) ab -n 1000 -c 3 http://google.com/ ab -n 1000 -c 1 http://campaign.sola99.com/

Complete requests: 1000 Complete requests: 1000

Time taken for tests: 2.653 seconds Time taken for tests: 162.472 seconds

Time per request: 2.653 [ms] (mean, Time per request: 162.472 [ms] (mean)

Page 9: Kr dag aws_bye(서종호)20141206(공개)

http://sola99.tistory.com

1. Scale Out 패턴 (AWS 자동 스케일 아웃 패턴)

⑦ AMI 1.9 상세 동작 구조

Route53

ELB

AMI

감시

사용자 접근 시 내부 동작 흐름 Data복제 흐름

Master EC2

콘텐츠 NFS 서버

Clone1 EC2

콘텐츠 NFS

로컬 복제

Clone2 EC2

콘텐츠 NFS

로컬 복제

CloneY EC2

Auto Scaling CloudWatch RDS(DB)

마운트

마운트

동기 동기

Read Write

심볼릭 링크

Read Write

심볼릭 링크

ELB제외

Auto Scaling Group

알람 변경

상태정보

① campaign.sola99.com

④ ⑤

⑧ ⑧ 자동 배치

Page 10: Kr dag aws_bye(서종호)20141206(공개)

http://sola99.tistory.com

2. AWS 장애 사례

일시 내용

2014.11.27 일본 도쿄 CloudFront Route53 장애 발생, 연동된 DNS서비스 접속 불가

2014.09.25 EC2의 10%가 '보안/운영 업데이트'로 재시동 NETFLIX는 Chaos Monkey 로 충분한 대응, 당일 2700여대 카산드라 노드중 218대가 재시동, 22대는 fail로 자동 교체로 다운타임 '0'

2014.07.02 드림라인ISP사용 고객, AWS쪽 트래픽 패킷 로스(2주 연속 서비스 장애), 해결책 없음, (답변) 보상 어려움

2014.06.15 SK망에서 *.cloudfront.net 의 DNS resolve 안되는 장애(1일후 조취)

2013.10.31 EC2 서버 은퇴로 EC2 새로 생성해야함(물리 서버 교체 작업)

2013.09.14 노스버지니아 DC 내부 네트워크 장애(2시간)

2013.01.22 사용자 불만 접수 내용 - 1개월간 EC2(도쿄) 3번 재부팅으로 매출 손해 발생, (답변) 멀티존, 모니터링해라

2012.12.24 노스버지니아 DC에 휴먼 에러(ELB 삭제로 20시간 장애), 관리자동화 요구 증대

2012.06.18 노스버지니아 DC 정전으로 인한 장애(8시간)

Page 11: Kr dag aws_bye(서종호)20141206(공개)

http://sola99.tistory.com

3. AWS 환상 타파

가용성 : EC2와 EBS 최소 99.95%의 월별 가동시간 비율 제공 (월 36분)

비용 : 국내 탑 게임사 CIO "고객내 TF팀에서 TCO 시뮬레이션 결과로 국내 웹호스팅이 2~3% 싸다

하지만 AWS는 인력비용 절감 및 자동화로 절감 효과가 더 좋음“

$25,000 = \ 27,875,000

보안

운영

Page 12: Kr dag aws_bye(서종호)20141206(공개)

http://sola99.tistory.com

4. Next~ MS Azure ‘2015

Page 13: Kr dag aws_bye(서종호)20141206(공개)