bigdata와 forensic readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/track_b_2.pdf ·...

19
1 2013. 3 BigDataForensic Readiness - Enterprise Security

Upload: truongcong

Post on 16-Mar-2018

219 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

1

2013. 3

BigData와 Forensic Readiness - Enterprise Security

Page 2: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

2

Contents

빅데이터 소개 I

빅데이터와 Forensic Readiness II

보안로그분석 적용 사례 III

Page 3: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

3

도입의 필요성 1.

빅데이터와 보안 I

Page 4: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

4

1) 고가의 서버 구매 불가

2) 장애시 서비스 가입자 이탈 예상

3) 서버의 불안정성 낮은 신뢰성

4) 24시간 운영 무중단 서비스 운영 필요

빅데이터 처리 인프라의 시작 : GOOGLE

Page 5: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

5

Big Data 분석 특징

Data Volume

Data Type Variety

Data Feed Velocity

현재 기업 내 분석 데이터 규모 설문 조사(미국, 2011년) • 10-100 TB 가장 일반적(37%) • 하지만 향후 3년 내에는 100 TB 이상 증가할 것으로 예상 (41%)

IT Compliance 이슈로 인해 방대한 로그의 양에 대한 신속한 처리 필요 • 개인정보 처리 시스템 접속로그 6개월, E-discovery 3년, 내부통

제 모범규준 3년.. (100TB-PB이상)

이전보다 훨씬 다양한 종류 데이터 소스 수용 기존 웹 소스 : logs, clickstreams, social media 등 신규 소스 : 어플리케이이션 서버로그, 보안로그 공급망의 RFID data,

콜센터 상담의 speech-to-text 데이터, B2B 프로세스에서의 데이터, GIS 데이터, 차량 센서 데이터 등

단순 데이터 처리를 넘어서 분석하기 시작 Structured data(DB/DW data)는 Unstructured data(text, voice 등),

Semistructured data(XML, RSS 등)와 결합되어 분석됨

데이터 소스가 다양해 지면서 데이터 생성과 전송 주기도 다양화 데이터 분석 속도의 요구사항이 다양화 됨

• Batch, Near-real time, Real-time 빅데이터 기술과 관심의 최전선은 streaming data(로그포함)

Page 6: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

6

빅데이터 활용 영역

Search Engine : Google Mail Service : Gmail Social Media : FaceBook, Twitter, KaKao IT Infra Service : Amazon

•Genomic/pharma/Medical

•Machine/Device Sensors/meters/ RFID tags

웹클라우드 서비스 떠오르는 적용분야

•Security Data Processing -E-discovery

-Forensic Readiness

Page 7: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

7

Big data와 Hadoop

2016년에 전세계 데이터의 50%가 Hadoop에 저장될 것으로 예측1)

대용량 데이터 분산 처리 프레임워크로 저비용으로 Big Data 처리에 적합

Google Map Reduce 기술 및 Yahoo 검색 서비스를 적용한 Open Source 기술

Hadoop is an ecosystem,

Not a single product.

대용량 파일 저장소 및 분산/병렬

컴퓨팅 기능 제공

많은 vendor들이 자신들의 Hadoop

distribution을 만들고 있음

구성요소들을 각 사업별로 맞는 것

을 선정해서 써야 하며 이것도 역량

Hadoop Core 모듈

1)Eric Baldeschwieler(Hortonworks)의 2011년 Apache Lucene Eurocon 발표 자료

HDFS (Distribute File System : Unstructured Storage)

HBase (Distribute Data Store : Semi-Structured Storage)

MapReduce (Distribute Data Processing)

HIVE (Batch SQL)

ZooKeeper

(Coord

ination)

Commodity H/W Cluster

Page 8: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

8

저가 스토리지 용량 증대

오픈 소스 소프트웨어의 비약적인 발전 APACHE외

빅데이터 처리 기술적 공개 GOOGLE

빅데이터 기술 발전의 기술적 배경

일반 컴퓨터 대비,2배이상의 컴퓨팅 성능을(HDD) 가진 컴퓨터는 4배이상 고가 10배이상의 컴퓨팅 성능을 가진 컴퓨터는 30배이상 고가 범용컴퓨터를 다수를 묶어서 대용량 데이터 처리

구분 HADOOP 시스템 기존 방식 데이터 처리

데이터에 대한 연산

데이터 처리가 대부분 조회, 데이터

의 변화는 대부분 INSERT 업데이트, 삭제,

데이터의 포맷

정형화된 포맷의 데이터가 아닌 경우에 더 강력(로그데이터외)

정형화된 포맷

데이터의 가치

개별 데이터는 가치가 높지 않음 금전적 거래 등 하나하나가 중요한 데이터

데이터의 속성

실제 원시 데이터 요약된 데이터, 혹은 하나 하나 거래 데이터

Page 9: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

9

도입의 필요성 1.

빅데이터와 Forensic Readiness

II

Page 10: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

10

구분 시나리오 예전 구축후

방화벽 로그분석 **원 요청으로 악성코드 배포하는 통제C&C서버로 판명된 서버 272.82.65.1에 최근 6개월내 접속한 클라이언트 IP를 모두 뽑아주세요..

하루-1주일 1시간-하루

웹접속 로그분석 감사팀 요청으로 최근 신규발견된 온라인 도박사이트, 미성년

자 음란 사이트 사이트 1,000개 접속한 분 상위 100여분 추출 (3개월치에 대해서)

1주일-1달 1-3시간

메시징아카이빙감사분석

3년동안 ‘apple’,’i-phone’, ‘design’,’patent’,등 1,000여개 키워

드 매칭되는 메일 수발신 기록해달라.. 금감원감사에서 지적된 30여개 키워드에 대해서 매칭되는 메일을 3년치에 대해서 모두 제공해주세요..

1-2주일 3초-10초

개인정보 유출 사후 통합 분석 (전송/복사/출력 기록 분석)

**원 감사 요청사항 3년치 메일 아카이빙 로그에서 주민번호, 카드번호, 계좌번호

를 포함한 웹메일을 추출 3년치 출력물 로그중에서 특정 키워드 해당되는것을 찾아주

세요.. 3년동안 USB로 카피된 파일내 특정 개인정보 키워드에 해당

하는것은 어떤것이 있을까요.. 사내 웹어플리케이션에서 3년동안 이번에 유출된 VIP 고객주

민번호를 조회한 경우는 모두 달라

불가능(여러 채널

에 대한 동시 분석은 불가)

3초-1day이내

Forensic Readiness 제고

Forensic Readiness 제고 : 보안사고 발생후 분석의 속도, 정확성, 다양성 제고

- 멀티채널 동시 분석 ,Iterative Analysis, 기존대비 10-1000배이상 속도개선

Page 11: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

11

갑자기 **원, **원, **청, **청 회사 방문한다. XX에서 귀사의 고객정보가 해외에서 거래되는 정황이 발생했습니다. (서버,client IP) 이에 대한 정보를 제공해주시길 바랍니다.

1) 악성코드 배포 서버가 어디인가 2) 악성코드 배포 서버로 접속한 분들이 누

구인가 3) 어떤 경로로 자료가 나갔는가 4) 어떤 자료가 나갔는가 5) 언제부터 공격을 당한건가

1) 방화벽 1년치 로그에서 악성코드 배포 서버(C&C)

로 접속한 클라이언트 IP주소 모두 확인(30분) 작년 X월부터 접속 기록이 있는것을 확인 해당 클라이언스 PC의 증적 확보

2) 해당 클라이언트에서 C&C서버로 웹접속 URL request1년치 확인

Response를 저장할시 C&C서버에서 내려온 지령 데이터도 command 데이터도 저장가능 (30분)

3) 해당 클라이언트에서 C&C서버로의 웹 POST 전송 내역 1년치 확인(3초)

해당 클라이언트의 1년치 외부 메일/웹메일/메신저

/웹하드/웹게시판 발신 메시지 내역 모두 조회하여 이상 징후 내역 확인(1시간)

4) 방화벽에서 해당 IP에서 C&C서버로의 데이터 전송량을 분석하여 얼마나 많은 데이터 전송되었는지 확인(30분)

임원 X만명, active IP X만개, 방화벽로그 : X억 X만건 하루 XX기가, 웹접속로그 : X천만건 : XX기가, 메시징 로그 : X만건, XX기가

적용 사례 ( 엔터프라이즈 악성코드 배포 추적 )

Page 12: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

12

갑자기 **원,에서 경보를 발령한다. 1) 보이스피싱, 금융사기에 사용된 중국 프락시 서버의 IP가 30여건 발견되었다. 귀 금융사가 최근 3개월동안 해당 IP에 접속한 내역이 있는지 확인해달라..

1) 우리 은행서비스 인터넷 뱅킹 시스템에서 해당 IP에서 접속된 경우가 있는가..

2) 해당 IP에서 로그인이 성공된적이 있는가 3) 해당 IP에서 접속한 세션에서 서비스 계

좌이체 서비스까지 진행된 적이 있는가.. 4) 해당 IP에서 접속한 ID중에서 다른 IP에서

접속한 경우가 있는가

1천만명 대상으로 인터넷 뱅킹 서비스 클라이언트 IP : 2천만개 대상 ID : 1천만개 이상 방화벽로그 : X억 X만건 하루 XX기가, 웹서버 로그 : X천만건 하루 XX기가 인터넷 뱅킹 서비스 로그 : X천만건 하루XX기가

적용 사례 ( 은행 인터넷 뱅킹 서비스 )

1) 방화벽 로그 확인하여 해당 프락시서버를 경우에서 인터넷 뱅킹에 접속한 내역이 최근 3개월이내 있는지 확인(30분)

2) 웹서버 로그를 확인하여 해당 IP에서 접속시 로그인성공이 이루어졌는지 확인(30분)

- http request에 대한 분석으로 로그시도 분석

- 해당되는 ID를 모두 추출

3) 위의 로그인 성공시 사용된 사용된 ID를 대상으로 다른 접속 IP추출

2)의 작업 계속 - 30분-2시간

4) 로그인이 성공된 세션에 대해서, 계좌이체등이 시도/성공된 세션에 대해서 분석 ( 실제 금융사고까지 성사된 단계)

- 30분 내외

Page 13: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

13

내부통제 모범규준

내부통제 모범규준의 8조는

메일/메신저등 정보통신 수단의 송수신로그(첨부화일 포함) 대해서 3년치 저장 요건을 강제하고 있습니다.

10조에서는 이러한 데이터에 대한 이상징후를 상시적인 감사를 요구하고있습니다.

금융회사의 정보 통신 수단 등 전산 장비 비용관련 내부통제 모범규준 중 메일 저장 및 검색관련 규정

구분 주요내용 Mail-i For BigData 비고

8조 (업무용 정보통신수단 로그 기

록 보관)

1항 금융회사는 전자우편, 메신저의 송수신 로그기록을 보관해야 한다. 2항 로그는 송수신일자, 시각, 송수신자 ID/IP, 내용 및 첨부화일 등을 포함하고 있어야 한다. 3항 로그는 최소 3년이상 보관해야 한다.

3년치 메일을 온라인상태로 저장 (백업테

이프에 저장하지 않고 온라인 스토리지 형태로 저장) 메일 본문 및 첨부화일까지 저장

9조 (업무용 정보통신 수단 로그 기

록 관리)

8조의 로그에 대해서 연1회이상 로그를 감사해야 한다. 로그 점검 결과를 5년간 기록관리해야한다.

메일화일은 물론이고 인덱스까지 3배수이

상 중복 저장으로 안정성 확보

10조(업무용 정보통신 수단 이용 모

니터링)

준법감시인은 7조의 금지사항을 위반하는 행위가 있는지 로그를 모니터링해야 한다. 모니터링 내용은 5년이상 보관해야한다.

3년치 1억건의 메일에 대해서 3초내 검색

기능 제공 제목/본문/첨부화일에 대해서 키워드 분석

제공 기존 방식대비 10-1000배이상 검색 성능 개선

- 3년치 데이터에 대한 신속한 검색 요건(기존 감사시 로그 검색에 1주일-2주이상 시간 소요) - 3년치 데이터를 저장 검색하기 위한 비용 최소화 - 3년치 데이터에 대한 신뢰성있는 저장

Page 14: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

14

e-discovery

소송관련자의 메일/메신저등 정보통신 수단의 송수신로그(첨부화일 포함) 대해서 3년치 내용 법원 제출 (180일 이내) 증거제출불성실시 증거인멸로 인정

구글과의 e-mail이 결정적 증거로 채택되었다는 주장제기 : 평상시에 꾸준한 e-mail 감사로 인하여 위험 회피 노력 부족

美 배심원 대표 "구글 e메일이 결정적 역할 2012.08. 블름버그 **전자가 애플과 미국 특허침해소송 배심원 평결에서 진 결정적 이유는 구글이 삼성에게 보낸 e메일이라고 블룸버그통신이 25일(현지시간) 보도했다. 미국 캘리포니아 북부지방법원 배심원단 대표인 벨빈 호건(67)은 한 인터뷰에서 "모든 것은 **이 실제로 모방했다고 생각하느냐에 달려 있었고, 우리는 가야만 하는 곳이 증거 속에 있단 것을 알았다"며 2010년 **의 내부 e메일을 거론했다. 그는 "배심원들은 구글이 **에 애플 디자인을 피하라고 말하는 메모를 봤을 때" 그 메모가 증거의 역할을 했다며, “**전자 고위급 경영진들이 부하 직원들에게 실제로 모방하라고 지시했다"고 단언했다. 이 e메일은 2010년 2월15일 구글과 회의한 한 ** 선임 디자이너의 논평을 삼성 내부에서 회람하기 위해 발송된 것이다. 그 e메일은 **의 태블릿 PC 한 모델을 언급하면서 "애플과 너무 유사하기 때문에 앞부분부터 시작해서 두드러지게 다르게 만들어라"라고 지시한 내용을 담았다. 또 다른 e메일은 그해 2월22일에 ** 직원 30여 명에게 보내진 것으로 "(갤럭시)S 시리즈의 디자인 유사성 문제에 대응할" 필요성을 담고 있다. 그 e메일은 "구글이 아이패드와 구별할 수 있는 디자인을 요구하고 있다. 현재 디자인을 유지하면서, 각 통신사와 구글의 요구를 감안해 디자인 구별 가능성을 검토하라"고 지시했다.

***의 e-mail등 증거인멸이 인정된다는 미법원의 판결

E-discovery(디지털 증거개시제도)

** VS 애플의 CASE(1조원의 손해배상, 2012.8)

***** VS 듀폰 CASE ( 7천억의 손해배상 2012년 8)

e-mail 데이터 제출 미비가 증거 인멸 인정 : e-mail archiving 및 지속적인 감사 활동 부재

Page 15: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

15

도입의 필요성 1.

구현사례 III

Page 16: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

16

2. 시스템 개념도

Hadoop 저장

검색엔진 저장

실시간 분석 엔진

배치 분석

DataNode

원본data저장

실시간 색인기

통합 검색

Index 저장

분석

- 통계학적 분석

- 자동주기분석

- 상관분석

검색

- 조건 검색

실시간분석

- Incremental

- Time Series

- 유형별 집계

수집대상 수집 저장/색인 검색/분석

수집 서버 Hadoop

•Network -Router, switch, NAT, FWSM, DDos, Firewall, WAF •Hosts File System -windows, unix, linux system log, event log •WAS/Web Server -Accesslog -Application log •Database

수집 방식

Agent

Agentless

collector

Page 17: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

17

검색 조건에 따른 필드별 집계 표시로 상관 관계 분석 기능 제공

3. 주요 기능 – 검색 및 분석 기능

Page 18: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

18

3. 주요 기능 – 검색 및 분석 기능

직관적인 분석 대상 기간 설정기능

실시간 검색 및 분석 지원

Hadoop과의 직접적 연계를 통해 Hadoop echo 시스템 이용 가능

실시간 분석을 통한 통계 분석 시스템 지원

Hadoop의 직접 이용을 통해 사후 분산 배치 분석 지원

검색 엔진 최적화를 통한 빠른 검색 결과 제공

Page 19: BigData와 Forensic Readiness - cpoforum.or.krcpoforum.or.kr/privacy2013/download/Track_B_2.pdf · iii 보안로그분석 적용 ... 오픈 소스 소프트웨어의 비적인 발전

19

구분 메일 아카이빙 전문솔루션+ 스토리지

(NAS-SAN) Mail-I For BigData 비고

스토리지 비용/솔루션 라이센스

비용 고가

NAS/SAN스토리지 대비 1/5-1/10의 비용으로 처리

3년치 데이터 저장 위치

3개월치 온라인 이후 백업테이프 온라인 스토리지에 모든 데이터 보유

3년치 자료 검색 속도

온라인에 잇는 자료에 대한 검색은 빠르

나, 백업된 자료에 대해서는 검색이 불가능하여, restore하는 작업이 필요

3년치 자료에 대해서 3초이내 검색

데이터 손상시 대응책

전문 데이터 복구 솔루션을 사용하여 복구 시도

3배이상 데이터 중복 저장하여 실시간 자율적인 복구

서버 손상시 대응책

서버 복구하여 재투입 3배이상 데이터 중복 저장하여 실시간 자율적인 복구, 서버 장애시 서버 교체 ( 저가의 서버)

SPOF(single point of failure)

존재

검색인덱스 장애시 인덱스를 처음부터 재구성해야할 필요 ( 장기간 소요)

검색엔진 인덱스까지 3중복제하여 저장하여 SPOF 제거

스토리지 용량 증설 작업 절차

모든 서버를 다운시키고, 설정을 다시한

후, 다시 서버를 올리는 단계 스토리지 증설은 저가의 스토리지 장비를 네트워

크에 물려넣기만 하면 자동적으로 진행

메일 백업 절차 온라인 스토리지에 없는 데이터를 테이

프에 백업 백업이 필요없음

4. 기존 처리 방식과 비교

기존 메일아카이빙 방식과의 비교

스토리지 및 서버 구성 비용(1/5-1/10), 검색성능(10배-1000배), 안정성, 장애시 복구가능성, 서버증설반영가능성 측면

개선