meetup survey - s3.ap-northeast-2. · pdf file§허민석님인프런강좌-https: ......

27
Meetup Survey 2017/06/22 김종민 [email protected] www.elastic.co

Upload: doantuong

Post on 24-Mar-2018

221 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

Meetup Survey

2017/06/22

김종민[email protected]

Page 2: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

사전설문응답내용

1

Page 3: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

사전설문응답내용

2

Page 4: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

사전설문응답내용

3

Page 5: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

사전설문응답내용

4

Page 6: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

질문 – General

• 무료동영상강의같은것볼수있는데없나요? (짧막한한두건의영상을뜻하는게아니라 coursera나 udacity같은데올라오는형태의, 장기간에걸쳐학습할수있는과정같은것이요)§ 허광남님유튭 - https://www.youtube.com/user/heogwangnam/playlists§ 허광남님 OKDEVTV - https://okdevtv.com/mib/elk/elk5§ 허민석님인프런강좌 - https://www.inflearn.com/course/elk-스택-데이터-분석/

• 엘라스틱검색을 DB기능으로사용할때, 장단점을알고싶습니다.§ Elasticsearch를통한 CRM 구축 - https://www.elastic.co/kr/blog/using-elasticsearch-to-build-crm§ Elasticsearch: 외부데이터저장소의데이터무결성확인 -

https://www.elastic.co/kr/blog/elasticsearch-verifying-data-integrity-with-external-data-stores

5

Page 7: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

질문 – General

• ES와 AWS ES의차이§ AWS ES 는 AWS 에서 Elastic Stack 을내장하여만든자체적으로서비스하는제품입니다.§ AWS ES 와관련하여 Elastic 은아무런비즈니스이해관계가없습니다.§ Elastic Cloud 에는 X-Pack 이포함됩니다.§ 더자세한내용은블로그에 - https://www.elastic.co/kr/blog/hosted-elasticsearch-services-roundup-

elastic-cloud-and-amazon-elasticsearch-service

• watcher 를이용한활용사례. (action webhook 사용) § USAA (미국방부) 에서 Alerting (watcher) 를이용해 SIEM 을만들어활용중입니다. -

https://www.elastic.co/elasticon/conf/2016/sf/all-quiet-digital-front-security-analytics-usaa

6

Page 8: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

질문 - General

• 배재현님 : 기업의규모가데이터분석과관련된엘락스틱스택을처음구축할때고려해야할사항에대해알고싶습니다.§ https://www.elastic.co/kr/blog/performance-indexing-2-0§ https://www.elastic.co/kr/blog/performance-considerations-elasticsearch-indexing§ https://www.elastic.co/blog/found-sizing-elasticsearch

7

Page 9: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

질문 – Case by Case

• 박영민님 - 기존에시각화및데이터분석용도로사용중이던 elastic cluster를검색 DB 기능으로추가활용한다고했을때, 추가적으로어느정도규모의검색을예상하셨고그에따른노드추가및설정은어떻게진행하셨는지궁금합니다. 또검색 DB로써의기능을추가했을때기존시각화및데이터분석에영향은없었는지궁금합니다.

• "협업할때문제. ex ) 문서구조가쉽게바뀔수있는데이를어떻게보안했는지.A문서의 field가추가/삭제되었는데 B개발자가변경하기전의 A문서를사용할경우스키마가깨지게되는문제”

• 최적화하신방법들

8

Page 10: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

질문 – Case by Case

• 사용하시면서어려웠던점, 다른 stack 과비교해서 elastic을사용하면서발생할수있는 issue까지말씀해주시면좋겠습니다.

• 대용량데이터통계시스템을구축하면서데이터가많아짐에따라겪으셨던시행착오가궁금합니다.

9

Page 11: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

답변 : 박영민

• 기존에시각화및데이터분석용도로사용중이던 elastic cluster를검색 DB 기능으로추가활용한다고했을때, 추가적으로어느정도규모의검색을예상하셨고그에따른노드추가및설정은어떻게진행하셨는지궁금합니다.

• 또검색 DB로써의기능을추가했을때기존시각화및데이터분석에영향은없었는지궁금합니다.

§ - 순동접사용자분당1,000명 1회 500 Byte데이터 Read와 100 Byte 의데이터변경을기준으로 최소하루 500만건이상의트랜잭션이이루어지는시스템를기준으로시스템운영시에데이터베이스는 mysql db로사용하고있을때, 기존데이터베이스의테이블의스키마변경이나인덱스가깨진경우, 또는순간동접자의접속으로인해디비의Hang걸리는사태가많아, 시스템의다운을초래하였음 , 중간에카우치베이스캐싱같은서비스를이용하여캐싱처리도진행하였지만, 디비의걸리는부하에대해서장애가일어나며, 기하급수적인사용요금의증가가발생함(적용대상은접속량이많고단건데이터의트랜잭션이많은경우 - 게임, 주식데이터등)

§ 인덱스노드 1에서비스노드 3개로추가하여총 4개노드로구성하였고, 초기에는디비에갱신후특정시간후에색인데이터교체(alias) 로하는방식으로처리후에는바로디비와데이터동기화방식(spring elastic data 모듈)으로인덱스를구성해서 DB=Elastic Search 동기화처리하고 Read는엘라스틱에서만이루어지게함

§ 기존의시각화및데이터분석에영향은전혀없었으나, 인덱스노드에서색인데이터가서비스노드로동기화시특정서비스드에느리게내려가는경우가발생하는사례가있었음.

10

Page 12: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

답변: 배재현

• 기업의규모가데이터분석과관련된엘락스틱스택을처음구축할때고려해야할사항에대해알고싶습니다.

§ Elasticsearch를선택한이유는발표자료에도나와있지만데이터모델의유연함과운영의용이함이었죠. 하지만Elasticsearch 대용량운영에대한확신이없었기때문에넷플릭스였다면저도아마 Druid로시작했을겁니다. Druid는 data mutation도허용하지않지만어떻게어떻게 stream processing 상에서조인할수있거나 batch로ETL하는방식으로운영을해나갔겠죠. 하지만우버에서초반에그걸운영할엄두가나지않았습니다. 우버데이터센터인프라가그다지저에게익숙하지않은상황이었거든요.

§ Logstash는우버로그검색시스템에서아주광범위하게사용되고있었기때문에처음에저도테스트해봤는데성능이나지않았습니다. 제가이래저래튜닝해봤지만별효과가없었고같은로직을 Samza로짰을경우에throughput이딱두배차이나는거보고그냥포기해버렸습니다. 게다가 kafka consumer의 checkpointing이효율적이지않아 guaranteed delivery도되지않았기때문이죠. 지금은관련문제가해결되었다면굳이 stream processing을이용해서단순 delivery를구축할필요는없다고봅니다. 그런데 real-time ingestion 요구사항이나오면단순히데이터를집어넣는걸로는모자란경우가허다합니다. 그래서 stream processing 시스템에익숙해지는건굉장히유용하죠.

11

Page 13: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

답변: 배재현 cont.

• 기업의규모가데이터분석과관련된엘락스틱스택을처음구축할때고려해야할사항에대해알고싶습니다.

§ Kibana는아주좋은툴입니다만우버에서사용하는 hexagon을표시할수없어서애초부터고려대상이아니었습니다. 그때당시 visualization engineer가 Kibana에관심이많았다면플러그인방식으로어떻게해결하지않았을까싶겠지만, 발표자료에도나와있다시피저희는별도 query planner를구축하고있었기때문에통합하기도쉽지않았고요. 즉 Kibana도 Elasticsearch와범용적인통합에는최적의솔루션이지만성능최적화차원에서보면 in-house로개발할수밖에없는 component 중에하나였습니다.

§ Elasticsearch는 real-time과 batch를동시에구현할수있는최고의 analytics solution입니다. 전세계독보적으로유일하죠. es-hadoop connector도그중한몫했고요. 그리고데이터모델링이나 query planning 관련제약을두는방식으로 Elasticsearch의 scaling 문제는얼마든지협상가능하다고봅니다. 우버스케일이구글/페북/넷플릭스는아니지만 marketplace data scientist들이데이터를분석하고모델링하는데는전혀지장이없었고 data retention이길어지는문제에대해서는하둡기반솔루션으로 scaling down하는식으로시스템이진화해가고있었기때문이죠. 요약하면, 제가담당자라면무조건 Elastic 기반으로시작한뒤, 운영/비용의최적화가힘들어지는시기에오면다른솔루션을도입할듯합니다. 보통의회사들은이걸반대로하고있지만요.

12

Page 14: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

질문 -_-;;

• 로그스태시를이용해비정형데이터를파싱하는전형적인방법이궁금합니다!

• 다수의센서에서위치정보와시간정보가동시에집계된길이가제각각인대량의시계열데이터에서같은정보별로통계처리를하려면어떻게하는게가장효율적일까요? (예: 자동차에서속도정보를도로구간별로묶을경우)

• 통계의구체적인활용방법과기계학습과의편리한연동방법이있는지

• 트래픽유입별시스템사이징지표 (사용자가증가하면서시스템을증설해야되는시점파악에유용한지표)

13

Page 15: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

질문 - ????!!!!!

• 엘라스틱이과연검색엔진트렌드를주도할수있을것같으신가요?§ https://db-engines.com/en/ranking/search+engine

14

Page 16: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

불편했던점이나보완이필요하다고생각되는점

• 문서내용을쉽게바꿀수있는툴이없다. ex) head plugin으로문서내용을보고바로변경하고싶은데그런기능이없다.§ https://github.com/lmenezes/cerebro

• 클라우드에서도머신러닝사용해보고싶습니다.§ 현재 Beta 라서 Elastic Cloud에는빠져있습니다. 조만간…

15

Page 17: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

불편했던점이나보완이필요하다고생각되는점

• 버전호환성§ 6.0 에서 cross-cluster search 를계획중입니다.

• 너무좋습니다하둡에코말고 ELK로갈아타려고합니다!!! 로그스태시 grok으로비정형데이터다루기너무힘듭니다...

16

Page 18: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

불편했던점이나보완이필요하다고생각되는점

• join 기능, distinct 기능

• 데이터와데이터간의 Join 을통한집계데이터추출이불편합니다. 닷넷의 LINQ 와유사한기능이추가되면좋겠습니다.

• 엘라스틱서치에서매핑변경시인덱스를다시생성하고데이터를부어넣어야하는귀찮음이있습니다. 관계형DB처럼매핑을쉽게수정할수있는방법이있으면좋겠습니다.

• sub query

17

이것들은구조상어쩔수가…일부서드파티솔루션들이지원합니다.

Page 19: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

불편했던점이나보완이필요하다고생각되는점

• 교육이많았으면좋겠습니다.

• elastic cloud 사용과관련된튜토리얼및문서가부족한느낌을받았습니다.

• 잦은버전업에따른조금은크리티컬한이슈들의발생...

18

Page 20: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

불편했던점이나보완이필요하다고생각되는점

• 점점더많은한국인들이사용하고있기에제대로된번역본이존재했으면좋겠습니다. 엘라스틱서치는특성상, 키바나, 로그스태시, 파일비트등다양한제품과함께사용하는데요, 이러한제품들도번역본이있었으면좋겟습니다... 수많은예제와쉽고간편한설치는정말맘에듭니다. 하지만 HQ등보안상플러그인의지원중단등은정말아쉽습니다. 그리고커맨드가자주바뀌어지난예제들이제대로먹히지않는둥(Curator) 설치는쉽지만원하는예제를따라하기어려웠습니다. 그렇지만, 뛰어난성능을보여주는좋은제품을사용하게해주셔서감사합니다.

• 기능설명서의한글화가필요한것같습니다.

19

Page 21: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

불편했던점이나보완이필요하다고생각되는점

• 제품에대한한글설명또는가이드가부족함 (처음시작하는초보자에대해 elk 설명, 구축방법, 각종기술용어들)

• Kibana에분석관련기능이조금더추가되면좋겠습니다.

• 버젼별가이드가부실하다

• 시스템마이그레이션관련내용 ( v.2x-> 6.x로업그레디드진행 )

20

Page 22: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

한국 Elasticsearch 커뮤니티에바라는점

• 엘라스틱사에서진행하는교육도있지만좀더많은교육들이국내에서생겼으면좋겠습니다.

• 이러한밋업이자주했으면합니다~• 다른모임 (예: AWSKRUG, Python Korea)와같이더활발해졌으면좋겠습니다. 커뮤니티에올라오는단순질의응답도그렇고무엇보다주제별/실력별오프라인스터디모임이활발해졌으면좋겠습니다.

• 계속해서정기적으로유지되었으면좋겠습니다.• 한국커뮤니티는활성화되어있지만많은움직임이보이지않고있습니다. 좀더많은홍보가있었으면좋겟습니다.!! 한국개발자분께서친절하게답변달아주시는모습보기좋습니다:D

21

Page 23: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

한국 Elasticsearch 커뮤니티에바라는점

• 좋은자리감사드립니다. 화이팅!!!!!!!!!!!!!• 자주만남을가지면좋겠습니다• 많은컨퍼런스진행부탁드립니다.• 페이스북외에도네이버카페도활성화되었으면합니다.• 지금처럼꾸준히지원부탁드립니다.• 이런행사자주자주열어주세요 :)• 제발저를뽑아주세요엉엉엉 Hands on Workshop를가고싶습니다..• 주기적인기술교육강의가있었으면합니다. (주말스터니, 또는초급,중급,고급등으로나누어서기술강의등)

22

Page 24: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

한국 Elasticsearch 커뮤니티에바라는점

• 왕성한커뮤니티를바란다.• 활발한활동• 앞으로도좋은강연 부탁드립니다.• 한글로된예제자료가많이생겼으면좋겠습니다.

23

Page 25: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

교육및행사관련

• 외부교육• 패스트캠퍼스 - http://www.fastcampus.co.kr/data_camp_elastic

• 내부교육§ 9월에 Core Elasticsearch 교육있습니다. - https://training.elastic.co/§ 8월부터 (1 or Half) day Hands-On 을정기적으로할예정입니다.§ X-Pack 교육을격월로하고있습니다. – (구매예정자대상)

• 행사§ Elastic{on} Tour Seoul – 12월 (12 or 14)일

24

Page 26: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

뒷정리도와주세요

• 끝나고치맥뒷풀이있습니다.•• 뒷풀이가실분들은잠깐남아서의자정리좀같이도와주세요.

25

Page 27: Meetup Survey - s3.ap-northeast-2. · PDF file§허민석님인프런강좌-https: ... § Elasticsearch는real-time과batch를동시에구현할수있는최고의analytics solution입니다

THANK YOU

Jongmin [email protected]