데이터 기반 혼란을 위한 인공 지능 - informatica...• 의미검색,...

14
백서 데이터 기반 혼란을 위한 인공 지능 CLAIRE기계 학습 기반 혁신을 통해 데이터 생산성에서 성과를 이끌어내는 방법

Upload: others

Post on 27-Dec-2019

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 데이터 기반 혼란을 위한 인공 지능 - Informatica...• 의미검색, 패턴식별및데이터분류 • 이상감지및알림 2 . 예측 작업 • 데이터급증을처리하기위한버스팅

백서

데이터 기반 혼란을 위한 인공 지능CLAIRE의 기계 학습 기반 혁신을 통해 데이터 생산성에서 큰 성과를 이끌어내는 방법

Page 2: 데이터 기반 혼란을 위한 인공 지능 - Informatica...• 의미검색, 패턴식별및데이터분류 • 이상감지및알림 2 . 예측 작업 • 데이터급증을처리하기위한버스팅

이 문서에는 Informatica의 기업 대외비, 독점, 상거래상의 기밀 정보가 들어 있으며, Informatica의 사전 서면 동의 없이는 이 문서를 복사, 배포, 복제하거나 그 외의 다른 어떤 방식으로도 재현할 수 없습니다 .

이 문서 정보의 정확성과 완전성을 기하기 위한 노력을 다했음에도 불구하고 일부 오타 또는 기술적 부정확성이 있을 수 있습니다 . Informatica는 이 문서에 들어 있는 정보를 사용하여 발생하는 모든 종류의 손해에 대해 일절 그 책임을 지지 않습니다 . 이 문서의 정보는 예고 없이 변경될 수 있습니다 .

Informatica 소프트웨어 제품의 릴리스 또는 업그레이드에 이 자료에 나오는 제품 특성 통합과, 이러한 릴리스 또는 업그레이드 시기는 Informatica의 단독 재량으로 결정됩니다 .

미국 특허 6,032,158; 5,794,246; 6,014,670; 6,339,775; 6,044,374; 6,208,990; 6,208,990; 6,850,947; 6,895,471 또는 출원 중인 미국 특허 09/644,280; 10/966,046; 10/727,700 중 하나 또는 그 이상에 의해 보호됩니다 .

이 버전은 2017년 5월에 제작되었습니다 .

Page 3: 데이터 기반 혼란을 위한 인공 지능 - Informatica...• 의미검색, 패턴식별및데이터분류 • 이상감지및알림 2 . 예측 작업 • 데이터급증을처리하기위한버스팅

1

백서

목차

개요 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

데이터 관리 트렌드 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

데이터 관리 트렌드가 IT 리더에게 의미하는 것 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

데이터 관리 트렌드가 비즈니스 리더에게 의미하는 것. . . . . . . . . . . . . . . . . . . . . . . . . . 4

기계 학습이란? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

데이터 관리를 위해 기계 학습을 선택하는 이유 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

데이터 관리 시 기계 학습을 위한 기초 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Informatica CLAIRE: Intelligent Data Platform의 "인텔리전스" . . . . . . . . . . . . . . . . . . 6

CLAIRE 활용 사례 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

지능형 데이터 유사성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

태그를 이용한 지능형 도메인 검색 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

지능형 항목 검색 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

지능형 데이터 추천 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

지능형 구조 검색 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

지능형 이상 감지 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

결론 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

Page 4: 데이터 기반 혼란을 위한 인공 지능 - Informatica...• 의미검색, 패턴식별및데이터분류 • 이상감지및알림 2 . 예측 작업 • 데이터급증을처리하기위한버스팅

2

개요디지털 변혁은 실제로 일어나고 있으며 우리 손에 달려 있습니다 . 이것은 "혼란에 휩쓸리느냐 마느냐"의 문제입니다 . 조직은 재무 성과를 개선하고 업계에서 경쟁 우위를 확보하기 위해 변화의 이니셔티브를 추진하고 있습니다 . 이러한 이니셔티브의 예로는 고객 관계 강화, 운영 최적화, 의료 산업 개인화, 사기 방지 등이 있습니다 .

이를 성공적으로 이끄는 핵심 요소는 신뢰할 수 있는 적시의 데이터를 제공하여 이니셔티브를 추진하는 능력입니다 . 매우 간단합니다 . 성공적인 디지털 전략은 데이터에 기반을 둡니다 . 데이터 관리와 관련하여 구축한 역량에 따라 디지털 전략의 성공 여부가 결정됩니다 . 바꿔서 말하면 디지털 전략은 전략에 영향을 주는 데이터만큼만 효과가 있습니다 .

그러나 곤란한 점은 데이터를 “항상 그랬던 방식대로” 관리하는 것으로는 부족하다는 것입니다 . IT 리더는 보다 우수한 데이터를 모든 사람이 더 빠르게 활용할 수 있도록 데이터 관리 생산성을 증대시킬 방법을 모색하고 있습니다 .

Informatica의 CLAIRETM 엔진 또는 클라우드 규모의 AI로 구동되는 실시간 엔진은 기업 전반의 데이터 및 메타데이터로 구동되는 인공 지능(AI) 및 기계 학습 기술을 활용하며 조직 전반에서 모든 데이터 관리자와 사용자의 생산성을 대폭 증대시킵니다 .

Page 5: 데이터 기반 혼란을 위한 인공 지능 - Informatica...• 의미검색, 패턴식별및데이터분류 • 이상감지및알림 2 . 예측 작업 • 데이터급증을처리하기위한버스팅

3

데이터 관리 트렌드 데이터와 데이터 아키텍처에 대해 다른 방식으로 생각해야 할 때입니다 . 수십 년 동안 초점은 비즈니스 시스템과 프로세스에 맞춰졌습니다 . 비즈니스 시스템과 프로세스도 여전히 중요하지만 보다 우수하고 완전한 데이터를 적시에 비즈니스 이니셔티브에 제공하는 능력이 시장에서 조직을 진정으로 차별화하는 요소로 작용할 것입니다 . 그러나 대부분의 경우 IT 예산의 증대가 더딘 실정이므로 현재의 리소스를 활용하여 더 많은 작업을 수행하는 것을 고려해야 합니다 .

지금은 엔터프라이즈 데이터 관리 시 해결해야 할 과제가 그 어느 때보다 많은 시기입니다 . 데이터의 힘을 실현하기 위해서는 IT 조직이 다음에 대한 관리 능력을 갖추어야 합니다 .

1 . 더 많은 데이터:

• 데이터 볼륨: 글로벌 데이터 센터 트래픽에서 연간 15 .3제타바이트

• 데이터 복잡성 및 다양성: 기업 내부와 외부에서 가져온 많은 양의 새로운 소스 및 데이터 유형

• 데이터 속도: 200억 개의 연결된 장치를 동반하는 사물 인터넷(IoT)의 증가는 인터넷에 상시 접속되어 있는 데이터 스트리밍을 의미합니다 .

2 . 더 많은 사용자: 비즈니스 분석가, 일반 데이터 과학자, 데이터 관리자에 이르기까지 3억 2천 5백만 명의 비즈니스 데이터 사용자는 그 수가 증가하고 있으며 데이터에 직접 적시에 액세스하기를 원합니다 .

3 . 더 많은 통합 패턴:

• 클라우드로의 이동: ERP 제품군은 쇠퇴하고 있으며 클라우드로 이동하고 있습니다 .

• 분석 기술: 관련 업계는 데이터 웨어하우징을 보완하기 위해 빅 데이터, NoSQL 및 예측 분석과 같은 새로운 기술로 이동하고 있습니다 .

• 실험: 이제 사용자는 데이터를 활용하여 신속하게 가설을 수립하고 성공 또는 실패 여부와 관계없이 시도해 본 다음 이 과정을 빠르게 반복하길 원합니다 . 가설이 가치 있는지를 입증할 때까지 정확성보다는 신속성이 중요합니다 .

Page 6: 데이터 기반 혼란을 위한 인공 지능 - Informatica...• 의미검색, 패턴식별및데이터분류 • 이상감지및알림 2 . 예측 작업 • 데이터급증을처리하기위한버스팅

4

데이터 관리 트렌드가 IT 리더에게 의미하는 것조직에서 데이터가 디지털 변혁의 원동력이라는 사실을 깨달음에 따라 이러한 트렌드들로 인해 훨씬 더 복잡한 데이터 관리 프로세스가 만들어졌습니다 .

이것은 조직이 성공하는 데 도움이 되는 데이터 중심 리더십을 제공하기 위한 이상적인 기회입니다 . 예를 들어, IT 리더가 비용이 많이 드는 다수의 개발자 없이도 우수한 데이터에 대한 비즈니스 요구사항을 보다 신속하게 충족시키는 방법은 무엇일까요?

IT 예산 증대는 더디게 이루어질뿐더러 예산이 있다 하더라도 이 목표를 달성하기 위해서는 다음과 같은 3가지 핵심 요소가 필요합니다 .

• 데이터 관리 작업 및 프로젝트를 위한 자동화 및 효율성 증대

• 비즈니스 셀프서비스 지원 증대

• 현업 팀과 기술 팀 간의 업무 조정을 추진하기 위한 협업 증대

데이터 관리 트렌드가 비즈니스 리더에게 의미하는 것비즈니스 리더는 자신들이 혁신적인 이니셔티브를 추진할 힘과 경제적인 측면에서 이전에는 물을 수 없었던 질문을 할 힘이 있다고 느낍니다 . 그러나 리더들의 디지털 이니셔티브의 결과는 활용하고 있는 데이터만큼만 유용합니다 .

최우선 순위는 모든 데이터의 힘을 실현하기 위한 계획을 수립하는 것입니다.

모든 디지털 이니셔티브를 위한 기초로 데이터 관리 역량을 구축하는 것은 중요합니다 . 데이터를 조직 전반의 모든 사용자가 검색 가능하고 사용 가능한 자산으로 관리해야 합니다 . 또한 데이터는 목적에 맞는 품질을 지녀야 합니다 . 중요한 의사 결정과 상호 작용을 위해서는 우수한 품질의 데이터가 필요하며 신속한 혁신과 반복을 위해서는 양호한 품질의 데이터가 필요합니다 . 기술 측면에서 핸드 코딩이나 다양한 비통합 데이터 관리 툴은 비즈니스 요구사항을 충족하도록 확장되지 않습니다 .

Page 7: 데이터 기반 혼란을 위한 인공 지능 - Informatica...• 의미검색, 패턴식별및데이터분류 • 이상감지및알림 2 . 예측 작업 • 데이터급증을처리하기위한버스팅

5

기계 학습이란?기계 학습은 프로그램이 정적인 상태로 머무는 것이 아니라 데이터로부터 반복적으로 학습하는 기술입니다 . 기계 학습 시스템은 예측을 하거나 의사 결정을 내리는 데 사용할 수 있는 입력 기반 모델을 구축할 때 사용됩니다 . 보다 나은 결과를 얻기 위해 데이터로부터 학습하고 스스로를 조정할 수 있는 시스템입니다 . 데이터가 많으면 많을수록 더 빨리 학습하며 학습 결과는 더 정확해집니다 .

데이터 관리를 위해 기계 학습을 선택하는 이유핵심적인 비즈니스 이니셔티브를 위한 데이터 전달 속도를 높이기 위해서는 자동화를 증대해야 합니다 . 바로 이러한 상황에서 기계 학습이 필요합니다 . 기업 전반의 메타데이터 가시성과 기계 학습을 통해 데이터 관리 툴은 지능형 추천 및 데이터 관리 작업을 자동화하도록 "학습"이 가능해집니다 . 기계 학습은 데이터 분석가와 다른 사용자를 대체하지 않습니다 . 대신 조직 내 데이터 관리 담당자의 생산성과 효율성을 늘리는 데 있어 핵심적인 역할을 합니다 .

기계 학습은 지루하거나 인간이 수행할 수 없는 작업을 개선하는 데 사용될 수 있습니다 . 예를 들어 다음과 같은 몇 가지 사례가 있습니다 .

1 . 검색 및 식별

• 데이터 품질 규칙 및 비즈니스 항목 검색

• 의미 검색, 패턴 식별 및 데이터 분류

• 이상 감지 및 알림

2 . 예측 작업

• 데이터 급증을 처리하기 위한 버스팅

• 운영 문제 조사 우선순위 지정

• 환경에 대한 변화를 처리하기 위한 자체 치유

3 . 차선의 조치 및 추천

• 데이터 세트, 변환 및 규칙 제안

• 자동 매핑, 정제 및 소스에서 대상으로의 표준화

• 데이터의 새로운 소스 자체 통합

데이터 관리 시 기계 학습을 위한 기초 효과적인 기계 학습에는 대규모의 교육 데이터 세트가 필요합니다 . 데이터 관리 컨텍스트에서 최고의 데이터 소스는 기업 전반의 데이터 카탈로그입니다 . 대부분의 기업은 수천 개의 데이터베이스, 데이터 파일, 애플리케이션 및 분석 시스템을 보유하고 있습니다 . 이러한 데이터 리포지토리 전체에서 메타데이터를 수집함으로써 기업은 풍부하게 채워진 카탈로그를 구축할 수 있습니다 . 기계 학습 및 데이터 카탈로그와 메타데이터에 대한 기업 전반의 가시성을 결합하면 데이터 관리 생산성에 긍정적이고 매우 의미 있는 영향을 줄 수 있는 인텔리전스의 기초를 제공할 수 있습니다 .

클라우드 시대에 이러한 접근 방식이 SaaS 애플리케이션에도 효과적이라는 점을 인지하는 것은 중요합니다 . 메타데이터는 Salesforce 및 Workday와 같은 SaaS 애플리케이션에서 수집되어 엔터프라이즈 카탈로그에 추가될 수 있습니다 .

Page 8: 데이터 기반 혼란을 위한 인공 지능 - Informatica...• 의미검색, 패턴식별및데이터분류 • 이상감지및알림 2 . 예측 작업 • 데이터급증을처리하기위한버스팅

6

Informatica CLAIRE: Intelligent Data Platform의 "인텔리전스" 기계 학습을 통한 데이터 관리 생산성 추진을 위한 Informatica의 접근 방식:

1 . IDP(Intelligent Data Platform): 최대의 생산성을 위해 Informatica는 통합된 엔드 투 엔드 데이터 관리 플랫폼을 제공했습니다 . 이 통합 플랫폼은 통합 연결성, 메타데이터 및 운영 관리를 제공함으로써 새로운 데이터 관리 프로젝트의 개발 및 구축 속도를 가속화합니다 . 이 플랫폼은 기업 내 소스, 클라우드 및 빅 데이터 소스 전반에서 데이터를 관리하기 위해 강력하고 일관된 기능 세트를 제공합니다 . 이러한 통합 데이터 관리 플랫폼을 Intelligent Data Platform이라고 합니다 .

이 플랫폼은 모듈식입니다 . 단일 툴에서 시작하여 고객의 속도에 맞게 확장합니다 .

2 . 메타데이터: Informatica는 오랫동안 기술 및 비즈니스 메타데이터 관리 부문의 선두 주자로 알려져 왔습니다 . Informatica는 기업 전반에서 보다 광범위한 메타데이터를 수집함으로써 이 부문에서 역량을 확장했습니다 . 여기에는 다음이 포함됩니다 .

• 데이터베이스 테이블, 열 정보 및 데이터 프로필 통계와 같은 기술 메타데이터

• 데이터에 대한 컨텍스트, 의미, 관련성과 다양한 비즈니스 프로세스 및 기능에 대한 중요도를 캡처하는 비즈니스 메타데이터

• 데이터를 마지막으로 업데이트한 시기와 같은 시스템 및 프로세스 실행에 대한 운영 메타데이터 로드 프로세스를 마지막으로 실행한 시기 가장 많이 액세스한 데이터에 대한 정보

• 액세스한 데이터 세트, 클릭한 검색 결과, 제공된 평가 또는 의견을 포함하는 사용자 활동에 대한 사용량 메타데이터

솔루션

제품

IntelligentData Platform

클라우드 빅 데이터 실시간/스트리밍 기존

엔터프라이즈 통합 메타데이터 인텔리전스

모니터링 및 관리

컴퓨팅

연결성

데이터 통합 빅 데이터 관리 클라우드 데이터 관리

데이터 품질 마스터 데이터 관리

데이터 보안

Customer 360

Product 360

Supplier 360

Reference 360

지능형 데이터 레이크

기업 정보 카탈로그

데이터 거버넌스

Secure@Source

엔터프라이즈 클라우드 데이터 관리

그림 1: Intelligent Data Platform은 데이터 관리 기능을 공유된 연결성, 작업 통찰력, 데이터 및 메타데이터 인텔리전스와 통합합니다 .

Page 9: 데이터 기반 혼란을 위한 인공 지능 - Informatica...• 의미검색, 패턴식별및데이터분류 • 이상감지및알림 2 . 예측 작업 • 데이터급증을처리하기위한버스팅

7

이렇게 광범위한 메타데이터의 수집이 기계 학습의 핵심입니다 . 이것은 기계 학습 알고리즘을 "훈련"시키는 데 사용되는 데이터 세트를 제공하고 보다 나은 결과를 얻기 위해 데이터 세트를 조정할 수 있게 해줍니다 .

3 . 인텔리전스: Informatica는 메타데이터 및 AI/기계 학습을 CLAIRE와 결합하여 통합된 기능을 제공하고 있습니다 .

Intelligent Data Platform에서 수집한 메타데이터는 CLAIRE의 알고리즘이 엔터프라이즈 데이터 환경에 대해 학습할 때 어마어마한 양의 정보를 제공합니다 . 이러한 지식은 CLAIRE가 지능형 추천을 제공하고 데이터 관리 프로젝트의 개발 및 모니터링을 자동화하며 기업 내부와 외부에서 변경사항에 적응하는 데 도움이 됩니다 . CLAIRE는 Intelligent Data Platform에서 모든 데이터 관리 기능의 인텔리전스를 이끕니다 .

CLAIRE 활용 사례 CLAIRE는 다양한 사용자를 지원합니다 .

• 데이터 개발자는 많은 구현 작업을 부분적으로 자동화된 상태에서 또는 완벽하게 자동화된 상태에서 찾습니다 .

• 데이터 분석가는 필요로 하는 데이터의 위치를 훨씬 쉽게 찾아 데이터를 준비할 수 있습니다 .

• 현업 부서 사용자는 규정된 데이터 거버넌스와 규정 준수 통제의 영향을 받는 데이터를 신속하게 식별합니다 .

• 데이터 과학자는 데이터를 보다 신속하게 이해합니다 .

• 데이터 관리자는 고품질의 데이터를 보다 쉽게 시각화합니다 .

• 데이터 보안 전문가는 데이터 오용을 보다 간단하게 감지하고 민감한 데이터를 보호하며 적절한 통제를 유지하고 있는지 입증합니다 .

• 관리자와 작업자는 데이터 관리 프로세스의 성능 최적화와 예측 유지 보수 기능을 활용합니다 .

다음은 CLAIRE를 통해 제공된 인텔리전스가 오늘날 어떻게 활용되고 있는지를 보여주는 몇 가지 예시입니다 .

지능형 데이터 유사성CLAIRE는 수천 개의 데이터베이스 및 파일 세트 전체에서 유사한 데이터를 감지하기 위해 클러스터링 같은 기계 학습 기술을 사용합니다 . 지능형 데이터 유사성은 데이터 식별, 중복 항목 감지, 비즈니스 항목에 개별 데이터 필드 결합, 데이터 세트 전체에서 태그 전달, 사용자에게 데이터 세트 추천을 포함하여 여러 가지 목적으로 사용되는 핵심 기능 중 하나입니다 .

데이터 유사성은 2개의 열에 있는 어떤 데이터가 어느 정도 동일한지에 대해 컴퓨팅을 수행합니다 . 엔터프라이즈 설정(열 전체가 1억 개라고 가정)에서 모든 2개의 열 쌍을 시도하고 비교하는 무차별 대입 공격과 같은 접근 방식은 계산에 무리가 따릅니다 . 대신, 데이터 유사성은 기계 학습 기술을 활용하여 유사한 열을 클러스터링하고 유사한 일치 항목을 식별합니다 .

이 프로세스는 여러 단계에서 수행됩니다 . 먼저 열 특성을 기준으로 열을 클러스터링합니다 . 그런 다음 클러스터 각각에서 데이터 중복을 계산해 고유한 값을 산출합니다 . 마지막으로 Bray-Curtis 및 Jaccard 계수를 사용하여 데이터 유사성을 계산하기 위해 가장 유력한 쌍을 선택합니다 .

Page 10: 데이터 기반 혼란을 위한 인공 지능 - Informatica...• 의미검색, 패턴식별및데이터분류 • 이상감지및알림 2 . 예측 작업 • 데이터급증을처리하기위한버스팅

8

태그를 이용한 지능형 도메인 검색CLAIRE는 각 열에 의미 라벨을 적용하여 데이터 필드를 분류할 수 있습니다 . 이러한 의미 라벨은 데이터 도메인이라고 불립니다 .

일반적으로 의미 라벨은 정규식, 참조 테이블 또는 기타 복잡한 핸드 코딩 로직에 기반한 규칙을 평가함으로써 적용됩니다 . 이렇게 수천 개의 규칙을 정의하고 유지하는 것은 지루한 작업입니다 .

대신 CLAIRE는 태그 개념을 사용하여 데이터 필드를 검색하고 라벨 지정하는 프로세스를 매우 간소화합니다 . 아직 분류되지 않은 열의 경우, 사용자는 열 내용을 표시하는 간단한 태그(예를 들어, "보험금 날짜")를 제공하기만 하면 됩니다 . 시스템은 연계를 통해 학습한 다음 이 태그를 모든 유사한 열에 자동으로 전달합니다 . 데이터 기술의 "안면 인식"은 Facebook 사진에서 사람들에게 태그를 지정하는 것과 유사하며 이것은 수백만 개의 다른 사진에서 동일한 사람에게 태그를 지정하는 그물망 효과가 있습니다 .

그림 3: 자동 데이터 분류 .

Auto infer domains for columns based on data patterns

데이터 패턴에 기반하여 열의 도메인 자동 추론

Relationships link all data assets associated with the domain도메인과 연관된 모든 데이터

자산의 관계 링크

회사 이름이메일이름우편 번호전화 번호

Page 11: 데이터 기반 혼란을 위한 인공 지능 - Informatica...• 의미검색, 패턴식별및데이터분류 • 이상감지및알림 2 . 예측 작업 • 데이터급증을처리하기위한버스팅

9

지능형 항목 검색일단 열의 도메인을 식별하면 CLAIRE는 이 개별 필드를 높은 수준의 비즈니스 항목으로 모을 수 있습니다 . 아래 예시는 구매 주문이라고 하는 항목이 고객 및 제품으로 식별된 필드를 결합하여 생성되는 방식을 보여줍니다 . 항목 검색은 사용자가 분석 또는 데이터 통합 프로세스에서 이종 데이터 필드를 모으는 방법을 통해 학습하고 학습한 내용을 엔터프라이즈 데이터 환경 전반에서 항목을 도출하기 위해 적용합니다 .

그림 4: 테이블과 파일에서 항목을 감지하기 위한 데이터 도메인 결합

지능형 데이터 추천 CLAIRE는 데이터 분석가와 데이터 과학자에게 프로젝트에 사용할 데이터 세트에 대한 제안을 제공합니다 . CLAIRE는 사용자가 선택한 데이터 세트를 관찰하고 더 우수한 평가를 받은 유사한 데이터 세트 또는 사용 중인 데이터 세트를 보완할 수 있는 추가 데이터 세트를 제시합니다 . 지능형 데이터 추천은 사용자가 다수의 동료가 이미 수행했던 동일한 작업을 반복하는 것을 방지하는 데 도움이 됩니다 . 추천은 다음을 포함합니다 .

1 . 동일한 데이터의 준비된 버전(대체 가능 데이터)

2 . 동일한 유형의 레코드를 포함하는 다른 테이블(통합 가능 데이터)

3 . 추가 특성으로 인해 결합 시 데이터 강화가 가능한 테이블(결합 가능 데이터)

데이터 추천은 추가 데이터 세트에 대한 제안을 제공하기 위해 콘텐츠 기반 필터링 기술을 사용합니다 . 데이터 세트에 사용된 특성(조건)에는 계보(Lineage) 정보, 사용자 순위 및 데이터 유사성이 포함됩니다 . 여러 가지 유사성 측정값을 사용하여 다양한 데이터 세트의 등가성 점수를 매깁니다 . 이 점수를 토대로 유사한 속성을 지닌 데이터 세트를 추천합니다 . 다양한 사용자가 일반적으로 함께 사용하는 데이터 세트를 찾기 위해 메타데이터 그래프를 쿼리하는 방식으로 보완 항목을 추천합니다 .

Page 12: 데이터 기반 혼란을 위한 인공 지능 - Informatica...• 의미검색, 패턴식별및데이터분류 • 이상감지및알림 2 . 예측 작업 • 데이터급증을처리하기위한버스팅

10

지능형 구조 검색 CLAIRE는 혼잡한 기기 및 로그 파일에서 구조를 도출하여 보다 쉽게 파일을 파악하고 작업을 수행할 수 있게 해줍니다 . 콘텐츠 기반 접근 방식을 사용하여 파일을 파싱함으로써 파일 처리에 영향을 미치지 않고 빈번하게 발생하는 파일 변경사항에 적응할 수 있습니다 .

지능형 구조 검색은 파일에서 패턴 인지를 자동화하기 위해 유전 알고리즘(genetic algorithm)을 사용합니다 . 이 접근 방식에서 결과를 개선하기 위해 “진화”라는 개념을 사용합니다 . 각 후보 솔루션에는 더 적합한 솔루션을 제공하는지 여부를 판별하기 위해 변경 및 테스트 될 수 있는 속성 세트가 있습니다 . 솔루션은 파일의 구조를 정의하기 위한 사용자 입력을 요구하지 않으며 산업 파일 포맷의 세트로 한정되지도 않습니다 . 파일의 첫 번째 구조는 기본적인 구분 기호 기반 파싱을 통해 도출됩니다 . 그런 다음 이 구조는 입력 범위 및 파생된 도메인과 같은 여러 요인에 기초하여 점수가 매겨집니다 . 최고 점수의 구조는 점수가 향상되는지 여부를 확인하기 위해 구조를 결합하는 등 여러 가지 변경 사항을 적용하는 “변형” 단계에 들어갑니다 . 데이터에 대한 구조의 적합성 여부가 판단되면 프로세스를 종료합니다 .

그림 5: 비정형 데이터 파일에서 지능적으로 구조 찾기

Page 13: 데이터 기반 혼란을 위한 인공 지능 - Informatica...• 의미검색, 패턴식별및데이터분류 • 이상감지및알림 2 . 예측 작업 • 데이터급증을처리하기위한버스팅

11

지능형 이상 감지CLAIRE는 통계 및 기계 학습 접근 방식을 활용하여 데이터 이상 수치와 이상을 감지합니다 . 사용자 행동 분석(UBA) 기능은 위험성이 있거나 조직이 데이터를 오용하게 만들 수 있는 사용자 행동의 패턴을 감지합니다 . UBA는 위장, 자격 증명 하이재킹 및 권한 에스컬레이션 공격을 감지할 수 있습니다 .

UBA는 감시를 받지 않는 기계 학습을 사용자 활동(사용자가 액세스하는 데이터 저장소 수, 요청 수 및 다양한 시스템에서 영향을 받는 레코드 수 포함)의 다차원 모델에 적용합니다 . 차원수 감소를 위해 기본적인 구성 요소 분석이 이 모델에 적용됩니다 . BIRCH 기술은 지정된 기간 동안 행동이 달랐던 사용자를 찾기 위해 감시를 받지 않는 계층형 클러스터링에 적용됩니다 . 이상 행동을 검증하기 위해 거리 및 밀도 기반 이상 수치 감지 방법이 채택되었으며 첫 번째 두 가지 방법이 가리키는 대상이 클러스터 시스템에서 실제 이상 수치인지 확인하기 위해 이상 수치에 대한 통계적인 Grubbs 테스트가 수행되었습니다 .

다음은 앞으로 출시될 CLAIRE 기능의 몇 가지 예시입니다 .

자체 통합: 새로 도착한 데이터를 데이터 통합 프로세스에 자동으로 통합합니다 . 수백만 개의 기존 매핑 및 사용자 작업으로부터 학습하여 데이터를 식별하고, 유사한 데이터를 처리하는 통합 패턴의 위치를 찾고, 자동으로 변환하고, 데이터를 이동시킵니다 .

개발 지원: 다음을 포함하여 개발 프로세스 동안 사용자에게 추천사항을 제시하고 차선의 조치를 제안합니다 .

• 변환 자동 완성

• 템플릿 추천

• 민감한 데이터를 위한 마스킹 유형 제안

• 정제 및 표준화를 위한 데이터 품질 제안

• 자동 성능 최적화

자동 매핑: 기업 전반에서 마스터 데이터 항목을 감지하고 필수 변환과 품질 규칙을 적용하는 마스터 데이터 모델에 자동으로 매핑합니다 .

자체 치유: 메모리 부족 또는 컴퓨팅 전력과 같은 외부 시스템 문제를 적절하게 처리합니다 . 예를 들어, 데이터 급증을 처리하기 위해 추가 컴퓨팅 능력(‘클라우드로 버스팅’)을 더합니다 .

자체 조정: 성능 기준을 충족하도록 기록 정보, 현재 데이터 볼륨 및 사용 가능한 시스템 리소스에 기반하여 일정을 예측 및 조정하거나 리소스를 컴퓨팅합니다 .

자체 보호: 민감한 데이터를 자동으로 감지하고 안전 영역에 보관하기 전에 마스킹합니다 .

Page 14: 데이터 기반 혼란을 위한 인공 지능 - Informatica...• 의미검색, 패턴식별및데이터분류 • 이상감지및알림 2 . 예측 작업 • 데이터급증을처리하기위한버스팅

IN09_0517_3328

한국인포매티카 06611 서울시 서초구 서초동 강남대로 465 교보타워 B동 13층, 대표 전화: +82 2 6293 5001 informatica.com/kr linkedin.com/company/informatica twitter.com/InformaticaKR

© 2017 Informatica LLC. All rights reserved. Informatica® 및 Put potential to work™는 미국 및 전 세계 관할 국가 내에서 Informatica LLC의 상표 또는 등록 상표입니다. 다른 모든 회사 및 제품 이름은 상품명 또는 등록 상표일 수 있습니다.

결론 오늘날의 데이터 중심적인 비즈니스 전략은 데이터라는 토대 위에 수립됩니다 . 데이터의 힘을 성공적으로 실현하기 위해서는 데이터 관리 역량을 구축해야 합니다 .

일반적인 상황에서 데이터 관리가 야기하는 모든 당면 과제를 기존의 접근 방식을 확장하는 방식으로 처리하면 미래의 요구 사항은 말할 것도 없고 오늘날의 요구 사항도 충족시킬 수 없습니다 . 혼란을 돌파하기 위해 데이터를 활용하는 한 가지 방법은 플랫폼 사용자의 기술, 운영, 비즈니스, 그리고 특히 비즈니스 셀프서비스 측면에서의 생산성 개선을 위해 데이터, 메타데이터 및 기계 학습/AI의 힘을 활용하는 엔드 투 엔드 데이터 관리 플랫폼으로 표준화하는 것입니다 .

CLAIRE와 Intelligent Data Platform을 사용하여 데이터의 힘을 활용할 수 있는 방법에 대해 자세히 알아보려면 Informatica에 문의하십시오 .

Informatica 정보디지털 변혁은 세상을 변화시키고 있습니다 . Informatica는 엔터프라이즈 클라우드 데이터 관리의 선두 주자로서 고객이 지능적으로 업계를 선도할 수 있도록 도와드릴 준비가 되어 있습니다 . 보다 민첩해지고, 새로운 성장 기회를 깨닫고, 새로운 것을 고안해낼 수 있도록 고객에게 선견지명을 제공해 드립니다 . Informatica가 제공하는 모든 것에 대해 알아보고 다음에 올 지능형 혼란을 타개하기 위해 데이터의 힘을 활용해 보시길 바랍니다 . 한번만이 아니라 반복해서 해보시길 바랍니다 .