А.Челебаев - Хранение и обработка больших объемов...

34
Хранение и обработка больших объемов данных EMC GREENPLUM Александр Челебаев Директор департамента информационных технологий Нижний Новгород, 2013 год

Upload: ekaterina-morozova

Post on 27-Nov-2014

467 views

Category:

Documents


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: А.Челебаев - Хранение и обработка больших объемов данных

Хранение и обработка больших объемов данныхEMC GREENPLUM

Александр Челебаев Директор департамента информационных технологий

Нижний Новгород, 2013 год

Page 2: А.Челебаев - Хранение и обработка больших объемов данных

2© Copyright 2012 EMC Corporation. All rights reserved.

Содержание

Основные технологические тренды в обработке Больших Данных

Бизнес сценарии использования Больших Данных

Технологические сценарии использования Greenplum

Архитектура платформы EMC Greenplum

Примеры внедрений

Page 3: А.Челебаев - Хранение и обработка больших объемов данных

3© Copyright 2012 EMC Corporation. All rights reserved.

Sources: “How Much Information?” Peter Lyman and Hal Varian, UC Berkeley,. 2011 IDC Digital Universe Study.

В 2000 ГОДУ ВО ВСЁМ МИРЕ СОЗДАЁТСЯ

ДВА ЭКЗАБАЙТАНОВЫХ ДАННЫХ

Page 4: А.Челебаев - Хранение и обработка больших объемов данных

4© Copyright 2012 EMC Corporation. All rights reserved.

В 2000 ГОДУ ВО ВСЁМ МИРЕ СОЗДАЁТСЯ

ДВА ЭКЗАБАЙТОВ

НОВЫХ ДАННЫХВ ДЕНЬ

Sources: “How Much Information?” Peter Lyman and Hal Varian, UC Berkeley,. 2011 IDC Digital Universe Study.

2012

6

Page 5: А.Челебаев - Хранение и обработка больших объемов данных

5© Copyright 2012 EMC Corporation. All rights reserved.

Page 6: А.Челебаев - Хранение и обработка больших объемов данных

6© Copyright 2012 EMC Corporation. All rights reserved.

Page 7: А.Челебаев - Хранение и обработка больших объемов данных

7© Copyright 2012 EMC Corporation. All rights reserved.

VOLUME

РАЗМЕР

VARIETY

МНОГООБРАЗИЕ

VELOCITY

ДИНАМИКА

Большие Данные:Больше чем данные

Page 8: А.Челебаев - Хранение и обработка больших объемов данных

8© Copyright 2012 EMC Corporation. All rights reserved.

Приложения > Данные

ЦЕНТРОМ ПРИТЯЖЕНИЯ

ПРИЛОЖЕНИЯРАНЬШЕ БЫЛИ

Page 9: А.Челебаев - Хранение и обработка больших объемов данных

9© Copyright 2012 EMC Corporation. All rights reserved.

Притяжение создало выделенную инфраструктуру

Page 10: А.Челебаев - Хранение и обработка больших объемов данных

10© Copyright 2012 EMC Corporation. All rights reserved.

Время перемещения данных на скорости 10GB/сек.

Перемещать данные непрактично

1TB 14МИНУТ

10ДНЕЙ1PB

1GB 01СЕК.

Page 11: А.Челебаев - Хранение и обработка больших объемов данных

11© Copyright 2012 EMC Corporation. All rights reserved.

ДАННЫЕЭТО НОВЫЙЦЕНТР ПРИТЯЖЕНИЯ

Данные > Приложения

Page 12: А.Челебаев - Хранение и обработка больших объемов данных

12© Copyright 2012 EMC Corporation. All rights reserved.

Данные стали разными

УСТРОЙСТВА ДАННЫХ

LawEnforcement

Media

Banks

DeliveryServices

Marketers

Government

PrivateInvestigators

/Lawyers

IndividualsEmployers

Пользователи/покупатели данных

AnalyticServices

Advertising

CatalogCo-ops

ListBrokers

Websites

InformationBrokers

CreditBureausMedia

Archives

Агрегаторы(накопители)данных

FINANCIAL

GOVERNMENT

PHONE/TV

INTERNETMEDICAL

RETAIL

Page 13: А.Челебаев - Хранение и обработка больших объемов данных

13© Copyright 2012 EMC Corporation. All rights reserved.

Данные стали быстрыми

Данные

Корреляции ипаттерны

Причинные связи,Предикторы

Реализация

Big Data позволяют находить возможности о которых вы раньше и не подозревали …

Fast Data позволяют реагировать на эти возможности пока они не исчезли....

Page 14: А.Челебаев - Хранение и обработка больших объемов данных

14© Copyright 2012 EMC Corporation. All rights reserved.

Лидеры рынка первыми начинают и выигрывают….

Page 15: А.Челебаев - Хранение и обработка больших объемов данных

15© Copyright 2012 EMC Corporation. All rights reserved.

Типовые бизнес-задачи для решения которых используются Большие Данные

Клиентская аналитика Target marketing\churn\campaign management\loyalty programs etc.

Отчетность и статистика

Противодействие мошенничеству

Прогностическое моделирование \ оценка рисков

Page 16: А.Челебаев - Хранение и обработка больших объемов данных

16© Copyright 2012 EMC Corporation. All rights reserved.

Вызовы: Развитие банковских систем - Обновление

систем с обеспечением возврата инвестиций.

Обслуживание клиентов – Увеличение уровня удовлетворённости клиента, рост прибыли благодаря более глубокому пониманию потребностей клиента.

Комплексное управление рисками – Целостный подход к управлению рисками по всем линиям бизнеса для улучшения финансового результата.

Платежи и службы обработки транзакций

Гибкие, эффективные и надёжные системы для платежей, управления ценными бумагами, обеспечивающие снижение затрат.

Решения: Рекомендации по использованию

продуктов Подготовка рекомендаций для клиентов на основе данных предикативной аналитики

Управление оттоком клиентов – Предсказание склонности к оттоку и различных факторов приводящих к отказу клиента от продукта или услуги

Анализ социальных сетей – Использование социальных сетей для лучшего понимание клиента и общего представления

Оценка клиентов 360° – Консолидация данных по клиенту во всех аспектах (ипотека, ценные бумаги, кредит) для улучшенного таргетирования и создания новых продуктов

Клиентская аналитика – вызовы и решения

Page 17: А.Челебаев - Хранение и обработка больших объемов данных

17© Copyright 2012 EMC Corporation. All rights reserved.

Определение – Единый взгляд на прошлое, настоящее и будущее в разрезе клиента, включая историю покупок, текущие взаимодействия и возможности по увеличению суммы покупки.

Особенности – информационная эра и развивающиеся технологии, включая он-лайн и мобильные приложения, обеспечили совершенно новые массивы данных по клиенту.

Результат – Оценка клиентов 360˚ отошла от использования исключительно транзакционных данных и истории покупок, используются предикативные методы, анализа предпочтений и вероятности оттока.

РЕШЕНИЕ – Комбинирование персональных, транзакционных, геолокационных, поведенческих, демографических данных, кредитных рейтингов и внешних источников

Основные причины:

1. Улучшение потребительского опыта

2. Потребность клиента в улучшении уровня обслуживания

3. Рассогласование действий клиентских служб Банка и общих бизнес - целей

4. Неиспользованный потенциал клиента по использованию продуктов Банка

5. Недостаточная дифференциация продуктов требует больших сервисных затрат

***Aberdeen Group, 2010

Новый взгляд на клиента:Оценка 360°

Page 18: А.Челебаев - Хранение и обработка больших объемов данных

18© Copyright 2012 EMC Corporation. All rights reserved.

Определение – использование социальных сетей для более глубокого понимания поведения клиента, повышения уровня доверия и положительного опыта в кризисных ситуациях

Особенности – популярность социальных сетей, таких, как ВКонтакте, Одноклассники, Facebook, Twitter и LinkedIn заставляет искать варианты включения этих каналов в модель бизнеса Банка

Результат – мнения и оценки клиентов в социальных сетях обладают потенциалом менять общественное мнение

РЕШЕНИЕ – использование текстовой аналитики для понимания настроения клиента, мониторинг и участие в он-лайн общении для предотвращения имиджевых потерь. Улучшение узнаваемости бренда и завоевание интеллектуального лидерства

Рост «Голоса клиента»

Сценарий: Банк предлагает он-лайн сервисы. Они требуют многократных сложных действий со стороны клиента. Реакция клиентов – негативные оценки в форумах и блогах. Банк не может рассчитывать на традиционные формы обратной связи, т.к. у большинства клиентов не хватает терпения их заполнять.

Призыв к действию: Банк начинает он-лайн кампанию «Голос клиента» используя методы анализа данных социальных сетей, блогов и форумов.

Новое в клиентской аналитике:Социальные сети

Page 19: А.Челебаев - Хранение и обработка больших объемов данных

19© Copyright 2012 EMC Corporation. All rights reserved.

Определение – Инструментарий кредитора для оценки и минимизации риска, основанных на методах статистики

Особенности – Традиционные методы используют транзакционные данные и данные систем информирования о случаях мошенничества. Типичные для индустрии уровни надёжности методов 40% или 1 из 30 транзакций

Результат – Из-за постоянно возникающих новых сценариев поведения клиентов и новых каналов платежей, традиционный реактивный процесс предотвращения мошенничества «один на все случаи» больше не работает

РЕШЕНИЕ – Минимизация случаев «ложного срабатывания» с помощью применения комплекса предикативных моделей с учётом географии, продукта, систем электронной торговли и проприетарной информации.

***MasterCard Expert Monitoring Solutions

Точки взаимодействия

для оценки и улучшения методов

противодействия мошенничеству.

Противодействие мошенничеству

с кредитными картами

Page 20: А.Челебаев - Хранение и обработка больших объемов данных

20© Copyright 2012 EMC Corporation. All rights reserved.

Технологические сценарии использования СУБД Greenplum

Page 21: А.Челебаев - Хранение и обработка больших объемов данных

21© Copyright 2012 EMC Corporation. All rights reserved.

Построение Корпоративного Хранилища Данных (Enterprise Data Warehouse)

На платформе Greenplum строиться центральное хранилище компании, которое обслуживает все системы отчетности и аналитики в компании.

Обычно при таком сценарии проводят полную миграцию с традиционных СУБД, которые не в состоянии справиться с растущей нагрузкой и предложить бизнес пользователям решение аналитических задач в режиме он-лайн.

Page 22: А.Челебаев - Хранение и обработка больших объемов данных

22© Copyright 2012 EMC Corporation. All rights reserved.

Построение Аналитического Хранилища Данных (Analytical Data Warehouse)

Построение на базе GP выделенных хранилищ для решения наиболее выско-нагруженных аналитических задач или тех задач, где требуется он-лайн аналитика

При таком подходе корпоративное хранилище остаётся на традиционной платформе, а на платформу Greenplum выносят наиболее критичные, с точки зрения времени обработки, аналитические приложения.

Page 23: А.Челебаев - Хранение и обработка больших объемов данных

23© Copyright 2012 EMC Corporation. All rights reserved.

СУБД GREENPLUM

Page 24: А.Челебаев - Хранение и обработка больших объемов данных

24© Copyright 2012 EMC Corporation. All rights reserved.

GREENPLUM это выбор и гибкость

Page 25: А.Челебаев - Хранение и обработка больших объемов данных

25© Copyright 2012 EMC Corporation. All rights reserved.

ПараметрыПАК GREENPLUM

Page 26: А.Челебаев - Хранение и обработка больших объемов данных

26© Copyright 2012 EMC Corporation. All rights reserved.

МПП архитектураАрхитектура shared-nothing на которой построена Greenplum линейно масштабируема

• Т.е. мы можем вдвое увеличить количество узлов, и вдвое же увеличить скорость работы запросов

• Так же мы можем вдвое увеличить емкость системы, просто удвоив количество узлов, при этом оставляя скорость обработки все такой же быстрой…

• Все это благодаря тому что мы масштабируем одновременно вычислительную мощность, объем и скорость вввода-вывода

• При этом система работает на недорогом X86 оборудовании

SegmentSegment Segment Segment Segment

Page 27: А.Челебаев - Хранение и обработка больших объемов данных

27© Copyright 2012 EMC Corporation. All rights reserved.

Масштабирование Greenplum

Page 28: А.Челебаев - Хранение и обработка больших объемов данных

28© Copyright 2012 EMC Corporation. All rights reserved.

Примеры внедрений платформы Greenplum

в крупнейших финансовых компаниях мира

Page 29: А.Челебаев - Хранение и обработка больших объемов данных

29© Copyright 2012 EMC Corporation. All rights reserved.

American Express выбирает Greenplum Hadoop

• Формирование профиля клиента на базе информации о платежах• Повышение лояльности клиентов за счет программ поощрения • Расширение методов борьбы с мошенничеством

Бизнесс-задачи:

Выбор :После 6 месяцев тестирования открытых и коммерческих релизов

в финал вышли Cloudera и Greenplum MR

Причины: Поддержка корпоративного уровня Отказоустойчивость платформы Скорость обработки в 2 раза выше

2PB

Page 30: А.Челебаев - Хранение и обработка больших объемов данных

30© Copyright 2012 EMC Corporation. All rights reserved.

Крупнейший банк Северной Америки выбирает Greenplum DB

Бизнесс-задачи:

• Управление рисками• Клиентский маркетинг• Аналитика по пластиковым картам

Отработанная миграция с традиционных СУБД Масштабируемость платформы Скорость обработки Интеграция в существующий ИТ ландшафт

Причины:

Page 31: А.Челебаев - Хранение и обработка больших объемов данных

31© Copyright 2012 EMC Corporation. All rights reserved.

Один из крупнейших банков Китая

Более 140 000 000 кредитных карт

• Централизованное хранилище под карточную систему

• Целевой клиентский маркетинг

• Аналитика по пластиковым картам

Бизнесс-задачи:

Выбор платформы для Хранилища: DB2–Oracle 11g -Teradata14

Самая высокая скорость загрузки данных Линейная масштабируемость платформы Открытая интеграция с другими решениями Лучший показатель цена/производительность

Page 32: А.Челебаев - Хранение и обработка больших объемов данных

32© Copyright 2012 EMC Corporation. All rights reserved.

Почему заказчики выбирают Greenplum Высочайшая скорость загрузки и выполнения запросов

Линейная многократная масштабируемость

Интеграция c инструментами ETL,BI и аналитики

Наличие отработанных методик и инструментов миграции с традиционных платформ и СУБД

Универсальная платформа обработки всех

типов данных и запросов

Адекватные и предсказуемые затраты на

построение и развитие системы

Page 33: А.Челебаев - Хранение и обработка больших объемов данных

33© Copyright 2012 EMC Corporation. All rights reserved.

Ключевые партнеры

Page 34: А.Челебаев - Хранение и обработка больших объемов данных

34© Copyright 2012 EMC Corporation. All rights reserved.

603140, Нижний Новгород, пер. Мотальный, д.8, «Бугров Бизнес парк»

+7 831 467 8770, +7831 467 8771 (факс)[email protected]/volga

Спасибо за внимание!