windows azure - bigdata and hadoop

48
Alexey Bokov [email protected] Windows Azure – BigData, Hadoop и многое другое BigData Dive : Minsk 19 September 2012 abokov

Upload: alexey-bokov

Post on 24-May-2015

771 views

Category:

Technology


2 download

DESCRIPTION

BigData Dive in Minsk / Altoros conference / Windows Azure and BigData- autoscale, Linux, HDInsigh. Options for developers and startups - BizSpark, msdn subscriptions, seed fund

TRANSCRIPT

Page 1: Windows Azure - BigData and Hadoop

Alexey Bokov [email protected]

Windows Azure – BigData, Hadoop и многое другое

BigData Dive : Minsk 19 September 2012

abokov

Page 2: Windows Azure - BigData and Hadoop

Содержание

Немного про Windows Azure

HDInsight – Hadoop в Azure

Q/A

#bigdataby

Page 3: Windows Azure - BigData and Hadoop

24 узла в CDN: Ashburn, San Francisco, Chicago, San Antonio, Los Angeles, Miami, Newark, Seattle, Amsterdam, Dublin, London,

Moscow, Paris, Stockholm, Vienna,

Zurich, Hong Kong, Sao Paulo, Seoul,

Singapore, Sydney, Taipei, Tokyo, Doha

8 датацентров: - 4 поколение на ITPAC - площадь~ 28 100 кв - мощность ~ 16 МВт - PUE ~ 1.05-1.22 - стоимость ~ 500М $

Windows Azure - инфраструктура

North Central US

South East Asia

East AsiaNorth Europe Dublin

West Europe AmsterdamSouth Central

US

East US

West US

Page 4: Windows Azure - BigData and Hadoop

Windows Azure - инфраструктура

Подробнее о датацентрах Azure:

ou.gs/wadc

Page 5: Windows Azure - BigData and Hadoop

Облачные сервисы – вычислительные ресурсы

Web Site – размещение сайтов на популярных фреймворках

Virtual Machine – Windows Server, Linux

Mobile Service – push-нотификации, авторизация

пользователей, обработка данных – WinPhone, iOS, Android,

Windows Store

Cloud Service – размещение приложения в облаке

Page 6: Windows Azure - BigData and Hadoop

Облачные сервисы – работа с данными

SQL Azure – реляционная база данных как сервис

Storage – облачное хранилище ( блобы ) данных, с доступом по HTTP/S

HD Insight – Hadoop as a Service

SQL Reporting – генерация отчетов

Recovery services – автоматическое бэкапирование образов серверов

на базе Windows Server

Page 7: Windows Azure - BigData and Hadoop

Облачные сервисы – приложения и сеть

Service Bus – защищенный обмен сообщениями

Media Service – медиа сервисы и стриминг видео

Access control – авторизация и аутентификация в

облаке

VPN – виртуальная частная сеть в облаке

Page 8: Windows Azure - BigData and Hadoop

Windows Azure – немного цифр

Облачное хранилище: сейчас вмещает

более 4 триллионов объектов в облачном хранилище

270 000 обращений в среднем

Пиковая нагрузка - 860 000 обращений в сек

Page 9: Windows Azure - BigData and Hadoop

Виртуальные машины

Memory Intensive – A71.64/2.04/2.13

Large – A3 0.24/0.36/0.4

4 ядра x 1.6Ghz

7.0 GB memory1000 GB storage

400 Mbps network

8 ядер x 1.6Ghz

56 GB memory6050 GB

2000 Mbps network

0.02/ /0.06

Extra Small – A0

1 x 1.0GhzРазделяемое

ядро768 MB memory

20 GB storage5 Mbps network

Linux/Windows/SQL Server, стоимость$ за час

... ...

Page 10: Windows Azure - BigData and Hadoop

• Определение сервиса – ServiceDefinition.csdef

• Конфигурация сервиса – ServiceConfiguration.cscfg

• service package file – zip архив с кодом приложения, скриптами настройки и файлом определения сервиса

• Загрузка сервиса в Windows Azure :• Через веб-портал service package file загружается в

Windows Azure ( в Red-Dog Front End – RDFE )

• RDFE выполняет преобразования service package file и загружает его в Fabric Controller нужного региона

• Fabric Controller сохраняет образ сервиса в репозитории, загружает сервис в виртуальную машину и начинает выполнение сервиса

Немного о том как работает PaaS

Page 11: Windows Azure - BigData and Hadoop

<ServiceDefinition name="MyService" xmlns="http://schemas.microsoft.com/ServiceHosting/2008/10/ServiceDefinition"> <WebRole name="WebRole1">

<Startup> <Task commandLine="Startup.cmd"

executionContext="limited" taskType="simple">

</Task> </Startup>

</WebRole> </ServiceDefinition>

ServiceDefinition.csdef

Page 12: Windows Azure - BigData and Hadoop

Модицифируем WorkerRole1\approot\startup.cmd

На примере ниже мы скачиваем и устанавливаем tomcat,

но ничего не мешает делать git clone или svn co

cscript /B /Nologo %APPROOT%\util\unzip.vbs apache-tomcat-6.0.32-windows-x86.zip %APPROOT%cscript "util\download.vbs" "http://tcontepub.blob.core.windows.net/packages/jre6.zip"

cscript /B /Nologo %APPROOT%\util\unzip.vbs jre6.zip %APPROOT%

copy %APPROOT%\foo.war %APPROOT%\apache-tomcat-6.0.32\webapps

cd %APPROOT%\apache-tomcat-6.0.32\binset JRE_HOME=%APPROOT%\jre6

И теперь мы можем делать интересные вещи!

Page 13: Windows Azure - BigData and Hadoop

Облачная БД SQL Azure

- База данных как сервис- Оплата за GB хранимых данных - Premium offer для приложений с высокой нагрузкой- SLA 99.9% на доступность- Автоматическая поддержка двух backup реплик- Стоимость от $5 в месяц до $30 в день (для

premium)

Page 14: Windows Azure - BigData and Hadoop

Да, теперь у нас: Оплата с поминутной тарификацией Пользовательский доступ через RDP SPLA лицензирование

Поддержка БД Oracle Быстрые (относительно)

дисковые устройства Сценарии хостинга десктопных

Windows приложений Гибкие и удобные варианты

оплаты VM Depot с большим выбором

образов

Page 15: Windows Azure - BigData and Hadoop

Теперь у нас есть автомасштабирование! Встроенный в платформу

сервис Мониторинг по утилизации CPU

и длине Azure Queues

Если нужны более кастомные настройки – есть библиотека Wasabi -

ou.gs/wasabi

Page 16: Windows Azure - BigData and Hadoop

Широкий выбор тулов в IaaS сценариях

На виртуалке ( Windows, Linux ) поднять можно все что угодно – например

Confluence

В VM Depot (vmdepot.msopentech.com ) есть redmine

Page 17: Windows Azure - BigData and Hadoop

Open source фреймворки

SDK for PHP: phpazure.codeplex.com

Ruby on Rails SDK: rubyonrailsinazure.codeplex.com

DNN - DotNetNuke CMS: dotnetnuke.codeplex.com

Lucene.NET на базе блобов: azuredirectory.codeplex.com

Python for Visual Studio: pytools.codeplex.com

ASP.NET web stack (MVC, Web API ):

aspnetwebstack.codeplex.com

Page 18: Windows Azure - BigData and Hadoop

Cloud Ninja: cloudninja.codeplex.com Open source проект – пример реализации многотенантного

приложения Может стать отличной основой для вашего кода Мониторинг (в том числе входящего/исходящего трафика,

транзакций к хранилищам с разделением данных по тенантам )

Автоматическое масштабирование Идентификация с использованием Access Control Services Провижионинг ( выкладывание ) Красивые диаграммы по данным мониторинга

Page 19: Windows Azure - BigData and Hadoop

windowsazure.github.io

.NET SDK – работа с хранилищами, очередями, медиа сервисами

Java SDK – хранилища, медиа сервисы, service bus

Node.js – работа с хранилищами, управление ресурсами, БД SQL

PHP – работа с хранилищами, вычислительными ресурсам

Python– работа с хранилищами, вычислительными ресурсам

Ruby – работа с хранилищами, вычислительными ресурсам

Mobile Services – IOS, Android, Windows Phone, JavaScript, Windows Store

Библиотеки для командной строки – PowerShell и node.js

IISNode – хостинг node.js на IIS

Page 20: Windows Azure - BigData and Hadoop

Как воспользоваться - оплата Кредитная карта – Pay-as-you-go, выставляется счет в

конце месяца по фактически использованным ресурсам

Вариант с предоплатой – MOSP – предоплата

(коммитмент) на определенную сумму, есть скидки

Оплата по корпоративному соглашению – EA через LAR-

ов, значительные скидки

Если нужны счета-фактуры или оплата наличными – это

можно сделать через Облакотеку -

azure.oblakoteka.ru или Софтлайн -

azure.softline.ru

Page 21: Windows Azure - BigData and Hadoop

Бесплатные опции30 дневный триал на windowsazure.comТриал для MSDN подписчиков Для стартапов - BizSpark на 3 года – включает в себя 8 MSDN подписок!

Windows Azure Offer $60K – облако на 2 года на $60 000 ( на конкурсной основе )

При использовании ресурсов облака для BizSpark и MSDN подписчиков ( при необходимости использовать ресурсы больше месячного лимита ) – скидка на ресурсы от 25%.

Page 22: Windows Azure - BigData and Hadoop

Программы Microsoft BizSpark

MS BizSpark MS Seed Fund MS Startup Accelerator

Средства разработки и

тестирования ПО ИТ-

инфраструктура Доступ в магазин

приложений

• Денежные гранты на создание продукта до $100k

$60k для Windows Azure

Менторская помощь

Технологический консалтинг

Совместный маркетинг, PR

®®

Page 23: Windows Azure - BigData and Hadoop

«Идеальный кандидат»

Компания - разработчик ПО или интернет-сервиса, ориентированного на большой рынок (более $1млрд), а еще лучше – создает новую большую рыночную нишу (так называемые «подрывные» (disruptive) продукты и технологии)

К моменту подачи заявки компания имеет уже реализованный прототип и нуждается в финансировании для того, чтобы довести этот прототип до уровня коммерческого продукта

Есть понятный бизнес-план, понимание рынка, продукта, целевой аудитории, модели монетизации. Квалификация команды внушает экспертному жюри уверенность в том, что продукт будет реализован

Использование стратегических технологий Microsoft - Windows Azure, Windows 8 и Windows Phone

Фонд посевного финансирования Microsoft

Page 24: Windows Azure - BigData and Hadoop

32 российских стартапа уже получили гранты на сумму около $1.3M: ePythia, Wobot, ColorPen, PiratePay, Ajatix, SPEEREO, BodyNova, ShopPoints, Alpha Smart Systems, Cloud Health Care, ClipClockChoister, SportFort, MoosCool, Car-Fin, RealSpeaker, MD.Voice, 10tracks, Ubiq Mobile и др.

Прием заявок идет ежеквартально.

Подробнее: ms-start.ru/rusfund

Фонд посевного финансирования

Page 25: Windows Azure - BigData and Hadoop

Cheap Storage

$100 gets you 3million times more

storage in 30 years)

Inexpensive Computing

1980 10 MIPS/$ 2005 10M MIPS/$

Device Explosion

>5.5 billion (70+% of global population)

KEY TRENDS

Social Networks

>2 Billionusers

Ubiquitous Connection

Web traffic2010 130 Exabyte (10 E18)

2015 1.6 ZettaByte (10 E21)

Sensor Networks

>10 Billion

Page 26: Windows Azure - BigData and Hadoop

Internet of things Audio /

VideoLog Files

Text/Image

Social Sentiment

Data Market FeedseGov Feeds

Weather

Wikis / BlogsClick

Stream

Sensors / RFID / Devices

Spatial & GPS Coordinates

WEB 2.0Mobile

Advertising

Collaboration

eCommerce

Digital Marketing

Search Marketing

Web Logs

Recommendations

ERP / CRM

Sales Pipeline

PayablesPayroll

Inventory

Contacts

Deal Tracking

Terabytes(10E12)

Gigabytes(10E9)

Exabytes(10E18)

Petabytes(10E15)

Velocity - Variety - variability

Volu

me

1980190,000$

20100.07$

19909,000$

200015$Storage/GB

ERP / CRM WEB 2.0

Internet of things

What is Big Data?

Page 27: Windows Azure - BigData and Hadoop

Big Data, BIG OPPORTUNITY

Big Data is a top priority for institutions

49% CEOs and CIOs are planning big data projects

Software Growth

0

51.8 2.5 3.4 4.6

Bil-

lio

ns $ 34%

compound annual growth rate2

Services Growth

0

102.7 3.9 5.1 6.5

Bil-

lio

ns $ 39%

compound annual growth rate2

1. McKinsey&Company, McKinsey Global Survey Results, Minding Your Digital Business, 20122. IDC Market Analysis, Worldwide Big Data Technology and Services 2012–2015 Forecast ,

2012

Page 28: Windows Azure - BigData and Hadoop

OPERATIONAL DATA

New workflow in Data Warehousing

Raw Data“Store it All” Cluster

Raw Data“Store it All” Cluster

NEW USER REGISTRY

NEW PURCHASE

NEW PRODUCT

Data Warehouse

Logs

Logs

How much do views for certain products increase when our TV ads run?

Page 29: Windows Azure - BigData and Hadoop

Devices: Internet and Internet of thingsInternet of

things Invisible devicesTrillions of networked

nodes

Low bandwidth last-mile

connection

100kBit/sec

Mostly addressed by local schemes

Machine-centric Sensing-focus

Trillions of computer-enabled

devices which are part of the

IoT

Global addressing

User-centricCommunication-

focus

Internet

Laptops / tablets / smartphones

Billions of networked devices

High-bandwidth access

Cable: 10Mbs+Fiber: 50-100Mbs

6+billion people

1.5 billion use net

US: 4.3 devices per adult

Page 30: Windows Azure - BigData and Hadoop

Collective Intelligence and Predictive analysis

Advanced Analytics

Live Data Feed, Search

Social Analytics

How do I optimize my services based on patterns of weather, traffic. How do I build a recommendation engine?

What’s the social sentiment of my product?

How do I better predict future outcomes?

Page 31: Windows Azure - BigData and Hadoop

Hadoop Distributed Architecture

Page 32: Windows Azure - BigData and Hadoop

FIRST, STORE THE DATA

Server

ServerServer

MapReduce: Move Code to the Data

Files

Server

Page 33: Windows Azure - BigData and Hadoop

SECOND, TAKE THE PROCESSING TO THE DATA

So How Does It Work?

// Map Reduce function in JavaScript

var map = function (key, value, context) {var words = value.split(/[^a-zA-Z]/);for (var i = 0; i < words.length; i++) {

if (words[i] !== "")context.write(words[i].toLowerCase(),1);}}};

var reduce = function (key, values, context) {var sum = 0;while (values.hasNext()) {sum += parseInt(values.next());

}context.write(key, sum);};

ServerServer

ServerServer

RUNTIME

Code

Page 34: Windows Azure - BigData and Hadoop

Our weather model and resulting data sets should be accessible to universities and other institutions.

Aerospace Development Manager, U.S. Federal Government

It takes more time to hand a project from the seismic guys to me to the engineers in production than it does to figure out the oil field plays.

Geologist, Major oil and gas company

MapReduce – Workflow

Page 35: Windows Azure - BigData and Hadoop

Traditional RDBMS vs. NoSQLTRADITIONAL RDBMS HADOOP

Data Size Gigabytes (Terabytes) Petabytes (Hexabytes)

Access Interactive and Batch Batch

Updates Read / Write many times Write once, Read many times

Structure Static Schema Dynamic Schema

Integrity High (ACID) Low

Scaling Nonlinear Linear

DBA Ratio 1:40 1:3000

Reference: Tom White’s Hadoop: The Definitive Guide

Page 36: Windows Azure - BigData and Hadoop

Distributed Storage(HDFS)

Query(Hive)

Distributed Processing

(MapReduce)

Scripting(Pig)

NoSQ

L Data

base

(HB

ase

)

Metadata(HCatalog)

Data

Inte

gra

tion

( OD

BC

/ SQ

OO

P/ REST)

Rela

tiona

l(S

QL

Serve

r)

Machine Learning(Mahout)

Graph(Pegasus)

Stats processin

g(RHadoo

p)

Eve

nt Pip

elin

e(Flu

me)

Active Directory (Security)

Monitoring & Deployment

(System Center)

C#, F#, .NET

JavaScript

Pipelin

e / w

orkflo

w(O

ozie

)

Azure Storage Vault (ASV)

PD

W Po

lybase

Busin

ess

Inte

lligence

(E

xcel, Po

wer

Vie

w, S

SA

S)

HDINSIGHT / HADOOP Eco-System

World's Data (Azure Data Marketplace)

Eve

nt

Drive

n

Proce

ssing

LegendRed = Core HadoopBlue = Data processingPurple = Microsoft integration points and value addsOrange = Data MovementGreen = Packages

Page 37: Windows Azure - BigData and Hadoop

Front end

Front end

Stream Layer

Partition Layer

HDFS on Azure: Tale of two File Systems

Name Node

de

Data Node Data Node

Front end

HDFS API

DFS (1 Data Node per Worker Role)and Compute Cluster

Azure Storage (ASV)

Azure Blob Storage

Page 38: Windows Azure - BigData and Hadoop

Azure Storage (ASV) Default file system for HDInsight Service

Provides sharable, persistent, highly-scalable Storage with high availability (Azure Blob Store)

Azure storage itself does not provide compute

Fast access from compute nodes to data in same data center

Several file systems, addressable via:asv[s]:<container>@<account>.blob.core.windows.net/<path>

Requires storage key in core-site.xml:<property> <name>fs.azure.account.key.accountname</name> <value>enterthekeyvaluehere</value></property>

Page 39: Windows Azure - BigData and Hadoop

Programming HDInsight

Page 40: Windows Azure - BigData and Hadoop

Programming HDInsightExisting Ecosystem

Hive, Pig, Mahout, Cascading, Scalding, Scoobi, Pegasus…

.NET

JavaScript

DevOps / IT Pros

C#, F# Map/Reduce, LINQ to Hive, .NET management clients

JavaScript Map/Reduce, Browser hosted console, Node.js management clients

PowerShell, Cross Platform CLI tools

Page 41: Windows Azure - BigData and Hadoop

Authoring Jobs App Integration Building Developer Experiences

Core Hadoop

Consistent REST API’s

Breadth of Clients (Java, JS, .NET, etc)

Authoring frameworks and languages

End User Tooling (IDE’s, Analyst tools, Command lines)

ConnectivityProgrammabilitySecurityLoosely coupled

LightweightLow cost to

extendScenario oriented

Innovation flows upward

New compute models

Perf enhancements

Extend breadth & depthEnable new scenariosIntegrate with current tool chains

Page 43: Windows Azure - BigData and Hadoop

Microsoft Hadoop VisionInsights to all users by activating new types of data

Integrate with Microsoft Business Intelligence

Choice of deployment on Windows Server + Windows Azure

Integrate with Windows Components (AD, Systems Center)Easy installation and configuration of Hadoop on Windows

Simplified programming with . Net & Javascript integration

Integrate with SQL Server Data Warehousing

Diff

ere

nti

ati

on

Page 44: Windows Azure - BigData and Hadoop

Resources

• http://www.windowsazure.com/• http://hadoop.apache.org/• Nuget: http://nuget.org/packages?q=hadoop• Hadoop SDK: http://hadoopsdk.codeplex.com

• Follow @wenmingye for Questions and latest info.

Page 45: Windows Azure - BigData and Hadoop

Изучайте и присоединяйтесь!

Центр разработки

azurehub.ru

Полезные ресурсы

[email protected]

Контактный емейл для всех вопросов по Windows [email protected]

Сообщество пользователейfacebook.com/groups/azurerus

Последние новости@windowsazure_ru

Page 46: Windows Azure - BigData and Hadoop

Ваши вопросы…

Page 47: Windows Azure - BigData and Hadoop
Page 48: Windows Azure - BigData and Hadoop

© 2012 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries.The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a

commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.