windows azure - bigdata and hadoop

Post on 24-May-2015

771 Views

Category:

Technology

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

BigData Dive in Minsk / Altoros conference / Windows Azure and BigData- autoscale, Linux, HDInsigh. Options for developers and startups - BizSpark, msdn subscriptions, seed fund

TRANSCRIPT

Alexey Bokov abokov@microsoft.com

Windows Azure – BigData, Hadoop и многое другое

BigData Dive : Minsk 19 September 2012

abokov

Содержание

Немного про Windows Azure

HDInsight – Hadoop в Azure

Q/A

#bigdataby

24 узла в CDN: Ashburn, San Francisco, Chicago, San Antonio, Los Angeles, Miami, Newark, Seattle, Amsterdam, Dublin, London,

Moscow, Paris, Stockholm, Vienna,

Zurich, Hong Kong, Sao Paulo, Seoul,

Singapore, Sydney, Taipei, Tokyo, Doha

8 датацентров: - 4 поколение на ITPAC - площадь~ 28 100 кв - мощность ~ 16 МВт - PUE ~ 1.05-1.22 - стоимость ~ 500М $

Windows Azure - инфраструктура

North Central US

South East Asia

East AsiaNorth Europe Dublin

West Europe AmsterdamSouth Central

US

East US

West US

Windows Azure - инфраструктура

Подробнее о датацентрах Azure:

ou.gs/wadc

Облачные сервисы – вычислительные ресурсы

Web Site – размещение сайтов на популярных фреймворках

Virtual Machine – Windows Server, Linux

Mobile Service – push-нотификации, авторизация

пользователей, обработка данных – WinPhone, iOS, Android,

Windows Store

Cloud Service – размещение приложения в облаке

Облачные сервисы – работа с данными

SQL Azure – реляционная база данных как сервис

Storage – облачное хранилище ( блобы ) данных, с доступом по HTTP/S

HD Insight – Hadoop as a Service

SQL Reporting – генерация отчетов

Recovery services – автоматическое бэкапирование образов серверов

на базе Windows Server

Облачные сервисы – приложения и сеть

Service Bus – защищенный обмен сообщениями

Media Service – медиа сервисы и стриминг видео

Access control – авторизация и аутентификация в

облаке

VPN – виртуальная частная сеть в облаке

Windows Azure – немного цифр

Облачное хранилище: сейчас вмещает

более 4 триллионов объектов в облачном хранилище

270 000 обращений в среднем

Пиковая нагрузка - 860 000 обращений в сек

Виртуальные машины

Memory Intensive – A71.64/2.04/2.13

Large – A3 0.24/0.36/0.4

4 ядра x 1.6Ghz

7.0 GB memory1000 GB storage

400 Mbps network

8 ядер x 1.6Ghz

56 GB memory6050 GB

2000 Mbps network

0.02/ /0.06

Extra Small – A0

1 x 1.0GhzРазделяемое

ядро768 MB memory

20 GB storage5 Mbps network

Linux/Windows/SQL Server, стоимость$ за час

... ...

• Определение сервиса – ServiceDefinition.csdef

• Конфигурация сервиса – ServiceConfiguration.cscfg

• service package file – zip архив с кодом приложения, скриптами настройки и файлом определения сервиса

• Загрузка сервиса в Windows Azure :• Через веб-портал service package file загружается в

Windows Azure ( в Red-Dog Front End – RDFE )

• RDFE выполняет преобразования service package file и загружает его в Fabric Controller нужного региона

• Fabric Controller сохраняет образ сервиса в репозитории, загружает сервис в виртуальную машину и начинает выполнение сервиса

Немного о том как работает PaaS

<ServiceDefinition name="MyService" xmlns="http://schemas.microsoft.com/ServiceHosting/2008/10/ServiceDefinition"> <WebRole name="WebRole1">

<Startup> <Task commandLine="Startup.cmd"

executionContext="limited" taskType="simple">

</Task> </Startup>

</WebRole> </ServiceDefinition>

ServiceDefinition.csdef

Модицифируем WorkerRole1\approot\startup.cmd

На примере ниже мы скачиваем и устанавливаем tomcat,

но ничего не мешает делать git clone или svn co

cscript /B /Nologo %APPROOT%\util\unzip.vbs apache-tomcat-6.0.32-windows-x86.zip %APPROOT%cscript "util\download.vbs" "http://tcontepub.blob.core.windows.net/packages/jre6.zip"

cscript /B /Nologo %APPROOT%\util\unzip.vbs jre6.zip %APPROOT%

copy %APPROOT%\foo.war %APPROOT%\apache-tomcat-6.0.32\webapps

cd %APPROOT%\apache-tomcat-6.0.32\binset JRE_HOME=%APPROOT%\jre6

И теперь мы можем делать интересные вещи!

Облачная БД SQL Azure

- База данных как сервис- Оплата за GB хранимых данных - Premium offer для приложений с высокой нагрузкой- SLA 99.9% на доступность- Автоматическая поддержка двух backup реплик- Стоимость от $5 в месяц до $30 в день (для

premium)

Да, теперь у нас: Оплата с поминутной тарификацией Пользовательский доступ через RDP SPLA лицензирование

Поддержка БД Oracle Быстрые (относительно)

дисковые устройства Сценарии хостинга десктопных

Windows приложений Гибкие и удобные варианты

оплаты VM Depot с большим выбором

образов

Теперь у нас есть автомасштабирование! Встроенный в платформу

сервис Мониторинг по утилизации CPU

и длине Azure Queues

Если нужны более кастомные настройки – есть библиотека Wasabi -

ou.gs/wasabi

Широкий выбор тулов в IaaS сценариях

На виртуалке ( Windows, Linux ) поднять можно все что угодно – например

Confluence

В VM Depot (vmdepot.msopentech.com ) есть redmine

Open source фреймворки

SDK for PHP: phpazure.codeplex.com

Ruby on Rails SDK: rubyonrailsinazure.codeplex.com

DNN - DotNetNuke CMS: dotnetnuke.codeplex.com

Lucene.NET на базе блобов: azuredirectory.codeplex.com

Python for Visual Studio: pytools.codeplex.com

ASP.NET web stack (MVC, Web API ):

aspnetwebstack.codeplex.com

Cloud Ninja: cloudninja.codeplex.com Open source проект – пример реализации многотенантного

приложения Может стать отличной основой для вашего кода Мониторинг (в том числе входящего/исходящего трафика,

транзакций к хранилищам с разделением данных по тенантам )

Автоматическое масштабирование Идентификация с использованием Access Control Services Провижионинг ( выкладывание ) Красивые диаграммы по данным мониторинга

windowsazure.github.io

.NET SDK – работа с хранилищами, очередями, медиа сервисами

Java SDK – хранилища, медиа сервисы, service bus

Node.js – работа с хранилищами, управление ресурсами, БД SQL

PHP – работа с хранилищами, вычислительными ресурсам

Python– работа с хранилищами, вычислительными ресурсам

Ruby – работа с хранилищами, вычислительными ресурсам

Mobile Services – IOS, Android, Windows Phone, JavaScript, Windows Store

Библиотеки для командной строки – PowerShell и node.js

IISNode – хостинг node.js на IIS

Как воспользоваться - оплата Кредитная карта – Pay-as-you-go, выставляется счет в

конце месяца по фактически использованным ресурсам

Вариант с предоплатой – MOSP – предоплата

(коммитмент) на определенную сумму, есть скидки

Оплата по корпоративному соглашению – EA через LAR-

ов, значительные скидки

Если нужны счета-фактуры или оплата наличными – это

можно сделать через Облакотеку -

azure.oblakoteka.ru или Софтлайн -

azure.softline.ru

Бесплатные опции30 дневный триал на windowsazure.comТриал для MSDN подписчиков Для стартапов - BizSpark на 3 года – включает в себя 8 MSDN подписок!

Windows Azure Offer $60K – облако на 2 года на $60 000 ( на конкурсной основе )

При использовании ресурсов облака для BizSpark и MSDN подписчиков ( при необходимости использовать ресурсы больше месячного лимита ) – скидка на ресурсы от 25%.

Программы Microsoft BizSpark

MS BizSpark MS Seed Fund MS Startup Accelerator

Средства разработки и

тестирования ПО ИТ-

инфраструктура Доступ в магазин

приложений

• Денежные гранты на создание продукта до $100k

$60k для Windows Azure

Менторская помощь

Технологический консалтинг

Совместный маркетинг, PR

®®

«Идеальный кандидат»

Компания - разработчик ПО или интернет-сервиса, ориентированного на большой рынок (более $1млрд), а еще лучше – создает новую большую рыночную нишу (так называемые «подрывные» (disruptive) продукты и технологии)

К моменту подачи заявки компания имеет уже реализованный прототип и нуждается в финансировании для того, чтобы довести этот прототип до уровня коммерческого продукта

Есть понятный бизнес-план, понимание рынка, продукта, целевой аудитории, модели монетизации. Квалификация команды внушает экспертному жюри уверенность в том, что продукт будет реализован

Использование стратегических технологий Microsoft - Windows Azure, Windows 8 и Windows Phone

Фонд посевного финансирования Microsoft

32 российских стартапа уже получили гранты на сумму около $1.3M: ePythia, Wobot, ColorPen, PiratePay, Ajatix, SPEEREO, BodyNova, ShopPoints, Alpha Smart Systems, Cloud Health Care, ClipClockChoister, SportFort, MoosCool, Car-Fin, RealSpeaker, MD.Voice, 10tracks, Ubiq Mobile и др.

Прием заявок идет ежеквартально.

Подробнее: ms-start.ru/rusfund

Фонд посевного финансирования

Cheap Storage

$100 gets you 3million times more

storage in 30 years)

Inexpensive Computing

1980 10 MIPS/$ 2005 10M MIPS/$

Device Explosion

>5.5 billion (70+% of global population)

KEY TRENDS

Social Networks

>2 Billionusers

Ubiquitous Connection

Web traffic2010 130 Exabyte (10 E18)

2015 1.6 ZettaByte (10 E21)

Sensor Networks

>10 Billion

Internet of things Audio /

VideoLog Files

Text/Image

Social Sentiment

Data Market FeedseGov Feeds

Weather

Wikis / BlogsClick

Stream

Sensors / RFID / Devices

Spatial & GPS Coordinates

WEB 2.0Mobile

Advertising

Collaboration

eCommerce

Digital Marketing

Search Marketing

Web Logs

Recommendations

ERP / CRM

Sales Pipeline

PayablesPayroll

Inventory

Contacts

Deal Tracking

Terabytes(10E12)

Gigabytes(10E9)

Exabytes(10E18)

Petabytes(10E15)

Velocity - Variety - variability

Volu

me

1980190,000$

20100.07$

19909,000$

200015$Storage/GB

ERP / CRM WEB 2.0

Internet of things

What is Big Data?

Big Data, BIG OPPORTUNITY

Big Data is a top priority for institutions

49% CEOs and CIOs are planning big data projects

Software Growth

0

51.8 2.5 3.4 4.6

Bil-

lio

ns $ 34%

compound annual growth rate2

Services Growth

0

102.7 3.9 5.1 6.5

Bil-

lio

ns $ 39%

compound annual growth rate2

1. McKinsey&Company, McKinsey Global Survey Results, Minding Your Digital Business, 20122. IDC Market Analysis, Worldwide Big Data Technology and Services 2012–2015 Forecast ,

2012

OPERATIONAL DATA

New workflow in Data Warehousing

Raw Data“Store it All” Cluster

Raw Data“Store it All” Cluster

NEW USER REGISTRY

NEW PURCHASE

NEW PRODUCT

Data Warehouse

Logs

Logs

How much do views for certain products increase when our TV ads run?

Devices: Internet and Internet of thingsInternet of

things Invisible devicesTrillions of networked

nodes

Low bandwidth last-mile

connection

100kBit/sec

Mostly addressed by local schemes

Machine-centric Sensing-focus

Trillions of computer-enabled

devices which are part of the

IoT

Global addressing

User-centricCommunication-

focus

Internet

Laptops / tablets / smartphones

Billions of networked devices

High-bandwidth access

Cable: 10Mbs+Fiber: 50-100Mbs

6+billion people

1.5 billion use net

US: 4.3 devices per adult

Collective Intelligence and Predictive analysis

Advanced Analytics

Live Data Feed, Search

Social Analytics

How do I optimize my services based on patterns of weather, traffic. How do I build a recommendation engine?

What’s the social sentiment of my product?

How do I better predict future outcomes?

Hadoop Distributed Architecture

FIRST, STORE THE DATA

Server

ServerServer

MapReduce: Move Code to the Data

Files

Server

SECOND, TAKE THE PROCESSING TO THE DATA

So How Does It Work?

// Map Reduce function in JavaScript

var map = function (key, value, context) {var words = value.split(/[^a-zA-Z]/);for (var i = 0; i < words.length; i++) {

if (words[i] !== "")context.write(words[i].toLowerCase(),1);}}};

var reduce = function (key, values, context) {var sum = 0;while (values.hasNext()) {sum += parseInt(values.next());

}context.write(key, sum);};

ServerServer

ServerServer

RUNTIME

Code

Our weather model and resulting data sets should be accessible to universities and other institutions.

Aerospace Development Manager, U.S. Federal Government

It takes more time to hand a project from the seismic guys to me to the engineers in production than it does to figure out the oil field plays.

Geologist, Major oil and gas company

MapReduce – Workflow

Traditional RDBMS vs. NoSQLTRADITIONAL RDBMS HADOOP

Data Size Gigabytes (Terabytes) Petabytes (Hexabytes)

Access Interactive and Batch Batch

Updates Read / Write many times Write once, Read many times

Structure Static Schema Dynamic Schema

Integrity High (ACID) Low

Scaling Nonlinear Linear

DBA Ratio 1:40 1:3000

Reference: Tom White’s Hadoop: The Definitive Guide

Distributed Storage(HDFS)

Query(Hive)

Distributed Processing

(MapReduce)

Scripting(Pig)

NoSQ

L Data

base

(HB

ase

)

Metadata(HCatalog)

Data

Inte

gra

tion

( OD

BC

/ SQ

OO

P/ REST)

Rela

tiona

l(S

QL

Serve

r)

Machine Learning(Mahout)

Graph(Pegasus)

Stats processin

g(RHadoo

p)

Eve

nt Pip

elin

e(Flu

me)

Active Directory (Security)

Monitoring & Deployment

(System Center)

C#, F#, .NET

JavaScript

Pipelin

e / w

orkflo

w(O

ozie

)

Azure Storage Vault (ASV)

PD

W Po

lybase

Busin

ess

Inte

lligence

(E

xcel, Po

wer

Vie

w, S

SA

S)

HDINSIGHT / HADOOP Eco-System

World's Data (Azure Data Marketplace)

Eve

nt

Drive

n

Proce

ssing

LegendRed = Core HadoopBlue = Data processingPurple = Microsoft integration points and value addsOrange = Data MovementGreen = Packages

Front end

Front end

Stream Layer

Partition Layer

HDFS on Azure: Tale of two File Systems

Name Node

de

Data Node Data Node

Front end

HDFS API

DFS (1 Data Node per Worker Role)and Compute Cluster

Azure Storage (ASV)

Azure Blob Storage

Azure Storage (ASV) Default file system for HDInsight Service

Provides sharable, persistent, highly-scalable Storage with high availability (Azure Blob Store)

Azure storage itself does not provide compute

Fast access from compute nodes to data in same data center

Several file systems, addressable via:asv[s]:<container>@<account>.blob.core.windows.net/<path>

Requires storage key in core-site.xml:<property> <name>fs.azure.account.key.accountname</name> <value>enterthekeyvaluehere</value></property>

Programming HDInsight

Programming HDInsightExisting Ecosystem

Hive, Pig, Mahout, Cascading, Scalding, Scoobi, Pegasus…

.NET

JavaScript

DevOps / IT Pros

C#, F# Map/Reduce, LINQ to Hive, .NET management clients

JavaScript Map/Reduce, Browser hosted console, Node.js management clients

PowerShell, Cross Platform CLI tools

Authoring Jobs App Integration Building Developer Experiences

Core Hadoop

Consistent REST API’s

Breadth of Clients (Java, JS, .NET, etc)

Authoring frameworks and languages

End User Tooling (IDE’s, Analyst tools, Command lines)

ConnectivityProgrammabilitySecurityLoosely coupled

LightweightLow cost to

extendScenario oriented

Innovation flows upward

New compute models

Perf enhancements

Extend breadth & depthEnable new scenariosIntegrate with current tool chains

Microsoft Hadoop VisionInsights to all users by activating new types of data

Integrate with Microsoft Business Intelligence

Choice of deployment on Windows Server + Windows Azure

Integrate with Windows Components (AD, Systems Center)Easy installation and configuration of Hadoop on Windows

Simplified programming with . Net & Javascript integration

Integrate with SQL Server Data Warehousing

Diff

ere

nti

ati

on

Resources

• http://www.windowsazure.com/• http://hadoop.apache.org/• Nuget: http://nuget.org/packages?q=hadoop• Hadoop SDK: http://hadoopsdk.codeplex.com

• Follow @wenmingye for Questions and latest info.

Изучайте и присоединяйтесь!

Центр разработки

azurehub.ru

Полезные ресурсы

ms-start.rurustart@microsoft.com

Контактный емейл для всех вопросов по Windows AzureAzureRus@microsoft.com

Сообщество пользователейfacebook.com/groups/azurerus

Последние новости@windowsazure_ru

Ваши вопросы…

© 2012 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries.The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a

commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.

top related