windows azure - bigdata and hadoop
DESCRIPTION
BigData Dive in Minsk / Altoros conference / Windows Azure and BigData- autoscale, Linux, HDInsigh. Options for developers and startups - BizSpark, msdn subscriptions, seed fundTRANSCRIPT
Alexey Bokov [email protected]
Windows Azure – BigData, Hadoop и многое другое
BigData Dive : Minsk 19 September 2012
abokov
Содержание
Немного про Windows Azure
HDInsight – Hadoop в Azure
Q/A
#bigdataby
24 узла в CDN: Ashburn, San Francisco, Chicago, San Antonio, Los Angeles, Miami, Newark, Seattle, Amsterdam, Dublin, London,
Moscow, Paris, Stockholm, Vienna,
Zurich, Hong Kong, Sao Paulo, Seoul,
Singapore, Sydney, Taipei, Tokyo, Doha
8 датацентров: - 4 поколение на ITPAC - площадь~ 28 100 кв - мощность ~ 16 МВт - PUE ~ 1.05-1.22 - стоимость ~ 500М $
Windows Azure - инфраструктура
North Central US
South East Asia
East AsiaNorth Europe Dublin
West Europe AmsterdamSouth Central
US
East US
West US
Windows Azure - инфраструктура
Подробнее о датацентрах Azure:
ou.gs/wadc
Облачные сервисы – вычислительные ресурсы
Web Site – размещение сайтов на популярных фреймворках
Virtual Machine – Windows Server, Linux
Mobile Service – push-нотификации, авторизация
пользователей, обработка данных – WinPhone, iOS, Android,
Windows Store
Cloud Service – размещение приложения в облаке
Облачные сервисы – работа с данными
SQL Azure – реляционная база данных как сервис
Storage – облачное хранилище ( блобы ) данных, с доступом по HTTP/S
HD Insight – Hadoop as a Service
SQL Reporting – генерация отчетов
Recovery services – автоматическое бэкапирование образов серверов
на базе Windows Server
Облачные сервисы – приложения и сеть
Service Bus – защищенный обмен сообщениями
Media Service – медиа сервисы и стриминг видео
Access control – авторизация и аутентификация в
облаке
VPN – виртуальная частная сеть в облаке
Windows Azure – немного цифр
Облачное хранилище: сейчас вмещает
более 4 триллионов объектов в облачном хранилище
270 000 обращений в среднем
Пиковая нагрузка - 860 000 обращений в сек
Виртуальные машины
Memory Intensive – A71.64/2.04/2.13
Large – A3 0.24/0.36/0.4
4 ядра x 1.6Ghz
7.0 GB memory1000 GB storage
400 Mbps network
8 ядер x 1.6Ghz
56 GB memory6050 GB
2000 Mbps network
0.02/ /0.06
Extra Small – A0
1 x 1.0GhzРазделяемое
ядро768 MB memory
20 GB storage5 Mbps network
Linux/Windows/SQL Server, стоимость$ за час
... ...
• Определение сервиса – ServiceDefinition.csdef
• Конфигурация сервиса – ServiceConfiguration.cscfg
• service package file – zip архив с кодом приложения, скриптами настройки и файлом определения сервиса
• Загрузка сервиса в Windows Azure :• Через веб-портал service package file загружается в
Windows Azure ( в Red-Dog Front End – RDFE )
• RDFE выполняет преобразования service package file и загружает его в Fabric Controller нужного региона
• Fabric Controller сохраняет образ сервиса в репозитории, загружает сервис в виртуальную машину и начинает выполнение сервиса
Немного о том как работает PaaS
<ServiceDefinition name="MyService" xmlns="http://schemas.microsoft.com/ServiceHosting/2008/10/ServiceDefinition"> <WebRole name="WebRole1">
<Startup> <Task commandLine="Startup.cmd"
executionContext="limited" taskType="simple">
</Task> </Startup>
</WebRole> </ServiceDefinition>
ServiceDefinition.csdef
Модицифируем WorkerRole1\approot\startup.cmd
На примере ниже мы скачиваем и устанавливаем tomcat,
но ничего не мешает делать git clone или svn co
cscript /B /Nologo %APPROOT%\util\unzip.vbs apache-tomcat-6.0.32-windows-x86.zip %APPROOT%cscript "util\download.vbs" "http://tcontepub.blob.core.windows.net/packages/jre6.zip"
cscript /B /Nologo %APPROOT%\util\unzip.vbs jre6.zip %APPROOT%
copy %APPROOT%\foo.war %APPROOT%\apache-tomcat-6.0.32\webapps
cd %APPROOT%\apache-tomcat-6.0.32\binset JRE_HOME=%APPROOT%\jre6
И теперь мы можем делать интересные вещи!
Облачная БД SQL Azure
- База данных как сервис- Оплата за GB хранимых данных - Premium offer для приложений с высокой нагрузкой- SLA 99.9% на доступность- Автоматическая поддержка двух backup реплик- Стоимость от $5 в месяц до $30 в день (для
premium)
Да, теперь у нас: Оплата с поминутной тарификацией Пользовательский доступ через RDP SPLA лицензирование
Поддержка БД Oracle Быстрые (относительно)
дисковые устройства Сценарии хостинга десктопных
Windows приложений Гибкие и удобные варианты
оплаты VM Depot с большим выбором
образов
Теперь у нас есть автомасштабирование! Встроенный в платформу
сервис Мониторинг по утилизации CPU
и длине Azure Queues
Если нужны более кастомные настройки – есть библиотека Wasabi -
ou.gs/wasabi
Широкий выбор тулов в IaaS сценариях
На виртуалке ( Windows, Linux ) поднять можно все что угодно – например
Confluence
В VM Depot (vmdepot.msopentech.com ) есть redmine
Open source фреймворки
SDK for PHP: phpazure.codeplex.com
Ruby on Rails SDK: rubyonrailsinazure.codeplex.com
DNN - DotNetNuke CMS: dotnetnuke.codeplex.com
Lucene.NET на базе блобов: azuredirectory.codeplex.com
Python for Visual Studio: pytools.codeplex.com
ASP.NET web stack (MVC, Web API ):
aspnetwebstack.codeplex.com
Cloud Ninja: cloudninja.codeplex.com Open source проект – пример реализации многотенантного
приложения Может стать отличной основой для вашего кода Мониторинг (в том числе входящего/исходящего трафика,
транзакций к хранилищам с разделением данных по тенантам )
Автоматическое масштабирование Идентификация с использованием Access Control Services Провижионинг ( выкладывание ) Красивые диаграммы по данным мониторинга
windowsazure.github.io
.NET SDK – работа с хранилищами, очередями, медиа сервисами
Java SDK – хранилища, медиа сервисы, service bus
Node.js – работа с хранилищами, управление ресурсами, БД SQL
PHP – работа с хранилищами, вычислительными ресурсам
Python– работа с хранилищами, вычислительными ресурсам
Ruby – работа с хранилищами, вычислительными ресурсам
Mobile Services – IOS, Android, Windows Phone, JavaScript, Windows Store
Библиотеки для командной строки – PowerShell и node.js
IISNode – хостинг node.js на IIS
Как воспользоваться - оплата Кредитная карта – Pay-as-you-go, выставляется счет в
конце месяца по фактически использованным ресурсам
Вариант с предоплатой – MOSP – предоплата
(коммитмент) на определенную сумму, есть скидки
Оплата по корпоративному соглашению – EA через LAR-
ов, значительные скидки
Если нужны счета-фактуры или оплата наличными – это
можно сделать через Облакотеку -
azure.oblakoteka.ru или Софтлайн -
azure.softline.ru
Бесплатные опции30 дневный триал на windowsazure.comТриал для MSDN подписчиков Для стартапов - BizSpark на 3 года – включает в себя 8 MSDN подписок!
Windows Azure Offer $60K – облако на 2 года на $60 000 ( на конкурсной основе )
При использовании ресурсов облака для BizSpark и MSDN подписчиков ( при необходимости использовать ресурсы больше месячного лимита ) – скидка на ресурсы от 25%.
Программы Microsoft BizSpark
MS BizSpark MS Seed Fund MS Startup Accelerator
Средства разработки и
тестирования ПО ИТ-
инфраструктура Доступ в магазин
приложений
• Денежные гранты на создание продукта до $100k
$60k для Windows Azure
Менторская помощь
Технологический консалтинг
Совместный маркетинг, PR
®®
«Идеальный кандидат»
Компания - разработчик ПО или интернет-сервиса, ориентированного на большой рынок (более $1млрд), а еще лучше – создает новую большую рыночную нишу (так называемые «подрывные» (disruptive) продукты и технологии)
К моменту подачи заявки компания имеет уже реализованный прототип и нуждается в финансировании для того, чтобы довести этот прототип до уровня коммерческого продукта
Есть понятный бизнес-план, понимание рынка, продукта, целевой аудитории, модели монетизации. Квалификация команды внушает экспертному жюри уверенность в том, что продукт будет реализован
Использование стратегических технологий Microsoft - Windows Azure, Windows 8 и Windows Phone
Фонд посевного финансирования Microsoft
32 российских стартапа уже получили гранты на сумму около $1.3M: ePythia, Wobot, ColorPen, PiratePay, Ajatix, SPEEREO, BodyNova, ShopPoints, Alpha Smart Systems, Cloud Health Care, ClipClockChoister, SportFort, MoosCool, Car-Fin, RealSpeaker, MD.Voice, 10tracks, Ubiq Mobile и др.
Прием заявок идет ежеквартально.
Подробнее: ms-start.ru/rusfund
Фонд посевного финансирования
Cheap Storage
$100 gets you 3million times more
storage in 30 years)
Inexpensive Computing
1980 10 MIPS/$ 2005 10M MIPS/$
Device Explosion
>5.5 billion (70+% of global population)
KEY TRENDS
Social Networks
>2 Billionusers
Ubiquitous Connection
Web traffic2010 130 Exabyte (10 E18)
2015 1.6 ZettaByte (10 E21)
Sensor Networks
>10 Billion
Internet of things Audio /
VideoLog Files
Text/Image
Social Sentiment
Data Market FeedseGov Feeds
Weather
Wikis / BlogsClick
Stream
Sensors / RFID / Devices
Spatial & GPS Coordinates
WEB 2.0Mobile
Advertising
Collaboration
eCommerce
Digital Marketing
Search Marketing
Web Logs
Recommendations
ERP / CRM
Sales Pipeline
PayablesPayroll
Inventory
Contacts
Deal Tracking
Terabytes(10E12)
Gigabytes(10E9)
Exabytes(10E18)
Petabytes(10E15)
Velocity - Variety - variability
Volu
me
1980190,000$
20100.07$
19909,000$
200015$Storage/GB
ERP / CRM WEB 2.0
Internet of things
What is Big Data?
Big Data, BIG OPPORTUNITY
Big Data is a top priority for institutions
49% CEOs and CIOs are planning big data projects
Software Growth
0
51.8 2.5 3.4 4.6
Bil-
lio
ns $ 34%
compound annual growth rate2
Services Growth
0
102.7 3.9 5.1 6.5
Bil-
lio
ns $ 39%
compound annual growth rate2
1. McKinsey&Company, McKinsey Global Survey Results, Minding Your Digital Business, 20122. IDC Market Analysis, Worldwide Big Data Technology and Services 2012–2015 Forecast ,
2012
OPERATIONAL DATA
New workflow in Data Warehousing
Raw Data“Store it All” Cluster
Raw Data“Store it All” Cluster
NEW USER REGISTRY
NEW PURCHASE
NEW PRODUCT
Data Warehouse
Logs
Logs
How much do views for certain products increase when our TV ads run?
Devices: Internet and Internet of thingsInternet of
things Invisible devicesTrillions of networked
nodes
Low bandwidth last-mile
connection
100kBit/sec
Mostly addressed by local schemes
Machine-centric Sensing-focus
Trillions of computer-enabled
devices which are part of the
IoT
Global addressing
User-centricCommunication-
focus
Internet
Laptops / tablets / smartphones
Billions of networked devices
High-bandwidth access
Cable: 10Mbs+Fiber: 50-100Mbs
6+billion people
1.5 billion use net
US: 4.3 devices per adult
Collective Intelligence and Predictive analysis
Advanced Analytics
Live Data Feed, Search
Social Analytics
How do I optimize my services based on patterns of weather, traffic. How do I build a recommendation engine?
What’s the social sentiment of my product?
How do I better predict future outcomes?
Hadoop Distributed Architecture
FIRST, STORE THE DATA
Server
ServerServer
MapReduce: Move Code to the Data
Files
Server
SECOND, TAKE THE PROCESSING TO THE DATA
So How Does It Work?
// Map Reduce function in JavaScript
var map = function (key, value, context) {var words = value.split(/[^a-zA-Z]/);for (var i = 0; i < words.length; i++) {
if (words[i] !== "")context.write(words[i].toLowerCase(),1);}}};
var reduce = function (key, values, context) {var sum = 0;while (values.hasNext()) {sum += parseInt(values.next());
}context.write(key, sum);};
ServerServer
ServerServer
RUNTIME
Code
Our weather model and resulting data sets should be accessible to universities and other institutions.
Aerospace Development Manager, U.S. Federal Government
It takes more time to hand a project from the seismic guys to me to the engineers in production than it does to figure out the oil field plays.
Geologist, Major oil and gas company
MapReduce – Workflow
Traditional RDBMS vs. NoSQLTRADITIONAL RDBMS HADOOP
Data Size Gigabytes (Terabytes) Petabytes (Hexabytes)
Access Interactive and Batch Batch
Updates Read / Write many times Write once, Read many times
Structure Static Schema Dynamic Schema
Integrity High (ACID) Low
Scaling Nonlinear Linear
DBA Ratio 1:40 1:3000
Reference: Tom White’s Hadoop: The Definitive Guide
Distributed Storage(HDFS)
Query(Hive)
Distributed Processing
(MapReduce)
Scripting(Pig)
NoSQ
L Data
base
(HB
ase
)
Metadata(HCatalog)
Data
Inte
gra
tion
( OD
BC
/ SQ
OO
P/ REST)
Rela
tiona
l(S
QL
Serve
r)
Machine Learning(Mahout)
Graph(Pegasus)
Stats processin
g(RHadoo
p)
Eve
nt Pip
elin
e(Flu
me)
Active Directory (Security)
Monitoring & Deployment
(System Center)
C#, F#, .NET
JavaScript
Pipelin
e / w
orkflo
w(O
ozie
)
Azure Storage Vault (ASV)
PD
W Po
lybase
Busin
ess
Inte
lligence
(E
xcel, Po
wer
Vie
w, S
SA
S)
HDINSIGHT / HADOOP Eco-System
World's Data (Azure Data Marketplace)
Eve
nt
Drive
n
Proce
ssing
LegendRed = Core HadoopBlue = Data processingPurple = Microsoft integration points and value addsOrange = Data MovementGreen = Packages
Front end
Front end
Stream Layer
Partition Layer
HDFS on Azure: Tale of two File Systems
Name Node
de
Data Node Data Node
Front end
HDFS API
DFS (1 Data Node per Worker Role)and Compute Cluster
Azure Storage (ASV)
…
Azure Blob Storage
Azure Storage (ASV) Default file system for HDInsight Service
Provides sharable, persistent, highly-scalable Storage with high availability (Azure Blob Store)
Azure storage itself does not provide compute
Fast access from compute nodes to data in same data center
Several file systems, addressable via:asv[s]:<container>@<account>.blob.core.windows.net/<path>
Requires storage key in core-site.xml:<property> <name>fs.azure.account.key.accountname</name> <value>enterthekeyvaluehere</value></property>
Programming HDInsight
Programming HDInsightExisting Ecosystem
Hive, Pig, Mahout, Cascading, Scalding, Scoobi, Pegasus…
.NET
JavaScript
DevOps / IT Pros
C#, F# Map/Reduce, LINQ to Hive, .NET management clients
JavaScript Map/Reduce, Browser hosted console, Node.js management clients
PowerShell, Cross Platform CLI tools
Authoring Jobs App Integration Building Developer Experiences
Core Hadoop
Consistent REST API’s
Breadth of Clients (Java, JS, .NET, etc)
Authoring frameworks and languages
End User Tooling (IDE’s, Analyst tools, Command lines)
ConnectivityProgrammabilitySecurityLoosely coupled
LightweightLow cost to
extendScenario oriented
Innovation flows upward
New compute models
Perf enhancements
Extend breadth & depthEnable new scenariosIntegrate with current tool chains
Microsoft Big Data Solution
Power View Excel with PowerPivot Embedded BIPredictive Analytics
APPsLOBCRMERP
Microsoft PDW
SSAS SSRS
Devices CrawlersSensors Bots
Hadoop On Windows ServerHDInsight Service
Microsoft Hadoop VisionInsights to all users by activating new types of data
Integrate with Microsoft Business Intelligence
Choice of deployment on Windows Server + Windows Azure
Integrate with Windows Components (AD, Systems Center)Easy installation and configuration of Hadoop on Windows
Simplified programming with . Net & Javascript integration
Integrate with SQL Server Data Warehousing
Diff
ere
nti
ati
on
Resources
• http://www.windowsazure.com/• http://hadoop.apache.org/• Nuget: http://nuget.org/packages?q=hadoop• Hadoop SDK: http://hadoopsdk.codeplex.com
• Follow @wenmingye for Questions and latest info.
Изучайте и присоединяйтесь!
Центр разработки
azurehub.ru
Полезные ресурсы
Контактный емейл для всех вопросов по Windows [email protected]
Сообщество пользователейfacebook.com/groups/azurerus
Последние новости@windowsazure_ru
Ваши вопросы…
© 2012 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries.The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a
commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.