hadoop i sparkmariuszrafalo.pl/sgh/bd2/bd 02 - apache hadoop.pdf · yahoo 4. architektura logiczna...

25
Hadoop i Spark Mariusz Rafało [email protected] http://mariuszrafalo.pl

Upload: others

Post on 22-May-2020

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Hadoop i Spark

Mariusz Rafało [email protected]://mariuszrafalo.pl

Page 2: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

WPROWADZENIE DO EKOSYSTEMU APACHE HADOOP

Page 3: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Czym jest Hadoop

• Platforma służąca przetwarzaniu rozproszonemu dużych zbiorów danych. Jest to system open-source, na licencji Apache Software Foundation.

• Główne cechy Apache Hadoop: • Proste zarządzanie danymi w różnych formatach• Duża skalowalność• Wysoka tolerancja na awarie

• Wspierane języki programowania• Java• Python• Scala• R 3

Page 4: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

HDFS

• HDFS (Hadoop Distributed File System) to rozproszony system plików, umieszczony na wielu serwerach (węzłach – nodes)

• HDFS cechuje się wysokim poziomem tolerancji na awarie sprzętowe (fault tolerant)

• HDFS powstał na potrzeby projektu wyszukiwarki Nutch, dla firmy Yahoo

4

Page 5: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Architektura logiczna klastra Hadoop

Name NodeSecondary Name

Node

Data Node Data Node Data Node

5

Edge Node

Name NodeName Node

App server

Ambari

Page 6: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Name node

• Przechowuje metadane plików; także dane dotyczące lokalizacji poszczególnych plików składowanych na HDFS

• name node jest kluczowym elementem architektury fizycznej – w klastrze zawsze jest jeden name node

• Zarządzania rozkładem plików podczas przyłączania nowych data nodeoraz w przypadku wystąpienia awarii

6

Page 7: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Secondary name node

• Przechowuje logi replikowane w określonym czasie z name node

• Zadaniem secondary name node jest redukcja czasu zarządzania metadanymi klastra oraz czasu restartu klastra

• secondary name node stanowi zapisuje stany danych(checkpoint) w systemie HDFS; służy to wsparciu wydajności pracy name node

• secondary name node nie służy zapewnieniu wysokiej dostępności klastra (HA)

7

Page 8: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Data node

• Składuje dane na systemie HDFS

• Przekazuje informacje od name node, dotyczące swojego statusu oraz posiadanych plików

• Może pracować w trybie replikacji danych (także RAID)

• Wykonuje zadania obliczeniowe zlecane poprzez MapReduce lub Yarn

8

Page 9: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Edge node

• Służy do wymiany informacji z otoczeniem klastra

• Są na nim instalowane aplikacje

• Posiada dedykowaną konfigurację sieciową, pozwalającą na wymianę danych z innymi systemami

9

Page 10: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Edge node

10

Data Node

Name Node

Data NodeData Node

Data NodeData Node

Data Node

Name Node

Data NodeEdge Node

Source files

Page 11: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Serwer aplikacyjny

• Hostuje aplikacje realizujące różne funkcjonalności

• Aplikacji nie instaluje się na węzłach klastra (name node/data node)

• Dobrą praktyką jest wirtualizacja poszczególnych aplikacji (np. ESXi)

• Przykładowe usługi:• Ambari

• NiFi

• Zeppellin/Jupyter

• Oozie

Page 12: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Architektura fizyczna

12Źródło: pacificbigdata.com

Page 13: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

ARCHITEKTURY BIG DATA

Page 14: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Data Lake

• Repozytorium służące składowaniu i przetwarzaniu danych o bardzo dużej skali i zróżnicowaniu

• Możliwość podłączania zróżnicowanych źródeł danych, zarówno posiadających strukturę jak i pozbawionych struktury; danych wsadowych oraz strumieni

• Dane nie są składowane w sposób uporządkowany jak w przypadku hurtowni danych czy data martów. Jest to często federacja technologii, baz danych i strumieni danych

• Architektura powstała jako odpowiedź na wady „klasycznych” hurtowni danych:

• HD odpowiadają tylko na pytania, które były znane wcześniej

• Hurtownie danych i data marty posiadają dane o określonej szczegółowości. Nie można jej zwiększyć

• HD opierają się na zdefiniowanych źródłach danych

14

Page 15: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Architektura lambda

Batch layer

Real-time layer

Data enrichmentServing layerData providers

Page 16: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Architektura kappa

Historical data storage(DWH)

Real-time layer

Serving layerData providers

Page 17: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

APACHE HADOOP

Page 18: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Komponenty technologiczne - klasyfikacja

• Składowanie danych

• Przetwarzanie

• Automatyzacja przetwarzania

• Administrowanie klastrem

• Bezpieczeństwo

• Przetwarzanie strumieniowe

• Machine learning

18

Page 19: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Dystrybucje Apache Hadoop

•Alibaba Cloud E-MapReduce

•Amazon EMR

•Azure HDInsight

•Google Cloud Dataproc

•Cloudera

•Hortonworks

19

Page 20: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Databricks

Page 21: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Databricks community edition

https://community.cloud.databricks.com

Page 22: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Databricks platform

Źródło: databricks.org

Page 23: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Databricks platform

Źródło: databricks.org

Page 24: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Databricks platform

Źródło: databricks.org

Page 25: Hadoop i Sparkmariuszrafalo.pl/sgh/bd2/BD 02 - Apache Hadoop.pdf · Yahoo 4. Architektura logiczna klastra Hadoop Name Node Secondary Name Node Data Node Data Node Data Node 5 Edge

Dziękuję za uwagę