hadoop & cloudera workshop
Post on 16-Apr-2017
855 Views
Preview:
TRANSCRIPT
Hadoop && Cloudera Workshop
Hakkmda
9+ Java , Java EE
3+ Hadoop,Spark,Pig,Hive,Oozie
Big Data Developer - Comodo
Blogger/Trainer - buyukveri.co
erik
Hadoop Nedir ?
HDFS Mimarisi
YARN Mimarisi
MapReduce Mimarisi
Hadoop Kurulum Modlar
Hadoop Hangi Durumlarda Tercih Edilmemeli
Cloudera Kurulumu
Cloudera zerinde rnek MapReduce uygulamas
Pig ve Hive Nedir ?
Hadoop Nedir?
Byk veri kmeleri ile birden fazla makinada paralel olarak ilem yapmamz salar
Java ile yazlmtr
Ak kaynak kodludur
Byk verileri saklar (HDFS)
Byk veriler zerinde paralel ilem
yapmamz salar (MapReduce)Birden fazla makinede kaynak
ynetimini(ram,cpu) salar (YARN)
HDFS Mimarisi
Petabyte seviyesindeki byk verileri saklayabilir
Pahal bir donanm satn almanza gerek yoktur
Verilere hzl bir eriim sunar
Veriler kk dosya bloklar halinde saklanr
Ayn veriler birden fazla makinede saklanr (replication)
HDFS Mimarisi
En nemli bileenler NameNode ve DataNode
NameNode verilerin adreslerini tutar
DataNode verileri saklar
NameNode(Single point of failure)
YARN Mimarisi
Kaynak ynetimini salar(ram,cpu)
MapReduce,Spark,Tez
uygulamalarn altrabiliriz YARNa dorudan mdahe etmemize
gerek yoktur
MapReduce Mimarisi
Birden fazla makinede verileri paralel olarak ileyebiliriz
Map ve Reduce admlarndan oluur
Hadoop Kurulum Modlar
Standalone ModeTest veya debug amal
HDFS sistemini kullanamayz
Single Node ClusterTek bir makine zerinde alr
HDFS replication factor deeri 1 olarak ayarlanr
Multiple node clusterHDFS replication factor deeri 1 deerinden byk olabilir
Birden fazla makine olduu iin Master ve Worker farkl makinelerde bulunabilir
Hadoop Hangi Durumlarda Tercih Edilmemeli
Stream processingStorm, Spark Streaming
Kelime aramaElasticsearch,solr,splunk
Interactive SQLPresto
Iterative processingMachine Learning (Spark)
Cloudera Kurulumu
MapReduce Uygulamas
Apache Pig
Gelitirmi olduumuz Pig kodlar arka planda MapReduce kodlarna evrilir
Apache Hive
Apache Hive tabanl SQL sorgular gelitirilebilir
select country,count(distinct user_id) from data where log_date >= '2015-04-17' and log_date
top related