büyük veri(bigdata)

Download Büyük veri(bigdata)

If you can't read please download the document

Upload: huelya-soylu

Post on 11-Apr-2017

223 views

Category:

Engineering


0 download

TRANSCRIPT

Byk Veri Uygulamalar ve lkemizden rnekler, Gvenlik Analizlerinin Aratrlmas

Byk Veri Uygulamalar ve lkemizden rnekler, Gvenlik Analizlerinin Aratrlmas

12060382 Hlya Soylu

Akademik Danman : Do.Dr Sedat Akleylek

erik

Byk Veri (Big Data) Nedir?

Byk Veri (Big Data) Bileenleri Nelerdir?

Byk Veri'nin Uyguland rnek Alanlar

Big Data Kullanmna rnekler

Dnyadaki ve Trkiye'deki Byk Veri (Big Data) rnek Uygulamalar

Big Table(Byk Tablo)

Byk Veri Teknolojilerinde Beklenen zellikler

Arama Motorunda Big Data'nn Yapay Zeka Sistemleri ile Analizi

Byk Veri Teknik ve Teknolojileri

Hadoop

BykVeri Teknik ve Teknolojileri

NoSQL , MongoDB , Pig,mpala,

Byk Veri Gvenlik zmleri

Byk Veri

Big Data ; irketlerin byk veri ynlaryla ve verilerin depolanmasyla ba etmek iin gereksinim duyduklar teknolojik aralar ve srelerdir.[1]

Byk veri; Yaplandrlm (structured) ve Yaplandrlmam (unstructured) verilerden meydana gelir.

Yaplandrlm veriler: rn, kategori, mteri,fatura, deme...

Yaplandrlmam veriler: tweet, paylam, beeni(like), e-posta, video, tklama...

nternette 1 dk'da neler oluyor?

Byk veri miktarlar teranyte, petabyte, exabyte, belki zettabyte seviyesinde bile olabilir.

2000 ylnda tm dnyada 800,000 petabyte byklnde veri sakland. 2020 ylnda bu verinin 35 zetabyte olaca tahmin ediliyor.

rnein Twitter her gn 7 TB, Facebook 10 TB ve baz kurumlar her gn her saat TBlarca veri saklyor.

Big Data etkin bir ekilde verileri analiz edip ilemek iin:

A/B testleri

yapay zeka sistemleri

dil ileme sreleri

gelimi simlasyon

gibi olaanst teknolojilere ihtiya duymaktadr.

Elektronik Veri l Birimi

byte (B)

kilobyte (KB)

megabyte (MB)

gigabyte (GB)

terabyte (TB)

petabyte (PB)

exabyte (EB)

zettabyte (ZB)

yottabyte (YB)

Byk Veri Bileenleri

Byk veri kavramn daha iyi anlamak iin 5V eklinde adlandrlan bileenlerini inceleyelim:

Volume(Veri Bykl)

Velocity(Hz)

Verification(Dorulama)

Variety(eitlilik)

Value(Deer)

Volume(Veri Bykl): Hacim, verilerin depolanmas bu iin temeli ve iletmeler iin ayr bir maliyet faktr, zellikle byk irketler iin (Google her saat 1 petabyte veri iliyor.)

Velocity(Hz): Verilerin ilenme hz da hacim ile doru orantl biimde deiiyor.

Verification (Dorulama):Verilerin doru katmanlardan ve doru gvenlik seviyesinden sunularak doru kiiler tarafndan eriilebilmesi ve ilikisi olmayanlar iin gizli kalmasdr.

Variety(eitlilik): Veri eitlilii: pdf, e-mail, blogs, tweet, video Farkl veri tiplerinin ayn dzlemde deerlendirilmesi de big data kavramndaki dier bir bileendir.

Value(Deer):Byk verilerin anlamlandrlmas yani deere dnmesidir. Alnacak kararlarda gerek zamanl olarak kullanlp art ynde katk salamas gerekir.

Dnyada Kamu Byk Veri Uygulamalar

Trafik Younluu Takibi Projesi Sektr: UlatrmaHollanda'da.

Sosyal Medya AnaliziSektr: letiimHollanda'da.

Akll ebeke AnaliziSektr: EnerjiTennessee Valley Authority

Proje: Prematre Bebek TakibiSektr: SalkOntario niversitesi

Grntleme TanHatalarnn AzaltlmasSektr: SalkAsya Salk Brosu

Su nleme ProjesiSektr: GvenlikNew York

nleyici PolisHizmetleriSektr: GvenlikAmerika

Su Kaynaklarnn TakibiSektr: evreBeacon Enstits

Trkiye'de Kamu Byk Veri Uygulamalar

u an iin aktif olarak byk veri zerine kurgulanm bir Kamu Projesi bulunmamaktadr.

Big Data Kullanmna rnekler

Amazon fiyat sorgulama uygulamas, barkod okuma ve en ucuz fiyat arama zellii olan uygulamay 2011 sonu kullanclara sundu.,

NASA klim Simlasyon Merkezi 32 petabytelk iklim verisi biriktirmi ve sper bilgisayarlarla iklim deiikliinin simlasyonunu yapmaktadr.

Facebook veri tabannda 50 milyar kadar fotoraf bulunmaktadr. Ayn ekilde 1.15 milyar sosyal medyada veri oluturan aktif kullancs vardr.

Her gn 5 milyar insan arama, mesajlama, internette srf gibi yollarla veri retmektedir.

2012 ylnda Obamann yeniden seilmesi iin yapt kampanyada Big Data analizleri sonucu elde ettii verileri kullanm ve yeniden seilmitir

Sosyal medya aknn analiz edilmesi; Sosyal medyada dokunulan kiiler hakknda bilgi toplama, doru mesajdoru mteriye doru zamanda iletebilme ynetimi iin kullanlyor.

Fraud; Devletler ve bankalar ktye kullanm durumlarnn tespiti iin kullanyorlar.

Arama motorlar; Etiketleme ilemiyle arama motorlarnda kan firmalar bu sayede detayl raporlama alarak takip etmek, sonrasnda iletiime gemek mmkn.

Telekom ve iletiim kullanm; Mobil telefon kullanm ile ilgili bir ok veri kullanc baznda tutuluyor; i gelitirme ve analiz kapsamnda kullanlyor.

Gvenlik ve Ceza hukuku uygulamalar;

Bulut biliim sistemine atanan platform ile tm hukuki sre depolanacak ve sulu entegre sistemler sayesinde takip edilecek.

Gvenlik platformu web zerindeki tm grselleri inceleyerek, suluya benzeyen fotoraflardan dijital takip srebilecek.

Byk Veriyi Kullanan irketler

Dnyadaki ve Trkiye'deki Byk Veri (Big Data) rnek Uygulamalar

Google ihtiyac olan bu teknolojiyi ilk kendisi gelitirdi.

Milyarlarca internet sayfasnn verisini Google File System zerinde tutuyor.

Veritaban olarak Big Table(Byk Tablo) kullanyor.

Byk veriyi ilemek iin MapReduce kullanyor.

Big Table(Byk Tablo)

Google tarafndan gelitirilen ve arama motoru tasarmnda kullanlanlr.

Ama web sayfalarnn daha baarl bir ekilde;

Depolanmas (Storing)

Bulunmas (Finding)

Gncellenmesi (updating)

Googlen konuya yaklam, ucuz bilgisayarlar tarafndan yksek miktarda verinin tutulmas ve ilenmesi ynndedir.

Tek bir bilgisayarda ilenecek olan mantksal tablo, ok sayda ufak ve daha ucuz bilgisayar tarafndan ilenebilmekte / tutulabilmektedir.

Byk tablo yaklamnda veriler;

Herhangi bir byk tablo kaydnda, sitenin adresi, sitenin metin ksm, sitede bulunan balantlar (link, anchor, apa) ve sitenin bal tutulmaktadr.

Byk Tablo Kullanmnn Avantajlar

zel bir sorgulama diline (query language) ihtiya duyulmaz ve dolaysyla sorgulama dilinin iyiletirilmesi (query optimisation) gibi zel admlara gerek yoktur.

Sadece satr seviyesinde ilemler gerekletirilir. Yani ilikisel veritaban (relational database) tasarmnda olduu zere, tablolar arasnda birletirme (join)gibi ilemlere gerek yoktur.

Tabletler, btn byk tablo (big table) sisteminde bulunan sunucular tarafndan eriilebilir durumda tutulurlar.

Ayrca yaplan her ilem ilave bir ilem ktnde (transaction log) tutulur ve bu kte btn sunucular eriebilir.

Sunuculardan birisinin bozulmas durumunda, dier sunuculardan birisi bu ilem ktne erierek bozulan sunucunun grevini stlenebilir.

Satr baznda bir limit yoktur. Yani her kayt iin snrsz sayda balant tutulmas gerekebilir.

Byk Tablo'da Karlalabilecek Problemler

Ayn kaydn birden fazla gemesi

Ayn ieriin internet zerinde ierik hrszlar tarafndan kopyalanmas

Ayn ieriin bir ksmnn ayn kald yeni srmlerinin kmas

oklu gnderiler (spam, mass message)

Ayn ieriin birden fazla divan (forum) veya tartma sitelerinde bulunmas

Bu problemin zm iin tekrarlarn bulunmas gerekir.Tekrar bulma ilemi iki seviyede yaplabilir;

Birincisi tam tekrarn bulunmasdr ki buradaki ama, birebir kopyalanan ierikleri eletirmektir.

kincisi benzerliklerin bulunmas ve belirli bir benzerlik seviyesinin zerinde olan ieriklerin eletirilmesidir.

Tam benzerliin bulunmas iin toplam kontrol (checksum) yntemleri kullanlr. rnein CRC (cyclic redundancy check) ve benzer algoritmalar ile sayfalarn toplam kontrol yaplr ve eletirilir.

Benzer sitelerin bulunmas iin de gelitirilmi algoritmalar vardr. rnein SimHash algoritmas (benzerlik zeti) google tarafndan da kullanlmaktadr.

Amazon verilerini DynamoDB zerinde tutuyor.

Facebook, Twitter, Linkedin gibi firmalar dev veri iin gelitirdikleri projeleri ak kaynakl olarak yaynlyorlar.

Ak kaynak olarak yaynlanan rnek projeler;

Cassandra

Hive

Pig

Voldemort

Storm

IndexTank

Ak Kaynak Byk Veri Teknolojileri

GittiGidiyorda Byk Veri

Pazarlama

Detayl kullanc profilleri

Hedef kitle belirleme

Segmentasyon

Alveri gemii

Ziyaret gemii

RaporlamaVeriambar, Analitik Verileri, A/B Testlerizel raporlar

Arama Motorunda Byk Verinin Kullanlmas

Byk Veri Teknolojilerinde Beklenen zellikler

Esnek

Her trl veriyi ileyebilmeli

leklenebilir

htiyaca gre genileyebilmeli

Veri Garantili

Veriler yedekli ve eriilebilir olmal

Dk Maliyetli

Ak kaynakl projeler

Arama Motorunda Big Data'nn Yapay Zeka Sistemleri ile Analizi

Snflandrma (Classification)

Hatal kategorilerin tespiti

Dolandrclkla mcadele

Duygu analizi

Kmeleme (Clustering)

Kullanclarn kmelenmesi

rnlerin gruplanmas

neri sistemleri (Recommendation)

erik tabanl

Kullanc / rn tabanl

Byk Veri Teknik ve Teknolojileri

Hadoop

Ak kaynak kodlu(open source), datk(distributed), leklenebilir(scalable),hata dayankl(fault tolerant) Apache projesidir.

Map-Reduce ilemlerini hedef almaktadr.

Byk lekteki ilemleri ve hesaplamalar hedefler(very lage database (VLDB)).

Byk Veri (Big Data) dnyasnda dk maliyetli ve verimli zmler retir.

Hadoop Tarihesi

k Amac : Kabul edilebilir zaman ve maliyetle nasl byk veri zerinde ilem yaplabilir? sorusuna cevap bulmaktr.

Hadoop

ki ana bileenden oluur:

Hadoop Distributed File System (HDFS)

MapReduce

Hadoop Distributed File System (HDFS)

Byk miktardaki veriye yksek i/zaman oran (throughput) ile eriim salayan Datk Dosya Ynetim Sistemidir.

Veriyi 64MB ya da 128MB'lk bloklar halinde saklar.

Her blok kme ierisinde farkl dmlere datlr.

Her bloun varsaylan 3 kopyas tutulur bylece RAID benzeri bir yapyla yedeklenir.

Bu sayede verinin eriilebilirlii ve gvenilirliisalanm olur.

Ayn dosyaya ait bloklar farkl dmlerde olabilir.

Bloklarn dmler zerine dalm rnei

Ayrca HDFS ok byk boyutlu dosyalar zerinde okuma ilemi (streaming) imkan salar, ancak rastlantsal eriim (random access) zellii bulunmaz.

HDFS, NameNode ve DataNode srelerinden (process) olumaktadr.

NameNode

NameNode ana (master) sre olarak bloklarn sunucular zerindeki;dalmnndan,yaratlmasndan,silinmesinden bir blokta sorun meydana geldiinde yeniden oluturulmasndan her trl dosya eriiminden sorumludur.

Ksacas HDFS zerindeki tm dosyalar hakkndaki bilgiler (metadata) NameNode tarafndan saklanr ve ynetilir.

Her kmede yalnzca bir adet NameNode olabilir.

DataNode

DataNode ise ilevi bloklar saklamak olan slave (kle) sretir.

Her DataNode kendi yerel diskindeki veriden sorumludur.

Ayrca dier DataNodelardaki verilerin yedeklerini de barndrr.

DataNodelar kme ierisinde birden fazla olabilir.

Hadoop MapReduce

HDFS zerindeki byk dosyalar verileri ileyebilmek amacyla kullanlan yntemdir.

Map fonksiyonu ile veri ierisinden istenilen veriler anahtar-deer formatnda seilir.

Reduce fonksiyonu ile de seilen bu veriler zerinde ilem yaplr , sonu yine anahtar-deer olarak iletilir.

Map ve Reduce arasnda Shuffle ve Sort aamalar vardr.

Benzetme yaplrsa;

WHERE ile yaplan filtreleme gibi Map aamasndasadece ihtiyacmz olan veriler seilir.

Reduce aamasnda ise SUM, COUNT, AVG gibibirletirme ilemleri yaplr

Hadoopun gc; lenen dosyalarn her zaman ilgili dmn (node) yerel diskinden okunmas a trafiini mekul etmemesi birden fazla ii ayn anda ileyerek dorusal olarak leklenmesinden geliyor.

MapReduce;

JobTracker ve TaskTracker

JobTracker

JobTracker yazlan MapReduce programnn kme zerinde datlarak altrlmasndan sorumludur.

Ayrca datlan i paracklarnn almas srasnda oluabilecek herhangi bir problemde;

O i paracnn sonlandrlmas ya da yeniden balatlmas da JobTrackern sorumluluundadr.

TaskTracker

TaskTracker, DataNodelarn bulunduu sunucularda alr.

JobTrackerdan tamamlanmak zere i parac talep eder.

JobTracker, NameNodeun yardmyla DataNodeun lokal diskindeki veriye gre en uygun Map iini TaskTrackera verir.

Bu ekilde verilen i paracklar tamamlanr .

Sonu kts yine HDFS zerinde bir dosya olarak yazlrak program sonlanr.

MongoDB

NoSQL veritaban zmlerinden bir tanesi.

Ak kaynak.

MongoDB dokman bazl bir veritabandr.

Byk miktardaki veriye hzl bir ekilde erimeye olanak salar.

Pig

Yahoo tarafndan gelitirilmitir.

MapReduce yazmak iin "DataFlow" dili olarakadlandrlan, SQL'den farkl kendine zg PigLatin dili kullanlr.

Join destekler, daha kolay ve performanslMapReduce programalar yazmay salar.

Hive

Facebook tarafndan gelitirilmitir.

SQL benzeri HiveQL dili ile Java kullanmadan MapReduce uygulamalar yazlmasn salar.

ncelikle HDFS zerindeki dosyalar tablo olarak tantlr.

Daha sonra bu sanal tablolar sorgulanabilir.

mpala

Google Dremel (2010) projesinden esinlenmitir.

Cloudera tarafndan gelitirilmitir.

MapReduce yapmadan verilere direkt eriir.

HiveQL destekler, 7-45 kat daha hzl alr.

BykVeri Teknik ve Teknolojileri

Hadoop Ekosistemi

Hadoop ats altnda birok proje barnr:

Hive

Pig

HBase

Mahout

Impala

Dierleri: Sqoop, Flume, Avro, Zookeeper, Oozie,

Cascading...

HadoopDatabase(HBase)

Hadoop zerinde alan NoSQL veritabandr

Google Big Table rnek alnarak gelitirilmitir

Esnek ema yaps ile binlerce kolon, petabyte'larca satrdan oluan veriyi saklayabilir.

HDFS zerinde altndan MapReduce destekler.

NoSQL

NoSQL veritabanlar;byk verilerin hzl ilenmesi ve leklendirilmesi (scalability) amacyla gelitirilmi sistemlerdir.

Big Table ve DynamoDB yllardr Google ve Amazon tarafndan kullanlan NoSQL sistemlerdir.

MongoDB

NoSQL veritaban zmlerinden bir tanesi.

NoSql Avantajlar

Yksek eriilebilirlik

Okuma ve yazma performans

Yatay olarak geniletilebilirlik

Binlerce sunucu birarada alabilir

ok byk veri zerinde ilem yapabilirler.

Programlama ve bakm kolay

Maliyet asndan avantajl

Kullanm kolay ve esnek nesne ynelimli programlama.

NoSql Dezavantajlar

Veri gvenlii konusunda da RDBMSler kadar gelimi zelliklere henz sahip deiller.

RDBMS sistemlerini kullanan uygulamalarn NoSQL sistemlere tanmas zordur.

RDBMS sistemlerinin NoSQL sistemlere tanmas srasnda veri kayb szkonusu olabilir.

likisel veritaban ynetim sistemlerindeki ilem hareketleri (transaction) kavram, NoSQL veritaban sistemlerinde bulunmad iin veri kayb sz konusu olabilmektedir.

likisel veritaban ynetim sistemlerindeki sorgu tabanl veri eriimi yerine NoSQL sistemlerdeki anahtar tabanl veri eriimi salamak gerekmektedir.

Byk Veri Gvenlik zmleri

Apache Sentry kullanarak hadoop ekosistemin de rol bazl yetkilendirme ile pekok Byk Veri arac arasnda gvenli iletiim salanabilir.

Hive arac ile SQL komutlar benzeri eriim yapldnda HDFSe gittiimizde Sentry arac gvenlik denetimlerini yapmakta ve izni olmayan sorgular engellemektedir.

KAYNAKLAR

[1]Ayhan nder, BigData CTP

[2]Big DataSecurity- Joey Echeverria

[3]Kamuda Byk Veri ve Uygulamalar- Do.Dr.zzet Gkhan ZBLGN

[4]Byk Veri Analitii ve Gvenlii- Prof.Dr. eref SAIROLU

[5]devveri.com

DNLEDNZ N TEEKKR EDERZ

SORULAR

Asl balk stili iin tklatn

Asl metin stillerini dzenlemek iin tklatnkinci dzeync dzeyDrdnc dzeyBeinci dzey

Asl balk stili iin tklatn

Asl alt balk stilini dzenlemek iin tklatn

Asl balk stili iin tklatn

Asl metin stillerini dzenlemek iin tklatn
kinci dzey
nc dzey
Drdnc dzey
Beinci dzey

Asl balk stili iin tklatn

Asl metin stillerini dzenlemek iin tklatn

Asl balk stili iin tklatn

Asl metin stillerini dzenlemek iin tklatn
kinci dzey
nc dzey
Drdnc dzey
Beinci dzey

Asl metin stillerini dzenlemek iin tklatn
kinci dzey
nc dzey
Drdnc dzey
Beinci dzey

Asl metin stillerini dzenlemek iin tklatn

Asl metin stillerini dzenlemek iin tklatn
kinci dzey
nc dzey
Drdnc dzey
Beinci dzey

Asl metin stillerini dzenlemek iin tklatn

Asl metin stillerini dzenlemek iin tklatn
kinci dzey
nc dzey
Drdnc dzey
Beinci dzey

Asl balk stili iin tklatn

Asl balk stili iin tklatn

Asl balk stili iin tklatn

Asl metin stillerini dzenlemek iin tklatn
kinci dzey
nc dzey
Drdnc dzey
Beinci dzey

Asl metin stillerini dzenlemek iin tklatn

Asl balk stili iin tklatn

Resim eklemek iin simgeyi tklatn

Asl metin stillerini dzenlemek iin tklatn

Asl balk stili iin tklatn

Asl metin stillerini dzenlemek iin tklatnkinci dzeync dzeyDrdnc dzeyBeinci dzey

Asl balk stili iin tklatn

Asl metin stillerini dzenlemek iin tklatnkinci dzeync dzeyDrdnc dzeyBeinci dzey