büyük veri(bigdata)
TRANSCRIPT
Byk Veri Uygulamalar ve lkemizden rnekler, Gvenlik Analizlerinin Aratrlmas
Byk Veri Uygulamalar ve lkemizden rnekler, Gvenlik Analizlerinin Aratrlmas
12060382 Hlya Soylu
Akademik Danman : Do.Dr Sedat Akleylek
erik
Byk Veri (Big Data) Nedir?
Byk Veri (Big Data) Bileenleri Nelerdir?
Byk Veri'nin Uyguland rnek Alanlar
Big Data Kullanmna rnekler
Dnyadaki ve Trkiye'deki Byk Veri (Big Data) rnek Uygulamalar
Big Table(Byk Tablo)
Byk Veri Teknolojilerinde Beklenen zellikler
Arama Motorunda Big Data'nn Yapay Zeka Sistemleri ile Analizi
Byk Veri Teknik ve Teknolojileri
Hadoop
BykVeri Teknik ve Teknolojileri
NoSQL , MongoDB , Pig,mpala,
Byk Veri Gvenlik zmleri
Byk Veri
Big Data ; irketlerin byk veri ynlaryla ve verilerin depolanmasyla ba etmek iin gereksinim duyduklar teknolojik aralar ve srelerdir.[1]
Byk veri; Yaplandrlm (structured) ve Yaplandrlmam (unstructured) verilerden meydana gelir.
Yaplandrlm veriler: rn, kategori, mteri,fatura, deme...
Yaplandrlmam veriler: tweet, paylam, beeni(like), e-posta, video, tklama...
nternette 1 dk'da neler oluyor?
Byk veri miktarlar teranyte, petabyte, exabyte, belki zettabyte seviyesinde bile olabilir.
2000 ylnda tm dnyada 800,000 petabyte byklnde veri sakland. 2020 ylnda bu verinin 35 zetabyte olaca tahmin ediliyor.
rnein Twitter her gn 7 TB, Facebook 10 TB ve baz kurumlar her gn her saat TBlarca veri saklyor.
Big Data etkin bir ekilde verileri analiz edip ilemek iin:
A/B testleri
yapay zeka sistemleri
dil ileme sreleri
gelimi simlasyon
gibi olaanst teknolojilere ihtiya duymaktadr.
Elektronik Veri l Birimi
byte (B)
kilobyte (KB)
megabyte (MB)
gigabyte (GB)
terabyte (TB)
petabyte (PB)
exabyte (EB)
zettabyte (ZB)
yottabyte (YB)
Byk Veri Bileenleri
Byk veri kavramn daha iyi anlamak iin 5V eklinde adlandrlan bileenlerini inceleyelim:
Volume(Veri Bykl)
Velocity(Hz)
Verification(Dorulama)
Variety(eitlilik)
Value(Deer)
Volume(Veri Bykl): Hacim, verilerin depolanmas bu iin temeli ve iletmeler iin ayr bir maliyet faktr, zellikle byk irketler iin (Google her saat 1 petabyte veri iliyor.)
Velocity(Hz): Verilerin ilenme hz da hacim ile doru orantl biimde deiiyor.
Verification (Dorulama):Verilerin doru katmanlardan ve doru gvenlik seviyesinden sunularak doru kiiler tarafndan eriilebilmesi ve ilikisi olmayanlar iin gizli kalmasdr.
Variety(eitlilik): Veri eitlilii: pdf, e-mail, blogs, tweet, video Farkl veri tiplerinin ayn dzlemde deerlendirilmesi de big data kavramndaki dier bir bileendir.
Value(Deer):Byk verilerin anlamlandrlmas yani deere dnmesidir. Alnacak kararlarda gerek zamanl olarak kullanlp art ynde katk salamas gerekir.
Dnyada Kamu Byk Veri Uygulamalar
Trafik Younluu Takibi Projesi Sektr: UlatrmaHollanda'da.
Sosyal Medya AnaliziSektr: letiimHollanda'da.
Akll ebeke AnaliziSektr: EnerjiTennessee Valley Authority
Proje: Prematre Bebek TakibiSektr: SalkOntario niversitesi
Grntleme TanHatalarnn AzaltlmasSektr: SalkAsya Salk Brosu
Su nleme ProjesiSektr: GvenlikNew York
nleyici PolisHizmetleriSektr: GvenlikAmerika
Su Kaynaklarnn TakibiSektr: evreBeacon Enstits
Trkiye'de Kamu Byk Veri Uygulamalar
u an iin aktif olarak byk veri zerine kurgulanm bir Kamu Projesi bulunmamaktadr.
Big Data Kullanmna rnekler
Amazon fiyat sorgulama uygulamas, barkod okuma ve en ucuz fiyat arama zellii olan uygulamay 2011 sonu kullanclara sundu.,
NASA klim Simlasyon Merkezi 32 petabytelk iklim verisi biriktirmi ve sper bilgisayarlarla iklim deiikliinin simlasyonunu yapmaktadr.
Facebook veri tabannda 50 milyar kadar fotoraf bulunmaktadr. Ayn ekilde 1.15 milyar sosyal medyada veri oluturan aktif kullancs vardr.
Her gn 5 milyar insan arama, mesajlama, internette srf gibi yollarla veri retmektedir.
2012 ylnda Obamann yeniden seilmesi iin yapt kampanyada Big Data analizleri sonucu elde ettii verileri kullanm ve yeniden seilmitir
Sosyal medya aknn analiz edilmesi; Sosyal medyada dokunulan kiiler hakknda bilgi toplama, doru mesajdoru mteriye doru zamanda iletebilme ynetimi iin kullanlyor.
Fraud; Devletler ve bankalar ktye kullanm durumlarnn tespiti iin kullanyorlar.
Arama motorlar; Etiketleme ilemiyle arama motorlarnda kan firmalar bu sayede detayl raporlama alarak takip etmek, sonrasnda iletiime gemek mmkn.
Telekom ve iletiim kullanm; Mobil telefon kullanm ile ilgili bir ok veri kullanc baznda tutuluyor; i gelitirme ve analiz kapsamnda kullanlyor.
Gvenlik ve Ceza hukuku uygulamalar;
Bulut biliim sistemine atanan platform ile tm hukuki sre depolanacak ve sulu entegre sistemler sayesinde takip edilecek.
Gvenlik platformu web zerindeki tm grselleri inceleyerek, suluya benzeyen fotoraflardan dijital takip srebilecek.
Byk Veriyi Kullanan irketler
Dnyadaki ve Trkiye'deki Byk Veri (Big Data) rnek Uygulamalar
Google ihtiyac olan bu teknolojiyi ilk kendisi gelitirdi.
Milyarlarca internet sayfasnn verisini Google File System zerinde tutuyor.
Veritaban olarak Big Table(Byk Tablo) kullanyor.
Byk veriyi ilemek iin MapReduce kullanyor.
Big Table(Byk Tablo)
Google tarafndan gelitirilen ve arama motoru tasarmnda kullanlanlr.
Ama web sayfalarnn daha baarl bir ekilde;
Depolanmas (Storing)
Bulunmas (Finding)
Gncellenmesi (updating)
Googlen konuya yaklam, ucuz bilgisayarlar tarafndan yksek miktarda verinin tutulmas ve ilenmesi ynndedir.
Tek bir bilgisayarda ilenecek olan mantksal tablo, ok sayda ufak ve daha ucuz bilgisayar tarafndan ilenebilmekte / tutulabilmektedir.
Byk tablo yaklamnda veriler;
Herhangi bir byk tablo kaydnda, sitenin adresi, sitenin metin ksm, sitede bulunan balantlar (link, anchor, apa) ve sitenin bal tutulmaktadr.
Byk Tablo Kullanmnn Avantajlar
zel bir sorgulama diline (query language) ihtiya duyulmaz ve dolaysyla sorgulama dilinin iyiletirilmesi (query optimisation) gibi zel admlara gerek yoktur.
Sadece satr seviyesinde ilemler gerekletirilir. Yani ilikisel veritaban (relational database) tasarmnda olduu zere, tablolar arasnda birletirme (join)gibi ilemlere gerek yoktur.
Tabletler, btn byk tablo (big table) sisteminde bulunan sunucular tarafndan eriilebilir durumda tutulurlar.
Ayrca yaplan her ilem ilave bir ilem ktnde (transaction log) tutulur ve bu kte btn sunucular eriebilir.
Sunuculardan birisinin bozulmas durumunda, dier sunuculardan birisi bu ilem ktne erierek bozulan sunucunun grevini stlenebilir.
Satr baznda bir limit yoktur. Yani her kayt iin snrsz sayda balant tutulmas gerekebilir.
Byk Tablo'da Karlalabilecek Problemler
Ayn kaydn birden fazla gemesi
Ayn ieriin internet zerinde ierik hrszlar tarafndan kopyalanmas
Ayn ieriin bir ksmnn ayn kald yeni srmlerinin kmas
oklu gnderiler (spam, mass message)
Ayn ieriin birden fazla divan (forum) veya tartma sitelerinde bulunmas
Bu problemin zm iin tekrarlarn bulunmas gerekir.Tekrar bulma ilemi iki seviyede yaplabilir;
Birincisi tam tekrarn bulunmasdr ki buradaki ama, birebir kopyalanan ierikleri eletirmektir.
kincisi benzerliklerin bulunmas ve belirli bir benzerlik seviyesinin zerinde olan ieriklerin eletirilmesidir.
Tam benzerliin bulunmas iin toplam kontrol (checksum) yntemleri kullanlr. rnein CRC (cyclic redundancy check) ve benzer algoritmalar ile sayfalarn toplam kontrol yaplr ve eletirilir.
Benzer sitelerin bulunmas iin de gelitirilmi algoritmalar vardr. rnein SimHash algoritmas (benzerlik zeti) google tarafndan da kullanlmaktadr.
Amazon verilerini DynamoDB zerinde tutuyor.
Facebook, Twitter, Linkedin gibi firmalar dev veri iin gelitirdikleri projeleri ak kaynakl olarak yaynlyorlar.
Ak kaynak olarak yaynlanan rnek projeler;
Cassandra
Hive
Pig
Voldemort
Storm
IndexTank
Ak Kaynak Byk Veri Teknolojileri
GittiGidiyorda Byk Veri
Pazarlama
Detayl kullanc profilleri
Hedef kitle belirleme
Segmentasyon
Alveri gemii
Ziyaret gemii
RaporlamaVeriambar, Analitik Verileri, A/B Testlerizel raporlar
Arama Motorunda Byk Verinin Kullanlmas
Byk Veri Teknolojilerinde Beklenen zellikler
Esnek
Her trl veriyi ileyebilmeli
leklenebilir
htiyaca gre genileyebilmeli
Veri Garantili
Veriler yedekli ve eriilebilir olmal
Dk Maliyetli
Ak kaynakl projeler
Arama Motorunda Big Data'nn Yapay Zeka Sistemleri ile Analizi
Snflandrma (Classification)
Hatal kategorilerin tespiti
Dolandrclkla mcadele
Duygu analizi
Kmeleme (Clustering)
Kullanclarn kmelenmesi
rnlerin gruplanmas
neri sistemleri (Recommendation)
erik tabanl
Kullanc / rn tabanl
Byk Veri Teknik ve Teknolojileri
Hadoop
Ak kaynak kodlu(open source), datk(distributed), leklenebilir(scalable),hata dayankl(fault tolerant) Apache projesidir.
Map-Reduce ilemlerini hedef almaktadr.
Byk lekteki ilemleri ve hesaplamalar hedefler(very lage database (VLDB)).
Byk Veri (Big Data) dnyasnda dk maliyetli ve verimli zmler retir.
Hadoop Tarihesi
k Amac : Kabul edilebilir zaman ve maliyetle nasl byk veri zerinde ilem yaplabilir? sorusuna cevap bulmaktr.
Hadoop
ki ana bileenden oluur:
Hadoop Distributed File System (HDFS)
MapReduce
Hadoop Distributed File System (HDFS)
Byk miktardaki veriye yksek i/zaman oran (throughput) ile eriim salayan Datk Dosya Ynetim Sistemidir.
Veriyi 64MB ya da 128MB'lk bloklar halinde saklar.
Her blok kme ierisinde farkl dmlere datlr.
Her bloun varsaylan 3 kopyas tutulur bylece RAID benzeri bir yapyla yedeklenir.
Bu sayede verinin eriilebilirlii ve gvenilirliisalanm olur.
Ayn dosyaya ait bloklar farkl dmlerde olabilir.
Bloklarn dmler zerine dalm rnei
Ayrca HDFS ok byk boyutlu dosyalar zerinde okuma ilemi (streaming) imkan salar, ancak rastlantsal eriim (random access) zellii bulunmaz.
HDFS, NameNode ve DataNode srelerinden (process) olumaktadr.
NameNode
NameNode ana (master) sre olarak bloklarn sunucular zerindeki;dalmnndan,yaratlmasndan,silinmesinden bir blokta sorun meydana geldiinde yeniden oluturulmasndan her trl dosya eriiminden sorumludur.
Ksacas HDFS zerindeki tm dosyalar hakkndaki bilgiler (metadata) NameNode tarafndan saklanr ve ynetilir.
Her kmede yalnzca bir adet NameNode olabilir.
DataNode
DataNode ise ilevi bloklar saklamak olan slave (kle) sretir.
Her DataNode kendi yerel diskindeki veriden sorumludur.
Ayrca dier DataNodelardaki verilerin yedeklerini de barndrr.
DataNodelar kme ierisinde birden fazla olabilir.
Hadoop MapReduce
HDFS zerindeki byk dosyalar verileri ileyebilmek amacyla kullanlan yntemdir.
Map fonksiyonu ile veri ierisinden istenilen veriler anahtar-deer formatnda seilir.
Reduce fonksiyonu ile de seilen bu veriler zerinde ilem yaplr , sonu yine anahtar-deer olarak iletilir.
Map ve Reduce arasnda Shuffle ve Sort aamalar vardr.
Benzetme yaplrsa;
WHERE ile yaplan filtreleme gibi Map aamasndasadece ihtiyacmz olan veriler seilir.
Reduce aamasnda ise SUM, COUNT, AVG gibibirletirme ilemleri yaplr
Hadoopun gc; lenen dosyalarn her zaman ilgili dmn (node) yerel diskinden okunmas a trafiini mekul etmemesi birden fazla ii ayn anda ileyerek dorusal olarak leklenmesinden geliyor.
MapReduce;
JobTracker ve TaskTracker
JobTracker
JobTracker yazlan MapReduce programnn kme zerinde datlarak altrlmasndan sorumludur.
Ayrca datlan i paracklarnn almas srasnda oluabilecek herhangi bir problemde;
O i paracnn sonlandrlmas ya da yeniden balatlmas da JobTrackern sorumluluundadr.
TaskTracker
TaskTracker, DataNodelarn bulunduu sunucularda alr.
JobTrackerdan tamamlanmak zere i parac talep eder.
JobTracker, NameNodeun yardmyla DataNodeun lokal diskindeki veriye gre en uygun Map iini TaskTrackera verir.
Bu ekilde verilen i paracklar tamamlanr .
Sonu kts yine HDFS zerinde bir dosya olarak yazlrak program sonlanr.
MongoDB
NoSQL veritaban zmlerinden bir tanesi.
Ak kaynak.
MongoDB dokman bazl bir veritabandr.
Byk miktardaki veriye hzl bir ekilde erimeye olanak salar.
Pig
Yahoo tarafndan gelitirilmitir.
MapReduce yazmak iin "DataFlow" dili olarakadlandrlan, SQL'den farkl kendine zg PigLatin dili kullanlr.
Join destekler, daha kolay ve performanslMapReduce programalar yazmay salar.
Hive
Facebook tarafndan gelitirilmitir.
SQL benzeri HiveQL dili ile Java kullanmadan MapReduce uygulamalar yazlmasn salar.
ncelikle HDFS zerindeki dosyalar tablo olarak tantlr.
Daha sonra bu sanal tablolar sorgulanabilir.
mpala
Google Dremel (2010) projesinden esinlenmitir.
Cloudera tarafndan gelitirilmitir.
MapReduce yapmadan verilere direkt eriir.
HiveQL destekler, 7-45 kat daha hzl alr.
BykVeri Teknik ve Teknolojileri
Hadoop Ekosistemi
Hadoop ats altnda birok proje barnr:
Hive
Pig
HBase
Mahout
Impala
Dierleri: Sqoop, Flume, Avro, Zookeeper, Oozie,
Cascading...
HadoopDatabase(HBase)
Hadoop zerinde alan NoSQL veritabandr
Google Big Table rnek alnarak gelitirilmitir
Esnek ema yaps ile binlerce kolon, petabyte'larca satrdan oluan veriyi saklayabilir.
HDFS zerinde altndan MapReduce destekler.
NoSQL
NoSQL veritabanlar;byk verilerin hzl ilenmesi ve leklendirilmesi (scalability) amacyla gelitirilmi sistemlerdir.
Big Table ve DynamoDB yllardr Google ve Amazon tarafndan kullanlan NoSQL sistemlerdir.
MongoDB
NoSQL veritaban zmlerinden bir tanesi.
NoSql Avantajlar
Yksek eriilebilirlik
Okuma ve yazma performans
Yatay olarak geniletilebilirlik
Binlerce sunucu birarada alabilir
ok byk veri zerinde ilem yapabilirler.
Programlama ve bakm kolay
Maliyet asndan avantajl
Kullanm kolay ve esnek nesne ynelimli programlama.
NoSql Dezavantajlar
Veri gvenlii konusunda da RDBMSler kadar gelimi zelliklere henz sahip deiller.
RDBMS sistemlerini kullanan uygulamalarn NoSQL sistemlere tanmas zordur.
RDBMS sistemlerinin NoSQL sistemlere tanmas srasnda veri kayb szkonusu olabilir.
likisel veritaban ynetim sistemlerindeki ilem hareketleri (transaction) kavram, NoSQL veritaban sistemlerinde bulunmad iin veri kayb sz konusu olabilmektedir.
likisel veritaban ynetim sistemlerindeki sorgu tabanl veri eriimi yerine NoSQL sistemlerdeki anahtar tabanl veri eriimi salamak gerekmektedir.
Byk Veri Gvenlik zmleri
Apache Sentry kullanarak hadoop ekosistemin de rol bazl yetkilendirme ile pekok Byk Veri arac arasnda gvenli iletiim salanabilir.
Hive arac ile SQL komutlar benzeri eriim yapldnda HDFSe gittiimizde Sentry arac gvenlik denetimlerini yapmakta ve izni olmayan sorgular engellemektedir.
KAYNAKLAR
[1]Ayhan nder, BigData CTP
[2]Big DataSecurity- Joey Echeverria
[3]Kamuda Byk Veri ve Uygulamalar- Do.Dr.zzet Gkhan ZBLGN
[4]Byk Veri Analitii ve Gvenlii- Prof.Dr. eref SAIROLU
[5]devveri.com
DNLEDNZ N TEEKKR EDERZ
SORULAR
Asl balk stili iin tklatn
Asl metin stillerini dzenlemek iin tklatnkinci dzeync dzeyDrdnc dzeyBeinci dzey
Asl balk stili iin tklatn
Asl alt balk stilini dzenlemek iin tklatn
Asl balk stili iin tklatn
Asl metin stillerini dzenlemek iin tklatn
kinci dzey
nc dzey
Drdnc dzey
Beinci dzey
Asl balk stili iin tklatn
Asl metin stillerini dzenlemek iin tklatn
Asl balk stili iin tklatn
Asl metin stillerini dzenlemek iin tklatn
kinci dzey
nc dzey
Drdnc dzey
Beinci dzey
Asl metin stillerini dzenlemek iin tklatn
kinci dzey
nc dzey
Drdnc dzey
Beinci dzey
Asl metin stillerini dzenlemek iin tklatn
Asl metin stillerini dzenlemek iin tklatn
kinci dzey
nc dzey
Drdnc dzey
Beinci dzey
Asl metin stillerini dzenlemek iin tklatn
Asl metin stillerini dzenlemek iin tklatn
kinci dzey
nc dzey
Drdnc dzey
Beinci dzey
Asl balk stili iin tklatn
Asl balk stili iin tklatn
Asl balk stili iin tklatn
Asl metin stillerini dzenlemek iin tklatn
kinci dzey
nc dzey
Drdnc dzey
Beinci dzey
Asl metin stillerini dzenlemek iin tklatn
Asl balk stili iin tklatn
Resim eklemek iin simgeyi tklatn
Asl metin stillerini dzenlemek iin tklatn
Asl balk stili iin tklatn
Asl metin stillerini dzenlemek iin tklatnkinci dzeync dzeyDrdnc dzeyBeinci dzey
Asl balk stili iin tklatn
Asl metin stillerini dzenlemek iin tklatnkinci dzeync dzeyDrdnc dzeyBeinci dzey