bÜyÜk ver İbte.bilgem.tubitak.gov.tr/sites/images/g3-4-2.pdfüretilmekte ve sürekli akmaktadır....

11
7/1/2014 1 TÜBİTAK 1 Anayurt Güvenliği Md. Yrd. Metin Madenciliği ve Kaynaştırma Sistemleri BÜYÜK VERİ Abdulkadir ŞAN Proje Yöneticisi TÜBİTAK VERİ SİSTEMLERİ 2 Anayurt Güvenliği Md. Yrd. Metin Madenciliği ve Kaynaştırma Sistemleri Relational Database DataWarehouse

Upload: others

Post on 25-Sep-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: BÜYÜK VER İbte.bilgem.tubitak.gov.tr/sites/images/g3-4-2.pdfüretilmekte ve sürekli akmaktadır. Bunlara çok hızlı cevap verilmesi gerekmektedir. Veri çok farklı formatlarda

7/1/2014

1

TÜBİTAK

1

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

BÜYÜK VERİ

Abdulkadir ŞANProje Yöneticisi

TÜBİTAK

VERİ SİSTEMLERİ

2

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

Relational Database DataWarehouse

Page 2: BÜYÜK VER İbte.bilgem.tubitak.gov.tr/sites/images/g3-4-2.pdfüretilmekte ve sürekli akmaktadır. Bunlara çok hızlı cevap verilmesi gerekmektedir. Veri çok farklı formatlarda

7/1/2014

2

TÜBİTAK

VERİ TÜRLERİ

3

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

TÜBİTAK

BÜYÜK VERİ NEDİR?

4

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

Verinin çok büyük bir kısmı YAPISAL OLMAYAN veridir ve şimdi bu veriyi GERÇEK-ZAMANLI

olarak işleme kabiliyetine sahibiz.

Page 3: BÜYÜK VER İbte.bilgem.tubitak.gov.tr/sites/images/g3-4-2.pdfüretilmekte ve sürekli akmaktadır. Bunlara çok hızlı cevap verilmesi gerekmektedir. Veri çok farklı formatlarda

7/1/2014

3

TÜBİTAK

NEDEN ŞİMDİ ÖNEMLİ?

5

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

INTERNET VE GPS BAĞLANTILI AKILLI

TELEFONLARDAKİ ARTIŞ

AERIAL SENSORSAND SENSOR NETWORKS

SOSYAL AĞLARIN BENİMSENMESİ

Dünya genelinde 6.8 milyar telefon kullanıcısı ve 2.7milyar

internet kullanıcısı bulunmaktadır [1].

NASA Merkezinde iklim ve atmosfer similasyonu için 32 petabayt

gözlem verisi kullanılmakatdır [2].

Twitter’da her bir dakikada 100.000 tweet atılmaktadır. Facebook’ta

her bir dakikada 650.000 paylaşımda bulunulmaktadır. Her gün 144.000.000 tweet atılmakta ve 936.000.000 Facebook paylaşımı

gerçekleşmektedir [3].

[1] The International Telecommunication Union, 2013.[2] http://www.nccs.nasa.gov/[3] "Analytics: The real-world use of Big Data", IBM ve the Said Business School at the University of Oxford; 2012

TÜBİTAK

KİMLER KULLANIYOR?

6

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

[1] http://londoncalling.co/2013/04/using-big-data-to-fight-crime-and-predict-what-products-consumers-might-purchase-in-the-future/[2] http://www.google.org/flutrends/[3] http://rationality.org/2012/11/09/was-nate-silver-the-most-accurate-2012-election-pundit/[4] http://senseable.mit.edu/papers/publications.html

LOS ANGELAS POLİSİ VE

CALIFORNIA ÜNİVERSİTESİLAPD ve California Universitesi şuçun

işlenmeden önce tespit edilmesinde Büyük Veri teknolojilerini kullanıyor

[1].

GOOGLEGRİP

TRENDLERİ

Google Grip Trendleri uygulaması arama kelimelerini kullanarak grip virüsünün yayılımını

tespit ediyor [2].

SEÇİM SONUÇLARI

TAHMİNİ

İstatistikçi Nate Silver 2012 yılında senato

seçim sonuçlarını her bir bağımsız eyalet için doğru tahmin etti.

KENTSEL PLANLAMA

MIT mobil telefon verisini kullanarak trafik örüntülerinin tespit

etmekte ve bu örüntüler kentsel planlama için kullanılmaktadır [4].

Page 4: BÜYÜK VER İbte.bilgem.tubitak.gov.tr/sites/images/g3-4-2.pdfüretilmekte ve sürekli akmaktadır. Bunlara çok hızlı cevap verilmesi gerekmektedir. Veri çok farklı formatlarda

7/1/2014

4

TÜBİTAK

BÜYÜK VERİNİN 4V’si

7

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

[1] http://almaden.ibm.com/colloquium/resources/Why%20Big%20Data%20Krishna.PDF

BÜYÜK VERİ İLE BAŞ EDEBİLMEK İÇİN YENİ YÖNTEMLERE VE TEKNOLOJİLERE İHTİYACIMIZ VAR!

Petabayt ve Zettabayt ölçeğinde

veri işlenmeyi beklemektedir.

Veri çok hızlı üretilmekte ve sürekli akmaktadır. Bunlara çok hızlı cevap

verilmesi gerekmektedir.

Veri çok farklı formatlarda

olmaktadır. Yapısal, yarı-yapısal, yapısal olmayan, metin, multi-medya

Veri içerisinde belirsizlikler vardır. Eksik veri, yanlış

girilmiş veri, veride yaşanan gecikmeler, sensör verileri, sosyal medya verileri

TÜBİTAK

BÜYÜK VERİ ZORLUKLARI

8

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

Page 5: BÜYÜK VER İbte.bilgem.tubitak.gov.tr/sites/images/g3-4-2.pdfüretilmekte ve sürekli akmaktadır. Bunlara çok hızlı cevap verilmesi gerekmektedir. Veri çok farklı formatlarda

7/1/2014

5

TÜBİTAK

Hadoop

9

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

TÜBİTAK

Mimari

10

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

Page 6: BÜYÜK VER İbte.bilgem.tubitak.gov.tr/sites/images/g3-4-2.pdfüretilmekte ve sürekli akmaktadır. Bunlara çok hızlı cevap verilmesi gerekmektedir. Veri çok farklı formatlarda

7/1/2014

6

TÜBİTAK

HDFS

11

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

• Dağıtık I/O + Birleşik Storage• Çok büyük dosyaları saklama imkanı

TÜBİTAK

HDFS

12

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

Page 7: BÜYÜK VER İbte.bilgem.tubitak.gov.tr/sites/images/g3-4-2.pdfüretilmekte ve sürekli akmaktadır. Bunlara çok hızlı cevap verilmesi gerekmektedir. Veri çok farklı formatlarda

7/1/2014

7

TÜBİTAK

Map Reduce

13

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

TÜBİTAK

Map Reduce

14

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

Page 8: BÜYÜK VER İbte.bilgem.tubitak.gov.tr/sites/images/g3-4-2.pdfüretilmekte ve sürekli akmaktadır. Bunlara çok hızlı cevap verilmesi gerekmektedir. Veri çok farklı formatlarda

7/1/2014

8

TÜBİTAK

HBase

15

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

Kolon tabanlı, NoSQL Veritabanı

TÜBİTAK

HBase

16

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

Page 9: BÜYÜK VER İbte.bilgem.tubitak.gov.tr/sites/images/g3-4-2.pdfüretilmekte ve sürekli akmaktadır. Bunlara çok hızlı cevap verilmesi gerekmektedir. Veri çok farklı formatlarda

7/1/2014

9

TÜBİTAK

Pig - Hive

17

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

Pig: Hadoop’da MapReduce işleri oluşturmak için geliştirilen üst düzey platform.

Hive: Veri özetleme, sorgulama ve analiz işlemleri için Hadoop üzerinde geliştirilmiş DataWarehouse.

TÜBİTAK

MR – Pig - Hive

18

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

MapReduce

PigHive

Page 10: BÜYÜK VER İbte.bilgem.tubitak.gov.tr/sites/images/g3-4-2.pdfüretilmekte ve sürekli akmaktadır. Bunlara çok hızlı cevap verilmesi gerekmektedir. Veri çok farklı formatlarda

7/1/2014

10

TÜBİTAK

Mahout - Giraph

19

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

• Makine öğrenme kütüphanesi• Java dilinde• Hadoop ile uyumlu

• Graph Framework• Java dilinde• Hadoop ile uyumlu

Facebook, 1 trilyon kenarı 200 makine ile 4 dakikada işledi.

TÜBİTAK

Hadoop Ekosistemi

20

Anayurt Güvenliği Md. Yrd.

Metin Madenciliği ve Kaynaştırma Sistemleri

Page 11: BÜYÜK VER İbte.bilgem.tubitak.gov.tr/sites/images/g3-4-2.pdfüretilmekte ve sürekli akmaktadır. Bunlara çok hızlı cevap verilmesi gerekmektedir. Veri çok farklı formatlarda

7/1/2014

11

TÜBİTAK

21

TEŞEKKÜRLER