veri madenciliği ve makine Öğrenmesi konularına giriş

Post on 11-Apr-2017

143 Views

Category:

Data & Analytics

4 Downloads

Preview:

Click to see full reader

TRANSCRIPT

VeriMadenciliği,Bilimi,(DataMining)

ŞadiEvrenŞEKER

January13,2017 2

Doç. Dr. Şadi Evren ŞEKER Eğitim: Bilg Müh. BSc. , MSc. 7Tepe Ünv.

M.A. İTÜ STS, PhD. Yıldız Teknik Bilg. Müh. , PostDoc UT Dallas Comp. Sci.,

İstanbul Şehir Üniversitesi, Yönetim Bilişim Sistemleri. Smith College, Computer Science

6 Farklı Ülkede 17 Farklı üniversitede ders vermek www.SadiEvrenSEKER.com

YouTube:Bilgisayar Kavramları ©2016 Şadi Evren ŞEKER, bütün hakları saklıdır.

January13,2017 DataMining:ConceptsTechniques 3

www.SadiEvrenSEKER.com

www.BilgisayarKavramlari.com

January13,2017 DataMining:ConceptsandTechniques 4

YouTube:BilgisayarKavramları

January13,2017 DataMining:ConceptsandTechniques 5

HypeCycle2014Gartner

DayanılanDisiplinler

İşZekası(BusinessIntelligence)

VeriOlgunluğu

UygulamaKatmanı

VeriTabanları

ArayüzKatmanları

•  VeriCahilliği(olgunluk0.0)•  Yöne_minönündeçalışanlar(olgunluk

0.5):Excel,mikrouygulamalar•  VeriFarkındalığı(olgunluk1.0):Veri

Tabanı/Dosya•  Veriyietkilihalege_rmek(olgunluk1.5):

Viewkullanımı•  EtkiliVeriArayışı(olgunluk2.0):Veri

Ambarları•  Probleminfarkınavarma(olgunluk2.5)•  Bütünveriyaanındaveheramaçiçin

erişim(olgunluk3.0):BüyükVeri

VeriOlgunlukSeviyeleri

•  1.VeriBirVarlıkfr•  2.VeriTabanları(RDBMS)•  2.5.ViewYapıları•  3.VeriAmbarları•  3.5.GelişmişMartlar,VeriKüpleriveOLAPin-memory

•  4.BüyükVeri,NoSQLveBulut

16

BazıUygulamaAlanları

•  FinansalVeriAnalizi•  ParekendeSektörü•  Telekom•  BiyolojikVeriler•  SaldırganYakalanması•  SosyalAğlar

Finans/PazarlamaAlanı

•  MüşteridavranışlarıveKrediKarfharcamaları•  Borsavediğerfinansalaraçlarınanalizi•  Karaparaaklama•  Hedeflenmişpazarlama•  XRM•  CustomerChurnAnalysis•  SigortaPirimleri

ParekendeSektörü

•  Çokboyutluraporlar(müşteri,ürün,zaman,şubevs.)

•  Kampanyaoluşturma/başarısı/Analizi•  Ürüntavsiyeleri•  Rafanalizleri

TelekomSektörü

•  Hileliaramalarınyakalanması•  Müşteriprofillemesi•  CRM•  CustomerChurnAnalysis•  Görselleş_rme

Biyoenforma_k

•  Proteinveyagendizilimlerininanalizi•  Görselleş_rme•  Proteinveaygenlerinindekslenmesi,kategorilenmesiveyaaranması

SaldırganlarınYakalanması

•  Akanverininanalizi•  Davranışanalizi•  Monitorvealarmmekanizmaları•  Görselleş_rmevesorguaraçları

SosyalAğAnalizi

•  Hareketliortamınmodellenmesivetahmini•  Yazartanıma•  Grupvearkadaşlıkanalizleri•  Davranışanalizi(tepkiler)•  Argümanvetrendler

NORA

Trendler•  Applica_onExplora_on.•  Scalableandinterac_vedataminingmethods.•  Integra_onofdataminingwithdatabasesystems,datawarehouse

systemsandwebdatabasesystems.•  Standardiza_onofdataminingquerylanguage.•  Visualdatamining.•  Newmethodsforminingcomplextypesofdata.•  Biologicaldatamining.•  Dataminingandsorwareengineering.•  Webmining.•  Distributeddatamining.•  Real_medatamining.•  Mul_databasedatamining.•  Privacyprotec_onandinforma_onsecurityindatamining.

Trendler•  Applica_onExplora_on.•  Scalableandinterac_vedataminingmethods.•  Integra_onofdataminingwithdatabasesystems,datawarehouse

systemsandwebdatabasesystems.•  Standardiza_onofdataminingquerylanguage.•  Visualdatamining.•  Newmethodsforminingcomplextypesofdata.•  Biologicaldatamining.•  Dataminingandsorwareengineering.•  Webmining.•  Distributeddatamining.•  Real_medatamining.•  Mul_databasedatamining.•  Privacyprotec_onandinforma_onsecurityindatamining.

VeriMadenciliği,Verininolduğuheryerdedir.

29

VeriMadenciliğiveBazıProblemler

•  Verininbüyüyenhızıhergeçengündahadayakalanamazolmaktadır.

–  Verininbüyüyenhızıönceleribüyükveriyitanımlarkenarfkbüyükveri5Volaraktanımlanmaktadır.

•  Veriyitoplamak,saklamakveişlemekiçinotoma_zeedilmişaraçlaraih_yaçartmaktadır

–  Geneldeverininbolcabulunduğualanlar•  İşDünyası:Web,E-Ticaret,Safş/Banka/Süreçİşlemleri(Transac_ons),Borsa,PAZARLAMA!!!!…

•  Bilim:UzaktanAlgılama,Biyoinforma_k,simülasyonlar,…

•  ToplumveHalkiçin:Haberler,DijitalKameralar,YouTube,..

•  Bolcaveriiçerisindeyüzüyoruzamaçoğuzamanbilgidenyoksunuz.

•  Buluşlar ihtiyaçlardan doğar!

Data Warehouse: A Multi-Tiered Architecture

Data Warehouse

(Veri Ambarı)

Extract Transform Load Refresh

OLAP Engine

Analysis Query Reports Data mining

Monitor &

Integrator Metadata

Veri Kaynakları Front-End Tools

Serve

Data Marts

Operational DBs

Other sources

Data Storage

OLAP Server

ETL

Extract(Çıkarım)

PreProcess(Temizleme)

Transform(Dönüşüm)

Load(Yükleme)

VeriTaban(lar)ı

VeriAmbarı

KabulEdilmeyenVeri

Kademe-Sahne(StagingArea)

KabulEdilmeyenVeri

Meslekler–NeredenBaşlamalı?

NoVeriTabanı

NoSQL

DataMining

Visualiza_on(BI)

NoDBA

YazılımGeliş_rmeUzmanı

VeriBilimcisi

Görselleş_rmeGü

venlik

SysO

p/D

evOp/S

ysAdm

in

MaliyetHesabı

VeriSahipliği(governance)

BüyükVeriYöne_mi

ProjeYöne_mi

YazılımProjeYöne_cisi

PazarPaylarıveTeknolojiler

2015BigData

Büyüme

İşRolleri

Web 1.0 Info – Centric Web

•  The first generation of the World Wide Web (WWW), characterized by separate static websites.

•  It is one-way broadcasting.

•  It is invented 1989 by Tim Berners- Lee.

•  It was widely used between 1998 and 2001, and it is still used beside Web 2.0 in almost all web sites.

Web2.0PeopleCentricWeb

!  TechnologiesandTrends!  Socialnetworkingsites:

! Facebook,MySpace,Hi5,…etc.

!  TaggingorLabelingContent:! Del.icio.us.

!  Wikis:! Wikipedia.

!  Community-generatedcontent:! eBay.

!  OpenServices:

! Google.!  P2P:

! BitTorrent.!  NewWebtechnologies:

! XML,RSS,Ajax.!  OpenSourceSorware

Web3.0MachineCentricWeb

•  Different meanings are intended to describe the evolution of Web usage and interaction between the many possible evolutionary paths.

•  The third generation of Web technologies and services that emphasize a machine-facilitated understanding of information on the Web.

Web 3.0 Evolution Paths

•  Semantic Web •  Intelligent System Planning •  Business and Network Applications •  … etc.

•  Video Web •  Web 3D •  Ubiquitous and Pervasive Web

Web 3.0 Semantic Web

•  It is a group of methods and technologies to allow machines to understand the meaning - or "semantics" - of information on the World Wide Web.

•  The semantic web is a vision of information that is understandable by computers, so computers can perform more of the tedious work involved in finding, combining, and acting upon information on the web.

Semantic Web The Technology

•  It involves publishing in languages specifically designed for data: Resource Description Framework (RDF), Web Ontology Language (OWL), and Extensible Markup Language (XML):

! HTML describes documents and the links between them.

!  RDF, OWL, and XML, by contrast, can describe arbitrary things such as people, meetings, or airplane parts.

Web3.0Web2.0Web1.0

NowBefore Future

Web3.0Web2.0Web1.0

NowBefore Future

Web3.0

VeriMadenciliğiGelişimAşamaları

•  Descrip/veAnaly_cs,whichusedataaggrega_onanddataminingtechniquestoprovideinsightintothepastandanswer:“Whathashappened?”:SocialAnaly_cs(SummarizeData)

•  Predic/veAnaly_cs,whichusesta_s_calmodelsandforecaststechniquestounderstandthefutureandanswer:“Notonlyfuturealso,Whatcouldhappen?”:Sen_mentalAnalysis,

•  Prescrip/veAnaly_cs,whichuseop_miza_onandsimula_onalgorithmstoadviceonpossibleoutcomesandanswer:“Whatshouldwedo?”,RecommenderAlgorithms

January13,2017 DataMining:ConceptsandTechniques 48

January13,2017 DataMining:ConceptsandTechniques 49

Architecture:TypicalDataMiningSystem

data cleaning, integration, and selection

DatabaseorDataWarehouseServer

DataMiningEngine

Pa{ernEvalua_on

GraphicalUserInterface

Knowledge-Base

Database Data Warehouse

World-Wide Web

Other Info Repositories

BüyükVeri?

•  Bilgisayarişlemekapasitesi•  5V

BüyükVeriveMap-Reduce

•  Büyükveriiçinkri_kşartlar:– Map– Ölçeklenebilirlik(Scalability)– ProbleminDağıflabilirliği

•  ParalelProgramlama•  DağıfkSistemler

– VeriGeçişi– Reduce

MapReduceNedir?MAP

MapReduceNedir?Reduce

MapReduceNedir?

WordCountÖrneği

NoSQL

•  Scalability(Ölçeklenebilirlik)vebüyümeninkontroledilmesi

•  Coğrafilimitlerinkalkması•  SchemeonRead•  LazyUpdate(OLTPsistemideğildir,kesinlikledeğildir!)

•  Örneksosyalağlar

NoSQLNeSağlar?

•  Yerelverierişimi•  Verilerinyapısızolması(unstructured)•  Verigüncellemesindegereksizaşamalarınazalflması

•  DDOSkoruması

BigDataandDataMiningProblems

•  Classifica_on•  Clustering•  Associa_onRuleMining•  Predic_on

OracleBigDataMimarisiÇalışfrma(Execu_on)

Yenilik(Innova_on)

VeriEntegrasyonu

İle_şim

•  ŞadiEvrenŞEKER•  www.SadiEvrenSEKER.com•  www.MISSozluk.com•  www.BilgisayarKavramlari.com•  www.YBSAnsiklopledi.com•  YouTube:BilgisayarKavramları•  CurrentAffilia_on:İstanbulŞehirÜniversitesi

Soru-Cevap

•  YouTube:bilgisayarkavramları•  Mail:ses@SadiEvrenSEKER.com•  Konular:Akademikhayat,bilişimsektörü,büyükveri,işhayaf,verimadenciliği,mahremiyet,sosyalağlar,kariyerplanlaması,öğrencilik,bilgisayarmühendisliği,veritabanları,nosql,yurtdışı(çalışmak/öğrencilik)

top related