veri madenciliği sunumlar/9...veri madenciliği (data mining) •büyük ölçekli veriler...

33

Upload: others

Post on 07-Jul-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham
Page 2: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

Veri MadenciliğiEfe Serkan Boz

Page 3: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

• Veri madenciliği giriş

• Veri madenciliği stratejileri

• Modelleme

• Klinik Mikrobiyolojide kullanımı

Page 4: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

TITANIC

• 15 Nisan 1912 Southampton, İngiltere'den, New York City 'ye doğrugidiyordu

New Foundland 'ın

güneyinde bir

buzdağına

çarparak battı

Page 5: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

TITANIC• 2230 yolcu taşıyordu

• 1517 kişi hayatını kaybetti

• 1309 kadından 500’ ü kurtuldu

Page 6: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham
Page 7: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

KARAR AĞACI

Page 8: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

Rose Jack’ i tahtaya almaz!

The End

Page 9: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

Veri madenciliği (Data mining)• Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir.

• Jacobs, veri madenciliğini, ham datanın tek başına sunamadığı bilgiyi çıkaran veri analizi süreci olarak tanımlamıştır.

• Veri madenciliği, büyük veri yığınları arasından gelecekle ilgili tahminde bulunabilmemizi sağlayabilecek bağlantıların, bilgisayar programı kullanarak aranması işidir (Doğan ve Türkoğlu, 2007).

• Hand, veri madenciliğini istatistik, veritabanı teknolojisi, örüntü tanıma, makine öğrenme ile etkileşimli yeni bir disiplin ve geniş veritabanlarındaönceden tahmin edilemeyen ilişkilerin ikincil analizi olarak tanımlamıştır.

• Kitler ve Wang (1998), veri madenciliğini oldukça tahminci anahtar değişkenlerin binlerce potansiyel değişkenden izole edilmesini sağlama yeteneği olarak tanımlamışlardır

• Henüz sorulmamış soruları yanıtlayan informatik analizler bütünüdür.

Jacobs, P., (1999), “Data Mining: What General Managers Need to Know”, Harvard Management Update, Cilt 4, No 10, 8.

Doğan, Ş., ve Türkoğlu,İ., (2007), " Hypothyroidi and Hyperthyroidi Detection from Thyroid Hormone Parameters by Using

Decision Trees", Doğu Anadolu Bölgesi Araştırmaları Dergisi, Cilt 5, No 2, 163-169.

Hand, D.J., (1998), “Data Mining: Statistics and More?”, The American Statistician, Cilt 52, 112-118.

Kitler R. ve Wang W., (1998), “The Emerging Role of Data Mining”, Solid State Technology, Cilt 42, No 11, 45.

Page 10: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

Veri madenciliği (Data mining)

• 1989, KDD (IJCAI)-89 Veri Tabanlarında Bilgi Keşfi Çalışma Grubu toplantısı ve 1991, KDD (IJCAI)-89’un sonuç bildirgesi sayılabilecek “Knowledge Discovery in Real Databases: A Report on the IJCAI-89 Workshop” makalesinin KDD (Knowledge Discovery and Data Mining) ile ilgili kavramları ortaya koyması ile yaygınlaştı.

• KULLANIMI

Mağazalardaki satış/alış işlemleri

Banka ve Kredi kartı işlemleri

Bir çok sektördeki veri ve işlemler

Bilimsel veriler, uydu ve radarlardaki algılayıcılar gelen veriler

Web verileri

Page 11: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

Veri Madenciliği Stratejileri

Data Mining

Strategies

Supervised

Learning

Market Basket

Analysis

Unsupervised

Clustering

PredictionEstimationClassification TAHMİNSINIFLANDIRMA KESTİRİM

Page 12: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

Veri madenciliği (Data mining)

Page 13: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

Veri madenciliği (Data mining)

• Birliktelik

“Çocuk bezi alan müşterilerin 30%’u bira da alır.” (Basket Analysis)

• Sınıflandırma

“Genç kadınlar küçük araba satın alır; yaşlı, zengin erkekler ise büyük, lüks araba satın alır.”

• RegresyonKredi skorlama (Application Scoring)

• Zaman içinde Sıralı Örüntüler

“İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla krediyi geriye ödeyemiyor.” (Behavioral scoring, Churning)

Page 14: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

Market Basket Analysis (nutella ekmek ilişkisi)

Page 15: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

Birliktelik analizi (Apriori)

Page 16: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

Veri madenciliği (Data mining)• Benzer Zaman Sıraları

“X şirketinin hisselerinin fiyatları Y şirketinin fiyatlarıyla benzer hareket ediyor.”

• İstisnalar (Fark Saptanması)

“Normalden farklı davranış gösteren müşterilerim var mı?”

Fraud detection

• Döküman Madenciliği (Web Madenciliği) !!!

“Bu arşivde (veya internet üzerinde) bu dökümana benzer hangi dökümanlar var?”

Page 17: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

Veri Madenciliği Metodoloji

Veri Temizleme

Veri Entegrasyonu

Veritabanları

Veri Anbarı

İlgili

Veriler

Veri Seçme

Veri Madeciliği

Örüntü Değerlendirme

Veri Madenciliği Uygulamaları; verinin temizlenmesi, entegre hale

getirilip seçilmesi işlemi ile başlar. Daha sonra uygun modelleme seçilir

ve test edilir. Çıkan sonuçlara göre ham veri ya da enformatik veri

ambarı tekrar düzenlenir. En uygun model oluştuktan sonra karar verme

araçları ve öngörü modellemeleri uygulanır.

Page 18: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

• CRISP-DM (CRoss Industry Process for Data Mining). CRISP-DM detaylı bir veri madenciliği süreci standartı’dır. (IBM SPSS) www.crisp-dm.org

• Diğer metodoloji SAS SEMMA’ dır.

Page 19: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

Karar Ağacı (Tekrarlayan veriler-Örüntü Bulma)

Page 20: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham
Page 21: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

Ayaktan Hasta İdrar Kültürü E.coliSiprofloksasinKarar Ağacı

Page 22: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

M/z oranı: (mass / charge ratio – kütle / yük oranı), bir

izopun kütlesinin sahip olduğu elektrik yüküne oranıdır.

Bir iyon kütlesinin birleşik atomik kütle birimine

oranını şarj sayısına (işaretten bağımsız olarak)

bölünerek oluşan boyutsuz miktarı temsil eden kısaltma

IUPAC. Analytical Division. Compendium of Analytical Nomenclature (the “Orange Book”). Definitive Rules, 1979. Compiled by J. Inczédy, T. Lengyel, A. M. Ure. Blackwell

Scientific Publications, Oxford (1997). On-line corrected version: http://www.iupac.org /publications/analytical compendium (2000).

Şekil: I. C. Santos, Z. L.Hildenbrand and K. Schug, Analyst, 2016, DOI: 10.1039/C6AN00131A.Royal Society of Chemistry

Page 23: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

Klinik Mikrobiyolojide Malti Tof Kullanımı

Staphylococcus aureus Metisilin Direnci

Edwards-Jones V, Claydon MA, Evason DJ, Walker J, Fox AJ, Gordon DB (2000) Rapid discrimination between methicillin-sensitive and methicillin-resistant Staphylococcus aureus byintact cell mass spectrometry. J Med Microbiol 49: 295-300.

Majcherczyk PA, McKenna T, Moreillon P, Vaudaux P (2006) The discriminatory power of MALDI-TOF mass spectrometry to differentiate between isogenic teicoplanin-susceptible and teicoplanin-resistant strains of methicillin-resistant Staphylococcus aureus. FEMS Microbiol Lett 255: 233-239

Bernardo K, Pakulat N, Macht M, Krut O, Seifert H, Fleer S, Hünger F, Krönke M (2002) Identification and discrimination of Staphylococcus aureus strains using matrix-assisted laserdesorption/ionization-time of flight mass spectrometry. Proteomics 2: 747-753.

Wolters M, Rohde H, Maier T, Belmar-Campos C, Franke G, Scherpe S, Aepfelbacher M, Christner M (2011) MALDI-TOF MS fingerprinting allows for discrimination of major methicillin-resistant Staphylococcus aureus lineages. Int J Med Microbiol 301: 64-68.

Karbapenem direnci

Burckhardt I, Zimmermann S (2011) Using matrix-assisted laser desorption ionization-time of flight mass spectrometry to detect carbapenem resistance within 1 to 2.5 hours. J ClinMicrobiol 49: 3321-3324

Hrabák J, Walková R, Studentová V, Chudácková E, Bergerová T (2011) Carbapenemase activity detection by matrix-assisted laser desorption ionization-time of flight mass spectrometry. J Clin Microbiol 49: 3222-3227

Beta-laktam direnci

Sparbier K, Schubert S, Weller U, Boogen C, Kostrzewa M (2012) Matrix-assisted laser desorption ionization-time of flight mass spectrometry-based functional assay for rapid detection of resistance against β-lactam antibiotics. J Clin Microbiol 50: 927-937.

Antifungal duyarlılık

Marinach C, Alanio A, Palous M, Kwasek S, Fekkar A, Brossas JY, Brun S, Snounou G, Hennequin C, Sanglard D, Datry A, Golmard JL, Mazier D (2009) MALDI-TOF MS-based drugsusceptibility testing of pathogens: the example of Candida albicans and fluconazole. Proteomics 9: 4627-4631

De Carolis E, Vella A, Florio AR, Posteraro P, Perlin DS, Sanguinetti M, Posteraro B (2012) Use of matrix-assisted laser desorption ionization-time of flight mass spectrometry for caspofungin susceptibility testing of Candida and Aspergillus species. J Clin Microbiol 50: 2479-2483.

Panton-Valentine Lökosidin

Bittar F, Ouchenane Z, Smati F, Raoult D, Rolain JM. MALDI-TOF-MS for rapid detection of staphylococcal Panton-Valentine leukocidin. Int J Antimicrob Agents Nov 2009;34(5):467–70.

Page 24: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

Kümeleme - Dendrogram

Page 25: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

Kümeleme - Dendrogram

Page 26: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

Models were generated using all four available algorithms (genetic algorithm [GA], support vector machine [SVM], supervised neural network [SNN],

and QuickClassifier [QC]) and compared. For each model, the default settings were left unaltered; for example, with the support vector machine model, automatic detection was selected for peaks in model and the k-

nearest-neighbor (KNN) classification was left at a number of neighbors equal to 3. With the genetic algorithm, the maximum number of peaks in the model was left at 10 and the maximum number of generations was left at

50. For each model, the recognition capability and cross validation were calculated to demonstrate the reliability and accuracy of the model.

Page 27: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham
Page 28: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham
Page 29: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham
Page 30: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

Veri Madenciliği Yazılımları• R

• Mathlab

• Knime

• SPSS Clementine

• SPSS Modeller

• Rapid Miner (YALE)

• Weka

Page 31: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

• Bilişim alanında sıkça kullanılan veri madenciliği yöntemleri özellikle biyoinformatik ve proteomiksalanında kendine yer bulmuştur.

• Kromatografi sonuçları gibi yığın veri oluşturan (BigData) süreçlerin içinde algoritmalar, karar ağaçları ve birliktelik kuralları gibi modeller kullanarak sabit bir hipoteze ihtiyaç duymadan fark edilmemiş örüntüleri ortaya çıkarır.

• Klinik Mikrobiyoloji verilerinin veri madenciliği yöntemleri ile analizi; erken salgın uyarı modelleri oluşturulması, mikroorganizmaların yeni alt tiplerinin keşifleri ve klinik mikrobiyoloji laboratuvar testlerinin kullanım alanlarının genişletilmesi gibi araştırmalar için gelecek vadetmektedir.

Page 32: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

REFERANS KİTAPLAR

S. Chakrabarti. Mining the Web: Statistical Analysis of Hypertex and Semi-Structured Data. Morgan Kaufmann, 2002

R. O. Duda, P. E. Hart, and D. G. Stork, Pattern Classification, 2ed., Wiley-Interscience, 2000

T. Dasu and T. Johnson. Exploratory Data Mining and Data Cleaning. John Wiley & Sons, 2003

U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data

Mining. AAAI/MIT Press, 1996

U. Fayyad, G. Grinstein, and A. Wierse, Information Visualization in Data Mining and Knowledge Discovery, Morgan

Kaufmann, 2001

J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2nd ed., 2006

D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, 2001

T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and

Prediction, Springer-Verlag, 2001

T. M. Mitchell, Machine Learning, McGraw Hill, 1997

G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991

P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Wiley, 2005

S. M. Weiss and N. Indurkhya, Predictive Data Mining, Morgan Kaufmann, 1998

I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java

Implementations, Morgan Kaufmann, 2nd ed. 2005

Page 33: Veri Madenciliği SUNUMLAR/9...Veri madenciliği (Data mining) •Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. •Jacobs, veri madenciliğini, ham

TEŞEKKÜRLER