veri madenciliği sunumlar/9...veri madenciliği (data mining) •büyük ölçekli veriler...
TRANSCRIPT
Veri MadenciliğiEfe Serkan Boz
• Veri madenciliği giriş
• Veri madenciliği stratejileri
• Modelleme
• Klinik Mikrobiyolojide kullanımı
TITANIC
• 15 Nisan 1912 Southampton, İngiltere'den, New York City 'ye doğrugidiyordu
New Foundland 'ın
güneyinde bir
buzdağına
çarparak battı
TITANIC• 2230 yolcu taşıyordu
• 1517 kişi hayatını kaybetti
• 1309 kadından 500’ ü kurtuldu
KARAR AĞACI
Rose Jack’ i tahtaya almaz!
The End
Veri madenciliği (Data mining)• Büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir.
• Jacobs, veri madenciliğini, ham datanın tek başına sunamadığı bilgiyi çıkaran veri analizi süreci olarak tanımlamıştır.
• Veri madenciliği, büyük veri yığınları arasından gelecekle ilgili tahminde bulunabilmemizi sağlayabilecek bağlantıların, bilgisayar programı kullanarak aranması işidir (Doğan ve Türkoğlu, 2007).
• Hand, veri madenciliğini istatistik, veritabanı teknolojisi, örüntü tanıma, makine öğrenme ile etkileşimli yeni bir disiplin ve geniş veritabanlarındaönceden tahmin edilemeyen ilişkilerin ikincil analizi olarak tanımlamıştır.
• Kitler ve Wang (1998), veri madenciliğini oldukça tahminci anahtar değişkenlerin binlerce potansiyel değişkenden izole edilmesini sağlama yeteneği olarak tanımlamışlardır
• Henüz sorulmamış soruları yanıtlayan informatik analizler bütünüdür.
Jacobs, P., (1999), “Data Mining: What General Managers Need to Know”, Harvard Management Update, Cilt 4, No 10, 8.
Doğan, Ş., ve Türkoğlu,İ., (2007), " Hypothyroidi and Hyperthyroidi Detection from Thyroid Hormone Parameters by Using
Decision Trees", Doğu Anadolu Bölgesi Araştırmaları Dergisi, Cilt 5, No 2, 163-169.
Hand, D.J., (1998), “Data Mining: Statistics and More?”, The American Statistician, Cilt 52, 112-118.
Kitler R. ve Wang W., (1998), “The Emerging Role of Data Mining”, Solid State Technology, Cilt 42, No 11, 45.
Veri madenciliği (Data mining)
• 1989, KDD (IJCAI)-89 Veri Tabanlarında Bilgi Keşfi Çalışma Grubu toplantısı ve 1991, KDD (IJCAI)-89’un sonuç bildirgesi sayılabilecek “Knowledge Discovery in Real Databases: A Report on the IJCAI-89 Workshop” makalesinin KDD (Knowledge Discovery and Data Mining) ile ilgili kavramları ortaya koyması ile yaygınlaştı.
• KULLANIMI
Mağazalardaki satış/alış işlemleri
Banka ve Kredi kartı işlemleri
Bir çok sektördeki veri ve işlemler
Bilimsel veriler, uydu ve radarlardaki algılayıcılar gelen veriler
Web verileri
Veri Madenciliği Stratejileri
Data Mining
Strategies
Supervised
Learning
Market Basket
Analysis
Unsupervised
Clustering
PredictionEstimationClassification TAHMİNSINIFLANDIRMA KESTİRİM
Veri madenciliği (Data mining)
Veri madenciliği (Data mining)
• Birliktelik
“Çocuk bezi alan müşterilerin 30%’u bira da alır.” (Basket Analysis)
• Sınıflandırma
“Genç kadınlar küçük araba satın alır; yaşlı, zengin erkekler ise büyük, lüks araba satın alır.”
• RegresyonKredi skorlama (Application Scoring)
• Zaman içinde Sıralı Örüntüler
“İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla krediyi geriye ödeyemiyor.” (Behavioral scoring, Churning)
Market Basket Analysis (nutella ekmek ilişkisi)
Birliktelik analizi (Apriori)
Veri madenciliği (Data mining)• Benzer Zaman Sıraları
“X şirketinin hisselerinin fiyatları Y şirketinin fiyatlarıyla benzer hareket ediyor.”
• İstisnalar (Fark Saptanması)
“Normalden farklı davranış gösteren müşterilerim var mı?”
Fraud detection
• Döküman Madenciliği (Web Madenciliği) !!!
“Bu arşivde (veya internet üzerinde) bu dökümana benzer hangi dökümanlar var?”
Veri Madenciliği Metodoloji
Veri Temizleme
Veri Entegrasyonu
Veritabanları
Veri Anbarı
İlgili
Veriler
Veri Seçme
Veri Madeciliği
Örüntü Değerlendirme
Veri Madenciliği Uygulamaları; verinin temizlenmesi, entegre hale
getirilip seçilmesi işlemi ile başlar. Daha sonra uygun modelleme seçilir
ve test edilir. Çıkan sonuçlara göre ham veri ya da enformatik veri
ambarı tekrar düzenlenir. En uygun model oluştuktan sonra karar verme
araçları ve öngörü modellemeleri uygulanır.
• CRISP-DM (CRoss Industry Process for Data Mining). CRISP-DM detaylı bir veri madenciliği süreci standartı’dır. (IBM SPSS) www.crisp-dm.org
• Diğer metodoloji SAS SEMMA’ dır.
Karar Ağacı (Tekrarlayan veriler-Örüntü Bulma)
Ayaktan Hasta İdrar Kültürü E.coliSiprofloksasinKarar Ağacı
M/z oranı: (mass / charge ratio – kütle / yük oranı), bir
izopun kütlesinin sahip olduğu elektrik yüküne oranıdır.
Bir iyon kütlesinin birleşik atomik kütle birimine
oranını şarj sayısına (işaretten bağımsız olarak)
bölünerek oluşan boyutsuz miktarı temsil eden kısaltma
IUPAC. Analytical Division. Compendium of Analytical Nomenclature (the “Orange Book”). Definitive Rules, 1979. Compiled by J. Inczédy, T. Lengyel, A. M. Ure. Blackwell
Scientific Publications, Oxford (1997). On-line corrected version: http://www.iupac.org /publications/analytical compendium (2000).
Şekil: I. C. Santos, Z. L.Hildenbrand and K. Schug, Analyst, 2016, DOI: 10.1039/C6AN00131A.Royal Society of Chemistry
Klinik Mikrobiyolojide Malti Tof Kullanımı
Staphylococcus aureus Metisilin Direnci
Edwards-Jones V, Claydon MA, Evason DJ, Walker J, Fox AJ, Gordon DB (2000) Rapid discrimination between methicillin-sensitive and methicillin-resistant Staphylococcus aureus byintact cell mass spectrometry. J Med Microbiol 49: 295-300.
Majcherczyk PA, McKenna T, Moreillon P, Vaudaux P (2006) The discriminatory power of MALDI-TOF mass spectrometry to differentiate between isogenic teicoplanin-susceptible and teicoplanin-resistant strains of methicillin-resistant Staphylococcus aureus. FEMS Microbiol Lett 255: 233-239
Bernardo K, Pakulat N, Macht M, Krut O, Seifert H, Fleer S, Hünger F, Krönke M (2002) Identification and discrimination of Staphylococcus aureus strains using matrix-assisted laserdesorption/ionization-time of flight mass spectrometry. Proteomics 2: 747-753.
Wolters M, Rohde H, Maier T, Belmar-Campos C, Franke G, Scherpe S, Aepfelbacher M, Christner M (2011) MALDI-TOF MS fingerprinting allows for discrimination of major methicillin-resistant Staphylococcus aureus lineages. Int J Med Microbiol 301: 64-68.
Karbapenem direnci
Burckhardt I, Zimmermann S (2011) Using matrix-assisted laser desorption ionization-time of flight mass spectrometry to detect carbapenem resistance within 1 to 2.5 hours. J ClinMicrobiol 49: 3321-3324
Hrabák J, Walková R, Studentová V, Chudácková E, Bergerová T (2011) Carbapenemase activity detection by matrix-assisted laser desorption ionization-time of flight mass spectrometry. J Clin Microbiol 49: 3222-3227
Beta-laktam direnci
Sparbier K, Schubert S, Weller U, Boogen C, Kostrzewa M (2012) Matrix-assisted laser desorption ionization-time of flight mass spectrometry-based functional assay for rapid detection of resistance against β-lactam antibiotics. J Clin Microbiol 50: 927-937.
Antifungal duyarlılık
Marinach C, Alanio A, Palous M, Kwasek S, Fekkar A, Brossas JY, Brun S, Snounou G, Hennequin C, Sanglard D, Datry A, Golmard JL, Mazier D (2009) MALDI-TOF MS-based drugsusceptibility testing of pathogens: the example of Candida albicans and fluconazole. Proteomics 9: 4627-4631
De Carolis E, Vella A, Florio AR, Posteraro P, Perlin DS, Sanguinetti M, Posteraro B (2012) Use of matrix-assisted laser desorption ionization-time of flight mass spectrometry for caspofungin susceptibility testing of Candida and Aspergillus species. J Clin Microbiol 50: 2479-2483.
Panton-Valentine Lökosidin
Bittar F, Ouchenane Z, Smati F, Raoult D, Rolain JM. MALDI-TOF-MS for rapid detection of staphylococcal Panton-Valentine leukocidin. Int J Antimicrob Agents Nov 2009;34(5):467–70.
Kümeleme - Dendrogram
Kümeleme - Dendrogram
Models were generated using all four available algorithms (genetic algorithm [GA], support vector machine [SVM], supervised neural network [SNN],
and QuickClassifier [QC]) and compared. For each model, the default settings were left unaltered; for example, with the support vector machine model, automatic detection was selected for peaks in model and the k-
nearest-neighbor (KNN) classification was left at a number of neighbors equal to 3. With the genetic algorithm, the maximum number of peaks in the model was left at 10 and the maximum number of generations was left at
50. For each model, the recognition capability and cross validation were calculated to demonstrate the reliability and accuracy of the model.
Veri Madenciliği Yazılımları• R
• Mathlab
• Knime
• SPSS Clementine
• SPSS Modeller
• Rapid Miner (YALE)
• Weka
• Bilişim alanında sıkça kullanılan veri madenciliği yöntemleri özellikle biyoinformatik ve proteomiksalanında kendine yer bulmuştur.
• Kromatografi sonuçları gibi yığın veri oluşturan (BigData) süreçlerin içinde algoritmalar, karar ağaçları ve birliktelik kuralları gibi modeller kullanarak sabit bir hipoteze ihtiyaç duymadan fark edilmemiş örüntüleri ortaya çıkarır.
• Klinik Mikrobiyoloji verilerinin veri madenciliği yöntemleri ile analizi; erken salgın uyarı modelleri oluşturulması, mikroorganizmaların yeni alt tiplerinin keşifleri ve klinik mikrobiyoloji laboratuvar testlerinin kullanım alanlarının genişletilmesi gibi araştırmalar için gelecek vadetmektedir.
REFERANS KİTAPLAR
S. Chakrabarti. Mining the Web: Statistical Analysis of Hypertex and Semi-Structured Data. Morgan Kaufmann, 2002
R. O. Duda, P. E. Hart, and D. G. Stork, Pattern Classification, 2ed., Wiley-Interscience, 2000
T. Dasu and T. Johnson. Exploratory Data Mining and Data Cleaning. John Wiley & Sons, 2003
U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data
Mining. AAAI/MIT Press, 1996
U. Fayyad, G. Grinstein, and A. Wierse, Information Visualization in Data Mining and Knowledge Discovery, Morgan
Kaufmann, 2001
J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2nd ed., 2006
D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, 2001
T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and
Prediction, Springer-Verlag, 2001
T. M. Mitchell, Machine Learning, McGraw Hill, 1997
G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991
P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Wiley, 2005
S. M. Weiss and N. Indurkhya, Predictive Data Mining, Morgan Kaufmann, 1998
I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java
Implementations, Morgan Kaufmann, 2nd ed. 2005
TEŞEKKÜRLER