gorsel veri madenciligi’nde bir vaka calısması: oss verilerinin analizi

25
1 Görsel Veri Madenciliği’nde bir Vaka Çalışması: ÖSS Verilerinin Analizi Gürdal Ertek, Fethi M. Özdöl, Barış Değirmencioğlu Sabancı Üniversitesi Mühendislik ve Doğa Bilimleri Fakültesi Orhanlı, Tuzla, Istanbul, 34956

Upload: ertekg

Post on 05-Dec-2014

1.370 views

Category:

Documents


4 download

DESCRIPTION

Ertek, G., Ozdol, F. and Degirmencioglu, B., “Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi”, YA/EM 2005, Istanbul, Turkey.

TRANSCRIPT

Page 1: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

Görsel Veri Madenciliği’nde bir Vaka Çalışması: 

ÖSS Verilerinin Analizi 

Gürdal Ertek, Fethi M. Özdöl, Barış Değirmencioğlu Sabancı Üniversitesi 

Mühendislik ve Doğa Bilimleri Fakültesi Orhanlı, Tuzla, Istanbul, 34956

Page 2: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

Sunum Planı 

•  Veri Madenciliği ve Bilgi Görselleştirmesi •  “Boyutlandırılabilir Simgeler” yaklaşımı •  Literatür •  Eniyileme Modeli •  Yazılım Uygulaması •  Vaka Çalışması: ÖSS Verilerinin Analizi •  Gelecekteki Çalışmalar

Page 3: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

•  Günümüzde her sahada üretilen veri miktarı bilişim sistemlerinin gelişmesiyle birlikte katlanarak artmaktadır. 

•  Geçmişte – Veri toplamak önemli miktarda vakit gerektiren bir çalışma iken 

•  Günümüzde – Otomatik olarak toplanmakta olan verilerin incelenmesi daha çok önem kazanmaktadır.

Page 4: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

Veri Madenciliği (Data Mining) 

•  Temel hedef: – Üretilmekte olan verilerin anlaşılmasını, yorumlanmasını ve ilgili kuruma (iş dünyası, eğitim, askeriye gibi) faydalı çıkarımlar yapılmasını sağlamaktır.

Page 5: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

Veri Madenciliği •  Algoritma ağırlıklı matematiksel ve istatistiksel metodlar içeren çalışmalar oldukça geniş bir literatür oluşturmaktadırlar. 

•  Ne yazık ki bu çalışmalar –özellikle iş dünyasında­ istenen uygulanma seviyesine ulaşmamıştır. 

•  Bu metodların bir eksikliği sadece önceden belirlenebilecek tarzda öngörüler oluşturulmasıdır. 

•  Bir başka eksikliği ise son kullanıcıların anlamasının imkansız olduğu karmaşık algoritmalar kullanıyor olmalarıdır.

Page 6: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

Görsel Veri Madenciliği (Visual Data Mining) 

(Bilgi Görselleştirmesi) (Information Visualization) 

•  Bilgisayar biliminin özellikle son 15 yılda önem kazanmış bir sahasıdır. 

•  1990 öncesinde verilerin grafiksel olarak incelenmesi dönük yapılan çalışmalar... 

•  1990 sonrasında –  Bilgisayarların hafıza, bilgi işleme ve 

grafiksel ara birim (GUI) boyutunda gelişmeleri 

–  Verilerin daha kolay toplanabilir hale gelmesi ile 

•  daha da olgunlaşmış ve bugünkü seviyesine ulaşmıştır.

Page 7: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

Görsel Veri Madenciliği 

•  Amaç: – Özellikle çok­boyutlu­ verilerin görsel olarak grafiklerle sunulması yoluyla • Eldeki verilerden bilgiye ulaşmak • Bu bilgilerde saklı duran önemli noktaları açığa çıkarmaktır. 

•  Bu analiz sürecinde insan algılaması ve insan­bilgisayar etkileşimi önem kazanmaktadır.

Page 8: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

Görsel Veri Madenciliği •  Verilerin görüntüsünü algılayan ve ilginç öngörüler bulmaya çalışan analist karmaşık algoritmaları anlamak zorunda değildir. 

•  Kendisine sunulan görsel etkileşim imkanları ile dilediği grafikleri dilediği parametrelerle dinamik olarak çizdirerek görsel sorgular yapabilir.

Page 9: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

Bu Sunumda... •  Görsel Veri Madenciliği’nde sıkça rastlanan bir yaklaşımı, simge (ikon) bazlı görselleştirmeyi esas alarak geliştirilen bir görselleştirme yaklaşımı ve bunun gerçek bir veri üzerinde uygulaması sunulacaktır.

Page 10: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

10 

“Boyutlandırılabilir Simgeler” (Sizeable Icons) 

•  Kategorik bir grup alan içeren ve sayısal bir ya da daha çok alan içeren veriler için uygulanabilmektir.

Page 11: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

11 

•  Bu yaklaşımda kategorik değişkenin farklı değerlerinin her biri bir kutu (box) olarak gösterilmekte, 

•  Her bir kutunun içi o değeri taşıyan elemanları simgeleyen renkli kare simgelerle (icons) doldurulmaktadır. 

•  Kare simgelerin rengi sayısal bir değişkenin değerini göstermektedir.

Page 12: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

12 

Literatür •  Keim (2002): Bilgi görselleştirmesi için sınıflandırma: – Görselleştirilecek veri tipi – Görselleştirme metodu – Etkileşim (interaction) ve çarpıtma (distortion) tekniği 

•  Web Kaynakları http://iv.homeunix.org/ http://otal.umd.edu/Olive/

Page 13: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

13 

Literatür: Simge Bazlı Görselleştirme 

(Icon­based Visualization) 

•  Sun (2003): Üretim verilerinin görselleştirilmesi – Standart bir görsel tasarımın yan yana kutularda kullanılması 

•  Beddow (1990): Gezegenlerin manyetik etkinliklerinin 13 boyutlu verisi 

•  Hearst (1995): Arama terimlerinin dokümanlar içinde dağılımı 

•  Ward (2002): Simge bazlı görselleştirme literatürünün taraması

Page 14: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

14 

Literatür: Boşluk Dolduran Görselleştirme 

(Space­filling Visualization) 

•  Mozaik gösterim (Mosaic display) (Spence, 2001, s20­23, s48­49) – Kutu boyutları her bir değere sahip kayıt sayısını gösterir. 

•  Ağaç­haritası (Treemap) (Johnson ve Shneiderman, 1991) – Hiyerarşik veriler tüm ekranı kaplayacak şekilde görüntülenebilir. 

•  Piksel bazlı görselleştirme (Pixel­based visualization) (Keim, 2002) – Ekrandaki herbir piksel veritabanındaki bir kaydı görüntüleyebilir. Böylece 1 milyona yakın kayıt görüntülenebilir.

Page 15: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

15 

Literatür: İnsan Gruplarının Görselleştirilmesi •  Bir insan grubunun gösterimi (Spence, 2001, s20­23, s48­49) 

•  Sosyal bir ağ (social network) oluşturan bir insan grubunun gösterimi (Xiong ve Donath, 1999) 

•  Hiyerarşik bir yapı gösteren bir insan grubunun gösterimi (Robertson vd., 1991)

Page 16: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

16 

•  Her bir küme bir kutu olarak gösterilmekte... •  Her bir eleman renkli bir simge olarak gösterilmektedir. 

•  Kutular gruplandıran değişkenin (partitioning attribute) farklı değerlerini taşır. 

•  Kare simgelerin rengi sayısal renklendiren değişkenin (coloring attribute) değerini gösterir. – Sarı: En büyük değer – Siyah: En küçük değer

Page 17: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

17 

s = 50 piksel 

x (h) = 4

Page 18: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

18 

Eniyileme Modeli (Optimization Model) 

En önemli değişkenler: s : her bir simgenin kenar uzunluğu x (h)  : her bir kutudaki yatay simge sayısı

Page 19: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

19 

Yazılım Uygulaması •  Java programlama dili, •  Eclipse Bütünleşik Geliştirme Ortamı ( http://www.eclipse.org ) kullanılmıştır. 

•  Veriler bir MS Access dosyasında yer almakta, ODBC bağlantısı ile SQL sorguları yapılmaktadır. 

•  Kullanıcı Java, SQL ya da MS Access bilmeden grafikler çizdirebilmektedir.

Page 20: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

20 

Vaka Çalışması 

• 2004 Öğrenci Seçme Sınavı’nda (ÖSS) EA ve SAY ilk 5000’e giren 5965 öğrencinin verileri: –Lise İsmi –Lise Tipi –Yerleştirildiği Üniversite –Yerleştirildiği Bölüm –Sayısal Puanı –Eşit Ağırlıklı Puanı

Page 21: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

21 

Genel Öngörüler (General Insights)

Page 22: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

22 

Lise Kıyaslaması (Benchmarking)

Page 23: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

23 

İlişki Yönetimi (Relationship Management)

Page 24: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

24 

Gelecekteki Çalışmalar 

•  Şu anda yapılamayan analizleri yapmaya olanak tanıyacak gösterimlerin geliştirilmesi ve uygulanması – Örn: ÖSS verilerinde yıldan yıla değişimlerin analizi 

•  Kullanıcının etkileşimli sorgular yapabilmesi

Page 25: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

25 

Teşekkürler... Sorular?