yilici2005

2
VER ˙ I MADENC ˙ IL ˙ I ˘ G ˙ I YIL ˙ C ˙ I SINAVI Fen Bilimleri Enstit¨ us¨ u Yrd. Do¸ c. Dr. ¸ Sule ¨ O˘g¨ ud¨ uc¨ u ure 90 dakikadır. 10.11.2005 1. (15 puan) Veritabanı ve veri madencili˘ gi i¸ slemleri arasındaki farkları yazınız. ¨ Ornekle cıklayınız. 2. (15 puan) Veri madencili˘ gi uygulamalarında kullanılan modeller ka¸ ca ayrılır? A¸ cıklayınız. 3. Bir veri madencili˘ gi uygulaması tasarlanacaktır. ¸ Calı¸ sılacak veri k¨ umesindeki niteliklerden biri ya¸ s bilgisidir. Bu niteli˘ ge ait de˘ gerler ¸ su ¸ sekildedir: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 30, 45 (a) (10 puan) ya¸ s niteli˘ gine ait veri i¸ cin g¨ ur¨ ult¨ uy¨ u azaltmak amacıyla e¸ sit aralıklarla olme geni¸ sli˘ gi 3 olacak ¸ sekilde b¨ olmeleme (binning ) yapılacaktır. Bu i¸ slemi yapmak cin gerekli adımları g¨ osteriniz. Yukarıdaki veri i¸ cin bu i¸ slemin etkilerini yorumlayınız. (b) (10 puan) Verideki aykırılıkları belirlemek i¸ cin hangi i¸ slemler yapılabilir? (c) (10 puan) Verideki g¨ ur¨ ult¨ uy¨ u d¨ uzeltmek i¸ cin ba¸ ska hangi y¨ ontemler uygulanabilir? 4. A¸ sa˘ gıda verilen tablodaki verileri sınıflandırmak i¸ cin karar a˘ gacı olu¸ sturulacaktır. A B Sınıf T F + T T + T T + T F - T T + F F - F F - F F - T T - T F - ˙ IPUCU: Entropi kullanarak: Entropy(S )= - c i=1 p i log 2 p i Gain(S, A)= Entropy(S )- ν values(A) |S ν | |S | Entropy(S ν ) Gini index kullanarak: gini(S )=1 - c i=1 p 2 i Gain(S, A)= gini(S ) - ν values(A) |S ν | |S | gini(S ν ) (a) (15 puan) A ve B nitelikleri i¸ cin bilgi kazancını hesaplayın. Karar a˘ gacı algoritması hangi niteli˘ gi kullanarak b¨ olmeleme yapar? (b) (15 puan) A ve B nitelikleri i¸ cin Gini index de˘ gerini hesaplayınız. Karar a˘ gacı algo- ritması hangi niteli˘ gi kullanarak b¨ olmeleme yapar? (c) (10 puan) Bilgi kazancı ve gini index de˘ gerlerinin b¨ olmeleme i¸ cin farklı nitelikleri se¸ cmesi m¨ umk¨ un m¨ ud¨ ur? A¸ cıklayınız. 5. od¨ ul sorusu) sa˘ gıdaki ¸ sekilde C 1 , C 2 ve C 3 ¨ c demedin merkezidir ve A,B,D,E nesneleri de ¨ Oklid uzaklı˘ gı kullanılarak demetlenecektir. D¨ uz ¸ cizgiler demet merkezleri arasındaki 1

Upload: burakizu

Post on 21-Nov-2015

215 views

Category:

Documents


1 download

DESCRIPTION

ffff

TRANSCRIPT

  • VERI MADENCILIGI YILICI SINAVI

    Fen Bilimleri Enstitusu Yrd. Doc. Dr. Sule Oguducu

    Sure 90 dakikadr. 10.11.2005

    1. (15 puan) Veritaban ve veri madenciligi islemleri arasndaki farklar yaznz. Ornekleacklaynz.

    2. (15 puan) Veri madenciligi uygulamalarnda kullanlan modeller kaca ayrlr? Acklaynz.

    3. Bir veri madenciligi uygulamas tasarlanacaktr. Calslacak veri kumesindeki niteliklerdenbiri yas bilgisidir. Bu nitelige ait degerler su sekildedir: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25,25, 25, 30, 45

    (a) (10 puan) yas niteligine ait veri icin gurultuyu azaltmak amacyla esit aralklarlabolme genisligi 3 olacak sekilde bolmeleme (binning) yaplacaktr. Bu islemi yapmakicin gerekli admlar gosteriniz. Yukardaki veri icin bu islemin etkilerini yorumlaynz.

    (b) (10 puan) Verideki aykrlklar belirlemek icin hangi islemler yaplabilir?

    (c) (10 puan) Verideki gurultuyu duzeltmek icin baska hangi yontemler uygulanabilir?

    4. Asagda verilen tablodaki verileri snflandrmak icin karar agac olusturulacaktr.

    A B Snf

    T F +

    T T +

    T T +

    T F -

    T T +

    F F -

    F F -

    F F -

    T T -

    T F -

    IPUCU:

    Entropi kullanarak:

    Entropy(S) = c

    i=1

    pi log2 pi

    Gain(S, A) = Entropy(S)

    values(A)

    |S |

    |S|Entropy(S)

    Gini index kullanarak:

    gini(S) = 1c

    i=1

    p2i

    Gain(S, A) = gini(S)

    values(A)

    |S |

    |S|gini(S)

    (a) (15 puan) A ve B nitelikleri icin bilgi kazancn hesaplayn. Karar agac algoritmashangi niteligi kullanarak bolmeleme yapar?

    (b) (15 puan) A ve B nitelikleri icin Gini index degerini hesaplaynz. Karar agac algo-ritmas hangi niteligi kullanarak bolmeleme yapar?

    (c) (10 puan) Bilgi kazanc ve gini index degerlerinin bolmeleme icin farkl niteliklerisecmesi mumkun mudur? Acklaynz.

    5. (odul sorusu) Asagdaki sekilde C1, C2 ve C3 uc demedin merkezidir ve A, B, D, E nesneleride Oklid uzaklg kullanlarak demetlenecektir. Duz cizgiler demet merkezleri arasndaki

    1

  • uzaklg gostermektedir. K-means algoritmasna gore her nesne en yakn merkezin bu-lundugu demede atanr. Uc demet merkezi olduguna gore bir nesnenin hangi demetteoldugunu bulmak icin 3 uzaklk hesaplamas yapmak gerekir (ornegin: d(A, C1), d(A, C2),d(A, C3)). Toplam dort nesne bulunduguna gore K-means algoritmasnn her yinelen-mesinde toplam 43 uzaklk hesaplamas yapmak gerekir. Ancak, uzaklk hesaplamalarnazaltmak icin ucgen esitsizliginden yararlanlabilir.

    (a) (10 puan) Ucgen esitsizligi kullanlarak gereksiz uzaklk hesaplamalarnn azaltlabile-cegini gosteriniz.

    (b) (10 puan) Sekildeki nesneler icin hangi uzaklk hesaplamalarnn yaplmasna gerekkalmaz?

    2