data minning k means algori̇tmalari

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI

Veri madenciliği verilen bir veri kümesindeki gizli örüntülerin alınması sürecidir.

Verinin bilgiye dönüştürülmesinde, veri madenciliğinin önemi gittikçe artmaktadır.

Pazarlama süreçleri, bilimsel buluşlar ve suçların ortaya çıkarılması gibi alanlarda geniş olarak kullanılmaktadır

VERİ MADENCİLİĞİ

Veri madenciliği, büyük veri ambarlarından yararlı bilgi keşfedilmesisürecidir.Veri madenciliğinin temel olarak üç ana görevi vardır. Bunlar“sınıflama”,“öbekleme” ve “birliktelik”tir.Sınıflama:Yeni bir nesnenin niteliklerini inceleme ve bu nesneyi öncedentanımlanmış bir sınıfa atamaktır.Yani verinin içerdiği ortak özelliklere göreayrıştırılmasıdır..Öbekleme: Öbekleme (clustering) algoritmaları veri kümesini alt kümelereayırır.Her bir altkümede yer alan nesneler dahiloldukları grubu diğer gruplardan ayıran ortak özelliklere sahiptir.Birliktelik: Bir ilişkide özniteliklerin aldığı değerler arasındaki bağımlılıklarıbulur.

Öbekleme modelinde, sınıflandırma modelinde olan veri sınıfları yoktur. Verilerin herhangi bir sınıfı bulunmamaktadır. Sınıflandırma modelinde, verilerin sınıfları bilinmekte ve yeni bir veri geldiğinde bu verinin hangi sınıftan olabileceği tahmin edilmektedir. Oysa kümeleme modelinde, sınıfları bulunmayan veriler gruplar halinde kümelere ayrılırlar. Bazı uygulamalarda kümeleme modeli, sınıf-lama modelinin bir önişlemi gibi görev alabilmektedir.

Marketlerde farklı müşteri gruplarının keşfedilmesi ve bu grupların alışveriş örüntülerinin ortaya konması, biyolojide bitki ve hayvan sınıflandırmaları ve işlevlerine göre benzer genlerin sınıflandırılması, şehir planlanmasında evlerin tiplerine, değerlerine ve coğrafik konumlarına göre gruplara ayrılması gibi uygulamalar tipik kümeleme uygulamalarıdır. Öbekleme aynı zamanda web üzerinde bilgi keşfi için dokümanların sınıflanması amacıyla da kullanılabilir .

VERİ ÖBEKLEME

Örnek:Doküman öbekleme

Doküman içinde geçen terimlere göre aynı konudakidokümanları gruplanır. Her doküman içinde sık geçenterimler bulunur ve bu terimlerden ve ağırlıklardanyararlanarak bir benzerlik ölçütü geliştirilir. Bulunanölçülere göre öbekleme yapılarak yeni bir dokümanınhangi dokümanlarla benzer olduğu tespit edilir.

Veri madenciliği, verilerin işlenmesi için önemli bir yapı sunar. Buradaki en önemli problemlerden birisi öbekleme analizidir.

Öbekleme yapıları, kısaca hakkında az bilgiye sahip olunan çok boyutlu verilerin aralarındaki benzerliğe bağlı olarak bölünmesi işine denir.

Bu gruplandırma işlemi sonucunda aynı öbek içinde

bulunan, yani gruplandırılan nesneler, farklı öbeklerde bulunan nesnelere göre birbirlerine daha çok benzerler.

Nesneler arasındaki benzerlik aralarındaki uzaklığa bağlı olarak belirlenir.

Hiyerarşik Öbekleme Algoritmaları Partitional Algoritmaları Mixture-Resolving ve Mode-Seeking Algoritmaları Nearest Neighbour Clustering Fuzzy Clustering

VERİ ÖBEKLEME ALGORİTMALARI

Bu yöntemde, n; veri tabanındaki nesne sayısı ve k ; oluşturulacak kümesayısı olarak kabul edilir. Bölümleme algoritması n adet nesneyi, k adetkümeye böler (k ≤ n). Her bir bölüm bir kümeyi gösterir. Kümeler tarafsızbölme ölçütü olarak nitelendirilen bir ölçüte uygun oluşturulduğu için aynıkümedeki nesneler birbirlerine benzerken, farklı kümedeki nesneler birbirinden farklıdırlar .

K-MEANS algoritması: K-Means algoritması, veritabanındaki n tane nesnenin k adet kümeye

bölümlenmesini sağlar. Öbekleme sonucu küme içi (intra-cluster) elamanlar arasındaki benzerlikler çok iken, kümeler arası (inter-cluster) elamanları arasındaki benzerlikler çok düşüktür .

Kümeleme sürecinde türüne özgü olarak hata kareleri ölçütü “square-error criterion” toplamı kullanılır

K-means yöntemi

E: veritabanındaki bütün nesnelerin “square error” iki vektör arasındaki uzaklıklarının toplamıdır.p: uzayda bir nesneye verilen noktayı gösterir.mi: Ci kümesinin orta noktasını gösterir

k-means ile öbekleme(*)

Bir nesne grubunun, Şekilde görüldüğü gibi uzayda konumlanmış olduğu varsayılsın. Kullanıcının bu nesneleri üç kümeye ayırmak istediği varsayılırsa, k=3 olur.

Algoritmaya göre başlangıçta rastgele üç nesne, üç kümenin merkezi olarak seçilmiş ve “+” olarak işaretlenmiştir. Şekilde (a) da görüldüğü gibi diğer nesneler de bu kümelerin merkezine olan yakınlıklarına göre kümelere dağıtılmıştır. Bu ayrıma göre her üç kümenin nesnelerinin yeni ortalaması alınmış ve bu değerler ile kümelerin yeni merkezleri olmuştur. Şekil (b)de yeni küme merkezleri “+” ile gösterilmiştir.

Yeni “+” işaretli merkezlere göre, bazı nesneler diğer kümelerin merkezine daha yakın duruma gelmişlerdir. Nesnelerin küme merkezine olan uzaklığına göre yeni durum Şekil (b) de görülmektedir.

Şekilde(c)de görüldüğü gibi, bu süreç yenilemede kümelere yeni katılan nesnelerin ortalama değerleri ve dolayısıyla merkezleri değişmiştir. Sonunda, üç küme içindeki nesnelerin yeniden dağılım gereksinimi olmayacağı ve her nesne, içinde bulunduğu kümenin merkezine en yakın durumda bulunduğu için k-means metodu ile kümelere bölünme işlemi Şekil (c) de görüldüğü gibi sonlanmıştır.

K-means algoritmasının en büyük problemi başlangıçta merkeznoktayı belirlemek için seçilen nesnelerin küme içindekiseçiciliğiyle ilgilidir. Eğer kötü bir seçim yapılırsa nesnelerin kümelenmesindeki değişiklik çok sık olur ve farklı sonuçlar doğurabilir

Algoritma iki ana hesaplama üzerine yoğunlaşır: Veri ile öbek merkezi arasındaki uzaklığın

hesaplanmasıO(nkt)

Yeni merkez hesaplanırken yapılan matematiksel işlemler

O(nt)

Eskiden öbekleme algoritmaları küçük veri kümeleri üzerinde istatistiksel yöntemlerle gerçekleştirilmekteydi fakat veri hacminin artmasıyla öbekleme algoritmaları yapılandırılarak daha verimli hale getirilmeye çalışıldı.Bu çalışmalar sonucunda hesaplama konusunda ciddi sorunlarla karşılaşıldı.

Öbekleme analizinin birçok veri nesnesi, geniş-ölçekli veritabanları veya çok boyutlu veriler olduğundan daha güçlü hesaplama yeteneğine ihtiyaç duymaktadır.

Analiz için kullanılan algoritmaların paralel versiyonları, hız ve verimlilik açısından seri algoritmalara oranla kolaylık sağlamaktadır.

K-Means algoritması öbeklemede sıkça kullanılmaktadır, fakat büyük veri kümeleri için yetersiz kalmaktadır ve zordur.

Bu nedenle öbekleme metoduna paralel bir strateji birleştirilmiş ve paralel K-Means algoritması hedeflenmiştir.

Hız ve verimlilik açısından paralel K-Means geliştirilmiştir

Algoritmanın başarımı gerçek veriler üzerinde denenmiş, seri ve paralel öbekleme sonuçları aynı çıkmıştır. Veri miktarı belli bir değeri geçtiğinde Speed Up’ta

artma gözlemlenmiştir. Bunun nedeni küçük veri kümelerinde paralel işlemcilerde iletişim zamanının, hesaplama zamanından çok olmasıdır.

Test sonuçlarına göre paralel K-Means algoritmasının geniş veri kümelerinde daha etkili olduğu belirlenmiştir.

Paralel teknoloji kullanımı hem hesaplamaları gerçekleştirir hem de hafıza kullanımını azaltır.

data minning k means algori̇tmalari

Science