metin madenciliği ile cümleleri kategorilendirme

Post on 16-Apr-2017

222 Views

Category:

Education

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

VERİ MADENCİLİĞİ DÖNEM PROJESİ

Merhaba!Oğuzcan Pamukoguzcanpamuk@gmail.com

İÇERİK

▸ Projenin Tanımı▸ Proje Tasarımı▸ Kullanılan

Teknolojiler▸ Literatür Araştırması▸ İşlem Basamakları▸ Proje

Değerlendirmesi

1.Projenin Tanımı Proje hakkında

kısa bilgiler

Proje Tanımı

▸ Cümlelerin belirli kategorilere göre sınıflandırılması

▸ Twitter verileri kullanılabilir

▸ Gazete , dergi , blog verileri kullanılabilinir

2.Projenin Tasarımı Projenin

basamakları

Öğrenme Datası

Oluşturma

Datayı Öğrenme

Verilerin Kaydedilmesi

Test Datası

OluşturmaTest Sonuç

KDD Process

İş Planıİş Tanımı Projedeki Yüzdesi Durumu

Literatür Taraması %10 Tamamlandı

Proje Tasarımı %5 Tamamlandı

Twitter Bağlantısı ve Data Oluşturma %5 Tamamlandı

Data Temizleme %20 Tamamlandı

Database Bağlantısı ve Dataları

Ekleme%10 Tamamlandı

Veri Madenciliği Teknik Seçimi %5 Tamamlandı

Veri Madenciliği Tekniğini Kodlama %15 Tamamlandı

Tahmin Üretme %10 Tamamlandı

Başarı ve Hata Oranı Hesaplama %10 Tamamlandı

Literatürdeki Algoritmayla Karşılaştırma %10 Tamamlanmadı

3.Kullanılan Teknolojiler

Programlama dili, versiyon

kontrol sistemi vb.

▸ Projede Java Programlama Dili kullanılmıştır

▸ Twitter4j - Twitter verilerini kullanabilmek için

▸ MySQL – Veri saklamak için

▸ Zemberek – Türkçe kelime köklerini bulmak için

▸ «Git» versiyon kontrol sistemi

4.Benzer Çalışmalar

Kullanılan teknolojiler ve

yapılar

▸ Frekans analizi en çok kullanılan yöntem

▸ Makine öğrenmesinin çeşitli teknikleri kullanılmış

▸ Türkiye’de yapılan çalışmalarda Zemberek popüler

▸ Hata oranı hesaplamalarında «Accuracy» ve «Error Rate» tekniklerinden faydalanılmış

Literatür - 1

▸ Kocaeli Üniversitesi▸ Metin Madenciliği ile soru

cevaplama sistemi▸ Kullanıcıdan alınan soru ön

işlemeye tabi tutulur ve anahtar sözcükler belirlenir.

▸ Anahtar sözcüklerin önemine göre uygun cevap aranır.

Literatür - 1

▸ Ön işleme ; edat, bağlaç, ünlem çıkarılmış

▸ XML dosyasında tutulan istenmeyen sözcükler metinde aranmış ve çıkarılmış

▸ Sözcüklerin anahtar cümlede az geçmesi o cümle için belirleyici olduklarını gösterir

Literatür - 1

▸ Cevaplar veri tabanında hazır halde

▸ Burada kosinüs benzerliği ile cevap aranır

Literatür - 2

▸ Sosyal Ağlarda Akan Veri Madenciliği

▸ Temel olarak veri madenciliği aşamaları açıklanmıştır.

▸ Örnek olarak; boy, kilo bilgilerine göre cinsiyet belirleme tekniği anlatılmış

Literatür - 2

▸ KNN Algoritması kullanılmış.

▸ Burada Kilo, Boy ve cinsiyete göre tablo oluşturulmuş.

▸ Oluşturulan tabloya yeni gelen verinin cinsiyeti hesaplanırken en yakın 3 komşuya bakılmış ve karar verilmiştir.

Literatür - 3

▸ Sosyal Ağlarda Veri Madenciliği

▸ Amaç; sosyal medyanın veri kaynağı olarak kullanılmasını anlatmak.

Literatür - 3

▸ Çizge teoremi ; graph yaklaşımı , Facebook kim kimle arkadaş ?

▸ Kümeleme yöntemi -Küme merkezlerinin belirlenmesi -Merkez dışındakilerin mesafeye göre sınıflandırılması -Sınıflandırma sonuçlarına göre merkezin değişmesi -Kararlı hal

Literatür - 3

▸ Fikir madenciliği; - Olumlu, olumsuz yorum - Duygu analizi - Uzun yıllardır yapılan, mail spam mi? çalışmaları.

5.İşlem Basamakları

Data toplama, temizleme ,

öğrenme..

Data oluşturma

▸ Kategoriler oluşturulurken en çok okunan gazeteler kullanılmıştır (öğrenme)

▸ Test Dataları-Twitter-Gazete

Kategoriler

▸ Spor , Sağlık , Teknoloji , Magazin , Ekonomi

▸ Unknown

▸ Sampling random olarak alınmıştır

Data Temizleme

▸ Gazetelerden alınanlar – noktalama işaretleri

▸ Twitterdan alınanlar-

{"@","RT","http",")","(","#",":","/","*","=","- ","<",">","'"} (temizlendi)

- {"RT","?"} (çıkarıldı)

▸ Tüm datalar lowercase halinde

Sistem Öğrenmesi

▸ Gazete verileri

▸ Gazetelerden alınan kategori örnekleri içerisinde geçen kelimelerin frekansları hesaplanır.

▸ Frekans değerleri kelimelerin ağırlığı olacaktır.

Sistem Öğrenmesi

▸ Gelen test verileri için her kategori üzerinde değeri hesaplanır. (Ağırlıklar çarpımı)

▸ Çıkan sonuçlar büyük olduğundan normalizasyon yapılır.

▸ Değeri en yüksek kategori belirlenir.

▸ «0» olan sonuçlar dahil edilmez.

Test Asaması

▸ Test dataları ile öğrenme dataları birbirinden farklı

▸ Test dataları hem twitter hem de gazetelerden alınmıştır

▸ Hata oranı hesaplanırken gazetelerden alınan 45 cümle örneği kullanılmıştır

▸ Bu cümleler rastgele seçilmiştir

Hata Oranı ve Model Değerlendirmesi

0,733 accuracy0,267 error rate

Basarı OranlarıToplam Başarılı Başarısız

Magazin 10 8 2

Spor 11 7 4

Teknoloji 8 6 2

Ekonomi 8 6 2

Sağlık 8 6 2

73,3%Total success!

Daha Neler Yapılabilir ?

Neler Eklenebilir / Değiştirilebilir ?

▸ Öğrenme datası arttırılmalı

▸ Öğrenme datasına Twitter’dan veri eklenebilir

▸ Literatür uygulamalarıyla karşılaştırma (Başarı oranları)

▸ Veri toplamak için otomasyon yazılabilinir

Tesekkürler !Sorularınız ?oguzcanpamuk@gmail.comGithub / oguzpamuk

KAYNAKLAR

▸ Seker,S. E. (2015). Sosyal Ağlarda Veri

Madenciliği,YBS Ansiklopedi ▸ Seker,S. E. (2014). Sosyal Ağlarda Akan Veri

Madenciliği,YBS Ansiklopedi ▸ Sevinç I, Duru,N, Karagöz Ş, Sağır M. Metin

Madenciliği ile Soru Cevaplama Sistem, Kocaeli Üniversitesi

▸ Bilgisayar Kavramları , Sadi Evren Şeker

top related