metin madenciliği ile cümleleri kategorilendirme
Post on 16-Apr-2017
222 Views
Preview:
TRANSCRIPT
VERİ MADENCİLİĞİ DÖNEM PROJESİ
Merhaba!Oğuzcan Pamukoguzcanpamuk@gmail.com
İÇERİK
▸ Projenin Tanımı▸ Proje Tasarımı▸ Kullanılan
Teknolojiler▸ Literatür Araştırması▸ İşlem Basamakları▸ Proje
Değerlendirmesi
1.Projenin Tanımı Proje hakkında
kısa bilgiler
Proje Tanımı
▸ Cümlelerin belirli kategorilere göre sınıflandırılması
▸ Twitter verileri kullanılabilir
▸ Gazete , dergi , blog verileri kullanılabilinir
2.Projenin Tasarımı Projenin
basamakları
Öğrenme Datası
Oluşturma
Datayı Öğrenme
Verilerin Kaydedilmesi
Test Datası
OluşturmaTest Sonuç
KDD Process
İş Planıİş Tanımı Projedeki Yüzdesi Durumu
Literatür Taraması %10 Tamamlandı
Proje Tasarımı %5 Tamamlandı
Twitter Bağlantısı ve Data Oluşturma %5 Tamamlandı
Data Temizleme %20 Tamamlandı
Database Bağlantısı ve Dataları
Ekleme%10 Tamamlandı
Veri Madenciliği Teknik Seçimi %5 Tamamlandı
Veri Madenciliği Tekniğini Kodlama %15 Tamamlandı
Tahmin Üretme %10 Tamamlandı
Başarı ve Hata Oranı Hesaplama %10 Tamamlandı
Literatürdeki Algoritmayla Karşılaştırma %10 Tamamlanmadı
3.Kullanılan Teknolojiler
Programlama dili, versiyon
kontrol sistemi vb.
▸ Projede Java Programlama Dili kullanılmıştır
▸ Twitter4j - Twitter verilerini kullanabilmek için
▸ MySQL – Veri saklamak için
▸ Zemberek – Türkçe kelime köklerini bulmak için
▸ «Git» versiyon kontrol sistemi
4.Benzer Çalışmalar
Kullanılan teknolojiler ve
yapılar
▸ Frekans analizi en çok kullanılan yöntem
▸ Makine öğrenmesinin çeşitli teknikleri kullanılmış
▸ Türkiye’de yapılan çalışmalarda Zemberek popüler
▸ Hata oranı hesaplamalarında «Accuracy» ve «Error Rate» tekniklerinden faydalanılmış
Literatür - 1
▸ Kocaeli Üniversitesi▸ Metin Madenciliği ile soru
cevaplama sistemi▸ Kullanıcıdan alınan soru ön
işlemeye tabi tutulur ve anahtar sözcükler belirlenir.
▸ Anahtar sözcüklerin önemine göre uygun cevap aranır.
Literatür - 1
▸ Ön işleme ; edat, bağlaç, ünlem çıkarılmış
▸ XML dosyasında tutulan istenmeyen sözcükler metinde aranmış ve çıkarılmış
▸ Sözcüklerin anahtar cümlede az geçmesi o cümle için belirleyici olduklarını gösterir
Literatür - 1
▸ Cevaplar veri tabanında hazır halde
▸ Burada kosinüs benzerliği ile cevap aranır
Literatür - 2
▸ Sosyal Ağlarda Akan Veri Madenciliği
▸ Temel olarak veri madenciliği aşamaları açıklanmıştır.
▸ Örnek olarak; boy, kilo bilgilerine göre cinsiyet belirleme tekniği anlatılmış
Literatür - 2
▸ KNN Algoritması kullanılmış.
▸ Burada Kilo, Boy ve cinsiyete göre tablo oluşturulmuş.
▸ Oluşturulan tabloya yeni gelen verinin cinsiyeti hesaplanırken en yakın 3 komşuya bakılmış ve karar verilmiştir.
Literatür - 3
▸ Sosyal Ağlarda Veri Madenciliği
▸ Amaç; sosyal medyanın veri kaynağı olarak kullanılmasını anlatmak.
Literatür - 3
▸ Çizge teoremi ; graph yaklaşımı , Facebook kim kimle arkadaş ?
▸ Kümeleme yöntemi -Küme merkezlerinin belirlenmesi -Merkez dışındakilerin mesafeye göre sınıflandırılması -Sınıflandırma sonuçlarına göre merkezin değişmesi -Kararlı hal
Literatür - 3
▸ Fikir madenciliği; - Olumlu, olumsuz yorum - Duygu analizi - Uzun yıllardır yapılan, mail spam mi? çalışmaları.
5.İşlem Basamakları
Data toplama, temizleme ,
öğrenme..
Data oluşturma
▸ Kategoriler oluşturulurken en çok okunan gazeteler kullanılmıştır (öğrenme)
▸ Test Dataları-Twitter-Gazete
Kategoriler
▸ Spor , Sağlık , Teknoloji , Magazin , Ekonomi
▸ Unknown
▸ Sampling random olarak alınmıştır
Data Temizleme
▸ Gazetelerden alınanlar – noktalama işaretleri
▸ Twitterdan alınanlar-
{"@","RT","http",")","(","#",":","/","*","=","- ","<",">","'"} (temizlendi)
- {"RT","?"} (çıkarıldı)
▸ Tüm datalar lowercase halinde
Sistem Öğrenmesi
▸ Gazete verileri
▸ Gazetelerden alınan kategori örnekleri içerisinde geçen kelimelerin frekansları hesaplanır.
▸ Frekans değerleri kelimelerin ağırlığı olacaktır.
Sistem Öğrenmesi
▸ Gelen test verileri için her kategori üzerinde değeri hesaplanır. (Ağırlıklar çarpımı)
▸ Çıkan sonuçlar büyük olduğundan normalizasyon yapılır.
▸ Değeri en yüksek kategori belirlenir.
▸ «0» olan sonuçlar dahil edilmez.
Test Asaması
▸ Test dataları ile öğrenme dataları birbirinden farklı
▸ Test dataları hem twitter hem de gazetelerden alınmıştır
▸ Hata oranı hesaplanırken gazetelerden alınan 45 cümle örneği kullanılmıştır
▸ Bu cümleler rastgele seçilmiştir
Hata Oranı ve Model Değerlendirmesi
0,733 accuracy0,267 error rate
Basarı OranlarıToplam Başarılı Başarısız
Magazin 10 8 2
Spor 11 7 4
Teknoloji 8 6 2
Ekonomi 8 6 2
Sağlık 8 6 2
73,3%Total success!
Daha Neler Yapılabilir ?
Neler Eklenebilir / Değiştirilebilir ?
▸ Öğrenme datası arttırılmalı
▸ Öğrenme datasına Twitter’dan veri eklenebilir
▸ Literatür uygulamalarıyla karşılaştırma (Başarı oranları)
▸ Veri toplamak için otomasyon yazılabilinir
KAYNAKLAR
▸ Seker,S. E. (2015). Sosyal Ağlarda Veri
Madenciliği,YBS Ansiklopedi ▸ Seker,S. E. (2014). Sosyal Ağlarda Akan Veri
Madenciliği,YBS Ansiklopedi ▸ Sevinç I, Duru,N, Karagöz Ş, Sağır M. Metin
Madenciliği ile Soru Cevaplama Sistem, Kocaeli Üniversitesi
▸ Bilgisayar Kavramları , Sadi Evren Şeker
top related