vecdi emre levent doç. dr. banu dİrİ
DESCRIPTION
Türkçe Dokümanlarda Yapay Sinir Ağları ile Yazar Tanıma. Doğal Dil İşleme Grubu. Vecdi Emre LEVENT Doç. Dr. Banu DİRİ. İçerik. Amaç Metinlerden Özellik Çıkarımı Yazar Üslubu Çıkarımı Sonuçlar. Amaç. - PowerPoint PPT PresentationTRANSCRIPT
Vecdi Emre LEVENT
Doç. Dr. Banu DİRİ
Türkçe Dokümanlarda Yapay Sinir Ağları ile Yazar TanımaDoğal Dil İşleme
Grubu
•Amaç•Metinlerden Özellik Çıkarımı•Yazar Üslubu Çıkarımı•Sonuçlar
İçerik
Amaç
Türkçe gazete köşe yazarlarının belirli sayıda metinlerinin alınarak üsluplarının çıkarımı yapılarak yazar tanıma sistemi gerçekleştirilmiştir.
Sisteme verilmeyen yazarların diğer metinleri test için kullanılıp, sistemin performans değerlendirmesi yapılmıştır.
Metinlerden Özellik Çıkarımı
•Cümle Sayısı•Kelime Sayısı•Ortalama Kelime Sayısı•Farklı Kelime Sayısı•Nokta Sayısı•Virgül Sayısı•Satır Sayısı•Noktalı Virgül Sayısı
•Soru İşareti Sayısı•Ünlem Sayısı•İsim Sayısı•Fiil Sayısı•Sıfat Sayısı•Zamir Sayısı•Edat Sayısı•Bağlaç Sayısı
Metinlerden Özellik Çıkarımı
Zemberek Kütüphanesi
Cümle
İsimFiilSıfatZamirEdatBağlaç
Yazar Üslubu Çıkarımı
Yapay Sinir Ağları
Giriş
Giriş
Giriş
Giriş
Toplama & Dönüştürme İşlemi
Çıkış
Temel Yapay Sinir Ağları Yapısı
Ağırlıklar
Yazar Üslubu Çıkarımı
Yapay Sinir Ağları
Fiil Sayısı
Sıfat Sayısı
Nokta Sayısı
Kelime Sayısı
Toplama & Dönüştürme İşlemi
Can Ataklı
2 Yazar için 4 Yazarlık Özelliği KullanılanYapay Sinir Ağı
Ahmet Çakar
Toplama & Dönüştürme İşlemi
Yazar Üslubu Çıkarımı
Dönüştürme(Transfer Fonksiyonu) İşlemi
Nöronlardan gelen değerleri toplayıp, istenen
•Sigmoid – 0 ile 1 arasında sonuç üretir.Sigmoid – 0 ile 1 arasında sonuç üretir.•Lineer – 0 veya 1 sonucu üretir.Lineer – 0 veya 1 sonucu üretir.•Gauss – Verinin dağılımına göre sonuç üretir.Gauss – Verinin dağılımına göre sonuç üretir.
fonksiyonları ile sonuç üretilmektedir.
Yazar Üslubu Çıkarımı
Öğrenme Oranı:
• 0 – 1 arasında değer almaktadır.• 0’a yakın değerler de öğrenme yavaş ancak kararlıdır.•1’e yakın değerler de ise sistemde öğrenme hızlıdır. ancak ezberler.
Momentum Katsayısı:
•Yerel çözüme takılmamayı sağlar.
Yazar Üslubu Çıkarımı
Normalizasyon
•Sistem’e verilecek değerlerin eşit oranda başlamaları için normalize edilmelidir.
Yazar Üslubu Çıkarımı
Normalizasyon
•Ör. Bir metinde kelime sayısı 400, ünlem sayısı 10 olduğunda, bu halde sisteme verildiği taktirde üzerinde çalışılan yazar için üslup çıkarımında etkisi olmasa dahi kelime sayısı doğrudan çok etkili gibi çalışacaktır.
• Ünlem sayısı gerçekte üsluba etkisi çok olsa dahi, sistemde öneminin bulunması zorlaşacaktır.
Yazar Üslubu Çıkarımı
Normalizasyon
• Yazarın metinlerinin içerisinde geçen en yüksek ve en düşük değere göre normalizasyon gerçekleştirilmiştir.
•En düşük değer 0, en yüksek değer 1 olarak atanıp, ara değerler buna göre 0-1 arasında değer almışlardır.
Yazar Üslubu Çıkarımı
Eğitim
•Sisteme yazar özelliklerinden çıkarılan değerler verilip, yazarın ne kadar doğru tanındığına bakılır.•Sonuca göre nöronlar ile çarpılan ağırlıkların değerleri değiştirilir.•Minimum hata veya maksimum döngü değerine ulaşılıncaya kadar tekrar edilir.
Yazar Üslubu Çıkarımı
Test
• Eğitimin ardından ağırlıkları optimize edilmiş olan yapay sinir ağları ile test işlemi gerçekleştirilir.
•Sadece girişler verilerek, çıkışların ne kadar doğru olduğuna bakılır.
•Ağırlıklarda değişim gerçekleşmez.
Deneysel Sonuçlar
•50 adet yazar veri seti içerisinden,
•Farklı kategoride yazan 4, 8, 12, 16•Cinsiyete göre 10 erkek, 10 kadın•Güncel kategorisinde yazan 4, 8, 12, 16
yazarlar seçilmiştir.
Deneysel Sonuçlar
•Seçilen her yazarın 40’ar adet metni eğitim için,10 adet metni test için kullanılmaktadır.
Deneysel Sonuçlar
Farklı Kategoride Yazan Yazarlar
Yazar Sayısı F-Ölçüm Hata Oranı Döngü Sayısı Süre(Dk)
4 1 0,09 2.792 3,28
8 0,78 0,09 11.119 27,46
12 0,95 0,99 11.619 44,37
16 0,73 0,1 13.768 71,58
Veriseti1 Deney Sonuçları
Deneysel Sonuçlar
Cinsiyete göre
F-Ölçüm Hata Oranı Döngü Sayısı Süre(Dk)
0,75 0,16 35.000 204,44
Veriseti2 Deney Sonuçları
Deneysel Sonuçlar
Güncel Kategoride Yazan Yazarlar
Yazar Sayısı F-Ölçüm Hata Oranı Döngü Sayısı Süre(Dk)
4 0,98 0,1 5.334 10,41
8 0,98 0,1 12.876 51,0
12 0,98 0,1 14.802 86,29
16 0,83 4,18 50.000 262,2
Veriseti3 Deney Sonuçları
Deneysel Sonuçlar
Yapay Sinir Ağları & SVM(Support Vector Machine)
Veriseti1
Yazar Sayısı
YSA SVM
4 1 0,95
8 0,78 0,75
12 0,95 0,84
16 0,73 0,75
YSA SVM
0,75 0,75
YSA SVM
0,98 1
0,98 0,92
0,98 0,84
0,83 0,88
Veriseti2
Veriseti3
Sonuçlar
Uygulamayı Yıldız Teknik Üniversitesi’nin Doğal Dil İşleme Grubu Kemik’in sayfasında yazılımlarımız bölümünden indirilebilinir.
http://www.kemik.yildiz.edu.tr/
Teşekkürler