[ieee 2011 ieee 19th signal processing and communications applications conference (siu) - antalya,...

4
TELEVİZYON YAYINLARINDA İÇERİK TABANLI İŞİTSEL VERİ ERİŞİMİ CONTENT BASED EVENT RETRIEVAL ON TV BROADCAST AUDIO Ezgi Can Ozan 1,3 , Seda Tankız 2,3 , Banu Oskay Acar 3 , Tolga Çiloğlu 1 1. Elektrik ve Elektronik Mühendisliği Bölümü Orta Doğu Teknik Üniversitesi [email protected] 2. Bilgisayar Mühendisliği Bölümü Hacettepe Üniversitesi 3. TÜBİTAK UZAY Teknolojileri Araştırma Enstitüsü {ezgican.ozan, seda.tankiz, banu.oskay}@uzay.tubitak.gov.tr ÖZETÇE İşitsel veri, çoklu ortam verilerinin anlamsal içeriğine dair önemli bilgiler vermektedir. Bu bildiride, TV yayınlarında sıklıkla rastlanan işitsel kavramlar üzerinde içerik tabanlı bir işitsel veri erişimi yöntemi sunulmaktadır. Amaç çok büyük çoklu ortam veritabanlarında sorgulanan işitsel kavramı içeren verilere erişimin sağlanmasıdır. Çalışmada TV yayınlarında sıklıkla rastlanan ve çoklu ortam verisinin daha üst seviye anlamsal analizleri için önemli bir girdi olacağı şünülen 17 ses sınıfı belirlenmiştir. Üzerinde çalışılan kavramların taşıdığı zamansal bilgiyi ifade edebilecek parmak izleri oluşturabilmek için, içinde kavramsal niteliğin değişmediği bölütler oluşturulmuştur. Kavramların spektral ve zamansal özellikleri analiz edilerek, bu özellikleri temsil edecek parmakizleri oluşturulmuştur. Kavramlar Gauss Karışım Modeli kullanılarak modellenmiştir. Kavram erişiminde, bölüte ait parmakizinin o kavram için sağladığı olabilirliğe göre kullanıcıya bir sıralama dönülmektedir. Sistem kullanıcıya sorguladığı işitsel sınıfı içeren bölütleri üst sıralarda getirmeyi hedeflemektedir. Erişim için başarım ölçütü olarak ortalama kesinlik metriği kullanılmıştır. 17 işitsel sınıf, 11 saatlik TV kaydı (~100.000 işitsel bölüt) üzerinde test edilmiş, ortalama %18,5’lik bir başarı elde edilmiştir. ABSTRACT Auditory data contains important information about the content of multimedia data. This paper presents a method for content based event retrieval on broadcast audio. The aim of this study is to retrieve audio events from huge multimedia databases. 17 classes which are most frequently observed in TV broadcast, and which are considered as an important input to higher level semantic analysis of multimedia data are selected. Audio streams are divided into homogenous segments in order to generate fingerprints that describe both temporal and spectral information of audio events. Both spectral and temporal properties of audio events are analyzed and some fingerprints to represent these properties are presented. Audio events are modeled by Gaussian Mixture Models. For the retrieval, an ordered sequence is provided to the user for each event, sorted by the likelihood values of the fingerprints. The system aims to bring the query events with higher likelihood values first. Mean average precision value is used to evaluate retrieval performance.17 audio classes are tested on 11 hours of TV recordings and 18,5% average precision is achieved. 1. GİRİŞ İletişim teknolojilerinde kaydedilen gelişmeler sayesinde sayısal çoklu ortam kaynakları hızla artmaktadır. Kaynaklara ait üst veri üretimi, kaynaklar üzerinde içerik sorgulaması yapabilmek ve kaynaklara otomatik erişim sağlayabilmek ısından önemlidir. Ancak söz konusu büyüklükteki veri miktarları için üst verinin insanlar tarafından üretilmesi uygulanabilir değildir. Çoklu ortam içeriğine yüksek başarım oranlarıyla otomatik olarak erişimin sağlanması günümüzde önemli bir çalışma alanıdır . Çoklu ortamın anlamsal içeriğine dair önemli bilgilere ses içeriği kullanılarak ulaşılabilmektedir. Örneğin patlama, silah, çığlık gibi sesler şiddet içeriğine dair bilgiler verirken, kalabalık, düdük ve alkış sesleri; spor programları ve protesto yürüyüşleri gibi olaylar hakkında önemli ipuçları vermektedir. Konu üzerinde yapılan çalışmalar çoğunlukla parmak izi tabanlı yöntemlere dayanmaktadır. Mel frekans kepstral katsayıları (Mel Frequency Cepstral Coefficients - MFCC) [1,2,3], Algısal Lineer Kestirim katsayıları (Perceptual Linear Prediction - PLP), Sıfır Geçiş Oranı (Zero Crossing Rate - ZCR) [4] gibi kısa dönemli öznitelikler sıklıkla kullanılmaktadır. Öznitelikler genellikle kısa süreli sabit uzunlukta kayan pencerelerden çıkartılmıştır [1,5]. Literatürde, ses karakteristiğinin değişimini ifade edebilmek amacıyla uzun ses verisini küçük homojen parçalara bölütledikten sonra öznitelik çıkaran çalışmalar da bulunmaktadır [3,6,7]. Pek çok özniteliğin birlikte kullanılmasıyla elde edilen yüksek boyutlu öznitelikler üzerinde Temel Bileşenler Analizi (Principal Component Analysis - PCA) gibi boyut azaltıcı yöntemler kullanılmıştır [2,8,9]. Ses dizisi, çeşitli sınıflandırma yöntemleriyle kavramlar bazında sınıflandırılmıştır [1,5,9]. Sundaram ve diğerleri [10] tarafından önerilen örnekli sorgu tabanlı işitsel erişim sistemi 10 milisaniyelik herbir çerçeveden 12 katsayılı MFCC, İzgesel Merkez (Spectral Centroid – SC) ve İzgesel Azalma Frekansı (Spectral Rolloff – SRO) olmak üzere 14 boyutlu öznitelik çıkarılmıştır. 20 kavram test edilmiş ve değerlendirme kriteri olarak doğruluk ve kesinlik değerleri kullanılmıştır. Petridis ve diğerlerinin yaptığı çalışmada [4], ZCR, SRO gibi kısa dönemli öznitelikler ve bunların istatistikleri çıkartılmıştır ve haber yayınlarında sıkça görülen beş kavram konuşma kavramıyla ikili olarak ayırt edilmeye çalışılmıştır. Biatov ve diğerlerinin yapmış olduğu çalışmada [11], model seçim kriteri kullanılarak doğrudan işitsel arama yapılmıştır. Model seçim kriteri güvenilirlik metriği olarak kullanılmıştır. 14 farklı çevresel ses, referans olay verileriyle karşılaştırılarak tespit 2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU 2011) 391 978-1-4577-0463-511/11/$26.00 ©2011 IEEE

Upload: tolga

Post on 16-Mar-2017

218 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: [IEEE 2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU) - Antalya, Turkey (2011.04.20-2011.04.22)] 2011 IEEE 19th Signal Processing and Communications

TELEVİZYON YAYINLARINDA İÇERİK TABANLI İŞİTSEL VERİ ERİŞİMİ CONTENT BASED EVENT RETRIEVAL ON TV BROADCAST AUDIO

Ezgi Can Ozan1,3, Seda Tankız2,3, Banu Oskay Acar3, Tolga Çiloğlu 1

1. Elektrik ve Elektronik Mühendisliği Bölümü Orta Doğu Teknik Üniversitesi

[email protected]

2. Bilgisayar Mühendisliği Bölümü

Hacettepe Üniversitesi

3. TÜBİTAK UZAY Teknolojileri Araştırma

Enstitüsü {ezgican.ozan, seda.tankiz,

banu.oskay}@uzay.tubitak.gov.tr

ÖZETÇE İşitsel veri, çoklu ortam verilerinin anlamsal içeriğine dair önemli bilgiler vermektedir. Bu bildiride, TV yayınlarında sıklıkla rastlanan işitsel kavramlar üzerinde içerik tabanlı bir işitsel veri erişimi yöntemi sunulmaktadır. Amaç çok büyük çoklu ortam veritabanlarında sorgulanan işitsel kavramı içeren verilere erişimin sağlanmasıdır. Çalışmada TV yayınlarında sıklıkla rastlanan ve çoklu ortam verisinin daha üst seviye anlamsal analizleri için önemli bir girdi olacağı düşünülen 17 ses sınıfı belirlenmiştir. Üzerinde çalışılan kavramların taşıdığı zamansal bilgiyi ifade edebilecek parmak izleri oluşturabilmek için, içinde kavramsal niteliğin değişmediği bölütler oluşturulmuştur. Kavramların spektral ve zamansal özellikleri analiz edilerek, bu özellikleri temsil edecek parmakizleri oluşturulmuştur. Kavramlar Gauss Karışım Modeli kullanılarak modellenmiştir. Kavram erişiminde, bölüte ait parmakizinin o kavram için sağladığı olabilirliğe göre kullanıcıya bir sıralama dönülmektedir. Sistem kullanıcıya sorguladığı işitsel sınıfı içeren bölütleri üst sıralarda getirmeyi hedeflemektedir. Erişim için başarım ölçütü olarak ortalama kesinlik metriği kullanılmıştır. 17 işitsel sınıf, 11 saatlik TV kaydı (~100.000 işitsel bölüt) üzerinde test edilmiş, ortalama %18,5’lik bir başarı elde edilmiştir.

ABSTRACT Auditory data contains important information about the content of multimedia data. This paper presents a method for content based event retrieval on broadcast audio. The aim of this study is to retrieve audio events from huge multimedia databases. 17 classes which are most frequently observed in TV broadcast, and which are considered as an important input to higher level semantic analysis of multimedia data are selected. Audio streams are divided into homogenous segments in order to generate fingerprints that describe both temporal and spectral information of audio events. Both spectral and temporal properties of audio events are analyzed and some fingerprints to represent these properties are presented. Audio events are modeled by Gaussian Mixture Models. For the retrieval, an ordered sequence is provided to the user for each event, sorted by the likelihood values of the fingerprints. The system aims to bring the query events with higher likelihood values first. Mean average precision value is used to evaluate retrieval performance.17 audio classes are tested on 11 hours of TV recordings and 18,5% average precision is achieved.

1. GİRİŞ İletişim teknolojilerinde kaydedilen gelişmeler sayesinde sayısal çoklu ortam kaynakları hızla artmaktadır. Kaynaklara ait üst veri üretimi, kaynaklar üzerinde içerik sorgulaması yapabilmek ve kaynaklara otomatik erişim sağlayabilmek açısından önemlidir. Ancak söz konusu büyüklükteki veri miktarları için üst verinin insanlar tarafından üretilmesi uygulanabilir değildir. Çoklu ortam içeriğine yüksek başarım oranlarıyla otomatik olarak erişimin sağlanması günümüzde önemli bir çalışma alanıdır .

Çoklu ortamın anlamsal içeriğine dair önemli bilgilere ses içeriği kullanılarak ulaşılabilmektedir. Örneğin patlama, silah, çığlık gibi sesler şiddet içeriğine dair bilgiler verirken, kalabalık, düdük ve alkış sesleri; spor programları ve protesto yürüyüşleri gibi olaylar hakkında önemli ipuçları vermektedir.

Konu üzerinde yapılan çalışmalar çoğunlukla parmak izi tabanlı yöntemlere dayanmaktadır. Mel frekans kepstral katsayıları (Mel Frequency Cepstral Coefficients - MFCC) [1,2,3], Algısal Lineer Kestirim katsayıları (Perceptual Linear Prediction - PLP), Sıfır Geçiş Oranı (Zero Crossing Rate - ZCR) [4] gibi kısa dönemli öznitelikler sıklıkla kullanılmaktadır. Öznitelikler genellikle kısa süreli sabit uzunlukta kayan pencerelerden çıkartılmıştır [1,5]. Literatürde, ses karakteristiğinin değişimini ifade edebilmek amacıyla uzun ses verisini küçük homojen parçalara bölütledikten sonra öznitelik çıkaran çalışmalar da bulunmaktadır [3,6,7].

Pek çok özniteliğin birlikte kullanılmasıyla elde edilen yüksek boyutlu öznitelikler üzerinde Temel Bileşenler Analizi (Principal Component Analysis - PCA) gibi boyut azaltıcı yöntemler kullanılmıştır [2,8,9]. Ses dizisi, çeşitli sınıflandırma yöntemleriyle kavramlar bazında sınıflandırılmıştır [1,5,9].

Sundaram ve diğerleri [10] tarafından önerilen örnekli sorgu tabanlı işitsel erişim sistemi 10 milisaniyelik herbir çerçeveden 12 katsayılı MFCC, İzgesel Merkez (Spectral Centroid – SC) ve İzgesel Azalma Frekansı (Spectral Rolloff – SRO) olmak üzere 14 boyutlu öznitelik çıkarılmıştır. 20 kavram test edilmiş ve değerlendirme kriteri olarak doğruluk ve kesinlik değerleri kullanılmıştır. Petridis ve diğerlerinin yaptığı çalışmada [4], ZCR, SRO gibi kısa dönemli öznitelikler ve bunların istatistikleri çıkartılmıştır ve haber yayınlarında sıkça görülen beş kavram konuşma kavramıyla ikili olarak ayırt edilmeye çalışılmıştır. Biatov ve diğerlerinin yapmış olduğu çalışmada [11], model seçim kriteri kullanılarak doğrudan işitsel arama yapılmıştır. Model seçim kriteri güvenilirlik metriği olarak kullanılmıştır. 14 farklı çevresel ses, referans olay verileriyle karşılaştırılarak tespit

2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU 2011)

391978-1-4577-0463-511/11/$26.00 ©2011 IEEE

Page 2: [IEEE 2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU) - Antalya, Turkey (2011.04.20-2011.04.22)] 2011 IEEE 19th Signal Processing and Communications

edilmiştir. Barrington ve diğerleri[12] içerik tabanlı işitsel veriye anlamsal benzerlikten faydalanarak erişmişlerdir. Kavramlar için MFCC özniteliği kullanılarak Gauss Karışım Modelleri (Gaussian Mixture Models – GMM) oluşturulmuştur. İşitsel verinin yanında metin etiketleri de kullanılmıştır.

Bu çalışmada ses dizisi ilk olarak güdümsüz enerji bölütlerine ayrılmıştır. Daha sonra her bir bölütü ifade eden parmak izleri oluşturularak, ses kavramlarını ayırt edicilikleri test edilmiştir. Her bir kavram GMM kullanılarak modellenmiştir. Bu modellerden elde edilen olabilirlik değerleri, sonuçların erişim için sıralanmasında kullanılmıştır.

Bildirinin devamında önerilen yöntem anlatılmaktadır. Bir sonraki bölüm olan üçüncü bölümünde ise, gerçekleştirilen deneyler ele alınırken, son bölümde deney sonuçlarına ve çalışmanın özetine yer verilmiştir.

2. ÖNERİLEN YÖNTEM Önerilen yöntem dört aşamada uygulanmaktadır. İlk

aşamada ses verisi, içinde kavramsal niteliğin değişmediği bölütlere ayrılır [13]. İkinci aşamada herbir bölüt için, ses karakterini temsil edecek parmak izleri oluşturulur. Üçüncü aşamada ise ses kavramları için eğitim verisinden elde edilen parmak izleriyle GMM’ler oluşturulur. Son aşamada test verisinden çıkarılan parmak izleri için elde edilen GMM’ler üzerinden olabilirlik değerleri hesaplanır. Kavram bazında erişim bölütlerin kavram modelleri üzerinden elde edilen bu olabilirlik değerlerinin sıralanmasıyla gerçekleştirilir. Önerilen sisteme ait akış çizgesi Şekil 1’de gösterilmektedir.

Model üretiminde kullanılan parmak izleri iki farklı yol izlenerek oluşturulmuştur. Birinci yöntem kısa süreli özniteliklerin doğrudan kullanımıyla kavram modellerinin eğitilmesidir. İkinci yöntem ise bölütlerin bu öznitelikler

cinsinden hesaplanan istatistiklerinin parmak izi olarak kullanılmasıdır.

Söz konusu bu çalışmada önerilen yöntem kedi, köpek, kuş, şarkı, müzik, konuşma, çığlık, ağlama, gülme, silah, patlama, motor, siren, su, alkış, kalabalık ve lastik sesi üzerinde test edilmiştir.

2.1. Bölütleme

Ses bölütleme bir çok alanda (işitsel tabanlı ses sınıflama, erişim, arşiv yönetimi ve konuşanı takip etme gibi uygulamalarda) kullanılmaktadır. Bir yayında birden fazla kavram aynı zaman diliminde bulunabilmektedir. Ses karakteristiğindeki değişimleri yakalamak kavramlar arasındaki geçişi temsil edebileceğinden, kavram tanıma ve erişim konusunda önem teşkil etmektedir. Yayından elde edilen işitsel veriyi, ses kavramının değişmediği homojen küçük parçalara bölütlemek için güdümsüz enerji tabanlı bölütleme yöntemi kullanılmıştır.[13]. Bu yöntemde ses verisi üzerinde kaydırılan ardışık iki pencere için hesaplanan güç oranlarının tepe noktaları, bölüt sınırları olarak belirlenir. Uzun ses dizisi bu yöntemle bölütlere ayrıldıktan sonra, ardışık bölütlerin ortalama enerjilerinden elde edilen öznitelik vektörleri kullanılarak, sessizlik veya sadece geri plan gürültüsünden oluşan bölütler belirlenerek elenmiştir.

2.2. Parmak İzi Oluşturma

Bu çalışmada farklı kavramların işitsel karakterlerini ayırt edecek zamansal ve izgisel farklı öznitelikler sınanmıştır. Her 10 milisaniyede bir 25 milisaniyelik kayan pencerelerden aşağıda listelenen kısa zamanlı öznitelikler çıkartılmıştır.

• MFCC, • PLP, • SRO, • İzgesel Akış Yönü [13] (Spectral Flow Direction -

FLD), • Harmoniklik [13] (Harmonicity – HRM), • İzgesel Bant Gücü (Spectrum Band Power -SBP)

Çerçevelerden çıkartılan zamansal “ve spektral

özniteliklerin kullanılması konusunda iki yöntem sınanmıştır. İlkinde, bir bölütten çıkartılan öznitelikler doğrudan, ya da bölüt içerisindeki zamansal endeksleri (time index – ti) eklenerek GMM ile modellenirken; ikinci yöntemde her bir çerçeve için çıkartılan özniteliklerin bir bölütü temsil etmesi için ortalama (mean - mn), standart sapma (standard deviation - dv), ortanca (median - md) gibi istatistikleri, bu istatistiklerin birlikte kullanımlarından elde edilen vektörler ve bileşik ortalama vektörleri (3-4-3) [14] kullanılmıştır.

Bileşik ortalama vektörler metodunda bölütler zaman eksenine göre, sırasıyla 3, 4 ve 3’le orantılı 3 parçaya ayrılmakta ve her bir parça için kısa dönemli özniteliklerin ortalaması alınmaktadır. Hesaplanan ortalamalar birleştirilip, kullanılan özniteliklerin üç katı boyutunda yeni bir öznitelik vektörü oluşturulur. Elde edilen özniteliklerin boyutunu azaltmak amacıyla PCA metodu uygulanmıştır [15].

2.3. Model Eğitimi

Eğitim verisinden elde edilen parmak izleri ile her kavram için bir GMM eğitilmektedir. Eğitilen GMM’lerin karışım sayısı 2 ile 64 arasında değişmektedir.

Şekil 1: Önerilen Yöntemin Akış Çizgesi

2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU 2011)

392

Page 3: [IEEE 2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU) - Antalya, Turkey (2011.04.20-2011.04.22)] 2011 IEEE 19th Signal Processing and Communications

2.4. Erişim

Test verisinden elde edilen parmak izleri için, eğitilen modeller kullanılarak olabilirlik değerleri hesaplanmaktadır. Özniteliklerin doğrudan kullanıldığı yöntemde, bölüt için elde edilen olabilirlik değeri, herbir öznitelik için hesaplanan olabilirlik değerlerinin aritmetik ortalamasıdır. Özniteliklerin istatistiklerinin kullanıldığı yöntemde ise olabilirlik değeri, bölütü temsil eden yegane parmak izi için hesaplanır. Test verisinden elde edilmiş bölütler, olabilirlik değerlerine göre sıralanmakta ve erişim bu sırayla sağlanmaktadır.

3. DENEYLER Bu çalışmada belirtilen her öznitelik, değişken karışım sayılı Gauss modelleriyle, her bir farklı parmak izi için ayrı ayrı test edilmiş, ve deneyler sonucunda kavram bazında en iyi sonucu veren parmak izi ve model parametreleri belirlenmiştir. Kullanılan eğitim ve test verileri Tablo 1’de gösterilmektedir. Bu veriler kavramlar için bölüt sayısı ve saniye cinsinden belirtilmektedir. Eğitim ve test verileri, televizyon yayınları üzerinden alınan işitsel kayıtlardan elde edilmiştir. Toplamda 3,5 saat eğitim, 11 saat test verisi bulunmaktadır. Test verisi televizyon yayınlarının olağan akışı içinde farklı türlerde programlardan derlenmiştir.. Birden fazla kavramın aynı anda yer aldığı bölgelerde, yalnızca baskın kavramlar değil, var olan bütün kavramlar etiketlenmiştir.

Kavram erişim başarısı ortalama kesinlik metriği [16] ile hesaplanmıştır. Metrik aşağıda sunulduğu şekilde formülize edilmektedir;

∑ ∑∑

(1)

ki: Aranan kavram için 1, diğerleri için 0.

Ortalama kesinlik metriği, özellikle veri miktarının dengesiz dağıldığı olay erişimi problemlerinde kullanılır. Kesinlik ve doğruluk metrikleri, veri miktarlarının dengesiz dağıldığı durumlarda yanıltıcı olabilmektedir. Örneğin çok sık rastlanan kavramlardaki kesinlik değeri olduğundan yüksek görünebilmekte, buna karşın ender rastlanan kavramlardaki kesinlik değeri olduğundan düşük görünmektedir. Önerilen sistemde erişim olabilirlik değeri sıralamasına göre yapıldığından, olaylara hangi sırada erişildiğini de dikkate alan ortalama kesinlik metriği seçilmiştir. Yapılan testlerde, ortalama kesinlik metriğinin yanında, erişilen sonuçların ilk N (N=10,100,500,1000) sıradaki doğruluk oranları da belirtilmiştir.

Test sonuçlarından ortalama kesinlik değerleri Tablo 2’de, ilk 10, 100, 1000 sıradaki doğruluk oranları ise Tablo 3’te gösterilmektedir.

Tablo 1: Eğitim ve Test Verisi Tablosu

Eğitim Test

Olay Süre (sn) Bölüt # Süre (sn) Bölüt # Ağlama 841,58 2456 153,11 390

Alkış 935,63 2005 50,44 99

Çığlık 858,96 1942 515,18 1049

Gülme 435,89 1176 141,29 389

Kalabalık 263,03 464 1029,94 2294

Kedi 281,58 670 4,60 14

Konuşma 1220,96 3608 13028,90 37760

Köpek 349,61 1126 61,49 161

Kuş 338,31 958 309,89 706

Lastik 389,88 754 151,47 177

Motor 571,14 639 1304,00 2489

Müzik 902,61 2195 24574,60 59667

Patlama 1310,08 2579 805,35 1672

Silah 943,75 2319 138,34 304

Siren 1261,48 2466 364,41 702

Su 1197,13 1478 659,01 1465

Şarkı 237,57 676 1454,44 3210

Toplam 12339,19 27511 40697,90 99726

Tablo 2: Test Sonuçları (Ortalama Kesinlik)

Olay Öznitelik Prmk

İzi #GMM OK

%Ağlama plp - 2 7,99

Alkış mfcc+ti - 2 3,03

Çığlık mfcc+fld+hrm+ti - 2 9,21

Gülme plp - 2 2,84

Kalabalık mfcc+fld+hrm mn+dv 4 12,92

Kedi sbp - 32 26,37

Konuşma mfcc - 64 81,42

Köpek sbp+fld+hrm 343 16 2,11

Kuş plp+fld+hrm mn+dv 2 3,79

Lastik mfcc+ti - 32 3,77

Motor mfcc+fld+hrm mn+dv 16 9,71

Müzik fld - 16 87,54

Patlama mfcc 343 32 35,47

Silah mfcc+ti - 64 6,24

Siren mfcc mn+dv 64 2,60

Su hrm - 4 11,38

Şarkı mfcc+fld+hrm+ti - 2 9,06

Ortalama OK 18,55

2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU 2011)

393

Page 4: [IEEE 2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU) - Antalya, Turkey (2011.04.20-2011.04.22)] 2011 IEEE 19th Signal Processing and Communications

Tablo 3: Test Sonuçları (İlk N)

Olay N=10 N=50 N=100 N=1000

Ağlama 4 13 24 107

Alkış 2 2 3 17

Çığlık 4 21 31 148

Gülme 4 9 13 38

Kalabalık 2 23 46 279

Kedi 4 6 7 8

Konuşma 10 49 99 954

Köpek 4 5 5 10

Kuş 4 13 22 74

Lastik 3 5 8 23

Motor 6 10 23 192

Müzik 9 47 95 971

Patlama 8 37 71 521

Silah 0 1 2 89

Siren 2 9 18 56

Su 5 32 58 233

Şarkı 1 6 14 167

4. SONUÇLAR Bu çalışmada TV yayınları üzerinde sıklıkla rastlanan kavramlar için bir içerik tabanlı erişim yöntemi sunulmuştur. Çalışmada istatistiksel modeller, parmak izleri ve bu izlerin elde edilişinde kullanılan öznitelikler ayrı ayrı test edilmiş; bu testler sonucunda, ortalama kesinlik metriğine göre elde edilen en iyi sonuçlar üzerinden bir yöntem önerilmiştir. Elde edilen sonuçlar incelendiğinde, zamansal sürekliliği daha fazla olan kavramlara (müzik, konuşma, patlama gibi), zamansal sürekliliği daha düşük olan kavramlardan (silah, gülme, kuş sesi gibi) daha yüksek başarıyla erişilebildiği tespit edilmiştir. Buna göre, bölütlerdeki zamansal sürekliliği daha iyi yansıtan parmak izleri geliştirilmesi gerekmektedir.

Ayrıca ilk N sırada elde edilen sonuçlara bakıldığında, çoğu kavramın ilk 10 sırada elde ettiği başarının, ilk 1000 sıraya doğru ilerlendiğinde düşüş kaydettiği gözlemlenmektedir. Bu gözlem ışığında, seçilen parmak izlerinin, gürültüye karşı yeterince gürbüz olmadığı sonucuna varılabilir. Bununla bereaber, ses dosyalarının, birden fazla kavramın üst üste bulunduğu kısımlarında, sadece baskın kavramın değil, var olan tüm kavramların etiketlenmesi ve aranması; ve ses dosyalarının bu şekilde çok sayıda kısım içermesi de söz konusu düşüşte etkili olmuştur. Bu koşullar göz önünde bulundurulduğunda, 11 saatlik TV yayını üzerinde, 17 kavram ile gerçekleştirilen deneylerde ortalamada %18,5’lik ortalama kesinlik değerine ulaşılarak bu alanda önemli bir ilerleme kaydedilmiştir.

5. KAYNAKÇA

[1] Jose Portelo , Miguel Bugalho, Isabel Trancoso, Joao Neto, Alberto Abad, Antonio Serralheiro, “Non-Speech Audio Event Detection”, ICASSP 2009.

[2] S. Chu, S. Narayanan, and C-C. Jay Kuo, “Environmental sound recognition with time-frequency audio features,” IEEE Trans. Speech, Audio, and Language Proc., vol. 17, no. 6, p 1142–1158, 2009.

[3] C. Clavel,, T. Ehrette, G. Richard, “Events Detection For An Audio-Based Surveillance System”, IEEE International Conference on Multimedia and Expo2005.

[4] Sergios Petridis, Theodoros Giannakopoulos, and Stavros Perantonis, “A Multi-class Method for Detecting Audio Events in News Broadcasts”, 6th Hellenic Conference on AI Springer, 399-404, 2010

[5] Chien-Chang Lin, Shi-Huang Chen, Trieu-Kien Truong, Fellow, Yukon Chang, “Audio Classification and Categorization Based on Wavelets and Support Vector Machine”, IEEE Transactions on Speech and Audio Processing, vol. 13, no. 5, part 1, p 644–651, 2005

[6] Annamaria Mesaros, Toni Heittola, Antti Eronen, Tuomas Virtanen, “Acoustic Event Detection In Real Life Recordings” 18th European Signal Processing Conference, 2010

[7] Rongqing Huang, John H. L. Hansen, “Advances in Unsupervised Audio Classification and Segmentation for the Broadcast News and NGSW Corpora”, IEEE Trans. Audio, Speech and Language Processing, 14 (3), 907–919

[8] Stavros Ntalampiras, Ilyas Potamitis, Nikos Fakotakis “Exploiting Temporal Feature Integration for Generalized Sound Recognition”, EURASIP Journal on Advances in Signal Processing, Vol 2009, p 12

[9] Antti J. Eronen, Vesa T. Peltonen, Juha T. Tuomi, Anssi P. Klapuri, Seppo Fagerlund, Timo Sorsa, Gaëtan Lorho, and Jyri Huopaniemi, “Audio-Based Context Recognition”, IEEE Trans. on Audio, Speech and Language Processing, 2006.

[10] Shiva Sundaram and Shrikanth Narayanan, “Audio Retrieval By Latent Perceptual Indexing”, ICASSP 2008

[11] Konstantin Biatov, Wolfgang Hesseler, Joachim Koehler “Audio Data Retrieval and Recognition Using Model Selection Criterion”, ICSPCS, 2008

[12] Luke Barrington, Antoni Chan1, Douglas Turnbull, Gert Lanckriet, “Audio Informatıon Retrieval Using Semantic Similarity”, ICASSP, 2007, p. 725 -728

[13] Ünal Zubari, Ezgi Can Ozan, Banu Oskay Acar, Tolga Ciloglu, Ersin Esen, Tuğruk K. Ateş and Duygu Oskay Önür, “Speech Detection on Broadcast Audio” EUSIPCO, 2010.

[14] Asma Rabaoui, Manuel Davy, Stephane Rossingol and Noureddine Ellouze, “Using One-Class SVMs and Wavelets for Audio Survelliance”, IEEE Transactions on Information Forensics and Security, Vol.3 No.4 2008.

[15] Jolliffe, I. T., Principal Component Analysis, Springer-Verlag 1986 p. 487

[16] Anrew Turpin, Falk Scholer, “User Performance versus Precision Measures for Simple Search Tasks”, ACM SIGIR, 2006 p 11-18

2011 IEEE 19th Signal Processing and Communications Applications Conference (SIU 2011)

394