論文の紹介a comparative evaluation for qb h

27
論論論論論 A Comparative Evaluation of Search Techniques for Query-by-Humming Using the MUSART Testbed (MUSART Testbed 論論論論 論 QbH 論論論論論論論論論論論 ) ルルルルルル ルル ルルル B4

Upload: lutfiana-ariestien

Post on 29-Jul-2015

355 views

Category:

Technology


3 download

TRANSCRIPT

論文の紹介A Comparative Evaluation of Search

Techniques for Query-by-Humming Using the MUSART Testbed

(MUSART Testbed の使用で の QbH の検索手法の比較的評価 )

ルトフィアナ サリ池田研 B4

目次• Introduction

• QbH (Query-by-Humming) とは• 使われるクエリ&データベース• MUSART Testbed とは• MRR という実験結果を比較するために使われる値とは

• 実験とその結果• 自分の考え

目次• Introduction• 実験とその結果

• 紹介された手法• MRR の比較結果• 人工クエリを使用した場合の結果• N- グラムの使用に関して• 2段検索での N- グラム• 結果の感度に関する研究• エラーの原因• もっと大きなデータベーしに向けては• 結論

• 自分の考え

Introduction (1/4)-QbH とは -

• 鼻歌をクエリとするような音楽の検索 (music retrieval)• 鼻歌だけでなく、普通に歌うことをクエリとするのもあり• 内容(コンテンツ)ベースの検索の一種• クエリの入力者は音楽知識が必要なし

Introduction (2/4)- クエリとデータベース -

クエリ :鼻歌と歌声

データベース:音楽の MIDI ファイル

MIDI ファイルとは

→mp3 などの音楽ファイルと違い、アナログ信号は出さない

→音楽再生の機械や計算機などのプロトコルがシンクロナイズ(同期)できる

→計算機が読めるような楽譜

→中身は音符、音高、リズムなど

Introduction (2/4)- クエリとデータベース -

• クエリ 1 → データベース 1• クエリ 2 → データベース 2

• データベース 1 :ビートルズの曲(テーマ数は2844) 、 MIDI ファイルは 5.4MB で、そのテーマは0.96MB

• データベース 2 :ポピューラと伝統的な曲(テーマ数は8926) 、 MIDI ファイルは 33MB で、そのテーマは 2.2MB

• クエリ 1 : 10 人に10曲(1人に一曲)のビートルズ曲を聞かせ、一番印象のある曲の部分を歌ってもらったもの(一回以上クエリを入力 ok 、合計で 131 のクエリあり)

• クエリ 2 :学生がボランティアでデータベース 2 の曲を自由に歌ったもの(合計で 165 のクエリあり)

Introduction (3/4)-MUSART Testbed とは -

• Michigan 大学と Carnegie Mellon 大学が共同研究プロジェクトに使われるデータセットのようなもの

• いろいろな QbH の手法を比較するため• クエリ集、データターゲット、分析ソフトウェア、検索ア

ルゴリズムが中に含まれ

Introduction (3/4)-MUSART Testbed とは -

クエリの前処理• あるクエリの基本周波数を 10 ms ごとにフレームとして

区切る• フレームを音符の列にするには、5つ以上のフレームを一

番近い音符の値に量子化する• ある音符が終わるというのは値が大きく変わる時と何も検

出されない時

Introduction (3/4)-MUSART Testbed とは -

ターゲット曲の前処理• MIDI ファイルが’ Theme Extractor’ というプログラムで

抽出され、そのテーマを求める

• 元々テーマは、音楽家が音楽の索引(インデクス)を作るために使われ、どこがテーマなのかを決めるには音楽知識が必要

例: http://www.multimedialibrary.com/barlow/index.asp• Theme Extractor’ はその作業を自動的に行う

Introduction (3/4)-MUSART Testbed とは -

何故テーマを抽出?• Theme Extractor が抽出するのは、ある曲の中にある一

番繰り返し数の多い音符の列で、実際の試験では手でテーマを決める結果と比べると正解率が高いと証明済

• テーマは人間が普通歌うもの• 検索対象の量を減らすため

Introduction (4/4)-MRR という実験結果を比較するために使われる値とは -

• 正確さの順で、あるクエリに対する答えのリストを評価するための統計的な値

例 :

実験とその結果 (1/9)- 紹介された手法 -

Note Interval

•文字列: <Pitch, Rhythm> として取り扱う•Pitch :相対音高 (Relative Pitch)•Ryhtm : Log IOI Ratio

• D(A,B) :: 列 A (=a1a2...am) と列 B (=b1b2...bn) の相似性 (similarity を計算し、結果のランクが求められる

• ai あるいは bj は <Pitch, Rhythm> というデータの単位のようなもの

実験とその結果 (1/9)- 紹介された手法 -

N- グラム

実験とその結果 (1/9)- 紹介された手法 -

Melodic Contour•クエリとターゲット曲の前処理に少し違いがあり:•1つのフレームは 100ms ごとに区切る•検出される音符を量子化されないので、フレームとフレームの比較は信号を比較することと同様•クエリのテンポを 0.5, 1.0, 2.0 の倍数で延ばしたりち縮じんだりする(クエリのテンポが間違っている可能性があるため)•Dynamic Time Warping (DTW) でクエリのフレームとターゲットのフレームを比較する

実験とその結果 (1/9)- 紹介された手法 -

HMM (隠れマルコフモデル )

•隠れ状態: si = <E[i], K[i], S’[i]> →

観測される値: ot = <Pitch, Rhythm> = <P[t], R[t]>

左図:普通の HMM の構造右図:ここで使われる構造

• クエリが上記の前処理で観測モデルされたら、データベスと比較される

実験とその結果 (1/9)- 紹介された手法 -

CubyHum

実験とその結果 (2/9)-MRR の比較結果 -

Search Algorithm

クエリ1の MRR

クエリ2の MRR

Note Interval 0.134 0.282

N- グラム 0.090 0.110

Melodic Interval

0.210 0.329

HMM 0.270 0.310

CubyHum 0.023 0.093

実験とその結果 (3/9)- 人工クエリを使用した場合の結果 -

実験とその結果 (4/9)-N- グラムの使用に関して -

実験とその結果 ( 5 /9)-2 段検索での N- グラム -

実験とその結果 (6/9)- 結果の感度に関する研究 -

実験とその結果 (7/9)- エラーの原因 -

• 人間が歌ったクエリは元の音楽との違いが大きい

• 50% :正確ににマッチ• 20% :部分的にマッチ• 25% :逆順番や繰り返し

が含まれるクエリからのマッチ

• 残り:マッチしない

* 正確にマッチというのは、クエリの音符と習得されたデータの音符が一致すること

実験とその結果 (8/9)- もっと大きなデータベースに向けては -

実験とその結果 (9/9)- 結論 -

• 上記にあげられたシステムはクエリのクオリティが一番結果に影響を与えることが分かった

自分の考え

• どのぐらいクエリのクオリティが悪いのか?• クエリの前処理には音高のクオリティなどを上げる

ことは可能?• ここであげられた手法(アルゴリズム)はクエリと

ターゲットのデータとマッチするかどうかは一つ一つ行われたが、クラスタ ( や indexing ?) などをすることで構造的な検索方法はないか?

参照:1.Roger B. Dannenberg, et al (2007, February 1).

“A Comparative of Search Techniques for Query-by-Humming Using the MUSART Testbed”. Journal of the American Society for Information Science and Technology 58

2.Roger B. Dannenberg, et al (2004). “The MUSART Testbed for Query-by-Humming Evaluation”. Computer Music Journal Volume 28, Number 2

3.Meek Colin, Birmingham William P. . (2001). “Thematic Extractor” ISMIR

4.Wikipedia. Mean reciprocal rank. http://en.wikipedia.org/wiki/Mean_reciprocal_rank. アクセス日 : 2011年5 月 16日

5.Wikipedia. Musical Instrument Digital Interface. http://en.wikipedia.org/wiki/Musical_Instrument_Digital_Interface. アクセス日: 2011年5月19日

ご清聴ありがとうございます