cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf ·...
TRANSCRIPT
Universitatea Tehnica din Cluj-NapocaFacultatea de Electronica si Telecomunicatii
REZUMAT AL TEZEI DE DOCTORAT
Annamaria Mesaros
Cercetari privind
elaborarea unui model
pentru caracterizarea
timbrului semnalelor muzicale
Conducator stiintific: Prof. Dr. Ing. Corneliu Rusu
Cluj-Napoca 2007
Introducere
Timbrul muzical descrie acele caracteristici care permit urechii sa distinga sunetele
diferite. Notiunea de timbru este folosita ın general pentru a include toate caracteristicile
diferite de frecventa si de intensitate [95], fara a da ınsa o lista completa a acestora.
Ca oameni, putem distinge sunetul tunetului de sunetul unei usi trantite, sunetul unei
viori fata de sunetul unui flaut, sunetul unei voci fata de o alta voce. Timbrul permite
identificarea si urmarirea sursei unui sunet, iar instrumentele muzicale le recunoastem cu
usurinta fara a avea studii muzicale de specialitate.
Vocea cantata este cel mai vechi instrument muzical, ınsa versatilitatea si puterea ei
emotionala sunt neegalabile. Prin combinatia realizata de muzica, versuri si expresie,
vocea cantata ne afecteaza ıntr-un mod special fata de celelalte instrumente. Faptul
ca muzica vocala este prezenta ın toate culturile este un indicator al apelului sau la
estetica umana. Vocea cantata penetreaza de asemenea majoritatea genurilor muzicale,
dovada a gamei largi de sunete pe care vocea umana poate sa le produca. Ca ascultatori
suntem imediat atrasi de sunetul vocii cantate, care, atunci cand este prezenta ıntr-un
cantec, devine imediat punctul principal al atentiei. Aceasta lucrare propune un studiu
al calitatilor care fac vocea cantata atat de deosebita.
Vocile individuale sunt ın mare masura distinctive si reflecta identitatea persoanei
care canta. Odata familiari cu vocea unui cantaret, putem sa ıl identificam usor ın alte
piese muzicale. Abilitatea noastra de a recunoaste vocile este independenta de muzica ın
sine, deoarece suntem capabili sa identificam cantaretii preferati chiar si ın piese pe care
nu le-am auzit niciodata. De asemenea, avem nevoie de foarte putina informatie pentru
a realiza identificarea, uneori o secunda sau doua, iar familiaritatea cu o anumita voce se
realizeaza dupa expunere redusa la aceasta [97]. Dupa ascultarea unei fraze sau a unui
vers al unui cantec, avem deja o idee suficient de completa despre caracteristicile esentiale
ale acelei voci.
Abilitatea umana de a face conexiunea ıntre sunetul unei voci si identitatea cantaretului
se bazeaza pe doua sisteme principale: sistemul auditiv uman si fiziologia aparatului vo-
cal. Data fiind importanta comunicarii vocale, nu este deloc surprinzator ca fiziologia
aparatului auditiv uman si mecanismul perceptual au evoluat spre a fi atat de specia-
2
lizate pentru vocea umana. Prin acest sistem relativ simplu din punct de vedere fizic, o
vibratie si o rezonanta, se poate produce o varietate nemasurata de sunete.
Descrierea caracterului distinctiv al unei voci este totusi dificila fara a apela la ter-
meni vagi si subiectivi (”aspra”, ”stridenta”, etc.) care nu au un corespondent obiectiv.
Calitatile vocii sunt o combinatie de factori fizici, cum ar fi marimea tractului vocal, si fac-
tori ınvatati de expresivitate, cum ar fi de exemplu accentul [91]. Cuantizarea, extragerea
si modelarea acestor trasaturi s-a dovedit a fi o problema deosebit de complicata [99].
Algoritmii standard de analiza pentru procesarea semnalelor audio nu sunt ıntotdeauna
potriviti pentru a modela vocea cantata.
In mod similar, ıntelegerea trasaturilor perceptuale care permit vocii sa penetreze
sunetele altor instrumente muzicale, este si ea dificila. Chiar identificarea prezentei vocii
ıntr-o mixtura de instrumente, lucru pe care omul ıl face din reflex, este dificil de realizat
prin metode computationale, iar aceasta dificultate se extinde si pentru alte clase de
sunete. Intr-un fel, stim mai putin despre trasaturile importante din punct de vedere
perceptual ale vocii decat stim despre modelarea aparatului vocal.
Vocea cantata prezinta o provocare deosebita datorita variatiei sale fizice atat de
ınsemnate, comparativ cu alte instrumente. Pentru a realiza pronuntia diferitelor cuvinte,
o persoana trebuie sa ısi miste maxilarul, mandibula, limba, modificand forma si deci
proprietatile mecanismului vocal [91]. Acest domeniu de variatie acustica este greu de
capturat ıntr-un model de dimensiuni mici. Nici un alt instrument nu dezvolta cantitatea
de variatie fizica a vocii umane, din aceasta cauza tehnicile de analiza a semnalului folosite
pentru alte instrumente deseori nu pot fi aplicate cu succes vocii cantate.
Aceasta teza propune un studiu al timbrului semnalelor muzicale ın vederea carac-
terizarii identitatii sursei acestora. Datorita caracteristicilor particulare ale vocii cantate,
studiul este directionat catre analiza vocii cantate si identificarea solistului unei melodii.
Studiul se bazeaza pe ipoteza ca trasaturile fizice si cele expresive, ca factori primari ın
determinarea sunetului unic al unei voci, pot fi reprezentate numeric printr-o serie de
trasaturi care sa permita distinctia vocilor ıntr-un spatiu de trasaturi, folosind tehnici de
clasificare.
3
Organizarea tezei
Prima faza a studiului consta ın identificarea si extragerea parametrilor specifici, luand
ın considerare trasaturile fizice ale vocii. Acesti parametri sunt estimati din ınregistrari ale
vocii cantate folosind tehnici clasice de prelucrare a semnalelor. In a doua faza a analizei,
parametrii sunt modelati pentru a captura variatia calitatilor vocii, folosind algoritmi de
clasificare si de ınvatare automata. Intregul procedeu de analiza este organizat conform
acestor doua etape.
In conformitate cu acestea, teza este organizata dupa cum urmeaza. Capitolul 2
prezinta informatii de baza despre trasaturile semnalelor muzicale. Acesta include o
privire de ansamblu a anatomiei si fiziologiei sistemului auditiv si a sistemului de pro-
ducere a vorbirii. Sunt prezentate de asemenea trasaturi generale ale sunetelor instru-
mentelor muzicale, precum si legatura ıntre principalele trasaturi obiective (masurabile
fizic) si subiective (perceptuale) ale semnalelor muzicale.
In capitolul 3 sunt prezentate elemente de prelucrare a semnalelor muzicale. Capitolul
include metode generale de prelucrare numerica a semnalului, precum si metode specifice
aplicabile semnalului vocal. Capitolul prezinta o descriere detaliata a metodelor folosite
ın estimarea parametrilor din ınregistrari acustice ale vocii cantate.
Capitolul 4 prezinta metode de clasificare generale ce pot fi aplicate ın clasificarea
vocilor cantate pe baza trasaturilor extrase. Capitolul introduce notiuni necesare din
prelucrarea statistica a semnalelor si metode de clasificare consacrate: functii de dis-
criminare, distante, retele neuronale, mixturi gaussiene. Se ofera de asemenea motivatia
pentru testarea mai multor clasificatoare si a mai multor seturi de trasaturi ın aceeasi
problema de clasificare.
Capitolul 5 detaliaza contributiile aduse la dezvoltarea modelului vocii cantate. Este
dezoltat ın trei directii: un studiu al corelatiei existente ıntre trasaturi extrase din spectrul
semnalului vocal, o dezvoltare a separarii componentelor modelului sursa filtru de pro-
ducere a vorbirii si clasificarea vocilor cantate pe baza coeficientilor cepstrali pe scala Mel,
considerati a fi trasaturi timbrale. Experimentele examineaza performantele metodelor si
modelelor propuse ın contextul identificarii unei voci pe baza caracterizarii sale numerice.
Capitolul 6 este dedicat concluziilor si evaluarii contributiilor autorului.
4
Contributii la dezvoltarea cercetarii ın domeniu
O contributie majora a acestei teze este studiul caracteristicilor spectrale ale vocii
cantate, ın comparatie cu instrumentele muzicale si cu vocea vorbita. Este studiata
corelatia ıntre trasaturi spectrale folosite pentru descrierea caracteristicilor vocii. Ca-
racteristicile vocii cantate sunt puternice, vocea penetreaza cu usurinta acompaniamentul
instrumental prezent ıntr-un cantec si atrage imediat atentia ascultatorului. Acest fapt
motiveaza alegerea vocii cantate ca semnal principal pentru studiul timbrului semnalelor
muzicale.
In ideea de a realiza o caracterizare completa a vocii cantate prin trasaturi exprimate
numeric, se pot combina metodele utilizate ın analiza vorbirii cu metodele utilizate ın
analiza sunetelor instrumentelor muzicale. Dinamica vocii cantate este diferita de cea a
vocii vorbite [91]. Partile ce constituie note sustinute ın vocea cantata sunt asemanatoare
cu sunetele instrumentelor muzicale. In studiul instrumentelor muzicale au aparut tehnici
de prelucrare specifice care tin cont de particularitatile semnalului. Primele studii cu
rezultate notabile ın identificarea instrumentelor muzicale prin prelucrarea semnalului
sonor au fost facute pe tonuri izolate si pe seturi constand dintr-un numar redus de
instrumente [37]. Cele mai des folosite trasaturi sunt coeficientii cepstrali calculati prin
diferite metode [7], [12], [42]. Alte seturi de trasaturi includ caracteristici spectrale si
temporale masurabile din semnalul analizat [38].
Ca prim pas ın analiza vocii cantate am ales studierea spectrului acesteia. Am calculat
ın acest scop trasaturi spectrale definite ın literatura de specialitate: centroidul spectral,
iregularitatea spectrala, tristimulus, raportul ıntre efectul armonicelor pare si impare.
Aceste trasaturi au fost studiate de diferiti autori ın contextul sintezei sunetelor instru-
mentelor muzicale si au fost folosite cu succes ın discriminarea instrumentelor [30]. Anal-
iza ın detaliu a evolutiei acestor trasaturi ın functie de frecventa a determinat obtinerea
unor sunete sintetizate cu sunet natural. Vocea cantata nu a fost un subiect important
ın [30], scopul autorului fiind caracterizarea sunetelor instrumentelor muzicale pentru o
sinteza naturala. Autorul aminteste doar ca trasaturile calculate pentru vocea cantata
soprano nu au aceleasi proprietati ca cele calculate ın cazul instrumentelor muzicale stu-
diate.
5
Aceasta teza completeaza studiul sunetelor instrumentelor muzicale prin adaugarea
vocii cantate ca instrument studiat ın contextul determinarii unei caracterizari numerice a
spectrului acesteia. In acest sens, sectiunea 2 din capitolul 5 al tezei prezinta amanuntit
estimarea trasaturilor spectrale definite ın literatura de specialitate, calculate pentru
vocea cantata. Studiul foloseste voci diferite cantand aceeasi fraza muzicala. Scopul
studiului este combinarea tehnicilor de prelucrare a semnalului cu cunostinte privind
teoria muzicala si tehnicile de antrenare a vocii, pentru a analiza si a explica dependentele
ıntre diversi factori ce caracterizeaza identitatea vocii cantate.
Este prezentata definirea trasaturilor spectrale folosite ın acest studiu, conform au-
torilor din domeniu. Metodele de calcul a acestora sunt descrise amanuntit, ıncepand
cu preprocesarea semnalului. Dupa o detectie generala sonor/nesonor cu decizie bazata
pe valoarea energiei semnalului, portiunile sonore sunt analizate ın frecventa. Spectrul
semnalului este calculat folosind transformata Fourier, urmata de ajustari necesare de-
terminarii pozitiei exacte a armonicelor extrase. Structura armonica a ıntregului semnal
constituie o matrice de valori de amplitudine indexata ın frecventa. Dupa obtinerea
descrierii structurii armonice a semnalului, trasaturile definite se calculeaza pe baza for-
mulelor. Variatia ın timp a trasaturilor este analizata din punct de vedere al corelatiei
ıntre marimile calculate folosind coeficientul de corelatie Spearman.
Rezultatele obtinute indica o dependenta importanta ıntre valorile trasaturilor spec-
trale analizate si modul de articulatie, mai exact pozitionarea formantilor. Cantaretii
profesionisti ısi antreneaza vocea ın functie de mai multe elemente legate de fiziologie
si teorie muzicala. Astfel, pozitia primului formant este dependenta de frecventa fun-
damentala. Vocile soprano pozitioneaza primul formant cel putin la valoarea frecventei
fundamentale, care deseori depaseste valorile normale definite pentru formant ın vorbire.
Calitatea vocii este determinata de formantii mai ınalti, deoarece formantii F1 si F2
au pozitii limitate pentru inteligibilitate. Pozitia primului formant influenteaza puternic
trasaturile studiate. Astfel, aceste trasaturi nu pot fi folosite pentru discriminarea vocilor
cantate ın acelasi fel ın care sunt folosite ın discriminarea instrumentelor muzicale. O
explicatie plauzibila pentru aceasta este faptul ca ın cazul vocii umane, legatura dintre
frecventa fundamentala si formanti nu este atat de stransa ca ın cazul instrumentelor
muzicale. Primul formant are o pozitie influentata de frecventa fundamentala, ınsa ın
6
principiu regiunile formantice sunt caracteristice vocalei rostite [81]. In instrumentele
muzicale, rezonantele se stabilesc la multiplii ıntregi ai frecventei fundamentale, datorita
constructiei acestora [95].
Formantii caracterizeaza forma tractului vocal, raspunsul acestuia la frecventa. In
mecanismul de producere a vorbirii sunt implicate doua parti ce au fost ıntotdeauna
analizate separat: unda glotala ca semnal sursa si tractul vocal ca filtru ce modifica
semnalul sursa pentru a produce semnalul vocal. Acesta este semnalul acustic la iesirea
sistemului. Forma undei glotale ofera informatii importante despre starea de sanatate a
vorbitorului, alaturi de informatii legate de identitatea acestuia.
Contributia acestei teze la caracterizarea componentelor modelului sursa-filtru al vor-
birii este prezentata ın sectiunea 3, capitolul 5. In aceasta directie, teza propune doua
metode de determinare a fazei glotale ınchise folosind numai informatia oferita de sem-
nalul acustic.
Obtinerea formei de unda glotale este teoretic simpla: avand dat modelul de produ-
cere a vorbirii, se poate construi sistemul invers. Semnalul acustic trebuie filtrat printr-un
filtru invers celui ce modeleaza comportamentul tractului vocal. Tractul vocal este mo-
delat ın analiza semnalului vocal printr-un filtru numai cu poli, ai carui parametri se
obtin prin predictie liniara, algoritm prezentat ın capitolul 3 al tezei.
Un ciclu glotal este alcatuit din doua faze: perioada cat glota este ınchisa si perioada
deschisa. In timpul unui ciclu glotal complet, caracteristicile sistemului se schimba. Cat
timp glota este ınchisa, tractul vocal se comporta ca un tub ınchis la un capat iar semnalul
vocal consta ın rezonantele libere ale acestuia. Cand glota este deschisa, traheea, coardele
vocale si tractul vocal sunt cuplate acustic, cuplajul fiind neliniar [83]. Caracteristicile
sistemului ın faza deschisa sunt dependente de semnal.
Rezonantele libere din faza ınchisa pot fi modelate printr-un filtru numai cu poli.
Pentru faza deschisa, cuplajul neliniar introduce poli si zerouri ın functia de transfer,
pentru modelarea deplasarii si a atenuarii accentuate a formantilor [90]. Daca analiza prin
predictie liniara este realizata pe un numar de cicluri glotale consecutive, caracteristicile
determinate pentru sistem vor fi o mediere a caracteristicilor din perioada ınchisa si din
perioada deschisa. Estimarea caracteristicilor sistemului strict ın perioada glotala ınchisa
ofera acuratete ın caracterizarea obiectiva a sistemului, modelul obtinut pentru filtru fiind
7
mai exact [98].
In aplicatiile realizate ın cercetare medicala, deodata cu semnalul acustic se ınregistrea-
za un semnal de la electroglotograf (EGG), ca informatie suplimentara. In semnalul EGG,
momentele de ınchidere a glotei pot fi determinate cu usurinta. Perioada glotala ınchisa
poate fi de asemenea estimata ın acest semnal. Dupa etichetare manuala a acesteia, se
poate construi filtrul invers pentru obtinerea undei glotale. Prin filtrarea semnalului vo-
cal prin filtrul invers estimat, se obtine unda glotala care poate fi apoi parametrizata.
Inregistrarea EGG nu este posibila ın afara laboratorului, astfel ca este necesara o metoda
numerica de estimare automata a fazei glotale ınchise folosind numai semnalul vocal.
O abordare pas cu pas a acestei probleme este determinarea momentului de ınchidere
a glotei, estimarea fazei glotale ınchise, apoi filtrarea inversa. Teza propune o metoda
de localizare a fazei ınchise a glotei folosind informatie oferita de variatia frecventei
formantilor. Pentru detectia momentului de ınchidere a glotei sunt utilizate doua metode
numerice ıntalnite ın studiile realizate de alti autori, ıntarzierea medie de grup si norma
Frobenius a matricii de covarianta, calculate din semnalul vocal [1], [50], [99].
Unii autori considera un coeficient de ınchidere prestabilit dupa detectia momentului
de ınchidere a glotei, luand ın considerare ca faza glotala ınchisa o portiune presta-
bilita, imediat urmatoare momentului de ınchidere detectat [1], [50]. Aceasta varianta
este lipsita de acuratete. Vocile ınalte, ın general vocea vorbita feminina si ın special
vocea cantata, pot avea faza glotala ınchisa foarte scurta. In cazul vocilor patologice,
se ıntampla de asemenea ca glota sa ınceapa sa se deschida imediat dupa ınchidere. In
asemenea cazuri nu exista o perioada ınchisa propriu-zisa. Pentru a determina exact pe-
rioada glotala ınchisa, prima metoda propusa foloseste modulatia prezenta ın traiectoria
formantilor, dupa cum urmeaza.
In faza glotala ınchisa, tractul vocal se comporta ca un tub, rezonantele fiind libere
si stabile. Frecventele formantilor sunt relativ constante, iar amplitudinea lor este mare.
In faza glotala deschisa, datorita cuplajului neliniar, sistemul ısi schimba caracteristicile.
Frecventele formantilor pot avea salturi importante, de asemenea va apare o atenuare
puternica a acestora de la o frecventa la alta [1]. Aceasta schimbare a proprietatilor
sistemului este deosebit de evidenta ın traiectoria primului si a celui de-al treilea formant
[90].
8
Tractul vocal este modelat ca un sistem liniar invariant ın timp a carui functie de
transfer contine numai poli. Pentru determinarea functiei de transfer se foloseste un
model autoregresiv, din care se pot calcula polii corespunzatori rezonantelor, respectiv
frecventele formantilor. Repetarea acestui calcul la fiecare esantion ofera variatia ın timp
a frecventei formantilor. Faza glotala ınchisa poate fi estimata din traiectoria formantu-
lui ca fiind alcatuita din acele esantioane consecutive care rezulta ıntr-o valoare relativ
constanta a frecventei primului formant, analiza fiind realizata prin deplasarea esantion
cu esantion a ferestrei de analiza. Determinarea acestei portiuni se face iterativ, pornind
de la un moment de ınchidere a glotei, prin includerea esantioanelor consecutive conform
unui prag predeterminat de variatie maxima permisa a frecventei.
Metoda propusa da rezultate bune pentru vocea cantata la frecvente relativ joase.
Pentru vocile ınalte este necesara regandirea algoritmului din punct de vedere a analizei
formantilor. Pentru a determina frecventa formantilor cu acuratete, algoritmul necesita
o fereastra de analiza cat mai mare. Din considerente de reprezentare numerica, legate
de frecventa de esantionare, vocile ınalte pot avea faza glotala ınchisa reprezentata prin
doar cateva esantioane, insuficienta pentru modelarea fara erori a tractului vocal. Astfel,
folosirea modulatiei formantilor este inutila, deoarece nu exista siguranta estimarii corecte
a acestora.
Pe baza observatiilor ın urma simularilor realizate conform metodei propuse, pentru
vocea cantata puternica apare o metoda simpla de estimare a fazei ınchise. Conform
simularilor, rezulta ca norma Frobenius a matricii de covarianta a semnalului vocal ofera
informatie suficienta pentru detectarea fazei glotale ınchise, daca fereastra de analiza este
pozitionata ın mod corespunzator. Ambele metode necesita ınsa interventia umana ın
stabilirea ferestrei de analiza. Metoda nu poate fi automatizata, fiind dependenta de
natura semnalului analizat.
O a treia contributie importanta a acestei teze este construirea unor sisteme de
identificare a cantaretului ın ınregistrari monofonice. Teza propune folosirea diferitelor
combinatii de coeficienti cepstrali ın identificare. Coeficientii cepstrali sunt un set de
trasaturi raportate ca fiind robuste ın diferite aplicatii de identificare ın ceea ce priveste
vocea. Sunt trasaturile cu cel mai mare succes ın identificarea vorbitorului si sunt folosite
de asemenea si ın recunoasterea vorbirii. Odata cu dezvoltarea aplicatiilor muzicale,
9
coeficientii cepstrali s-au dovedit a fi folositori si pentru identificarea instrumentelor muz-
icale [7], [12].
Sistemele uzuale de identificare a vorbitorului bazate pe coeficienti cepstrali folosesc
doar informatia despre tractul vocal, continuta ın coeficientii de ordin inferior. Vocea
cantata are un domeniu de variabilitate a parametrilor mult mai mare decat vocea vorbita,
ıncepand cu variabilitatea deosebit de mare a frecventei fundamentale care poate atinge
si 1200 Hz la vocile soprano, pana la controlul modului de articulatie care determina
modificarea structurii formantice a sunetelor fata de vorbire. Din acest motiv, studiul
propune o identificare a vocilor folosind atat setul de coeficienti cepstrali inferiori, cat
si o varianta folosind coeficienti de ordin superior, care caracterizeaza variatia sursei
sunetului.
O prima faza a studiului este verificarea informatiei legate de identitate, ın ce masura
aceasta este continuta ın coeficientii de ordin superior. Desi toate studiile anterioare
au folosit mereu doar coeficientii de ordin inferior, am considerat ca exista posibilitatea
caracterizarii vocii prin trasaturi legate de sursa acesteia. Rezultatele experimentelor
demonstreaza ca ın unele cazuri coeficientii cepstrali de ordin superior pot fi mai eficienti
ın caracterizarea identitatii vocii [65]. Experimentele folosesc un set de 30 coeficienti
cepstrali calculati pe scala Mel si ıi ımparte ın doua seturi de cate 15. Etapa de identificare
a fost realizata folosind retele neuronale. Pe baza acestor rezultate, teza propune cateva
metode de construire a unor sisteme de identificare a vocii cantate solo.
Retelele neuronale sunt o unealta puternica ın aplicatiile de clasificare, ınsa rezultatele
sunt destul de greu de evaluat datorita lipsei oricarei informatii despre metodologia de
decizie a acestora. Exista algoritmi de clasificare puternici, tractabili matematic. Din
randul acestora, am utilizat ın construirea sistemelor de identificare functii de discri-
minare liniare si patratice, regula celui mai apropiat vecin pe baza distantelor si mixturi
gaussiene.
Rezultatele obtinute folosind diferite metode de clasificare variaza de la 50% la 100%
rata de identificare corecta. Pentru a permite generalizarea rezultatelor, toate expe-
rimentele de identificare au fost realizate folosind metoda de validare m-fold, conform
motivatiei date ın finalul capitolului 4 pentru alegerea unui clasificator. In acest scop,
am realizat 4 ımpartiri diferite a datelor disponibile ın set de antrenare a sistemului de
10
clasificare si set de testare. Metoda ne asigura ca nu folosim ın testare date comune
cu cele folosite ın antrenare. Asfel, fiecare melodie a fost pe rand exclusa din setul de
antrenare pentru a fi folosita ın testare.
Metodele de clasificare testate includ functii de discriminare liniare si patratice, distante
si modele de mixturi gaussiene. Cea mai puternica metoda de clasificare se dovedeste a a
fi cea probabilistica, modelele folosind mixturi gaussiene si decizie pe baza verosimilitatii
maxime. In functie de numarul de componente utilizate ın construirea modelelor, sistemul
ofera acuratete de pana la 100% ın configuratii particulare ale setului de antrenare/testare,
cu o performanta medie de peste 90%.
Lucrari reprezentative ın domeniu sunt [63], [56], [61], [64], [65], [67], [68], [69], alaturi
de rapoarte de cercetare si referate de specialitate.
Concluzii
Aceasta teza prezinta un studiu al caracteristicilor semnalelor muzicale ın contex-
tul identificarii sursei semnalului pe baza timbrului muzical. Principalul semnal studiat
este vocea cantata, datorita complexitatii caracteristicilor sale spectrale. Teza prezinta
e-lementele legate de perceptie si mod de producere a vorbirii, acestea fiind elemente
definitorii ale metodelor de prelucrare folosite. Sunt prezentate metodele de analiza si
metode specifice aplicabile semnalului vocal.
O contributie a acestei teze la dezvoltarea cercetarii ın domeniu este studiul caracte-
risticilor spectrale ale vocii cantate, ın comparatie cu instrumentele muzicale si cu vocea
vorbita. Se remarca o dependenta puternica fata de pozitia primului formant a tuturor
trasaturilor spectrale. Pentru inteligibilitatea vorbirii este important ca formantii sa aiba
anumite pozitii ın frecventa. In vocile ınalte, este necesara ajustarea pozitiei formantilor
ın mod controlat, acesta fiind un rezultat al educarii muzicale a vocii.
O alta contributie este adusa la separarea caracteristicilor vocii ın cele doua compo-
nente implicate ın producerea vorbirii: unda glotala si tractul vocal. Pentru obtinerea
undei glotale prin filtrare inversa, teza propune doua metode numerice de estimare a fazei
glotale ınchise. O metoda se bazeaza pe modulatia formantilor ın cursul unui ciclu glotal
complet, acestia avand frecvente stabile ın perioada glotala ınchisa. A doua metoda se
11
bazeaza pe determinarea maximelor locale ın norma Frobenius a matricii de covarianta
a semnalului.
Ca alta contributie, teza propune si primul pas ın construirea unui sistem de identifi-
care a solistului, introducand construirea unor sisteme de identificare monofonice. Sunt
folosite ınregistrari solo ale vocilor pentru a realiza identificarea automata a solistului.
Sistemele construite realizeaza performante de pana la 100% ın identificare.
Teza trateaza o problema particulara interesanta: ce trasaturi definesc sunetul unic
al vocii unui cantaret? Succesul limitat al modelelor si metodelor propuse nu este usor de
evaluat ın mod obiectiv. Cu un set limitat de date de antrenare, metodele propuse sunt
suficient de performante ın a trasa distinctii ıntre voci diferite si pentru a captura trasaturi
importante pentru definirea identitatii vocii, ınsa nu permit generalizarea rezultatelor.
Viitorul acestui domeniu de cercetare este ınca deschis.
12
Bibliografie
[1] T.V. Ananthapadmanabha and B. Yegnanarayana. Epoch extraction from linear
prediction residualfor identification of closed glottis interval. IEEE Transactions
on Acoustics, Speech and Signal Processing, ASSP-27(4), 1979.
[2] J. Barnes, P. Davis, J. Oates, and J. Chapman. The relationship between profes-
sional operatic soprano voice and high range spectral energy. The Journal of the
Acoustical Society of America, 116(1), 2004.
[3] Mark Bartsch. Automatic singer identification in polyphonic music. PhD thesis,
Universiy of Michigan, 2004.
[4] A. Berenzweig and D. Ellis. Locating singing voice segments within music signals. In
Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics
(WASPAA), 2001.
[5] Adam Berenzweig, Dan Ellis, and Steve Lawrence. Using voice segments to im-
prove artist classification of music. In AES 22nd International Conference, Espoo,
Finland, 2002.
[6] J. Bonada, O. Celma, A. Loscos, J. Ortol, and X. Serra. Singing voice synthe-
sis combining excitation plus resonance and sinusoidal plus residual models. In
Proceedings of International Computer Music Conference, 2001.
[7] J. C. Brown. Computer identification of musical instruments using pattern recog-
nition with cepstral coefficients as features. The Journal of the Acoustical Society
of America, 105, 1999.
13
[8] R. Dannenberg and N. Hu. Pattern discovery techniques for music audio. In
International Conference on Music Information Retrieval ISMIR, Paris, France,
2002.
[9] Diana Deutsch. Psychology and music. Psychology and its Allied Disciplines, 1984.
[10] W. D’haes, D. Van Dyck, and X. Rodet. Discrete cepstrum coefficients as perceptual
features. In Proc. of the ICMC, 2003.
[11] R. O. Duda, P. E. Hart, and D. G. Stork. Pattern Classification. John Wiley and
Sons, Inc., New York, 2000.
[12] A. Eronen and A.; Klapuri. Musical instrument recognition using cepstral coeffi-
cients and temporal features. IEEE International Conference on Acoustics, Speech,
and Signal Processing, 2, 2000.
[13] J. Foote. Content-based retrieval of music and audio. In Multimedia Storage and
Archiving Systems II, Proceedings of SPIE, 1997.
[14] Jonathan Foote. An overview of audio information retrieval. Multimedia Systems,
7(1), 1999.
[15] S.E. Fredrickson and L. Tarassenko. Text-independent speaker recognition using
neural network techniques. Fourth International Conference on Artificial Neural
Networks, June 1995.
[16] D. Gerhard. Audio signal classification: an overview. In Canadian Artificial Intel-
ligence, 45:4–6., 2000.
[17] D. Gerhard. Pitch-based acoustic feature analysis for the discrimination of speech
and monophonic singing. In Journal of the Canadian Acoustical Association, CAA,
2002.
[18] M. Goodwin and M. Vetterli. Time-frequency signal models for music analysis,
transformation, and synthesis. In Proceedings of the IEEE-SP International Sym-
posium on Time-Frequency and Time-Scale Analysis, 1996.
14
[19] Mary Harper. Introducing speech and language processing. Comput. Linguist.,
32(1), 2006.
[20] S. Hayakawa and F. Itakura. Text-dependent speaker recognition using the infor-
mation in the higher frequency band. IEEE International Conference on Acoustics,
Speech, and Signal Processing, 1, 1994.
[21] Monson Hayes. Schaum’s outline of theory and problems of digital signal processing.
McGraw-Hill, New York, 1999.
[22] Simon Haykin. Neural Networks: A Comprehensive Foundation. Prentice-Hall,
1998.
[23] H.L.F. Helmholtz. On the Sensations of Tone as a Physiological Basis for the
Theory of Music. Dover Publications, 1954.
[24] N. Henrich. Etude de la Source Glottique en Voix Parlee et Chantee: Modelisation et
Estimation, Mesures Acoustiques et Electroglottographiques. PhD thesis, Universite
Paris 6, 2001.
[25] P. Herrera. Setting up an audio database for music information retrieval bench-
marking. In Proceedings of ISMIR 2002 - 3rd International Conference on Music
Information Retrieval, Paris, France, 2002.
[26] Zhihong Hu and Etienne Barnard. Efficient estimation of perceptual features for
speech recognition. In Proc. Eurospeech ’97, Rhodes, Greece, 1997.
[27] Naoki Itou and Kazushi Nishimoto. A voice-to-midi system for singing melodies
with lyrics. In ACE ’07: Proceedings of the international conference on Advances
in computer entertainment technology, Salzburg, Austria, 2007.
[28] Jyh-Shing Roger Jang and Hong-Ru Lee. Hierarchical filtering method for content-
based music retrieval via acoustic input. In MULTIMEDIA ’01: Proceedings of the
ninth ACM international conference on Multimedia, Ottawa, Canada, 2001.
[29] K. Jensen. Envelope model of isolated musical sounds. In Proceedings of the 2nd
COST G-6 Workshop on Digital Audio Effects (DAFx99), Dec. 1999., 1999.
15
[30] K. Jensen. Timbre models of musical sounds: from the model of one sound to the
model of one instrument. Phd. dissertation, DIKU, 1999.
[31] K. Jensen. The timbre model. In Proc. Workshop on current research directions in
computer music,, 2001.
[32] T. Joachims. Making large-Scale SVM Learning Practical. Advances in Kernel
Methods - Support Vector Learning. B. Schlkopf and C. Burges and A. Smola (ed.),
MIT-Press, 1999.
[33] E. Joliveau, J. Smith, and J. Wolfe. Vocal tract resonances in singing: the soprano
voice. J. Acoust. Soc. America, 116, 2004.
[34] Steven M. Kay. Fundamentals of Statistical Signal Processing: Estimation Theory.
Prentice-Hall, 1993.
[35] A. Klapuri. Signal processing methods for the automatic transcription of music.
PhD thesis, Tampere University ofTechnology, 2004.
[36] A. Klapuri and M. Davy (Editors). Signal Processing Methods for Music Transcrip-
tion. Springer, New York, 2006.
[37] B. Kostek and A. Czyzewski. Representing musical instrument sounds for their
automatic classification. J. Audio Eng. Soc, 49(9), 2001.
[38] R. Kronland-Martinet, Ph. Guillemain, and S. Ystad. Timbre modeling and
analysis-synthesis of sounds. Technical report, MOSART midterm meeting.
[39] T. Li and M. Ogihara. Detecting emotion in music. Technical report, Johns Hopkins
University, 2003.
[40] Mingchun Liu and Chunru Wan. Feature selection for automatic classification of
musical instrument sounds. In JCDL ’01: Proceedings of the 1st ACM/IEEE-CS
joint conference on Digital libraries, Roanoke, Virginia, United States, 2001.
[41] B. Logan and A. Salomon. A content-based music similarity function. Technical
report, Compaq Cambridge Research Laboratory, 2001.
16
[42] Beth Logan. Mel frequency cepstral coefficients for music modeling. In Proceedings
of the First International Symposium on Music Information Retrieval (ISMIR),
Plymouth, Massachusetts, 2000.
[43] E. Lupu, A. Mesaros, and A.F. Suciu. Microprocessors - Architectures and Appli-
cations. Risoprint, Cluj-Napoca, 2003.
[44] Eugen Lupu and Petre G. Pop. Prelucrarea numerica a semnalului vocal. Risoprint,
Cluj-Napoca, 2004.
[45] C. Ma, Y. Kamp, and L.F. Willems. A Frobenius norm approach to glottal clo-
sure detection from the speech signal. IEEE Transactions on Speech and Audio
Processing, 2(2), 1994.
[46] A.T. Mafra and M.G. Simoes. Text independent automatic speaker recognition
using selforganizing maps. 39th IAS Annual Meeting Conference Record of the
Industry Applications Conference, 3, 2004.
[47] J. Marques and P. Moreno. A study of musical instrument classification using gaus-
sian mixture models and support vector machines. Technical report, Cambridge,
US, 1999.
[48] K. Martin. Musical instrument identification: A pattern-recognition approach. In
136 th meeting of the Acoustical Society of America., 1998.
[49] K. Martin. Sound Source Recognition: A Theory and Computational Model. PhD
thesis, MIT, 1999.
[50] M.R. Matausek and V.S. Batalov. A new approach to the determination of the
glottal waveform. IEEE Transactions on Acoustics, Speech and Signal Processing,
ASSP-28(6), 1980.
[51] Martin F. McKinney and Jeroen Breebaart. Features for audio and music classifi-
cation. In Proceedings of the 4th International Conference on Music Information
Retrieval, 2003.
17
[52] Rodger J. McNab, Lloyd A. Smith, Ian H. Witten, Clare L. Henderson, and Sally Jo
Cunningham. Towards the digital music library: tune retrieval from acoustic in-
put. In DL ’96: Proceedings of the first ACM international conference on Digital
libraries, Bethesda, Maryland, United States, 1996.
[53] A. Mesaros. Contributii la elaborarea unui model privind caracterizarea timbrului
semnalelor muzicale - raport faza unica an 1. Technical report, Grant CNCSIS tip
TD, 2004.
[54] A. Mesaros. Trasaturi obiective si subiective ale semnalelor muzicale - referat I.
Technical report, Universitatea Tehnica Cluj-Napoca, 2004.
[55] A. Mesaros. Contributii la elaborarea unui model privind caracterizarea timbrului
semnalelor muzicale - raport faza unica an 2. Technical report, Grant CNCSIS tip
TD, 2005.
[56] A. Mesaros. Modelarea individualitatii vocii cantate prin coeficienti cepstrali si
retele neuronale. Workshop Verificatori Biometrici, 2005.
[57] A Mesaros. Singing voice identity characterization. Technical report, CIMO schol-
arship final report, Tampere University of Technology, 2005.
[58] A. Mesaros. Caracteristici acustice si estetice ale semnalelor muzicale - referat II.
Technical report, Universitatea Tehnica Cluj-Napoca, 2006.
[59] A. Mesaros. Cercetari privind timbrul semnalelor muzicale - referat III. Technical
report, Universitatea Tehnica Cluj-Napoca, 2006.
[60] A. Mesaros. Contributii la elaborarea unui model privind caracterizarea timbrului
semnalelor muzicale - raport final. Technical report, Grant CNCSIS tip TD, 2006.
[61] A. Mesaros. Estimation of closed glottis phase in professional singing voice using
the frobenius norm. Analysis of Biomedical Signals and Images, Proceedings of 18th
Biennial International EURASIP Conference Biosignal 2006, 2006.
[62] A. Mesaros. On the use of genetic algorithms in molecular modeling. International
Conference on Computers, Communications and Control, ICCCC, 2006.
18
[63] A. Mesaros. Spectrum characteristics of singing voice signals and their usefulness in
singer identification. 6th Communications International Conference, COMM2006,
2006.
[64] A. Mesaros and J. Astola. Inter-dependence of spectral measures for the singing
voice. In International Symposium on Signals, Circuits and Systems, Iasi, Romania,
2005.
[65] A. Mesaros and J. Astola. The mel-frequency cepstral coefficients in the context of
singing voice. International Conference on Music Information Retrieval, 2005.
[66] A. Mesaros and E. Lupu. Musical instrument class identification using cepstral
coefficients derived from a constant Q transform. Acta Technica Napocensis, 45/1,
2004.
[67] A. Mesaros and E Lupu. Closed phase detection in the singing voice using infor-
mation about formant frequencies during one glottal cycle. In Proceedings of 10th
International Conference on Speech and Computer, Patras, Greece, 2005.
[68] A. Mesaros and S. Moldovan. Methods for singing voice identification using energy
coefficients as features. 2006 IEEE-TTTC International Conference on Automa-
tion, Quality and Testing, Robotics AQTR 2006 (THETA 15), 2006.
[69] A. Mesaros and S. Moldovan. Methods for singing voice identification using energy
coefficients as features, acceptata pentru publicare. Acta Technica Napocensis, 48/3,
2007.
[70] A. Mesaros, S. Moldovan, and E. Lupu. Band decomposition of voice signals using
wavelets defined from fractional B-spline functions. 48-th International Symposium
ELMAR-2006 focused on Multimedia Signal Processing and Communications, 2006.
[71] A. Mesaros and C. Rusu. An exploration of singing voice individuality. Analy-
sis of Biomedical Signals and Images, Proceedings of 17th Biennial International
EURASIP Conference Biosignal 2004, 2004.
19
[72] A. Mesaros, C. Rusu, and E. Lupu. Singing voice features by time-frequency rep-
resentations. 3rd International Symposium on Image and Signal Processing and
Analysis, ISPA 2003, 1, 2003.
[73] A. Mesaros, T. Virtanen, and A. Klapuri. Singer identification in polyphonic music
using vocal separation and pattern recognition methods, acceptata pentru publi-
care. International Conference on Music Information Retrieval, 2007.
[74] S. Molau, M. Pitz, R. Schluter, and H. Ney. Computing melfrequency cepstral
coefficients on the power spectrum. In Proc. Int. Conf. on Acoustic, Speech and
Signal Processing, Salt Lake City, UT, 2001.
[75] I. Nafornita, A. Campeanu, and A. Isar. Semnale, circuite si sisteme, partea I.
Universitatea Politehnica Timisoara, 1995.
[76] R. Neumayer, T. Lidy, and A. Rauber. Content-based organization of digital audio
collections. In 5th Open Workshop of MUSICNETWORK, 2005.
[77] Tin Lay Nwe and Haizhou Li. Exploring vibrato-motivated acoustic features for
singer identification. IEEE Transactions on Audio, Speech and Language Process-
ing, 15(1), 2007.
[78] Tin Lay Nwe, Arun Shenoy, and Ye Wang. Singing voice detection in popular
music. In MULTIMEDIA ’04: Proceedings of the 12th annual ACM international
conference on Multimedia, New York, NY, USA, 2004.
[79] William Oliver, John Yu, and Eric Metois. The singing tree:: design of an interactive
musical interface. In DIS ’97: Proceedings of the conference on Designing interactive
systems, Amsterdam, The Netherlands, 1997.
[80] E. Pampalk, S. Dixon, and G. Widmer. On the evaluation of perceptual similarity
measures for music. In Proceedings of the 6th International Conference on Digital
Audio Effects, 2003.
[81] L. Rabiner and B-H. Juang. Fundamentals of speech recognition. PTR Prentice
Hall, Englewood Cliffs, New Jersey, 1993.
20
[82] X. Rodet. Synthesis and processing of the singing voice. In Proc. 1st IEEE Benelux
Workshop on Model based Processing and Coding of Audio (MPCA-2002., 2002.
[83] M. Rothenberg. Research aspects of singing. Royal Swedish Academy of Music,
1981.
[84] P. Satyanarayana Murthy and B. Yegnanarayana. Robustness of group delay based
methods for extraction of significant instants of excitation from speech signals.
IEEE Transactions on Speech and Audio Processing, 7(6), 1999.
[85] J. R. Sawusch. Effects of duration and formant movement on vowel perception. In
Proc. ICSLP ’96, volume 4, Philadelphia, PA, 1996.
[86] Diemo Schwarz and Xavier Rodet. Spectral Envelope Estimation and Representa-
tion for Sound Analysis-Synthesis. In Proceedings of the International Computer
Music Conference (ICMC), Beijing, China, 1999.
[87] H. Seddik, A. Rahmouni, and M. Sayadi. Text independent speaker recognition
using the mel frequency cepstral coefficients and a neural network classifier. First
International Symposium on Control, Communications and Signal Processing, 2004.
[88] H. W. Strube. Determination of the instant of glottal closure from the speech wave.
Journal of Acoustical Society of America, 56, 1974.
[89] F. Sun, B. Li, and H. Chi. Some key factors in speaker recognition using neural
networks approach. IEEE International Joint Conference on Neural Networks, 3,
1991.
[90] J Sundberg. Research on the singing voice in retrospect. TMH-QPSR Speech, Music
and Hearing, 45, 2003.
[91] Johan Sundberg. The Science of the Singing Voice. Northern Illinois University
Press, 1987.
[92] D Tarniceriu. Bazele prelucrarii numerice a semnalelor. Vasiliana, Iasi, 2001.
21
[93] I.R. Titze. A theoretical study of F0-F1 interaction with application to resonant
speaking and singing voice. Journal of Voice, 18(3), 2003.
[94] G. Toderean and A. Caruntu. Metode de recunoastere a vorbirii. Risoprint, Cluj-
Napoca, 2005.
[95] Dem Urma. Acustica si muzica. Editura Stiintifica si Enciclopedica, 1982.
[96] T. Viitaniemi, A. Klapuri, and A. Eronen. A probabilistic model for the transcrip-
tion of single-voice melodies. In Proceedings of The 2003 Finnish Signal Processing
Symposium, Finsig’03, Tampere, Finland, 2003.
[97] G. H. Wakefield and M. A. Bartsch. Where’s Caruso? Singer identification by
listener and machine. In Cambridge University Music Processing Colloquium, 2003.
[98] B. Yegnanarayana and H. A. Murthy. Significance of group delay functions in
spectrum estimation. IEEE Transactions on Signal Processing, 40(9), 1992.
[99] B. Yegnanarayana and R.N.J. Veldhuis. Extraction of vocal tract system charac-
teristics from speech signals. IEEE Transactions on Speech and Audio Processing,
6(4), 1998.
[100] Chi Lap Yip and Ben Kao. A study of musical features for melody databases. In
Database and Expert Systems Applications, 1999.
[101] E.K. Youngmoo. Singing voice analysis/synthesis. PhD thesis, Massachusetts in-
stitute of Technology, 2003.
[102] Yongwei Zhu, Kai Chen, and Qibin Sun. Multimodal content-based structure anal-
ysis of karaoke music. In MULTIMEDIA ’05: Proceedings of the 13th annual ACM
international conference on Multimedia, Hilton, Singapore, 2005.
22
Curriculum Vitae – Mesaros Annamaria
Noiembrie 2007
Cluj-Napoca Annamaria Mesaroş Data naşterii: 13.03.1978
Locul naşterii: Baia Mare, Romania
email: [email protected]
Educaţie: 2006 – 2007 – Doctorand
Institute of Signal Processing, Tampere University of Technology, Tampere, Finland
2005 – 2006 – Asistent universitar, Catedra de Comunicaţii Doctorand domeniul Inginerie Electronică şi Telecomunicaţii
Facultatea de Electronică, Telecomunicaţii şi Tehnologia Informaţiei, Universitatea Tehnică Cluj-Napoca, Romania
2002 – 2005 – Preparator universitar, Catedra de Comunicaţii Doctorand domeniul Inginerie Electronică şi Telecomunicaţii
Facultatea de Electronică, Telecomunicaţii şi Tehnologia Informaţiei, Universitatea Tehnică Cluj-Napoca, Romania
2001 – 2002 – Studii aprofundate, Tehnici Moderne în Telecomunicaţii
Facultatea de Electronică, Telecomunicaţii şi Tehnologia Informaţiei, Universitatea Tehnică Cluj-Napoca, Romania
2001 – Absolventă Secţia Reţele Digitale în Telecomunicaţii
Facultatea de Electronică, Telecomunicaţii şi Tehnologia Informaţiei, Universitatea Tehnică Cluj-Napoca, Romania
Arii de interes: Prelucrarea numerică a semnalelor, Semnale muzicale, Vocea umană, Percepţie auditivă
Curriculum Vitae – Mesaros Annamaria
Activitate de cercetare: Burse de cercetare în străinătate: Din Nov 2006 – Tampere University of Technology, Tampere, Finland, GETA (Graduate School in Electronics, Telecommunications and Automation, Helsinki, Finland), 4 ani Sept 2004 – Mai 2005 – Tampere International Centre for Signal Processing, Tampere University of Technology, Tampere, Finland, CIMO (Centre for International Mobility, Helsinki, Finland), 9 luni Participare în granturi de cercetare: Contribuţii la elaborarea unui model privind caracterizarea timbrului semnalelor muzicale, director grant CNCSIS tip TD, 235/2004 (director proiect Annamaria Mesaros) Sisteme biometrice pentru controlul accesului pe baza amprentei vocale, membru grant CNCSIS tip A, 1027/2004 (director proiect prof.dr.ing.Eugen Lupu) Mecanisme moleculare ale recunoaşterii şi adeziunii celulare mediate de interactiuni glican-glican, membru grant CNCSIS tip AC-10/2005 (director proiect prof.dr.ing.Eugen Lupu) Bioinformatica secventelor genice implicate in diviziunea celulara la procariote, membru grant PNCDI CEx-050D11-52/2005 (director proiect conf.dr.Petre Pop ) Membru în colectivul editorial al revistei “Novice Insights in Electronics, Communi-cations and Information Technology”, Facultatea de Electronică, Telecomunicaţii şi Teh-nologia Informaţiei, Universitatea Tehnică Cluj-Napoca, http://www.bel.utcluj.ro/novice/ Limbi străine cunoscute: engleză, franceză
Ing. Annamaria MESAROŞ Lista de publicaţii 1. Mesaros, A., Lupu, E., Rusu, C. – Singing voice features by time-frequency
representations, Proceedings of the 3rd International Symposium on Image and Signal Processing and Analysis, ISPA 2003, Rome, Italy, 2003
2. Mesaros, A. , Lupu, E. – Musical instrument class identification using cepstral
coefficients derived from a constant Q transform, Acta Technica Napocensis nr.45, vol. 1, 2003
3. Mesaros, A., Rusu, C. – An exploration of singing voice individuality, Analysis of
Biomedical Signals and Images, Proceedings of 17th Biennial International EURASIP Conference Biosignal 2004, Brno, Czech Republic, 2004
4. Mesaros, A., Astola, J. – Inter-dependence of Spectral Measures for the Singing
Voice, International Symposium on Signals, Circuits and Systems, ISSCS 2005, Iasi, Romania, 2005
5. Mesaros, A., Astola, J. – The Mel-Frequency Cepstral Coefficients in the Context of
Singing Voice, 6th International Conference on Music Information Retrieval, ISMIR 2005, London, UK, 2005
6. Mesaros, A., Lupu, E. – Closed Phase Detection in the Singing Voice Using
Information About Formant Frequencies During One Glottal Cycle, 10th International Conference on Speech and Computer, SPECOM 2005, Patras, Greece, 2005
7. Mesaros, A – Modelarea vocii cantate prin coeficienti cepstrali si retele neuronale,
Workshop Verificatori Biometrici, Cluj Napoca, Romania, 2005 8. Mesaros, A. – On the Use of Genetic Algorithms in Molecular Modeling, International
Conference on Computers, Communications and Control, ICCCC 2006, Oradea, Romania, 2006
9. Mesaros, A. – Estimation of Closed Glottis Phase in Professional singing Voice
Using the Frobenius Norm, Analysis of Biomedical Signals and Images, Proceedings of 18th Biennial International EURASIP Conference Biosignal 2006, Brno, Czech Republic, 2006
10. Mesaros, A. – Spectrum characteristics of singing voice signals and their usefulness in singer identification, 6th Communications International Conference, COMM2006, Bucharest, Romania, 2006
11. Mesaros, A., Moldovan, S. – Methods for singing voice identification using energy
coefficients as features, 2006 IEEE-TTTC International Conference on Automation, Quality and testing Robotics AQTR 2006 (THETA 15), Cluj-Napoca, Romania, 2006
12. Mesaros, A., Moldovan, S., Lupu, E. – Band decomposition of voice signals using
wavelets defined from fractional B-spline functions, 48-th International Symposium ELMAR-2006 focused on Multimedia Signal Processing and Communications, Zadar, Croatia, 2006
13. Mesaros, A., Moldovan, S. – Methods for singing voice identification using energy
coefficients as features, va aparea in Acta Technica Napocensis, nr 48, 2007 14. Mesaros, A., Virtanen, T, Klapuri, A. – Singer identification in polyphonic music using
vocal separation and pattern recognition methods, 8-th International Conference on Music Information Retrieval ISMIR 2007, Vienna, Austria, 2007
Contribuţii la cărţi: 15. Lupu, E., Mesaros, A., Suciu, A.F., Microprocessors – Architectures and
Applications, RISOPRINT Publishing, Cluj-Napoca, 2003 16. Lupu, E., Mesaros, A., Moldovan, S., Programming in x86 Assembly Language (in
romanian), RISOPRINT Publishing, Cluj-Napoca, 2006