rozpoznawanie emocji na podstawie mowy naturalnej · do walki o przetrwanie jednostki gatunku....

24
POLITECHNIKA LÓDZKA Wydzial Elektrotechniki, Elektroniki, Informatyki i Automatyki mgr in˙ z. Dorota Kami ´ nska Streszczenie rozprawy doktorskiej na temat: Rozpoznawanie emocji na podstawie mowy naturalnej Promotor dr hab. in˙ z. Adam Pelikant Lód´ z 2014

Upload: dangthuy

Post on 27-Feb-2019

220 views

Category:

Documents


0 download

TRANSCRIPT

POLITECHNIKA ŁÓDZKA

Wydział Elektrotechniki, Elektroniki,Informatyki i Automatyki

mgr inz. Dorota Kaminska

Streszczenie rozprawy doktorskiej na temat:

Rozpoznawanie emocji na podstawie mowy naturalnej

Promotordr hab. inz. Adam Pelikant

Łódz 2014

1. Wprowadzenie

Komunikacja interpersonalna to nieodzowny element ludzkiego zycia. Rozmowa dostarcza

słuchaczowi zarówno informacji lingwistycznych, jak i okresla charakterystyke biologiczno -

psychologiczna mówcy. Wydobycie obu rodzajów informacji poprawia jakosc komunikacji.

Waznym elementem konwersacji jest ocena stanu emocjonalnego rozmówcy, który mozemy

równiez z niej odczytac.

W dzisiejszych czasach, kiedy komputery sa czescia naszego zycia, poszukuje sie rozwiazan

majacych na celu polepszenie komunikacji człowiek-komputer/człowiek-robot (HCI/HRI).

Dlatego tez powstaja nowoczesne technologie rozpoznawania ludzkiej mowy. Systemy,

które dodatkowo rozpoznawałyby stany emocjonalne uzytkownika, byłyby bardziej naturalne

i wiarygodne. Totez komputerowe rozpoznawanie emocji stało sie istotnym trendem

badawczym.

Odczucia wyrazane sa zarówno poprzez procesy werbalne jak i niewerbalne. Sygnały

takie jak mowa [1], mimika twarzy [2], kontakt wzrokowy, gesty [3] oraz stan fizjologiczny

organizmu (elektroencefalografia EEG, elektromiografia EMG, reakcja skórno-galwaniczna

GSR, temperatura skóry, rytm i długosci wydechów czy cisnienie tetnicze) [4] stanowia wejscie

systemów rozpoznawania emocji. Ludzki głos, najłatwiej dostepny z wyzej wymienionych

sygnałów, jest równiez szeroko stosowany jako zródło informacji na temat stanu emocjonalnego

mówcy.

Niniejsze rozwazania dotycza rozpoznawania stanów emocjonalnych wyrazanych głosem.

Autorka skupiła sie głównie na mowie spontanicznej, dotychczas powszechnie zastepowanej

mowa odegrana. Na potrzeby zrealizowanych badan zgromadzone zostały nagrania audio

z nosnikiem emocjonalnym, stanowiace kompleksowa baze wejsciowa. Opierajac sie na

kole Roberta Plutchika stworzono modele emocji podstawowych oraz wtórnych, bedacych

wariacjami stanów podstawowych. Autorka przedstawiła nowatorski sposób klasyfikacji

emocji spontanicznych stosujac przy tym zarówno powszechnie znane deskryptory sygnału

1

mowy jak i percepcyjne współczynniki hybrydowe, dotychczas nie wykorzystywane do opisu

emocji. Ponizej przedstawione tezy badawcze, scisle powiazane z zagadnieniami klasyfikacji

mowy emocjonalnej, zostana zweryfikowane w toku pracy.

Teza 1: Wykorzystanie hybrydowych współczynników percepcyjnych w procesie

klasyfikacji dokonywanym przy uzyciu komitetu klasyfikatorów pozwala na uzyskanie

wysokiej skutecznosci rozpoznawania emocji na podstawie mowy naturalnej.

Teza 2: Opierajac sie na teorii emocji Plutchika mozna dokonac klasyfikacji emocji

wtórnych.

Teza 3: Istnieje mozliwosc zwiekszenie dokładnosci rozpoznawania emocji zawartych w

głosie poprzez minimalizacje cech osobniczych mówcy.

2. Psychoewolucyjna teoria Roberta Plutchika

W latach 1960-1980 amerykanski psycholog Robert Plutchik [5] opracował teorie, w

której wyodrebnił osiem pierwotnych emocji stanowiacych prototyp: radosc, akceptacja,

strach, zdziwienie, smutek, gniew, obrzydzenie oraz oczekiwanie. Stany te sa wrodzone,

odnosza sie do zachowan adaptacyjnych, które maja na celu pomoc w przetrwaniu. Stanowia

one hipotetyczne konstrukty, swojego rodzaju stany idealne, których własciwosci i cechy sa

wnioskowane intuicyjnie. Wszystkie inne emocje sa stanami pochodnymi, wystepuja jako

kombinacje, mieszaniny lub zwiazki stanów podstawowych. Swoje przemyslenia Plutchik

zobrazował przy pomocy koła emocji, przedstawionego na rysunku 1.

Diagram reprezentuje stopien podobienstwa pomiedzy poszczególnymi stanami. Emocje

podstawowe rozmieszczone sa na kole jako pary biegunów przeciwstawnych, których nie

mozna doswiadczyc w tym samym czasie, gdyz sie wzajemnie wykluczaja. Przykładowo

radosc stanowi przeciwienstwo smutku. Emocje sasiadujace na diagramie, gdy sa odczuwane

jednoczesnie, mieszajac sie tworza nowe stany. Mieszanina dwóch pierwotnych emocji jest

nazywana przez Plutchika diada. Na przykład, diada radosci i zaufania to miłosc. Diady z

2

Rysunek 1. Koło emocji Plutchika

przeciwstawnych emocji nie wystepuja, gdyz zachodzi miedzy nimi konflikt. Poparcie tego

strukturalnego modelu stanowia badania empiryczne [5].

3. Parajezyk

Juz Arystoteles twierdził, ze poszczególny stan emocjonalny wiaze sie z okreslonym

tonem głosu. Jednakze to dopiero Darwin dokonał pierwszego opisu dzwieków zwiazanych

z stanami emocjonalnymi mówcy. Na podstawie badan róznych gatunków zwierzat oraz

ludzi, doszedł do wniosku, ze istnieje bezposredni zwiazek miedzy sygnałem akustycznym,

a stanem wewnetrznym jednostki, natomiast zmiana tonu, głosnosci czy intonacji sygnalizuje

zmiane nastroju. Zaobserwował równiez, ze sygnały akustyczne moga wywoływac reakcje

emocjonalne u słuchacza.

Aby lepiej zobrazowac wpływ emocji na ludzka mowe, nalezy przyjrzec sie modelowi

narzadu głosu, na który składaja sie: przestrzenie rezonacyjne (nagłosnia, gardło, jama nosowa,

jama ustna), generator energii akustycznej (głosnia) oraz zbiornik powietrza (płuca i oskrzela).

Strumien powietrza, konieczny do fonacji, wytwarzany jest w płucach z drzewem

oskrzelowym. Głosnia jest generatorem tonu podstawowego (krtaniowego), zas

3

precyzyjne drgania fałdów głosowych przekształcaja energie wyrazona wektorem cisnienia

podgłosniowego w energie akustyczna [6]. Czestotliwosc tych drgan tzw. czestotliwosc

podstawowa (F0) jest cecha osobnicza, wynika z rozmiaru krtani oraz napiecia i rozmiaru

strun głosowych, jest zalezna od płci oraz wieku. Przykładowo dla mezczyzn zawiera sie w

przedziale od 80 do 480 Hz, natomiast dla kobiet w przedziale od 160 do 960 Hz. Jest zatem

odpowiedzialna za skale głosu. Podczas rozmowy, zakres jej zmian zwiazany jest głównie

z intonacja, która odgrywa ogromna role w ekspresji emocji, dlatego tez deskryptory zródła

dzwieku sa powszechnie stosowane w badaniach nad tym zagadnieniem.

Struktura harmoniczna dzwieku podstawowego zmienia kształt pod wpływem działania

rezonatorów (filtrów akustycznych) traktu głosowego. Okreslone składowe pierwotnego tonu

ulegaja wzmocnieniu, inne natomiast osłabieniu. Maksima wzmocnionych czestotliwosci

nazywane sa formantami. Ich wartosci zaleza od cech osobniczych (długosc przewodu

głosowego), ale równiez od sposobu artykulacji (ułozenie jezyka i ust, ruchomosc zuchwy)

[6]. Deskryptory traktu głosowego sa rzadziej stosowane w badaniach, aczkolwiek niosa ze

soba istotne informacje emocjonalne, majace swoje odzwierciedlenie w mimice np. ułozenie

ust. Jest bowiem oczywiste, ze zdanie wypowiadane z usmiechem brzmi inaczej, niz to samo

zdanie wypowiadane z odmiennym wyrazem twarzy.

Podejscie teoretyczne oraz praktyczne do rozpoznawania stanów emocjonalnych sugeruje,

ze okreslone wzorce wyrazen wokalnych sa specyficzne dla konkretnego stanu. Emocje moga

powodowac zmiany w sposobie oddychania, fonacji czy artykulacji, co z kolei ma swoje

odzwierciedlenie w sygnale mowy. Poza wyzej wymienionymi deskryptorami zródła oraz

traktu głosowego, inne cechy takie jak postrzegana głosnosc czy tempo wypowiedzi maja

wpływ na percepcje emocji. Przykładowo stany takie jak gniew i strach charakteryzuja

sie szybkim tempem mowy, wysokimi wartosciami F0, szerokim zakresem intonacji, co

spowodowane jest pobudzeniem układu współczulnego, nagłym przyspieszeniem akcji serca,

zwiekszeniem cisnienia krwi, czemu czasem moze towarzyszyc suchosc w ustach i drzenie

miesni. Zupełnie odwrotnie jest w przypadku smutku oraz znudzenia, kiedy to mowa jest wolna,

monotonna, F0 obnizone, bez wiekszych zmian intonacji. Spowodowane jest to miedzy innymi

pobudzeniem układu przywspółczulnego, zwolnieniem rytmu serca, spadkiem cisnienia krwi,

zwiekszeniem ilosci wydzielanej sliny.

4

Istnieja przesłanki wskazujace na niezaleznosc prozodiów od rasy, kultury, religii, a takze

od jezyka natywnego mówcy. Liczne badania wskazuja, ze korelaty emocji podstawowych

w róznych kulturach sa podobne ze wzgledu na uniwersalne zjawiska fizjologiczne [7].

Aczkolwiek wielu naukowców neguje teze uniwersalnosci mowy emocjonalnej. W badaniach

[8] przeprowadzonych na grupie wolontariuszy z Hiszpanii i Szwecji udowodniono, jak trudno

jest rozpoznac emocje w głosie mówcy innej narodowosci. Najlepsze wyniki osiagnieto dla

smutku i wyniosły one zaledwie 53%, inne emocje rozpoznawane były z dokładnoscia nizsza

niz 30%. Nalezy przy tym podkreslic, ze wyniki badan tego samego spektrum emocji u

osób tej samej narodowosci, srednio wahaja sie w granicach 55 - 60% [8]. Stosunkowo

niska rozpoznawalnosc wiaze sie z wystepowaniem podobnych zjawisk fizjologicznych dla

danych stanów, co prowadzi do podobienstw cech akustycznych. Nalezy dodatkowo wziac

pod uwage, ze na ludzka ocene wypływa równiez kontekst wypowiedzi. Dlatego, przy analizie

komputerowej dokonywanej wyłacznie na podstawie cech akustycznych, nie nalezy oczekiwac

lepszych rezultatów. Mimo to, w zwiazku z szeroka dostepnoscia sygnału mowy równiez przy

duzej odległosci oraz przy komunikacji za pomoca urzadzen teleinformatycznych, jest to wazny

element tego typu rozwazan.

4. Projekt systemu rozpoznawania stanów emocjonalnych

Automatyczne rozpoznawanie to proces klasyfikacji analizowanych danych (wzorców),

w oparciu o wiedze zgromadzona w systemie informatycznym, bazujac na narzuconych lub

odkrytych przez ten system regułach [9]. Wspólnym mianownikiem problemów tej dziedziny

jest algorytm obejmujacy pewne zasadnicze fazy (rys. 2). Poniewaz rozpoznawanie emocji

jest tematem wpisujacym sie w schemat ogólnej metodologii automatycznego rozpoznawania,

algorytm ten jest wykorzystywany w podjetych badaniach.

Rysunek 2. Algorytm rozpoznawania wzorców

Pierwszy krok algorytmu to akwizycja danych, która w przypadku niniejszej pracy stanowi

baza mowy emocjonalnej. Nastepny krok to przygotowanie danych do dalszej analizy, czyli tzw.

5

wstepna obróbka. Trzecia faze rozpoznawania stanowi ilosciowy opis przedmiotu. Obejmuje

on identyfikacje takich własciwosci obiektu, które niosa informacje wystarczajace do realizacji

zadania. Ostatni etap stanowi proces klasyfikacji, czyli kategoryzowanie przedmiotu badan,

na podstawie wczesniej utworzonego opisu ilosciowego. Ponizszy opisano kolejne kroki

algorytmu.

4.1. Korpus mowy emocjonalnej

Percepcja naturalnych emocji jest procesem złozonym, subiektywnym i bardzo czesto

zdarza sie, ze człowiek jedna sytuacje potrafi ocenic na kilka sposobów. Dlatego tez poszukuje

sie rozwiazan, w których mozna uniknac zdeterminowanego etykietowania, wskazujac jedynie

wystepowanie lub absencje konkretnych stanów podstawowych (np. tworzac tzw. profil

emocjonalny), a nastepnie pomiar stopnia nasilenia kazdego z nich [10]. Podejscie to moze

okazac sie pomocne w rozpoznawaniu niejednoznacznie okreslonych emocji, które pojawiaja

sie w spontanicznych dialogach.

Aby dokładniej zrozumiec problem niejednoznacznosci emocji, przytoczona zostanie

ponizsza definicja: emocje prototypowe (podstawowe) to stany majace znaczenie adaptacyjne

do walki o przetrwanie jednostki gatunku. Według Plutchika wyróznia sie osiem stanów

podstawowych: gniew, wyczekiwanie, radosc, ufnosc, strach, zaskoczenie, smutek oraz odraza.

Oprócz prototypowych mozna wyróznic szereg emocji wtórnych, bedacych kombinacjami

tych podstawowych. W 2009 roku na konferencji ACII (Affective Computing and Intelligent

Interaction) odbyła sie specjalna sesja poswiecona rozpoznawaniu emocji z niejednoznacznie

okreslonych wypowiedzi. Konferencja ta rozpoczeła lawine pytan dotyczacych badan

mowy spontanicznej, a naukowcy zaczeli porzucac analize nagran odgrywanych. Ponizej

przedstawiono główne zjawiska składajace sie na niejednoznacznosc stanu psychicznego

mówcy oraz percepcji słuchaczy:

• mieszanina emocji – dwa lub wiecej stanów emocjonalnych wystepuje w tym samym

momencie; według teorii Plutchika mozemy przezywac mieszanine pierwotnych emocji;

polega to na łaczeniu poszczególnych stanów pierwotnych w jeden stan wtórny (emocje

lezace obok siebie na kole Plutchika rys. 1);

6

• maskowanie emocji – ukrywanie przez mówce przezywanego stanu emocjonalnego innym

stanem (np. maskowanie smutku radoscia);

• przyczynowo-skutkowy konflikt ekspresji – konkretny stan emocjonalny okazywany jest w

ten sam sposób, jak stan całkowicie przeciwny (np. płacz ze szczescia);

• podobienstwo stanów emocjonalnych – granice pomiedzy poszczególnymi stanami sa

niejednoznacznie okreslone, nakładaja sie wzajemnie (emocje lezace obok siebie na kole

Plutchika rys. 1);

• sekwencja emocji – konsekutywnie okazywanie kolejnych stanów w trakcie wypowiedzi.

Zastosowanie techniki tworzenia profili jest pomocne w okresleniu najbardziej

prawdopodobnego stanu psychicznego mówcy, zbadaniu ewolucji tego stanu trakcie

wypowiedzi (wzrost lub spadek natezenia) oraz interpretacji wypowiedzi, na które nakłada sie

kilka emocji na raz.

Zadanie rozpoznawania wzorców wymaga zgromadzona odpowiednich danych

wejsciowych (zbiór treningowy i testowy). W przypadku niniejszych badan dane te stanowia

próbki mowy nacechowanej emocjonalnie. Biorac pod uwage teorie Roberta Plutchika,

stworzono korpus emocji podstawowych, lecz w szerszym zakresie niz przedstawiaja to

dotychczasowe badania. Pierwszym krokiem było zgromadzenie próbek mowy w siedmiu

podstawowych (według Plutchika) stanach emocjonalnych: gniew, wyczekiwanie, radosc,

strach, zaskoczenie, smutek oraz odraza. Z powodu niedostatecznej ilosci próbek ze zbioru

wykluczono ufnosc. Wszystkie próbki zostały ocenione przez grupe ekspertów oraz nadano

im etykiety odpowiadajace wyzej opisanym stanom emocjonalnym. Nastepnie najbardziej

charakterystyczne emocje (gniew, zadowolenie, starach i smutek) zostały poddane badaniu

intensywnosci. W ten sposób otrzymano pietnascie stanów emocjonalnych, których zestawienie

przedstawiono w tabeli 3.

Metodyka doboru zródeł nagran

Badania statystyczne, które stanowia integralna czesc tworzenia korpusu mowy

emocjonalnej, powinny spełniac okreslone kryteria. Jednym z nich jest zachowanie

prawidłowego rozkładu parametrów (cech) podmiotu badan, majacych znaczenie dla

wnioskowania, a wpływajacych na jego wiarygodnosc. Wykorzystywany w niniejszych

badaniach korpus stanowi zbiór wypowiedzi emocjonalnych w jezyku polskim, jedynym

7

Rysunek 3. Zestawienie materiału badawczego

ograniczeniem próby jest natywna znajomosc jezyka polskiego. Zakres przestrzenny, czas,

miejsce oraz cechy personalne próby nie stanowiły obostrzen.

Dobór próby reprezentatywnej w trakcie gromadzenia nagran jest jednym z kluczowych

elementów badan wpływajac na ich wiarygodnosc. Zakłada sie, ze próba jest reprezentatywna,

kiedy wystepuja w niej wszystkie wartosci zmiennej, mogace miec wpływ na wyniki badan.

Poniewaz proces ekspresji emocji jest subiektywny, zalezny przede wszystkim od płci, wieku

oraz pochodzenia osoby badanej, to własnie te zmienne społeczno-demograficzne zostały

wziete pod uwage w procesie tworzenia korpusu. Przy wyborze zródeł kierowano sie

zatem dostepem do wyzej wymienionych informacji, a przy tworzeniu korpusu zachowano

odpowiednie proporcje tych zmiennych. Załozenie to w znacznym stopniu ograniczyło

8

mozliwosci gromadzenia materiału (brak danych personalnych w nagraniach radiowych).

Najistotniejsza cecha próbek miała byc autentycznosc prezentowanych emocji, co równiez

zaweza obszar poszukiwan. Autorka głównie skupiła sie na materiałach prezentowanych

na zywo oraz programach typu reality show. Prezentowane tam uczucia wydaja sie byc

spontaniczne, prowokowane wydarzeniami oraz dyskusja. Przykładowo do prezentacji złosci

wybrano programy prezentujace problemy polityczne i społeczne (np. Panstwo w Panstwie

telewizji Polsat). Załozenie autentycznosci okazywanych uczuc moze byc błedne i jest

zwiazane z subiektywna ocena autorki oraz wolontariuszy bioracych udział w ocenie próbek.

Nalezy równiez wspomniec, ze zgromadzone nagrania czesto zawierały zakłócenia, co równiez

moze miec wpływ na ocene.

Stan emocjonalny mówcy moze zostac rozpoznany juz na podstawie krótkich wypowiedzi

typu Tak lub Nie. Dzieki temu krótkie zdania, a takze same słowa sa takze odpowiednie do

analizy. Czasem o stanie emocjonalnym mówcy informuja dodatkowe dzwieki takie, jak krzyk,

pisk, smiech czy płacz. Dlatego tez oprócz pełnych wypowiedzi, na baze emocji składaja sie

równiez pojedyncze słowa i dzwieki, takie, które pojawiaja sie w codziennej komunikacji.

Dodatkowo do celów badawczych stworzono model mowy neutralnej (bez zabarwienia

emocjonalnego). Został on złozony z wypowiedzi z bazy opisanej w podrozdziale ??

uzupełnionej wypowiedziami dziennikarzy zazwyczaj neutralnie komentujacych wydarzenia.

Model ten składa sie z 235 wypowiedzi i nie został poddany etykietowaniu przez wolontariuszy.

Etykietowanie mowy emocjonalnej

Proces etykietowania zgromadzonych nagran podzielono na dwie czesci. Pierwsza z nich

została przeprowadzona przez autorke oraz studentów psychologii Uniwersytetu Łódzkiego. Na

podstawie pełnych nagran wideo, a wiec majac do dyspozycji zarówno głos, semantyke, jak i

obraz, nagrania zostały podzielone na osiem grup (emocje podstawowe). Biorac pod uwage,

ze w pierwszym kroku eksperci mogli korzystac z dodatkowych bodzców (gesty, mimika),

etykietowanie nagran, pomijajac czasochłonnosc, nie stanowiło wiekszego wyzwania. Dopiero

krok drugi, w którym nagrania etykietowane były przez wolontariuszy wyłacznie na podstawie

głosu, pokazał jak subiektywnym procesem jest percepcja emocji.

Odsłuch wstepnie zakwalifikowanych próbek przeprowadzono w celu przetestowania, czy

słuchacz jest w stanie zidentyfikowac emocjonalna zawartosc nagrania. W badaniu tym

9

brało udział pietnascie prawidłowo słyszacych osób róznej płci, w wieku od 21 do 58 lat.

Zadaniem uczestników badania było dokonanie oceny nagrania i zakwalifikowanie do jednej

z wybranych grup (klas). Proces ten odbywał przy pomocy stworzonego do tego celu

oprogramowania. Osoba oceniajaca odsłuchiwała nagrania jedno po drugim i dokonywała

wyboru, który kolejno zapisywany był w bazie danych. Kazda z próbek mozna było odtworzyc

dowolna ilosc razy przed dokonaniem ostatecznej oceny, jednakze po dokonaniu wyboru,

nie było mozliwosci powrotu do danego nagrania. Na tej podstawie sporzadzono wyniki

rozpoznawania poszczególnych emocji przez kazda z osób. Srednie rozpoznawanie wyniosło

82,6% w zakresie od 63% do 93%. Nalezy jednak podkreslic, ze wzór stanowiły próby ocenione

przez autorke i studentów psychologii, a ocena ta równiez jest subiektywna. Dlatego tez próbki,

które wielokrotnie etykietowano niezgodnie z ocena ekspertów, zostały właczone do zbioru

stanowiacego niejednoznacznie okreslone stany. Emocje ocenione zgodnie przez co najmniej

dziesiec osób, zostały sklasyfikowane jako czyste stany prototypowe. Czesc z nich stanowi

zbiór treningowy, czesc zbiór testowy niniejszych badan. Podczas procesu etykietowania

wolontariusze zostali poproszeni dodatkowo o oznaczenie intensywnosci (natezenia) czterech

podstawowych stanów emocjonalnych (gniew, radosc, strach i smutek) w skali od jednego

(najnizsze natezenie) do 3 (najwyzsze natezenie). W ten sposób uzyskano etykiety diad

emocjonalnych.

4.2. Deskryptory sygnału mowy

Jednym z najistotniejszych kroków jest ilosciowy opis przedmiotu badan, czyli identyfikacja

cech obiektu, które niosa informacje, wystarczajace do efektywnej klasyfikacji. W

ponizszej tabeli dokonano zestawienia deskryptorów sygnału mowy wykorzystanych podczas

prowadzonych badan.

Zestawienie deskryptorów mowy wykorzystanych w niniejszych badaniach

Grupa cech Opis cechy

Czestotliwosc F0

Srednia wartosc F0

Maksymalna wartosc F0

Minimalna wartosc F0

Mediana F0

Odchylenie standardowe F0

Zakres F0

10

Grupa cech Opis cechy

Górny kwartyl F0

Dolny kwartyl F0

Rozstep kwartylny F0

Kurtoza F0

Współczynnik skosnosci F0

Współczynnik wahania F0

Współczynnik monotonicznosci F0

Maksymalna wartosc wzrostu F0

Minimalna wartosc wzrostu F0

Srednia wartosc wzrostu F0

Maksymalna wartosc spadku F0

Minimalna wartosc spadku F0

Srednia wartosc spadku F0

Maksymalny przedział wzrostu F0

Sredni przedział wzrostu F0

Maksymalny przedział spadku F0

Sredni przedział spadku F0

Energia sygnału

Srednia wartosc energii sygnału

Maksymalna wartosc energii sygnału

Minimalna wartosc energii sygnału

Mediana energii sygnału

Odchylenie standardowe energii sygnału

Zakres energii sygnału

Górny kwartyl energii sygnału

Dolny kwartyl energii sygnału

Rozstep kwartylny energii sygnału

Kurtoza energii sygnału

Współczynnik skosnosci obwiedni

Współczynnik wahania obwiedni

Współczynnik monotonicznosci obwiedni

Maksymalna wartosc wzrostu obwiedni

Minimalna wartosc wzrostu energii sygnału

Srednia wartosc wzrostu obwiedni

Maksymalna wartosc spadku obwiedni

Minimalna wartosc spadku obwiedni

Srednia wartosc spadku obwiedni

Maksymalny przedział wzrostu obwiedni

Sredni przedział wzrostu obwiedni

Maksymalny przedział spadku obwiedni

Sredni przedział spadku obwiedni

Formanty F1-F3

Srednie F1

Odchylenie standardowe F1

Mediana F1

Maksimum F1

Minimum F1

11

Grupa cech Opis cechy

Srednie F2

Odchylenie standardowe F2

Mediana F2

Maksimum F2

Minimum F2

Srednie F3

Odchylenie standardowe F3

Mediana F3

Maksimum F3

Minimum F3

Współczynniki LPC

Srednia wartosc współczynników LPC (1-13)

Odchylenie standardowe współczynników LPC (1-13)

Mediana współczynników LPC (1-13)

Maksymalna wartosc współczynników LPC (1-13)

Minimalna wartosc współczynników LPC (1-13)

Współczynniki MFCC

Srednia wartosc współczynników MFCC (1-13)

Odchylenie standardowe współczynników MFCC (1-13)

Mediana współczynników MFCC (1-13)

Maksymalna wartosc współczynników MFCC (1-13)

Minimalna wartosc współczynników MFCC (1-13)

BFCC

Srednia wartosc współczynników BFCC (1-13)

Odchylenie standardowe współczynników BFCC (1-13)

Mediana współczynników BFCC (1-13)

Maksymalna wartosc współczynników BFCC (1-13)

Minimalna wartosc współczynników BFCC (1-13)

HFCC

Srednia wartosc współczynników HFCC (1-13)

Odchylenie standardowe współczynników HFCC (1-13)

Mediana współczynników HFCC (1-13)

Maksymalna wartosc współczynników HFCC (1-13)

Minimalna wartosc współczynników HFCC (1-13)

PLP

Srednia wartosc współczynników PLP (1-13)

Odchylenie standardowe współczynników PLP (1-13)

Mediana współczynników PLP (1-13)

Maksymalna wartosc współczynników PLP (1-13)

Minimalna wartosc współczynników PLP (1-13)

RPLP

Srednia wartosc współczynników RPLP (1-13)

Odchylenie standardowe współczynników RPLP (1-13)

Mediana współczynników RPLP (1-13)

Maksymalna wartosc współczynników RPLP (1-13)

Minimalna wartosc współczynników RPLP (1-13)

RASTA PLP

Srednia wartosc współczynników RASTA PLP (1-13)

Odchylenie standardowe współczynników RASTA PLP (1-13)

Mediana współczynników RASTA PLP (1-13)

Maksymalna wartosc współczynników RASTA PLP (1-13)

12

Grupa cech Opis cechy

Minimalna wartosc współczynników RASTA PLP (1-13)

4.3. Klasyfikacja hierarchiczna

Ostatni krok zadania rozpoznawania wzorców stanowi proces klasyfikacji. W procesie tym

okresla sie przynaleznosc nieznanego obiektu, opisanego za pomoca wektora atrybutów, do

jednej ze zdefiniowanych wczesniej klas. Mimo, iz metody klasyfikacji to raczej standardowe

narzedzia automatycznego rozpoznawania, obejmujace szereg podejsc (systemy ekspertowe,

drzewa decyzyjne, logika rozmyta, sieci neuronowe i inne) [11], to niejednokrotnie zdarza

sie, ze narzedzia te nie daja oczekiwanych rezultatów. Klasyfikacja emocji na podstawie

mowy, a w szczególnosci mowy spontanicznej, jest zadaniem trudnym, zaleznym od wielu

czynników, i mimo szeroko eksploatowanych badan, wciaz natrafia na powazne przeszkody.

Dlatego tez poszukuje sie nowych rozwiazan, poprzez tworzenie innowacyjnych algorytmów

badz klasyfikatorów hybrydowych, bazujacych na współdziałaniu istniejacych rozwiazan.

Jednym z obiecujacych podejsc w uczeniu maszynowym wydaje sie byc stosowanie

komitetów klasyfikujacych (ang. Ensemble, Committee, Multiple Classifier Systems - MCS),

bazujacych na zasadzie dziel i zwyciezaj. W tym celu dokonuje sie dekompozycji złozonego

problemu na kilka mniej złozonych [12]. Tworzone w ten sposób rozwiazanie składa sie z

wielu prostych (łatwych do zbudowania) modeli (wezłów) o relatywnie niskiej skutecznosci, a

ich koncowe wyniki sa łaczone (np. metoda głosowania, przypisujac obiekt do klasy, na która

głosuje najwiecej sposród klasyfikatorów bazowych).

Biorac pod uwage wysokie rezultaty rozpoznawania emocji na podstawie mowy w

powyzszych pracach oraz niejednoznacznosc stanów oraz rozmycie granic miedzy nimi w

mowie spontanicznej, niniejsze badania stanowia próbe opracowania skutecznego klasyfikatora

hierarchicznego. Proces jego tworzenia rozpoczyna sie od Podstawowego Algorytmu

Rozpoznawania Emocji PAKEmo, opartego na horyzontalnym podziale problemu na

podproblemy wzgledem wektora cech. Nastepnie algorytm rozbudowywany był poprzez

dodawanie kolejnych wezłów, majacych za zadanie zwiekszyc wydajnosc systemu. Ostateczny

algorytm stanowi wielopoziomowy, hierarchiczny klasyfikator, który na kolejnych poziomach

zawiera takie elementy jak: rozpoznawanie płci, budowa profili emocjonalnych, zaleznosc

emocji od długosci wypowiedzi oraz badanie natezenia emocji. Wszystkie wyzej wymienione

podproblemy zostały kolejno przedstawione w ponizszych podrozdziałach.

13

Algorytm bazowy

Wektory cech opisujacych obiekty ze zbioru uczacego oraz wektor opisujacy nieznany

obiekt zostały podzielone na podwektory konkretnych grup cech (przedstawione w załaczniku

A niniejszej pracy). W ten sposób otrzymano m oddzielnych podwektorów, przykładowo

wektor deskryptorów czestotliwosci podstawowej czy współczynników MFCC. Na poziomie

zerowym algorytmu PAKEmo (rys. 4) znajduje sie zespół m klasyfikatorów. W kazdym z

nich podejmowana jest decyzja dm przy uzyciu algorytmu k-NN. Kazdy z m klasyfikatorów

dokonuje oddzielnej klasyfikacji na podstawie okreslonej grupy cech, a zatem wykonywanych

jest m testów. Na poziomie pierwszym otrzymujemy m decyzji, gdzie liczby k, l..., s

reprezentuja ilosc głosów oddanych na konkretna klase. Na tej podstawie, wykorzystujac

głosowanie równoprawne, wybierana jest ostateczna klasa nieznanego obiektu.

Rysunek 4. Schemat podstawowego algorytmu klasyfikacji emocji

Problemy pojawiaja sie w przypadku, gdy na podstawie głosowania równoprawnego nie

da sie wyłonic jednego zwyciezcy (jednej klasy). W takim przypadku sprawdzane zostaje

połozenie obu klas na kole emocji Plutchika. Jesli obie zwycieskie klasy leza na kole

obok siebie, zachodzi podejrzenie, ze granice miedzy nimi sa na tyle niejednoznaczne, ze

nie jest mozliwe podjecie jednej, konkretnej decyzji. Wypowiedz klasyfikowana jest jako

niejednoznaczna i opatrzona dwoma etykietami. Jesli jednak połozenie zwycieskich klas

na kole jest przeciwstawne, co dyskwalifikuje (wg Plutchika) mozliwosc wystepowania obu

14

emocji jednoczesnie, za zwycieska uznaje sie te klase, która wskazywały grupy cech uznane za

najefektywniejsze według selekcji grupowej (tabela ??).

Minimalizacja cech osobniczych mówcy

Oczywistym jest fakt, ze rozpoznawanie emocji uzaleznione od mówcy daje duzo

lepsze rezultaty niz rozpoznawanie niezalezne. Aczkolwiek system, który miałby działac

w naturalnych warunkach, powinien byc uniwersalny, omijajac cechy osobnicze głosu w

klasyfikacji emocji. Dlatego tez budujac tego typu systemy dazy sie do ich minimalizacji.

Powszechnie uwaza sie, ze kobiety lepiej niz mezczyzni rozpoznaja emocje w tonie głosu,

a przekonanie to potwierdzono badaniami. Samo okazywanie emocji równiez jest odmienne

dla obu płci. Ponadto czestotliwosc drgan fałdów głosowych, a zatem czestotliwosc krtaniowa

(podstawowa), zalezy od masy, długosci i napiecia tych fałdów. Poniewaz u mezczyzn długosc

fałdów wynosi około 15-20 mm, zas u kobiet 8-12 mm, głos kobiecy jest około oktawe wyzszy

od meskiego [6]. Widoczny jest zatem wpływ płci na mowe, co moze przekładac sie równiez

na proces rozpoznawania.

Widoczny jest równiez wpływ wieku na głos mówcy. Mowa młodych chłopców

charakteryzuje sie znacznie wyzsza czestotliwoscia podstawowa, niz dorosłych mezczyzn. Tej

róznicy nie widac w sposób tak istotny jak w przypadku kobiet. Mozna takze zauwazyc, ze z

wiekiem głos staje sie coraz bardziej zachrypniety, a mowa spowolniona.

Poniewaz elementy społeczno-demograficzne ciezko okreslic na podstawie klasyfikacji

opartej o mowe, totez sama konstrukcja korpusu powinna zakładac prawidłowy rozkład tych

parametrów. Przykładowo, w zbiorze treningowym powinny znajdowac sie próbki mowy

osób wywodzacych sie z róznych czesci Polski, a ich rozkład powinien byc proporcjonalny.

W ten sposób, bazujac na odpowiednich przykładach, klasyfikator jest w stanie rozpoznac

odpowiednia próbke.

Pomimo, iz w korpusie zapewniono prawidłowy rozkład płci i wieku mówców,

zdecydowano sie na wprowadzenie dodatkowego elementu. Zbiór treningowy podzielono na

dwie grupy: meska i zenska, a do klasyfikatora dodano moduł rozpoznawania płci. Wezeł

odpowiedzialny za rozpoznawanie płci umieszczono tuz nad algorytmem PAKEmo. W

zaleznosci od płci badanego mówcy, zbiór treningowy PAKEmo stanowi teraz odpowiednio

zbiór wypowiedzi kobiet badz mezczyzn. Rozpoznawanie płci dokonano na podstawie wartosci

sredniej czestotliwosci podstawowej F0.

Klasyfikacja w wykorzystaniem wag

Majac na uwadze nierównomierny wpływ deskryptorów mowy na rozpoznawanie

stanów emocjonalnych, zdecydowano sie na zastapienie metody głosowania równoprawnego

głosowaniem wazonym. W takim przypadku decyzja podejmowana jest równiez na zasadzie

15

głosowania, ale nie kazdy głos jest liczony jednakowo. Dla kazdego ucznia (klasyfikator

konkretnej grupy cech) okresla sie wagi w1, w2, ..., wm, co pozwala nadac priorytet lepszym

uczniom. Decyzja podejmowana jest wtedy na podstawie równania ??.

ri =m∑j=1

wjdji (1)

Z = argl

maxi=1

[ri] (2)

Problem stanowi sposób dobierania własciwych wag, podejscie to wymaga umiejetnosci

ocenienia (albo przynajmniej porównania) klasyfikatorów bazowych. W niniejszej pracy wagi

zostały dobrane doswiadczalnie, na podstawie błedu poszczególnych klasyfikatorów.

Segmentacja mowy

Biorac pod uwage załozenie zmiennosci stanów emocjonalnych w trakcie wypowiedzi

zastosowano segmentacje mowy. Załozono bazowa długosc fragmentu 3 s - w tym czasie

stan nie powinien ulec zmianie. Podobne podejscie autorka zastosowała w [13], gdzie

wypowiedz dzielona była na trzy fragmenty o równej długosci: poczatek, srodek i koniec

wypowiedzi. Nastepnie dokonywana była oddzielna klasyfikacja kazdego z fragmentów,

a wynik rozpoznawania uzyskiwano za pomoca głosowania równoprawnego. Poniewaz w

wykorzystywanym w niniejszej pracy korpusie mowy zdarzaja sie równiez krótsze fragmenty

mowy (krótkie wypowiedzi, pojedyncze słowa), a niekiedy tylko dzwieki (smiech, krzyk, pisk),

tego typu segmentacja nie moze zostac wykorzystana. Dlatego tez zastosowano podział na

3-sekundowe fragmenty. W przypadku, gdy wypowiedz jest krótsza niz 3 s, pozostaje ona

niepodzielona. Jesli jednak wypowiedz jest dłuzsza, całosc zostaje podzielona na fragmenty

3-sekundowe oraz fragment dopełniajacy (majacy co najmniej 500 ms). Jesli fragment koncowy

jest krótszy niz 500 ms, zostaje on dodany do ostatniego fragmentu 3-sekundowego. Nastepnie

kazdy z nich zostaje poddany indywidualnej klasyfikacji przy uzyciu algorytmu k-NN.

Rozpoznawanie intensywnosci emocji podstawowych

Ostatni poziom klasyfikatora stanowi algorytm rozpoznawania intensywnosci emocji

podstawowych. Jak juz wczesniej wspominano, według Plutchika kazda z pierwotnych emocji

moze byc odczuwana w trzech stopniach natezenia (np. gniew: irytacja, gniew, furia).

Intuicyjna zaleznosc podobienstwa mowy neutralnej i emocjonalnej stanowi hipoteze, na

podstawie której opracowano algorytm rozpoznawania natezenia emocji. Mozna zauwazyc, ze

wraz ze wzrostem natezenia konkretnej emocji, podobienstwo głosu do mowy neutralnej spada.

Zaleznosc te autorka prezentowała miedzy innymi w [1]. Zauwazona została proporcjonalna

zmiana konturu czestotliwosci podstawowej wzgledem mowy neutralnej.

16

Bazujac na tych obserwacjach stworzono algorytm rozpoznawania natezenia emocji

podstawowej. Wejscie algorytmu stanowia: obiekty zbioru treningowego danej klasy CUk,

model mowy neutralnej (centroid) Xn oraz nieznany obiekt z okreslona klasa podstawowa

xn. Nastepnie obliczane sa odległosci d pomiedzy centroidem mowy neutralnej, a kazdym

obiektem ze zbioru treningowego CUk. Odległosci te sa sortowane malejaco. Bazujac na nich,

zbiór dzielony jest na trzy podzbiory intensywnosci. Podzbiór, którego odległosc centroidu od

centroidu mowy neutralnej jest najwieksza, uznawany jest za zbiór najwyzszych intensywnosci,

podzbiór z najmniejsza odległoscia, jako intensywnosc najnizsza, zas podzbiór przejsciowy,

jako emocja podstawowa. Dla kazdego podzbioru wyznaczany jest centroid według wzoru 3:

µk =1

Nk

k3Nk∑

k−13

Nk+1

xi dla k = {1, 2, 3} (3)

gdzie: µk - centroid podzbioru k, Nk - licznosc podzbioru k.

Zastosowanie metody najblizszej sredniej (ang. nearest mean), której istota jest zastapienie

wszystkich próbek konkretnej klasy ich wartoscia srednia (centroidem), ogranicza przede

wszystkim czasochłonnosc obliczen. Teraz nieznany obiekt xn porównywany jest tylko z

centroidami konkretnych podzbiorów, a zatem wykonywane sa tylko trzy operacje obliczania

odległosci. Nieznany obiekt przypisywany jest do klasy intensywnosci na podstawie

najmniejszej odległosci od centroidu.

Algorytm wyjsciowy

W poprzednich podrozdziałach szczegółowo opisane zostały kolejne elementy finalnego

algorytmu rozpoznawania mowy emocjonalnej. Składa sie on z pieciu modułów, tworzacych

kolejne poziomy struktury hierarchicznej:

1. Poziom zerowy – wejscie modułu stanowi wypowiedz emocjonalna (wektor cech), która

nastepnie podlega procesowi klasyfikacji okreslajacej płec mówcy. Wyjscie modułu stanowi

wypowiedz z okreslona płcia (meska, zenska).

2. Poziom pierwszy – wejscie modułu stanowi wypowiedz okreslonej płci, która nastepnie

poddawana jest segmentacji. Kazda wypowiedz trwajaca dłuzej niz 3s dzielona jest na

3-sekundowe segmenty.

3. Poziom drugi – wejscie modułu stanowia fragmenty wypowiedzi, które nastepnie

poddawane sa osobnej klasyfikacji z wykorzystaniem klasyfikatora k-NN, a dodatkowo

liczba klasyfikatorów, przypadajaca na jeden fragment uzalezniona jest od liczby grup cech

wykorzystywanych w badaniach.

17

4. Poziom trzeci – stanowi głosowanie wazone na poziomie konkretnych grup cech (np. F0,

LPC, PLP). Wyjsciem modułu sa klasy, których licznosc jest równa liczbie grup cech

wykorzystanych w badaniach.

5. Poziom czwarty – stanowi go głosowanie równoprawne na poziomie konkretnych

fragmentów. Wyjsciem modułu sa klasy, których licznosc jest równa liczbie fragmentów,

na jakie została podzielona wypowiedz.

6. Poziom piaty – konkretna emocja jest badana pod katem jej natezenia. Na podstawie

autorskiego algorytmu porównujacego badana wypowiedz z modelem mowy neutralnej,

okreslana jest jako emocja podstawowa, badz dwie jej diady (najwyzsza intensywnosc,

najnizsza intensywnosc). Krok ten konczy działanie algorytmu.

Profile emocjonalne

Aby lepiej zobrazowac zagadnienie niejednoznacznosci emocji autorka postanowiła

skorzystac z definicji profili emocjonalnych w celu przedstawienia zawartosci danych stanów

w wypowiedzi. Według [10] profil emocjonalny jest to sa wektor wyrazajacy stopien

obecnosci lub nieobecnosci emocji podstawowych w danej wypowiedzi. Mozna w ten sposób

uniknac sztywnej klasyfikacji (ang. hard labeling), zastepujac ja etykietowaniem wielokrotnym

(ang. multiple labeling). Tego typu klasyfikacja moze wskazywac na zawartosc kilku

stanów emocjonalnych w danej wypowiedzi, ich mieszanine czy tez ewolucje emocjonalna

wypowiedzi. Mozliwe jest równiez zastosowanie etykietowania rozmytego, w którym

dodatkowo okresla sie funkcje przynaleznosci do kazdego ze stanów.

Algorytm podstawowy PAKEmo stanowi szereg klasyfikatorów tego samego poziomu,

uwzgledniajacych rozkład grup deskryptorów mowy. Poszerzenie tego modułu o kolejny,

dokonujacy segmentacji mowy, tworzy hierarchiczna strukture klasyfikatorów k-NN, a na

podstawie ich odpowiedzi dokonuje sie głosowania. Zastapienie głosowania analiza odpowiedzi

pozawala na stworzenie profilu emocjonalnego poszczególnych próbek mowy. Poprzez zliczane

kolejnych wyników dla danej emocji budowany jest histogram, przedstawiajacy zawartosc

danych stanów w konkretnej wypowiedzi. Podejscie to nie zastepuje klasyfikacji, a jest jedynie

jej rozszerzeniem, i w szczególnosci ma zadanie zobrazowanie wypowiedzi niejednoznacznie

okreslonych.

5. Podsumowanie

Głównym załozeniem prezentowanych badan było stworzenie systemu pozwalajacego na

automatyczne rozpoznawanie stanów emocjonalnych na podstawie mowy naturalnej. W tym

celu stworzono polska baze emocji spontanicznych, na która składa sie ponad siedemset próbek,

podzielonych na siedem podzbiorów reprezentujacych stany podstawowe. Ponadto w celach

18

porównawczych dokonano równiez analizy emocji odegranych przez profesjonalnych aktorów.

Ilosciowy opis problemu stanowia powszechnie uzywane w tego typu badaniach deskryptory

mowy, które zestawiono z hybrydowymi współczynnikami percepcyjnymi (uzywanymi w

rozpoznawaniu mowy, aczkolwiek pomijanymi w rozpoznawaniu emocji). Jak wykazały

badania, atrybuty te okazały sie silnie dyskryminatywne, co uzasadnia ich uzycie. W

trakcie klasyfikacji porównano algorytm k-NN z autorskim podejsciem opartym na zbiorze

klasyfikatorów (komitecie), majacym zapewnic lepsze wyniki rozpoznawania. Analiza

wyników potwierdziła poczatkowe załozenia autorki.

5.1. Korpus mowy spontanicznej i jego wpływ na rozpoznawanie emocji

Badania nad rozpoznawaniem emocji prowadzone sa na całym swiecie w wielu osrodkach

badawczych. Niestety wiekszosc analiz prowadzona jest na prywatnych korpusach, których

z przyczyn prawnych autorzy zazwyczaj nie moga udostepniac. W niniejszej pracy analize

przeprowadzono na dwóch bazach, porównujac emocje odegrane z naturalnymi. Badania

wykazały jak duzy wpływ na wyniki klasyfikacji maja korpusy tworzace wzorce, co istotnie

utrudnia porównywanie skutecznosci róznych, zaproponowanych dotychczas podejsc. Duze

znaczenie ma przede wszystkim licznosc wzorców. Odpowiednia liczba i róznorodnosc

przykładów moze w znacznym stopniu zwiekszyc jakosc rozpoznawania. Liczba próbek obu

wykorzystanych korpusów rózni sie zasadniczo, co odbija sie równiez na jakosci klasyfikacji.

W przypadku bazy mowy odegranej dysponujemy 40 próbkami danej emocji, zas w przypadku

mowy spontanicznej liczba ich jest co najmniej dwukrotnie wieksza. Dodatkowo, w drugim

przypadku róznorodnosc próbek (płec oraz wiek mówcy) moze miec wpływ na lepsze

wyniki klasyfikacji. Poprzez wykorzystanie wypowiedzi róznego typu, ograniczany jest

wpływ cech osobniczych na rozpoznawanie. Dodatkowo, uwzgledniajac róznice w sposobie

ekspresji emocji przez kobiety i mezczyzn, wprowadzono moduł rozpoznawania płci. W

przypadku mowy spontanicznej spowodowało to poprawe wyników rozpoznawania. Obnizenie

wydajnosci klasyfikatora w przypadku mowy odegranej moze wiazac sie z ograniczeniem

licznosci wzorców po podziale na płec.

W badaniach dokonano równiez klasyfikacji natezen mowy emocjonalnej. Zaprezentowano

autorski algorytm okreslenia intensywnosci danej emocji na podstawie stopnia jej podobienstwa

do mowy neutralnej. Zadanie to równiez wydaje sie byc istotnym: rozróznienie, czy mówca jest

lekko podirytowany, czy tez rozwscieczony, ma znaczenie, w szczególnosci w zastosowaniach

aplikacyjnych. Biorac pod uwage rozmyte granice miedzy konkretnymi natezeniami danej

emocji, w przyszłych badaniach nalezałoby przetestowac róznego typu funkcje przynaleznosci

do rozpoznania konkretnego natezenia.

19

Niewatpliwym atutem bazy mowy spontanicznej sa próbki, których stan emocjonalny

jest niejednoznacznie okreslony. Przeprowadzona analiza pokazuje złozonosc mechanizmów

powstawania emocji, ich percepcji i ekspresji. W naturalnym srodowisku mówca moze

byc targany róznymi emocjami w tym samym momencie, a słuchacz moze róznie odbierac

wysyłane przez niego sygnały. Dlatego tez wzorce mowy odegranej moga nie sprawdzic sie

przy klasyfikacji emocji w warunkach naturalnych. Przeprowadzone badania wskazuja, ze

zaproponowany algorytm radzi sobie równiez z próbkami niejednoznacznie okreslonymi, co

moze wskazywac na to, ze niektórych parametrów głosu człowiek nie jest w stanie zmienic

nawet celowo.

5.2. Deskryptory mowy emocjonalnej

Proces wyznaczania odpowiednich atrybutów, które trafnie opisuja przedmiot analizy, ma

ogromne znaczenie w zadaniach rozpoznawania wzorców. A zatem algorytm klasyfikacji musi

byc poprzedzony procesem doboru wydajnych zestawów cech oraz procesem ich ewentualnej

selekcji. Do ilosciowego opisu problemu autorka posłuzyła sie grupami deskryptorów

mowy powszechnie stosowanymi w badaniach nad rozpoznawaniem emocji: czestotliwosc

podstawowa, formanty, cechy energetyczne, współczynniki LPC, MFCC oraz PLP. Dodatkowo

zaproponowano uzycie deskryptorów, które mimo istotnego wkładu w rozpoznawanie mowy,

pomijane sa w zadaniach rozpoznawania emocji: współczynniki BFCC, HFCC, RPLP oraz

RASTA PLP. Wstepne badania przeprowadzone na konkretnych podzbiorach cech wskazuja,

ze w przypadku obu korpusów najwyzsze wyniki rozpoznawania osiagana sa własnie przy

uzyciu zaproponowanych atrybutów. I tak dla bazy mowy odegranej najlepsze rozpoznawanie

uzyskano na zbiorze współczynników BFCC (64,4%), nieco nizej, aczkolwiek takze wysoko

plasuja sie współczynniki RPLP (58,6%). Dla bazy mowy naturalnej najwyzsze wyniki

otrzymano równiez przy uzyciu współczynników BFCC (77,7%), tuz za nimi plasuja sie

współczynniki MFCC (74%) i HFCC (72,9%). Liczna reprezentacja tych atrybutów po

wykonaniu selekcji metoda SFS na całym zbiorze cech dodatkowo potwierdza siłe owych

deskryptorów. W trakcie badan dokonano równiez redukcji wymiarowosci konkretnych

podzbiorów cech, dzieki czemu udało sie zwiekszyc wyniki rozpoznawania: przykładowo w

przypadku mowy odegranej dla całej puli współczynników BFCC osiagnieto 55,7%, tak po

selekcji 64,4%. W przypadku mowy naturalnej dokładnosc rozpoznawania po zastosowaniu

selekcji równiez uległa zwiekszeniu na kazdym podzbiorze cech.

5.3. Klasyfikacja

Mimo, iz proces klasyfikacji opiera sie na standardowych narzedziach rozpoznawania,

wraz z rosnaca złozonoscia zadan pojawia sie potrzeba nowych rozwiazan, majacych na celu

20

zapewnienie lepszej skutecznosci. W tym celu tworzone sa całkowicie nowe klasyfikatory,

metody hybrydowe, łaczace poszczególne algorytmy, a takze metody usprawniajace istniejace

rozwiazania. Zaproponowany w niniejszej pracy algorytm oparto o teorie tzw. komitetów,

które pracujac wspólnie, osiagaja wyniki lepsze niz pojedyncze modele. Podejscie oparte

na komitetach było wczesniej zastosowane w kilku pracach poswieconych rozpoznawaniu

emocji na podstawie mowy. Jednakze zaleta tego typu klasyfikacji jest mozliwosc

stworzenia róznego rodzaju struktur dostosowanych do konkretnego problemu. Dlatego

tez przedstawione rozwiazanie jest całkowicie innowacyjnym podejsciem w omawianym

zagadnieniu. Zastosowanie komitetu do niniejszych rozwazan wydawało sie byc słuszne

z dwóch powodów. Modele oparte na atrybutach wybranych do reprezentacji emocji

popełniaja rózne błedy dla nowych danych, a zatem mozemy mówic o róznorodnosci

komitetu. Dodatkowo w trakcie badan zauwazono, ze dla okreslonych podzbiorów najlepsze

wyniki osiagane sa przy uzyciu roznych wartosci liczby k algorytmu k-NN. A zatem

zastosowanie rozbicia pojedynczego modelu na zbiór klasyfikatorów, z którego kazdy dokonuje

rozpoznawania na podstawie innego podzbioru atrybutów, a ostateczna decyzja podejmowana

jest na podstawie głosowania, powinno prowadzic do zwiekszenia jakosci rozpoznawania.

Badania udowodniły teze postawiana przez autorke. I tak w przypadku bazy mowy odegranej

wyniki wzrosły ponad 5%. W przypadku bazy mowy naturalnej wyniki równiez wzrosły,

aczkolwiek wzrost ten wynosi jedynie 2,7%. W zwiazku z tym, ze kazdy z podzbiorów

atrybutów ma inny wkład w rozpoznawanie, nastepnym krokiem było zastapienie głosowania

równowaznego wazonym. Wagi dobrano na podstawie błedu konkretnego modelu, a ich

wprowadzenie do algorytmu głosowania ostatecznie uzasadnia uzycie zaproponowanego

rozwiazania.

6. Dalsze prace rozwojowe, potencjał zaprezentowanego rozwiazania

Naturalnym kierunkiem kontynuacji przedstawionych w niniejszej rozprawie badan wydaje

sie byc przede wszystkim sprawdzenie mozliwosci innych algorytmów klasyfikacji jako

modeli bazowych komitetu. Nalezy tutaj podkreslic, ze mozliwe jest zastosowanie komitetów

heterogenicznych, dopasowujac odpowiedni algorytm rozpoznawania do konkretnego

podzbioru cech. Dodatkowo nalezy przetestowac inne kombinacje komitetu stosujac inne

warunki podziału modelu bazowego. Kolejnym kierunkiem rozwoju algorytmu jest okreslenie

dodatkowych cech opisujacych przedmiot analizy. Algorytm mozna poszerzyc o dodatkowe

modele, przykładowo bazujace na prozodiach sygnału (tempo, pauzy) czy tez atrybutach

wyznaczanych na podstawie opisu sygnału metodami zaczerpnietymi z analizy układów

21

nieliniowych. A zatem zastosowane podejscie daje szeroka game mozliwosci dalszego rozwoju

i optymalizacji.

Potrzeba rozszerzenia korpusu mowy o dodatkowe próbki tworzace wzorce oraz

kolejne stany emocjonalne wydaje sie byc oczywista. Jest to niezbedne w szczególnosci

do zastosowania algorytmu rozpoznawania natezenia równiez na pozostałych stanach

podstawowych, nie uwzglednionych w niniejszej analizie. Mozna takze pokusic sie

o poszerzenie korpusu o próbki wypowiedzi dzieci, których ekspresja emocji moze

zaburzyc jakosc rozpoznawania. Waznym kierunkiem rozwoju jest rozpoznawanie stanów

niejednoznacznie okreslonych, a zaproponowana w niniejszej rozprawie metoda etykietowania

poprzez tworzenie profili moze w znacznym stopniu to ułatwic.

Podsumowujac, powyzej zaprezentowane potencjalne mozliwosci rozwoju pozwalaja na

dalsza prace nad rozpoznawaniem stanów emocjonalnych na podstawie sygnału mowy.

Obiecujacym zdaje sie takze byc tworzenie dodatkowych modeli bazujacych na innych

sygnałach: obraz (mimika oraz gesty), sygnały EEG czy analiza obrazu w podczerwieni.

Komitet stworzony na podstawie dodatkowych przesłanek moze w znacznym stopniu poprawic

klasyfikacje.

Analiza emocji znajduje zastosowanie w syntezatorach głosu oraz jako system

wspomagajacy rozpoznawanie mowy. Dodatkowo istotna dziedzina zastosowan jest medycyna,

a w szczególnosci diagnoza zaburzen psychologicznych i neurologicznych, objawiajacych

sie nieprawidłowa percepcja i ekspresja emocji (autyzm, schizofrenia, depresja, stres) oraz

wspomaganie terapii behawioralnej.

Bibliografia

[1] Kaminska D. , Pelikant A. Recognition of Human Emotion from a Speech Signal Based on

Plutchik’s Model. International Journal of Electronics and Telecommunications, 58(2):165–171,

2012.

[2] Kaliouby R., Robinson P. Mind Reading Machines Automated Inference of Cognitive Mental

States from Video. IEEE International Conference on Systems, Man and Cybernetics, pages

682–688, The Hague, Netherlands, 2004.

[3] Silva P.R., Madurapperuma A.P., Marasinghe A., Osano M. A multi-agent based interactive system

towards childs emotion performances quantified through affective body gestures. International

Conference on Pattern Recognition, pages 1236–1239, 2006.

[4] Garay N., Cearreta I., López J.M., Fajardo I. Assistive Technology and Affective Mediation. An

Interdisciplinary Journal on Humans in ICT Environments, 2(1):55–83, 2006.

[5] Plutchik R. Emotion A Psychoevolutionary Synthesis. New York Harper and Row, 1980.

[6] Obrebowski A. Narzad głosu i jego znaczenie w komunikacji społecznej. Uniwersytet Medyczny

im. Karola Marcinkowskiego w Poznaniu, 2008.

[7] Abelin A. Anger or Fear? Cross-Cultural Multimodal Interpretations of Emotional Expressions.

Plural Publishing, 2007.

[8] Izdebski K. Emotions in the Human Voice Volume I Foundations. Plural Publishing, 2007.

[9] Slot K. Wybrane zagadnienia biometrii. Wydawnictwa Komunikacji i Łacznosci WKŁ, 2008.

[10] Mower E., Mataric M.J., Narayanan S.S. A Framework for Automatic Human Emotion

Classification Using Emotional Profiles. IEEE Transactions on Audio, Speech and Language

Processing, 19(5):1057 – 1070, 2011.

[11] Slot K. Rozpoznawanie biometryczne Nowe metody ilosciowej reprezentacji obiektów.

Wydawnictwa Komunikacji i Łacznosci WKŁ, 2010.

[12] Cichosz P. Systemy uczace sie. Wydawnictwa Naukowo-Techniczne, 2007.

[13] Kaminska D., Pelikant A. Rozpoznawanie Stanów Emocjonalnych na Podstawie Analizy Mowy

Spontanicznej. Informatyka, Automatyka Pomiary w Gospodarce i Ochronie Srodowiska, 3, 2012.

23