zaawansowane zagadnienia...
TRANSCRIPT
ZAAWANSOWANE
ZAGADNIENIA ELEKTRONIKI
Rozpoznawanie
mówców, fonoskopia
dr inż. Stefan Brachmański
pok.505 C-5
E-mail:
Etapy rozpoznawanie mówcy
Identyfikacja
Weryfikacja
Autentyzacja
Weryfikacja
W trakcie weryfikacji jest podejmowana decyzja, czy
badana wypowiedź należy do mówcy o deklarowanej tożsamości.
Kryterium podjęcia decyzji to miara podobieństwa wypowiedzi
do modelu mówcy o deklarowanej tożsamości, zarejestrowanego
w systemie. Wynikiem tego procesu jest akceptacja bądź
odrzucenie przez system deklarowanej przez użytkownika
tożsamości. W przypadku dużego podobieństwa pomiędzy
modelem mówcy a badanym głosem zostaje podjęta decyzja o
akceptacji i system – uznając, że badana osoba jest tym, za kogo
się podaje – umożliwia jej dostęp do miejsc zastrzeżonych dla
zarejestrowanych użytkowników.
Identyfikacja
W procesie identyfikacji tożsamość nie jest wstępnie deklarowana, a
mówca, którego głos podlega badaniu, może być już uprzednio
zarejestrowany w systemie bądź jest kimś zupełnie nieznanym dla systemu
rozpoznającego. Podczas identyfikacji w zbiorze zamkniętym zakłada się, iż
dostęp do systemu mają wyłącznie osoby, których modele głosów zostały
wcześniej stworzone w systemie. System rozpoznający podejmuje wówczas
decyzję typu 1 z N, gdzie N stanowi liczbę zarejestrowanych użytkowników.
Gdy założenie to nie jest prawdą, następuje identyfikacja w zbiorze
otwartym. Wtedy dodatkowo należy rozważyć, czy podobieństwo cech
wypowiedzi nieznanego mówcy do cech jednego z modeli mówców
zarejestrowanych w systemie jest na tyle duże, że można podjąć decyzję o
zidentyfikowaniu osoby czy też uznać wypowiedź jako nie należącą do
żadnego z mówców zarejestrowanych w systemie. W drugiej z opisanych
sytuacji system może podjąć decyzję o odrzuceniu mówcy bądź też jego
zarejestrowaniu.
Autentyzacja
Ostatnią z procedur realizowanych przez systemy rozpoznawania
mówców jest autentyzacja. Polega ona na ustaleniu, czy wypowiedź należy
do jednego z mówców wcześniej zarejestrowanych w systemie czy też nie.
Systemy rozpoznawania mówców są dzielone na zależne od tekstu
(text dependent) oraz niezależne od tekstu (text independent). Zależność od
tekstu oznacza, iż w trakcie próby rozpoznania system wymaga, aby osoba
rozpoznawana wypowiedziała słowo lub słowa, które znalazły się w
sekwencji uczącej, wykorzystywanej do stworzenia modelu mówcy. Jeżeli
natomiast w wypowiedzi, na podstawie której osoba jest identyfikowana,
mogą znaleźć się dowolne słowa, to mówimy o systemach niezależnych od
tekstu.
Ogólna struktura systemów
rozpoznawania mówców
W każdym systemie rozpoznawania mówców można wyróżnić
kilka głównych elementów składowych. Sygnał akustyczny, po
spróbkowaniu i podziale na segmenty (ramki) o długości do
kilkudziesięciu milisekund, jest poddawany operacjom
matematycznym, mającym na celu ekstrakcję parametrów (feature
extraction), które w możliwie największym stopniu przenoszą
informację osobniczą, identyfikującą mówcę.
Mała liczba parametrów:
• szybciej wykonywane obliczenia
• pogorszenie własności systemu
Duża liczba parametrów:
• rośnie liczba niezbędnych obliczeń, a
tym samym czas ich wykonania
• wzrasta lecz nie w sposób znaczący
efektywności rozpoznawania
Parametry
ekstrahowane z sygnału mowy
powinny w możliwie jak
największym stopniu
przenosić informacje
charakterystyczne dla mówcy.
Dobór ich właściwego
zestawu jest jednym z
najpoważniejszych zadań,
warunkujących wysoką
efektywność rozpoznawania.
Schemat blokowy systemu
identyfikacji mówców
Identyfikacja
Identyfikacja w zbiorze otwartym - polega na wprowadzeniu
pewnego progu, którego przekroczenie pozwala ustalić, czy osoba
rozpoznawana jest już w systemie, czy jest to ktoś zupełnie nowy
dla układu rozpoznającego
Identyfikacja w zbiorze zamkniętym - sposób identyfikacji jest
właściwy tylko w przypadku identyfikacji w zbiorze, w którym
dostęp do systemu mają jedynie osoby zarejestrowane w systemie –
czyli zostaje wybrany ten model, dla którego prawdopodobieństwo
wygenerowania zarejestrowanej wypowiedzi jest największe.
Parametry wyodrębnione z wypowiedzi osoby rozpoznawanej tworzą
ciąg wielowymiarowych wektorów, zwanych sekwencją testową.
Identyfikacja osoby polega na obliczeniu podobieństwa pomiędzy
sekwencją testową, a wszystkimi modelami mówców. Osoba zostaje
rozpoznana jako ta, dla której sumaryczna odległość pomiędzy jej
modelem a ciągiem testowym jest najmniejsza
W przypadku weryfikacji obliczenie podobieństwa modelu
do ciągu testowego wykonuje się tylko dla modelu mówcy, którego
tożsamość jest deklarowana. W odróżnieniu jednak od identyfikacji
w zbiorze zamkniętym istnieje konieczność określenia dla każdego z
mówców wartości progu, po przekroczeniu którego zostaje podjęta
decyzja o akceptacji bądź odrzuceniu użytkownika.
Weryfikacja
Dodatkową cechą odróżniającą identyfikację od weryfikacji jest
wpływ populacji mówców na efektywność działania systemu
rozpoznającego. W przypadku identyfikacji – ze wzrostem liczby
zarejestrowanych mówców czyli klas, rośnie monotonicznie
prawdopodobieństwo błędnej klasyfikacji, podczas gdy w przypadku
weryfikacji jest ono praktycznie stałe.
Parametry fizyczne systemu rozpoznawania
mówcy
Zasadniczym czynnikiem, który wpływa na efektywność systemu
rozpoznawania głosów, jest wybór najlepszych mierzalnych wielkości
fizycznych sygnału mowy związanych z rozpoznawanymi klasami.
Efektywność systemu rozpoznawania mówcy zależy w dużej mierze od tego,
w jakim stopniu badane parametry fizyczne sygnału mowy będą odpowiadały
za przenoszenie cech osobniczych mówcy. Najważniejsze cechy, jakimi
powinny charakteryzować się te parametry, to ich duża odporność na zmiany
sygnału mowy mówcy w czasie czyli tzw. niska zmienność wewnątrz
osobnicza oraz wysoka zmienność międzyosobnicza. Parametry o tych
własnościach umożliwiają, mimo nieuchronnych zmian głosu mówcy w
czasie, poprawne zidentyfikowanie tego głosu wśród innych mówców. Do
wielkości oraz parametrów fizycznych sygnału mowy najczęściej stosowanych
w procesie automatycznego rozpoznawania mówcy należy zaliczyć:
parametry wyznaczone bezpośrednio z przebiegu czasowego`
– względne długości czasu wypowiedzi poszczególnych elementów fonetycznych
– obwiednia czasowa amplitudy dźwięku
– parametry analizy przejść przez zero sygnału mowy
– rozkład interwałów czasowych
parametry wyznaczone z widma sygnału mowy:
– uśrednione widmo amplitudowe
– częstotliwość podstawowa tonu krtaniowego
– częstotliwości, stosunki amplitudowe oraz szerokości pasm formantów
– widmo krótkoterminowe
– momenty widmowe
parametry liniowego kodowania predykcyjnego (LPC)
inne, jak np. charakterystyki prozodyczne
Weryfikacja mówcy – etap uczenia
Ekstrakcja
cech
Cyfrowa
akwizycja
sygnału
Fala dźwiękowa
(mowa) mówcy„A”
Mówca „A”
N wypowiedzi
Wektory
cech
N wymiarowe
wektory cech Rejestracja
modelu
Osoba znana:
„Mówcą jest „A””
Model mówcy
”A”
Mowa
cyfrowa
Kanał transmisyjny sygnału
Metody rozpoznawania mówców
Po otrzymaniu ciągu wektorów testowych ekstrahowanych z wypowiedzimówcy należy obliczyć jego podobieństwo do znajdującego się w systemiemodelu (weryfikacja) bądź modeli mówców (identyfikacja). Pozostaje pytanie,jak obliczyć to podobieństwo i skąd uzyskać model mówcy. Metodyrozpoznawania można podzielić na dwie grupy, a mianowicie oparte namodelach nieparametrycznych i parametrycznych mówcy.
Modele nieparametryczne
Jednym z algorytmów nieparametrycznych jest metoda, w której
model mówcy stanowią wszystkie wektory uzyskane z sekwencji treningowej.
Ponieważ w przypadku rozpoznawania niezależnego od tekstu mówca musi
dostarczyć wypowiedzi o czasie trwania rzędu kilkudziesięciu sekund, to jasne
się staje, że model uzyskany na podstawie tej metody będzie stanowić zbiór
wielu tysięcy wielowymiarowych wektorów.
Rozpoznanie osoby polega na znalezieniu dla każdego wektora z
sekwencji testowej najbardziej podobnego wektora z modelu, tzw.
Najbliższego sąsiada NN (nearest neighbour) i obliczeniu pomiędzy nimi
odległości. Sumaryczna odległość dla całej sekwencji testowej unormowana
względem jej czasu trwania, stanowi miarę podobieństwa wypowiedzi do
danego modelu i stanowi podstawę do podjęcia decyzji o identyfikacji bądź
weryfikacji mówcy.
Modele parametryczne
Innym sposobem modelowania mówcy jest zastosowanie
modeli parametrycznych, w których wynikiem rozpoznania jest
prawdopodobieństwo, że dana wypowiedź została wygenerowana
przez określoną osobę. Grupa tych algorytmów znajduje się obecnie
w centrum uwagi badaczy, zajmujących się tematyką
rozpoznawania mówcy, ze względu na bardzo dużą efektywność
rozpoznawania.
Istnieje również wiele innych metod rozpoznawania
mówców, jak choćby opartych na modelach kowariancyjnych,
ergodycznych ukrytych łańcuchach Markowa (HMM) lub też
różnego rodzaju modyfikacjach kwantyzacji wektorowej.
Zastosowanie technik identyfikacji osób - Fonoskopia
Co to są badania fonoskopijne?
Fonoskopia (gr. phone - dźwięk, skopeo - patrzę) jest działem badań
kryminalistycznych, który zajmuje się:
- badaniem utrwalonej mowy,
- identyfikacją osób biorących udział w nagraniu,
- ustaleniem liczby osób biorących udział w nagraniu,
- wnioskowaniem o osobowości, pochodzeniu i cechach charakterystycznych NN
osób na podstawie analizy mowy ciągłej, jego stanie emocjonalnym, chorobach i
zaburzeniach narządu mowy
- badanie wpływu alkoholu, leków, narkotyków i innych środków odurzających na
mowę,
- odsłuchem treści nagrań intensywnie zakłóconych i zniekształconych,
- badaniem autentyczności dowodowych nagrań,
- identyfikacją urządzeń do rejestracji i transmisji,
- badaniem warunków akustyczno-technicznych nagrania,
- określeniem czasu i miejsca zdarzenia.
Autentyczność zapisu
Aby sąd uznał nagranie za dowód konieczne jest wykazanie jego
autentyczności. Badanie autentyczności nagrania polega na ocenie
integralności zapisu całego zdarzenia (np. rozmowy) przy
uwzględnieniu takich zjawisk zachodzących w trakcie nagrania,
na które potencjalny fałszerz nie mógł mieć wpływu.
W tym celu bada się m.in.: treść rozmowy, linię intonacyjną
zarejestrowanych słów, fraz, zdań oraz bada się ciągłość sygnałów
wynikającą z psychofizjologicznego procesu mówienia, kontekstu
sytuacyjnego, warunków akustycznych oraz jakości urządzeń
rejestrujących (a w pewnych przypadkach także przekazujących
dźwięk). Po wykonaniu badania autentyczności zapisu możemy
odpowiedzieć sobie na następujące pytania:
Autentyczność zapisu
• czy zapisano całą rozmowę czy tylko jej fragmenty;
• czy po nagraniu nic z niego nie usunięto (np. fragmenty zdań,
słowa);
• czy nie zmieniono kolejności wypowiedzi;
• jeśli zmontowano dane nagranie to czy z jednej, czy też kilku
innych rozmów;
• czy nagranie lub nagrania zarejestrowano na tym samych
sprzęcie i w tych samych warunkach akustycznych.
Stenogram
Czas sporządzania stenogramu waha się od 1 – 2 godz. dla
każdej minuty nagrania; czas ten uzależniony jest od
jakości nagrania oraz ilości osób biorących udział w
nagranej rozmowie i sposobie jej prowadzenia (jeżeli
występują jednoczesne wypowiedzi kilku osób, wypowiedzi
zagłuszone są szumem lub innymi zakłóceniami,
sporządzenie stenogramu z 1 min nagrania może
przekroczyć czasami nawet 2 godzin pracy biegłego).
Rys historyczny
Rozpoznawanie osób na podstawie ich głosu znane jest
od bardzo dawna. Pierwszy przypadek rozpoznania
osoby na podstawie głosu, jest opisany w Biblii, a
dotyczy sytuacji wymuszenia podstępem ojcowskiego
błogosławieństwa. Niewidomy Izaak rozpoznał głos
swego syna Jakuba przebranego za Ezawa.
(„Zbliżył się tedy Jakub do Izaaka, ojca swego, który
dotknął się go, i rzekł: Głos jest głosem Jakuba ale ręce są
rękami Ezawa”, Księga Rodzaju (Genesis), 27.22).
Rys historyczny
Historycznie po raz pierwszy
dla potrzeb sądownictwa
mówcę na podstawie głosu
rozpoznano w Anglii w r. 1660.
W USA w 1907 r. rozpoznano głos
gwałciciela na podstawie dwóch
zdań wypowiedzianych w sądzie.
Rys historyczny
Bardzo spektakularnym przypadkiem było
rozpoznanie przez słynnego pilota Lindbergha,
głosu mordercy swego syna. Syn Lindbergha
został porwany 1 marca 1932r. Porywacz zażądał
50000$, a negocjacje prowadzone były listownie
oraz poprzez ogłoszenia w lokalnej gazecie.
Charles Lindbergh
Bruno Richard
Hauptmann (stracony
03.04.1936r. w Trenton)
Rys historyczny
W nocy 2 kwietnia 1932 Lindbergh wraz z
negocjatorem pojechali na cmentarz, aby
przekazać okup. Lindbergh siedząc w aucie nie
widział porywacza lecz słyszał jak ten wołał
negocjatora słowami „Here, Doctor. Over here!
Over here!”.
Charles Lindbergh
Bruno Richard
Hauptmann (stracony
03.04.1936r. w Trenton)
Rys historyczny
Pięć tygodni później znaleziono zwłoki syna Lindberga.
Policja aresztowała Brunona Hauptmana podejrzanego
o porwanie i morderstwo. W toczącym się śledztwie, we
wrześniu 1934r czyli 29 miesięcy po usłyszeniu słów na
cmentarzu, Lindbergh ponownie je usłyszał, tym razem
Charles Lindbergh
Bruno Richard
Hauptmann (stracony
03.04.1936r. w Trenton)
powtórzone przez Hauptmana. Lindbergh rozpoznał głos Hauptmana jako
głos z cmentarza. Na rozprawie sądowej w styczniu 1935 roku zeznał pod
przysięgą, że rozpoznał głos Hauptmana.
Rys historyczny
W Polsce badania fonoskopijne mają swój
początek w 1961 roku kiedy to Sąd
Najwyższy w ogłoszonym wyroku orzekł,
że „taśma magnetofonowa z
zarejestrowanym na niej przebiegiem całości
lub poszczególnych fragmentów
postępowania przygotowawczego, czy też
rozprawy, ma charakter dokumentu.
W 1963 roku Sąd Najwyższy wydał
orzeczenie, w którym ostatecznie zawarł
rozstrzygnięcie, że „dowód z taśmy
magnetofonowej stanowi dowód rzeczowy”.
Metody identyfikacji
1. Metoda Kersta - metoda identyfikacji głosu opracowana przez Lawrence’a G.
Kersta, fizyka z Bell Laboratories; dokładność identyfikacji tą metodą według
autora sięga 99 %, a według jego uczniów od 90 do 98%. Według metody Kersta
można identyfikować wyłącznie analogiczne słowa, zwroty lub zdania, które
zostały zarejestrowane odpowiednio w dobrych warunkach akustycznych i w
szerokim paśmie częstotliwości, a nagrania nie są zakłócone i zniekształcone.
2. Metoda polska oparta na analizie cech mowy. Uwzględnia ona właściwości
lingwistyczne, fonematyczne i akustyczne mowy. Analizuje nie tylko barwę głosu,
ale też zależności pomiędzy jego brzmieniem a środowiskiem społecznym osoby
wypowiadającej się czy przebytymi przez tę osobę chorobami.
3. Metoda audytywno-spektralna. Pierwszym etapem są analizy wypowiedzi,
dokonywane pod kątem językowym, pod kątem sposobu mówienia czy też
analizy treści. Badając sposób mówienia zwraca się baczną uwagę na akcent,
intonację, tempo mówienia. Drugi etap polega na porównaniu obrazów
wypowiedzi czyli odwzorowań graficznych, wizualnych sygnału wypowiedzi; są
to najczęściej spektrogramy otrzymane na podstawie analizy spektograficznej
określonej frazy, jednakowej dla wszystkich badanych głosów
Materiał porównawczy
Materiałem porównawczym do badań fonoskopijnych jest próbka głosu pobrana i
zarejestrowana od osoby podejrzanej. Pobrania próbki głosu dokonać powinien
ekspert, albo pracownik operacyjny lub dochodzeniowo-śledczy specjalnie
przeszkolony, używający magnetofonu możliwie najwyższej klasy. Nagranie
powinno być dokonane w specjalnym studio, lub wyjątkowo w specjalnie
przygotowanym wyciszonym pokoju.
Z uwagi na potrzebę precyzyjności badań istnieje szereg zasad, którymi w swojej
pracy powinien kierować się rzetelny biegły z zakresu fonoskopii. Wypowiedź
dowodowa i porównawcza powinny być do siebie podobne pod względem:
- objętości, treści i formy;
- struktury syntaktyczno-stylistycznej,
- tempa mówienia.
Próbka głosu powinna być pobrana we wszystkich możliwych natężeniach siły głosu
(normalne natężenie, szept, głos podniesiony). Ważne jest by część wypowiedzi miała
charakter spontaniczny i naturalny.
„Dzień dobry”
Analiza tła
Analiza tła
Analiza tła
Analiza tła
18:30