[apresentação de defesa] análise comparativa entre os métodos hmm e gmm-ubm na busca pelo...
DESCRIPTION
120ª Defesa do Mestrado em Telecomunicações - Inatel (Instituto Nacional de Telecomunicações). 09/10/2014 Aluno: Ramon Mayor Martins Professor: Dr. Carlos Alberto Ynoguti Título: Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLNTRANSCRIPT
![Page 1: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/1.jpg)
Análise comparativa entre os métodos
HMM e GMM-UBM na busca pelo α-
ótimo dos locutores crianças para
utilização da técnica VTLN
Aluno: Ramon Mayor Martins
Prof. Orientador: Dr. Carlos Alberto Ynoguti
Mestrado em Telecomunicações
09 de Outubro de 20141
![Page 2: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/2.jpg)
Agenda
I. Contextualização
II. Normalização do Locutor: VTLN
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM
IV. Reconhecimento do Sistema Normalizado
V. Resultados Experimentais
VI. Conclusões
VII. Trabalhos Futuros
VIII. Artigos Publicados
2
![Page 3: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/3.jpg)
Agenda
I. Contextualização
II. Normalização do Locutor: VTLN
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM
IV. Reconhecimento do Sistema Normalizado
V. Resultados Experimentais
VI. Conclusões
VII. Trabalhos Futuros
VIII. Artigos Publicados
3
![Page 4: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/4.jpg)
I. Contextualização
Nos últimos anos progressos significativos no desenvolvimento de Sistemas de
Reconhecimento de Fala (SRF).
A maior parte das pesquisas devotada a sistemas para locutores adultos.
Fraco desempenho dos SRF para usuários crianças.
Recentemente, grande atenção foi dada aos SRF para crianças em diversas
aplicações, por exemplo:
4
![Page 5: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/5.jpg)
I. Contextualização
SRF crianças
Brinquedos Sites Educacionais Tecnologias Assistivas
Aplicativos para Celulares Tecnologias Contemporâneas
5
Entretenimento
![Page 6: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/6.jpg)
I. Contextualização
Desafio: Aumentar o desempenho dos SRF para crianças aos mesmos níveis que para
os adultos.
Dificuldades: Variabilidades na fala entre locutores crianças e adultos.
Variabilidade: Comprimento do trato vocal (VTL).
6
19 cm14,5 cm
12 cm
![Page 7: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/7.jpg)
Agenda
I. Contextualização
II. Normalização do Locutor: VTLN
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM
IV. Reconhecimento do Sistema Normalizado
V. Resultados Experimentais
VI. Conclusões
VII. Trabalhos Futuros
VIII. Artigos Publicados
7
![Page 8: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/8.jpg)
Função: Mitigar as variabilidades do comprimento do trato vocal.
Técnica: Normalização de Comprimento do Trato Vocal (VTLN).
Investigações: SRF treinado com locutores adultos e utilizado para reconhecer fala
infantil, VTLN é capaz de melhorar o desempenho do reconhecimento.
8
Funcionamento: Todos os locutores analisados são normalizados em relação a um
locutor médio (ou seja, para o SRF os locutores parecerão ter a mesma voz).
Processo: Transformação dos parâmetros acústicos da fala através de escalonamento
do banco de filtros.
II. Normalização de Locutor: VTLN (Vocal Tract Length Normalization)
![Page 9: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/9.jpg)
Escalonamento do banco de filtros:
Obtido a partir do escalonamento das frequências centrais do banco de filtros realizado
por um fator de escalonamento (α).
O novo banco de filtros é obtido através da equação:
9
II. Normalização de Locutor: VTLN (Vocal Tract Length Normalization)
![Page 10: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/10.jpg)
Escalonamento do banco de filtros:
10
As frequências no banco de filtro serão comprimidas se () ou serão
expandidas se () .
II. Normalização de Locutor: VTLN (Vocal Tract Length Normalization)
![Page 11: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/11.jpg)
Fator de escalonamento ótimo (ótimo)
O ótimo será aquele que maximiza a probabilidade de um conjunto de características
acústicas de um determinado locutor em relação a um modelo acústico de referência.
11
II. Normalização de Locutor: VTLN (Vocal Tract Length Normalization)
![Page 12: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/12.jpg)
O fator ótimo é obtido pela busca entre uma faixa de fatores de escalonamento.
α é representado pela razão entre o VTL do locutor sendo analisado e o VTL utilizado
como referência.
Faixa: SRF treinado com locutores adultos e testado com crianças: = 0.70 (da razão
12/17) até = 1.12 (da razão 19/17).
Busca com passo de 0,02.
22 fatores.
Utilizados os métodos estatísticos HMM e GMM-UBM.
12
II. Normalização de Locutor: VTLN (Vocal Tract Length Normalization)
![Page 13: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/13.jpg)
Agenda
I. Contextualização
II. Normalização do Locutor: VTLN
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM
IV. Reconhecimento do Sistema Normalizado
V. Resultados Experimentais
VI. Conclusões
VII. Trabalhos Futuros
VIII. Artigos Publicados
13
![Page 14: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/14.jpg)
HMM – Hidden Markov Model (Modelo Oculto de Markov).
Máquina de estados finitos conectados.
A cada transição A = (𝑎𝑖𝑗) ocorre a emissão de um símbolo, com uma probabilidade B =
(𝑏𝑖(𝑂𝑡) ) formando uma sequência de símbolos observáveis.
Modela variabilidades temporais e espectrais.
Notação para caracterizar o modelo HMM. (Sendo π – o estado inicial).
Método Estatístico : HMM
14
Estrutura de um HMM left-right de 5 estados.
III. Processo de busca utilizando HMM e GMM-UBM
![Page 15: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/15.jpg)
GMM – Gaussian Mixture Models (Modelo de Mistura Gaussiana).
Modela qualquer tipo de distribuição de dados, alterando seus parâmetros de mistura.
Ex: vetores acústicos extraídos de um sinal de voz de um locutor.
o GMM modela somente as variabilidades espectrais.
Utiliza-se a notação para caracterizar o modelo GMM.
15Exemplo de 4 gaussianas na mistura (GMM)
Método Estatístico : GMM-UBM
III. Processo de busca utilizando HMM e GMM-UBM
![Page 16: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/16.jpg)
III. Processo de busca utilizando HMM
16
![Page 17: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/17.jpg)
III. Processo de busca utilizando GMM-UBM
1717
![Page 18: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/18.jpg)
1-Distribuição dos valores dos Fatores de Escalonamento Ótimo
Conjunto de teste crianças:
18
Avaliação dos Processos
III. Processo de busca utilizando HMM e GMM-UBM
![Page 19: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/19.jpg)
2- Análise da curva de máxima verossimilhança por fator de escalonamento.
Locutor criança “bg” do conjunto de teste:
Utilizando o método de busca
HMM
Utilizando o método de busca
GMM-UBM
19
Avaliação dos Processos
III. Processo de busca utilizando HMM e GMM-UBM
![Page 20: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/20.jpg)
2- Análise da curva de máxima verossimilhança por fator de escalonamento.
Locutor criança “bg” do conjunto de teste:
Utilizando o método de busca
HMM
Utilizando o método de busca
GMM-UBM
20
Avaliação dos Processos
III. Processo de busca utilizando HMM e GMM-UBM
![Page 21: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/21.jpg)
2- Análise da curva de máxima verossimilhança por fator de escalonamento.
Locutor criança “bg” do conjunto de teste:
Utilizando o método de busca
HMM
Utilizando o método de busca
GMM-UBM
21
Avaliação dos Processos
III. Processo de busca utilizando HMM e GMM-UBM
![Page 22: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/22.jpg)
Agenda
I. Contextualização
II. Normalização do Locutor: VTLN
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM
IV. Reconhecimento do Sistema Normalizado
V. Resultados Experimentais
VI. Conclusões
VII. Trabalhos Futuros
VIII. Artigos Publicados
22
![Page 23: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/23.jpg)
IV. Reconhecimento do Sistema
23
Pre-ênfase
|FFT|²Banco de
FiltroLog DCT
HCopy
MFCC Treino
MFCCSinal de
Voz
MFCC Teste
Reconhecedor - HMM λ
Treinamento
Teste
WER%
Extração de Parâmetros Acústicos
Janela
![Page 24: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/24.jpg)
IV. Reconhecimento do Sistema
24
Pre-ênfase
|FFT|²Banco de
FiltroLog DCT
HCopy
MFCC Treino
MFCCSinal de
Voz
MFCC Teste
Reconhecedor - HMM λ
Treinamento
Teste
WER%
Extração de Parâmetros Acústicos
Extração de Parâmetros: Pré-Enfase: (1-0,97𝑧−1)
Janela: Hamming. Com duração de 25ms e um atraso de 10 ms para o início da próxima janela.
Coeficientes: 39 MFCC (para cada locução proferida por cada locutor)
Banco de filtros: 24 filtros triangulares passa-faixa
Janela
![Page 25: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/25.jpg)
IV. Reconhecimento do Sistema
25
Pre-ênfase
|FFT|²Banco de
FiltroLog DCT
HCopy
MFCC Treino
MFCCSinal de
Voz
MFCC Teste
Reconhecedor - HMM λ
Treinamento
Teste
WER%
Extração de Parâmetros Acústicos
Base de Dados: TIDIGITS – Texas Instruments Inglês-americano Dígitos conectados 325 locutores (111 homens, 114
mulheres, 50 meninos e 50 meninas).
77 locuções
Janela
![Page 26: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/26.jpg)
IV. Reconhecimento do Sistema
26
Pre-ênfase
|FFT|²Banco de
FiltroLog DCT
HCopy
MFCC Treino
MFCCSinal de
Voz
MFCC Teste
Reconhecedor - HMM λ
Treinamento
Teste
WER%
Extração de Parâmetros Acústicos
Topologia do modelo HMM: 5 estados, do tipo “left-right”
utilizando trifones.
Janela
![Page 27: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/27.jpg)
IV. Reconhecimento do Sistema
27
Pre-ênfase
|FFT|²Banco de
FiltroLog DCT
HCopy
MFCC Treino
MFCCSinal de
Voz
MFCC Teste
Reconhecedor - HMM λ
Treinamento
Teste
WER%
Extração de Parâmetros Acústicos
Treinamento: 55 locutores femininos e 57
locutores masculinos (112 locutores no total).
Algoritmo Baum-Welch para reestimações.(HERest)
Gaussianas na Mistura: 1, 2, 4, 8, 16, 32, 64, 128.
Janela
![Page 28: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/28.jpg)
IV. Reconhecimento do Sistema
28
Pre-ênfase
|FFT|²Banco de
FiltroLog DCT
HCopy
MFCC Treino
MFCCSinal de
Voz
MFCC Teste
Reconhecedor - HMM λ
Treinamento
Teste
WER%
Extração de Parâmetros Acústicos
Teste: 25 locutores meninos e 25
locutores meninas (50 no total)normalizados com os fatoresótimos encontrados pelosmétodos HMM e GMM-UBM paracada locutor
Algoritmo de Viterbi (HVite)
Obtenção da taxa de erro de palavra (WER%)
Janela
![Page 29: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/29.jpg)
Agenda
I. Contextualização
II. Normalização do Locutor: VTLN
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM
IV. Reconhecimento do Sistema Normalizado
V. Resultados Experimentais
VI. Conclusões
VII. Trabalhos Futuros
VIII. Artigos Publicados
29
![Page 30: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/30.jpg)
V. Resultados Experimentais
Cenário: Reconhecimento de Fala treinado por locutores adultos e utilizado com
crianças.
Objetivo: Medir a melhoria que a técnica VTLN pode fornecer ao sistema.
Experimentos: Foram realizados três conjuntos de experimentos:
Treinamento com locutores adultos e teste com crianças normalizadas (A-C)
Treinamento com locutores masculinos e teste com crianças normalizadas (M-C)
Treinamento com locutores femininos e teste com crianças normalizadas (F-C)
30
![Page 31: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/31.jpg)
V. Resultados Experimentais
Mistura ótima (Ponto de mínimo):
64 Gaussianas na mistura.
Possível Razão - Por ser maior a
variabilidade entre adultos.
Taxa de Erro de Palavra (WER%):
HMM - no ponto de mínimo WER
de 1,88% uma redução de 3,07%
em relação à baseline.
GMM-UBM - no ponto de mínimo
WER de 1,92%, uma redução de
3,03% em relação a baseline.
Sistema treinado com locutores Adultos e testado com Crianças:
31
Gaussianas na Mistura
![Page 32: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/32.jpg)
Sistema treinado com Locutores Masculinos e testado com Crianças:
Mistura ótima (Ponto de mínimo):
4 Gaussianas na mistura.
Possível Razão – A variabilidade
é menor entre locutores
masculinos.
Taxa de Erro de Palavra (WER%):
HMM - no ponto de mínimo WER
28,39% uma redução de 6,83%
em relação à baseline.
GMM-UBM - no ponto de mínimo
WER de 29,75%, uma redução
de 5,47% em relação a baseline.
Mesmo com o VTLN, a WER
continuou alta.
32
V. Resultados Experimentais
Gaussianas na Mistura
![Page 33: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/33.jpg)
Sistema treinado com Locutores Femininos e testado com Crianças:
Mistura ótima (Ponto de mínimo):
32 Gaussianas na mistura.
Possível Razão – Há
variabilidades entre os locutores
femininos, por exemplo, alguns
locutores femininos podem ter
voz mais grave e outros mais
agudos.
Taxa de Erro de Palavra (WER%):
HMM - no ponto de mínimo WER
1,47% uma redução de 2,4% em
relação à baseline.
GMM-UBM - no ponto de mínimo
WER de 1,58%, uma redução de
2,29% em relação a baseline.
33
V. Resultados Experimentais
Gaussianas na Mistura
![Page 34: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/34.jpg)
Agenda
I. Contextualização
II. Normalização do Locutor: VTLN
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM
IV. Reconhecimento do Sistema Normalizado
V. Resultados Experimentais
VI. Conclusões
VII. Trabalhos Futuros
VIII. Artigos Publicados
34
![Page 35: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/35.jpg)
Comparação entre os métodos HMM e GMM-UBM
Desempenho:
Nos experimentos, conforme observado nos Resultados, o desempenho entre os
sistemas foi similar.
35
VI. Conclusões
![Page 36: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/36.jpg)
Desempenho:
Nos experimentos, conforme observado nos Resultados, o desempenho entre os
sistemas foi similar.
Complexidade de Implementação:
HMM:
• Requer uma topologia baseada em estados;
• Os estados necessitam de uma probabilidade de transição e permanência, atualizados
durante o treinamento;
• Quanto maior a locução, mais complexo será o modelamento do sistema;
• Necessidade de transcrição fonética.
GMM-UBM
• Utiliza somente um estado, que corresponde a palavra inteira;
• Não utiliza transcrições fonéticas.
• Mais simples!
36
Comparação entre os métodos HMM e GMM-UBM
VI. Conclusões
![Page 37: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/37.jpg)
37
Custo Computacional:
Tempo de Processamento
• Busca pelo α-ótimo:
HMM – 2 minutos por locutorGMM – 1 minuto e meio por locutor
• Processamento dos modelos pré-treinados:
Comparação entre os métodos HMM e GMM-UBM
VI. Conclusões
![Page 38: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/38.jpg)
38
Custo Computacional:
Utilização dos Recursos de Memória*
*utilizado o SensorsScreenlet v0.1 Linux Ubuntu 9.04
Comparação entre os métodos HMM e GMM-UBM
VI. Conclusões
![Page 39: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/39.jpg)
Foi apresentada uma forma alternativa, mais simples, de menor custo
computacional e de memória, com desempenho similar, para o cálculo dos α-
ótimos, para a utilização da técnica VTLN.
A taxa de acertos subiu para 70,25% no caso de um sistema treinado com
locutores adultos e testado com locutores crianças.
HMM GMM-UBM
Desempenho (WER%)
Complexidade de Implementação
Custo Computacional(Tempo de
Processamento)
Custo Computacional(Utilização dos Recursos
de Memória)
39
VI. Conclusões
![Page 40: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/40.jpg)
Agenda
I. Contextualização
II. Normalização do Locutor: VTLN
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM
IV. Reconhecimento do Sistema Normalizado
V. Resultados Experimentais
VI. Conclusões
VII. Trabalhos Futuros
VIII. Artigos Publicados
40
![Page 41: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/41.jpg)
Como sugestão de futuras investigações sugerem-se:
No processo de extração de características acústicas, utilização de janelas
mais curtas, pois, segundo [1], deve-se proporcionar uma melhor adaptação à
fala de crianças que têm tom mais alto, (por exemplo 15 ms).
Realizar uma análise comparativa dos métodos HMM e GMM-UBM para
modelos acústicos dependentes de idades, pois, segundo [2], há uma forte
relação entre o fator ótimo de escalonamento e a idade dos locutores
crianças.
41
[1] TEIXEIRA, A. D. C. Deteção e Correção de Disfluências em Crianças. Dissertação de Mestrado Faculdade de Ciência e
Tecnologia. Coimbra. Portugal.
[2] GEROSA, M., GIULIANI, D., NARAYANAN, S. and POTAMIANOS, A., "A Review of ASR Technologies for Children’s",
WOCCI'09 - Proceedings of the 2nd Workshop on Child, Computer and Interaction, pp. 3-6, Nov. 2009.
VII. Trabalhos Futuros
![Page 42: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/42.jpg)
Agenda
I. Contextualização
II. Normalização do Locutor: VTLN
III. Processo de Busca do α-ótimo utilizando HMM e GMM-UBM
IV. Reconhecimento do Sistema Normalizado
V. Resultados Experimentais
VI. Conclusões
VII. Trabalhos Futuros
VIII. Artigos Publicados
42
![Page 43: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/43.jpg)
YNOGUTI, C. A. e MARTINS, R. M. , “GMM as an alternative to HMM in the
search for the optimal warping factor for VTLN”, ITS 2014 - International
Telecommunications Symposium, São Paulo – SP.
YNOGUTI, C. A. e MARTINS, R. M. , “Normalização do locutor em
Sistemas de Reconhecimento de Fala para usuários crianças”, IHC 2014 -
XIII Simpósio Brasileiro Sobre Fatores Humanos em Sistemas
Computacionais, Paraná – PR.
VIII. Artigos Publicados
43
![Page 44: [Apresentação de Defesa] Análise comparativa entre os métodos HMM e GMM-UBM na busca pelo α-ótimo dos locutores crianças para utilização da técnica VTLN](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559ebccc1a28ab832a8b4719/html5/thumbnails/44.jpg)
Obrigado !!!
www.odinasr.blogspot.com
Mestrado em Telecomunicações
09 de Outubro de 2014
44