sistemas de codificação e reconhecimento de voz na internet e em redes de telefonia móvel
DESCRIPTION
Sistemas de Codificação e Reconhecimento de Voz na Internet e em Redes de Telefonia Móvel. Abraham Alcaim CETUC Pontifícia Universidade Católica do Rio de Janeiro SBT’2004 Belém. MOTIVAÇÃO. Crescimento gigantesco da Internet e dos Sistemas de Comunicações Móveis Celulares. - PowerPoint PPT PresentationTRANSCRIPT
Sistemas de Codificação e Reconhecimento de Sistemas de Codificação e Reconhecimento de
Voz na Internet e em Redes de Telefonia MóvelVoz na Internet e em Redes de Telefonia Móvel
Abraham AlcaimCETUC
Pontifícia Universidade Católica do Rio de Janeiro
SBT’2004Belém
2
MOTIVAÇÃOMOTIVAÇÃO
Crescimento gigantesco da Internet e dos Sistemas de Comunicações
Móveis Celulares
Desenvolvimentos importantes em codificação de voz a baixas taxas
Serviços de Reconhecimento Automático de Voz (RAV)
Abraham Alcaim – SBT’2004
3
Codificação de Voz a Baixas TaxasCodificação de Voz a Baixas Taxas
Abraham Alcaim – SBT’2004
4
Codificação de Voz a Baixas TaxasCodificação de Voz a Baixas Taxas
Codecs em geral baseados em um modelo LPC Codecs em geral baseados em um modelo LPC aplicado a aplicado a quadros (segmentos) de voz de curta duração ~ 20 msquadros (segmentos) de voz de curta duração ~ 20 ms
Um filtro só de pólos --- através dos parâmetros LPC --- Um filtro só de pólos --- através dos parâmetros LPC --- caracteriza o aparelho vocalcaracteriza o aparelho vocal
Usualmente transmite-se os parâmetros LSF por serem Usualmente transmite-se os parâmetros LSF por serem
mais adequados que os LPC para quantização e mais adequados que os LPC para quantização e interpolaçãointerpolação
{LSF} Aparelho Vocal
Abraham Alcaim – SBT’2004
5
Codificação de Voz a Baixas Taxas em Canal LimpoCodificação de Voz a Baixas Taxas em Canal Limpo
Alguns Problemas
•Bom modelo para a excitação
•Quantização deseus parâmetros
•Bom modelo para o aparelho vocal
•Quantização deseus parâmetros
•Interpolação dosparâmetros LSF
dentro de cada quadro
Abraham Alcaim – SBT’2004
6
Codificação de Voz a Baixas TaxasCodificação de Voz a Baixas Taxas
Padrões Empregados em Redes Móveis e IP
Abraham Alcaim – SBT’2004
Em geral são codecs do tipo CELP (Code Excited Linear Prediction)
Buscam tirar proveito de estruturas especiais dos dicionários para simplificar a busca do melhor vetor-código
Exemplos:
VSELP (Vector-Sum Excited Linear Prediction)
CS-ACELP (Conjugate Structure – Algebraic CELP)
7
Alguns Padrões Empregados em Redes Móveis e IP
Abraham Alcaim – SBT’2004
• 1995 : ITU-T G.723.1 (MOS~3,98) – 5,3 ou 6,3 kb/s – IP
• 1995 : ITU-T G.729 / CS-ACELP (MOS~4,2) – 8 kb/s – IP
• 1992 : TIA – IS-54 / VSELP (MOS~3,5) – 8 kb/s – Cel USA TDMA
• 1993 : VSELP - Japão (MOS~3,3) – 6,7 kb/s – Cel Japonês TDMA
• 1993 : TIA – IS-95 / QCELP (MOS~3,4) – 1 / 2 / 4 / 8 kb/s – Cel USA CDMA
• 1995 : TIA – IS-96-A / QCELP – 1,2 / 2,4 / 4,8 / 9,6 kb/s – Cel USA CDMA
• 1995 : GSM – HR (Half Rate) / VSELP (MOS~3,4) – 5,6 kb/s – Cel Europeu TDMA
• 1997 : GSM – EFR (Enhanced Full Rate) / ACELP – 12,2 kb/s – Cel Europeu TDMA
• 1997 : TIA – IS-641 (substitui o IS-54) / ACELP – 7,4 kb/s – Cel USA TDMA
• 1998 : TIA – IS-733 / QCELP – 1,8 / 3,6 / 7,8 / 14,4 kb/s – Cel USA CDMA
• 1998 : TIA – IS-127 EVRC (Enhanced Variable Rate Coder) / ACELP –
1,2 / 4,8 / 9,6 kb/s – Cel USA CDMA
• 2001 : AMR-WB (Adaptive Multi Rate – Wide Band) / ACELP – 6,6 / 8,85 / 12,65 / 14,25 / 15,85 / 18,25 / 19,85 / 23,05 / 23,85 kb/s – Cel 3G Europa, Japão, USA, Coréia – WCDMA
8
Reconhecimento Automático de Voz (RAV)Reconhecimento Automático de Voz (RAV)
Conversãoanalógico
digital
Extração deAtributos da
Voz
Classificaçãode padrões
TEXTO
FALA
Padrões dereferência
Abraham Alcaim – SBT’2004
9
Reconhecimento Automático de Voz (RAV)Reconhecimento Automático de Voz (RAV)
Baseados em um conjunto de atributos de voz extraídos Baseados em um conjunto de atributos de voz extraídos emem quadros (segmentos) de voz de curta duração --- quadros (segmentos) de voz de curta duração --- tipicamente a cada 10 mstipicamente a cada 10 ms
Um classificador de padrões --- o HMM, p.ex. --- é projetado Um classificador de padrões --- o HMM, p.ex. --- é projetado a partir de um conjunto de treinamentoa partir de um conjunto de treinamento
•Palavras Isoladas•Palavras Conectadas•Voz Contínua
•Dependente do Locutor
•Independente do Locutor
Vocabulário:•Pequeno
•Médio•Grande
Abraham Alcaim – SBT’2004
10
Sistemas de RAV DistribuídosSistemas de RAV Distribuídos Grande interesse em disponibilizar serviços de RAV em Grande interesse em disponibilizar serviços de RAV em
redes móveis e IPredes móveis e IP
Alta complexidade e grande quantidade de memória tornam Alta complexidade e grande quantidade de memória tornam atraentes a opção por sistemas de RAV distribuídosatraentes a opção por sistemas de RAV distribuídos
INTERNET REDES MÓVEIS
•Tel Celular: extrai, codifica e transmite parâmetros da voz
•Estação-base: decodifica parâmetros e faz o reconhecimento a partir de um classificador de padrões
•PC: extrai, codifica e transmiteparâmetros da voz
•Servidor Remoto: decodificaparâmetros e faz o reconhecimento a partir de um classificador de padrões Abraham Alcaim –
SBT’2004
11
Sistemas de RAV DistribuídosSistemas de RAV Distribuídos
Dispositivo Local
VOZ
CODde Vozou de
Atributos
Rede Móvel ou IP
DECOD
RAV
Processamento no Terminal do
Usuário
Extrator deAtributos
Processamento na
Estação-Base ou no
Servidor Remoto
Operação a baixas taxas de
bits
Canais com limitação de
faixa
Abraham Alcaim – SBT’2004
12
Reconhecimento de Voz a partir dos ParâmetrosReconhecimento de Voz a partir dos Parâmetrosdo Codificadordo Codificador
Dispositivo Local
VOZ
CODde
Voz
Rede Móvel ou IP
DECODdeVoz
Extrator de Atributos para Reconhecimento
RAV
Voz
Comandos deVoz
SÃO TRANSMITIDOS APENAS OS PARÂMETROS DO CODIFICADOR DE VOZ
Abraham Alcaim – SBT’2004
13
Reconhecimento de Voz a partirReconhecimento de Voz a partir da Vozda Voz
DecodificadaDecodificada
Dispositivo Local
VOZ
CODde
Voz
Rede Móvel ou IP
DECODdeVoz
Extrator de Atributos para Reconhecimento
RAV
Voz
Comandos deVoz
SÃO TRANSMITIDOS APENAS OS PARÂMETROS DO CODIFICADOR DE VOZ
Abraham Alcaim – SBT’2004
14
Reconhecimento de Voz a partir da Codificação dos Reconhecimento de Voz a partir da Codificação dos Atributos para ReconhecimentoAtributos para Reconhecimento
Dispositivo Local
VOZ
CODde
Atributos
Rede Móvel ou IP
DECODde
Atributos
RAV
Comandos deVoz
SÃO TRANSMITIDOS APENAS OS ATRIBUTOS DO RECONHECEDOR DE VOZ
Abraham Alcaim – SBT’2004
15
Transmissão dos Parâmetros da Voz em Redes Transmissão dos Parâmetros da Voz em Redes Móveis e IPMóveis e IP
CONDIÇÕES ADVERSAS PROVOCAM DEGRADAÇÕES NA QUALIDADE DE
VOZ E NA TAXA DE RECONHECIMENTO
Altas taxas de erros de bitserros de bits
Desvanecimento em Sistemas Móveis e Congestionamento em IP:
perdas de pacotes em rajadasperdas de pacotes em rajadas
Distorções introduzidas
pelos codecs a codecs a baixa taxabaixa taxa
Aumento do no. de quadros de voz em um
pacote:retardos inaceitáveisretardos inaceitáveis
Fragilidade dos codecs em ambientes ambientes ruidosos como carros, ruidosos como carros, restaurantes, aviões,restaurantes, aviões,
fábricas, etcfábricas, etc
Descasamento entre Descasamento entre Treinamento e OperaçãoTreinamento e Operaçãodo reconhecedor de voz
Abraham Alcaim – SBT’2004
16
Reconhecimento de Voz a partirReconhecimento de Voz a partir da Vozda Voz
Decodificada: Decodificada: Que atributos usar para Que atributos usar para reconhecimento?reconhecimento?
Dispositivo Local
VOZ
CODde
Voz
Rede Móvel ou IP
DECODdeVoz
Extrator de Atributos para Reconhecimento
RAV
Voz
Comandos deVoz
SÃO TRANSMITIDOS APENAS OS PARÂMETROS DO CODIFICADOR DE VOZ
Abraham Alcaim – SBT’2004
Voz
?
•Parâmetros da Excitação Quantizados
•Parâmetros LSF Quantizados
17
Reconhecimento de Voz a partirReconhecimento de Voz a partir da Vozda Voz
Decodificada: Decodificada: Que atributos usar para Que atributos usar para reconhecimento?reconhecimento?
DECODdeVoz Extrator de Atributos para
Reconhecimento
RAV
Voz
Comandos deVoz
Abraham Alcaim – SBT’2004
Voz
(1) CC (Cepstral Coefficients) : estimados a partir do espectro suave da voz - Para RAV: melhores que
LPC(2) MFCC (Mel-FrequencyCepstral Coefficients) : um dos mais usados em RAV - estimados a partir
da voz – (DCT das log-energias nas saídas de filtros triangulares centrados nas freqs. da escala mel) -
Mel melhora a taxa de reconhecimento(3) PLP –Cepstrum (Perceptual Linear Predictive - Cepstrum) : também muito usados em RAV -
estimados a partir da voz – (usa filtros assimétricos espaçados na escala Bark) –
Resultados em geral similares ao Mel, mas inferiores em algumas situações (fones)(4) ZCPA (Zero Crossings with Peak Amplitudes)
: DCT de histogramas (por contagem de picos) do inverso de CZs nas saídas de FPFs - Para
RAV: mais robustos que MFCC em ruído aditivo
18
Reconhecimento de Voz a partir dos ParâmetrosReconhecimento de Voz a partir dos Parâmetrosdo Codificador: do Codificador: Que atributos usar para Que atributos usar para
reconhecimento?reconhecimento?
VOZ
CODde
Voz
Rede Móvel ou IP
DECODdeVoz
Extrator de Atributos para Reconhecimento
RAV
Voz
Comandos deVoz
Abraham Alcaim – SBT’2004
•Parâmetros da Excitação Quantizados
•Parâmetros LSF Quantizados
LSFs Quantizad
os
?
19
Reconhecimento de Voz a partir dos ParâmetrosReconhecimento de Voz a partir dos Parâmetrosdo Codificador: do Codificador: Atributos Extraídos dos Coeficientes Atributos Extraídos dos Coeficientes
LPCLPC
DECODdeVoz
Extrator de Atributos para Reconhecimento
RAV
Voz
Comandos deVoz
Abraham Alcaim – SBT’2004
LSFs Quantizad
os
2 Parâmetros Extraídos a partir dos Coeficientes LPC
LSF
LPC
(1) LPCC (LPC Cepstral Coefficients) ou CEP Para RAV: melhores que as LSF
(2) MLPCC ou MCEP (na escala Mel): Para RAV: muito melhores
que LPCC
20
Reconhecimento de Voz a partir dos Parâmetros do Reconhecimento de Voz a partir dos Parâmetros do Codificador: Codificador: Atributos Extraídos a partir das LSFsAtributos Extraídos a partir das LSFs
DECODdeVoz
Extrator de Atributos para Reconhecimento
RAV
Voz
Comandos deVoz
Abraham Alcaim – SBT’2004
LSFs Quantizad
os
4 Parâmetros Extraídos a partir dos Coeficientes LSF
mais simples que extraídos a partir de LPC
LSF
L
(1) PCC (Pseudo- Cepstral Coefficients): aprox. do LPCC – só que extraído a partir das LSFs, com % de reconhecimento levemente inferior à LPCC (2) MPCC (na escala Mel): muito melhor que PCC e comparável à MLPCC
21
Reconhecimento de Voz a partir dos ParâmetrosReconhecimento de Voz a partir dos Parâmetrosdo Codificador: do Codificador: Atributos Extraídos a partir das LSFsAtributos Extraídos a partir das LSFs
DECODdeVoz
Extrator de Atributos para Reconhecimento
RAV
Voz
Comandos deVoz
Abraham Alcaim – SBT’2004
LSFs Quantizad
os
4 Parâmetros Extraídos a partir dos Coeficientes LSF
LSF
L
(3) PCEP (Pseudo- Cepstrum): aprox. matemática do LPCC um pouco pior que a do PCC – porém, com % de reconhecimento comparável ao PCC (resultado ainda não disponível na literatura) e menor complexidade (4) MPCEP (na escala Mel): muito melhor que PCEP , melhor que MFCC e comparável ao MLPCC e ao MPCC (resultado ainda não disponível na literatura)
22
Transmissão dos Parâmetros da Voz em Redes Transmissão dos Parâmetros da Voz em Redes Móveis e IPMóveis e IP
CONDIÇÕES ADVERSAS PROVOCAM DEGRADAÇÕES NA QUALIDADE DE
VOZ E NA TAXA DE RECONHECIMENTO
Uma delas Resulta do Desvanecimento em Sistemas Móveis e do Congestionamento em IP:
perdas de pacotes em rajadasperdas de pacotes em rajadas
Abraham Alcaim – SBT’2004
23
Transmissão dos Parâmetros da Voz em Redes Transmissão dos Parâmetros da Voz em Redes Móveis e IPMóveis e IP
Abraham Alcaim – SBT’2004
PLR = p/(p+q)
Característica de rajadas do processo de perdas Modelo Markoviano de 2 estados: “Modelo de Gilbert”
p = P[“packet received”“packet lost”]
q = P[“packet lost”“packet received”]
Packet Loss Rate:
Comprimeno da Rajada B= 1/(1-clp)onde clp = 1-q
24
Transmissão dos Parâmetros da Voz em Redes Transmissão dos Parâmetros da Voz em Redes Móveis e IPMóveis e IP
Abraham Alcaim – SBT’2004
#1 [J. Wang and J. Gibson, “Parameter
interpolation to enhance the frame erasure robustness of CELP coders in packet
networks”, Proc. ICASSP 2001].
#2 [D. Quercia, L. Docio-Ferandez, C.Garcia-Mateo,
L. Farinetti and J. C. De Martin, “Performance analysis of distributed speech recognition over IP networks on
the AURORA database”, Proc. ICASSP 2002].
#3 as in [D. Rahikka, J. Collura, T. Fuja, D. Sridhara and T. Fazel, “Error coding strategies for MELP vocoder in
wireless and ATM environments”, Proc. IEE Seminar on Speech Coding for Algorithms for Radio Channels, pp. 8/1-
8/6, 2000].
Algumas referências de Modelos de Gilbert para simular diferentes
condições de redes
25
Alguns Resultados e Questões de InteresseAlguns Resultados e Questões de Interesse
Abraham Alcaim – SBT’2004
A distorção espectral dos parâmetros LSF é função da estratégia de quantização adotada
e da taxa de perdas de pacotes
Afeta não só a qualidade da voz
como o desempenho do reconhecedor
Como projetar um
bom quantizador
de modo que nessas situações
os desempenh
os sejam pouco
afetados
?
26
Alguns Resultados e Questões de InteresseAlguns Resultados e Questões de Interesse
Abraham Alcaim – SBT’2004
Em RAV distribuído, extrair os atributos para reconhecimento dos parâmetros recebidos do
codificador de voz fornece taxas de reconhecimento maiores do que extrair esses
atributos a partir da voz decodificada
Mas será que, se a voz foi obtida em ambiente ruidoso, extrair os parâmetros ZCPA
da voz decodificada não será melhor do que extrair outros
atributos a partir dos parâmetros recebidos do
codificador ?
27
Alguns Resultados e Questões de InteresseAlguns Resultados e Questões de Interesse
Abraham Alcaim – SBT’2004
• Os codecs de voz usados em redes móveis e IP extraem os parâmetros que caracterizam a evolução da envoltória espectral a cada 20 a 30 ms. • Porém os sistemas de reconhecimento usualmente requerem extração de atributos acústicos tipicamente a cada 10 ms
Mas que parâmetros e como
interpolar ?
SOLUÇÃO
Interpolar linearmente os
parâmetros a partir do que foi recebido
do codificador
LSF ?
MFCC ?MLPCC ? MPCEP ? Outros ?
28
Alguns Resultados e Questões de InteresseAlguns Resultados e Questões de Interesse
Abraham Alcaim – SBT’2004
Algumas Experiências com Reconhecimento de Voz Distribuído operando na Internet
Mesmo taxas relativamente
altas de perdas de pacotes
isolados não afetam de forma
muito significativa o
desempenho do reconhecedor se
usarmos a técnica de repetição
Reconhecedor CDHMM para
seqüências de dígitos
Perdas em rajadas
acentuadas, como pode
acontecer na Internet, causam
resultados desastrosos
29
Alguns Resultados e Questões de InteresseAlguns Resultados e Questões de Interesse
Abraham Alcaim – SBT’2004
Em geral, as perdas de pacotes em rajadas em redes móveis e IP afetam muito o desempenho
do sistema de reconhecimento
Novamente que parâmetros e como
interpolar ?
SOLUÇÃO
Também interpolar linearmente os
parâmetros a partir do que foi recebido
do codificador
LSF ?
MFCC ?MLPCC ? MPCEP ? Outros ?
30
Alguns Resultados e Questões de InteresseAlguns Resultados e Questões de Interesse
Abraham Alcaim – SBT’2004
Fragilidade dos
codecs em ambientes ambientes ruidosos como carros, ruidosos como carros, restaurantes, aviões,restaurantes, aviões,
fábricas, etcfábricas, etc
Péssimo desempenho
dos sistemas de reconhecime
nto
Melhoras significativas na taxa de reconhecimento através do emprego de
técnicas de realce de voz
Mas que técnicas usar para o reconhecimento de voz em um cenário
que envolve um grande número de
condições adversas?Distorções originais
dos codecs a baixas
taxas
Perdas de pacotes em
rajadas
Descasamento entre treino e
operação dos reconhecedo
res
Outros Problem
as
31
?