raul arthur fernandes rosa - uel · 2011-11-30 · dois tipos de treinamento para a formac¸a˜o do...
TRANSCRIPT
RAUL ARTHUR FERNANDES ROSA
Aplicacoes de Redes Neurais Auto-Organizaveis para a
Identificacao Autonoma de Fonemas
LONDRINA
2011
UNIVERSIDADE ESTADUAL DE LONDRINA
CURSO DE GRADUACAO EM ENGENHARIA EL ETRICA
Aplicacoes de Redes Neurais Auto-Organizaveis para a
Identificacao Autonoma de Fonemas
Trabalho de conclusao de curso submetido aUniversidade Estadual de Londrina
como parte dos requisitos para a obtencaodo grau de Engenheiro Eletricista.
RAUL ARTHUR FERNANDES ROSA
Londrina, Outubro de 2011.
Aplicacoes de Redes Neurais Auto-Organizaveis para a
Identificacao Autonoma de Fonemas
Raul Arthur Fernandes Rosa
‘Este trabalho foi julgado adequado para a conclusao do curso de engenharia eletrica eaprovado em sua forma final pela Coordenacao do Curso de Engenharia Eletrica da
Universidade Estadual de Londrina.’
Marcio Roberto CovacicOrientador(a)
Marcos Eduardo Ribeiro do Valle MesquitaCo-orientador(a)
Profa. Maria Bernadete de Morais FrancaCoordenadora de TCC
Banca Examinadora:
Prof. Dr. Ernesto Fernando Ferreyra Ramırez
A todos que me transmitiramconhecimento, pois elee
a cura da ignorancia.
AGRADECIMENTOS
Aos meus pais, Luis Artur e Leila, que me conduziram sempre pelo melhor caminho, nao o maisfacil, mas o que me fez capaz de encarar os desafios da vida comhonestidade e bravura. Por issoeste e todos os trabalhos que virei a desenvolver sao devidoa dedicacao e educacao para comigo, dainfancia ate os dias de hoje.
As minhas irmas, Lara e Vitoria, e a todos os meus familiares, avos, tios, primos, por todos osvalores passados a mim. Sao pessoas que, sem duvida nenhuma, me ajudariam em qualquer tipo dedificuldade e a quem eu posso confiar sem hesitacao.
Agradeco imensamente a paciencia e disponibilidade do professor doutor Marcos Eduardo Vallepor esses 2 anos de orientacao nos projetos de pesquisa, alem de 1 ano de ensinamentos em classe, portodas as reunioes que sempre me agregavam conhecimento, por todo o incentivo e desafios propostos.
Ao professor doutor Marcio Roberto Covacic que aceitou me orientar nesse trabalho, assim comoa todos os professores do departamento de engenharia eletrica da UEL, que de uma maneira ou deoutra me ajudaram a tentar desvendar os caminhos da ciencia.
Aos meus amigos de classe que ao longo de 5 anos me ajudaram nessa caminhada da graduacao,em especial ao Ze, Nagai, Banha, Bocao, Guilherme, BV, Regis, Perdiga, Kawana, Cambe, Heitor,Thierry, Irmao, Helton. Aos meus amigos que me acompanham desde a infancia, a quem possochamar de irmaos, Jefferson, Joao, Eduardo, Marcel, Adalberto.
A minha companheira e melhor amiga, Lara, que ao longo desses2 anos de convivencia meajudou a enfrentar minhas dificuldades, me ensinou sobre amor, dedicacao, perseveranca, relacoes.Agradeco o tempo dedicado a me ajudar a resolver meus problemas, principalmente a sua companhiaque me fez encontrar a felicidade.
iv
Resumo do trabalho de conclusao de curso apresentada a UELcomo parte dos requisitos necessariospara obtencao do grau de Engenheiro Eletricista.
Aplicacoes de Redes Neurais Auto-Organizaveis para a
Identificacao Autonoma de Fonemas
Raul Arthur Fernandes Rosa
OUTUBRO/2011
Orientador(a): Marcio Roberto CovacicCo-orientador(a): Marcos Eduardo Ribeiro do Valle MesquitaPalavras-chave: Redes Neurais Artificiais, Mapas Auto-organizaveis, Reconhecimento Automaticode Discurso
Nesse trabalho investigamos a aplicacao da rede neural auto-organizavel (SOM, Self-OrganizingMap) de Kohonen para analise de fonemas em sinais de voz. Em termos gerais, a SOM propostapor Kohonen tem como objetivo capturar a topologia e a distribuicao de probabilidade de um con-junto de dados. Essa informacao e obtida atraves de um processo nao supervisionado que ressaltaas caracterısticas relevantes dos dados e proporciona a criacao de agrupamentos de neuronios. Nodesenvolvimento, os neuronios foram organizados numa rede bi-dimensional onde cada grupo deneuronios corresponde a um fonema extraıdo de um sinal de voz. A rede bi-dimensional obtida aposo processo de auto-organizacao foi usada como um mapa de fonemas. Nesse trabalho foram testadosdois tipos de treinamento para a formacao do mapa de fonemas, esses dois treinamentos foram real-izados utilizando um determinado trecho selecionado em um sinal de voz. No primeiro experimentoo treinamento ficou restrito aos fonemas encontrados no trecho. O treinamento do segundo experi-mento foi realizado de maneira irrestrita, isto e, utilizando todo o trecho. Observou-se que o mapafonetico do segundo experimento foi capaz de reconhecer osfonemas de um trecho do sinal de voz,ativando os neuronios que representam os respectivos fonemas.
v
Conteudo
Lista de Figuras viii
Lista de Tabelas x
Lista de Sımbolos e Abreviacoes xi
1 Introduc ao 1
2 Fundamentacao Teorica 3
2.1 Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 3
2.2 Mapa Auto-Organizavel . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 6
2.2.1 Algoritmo SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.2 Mapa de Caracterısticas . . . . . . . . . . . . . . . . . . . . . . . .. . . . 9
2.3 Mel-Frequency Cepstral Coefficients . . . . . . . . . . . . . . . .. . . . . . . . . . 12
2.3.1 Extracao do MFCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 12
3 Desenvolvimento Pratico 16
3.1 Mapa fonetico com treinamento restrito . . . . . . . . . . . . .. . . . . . . . . . . 16
3.1.1 Identificacao dos fonemas . . . . . . . . . . . . . . . . . . . . . .. . . . . 16
3.1.2 Mel-Frequency Cepstral Coefficients e Mapa Auto-Oraganizavel . . . . . . . 17
3.2 Mapa fonetico com treinamento irrestrito . . . . . . . . . . .. . . . . . . . . . . . 19
3.2.1 Mel-Frequency Cepstral Coefficients e Mapa Auto-Organizavel . . . . . . . 19
4 Resultados e Discussao 20
4.1 Mapa fonetico com treinamento restrito . . . . . . . . . . . . .. . . . . . . . . . . 20
4.2 Mapa Fonetico com treinamento irrestrito . . . . . . . . . . .. . . . . . . . . . . . 22
vi
5 Conclusoes 30
Bibliografia 31
A Relacao ente DFT e DCT 33
Lista de Figuras
2.1 Modelo geral de um neuronio. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 4
2.2 ANN recorrente de unica camada. . . . . . . . . . . . . . . . . . . . .. . . . . . . 6
2.3 Indicacao no Mapa de Caracterısticas dos neuroniosque tiveram as melhores respostas. 10
2.4 Indicacao no Mapa de Caracterısticas da melhor resposta de cada neuronio. . . . . . 10
2.5 Janela de Hamming. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 13
2.6 Filtro Mel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 14
3.1 Alfabeto fonetico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 17
4.1 Indicacao no Mapa de Caracterısticas dos neuroniosque tiveram as melhores respos-tas a cada fonema com o treinamento restrito. . . . . . . . . . . . . .. . . . . . . . 21
4.2 Indicacao no Mapa de Caracterısticas da melhor resposta de cada neuronio com otreinamento restrito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 21
4.3 Indicacao no Mapa de Caracterısticas dos neuroniosque tiveram as melhores respos-tas a cada fonema com o treinamento irrestrito. . . . . . . . . . . .. . . . . . . . . 22
4.4 Indicacao no Mapa de Caracterısticas da melhor resposta de cada neuronio com otreinamento irrestrito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 23
4.5 Numero de vitorias de cada neuronio. . . . . . . . . . . . . . .. . . . . . . . . . . 23
4.6 Caminho percorrido pelo discurso “Ola amigo”. . . . . . . .. . . . . . . . . . . . . 24
4.7 Parte do sinal de audio que representa o fonema “o” inicial da figura 4.6. . . . . . . . 25
4.8 Parte do sinal de audio que representa o fonema “l” entreos lacos 2 e 3 da figura 4.6. 25
4.9 Parte do sinal de audio que representa o fonema “a”entreos lacos 4 e 5 da figura 4.6. 26
4.10 Parte do sinal de audio que representa o fonema “m” entre os lacos 7 e 8 da figura 4.6. 26
4.11 Parte do sinal de audio que representa o fonema “i” entre os lacos 10 e 11 da figura 4.6. 27
4.12 Parte do sinal de audio que representa o fonema “g” entre os lacos 13 e 14 da figura 4.6. 27
4.13 Parte do sinal de audio que representa o fonema “n” entre os lacos 8 e 9 e 11 e 12 dafigura 4.6, associado a um ruıdo . . . . . . . . . . . . . . . . . . . . . . . .. . . . 28
viii
4.14 Parte do sinal de audio que representa o fonema “e˜” entre os lacos 9 e 10 da figura4.6, associado a um ruıdo . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 28
4.15 Parte do sinal de audio que representa outro fonema “o”entre os lacos 1 e 2 e 12 e 13da figura 4.6, associado a um ruıdo . . . . . . . . . . . . . . . . . . . . . .. . . . . 29
Lista de Tabelas
2.1 Nomes de Animais e seus Atributos . . . . . . . . . . . . . . . . . . . .. . . . . . 11
3.1 Identificacao dos fonemas no arquivo de audio. . . . . . .. . . . . . . . . . . . . . 18
x
Lista de Sımbolos e Abreviacoes
AFI Alfabeto Fonetico Internacional
ANN Artificial Nerual Network(Rede Neural Artificial)
ASR Automatic Speech Recognition(Reconhecimento Autmatico de Discurso)
DCT Discrete Cosine Transform(Transformada do Cosseno Discreta)
DFT Discrete Fourier Transform(Transformada de Fourier Discreta)
FFT Fast Fourier Transform(Transformada Rapida de Fourier)
HMP Hidden Markov Process(Processo Escondido de Markov)
MFCC Mel-Frequency Cepstral Coefficients(Coeficientes Mel-Cepstrais)
SAMPA Speech Assessment Methods Phonetic Alphabet(Metodos de Avaliacao de Discursopor Alfabeto Fonetico)
SOM Self Organizing Map(Mapa Auto-Organizavel)
xi
CAPITULO 1
I NTRODUC AO
O reconhecimento autonomo de discurso(ASR, Automatic Speech Recognition) e uma das tare-
fas em que uma maquina pode simular o comportamento humano.Estudos sobre o assunto iniciaram
em 1952 no Bell Labs com o reconhecimento de dıgitos pronunciados via telefone (O’Shaughnessy,
2008). Conforme os computadores evoluıram nos anos 1960s,novas tecnicas baseadas em programa-
cao dinamica foram desenvolvidas em ASR. Nos anos 1970s,sugiram grandes contribuicoes na area
devido ao modelo linear preditivo que oferece uma forma eficiente de representar um sinal de voz (Ra-
biner and Schafer, 2007). O modelo linear preditivo continua sendo usado em muitas aplicacoes, em-
bora tenha sido substituıdo pelo MFCC (Mel-frequency cepstral coeficients) desenvolvido nos anos
1980 (Rabiner and Schafer, 2007). De fato, nos anos 1980 surgiram diversos bancos de dados com
sinais de voz e a tecnica comum da epoca estava baseada no uso de templates para a identificacao
de fonemas. Posteriormente, modelos baseados em processosde Markov escondidos (HMP, Hid-
den Markov Process) foram empregados com a ideia de substituir os templates por modelos proba-
bilısticos mais simples (Levinson, 2005). Finalmente, nos anos 1990s foram desenvolvidos modelos
baseados em wavelets (O’Shaughnessy, 2000), maquinas de vetores de suporte (Vapnik, 1998, 1999)
e Redes Neurais Artificiais (ANNs, Artificial Neural Networks) (Hassoun, 1995; Haykin, 1999).
Nesse trabalho iremos aplicar ANNs para ASR, precisamente para a identificacao de fonemas.
Lembre-se que uma ANN e um modelo matematico inspirado no cerebro humano, onde as unidades
basicas de processamento sao os neuronios (Anderson, 1995; Hassoun, 1995; Haykin, 1999). Os
estudos das redes neurais artificiais iniciaram em 1943 quando o biologo Warren McCulloch e o
matematico Walter Pitts apresentaram um modelo matematico de um neuronio biologico (McCul-
loch and Pitts, 1943). No inıcio dos anos 1980s, Kohonen apresentou um modelo de ANN auto-
organizavel conhecida como mapas auto-organizaveis (SOM, Self-Organizing Maps) de Kohonen
(Kohonen, 1982, 1989). A SOM, e suas variacoes, representam a classe mais popular de ANNs
com aprendizado nao-supervisionado, i.e., sem professor. Esses modelos tambem representam um
dos modelos mais realısticos do cerebro humano. Sobretudo, a SOM foi aplicada com sucesso em
diversas areas, incluindo estatıstica, processamento de sinais, teoria de controle, analise financeira,
fısica experimental, quımica e medicina (Kohonen, 2001). De fato, a SOM pode ser empregada em
CAPITULO 1. INTRODUCAO
problemas de dimensoes grandes e nao-lineares, tais comoa extracao de caracterısticas em imagens
e padroes acusticos como discursos. Alem disso, a SOM pode ser usada para estabelecer uma corres-
pondencia entre as entradas e uma tabela de unidades - geralmente com uma ou duas dimensoes - que
preserva as relacoes topologicas e a distribuicao de probabilidade dos dados (Hassoun, 1995).
Em 1988, Kohonen apresentou uma SOM capaz de transcrever discursos contınuos (Kohonen,
1988). Esse modelo e capaz de identificar fonemas da lınguafinlandesa de um modo autonomo. Esse
modelo foi posteriormente aperfeicoado em Kohonen (2001). Inspirados nos trabalhos de Kohonen,
nesse estudo iremos aplicar a SOM para a identificacao de fonemas da lıngua portuguesa em sinais
de audio.
O trabalho esta organizado da seguinte forma. O proximo capıtulo apresenta um historico sobre
as redes neurais, a descricao e um exemplo do mapa auto-organizavel e omel-frequency cepstral coe-
ficientes. O capıtulo 3 apresenta dois experimentos para a formacao do mapa fonetico. Os resultados
obtidos com os dois experimentos sao mostrados e discutidos no capıtulo 4. Por fim, no capıtulo 5,
sao apresentadas as conclusoes do trabalho.
2
CAPITULO 2
FUNDAMENTAC AO TEORICA
Neste capıtulo serao apresentados os conceitos utilizados nesse trabalho. Primeiro uma apre-
sentacao sobre as redes neurais artificiais, com um historico e comentarios sobre algumas redes da
literatura. Logo apos e descrito o mapa auto-organizavel, sua formulacao e um exemplo que ilustra
seu comportamento. Para finalizar e apresentado a ferramenta utilizada para tratar o discurso, omel-
frequency cepstral coeficientes. A realizacao dos dois experimentos desse trabalho e baseada nos
conceitos apresentados nesse capıtulo.
2.1 Redes Neurais Artificiais
UmaRede Neural Artificial(ANN, Artificial Neural Network), ou simplesmenterede neural, e
um modelo matematico inspirado no cerebro humano por sua habilidade de adquirir e armazenar
conhecimento necessario para realizar uma dada tarefa. Devido a motivacao biologica, os elementos
basicos de processamento de uma rede neural sao chamadosneuroniosounos. Em 1943 os cientistas
Warren McCulloch e Walter Pitts apresentaram o primeiro modelo artificial de um neuronio. No artigo
intitulado “A Logical Calculus of the Ideas Immanent in Nervous Activity” os dois discorrem sobre
diversos assuntos relacionados a um modelo artificial de um neuronio e apresentam suas capacidades.
Um neuronio artificial consiste dos seguintes elementos cuja representacao grafica esta apresen-
tada na figura 2.1 (Haykin, 1999; Valle, 2007):
1. Um conjunto depesos sinapticos(ouconexoes sinapticas), e uma operacao binaria que combina
a entrada com a respectiva conexao sinaptica.
2. Umaregra de agregacaoque combina as entradas dos neuronios ponderados com as respectivas
conexoes sinapticas.
3. Umafuncao de ativacao com objetivo de introduzir nao-linearidade no modelo ou confinar a
saıda do neuronio num dado intervalo.
CAPITULO 2. FUNDAMENTACAO TEORICA
Entradas1. Conexoes
Sinapticas e Bias2. Regra deAgregacao
3. Funcao deAtivacao Saıda
1
θLLLLLLLLLLLLLLLLLLLLL
%%LLLLLLLLLLLLLLLLLLLLL
x1
w1PPPPPPPPPPPPPPPPPPP
((PPPPPPPPPPPPPPPPPPP
x2
w2TTTTTTTTTTTTTTTTTT
**TTTTTTTTTTTTTTTTTT...
xj wj // ?>=<89:; φ(·) // yi
...
xn
wnjjjjjjjjjjjjjjjjjj
44jjjjjjjjjjjjjjjjjj
_ _ _ _������������������������
������������������������
_ _ _ _
_ _ _ _ _ _ _�������������������������
�������������������������
_ _ _ _ _ _ _
_ _ _ _ _ _�������������������������
�������������������������
_ _ _ _ _ _
_ _ _ _ _ _ _ _ _�������������������������
�������������������������
_ _ _ _ _ _ _ _ _
_ _ _ _ _ _�������������������������
�������������������������
_ _ _ _ _ _
Figura 2.1 –Modelo geral de um neuronio.
Fonte: Valle (2007)
4
CAPITULO 2. FUNDAMENTACAO TEORICA
Alguns modelos de neuronios tambem incluem um termo externo oubias. Entretanto, na maioria dos
casos, o bias pode ser interpretado como um peso sinaptico conectado a uma entrada constante.
Uma parte importante na discussao de ANNs que foi pouco comentada no artigo de McCulloch e
Pitts sao as tecnicas de aprendizado, que vieram a ser objeto de estudo alguns anos depois, em 1949
por Donald Hebb (Hebb, 1949). O postulado de Hebb diz: “Se dois neuronios em ambos os lados de
uma sinapse sao ativados simultaneamente, entao a forcadaquela sinapse e aumentada”. Em outras
palavras, o aprendizado de neuronios e baseado no reforco das ligacoes sinapticas entre neuronios
excitados. A regra de Hebb, que e a interpretacao matematica de seu postulado, e utilizada em varios
algoritmos de aprendizado.
O aprendizado de Hebb falhou em algumas aplicacoes devidoa “rigidez” do neuronio, mais
expecificadamente em suas conexoes sinapticas, que sofriam somente um reforco no aprendizado.
Para solucionar esse problema, Frank Rosenblatt desenvolveu operceptron, em que ele acrescentou
ao neuronio de McCulloch e Pitts sinapses ajustaveis tornando esse neuronio capaz de classificar
certos tipos de padroes, dividindo o espaco de entrada em regioes distintas para cada uma das classes
existentes. A limitacao desse modelo de neuronio e que ele e incapaz de classificar padroes que nao
sejamlinearmente separaveis, ou seja, padroes cuja solucao nao pode ser encontrada dividindo-se o
espaco de entrada em duas regioes atraves de um hiperplano. Por exemplo, o perceptron nao consegue
resolver um problema simples como o ou-exclusivo, e foi nessas limitacoes que, em 1969, Minsky e
Papert no livro “Perceptrons” (Minsky and Papert, 1969), fizeram crıticas a esse modelo de neuronio.
Eles argumentaram que o problema de crescimento explosivo,tanto de espaco ocupado como do
tempo requerido para a solucao de problemas complexos, afetaria as ANNs, inclusive os perceptrons
(Braga et al., 2000). Afirmaram tambem que esses problemas nao seriam solucionados por redes de
perceptrons com mais de uma camada.
A falta de recursos tecnologicos e os argumentos de Minsky ePapert, causaram um desestımulo
em pesquisas sobre ANNs. Durante os anos 1970s poucos pesquisadores continuaram no ramo, entre
eles James Anderson, Shun-ichi Amari, Igor Aleksander, Kunihiko Fukushima, Steven Grossberg e
Teuvo Kohonen, que desenvolveu nessa epoca as redes auto-organizaveis estudadas nesse trabalho.
No inıcio dos anos 1980s o interesse em redes neurais voltou, gracas aos trabalhos de John J.
Hopfield e David Rumelhart. Em Hopfield (1982), Hopfield conseguiu mostrar a relacao entre redes
recorrentes auto-associativas, figura 2.2, e sistemas fısicos.
De maneira geral, uma rede neural artificial e caracterizada pelomodelo do neuronio, a arquite-
tura ou topologia da redee a regra de treinamentoou regra de aprendizado(Haykin, 1999). A
regra de aprendizadocorresponde ao processo que modifica os pesos sinapticos com a intencao de
se atingir um dado objetivo. Atopologiade uma rede neural refere-se ao projeto da rede e ao modo
como os neuronios sao conectados. Em muitos casos, o projeto de uma rede consiste em camadas de
neuronios. Geralmente, conta-se apenas as camadas de neuronios com pesos ajustaveis. Por exem-
plo, umarede de camadaunica e uma rede neural com apenas uma camada de neuronios com pesos
ajustaveis. As caracterısticas da rede utilizada nesse trabalho estao descritas na secao a seguir.
5
CAPITULO 2. FUNDAMENTACAO TEORICA
Figura 2.2 –ANN recorrente de unica camada.
Fonte: Valle (2007)
2.2 Mapa Auto-Organizavel
O cortex cerebral humano e organizado de uma forma em que sensacoes diferentes excitam
regioes diferentes, i.e., para diferentes estımulos, especıficas areas do cortex sao ativadas a fim de
processar tais estımulos. A motivacao neural doMapa Auto-Organizavel (SOM, Self-Organizing
Map) e desenvolvida a partir dessa caracterıstica do cortex cerebral.
A SOM e uma rede cujos nos sao neuronios, elas foram desenvolvidas por Teuvo Kohonen (Koho-
nen, 1989), na decada de 80, e por isso tambem sao chamadasde redes de Kohonen. Para formar-se, a
rede passa por um processo de aprendizagem competitiva, ou seja, quando um padrao de entrada e ex-
posto a rede, os neuronios competem entre si para que somente um neuronio venca e seja ativado, ou
disparado. O neuronio que ganha a competicao e chamado neuronio vencedor. Na SOM o neuronio
vencedor ativa tambem seus vizinhos, criando uma uniformidade naquela regiao. Apos apresentados
varios padroes de entrada, ou classes de padroes de entrada, os neuronios comecam a se dispor de
uma forma que modele os padroes apresentados a rede. Um mapa auto-organizavel e, portanto, car-
acterizado pela formacao de um mapa topografico dos padr˜oes de entrada, onde as localizacoes (i.e.
coordenadas) dos neuronios na rede sao indicativos das caracterısticas estatısticas intrınsecas contidas
nos padroes de entrada (Haykin, 1999).
O termo mapa auto-organizavel foi proposto por Kohonen (Kohonen, 1982). Segundo ele, o
princıpio de formacao de mapas topograficos e formulado da seguinte forma (Kohonen, 1990): A
localizacao espacial de um neuronio de saıda em um mapa topografico corresponde a um domınio ou
caracterıstica particular do dado retirado do espaco de entrada.
6
CAPITULO 2. FUNDAMENTACAO TEORICA
Segundo este princıpio Kohonen apresentou um modelo onde os neuronios de saıda estao arran-
jados em uma rede uni ou bidimensional, assegurando que cadaneuronio de saıda tenha um conjunto
de vizinhos. O modelo transforma padroes de entrada, de dimensoes arbitrarias, em um mapa dis-
creto uni ou bidimensional. O mapa forma-se seguindo uma adaptacao a cada padrao de entrada,
organizando-se de uma maneira topologicamente ordenada, simulando as caracterısticas do cortex
cerebral.
Para a formacao da SOM e necessario que a rede de neuronios passe por tres processos que sao a
base do aprendizado auto-organizavel. Porem, antes e necessario que os pesos sinapticos da rede de
neuronios sejam inicializados com valores pequenos e arbitrarios, outra forma de inicializar e tomar
valores dos padroes de entrada, de maneira aleatoria. Ap´os a inicializacao, a rede passa pelo primeiro
processo, o processo de competicao. Nesse processo os neuronios da rede competirao entre si para
determinar quem sera o neuronio vencedor. Essa competicao entre os neuronios e determinada a
partir dos valores apresentados por uma funcao discriminante que relaciona o padrao de entrada a
cada um dos neuronios da rede, o neuronio que apresentar o maior valor da funcao discriminante e o
vencedor. O segundo processo e o de cooperacao, ou seja, definida uma vizinhanca topografica entre
os neuronios, o vencedor excita os seus vizinhos, de acordocom funcoes como a funcao guassiana ou
a funcaosinc. O ultimo processo e necessario para atualizar os valores dos pesos sinapticos, chama-
se processo de adaptacao sinaptica, ele aumenta os valores da funcao discriminante dos neuronios
excitados.
O algoritmo que realiza todos esses processos e chamado algoritmo SOM e e formado de cinco
fases, onde tres dessas fases sao repetidas ate o mapa auto-organizavel estar completo. As fases
sao chamadas: inicializacao, amostragem, casamento por similaridade, atualizacao e continuacao, as
fases centrais sao repetidas, elas sao as ja comentadas bases do aprendizado auto-organizavel. Na
secao a seguir sera definido o algoritmo SOM.
2.2.1 Algoritmo SOM
Antes e importante definir o padrao de entrada e o vetor pesosinaptico dos neuronios. Um padrao
(vetor) de entrada e representado por
x = [x1, x2, . . . , xm]T , (2.1)
ondem e a dimensao do espaco de entrada. O vetor peso sinapticode um neuronio da rede,k, e
definido por
wk = [wk1, wk2, . . . , wkm]T , k = 1, 2, . . . , l, (2.2)
onde l e o numero total de neuronios na rede. Observe que o vetor peso sinaptico tem a mesma
dimensao do espaco de entrada.
A seguir sao apresentados os cinco processos do algoritmo SOM.
7
CAPITULO 2. FUNDAMENTACAO TEORICA
1. Inicializacao. Como dito anteriormente os valores dos vetores pesos sinapticos devem ser
inicializados, caracterizando os vetores de pesos iniciais wk(0). Os valores dewk(0) devem
ser diferentes parak = 1, 2, . . . , l, ondel e o numero de neuronios na rede.
2. Amostragem. Escolha aleatoriamente um padrao de entrada para apresenta-lo a rede.
3. Casamento por Similaridade. Para encontrar o neuronio vencedor utilize como funcaodiscreta,
i(x), o criterio da mınima distancia euclidiana, no passo de iteracaon:
i(x) = argmink ‖x(n)−wk‖ , k = 1, 2, . . . , l. (2.3)
4. Atualizacao. Apos a escolha do neuronio vencedor, os vetores de peso sinaptico de todos os
neuronios devem ser ajustados utilizando a formula de atualizacao
wk(n+ 1) = wk(n) + ǫhk,i(x)(n)(x(n)−wk(n)), (2.4)
ondeǫ e o parametro da taxa de aprendizagem ehk,i(x)(n) e a funcao de vizinhanca centrada
em torno do neuronio vencedori(x).
5. Continuacao. Retorne ao passo 2 ate o mapa auto-organizavel nao apresentar grandes alteracoes
em sua forma.
O parametro da taxa de aprendizagem,ǫ, e a funcao de vizinhanca,hk,i(x)(n), possuem algumas
caracterısticas descritas a seguir:
• A vizinhanca topologica, ou funcao de vizinhanca,hk,i(x)(n) assume um valor maximo no
neuronio vencedori(x) e decresce com o aumento da distancia lateraldk,i(x), que define a
distancia entre um neuronio vencedor e o neuronio excitado k.
• O tamanho da vizinhanca topologica deve diminuir com o passar da iteracaon.
• O parametro da taxa de aprendizagem permanece com um valor fixo com o passar do tempon.
A funcao de vizinhancahk,i(x)(n) e geralmente escolhida como a funcao gaussiana
hk,i(x)(n) = exp
(
− dk,iσ(n)2
)
. (2.5)
A distancia lateraldk,i, no caso bidimensional, e definida por
dk,i = ‖rk − ri‖ , (2.6)
onde o vetor discretork define a posicao do neuroniok e ri define a posicao discreta do neuronio
i, ambos sendo medidos no espaco de saıda discreto.σ(n) mede o grau com o qual neuronios vizi-
nhos ao neuronio vencedor participam do processo de aprendizagem. Como descrito em Ritter and
8
CAPITULO 2. FUNDAMENTACAO TEORICA
Kohonen (1989), a funcaoσ e definida a seguir
σ(n) = σi
(
σfσi
)n
nmax
, n = 0, 1, 2, ..., (2.7)
ondeσi e o valor deσ(n) na inicializacao do algoritmo SOM,σf e o valor final enmax e o numero
maximo de iteracoes.
2.2.2 Mapa de Caracterısticas
Para compreender melhor os conceitos apresentados ate aqui, segue um exemplo proposto por
Ritter and Kohonen (1989), e estudado por Haykin (1999), onde um conjunto de animais e algumas de
suas caracterısticas sao apresentadas a um mapa auto-organizavel chamado de mapa de caracterısticas.
O mapa de caracterısticas tem esse nome pois forma regioes, ou grupos, que representam um conjunto
de padroes de entrada com caracterısticas similares.
Na tabela 2.1 as colunas representam os animais, 16 no total,e as linhas representam as carac-
terısticas, 13 no total. Cada animal recebe atributos segundo as suas caracterısticas, onde “1” significa
presenca e “0” ausencia. Os animais sao classificados segundo umcodigo de atributoxa constituıdo
de 13 elementos. Alem do codigo de atributos, os animais s˜ao especificados por umcodigo simbolico
xs, onde as informacoes desse codigo nao devem relacionaros animais, mostrando algum tipo de
semelhanca, esse sımbolo e inserido para acrescentar mais um diferenciador entre um animal e outro.
No exemplo, o vetor colunaxs recebe na linhak, comk = 1, 2, . . . , 16, um valor fixoa e o restante
dos elementos sao igualados a zero. Por exemplo, o vetor colunaxs que representa o animal 3, ou
seja, o pato tera em sua terceira linha o valora e os outros elementos do vetor sao igualados a zero.
O parametroa representa a influencia que o codigo simbolico tem na formacao do mapa comparado
ao codigo de atributo. No exemplo, o codigo de atributo deve ser dominante, entao o valor dea deve
ser pequeno, segundo Ritter and Kohonen (1989) esse valor ede 0,2. Cada animal e representado por
um vetorx, que e o padrao de entrada apresentado ao mapa, esse vetor possui 29 elementos. Ele e
formado pela concatenacao do vetor codigo de atributoxa e do codigo simbolicoxs, como mostrado
a seguir
x =
[
xs
xa
]
=
[
xs
0
]
+
[
0
xa
]
Para finalizar, os vetores sao apresentados a uma grade bidimensional de10 × 10 neuronios e os
pesos sinapticos sao ajustados conforme discutido anteriormente. Nesse exemplo utilizamos 2000
iteracoes, ate que o mapa tenha atingido um estado de equilıbrio. Os valores dos parametros iniciais
e as constantes de tempo saoσi = 4, σf = 0, 5, nmax = 2000 e ǫ = 0, 8.
Seguindo com o exemplo, um padrao de entrada de teste e apresentado a rede auto-organizada, o
neuronio com a resposta mais forte e identificado e marcadoem uma grade. O padrao de teste e da
formax = [xs, 0]T , repete-se esse procedimento para todos os animais e o resultado e mostrado na
figura 2.3.
9
CAPITULO 2. FUNDAMENTACAO TEORICA
- - Ganso - Pombo - Falcao - Coruja -Pato - - - - - - - - -
- - - - Galinha - - - - Aguia- - - - - - - - - -- - - - - - - - - -
Vaca - - - - - Gato - - Raposa- - - - - - - - - -
Zebra - - - - - - - - -- - - - - - - - - Lobo
Cavalo - - Leao - Tigre - Cao - -
Figura 2.3 – Indicacao no Mapa de Caracterısticas dos neuronios quetiveram as melhores respostas.
Pato Ganso Ganso Ganso Pombo Pombo Falcao Coruja Coruja CorujaPato Pato Ganso Galinha Galinha Galinha Falcao Coruja Coruja AguiaPato Pato Galinha Galinha Galinha Galinha GalinhaAguia Aguia AguiaVaca Vaca Galinha Galinha Galinha Galinha Gato GatoAguia AguiaVaca Vaca Vaca Galinha Galinha Gato Gato Gato Raposa RaposaVaca Vaca Vaca Gato Gato Gato Gato Gato Raposa RaposaZebra Vaca Vaca Gato Gato Gato Gato Gato Raposa RaposaZebra Zebra Zebra Leao Leao Tigre Gato Cao Lobo LoboZebra Cavalo Leao Leao Tigre Tigre Tigre Cao Lobo LoboCavalo Cavalo Leao Leao Tigre Tigre Tigre Cao Cao Lobo
Figura 2.4 – Indicacao no Mapa de Caracterısticas da melhor respostade cada neuronio.
A figura 2.4 mostra a melhor resposta de cada neuronio aos diferentes tipos de animais apresen-
tados. Um mapa de caracterısticas como o da figura 2.4 e referido comomapa contextual(Kohonen,
1997; Ritter and Kohonen, 1989). Esses mapas assemelham-seaos mapas corticais pois tambem sao
separados por suas caracterısticas comuns, ou seja, eles organizam-se em grupos onde cada elemento
do grupo tem uma caracterıstica em comum.
10
CA
PIT
UL
O2.
FU
ND
AM
EN
TAC
AO
TE
OR
ICA
Animal Pom
bo
Gal
inha
Pat
o
Gan
so
Cor
uja
Fal
cao
Agu
ia
Rap
osa
Cao
Lob
o
Gat
o
Tig
re
Lea
o
Cav
alo
Zeb
ra
Vac
a
e
pequenomediogrande
100
100
100
100
100
100
010
010
010
010
100
001
001
001
001
001
tem
2 patas4 pataspeloscascos
crina/jubapenas
100001
100001
100001
100001
100001
100001
100001
011000
011000
011010
011000
011000
011010
011110
011110
011100
gosta de
cacarcorrervoarnadar
0010
0000
0001
0011
1010
1010
1010
1000
0100
1100
1000
1100
1100
0100
0100
0000
Tabela 2.1 –Nomes de Animais e seus Atributos
11
CAPITULO 2. FUNDAMENTACAO TEORICA
2.3 Mel-Frequency Cepstral Coefficients
Nesse secao sera discutido como e possıvel transformar uma onda de entrada em uma sequencia
de vetores que representam informacoes de uma pequena parte do sinal. Nossa sugestao para realizar
esse processo e omel-frequency cepstral coefficients(MFCC).
2.3.1 Extracao do MFCC
A extracao do MFCC de uma onda e dividida em seis estagios(Jurafsky and Martin, 2008): Pre-
Enfase, Escolha da Janela, Transformada de Fourier Discreta, Filtro Mel, Calculo do Log, Cepstrum.
Mais detalhes sobre cada processo serao discutidos nas sec¸oes abaixo.
Pre-Enfase
O primeiro passo e aumentar a quantidade de energia nas frequencias altas. Devemos realizar esse
processo, pois as baixas frequencias em um espectro de voz apresentam maior energia que as altas
frequencias. Isso e causado naturalmente pelo pulso glotal. Apos aumentar a energia nas frequencias
altas, o sinal torna-se mais avaliavel no processo.
No experimento realizado, para aumentar a quantidade de energia nas altas frequencias, utilizou-
se um filtro de primeira ordem passa-altas. A formula que descreve o filtro e
y(n) = x(n)− αx(n − 1), (2.8)
comx(n), sendo o sinal de entrada,y(n) o sinal de saıda eα uma constante com valores no intervalo
[0,9 ; 1]. Nesse experimento o valor utilizado foiα = 0, 95.
Escolha da Janela
Um discurso e chamado de um sinal nao estacionario, pois seu espectro muda muito rapido.
Porem para aplicar o MFCC e necessario que o sinal seja estacionario. Para tornar um sinal nao
estacionario em um que e, selecionamos pequenas janelas nesse sinal, assim podemos assumir que
cada pedaco do sinal dentro da janela representa um sinal estacionario.
A escolha dessa janela influencia nas futuras analises que serao realizadas. Por isso nao e qual-
quer formato que sera escolhido. Por exemplo, se escolhermos uma janela retangular, nos extremos
dessa janela teremos uma descontinuidade, pois o sinal e simplesmente cortado, causando proble-
mas na analise de Fourier. Para resolver esse problema utiliza-se a janela de Hamming, figura 2.5,
que suaviza os extremos do sinal contido na janela, ou seja, os extremos tendem a zero, evitando as
descontinuidades na analise de Fourier. A equacao que descreve a janela de Hamming e
12
CAPITULO 2. FUNDAMENTACAO TEORICA
0 10 20 30 40 50 60 70 80 90 1000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Figura 2.5 –Janela de Hamming.
w(n) =
{
0, 54 − 0, 46 cos(
2πnL
)
, 0 ≤ n < L− 1
0 , caso contrario, (2.9)
onden e a variavel de tempo eL e o tamanho da janela.
Para o experimento foram utilizados dois intervalos de ac˜ao para a janela de Hamming. Para o
primeiro experimento, o intervalo e o tamanho do fonema encontrado na frase. Ja para o segundo
experimento, definimos um tamanho de 20 ms para aplicarmos a janela de Hamming, e ela e aplicada
a cada 10 ms do arquivo de audio.
Transformada de Fourier Discreta
A Transformada de Fourier Discreta (DFT, Discrete Fourier Transform) consegue extrair a informacao
espectral da janela do sinal, ela mostra quanta energia o sinal contem nas diferentes faixas de frequencia.
A entrada da DFT e a pequena janela que contem uma parte do sinal,x(n) . . . x(m), ja a saıda e um
numero complexo,X(k) que representa a magnitude e a fase da componente de frequencia no sinal.
A formulacao da DFT e como segue
X(k) =
N∑
n=1
x(n)e−j 2π
N(k−1)n, (2.10)
13
CAPITULO 2. FUNDAMENTACAO TEORICA
Figura 2.6 –Filtro Mel.
com k = 1, . . . , N , N igual ao tamanho dex e j e a representacao da unidade imaginaria, i.e.,
j =√−1.
Porem, no processo do MFCC e mais utilizado a transformadade Fourier rapida (FFT, Fast
Fourier Transform), que nada mais e que um algaritmo utilizado para calcular a DFT utilizando
poucos calculos, reduzindo o esforco computacional. Esse modelo foi utilizado na realizacao do
experimento.
Filtro Mel e C alculo do Log
A audicao humana nao e igualmente sensıvel para todas as faixas de frequencia. Pois ela e menos
sensıvel a altas frequencias, a partir de 1000 Hertz. Parasimular essa caracterıstica, ja que o MFCC
e utilizado para a analise de discursos, utilizamos o filtro mel (Stevens and Volkmann, 1940; Stevens
et al., 1937).
O filtro mel consiste de um banco de filtros que coletam a energia de cada faixa de frequencia.
Ele e composto de 10 filtros com espacamento linear ate 1000 Hz, apos isso ele segue em uma escala
logarıtmica ate 10 kHz, figura 2.6.
O filtro entao e aplicado em todas as janelas a fim de aproximar a percepcao humana. Para
melhorar ainda mais esse processo, calcula-se o logaritmo de todos os valores obtidos, nos humanos
a resposta a um nıvel de sinal e logarıtmica. Alem disso,usando o logaritmo deixamos as estimativas
menos sensıveis a variacoes de potencia causadas pela proximidade ou nao da boca do narrador ao
microfone, na gravacao do discurso.
O Cepstrum: Inverso da Transformada de Fourier Discreta
O termo “cepstrum’ foi introduzido em 1963 por Borget, Healy, and Tukey em um artigo chamado
“The Quefrency Alanysis of Time Series for Echoes” (Borget et al., 1963). O cepstrum e o espectro
de potencia dolog do espectro de potencia de um sinal. Para um sinal de tempo-discreto, a melhor
definicao diz que ocepstrume o inverso da transformada de Fourier discreta (IDFT, inverse discrete
14
CAPITULO 2. FUNDAMENTACAO TEORICA
Fourier transform) do logaritmo da magnitude da DFT de um sinal. Matematicamente ocepstrum,
c(n), de um sinal,x(n), e da seguinte forma
c(n) =1
2π
∫ π
−π
log |X(ejw)|ejwdw, (2.11)
onde a DFT de um sinal e definida na subsecao 2.3.1.
A forma de onda criada pela fala humana e fruto do movimento glotal, que gera uma forma de
onda em uma frequencia fundamental e essa onda passa pelo trato vocal, que devido ao seu formato, e
basicamente um filtro. Porem as informacoes produzidas pelo movimento glotal nao sao importantes
para distinguir os diferentes sons vocais. A informacao mais importante para a deteccao vocal e o
filtro. O cepstrum consegue separar a fonte do som do filtro, por isso ele e usado nesse estudo.
Apos aplicar o cepstrum, o sinal que estava no domınio da frequencia volta ao domınio do tempo,
ele retorna os valores das amostras. Logo nas primeiras amostras esta a informacao necessaria ao
MFCC. Exatamente, toma-se os primeiros 12 valores cepstrais. Esses 12 coeficientes represen-
tam exatamente as informacoes sobre o filtro formado pelo trato vocal, separando as informacoes
desnecessarias contidas na fonte, o movimento glotal.
O calculo da IDFT nesse experimento foi conforme descrito em Rabiner and Schafer (2010), feito
atraves do inverso Transformada do Cosseno Discreta (DCT,Discrete Cosine Transform), definida a
seguir
x(k) = w(k)
N∑
n=1
X(n) cosπ(2n − 1)(k − 1)
2N, k = 1. . . . , N, (2.12)
com
w(k) =
1√N, k = 1
√
2N, 2 ≤ k ≤ N
, (2.13)
ondeN e o tamanho deX.
A relacao entre as duas transformadas pode ser vista no apˆendice A. Foram tomados os 12
primeiros valores obtidos, excluindo o valor de x(1).
15
CAPITULO 3
DESENVOLVIMENTO PRATICO
Com os conceitos apresentados tem-se a base necessaria para realizar os experimentos. A seguir
serao apresentados dois experimentos que utilizam tanto aSOM, quanto o MFCC, para tratar de
um discurso. O objetivo e formar um mapa fonetico, contendo diversos fonemas organizados em
grupos, conforme as caracterısticas comuns. As diferencas entre as duas abordagens sao a forma de
treinamento da rede e a apresentacao dos padroes no treinamento da rede.
3.1 Mapa fonetico com treinamento restrito
A caracterıstica desse experimento que define seu nome e a forma escolhida para treinar a rede
de neuronios. Nesse caso as janelas escolhidas para o calculo do MFCC variam conforme o tamanho
do fonema e em posse dos dados do fonemas treina-se a rede, ou seja, restringimos o aprendizado da
rede somente aos trechos dos fonemas encontrados no discurso.
3.1.1 Identificacao dos fonemas
O primeiro passo a ser seguido e a identificacao dos fonemas em um discurso. Escolheu-se
uma frase e identificou-se os fonemas. No experimento, a frase escolhida foi: “Ola amigo ouvinte,
hoje temos por tıtulo o seguinte tema: Envelhecer, sim, e inevitavel, mas crescer e opcional’, ex-
traıdo de uma gravacao do programa “Maturidade em foco” de Marcelo Caires na Radio UEL. Para a
visualizacao do arquivo de audio foi utilizado o software AudacityR©, que e um editor de audio digital
gratuito.
Identificados os fonemas, anota-se os tempos que cada um ocupa no arquivo, para ter a exata
localizacao do fonema. A lista dos fonemas encontrados e de seus tempos sao mostrados na tabela
3.1, segundo o “alfabeto fonetico’ SAMPA (Speech Assessment Methods Phonetic Alphabet) que
segue o padrao europeu. A figura 3.1 mostra dois alfabetos foneticos, na primeira coluna temos a
CAPITULO 3. DESENVOLVIMENTO PRATICO
Figura 3.1 –Alfabeto fonetico.
Fonte: de Oliveira (2011)
representacao do alfabeto AFI (Alfabeto Fonetico Internacional), na segunda o alfabeto SAMPA, na
terceira os grafemas utilizados no alfabeto portugues e naultima, alguns exemplos de palavras que
utilizam os fonemas utilizados.
Localizado os fonemas o MFCC e aplicado para extrair somente as informacoes necessarias.
3.1.2 Mel-Frequency Cepstral Coefficients e Mapa Auto-Oraganizavel
Reunidos os valores dos coeficientes de cepstrum, realizou-se o mapa de caracterısticas dos fone-
mas. Conforme descrito na secao 2.2.1, e utilizando do software matematico MATLAB (The Math-
Works, 2009), apresenta-se os valores de forma aleatoria para treinar o mapa, obtendo assim, apos
um numero de iteracoes e processos, o mapa de caracterısticas.
17
CAPITULO 3. DESENVOLVIMENTO PRATICO
Fonema Tempo(s) Fonema Tempo(s) Fonema Tempo(s)Inicial Final Inicial Final Inicial Final
o
0,150 0,2180,605 0,688
1,5 1,567,181 7,2747,437 7,492
l0,219 0,2832,483 2,526
a
0,285 0,413,364 3,4325,364 5,5126,08 6,1417,586 7,67
m
0,413 0,4941,823 1,8723,3 3,363
6,031 6,071
i
0,523 0,581,627 1,6592,274 2,3452,696 2,7334,939 4,9885,175 5,217
g0,58 0,6042,788 2,808
v
0,691 0,7783,834 3,8615,119 5,1675,559 5,601
i˜0,789 0,9342,815 2,9324,498 4,719
tSi0,987 1,0922,962 3,043
Z 1,579 1,623 t
1,747 1,7572,203 2,2123,128 3,155,331 5,355
e
1,765 1,8193,869 3,9373,996 4,084,212 4,2685,045 5,1125,613 5,6446,316 6,3566,55 6,665
u1,874 1,9072,063 2,0932,529 2,546
s
1,913 1,9562,569 2,6854,087 4,2134,297 4,4976,143 6,2136,372 6,545
p2,036 2,0637,275 7,287
r
2,114 2,1444,271 4,2986,282 6,3126,676 6,75
S 2,216 2,263 tu 2,418 2,469
E3,15 3,2564,869 4,9347,083 7,177
e˜ 3,72 3,831 L 3,94 3,991
n4,992 5,0467,494 7,583
w5,646 5,6977,687 7,798
k 6,257 6,281
sj 7,287 7,43
Tabela 3.1 –Identificacao dos fonemas no arquivo de audio.
18
CAPITULO 3. DESENVOLVIMENTO PRATICO
Segundo o exemplo apresentado na secao 2.2.2, nesse experimento, o vetor formado pelos 12
coeficientes de cepstrum e o codigo de atributos de cada fonema, o codigo simbolico foi definido para
cada fonema, onde fonemas iguais receberam o mesmo codigo.O tamanho do codigo simbolico e
igual ao numero de fonemas, sem contar os fonemas repetidos. Nesse experimento, o numero total de
fonemas encontrados no trecho foi de 74, desse total 25 e o n´umero de fonemas originais, ou seja, sem
contar as repeticoes dos fonemas. O valor fixoa foi escolhido 0,02, para que o codigo simbolico nao
seja mais influente que os codigos de atributos. O valor 0,02e inferior a media do valores dos codigos
de atributos. Devido o grande numero de informacoes, a rede possui um tamanho de20 × 20, e os
pesos sinapticos iniciais foram escolhidos aleatoriamente. Os parametros iniciais e das constantes de
tempo escolhidos saoσi = 3, σf = 0, 02, nmax = 10000 eǫ = 0, 3. Os valores escolhidos para essas
constantes foram definidos apos analise dos resultados para diferentes valores das constantes.
3.2 Mapa fonetico com treinamento irrestrito
A rede de neuronios desse experimento foi treinada com os valores de MFCC de diversos trechos
do discurso, para ser mais exato, o MFCC foi calculado em janelas de 20 ms a cada 10 ms do arquivo
de audio, ou seja, nao houve restricao na determinacao do trecho escolhido para o treinamento da
rede. O valor de 20 ms e aporximadamente a duracao de um fonema.
3.2.1 Mel-Frequency Cepstral Coefficients e Mapa Auto-Organizavel
Nesse experimento foram calculados os MFCCs de diversos trechos. Todos esses vetores pos-
suindo 12 coeficientes foram apresentados de forma a treinara rede de neuronios, o tamanho da rede,
assim como os parametros escolhidos nao sofreram alterac¸ao em relacao ao treinamento restrito, ou
seja, uma rede de20 × 20 e os parametros iniciais e as constantes de tempo com os valoresσi = 3,
σf = 0, 02, nmax = 10000 e ǫ = 0, 3. Outra diferenca nos parametros apresentados foi o fato de nao
se rotular os parametros apresentados a rede de neuronios, pois segundo Bezdek and Pal (1995) eles
nao sao necessarios.
19
CAPITULO 4
RESULTADOS E DISCUSSAO
4.1 Mapa fonetico com treinamento restrito
Os mapas de caracterısticas apresentados nas figuras 4.1 e 4.2 sao da mesma forma dos apresen-
tados no exemplo presente na secao 2.2.2. A representac˜ao dos fonemas esta seguindo o alfabeto
fonetico SAMPA.
Podemos observar que alguns fonemas, apesar do mesmo rotulo, estao distribuıdos em locais
diferentes no mapa, isso deve-se a diferente aplicacao dofonema em uma palavra, ou seja, um mesmo
fonema possui formas diferentes conforme sua posicao em uma palavra.E conhecido na literatura
sobre bifonemas e trifonemas, que apresentam uma maior confiabilidade em suas informacoes, porem
o numero de combinacoes tornaria o processo lento e nao seria aplicavel.
Alem disso esse metodo se mostrou ineficaz na recuperacao dos fonemas de uma frase, ou seja,
apresentando uma frase ao mapa ele foi incapaz de distinguiros fonemas que estavam presentes
nessa frase. Na teoria o processo deveria funcionar corretamente, apresentando um determinado
trecho, o mapa deveria reconhecer o fonema com a ativacao do neuronio especıfico representante
desse fonema. As causas dessa falha podem estar na restric˜ao da aprendizagem da rede, ou seja, o
reduzido numero de informacoes que a rede possuia para seu treinamento pode ter causado a falha
no sentido de organizar essas informacoes. O outro metodo de treinamento foi realizado a fim de
apresentar um maior numero de informacoes a rede.
Portanto nao iremos apresentar mais resultados referentes a esse metodo de treinamento e voltare-
mos nossa atencao aos resultados apresentados pelo mapa fonetico com treinamento irrestrito, apre-
sentados na secao seguinte.
CAPITULO 4. RESULTADOS E DISCUSSAO
- - a - - - - o - - - m - p - - l - - S- - - - - - - - - - - - - - - - - - - -- - - - m - - - - - - - - - - - a - - g- - - - - - - - - - - - - - - - - - - -- - - - - - - - - i - - - - - - - - - Z- - - - - - - - - - - - i - - - - - - -- - - - - - - - - - - - - - - g - i - -- - - - - - - - i - u - - - - - - - - -- g - - i˜ - - - - - - - - - - - - - - -g - - - - - - - - - - - - - - - - - - e- - - - - - - - - - - - m - - - - - - -- - - - - - - - - Z - - - e - - - - u -g - - - e - - - - - - - - - - - - l - -- - - - - l - - - - - - - - - - - - - -i˜ - - - - - - - - - - - - g - - - - v -Z - - - - - - - - - - - - - - - - - - t- - - - - - - - - - - - - - - - - - - -l - - - - - - - - - - - - - l - - - - e- - - - - - l - - - - - - - - - - - i -- - - - - t - - - m - - v - - - - i - i
Figura 4.1 – Indicacao no Mapa de Caracterısticas dos neuronios quetiveram as melhores respostas a cada fonema com o treinamento res-trito.
Z a a g a a o o o o o o o l o o l i i iZ Z a g a a o o o o o o o Z o i i i i iZ Z m m m m o o o i o o Z Z Z i i i g gm m m m m m m i i i i i Z Z Z i i i g gm m m m m m i i i i i i i i o o o m Z Zm i i i i i i i i i i i i i o o o m m mg i i i i˜ i˜ i i i i e i i i g g g m m ig g i i˜ i˜ i˜ i i i i e e e i g g g m t tg g g i˜ i˜ i˜ i˜ i i i e e l i i i i i t tg g g i˜ i˜ t t l l l l l l l i i i i v vg g g t t t t l l Z Z l l l i i i Z Z vg g g e e t t l Z Z Z l l e e i g Z Z Zg g g e e e a Z Z Z Z Z e e e a g g Z Zg g g e e a a Z Z Z Z Z g g g a a a a vi˜ i˜ Z a a a a Z Z Z Z Z g g g g g a v tZ Z Z a a a t Z Z Z Z Z g g g g g g t tv v v a a t t t Z Z Z Z Z l l l g g t tl l Z a a l l t Z Z Z Z Z l l l l l Z Zl Z Z a a l l l m m Z Z i l l t i l t tt o Z a a t l l m m Z Z i Z Z t t i t t
Figura 4.2 – Indicacao no Mapa de Caracterısticas da melhor respostade cada neuronio com o treinamento restrito.
21
CAPITULO 4. RESULTADOS E DISCUSSAO
- - n - i˜ - - - - - i - - - s - - - s t- - - - - - - - - - - - - - v - - - v -- m m - - - - - - - - - - - - - - - - sjn - - - - - - - - - - - - - - - - - - -m - w - - - - - - - - - - - - - - - - vu - - - - - - m - - - - - - w - - - - t- - - - - - - - - - - - - - - - - - - -- - - - - - - - - - - - - - - - - - - -g a a - - - p - - - - - - - - - - - - -- - - - - - - - - - - - - - - - - - - -- a - - - - - - - - - - - - - - - - - -- a - - - - - k - - - - - - - - - - - -a - - - - - - - - r - - - - - - - - - -- - - o - - - - e - - r r - - - - - - r- o u - - - - - - - - i - - - i - - - el o - - - - - - - - - - - L i˜ - - - i eu - - tu - - - Z - - - i˜ - - - - g - - el - - - - - - - - - - - - - - - - - - -- - - - - - - - S - - - - - e e˜ - t - E- - - - - - p - - t tSi - - i - - E E e -
Figura 4.3 – Indicacao no Mapa de Caracterısticas dos neuronios quetiveram as melhores respostas a cada fonema com o treinamento ir-restrito.
4.2 Mapa Fonetico com treinamento irrestrito
Os mapas de caracterısticas sao apresentados nas figuras 4.3 e 4.4, eles foram formados apre-
sentando a rede, ja treinada, o MFCC dos fonemas da tabela 3.1. Na figura 4.3 foram marcados os
neuronios com a melhor resposta a determinado fonema, e na figura 4.4 foi marcado a melhor resposta
de cada neuronio. A representacao dos fonemas esta seguindo o alfabeto fonetico SAMPA.
A figura 4.5 apresenta o numero de vezes que determinado neuronio venceu a competicao e foi
ativado, alguns neuronios apresentam valores bem maioresque os outros e isso deve-se ao fato de
alguns fonemas aparecerem mais vezes na frase escolhida, bem como a identificacao de um determi-
nado fonema com algum tipo de ruıdo no sinal de audio.
Apresentando o inıcio do discurso, “Ola amigo”, o mapa conseguiu reconhecer os fonemas que
compoem esse trecho, e o caminho percorrido dentro do mapa foi marcado e apresentado na figura
4.6. Observe que os numeros presentes nas setas indicam os passos seguidos, as setas que partem ou
chegam de locais onde nao existe nenhuma letra sao manifestacoes de neuronios que nao deveriam ter
sido ativados. Esses neuronios sao aqueles descritos anteriormente que podem ter se associado a um
fonema que representa um ruıdo no sinal de audio. Observe as figuras 4.7, 4.8, 4.9, 4.10, 4.11, 4.12
elas representam os fonemas que foram identificados corretamente no mapa de fonemas, ja as figuras
4.13, 4.14, 4.15 representam os fonemas que foram associados a ruıdos no processo de identificacao.
22
CAPITULO 4. RESULTADOS E DISCUSSAO
i˜ m n n n n a v n v i n v s s s s s s si n n i˜ n i˜ i˜ v g v i g v v s s s s s sm m m i˜ i˜ i˜ v n g v v v i˜ v v s s s sj sjn n n i˜ i˜ n v p n m i˜ v v v v v v s s sjm n w i˜ v a v m n i˜ v v v v t v t v s su n n a a a m m m a v i v v w v w v s sn n a a i w m m a v v v i w w v o v v ta tu g g r v m m m a i˜ v v v v t v v v na a a a t t w p v v v v t v v i˜ t g v ra a a a v v v v v v v v t t t i i i i na a a a a v v k s tu r r r t t i i i v ia a a a tu v v k o v r r r r r t i e i ea a o n tu v k k r r i˜ i˜ r t r i i e r ra o o o o v p p r v i˜ r r r i e˜ i e e el o o o o p p p v i˜ i˜ i i˜ L i i i e i el o o l o p tu tu v p i˜ i˜ L L i˜ g g e e eu u l o i˜ tu tu Z Z Z i˜ i˜ i˜ L i g o e i el l w o tu tu t t r i˜ i˜ i˜ i˜ i e e g e e ep p o o r r t t S tSi i˜ g e˜ i e e˜ E E E Eo e o t a r p tSi sj S tSi g e˜ i i e˜ E E e e˜
Figura 4.4 – Indicacao no Mapa de Caracterısticas da melhor respostade cada neuronio com o treinamento irrestrito.
0 50 100 150 200 250 300 350 4000
50
100
150
Figura 4.5 –Numero de vitorias de cada neuronio.
23
CAPITULO 4. RESULTADOS E DISCUSSAO
. . .
9<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<
��<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<<<
<<
12###################################
��###################################
. . . . . . . . . . . . . . . . .
i11nnnnn
77nnnnn
. . . . . . . . . . . . . . . . . . .
. m
8�����
GG������
. . . . . . . . . . . . . . . . . .
.7|||
==|||. . . . . . . . . . . . . . . . . . .
. .6EEE
bbEEE
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. a
5
OO
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. o1S
SSSSSS
))SSSSSSSS
. . . . . . . . . . . . . . . . . .
. . . . .
2rrrrr
xxrrrrr
13 //. . . . . . . . . g
14===
��===
. . . . .
. . l3}
}}
~~}}}
. . . . . . . . . . . . o . . . .
. .
4
OO
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
10BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBB
``BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBB
Figura 4.6 –Caminho percorrido pelo discurso “Ola amigo”.
24
CAPITULO 4. RESULTADOS E DISCUSSAO
0.15 0.16 0.17 0.18 0.19 0.2 0.21
−0.3
−0.2
−0.1
0
0.1
0.2
0.3
Am
plitu
de
Tempo (s)
Figura 4.7 – Parte do sinal de audio que representa o fonema “o”inicial da figura 4.6.
0.22 0.23 0.24 0.25 0.26 0.27 0.28
−0.4
−0.3
−0.2
−0.1
0
0.1
0.2
0.3
Am
plitu
de
Tempo (s)
Figura 4.8 –Parte do sinal de audio que representa o fonema “l” entreos lacos 2 e 3 da figura 4.6.
25
CAPITULO 4. RESULTADOS E DISCUSSAO
0.3 0.32 0.34 0.36 0.38 0.4
−0.4
−0.2
0
0.2
0.4
0.6
Am
plitu
de
Tempo (s)
Figura 4.9 –Parte do sinal de audio que representa o fonema “a”entreos lacos 4 e 5 da figura 4.6.
0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49
−0.3
−0.2
−0.1
0
0.1
0.2
0.3
Am
plitu
de
Tempo (s)
Figura 4.10 –Parte do sinal de audio que representa o fonema “m”entre os lacos 7 e 8 da figura 4.6.
26
CAPITULO 4. RESULTADOS E DISCUSSAO
0.53 0.54 0.55 0.56 0.57 0.58
−0.1
−0.05
0
0.05
0.1
0.15
0.2
Am
plitu
de
Tempo (s)
Figura 4.11 – Parte do sinal de audio que representa o fonema “i”entre os lacos 10 e 11 da figura 4.6.
0.58 0.585 0.59 0.595 0.6
−0.2
−0.15
−0.1
−0.05
0
0.05
0.1
0.15
0.2
0.25
0.3
Am
plitu
de
Tempo (s)
Figura 4.12 – Parte do sinal de audio que representa o fonema “g”entre os lacos 13 e 14 da figura 4.6.
27
CAPITULO 4. RESULTADOS E DISCUSSAO
5 5.01 5.02 5.03 5.04−0.4
−0.3
−0.2
−0.1
0
0.1
0.2
0.3
0.4
Am
plitu
de
Tempo (s)
Figura 4.13 – Parte do sinal de audio que representa o fonema “n”entre os lacos 8 e 9 e 11 e 12 da figura 4.6, associado a um ruıdo
3.72 3.74 3.76 3.78 3.8 3.82
−0.3
−0.2
−0.1
0
0.1
0.2
0.3
Am
plitu
de
Tempo (s)
Figura 4.14 –Parte do sinal de audio que representa o fonema “e˜”entre os lacos 9 e 10 da figura 4.6, associado a um ruıdo
28
CAPITULO 4. RESULTADOS E DISCUSSAO
7.19 7.2 7.21 7.22 7.23 7.24 7.25 7.26 7.27
−0.15
−0.1
−0.05
0
0.05
0.1
0.15
Am
plitu
de
Tempo (s)
Figura 4.15 –Parte do sinal de audio que representa outro fonema “o”entre os lacos 1 e 2 e 12 e 13 da figura 4.6, associado a um ruıdo
Podemos destacar o desempenho do mapa formado observando o caminho que ela foi capaz
de criar quando apresentado o trecho de audio. Apesar da rede ter reconhecido alguns fonemas
de maneira incorreta, nao podemos medir seu desempenho pois como se trata de um processo de
aprendizagem nao supervisionado e capaz que a rede tenha armazenado informacoes incorretas ja
em seu processo de formacao pela identificacao erroneade algum fonema realizado no processo
de identificacao dos fonemas, na subsecao 3.1.1. Podemos observar tambem que alguns fonemas
possuem um formato de onda bastante parecidos, e isso pode confundir a rede, e o que acontece por
exemplo no fonema “m”, figura 4.10, e o fonema “n”, figura 4.13.
29
CAPITULO 5
CONCLUSOES
Nesse trabalho foram utilizadas duas ferramentas interagindo para a identificacao de fonemas,
o mapa auto-organizavel e o mel-frequency cepstral coeficients. A SOM e capaz de analisar as ca-
racterısticas estatısticas intrınsecas dos padroes de entrada formando um mapa topograficos destes,
assim pode classificar qualquer novo padrao de entrada utilizando as informacoes ja existentes. O
MFCC consegue extrair de um sinal a informacao necessaria para a analise do discurso, ele transforma
uma onda de entrada em uma sequencia de vetores contendo a informacao de interesse, atraves da
separacao da fonte do som, informacao nao utilizada, com o seu filtro, informacao relevante.
O primeiro experimento nao apresentou resultados satisfatorios quando tentou-se extrair as infor-
macoes do mapa de fonemas, ou seja, o mapa nao foi capaz de adquirir as informacoes dos dados
de entrada, a possıvel causa foi a restricao dos trechos apresentados a rede, pois quando extinguimos
essa restricao a rede apresentou uma resposta mais satisfatoria, esse foi o segundo experimento.
No segundo experimento pode-se observar o resultado esperado para a SOM, ela conseguiu si-
mular os dados de entrada possibilitando a visualizacao correta dos neuronios ativados ao apresentar
um trecho do discurso. Porem, alguns neuronios que nao deveriam ter se manifestado foram ativados,
esses neuronios referem-se a fonemas que foram associadosa ruıdos no sinal de audio, ruıdos que
aparecem na transicao de um fonema a outro ou de uma palavraa outra.
Bibliografia
Anderson, J. (1995).An Introduction to Neural Networks. MIT Press, MA.
Bezdek, J. H. and Pal, N. R. (1995). A note on self-organizingsemantic maps.IEEE Transactions on
Neural Networks, 6(5):1029–1036.
Borget, B., Healy, M., and Tukey, J. (1963). The quefrency alanysis of time series for echoes.Proc.
Symp. on Time Series Analysis, pages 209–243.
Braga, A. P., Carvalho, A. C. P. L. F., and Ludermir, T. B. (2000). Redes Neurais Artificiais: Teroria
e Aplicacoes, volume 1. Livros Tecnicos e Cientıficos - LTC, 1 edition.
de Oliveira, L. C. (Acesso em: 17 de novembro de 2011). Alfabeto fonetico para o dialecto padrao
portugues europeu. Disponıvel em: ¡http://www.l2f.inesc-id.pt/ lco/ptsam/ptsam.pdf¿.
Hassoun, M. H. (1995).Fundamentals of Artificial Neural Networks. MIT Press, Cambridge, MA.
Haykin, S. (1999).Neural Networks: A Comprehensive Foundation. Prentice Hall, Upper Saddle
River, NJ.
Hebb, D. (1949).The Organization of Behavior. John Wiley & Sons, New York.
Hopfield, J. J. (1982). Neural networks and physical systemswith emergent collective computational
abilities. Proceedings of the National Academy of Sciences, 79:2554–2558.
Jurafsky, D. and Martin, J. H. (2008).Speech and language processing: An introduction to natural
language processing, computational linguistic, and speech recognition.Prentice Hall.
Kohonen, T. (1982). Self-organized formation of topologically correct feature maps.Biological
Cybernetics, 43:59–69.
Kohonen, T. (1988). The “neural” phonetic typewriter.IEEE Computer, 21(3):11 – 22.
Kohonen, T. (1989).Self-Organization and Associative Memory. Springer-Verlag, Berlin, third ex-
tended edition edition.
Kohonen, T. (1990). The self-organizing maps.Proceedings of the Institute of the Institute of Elec-
trical and Electronic Engineers, 78:1464–1480.
Kohonen, T. (1997). Exploration of very large databases by self-organizing maps. In1997 Interna-
tional Conference on Neural Networks, volume I, pages PL1–PL6, Houston.
Kohonen, T. (2001).Self-Organizing Maps, volume 30 ofSpringer Series in Information Sciences.
Springer, third extended edition edition.
Levinson, S. E. (2005).Mathematical Models for Speech Technology.John Wiley and Sons, 111
River Street, Hoboken, NJ 07030, USA.
BIBLIOGRAFIA
McCulloch, W. and Pitts, W. (1943). A logical calculus of theideas immanent in nervous activity.
Bulletin of Mathematical Biophysics, 5:115–133.
Minsky, M. and Papert, S. (1969).Perceptrons. MIT Press, Cambridge, MA.
Oppenheim, A. and Schafer, R. (1989).Discrete-Time Signal Processing. Prentice-Hall, Englewood
Cliffs, NJ.
O’Shaughnessy, D. (2000).Speech Communications: Human and Machines.IEEE Press, Piscataway,
NJ.
O’Shaughnessy, D. (2008). Invited paper: Automatic speechrecognition: History, methods and
challenges.Pattern Recognition, 41:2965 – 2979.
Rabiner, L. and Schafer, R. (2007). Introduction to digitalspeech processing.Foundations and Trends
in Signal Processing 1., 1 - 2:1 – 194.
Rabiner, L. and Schafer, R. (2010).Theory and Aplications of Digital Speech Processing. Prentice
Hall.
Ritter, H. and Kohonen, T. (1989). Self-semantic maps. InBiological Cybernetics, volume 61, pages
241–254.
Stevens, S. S. and Volkmann, J. (1940). The relation of pitchfrequency: A revised scale.The
American Journal of Psychology, (53(3)):329–353.
Stevens, S. S., Volkmann, J., and Newman, E. B. (1937). A scale for the measurement of the psycho-
logical magnitude pitch.The American Journal of Psychology, (8):185–190.
The MathWorks (2009).MATLAB. The Mathworks, Inc., 7.8.0.347 (R2009a) edition.
Valle, M. E. (2007).Fundamentos e Aplicacoes de Memorias Associativas Morfologicas Nebulosas.
PhD thesis, Universidade Estadual de Campinas (UNICAMP), Campinas, Brasil.
Vapnik, V. N. (1998).Statistical Learning Theory. John Wiley and Sons.
Vapnik, V. N. (1999).The Nature of Statistical Learning Theory. Springer, 2 edition.
32
APENDICE A
RELAC AO ENTE DFT E DCT
Segundo Oppenheim and Schafer (1989), e possivel expressar a DCT de uma sequencia finita de
x(n) em termos da DFT. Para a DCT a funcao realx(n) deN pontos e estendida para possuir um
perıodo de2N , assim a sequencia periodicax(n) fica
x(n) = x(((n − 1))2N ) + x(((−n))2N ), n = 1, 2, . . . , 2N. (A.1)
Partindo da equacao A.1, sua DFT de2N pontos da sequencia de2N pontosx(n) e
X(k) = X(k) +X∗(k) exp (j2π(k − 1)/(2N)), k = 1, 2, . . . , 2N, (A.2)
ondeX(k) e a DFT de2N pontos da sequencia deN pontosx(n); i.e., nesse casox(n) e preenchido
comN amostras de zero. Partindo de A.2, nos temos
X(k) = exp (jπ(k − 1)/(2N)) (X(k) exp (−jπ(k − 1)/(2N)) +X∗(k) exp (jπ(k − 1)/(2N)))
(A.3)
X(k) = exp (jπ(k − 1)/(2N))2Re {X(k) exp (−jπ(k − 1)/(2N))} .
Da deficao de uma DFT de2N pontos de uma sequencia preenchida, temos o seguinte
Re {X(k) exp (−jπ(k − 1)/(2N))} =
N∑
n=1
x(n) cosπ(2n − 1)(k − 1)
2N. (A.4)
Uma vez que a DCT de um sinal e
XDCT (k) = 2
N∑
n=1
x(n) cosπ(2n− 1)(k − 1)
2N, k = 1, 2, . . . , N, (A.5)
podemos expressarXDCT (k) em termo deX(k), utilizando as equacoes A.3, A.2 e A.5, como
XDCT (k) = 2Re {X(k) exp (−jπ(k − 1)/(2N))} , k = 1, 2, . . . , N, (A.6)
APENDICE A. RELACAO ENTE DFT E DCT
ou em termos da DFT de2N pontos da sequencia simetricamente extendida de2N pontos,x(n),
definida em A.1 temos
XDCT (k) = exp(−jπ(k − 1)/(2N))X(k), k = 1, 2, . . . , N, (A.7)
e equivalentemente,
X(k) = exp(jπ(k − 1)/(2N))XDCT (k), k = 1, 2, . . . , N. (A.8)
34