raul arthur fernandes rosa - uel · 2011-11-30 · dois tipos de treinamento para a formac¸a˜o do...

RAUL ARTHUR FERNANDES ROSA

Aplicacoes de Redes Neurais Auto-Organizaveis para a

Identificacao Autonoma de Fonemas

LONDRINA

2011

UNIVERSIDADE ESTADUAL DE LONDRINA

CURSO DE GRADUACAO EM ENGENHARIA EL ETRICA



Trabalho de conclusao de curso submetido aUniversidade Estadual de Londrina

como parte dos requisitos para a obtencaodo grau de Engenheiro Eletricista.

RAUL ARTHUR FERNANDES ROSA

Londrina, Outubro de 2011.



Raul Arthur Fernandes Rosa

‘Este trabalho foi julgado adequado para a conclusao do curso de engenharia eletrica eaprovado em sua forma final pela Coordenacao do Curso de Engenharia Eletrica da

Universidade Estadual de Londrina.’

Marcio Roberto CovacicOrientador(a)

Marcos Eduardo Ribeiro do Valle MesquitaCo-orientador(a)

Profa. Maria Bernadete de Morais FrancaCoordenadora de TCC

Banca Examinadora:

Prof. Dr. Ernesto Fernando Ferreyra Ramırez

A todos que me transmitiramconhecimento, pois elee

a cura da ignorancia.

AGRADECIMENTOS

Aos meus pais, Luis Artur e Leila, que me conduziram sempre pelo melhor caminho, nao o maisfacil, mas o que me fez capaz de encarar os desafios da vida comhonestidade e bravura. Por issoeste e todos os trabalhos que virei a desenvolver sao devidoa dedicacao e educacao para comigo, dainfancia ate os dias de hoje.

As minhas irmas, Lara e Vitoria, e a todos os meus familiares, avos, tios, primos, por todos osvalores passados a mim. Sao pessoas que, sem duvida nenhuma, me ajudariam em qualquer tipo dedificuldade e a quem eu posso confiar sem hesitacao.

Agradeco imensamente a paciencia e disponibilidade do professor doutor Marcos Eduardo Vallepor esses 2 anos de orientacao nos projetos de pesquisa, alem de 1 ano de ensinamentos em classe, portodas as reunioes que sempre me agregavam conhecimento, por todo o incentivo e desafios propostos.

Ao professor doutor Marcio Roberto Covacic que aceitou me orientar nesse trabalho, assim comoa todos os professores do departamento de engenharia eletrica da UEL, que de uma maneira ou deoutra me ajudaram a tentar desvendar os caminhos da ciencia.

Aos meus amigos de classe que ao longo de 5 anos me ajudaram nessa caminhada da graduacao,em especial ao Ze, Nagai, Banha, Bocao, Guilherme, BV, Regis, Perdiga, Kawana, Cambe, Heitor,Thierry, Irmao, Helton. Aos meus amigos que me acompanham desde a infancia, a quem possochamar de irmaos, Jefferson, Joao, Eduardo, Marcel, Adalberto.

A minha companheira e melhor amiga, Lara, que ao longo desses2 anos de convivencia meajudou a enfrentar minhas dificuldades, me ensinou sobre amor, dedicacao, perseveranca, relacoes.Agradeco o tempo dedicado a me ajudar a resolver meus problemas, principalmente a sua companhiaque me fez encontrar a felicidade.

iv

Resumo do trabalho de conclusao de curso apresentada a UELcomo parte dos requisitos necessariospara obtencao do grau de Engenheiro Eletricista.



Raul Arthur Fernandes Rosa

OUTUBRO/2011

Orientador(a): Marcio Roberto CovacicCo-orientador(a): Marcos Eduardo Ribeiro do Valle MesquitaPalavras-chave: Redes Neurais Artificiais, Mapas Auto-organizaveis, Reconhecimento Automaticode Discurso

Nesse trabalho investigamos a aplicacao da rede neural auto-organizavel (SOM, Self-OrganizingMap) de Kohonen para analise de fonemas em sinais de voz. Em termos gerais, a SOM propostapor Kohonen tem como objetivo capturar a topologia e a distribuicao de probabilidade de um con-junto de dados. Essa informacao e obtida atraves de um processo nao supervisionado que ressaltaas caracterısticas relevantes dos dados e proporciona a criacao de agrupamentos de neuronios. Nodesenvolvimento, os neuronios foram organizados numa rede bi-dimensional onde cada grupo deneuronios corresponde a um fonema extraıdo de um sinal de voz. A rede bi-dimensional obtida aposo processo de auto-organizacao foi usada como um mapa de fonemas. Nesse trabalho foram testadosdois tipos de treinamento para a formacao do mapa de fonemas, esses dois treinamentos foram real-izados utilizando um determinado trecho selecionado em um sinal de voz. No primeiro experimentoo treinamento ficou restrito aos fonemas encontrados no trecho. O treinamento do segundo experi-mento foi realizado de maneira irrestrita, isto e, utilizando todo o trecho. Observou-se que o mapafonetico do segundo experimento foi capaz de reconhecer osfonemas de um trecho do sinal de voz,ativando os neuronios que representam os respectivos fonemas.

v

Conteudo

Lista de Figuras viii

Lista de Tabelas x

Lista de Sımbolos e Abreviacoes xi

1 Introduc ao 1

2 Fundamentacao Teorica 3

2.1 Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 3

2.2 Mapa Auto-Organizavel . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 6

2.2.1 Algoritmo SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2.2 Mapa de Caracterısticas . . . . . . . . . . . . . . . . . . . . . . . .. . . . 9

2.3 Mel-Frequency Cepstral Coefficients . . . . . . . . . . . . . . . .. . . . . . . . . . 12

2.3.1 Extracao do MFCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 12

3 Desenvolvimento Pratico 16

3.1 Mapa fonetico com treinamento restrito . . . . . . . . . . . . .. . . . . . . . . . . 16

3.1.1 Identificacao dos fonemas . . . . . . . . . . . . . . . . . . . . . .. . . . . 16

3.1.2 Mel-Frequency Cepstral Coefficients e Mapa Auto-Oraganizavel . . . . . . . 17

3.2 Mapa fonetico com treinamento irrestrito . . . . . . . . . . .. . . . . . . . . . . . 19

3.2.1 Mel-Frequency Cepstral Coefficients e Mapa Auto-Organizavel . . . . . . . 19

4 Resultados e Discussao 20

4.1 Mapa fonetico com treinamento restrito . . . . . . . . . . . . .. . . . . . . . . . . 20

4.2 Mapa Fonetico com treinamento irrestrito . . . . . . . . . . .. . . . . . . . . . . . 22

vi

5 Conclusoes 30

Bibliografia 31

A Relacao ente DFT e DCT 33

Lista de Figuras

2.1 Modelo geral de um neuronio. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 4

2.2 ANN recorrente de unica camada. . . . . . . . . . . . . . . . . . . . .. . . . . . . 6

2.3 Indicacao no Mapa de Caracterısticas dos neuroniosque tiveram as melhores respostas. 10

2.4 Indicacao no Mapa de Caracterısticas da melhor resposta de cada neuronio. . . . . . 10

2.5 Janela de Hamming. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 13

2.6 Filtro Mel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 14

3.1 Alfabeto fonetico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 17

4.1 Indicacao no Mapa de Caracterısticas dos neuroniosque tiveram as melhores respos-tas a cada fonema com o treinamento restrito. . . . . . . . . . . . . .. . . . . . . . 21

4.2 Indicacao no Mapa de Caracterısticas da melhor resposta de cada neuronio com otreinamento restrito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 21

4.3 Indicacao no Mapa de Caracterısticas dos neuroniosque tiveram as melhores respos-tas a cada fonema com o treinamento irrestrito. . . . . . . . . . . .. . . . . . . . . 22

4.4 Indicacao no Mapa de Caracterısticas da melhor resposta de cada neuronio com otreinamento irrestrito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 23

4.5 Numero de vitorias de cada neuronio. . . . . . . . . . . . . . .. . . . . . . . . . . 23

4.6 Caminho percorrido pelo discurso “Ola amigo”. . . . . . . .. . . . . . . . . . . . . 24

4.7 Parte do sinal de audio que representa o fonema “o” inicial da figura 4.6. . . . . . . . 25

4.8 Parte do sinal de audio que representa o fonema “l” entreos lacos 2 e 3 da figura 4.6. 25

4.9 Parte do sinal de audio que representa o fonema “a”entreos lacos 4 e 5 da figura 4.6. 26

4.10 Parte do sinal de audio que representa o fonema “m” entre os lacos 7 e 8 da figura 4.6. 26

4.11 Parte do sinal de audio que representa o fonema “i” entre os lacos 10 e 11 da figura 4.6. 27

4.12 Parte do sinal de audio que representa o fonema “g” entre os lacos 13 e 14 da figura 4.6. 27

4.13 Parte do sinal de audio que representa o fonema “n” entre os lacos 8 e 9 e 11 e 12 dafigura 4.6, associado a um ruıdo . . . . . . . . . . . . . . . . . . . . . . . .. . . . 28

viii

4.14 Parte do sinal de audio que representa o fonema “e˜” entre os lacos 9 e 10 da figura4.6, associado a um ruıdo . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 28

4.15 Parte do sinal de audio que representa outro fonema “o”entre os lacos 1 e 2 e 12 e 13da figura 4.6, associado a um ruıdo . . . . . . . . . . . . . . . . . . . . . .. . . . . 29

Lista de Tabelas

2.1 Nomes de Animais e seus Atributos . . . . . . . . . . . . . . . . . . . .. . . . . . 11

3.1 Identificacao dos fonemas no arquivo de audio. . . . . . .. . . . . . . . . . . . . . 18

x

Lista de Sımbolos e Abreviacoes

AFI Alfabeto Fonetico Internacional

ANN Artificial Nerual Network(Rede Neural Artificial)

ASR Automatic Speech Recognition(Reconhecimento Autmatico de Discurso)

DCT Discrete Cosine Transform(Transformada do Cosseno Discreta)

DFT Discrete Fourier Transform(Transformada de Fourier Discreta)

FFT Fast Fourier Transform(Transformada Rapida de Fourier)

HMP Hidden Markov Process(Processo Escondido de Markov)

MFCC Mel-Frequency Cepstral Coefficients(Coeficientes Mel-Cepstrais)

SAMPA Speech Assessment Methods Phonetic Alphabet(Metodos de Avaliacao de Discursopor Alfabeto Fonetico)

SOM Self Organizing Map(Mapa Auto-Organizavel)

xi

CAPITULO 1

I NTRODUC AO

O reconhecimento autonomo de discurso(ASR, Automatic Speech Recognition) e uma das tare-

fas em que uma maquina pode simular o comportamento humano.Estudos sobre o assunto iniciaram

em 1952 no Bell Labs com o reconhecimento de dıgitos pronunciados via telefone (O’Shaughnessy,

2008). Conforme os computadores evoluıram nos anos 1960s,novas tecnicas baseadas em programa-

cao dinamica foram desenvolvidas em ASR. Nos anos 1970s,sugiram grandes contribuicoes na area

devido ao modelo linear preditivo que oferece uma forma eficiente de representar um sinal de voz (Ra-

biner and Schafer, 2007). O modelo linear preditivo continua sendo usado em muitas aplicacoes, em-

bora tenha sido substituıdo pelo MFCC (Mel-frequency cepstral coeficients) desenvolvido nos anos

1980 (Rabiner and Schafer, 2007). De fato, nos anos 1980 surgiram diversos bancos de dados com

sinais de voz e a tecnica comum da epoca estava baseada no uso de templates para a identificacao

de fonemas. Posteriormente, modelos baseados em processosde Markov escondidos (HMP, Hid-

den Markov Process) foram empregados com a ideia de substituir os templates por modelos proba-

bilısticos mais simples (Levinson, 2005). Finalmente, nos anos 1990s foram desenvolvidos modelos

baseados em wavelets (O’Shaughnessy, 2000), maquinas de vetores de suporte (Vapnik, 1998, 1999)

e Redes Neurais Artificiais (ANNs, Artificial Neural Networks) (Hassoun, 1995; Haykin, 1999).

Nesse trabalho iremos aplicar ANNs para ASR, precisamente para a identificacao de fonemas.

Lembre-se que uma ANN e um modelo matematico inspirado no cerebro humano, onde as unidades

basicas de processamento sao os neuronios (Anderson, 1995; Hassoun, 1995; Haykin, 1999). Os

estudos das redes neurais artificiais iniciaram em 1943 quando o biologo Warren McCulloch e o

matematico Walter Pitts apresentaram um modelo matematico de um neuronio biologico (McCul-

loch and Pitts, 1943). No inıcio dos anos 1980s, Kohonen apresentou um modelo de ANN auto-

organizavel conhecida como mapas auto-organizaveis (SOM, Self-Organizing Maps) de Kohonen

(Kohonen, 1982, 1989). A SOM, e suas variacoes, representam a classe mais popular de ANNs

com aprendizado nao-supervisionado, i.e., sem professor. Esses modelos tambem representam um

dos modelos mais realısticos do cerebro humano. Sobretudo, a SOM foi aplicada com sucesso em

diversas areas, incluindo estatıstica, processamento de sinais, teoria de controle, analise financeira,

fısica experimental, quımica e medicina (Kohonen, 2001). De fato, a SOM pode ser empregada em

CAPITULO 1. INTRODUCAO

problemas de dimensoes grandes e nao-lineares, tais comoa extracao de caracterısticas em imagens

e padroes acusticos como discursos. Alem disso, a SOM pode ser usada para estabelecer uma corres-

pondencia entre as entradas e uma tabela de unidades - geralmente com uma ou duas dimensoes - que

preserva as relacoes topologicas e a distribuicao de probabilidade dos dados (Hassoun, 1995).

Em 1988, Kohonen apresentou uma SOM capaz de transcrever discursos contınuos (Kohonen,

1988). Esse modelo e capaz de identificar fonemas da lınguafinlandesa de um modo autonomo. Esse

modelo foi posteriormente aperfeicoado em Kohonen (2001). Inspirados nos trabalhos de Kohonen,

nesse estudo iremos aplicar a SOM para a identificacao de fonemas da lıngua portuguesa em sinais

de audio.

O trabalho esta organizado da seguinte forma. O proximo capıtulo apresenta um historico sobre

as redes neurais, a descricao e um exemplo do mapa auto-organizavel e omel-frequency cepstral coe-

ficientes. O capıtulo 3 apresenta dois experimentos para a formacao do mapa fonetico. Os resultados

obtidos com os dois experimentos sao mostrados e discutidos no capıtulo 4. Por fim, no capıtulo 5,

sao apresentadas as conclusoes do trabalho.

2

CAPITULO 2

FUNDAMENTAC AO TEORICA

Neste capıtulo serao apresentados os conceitos utilizados nesse trabalho. Primeiro uma apre-

sentacao sobre as redes neurais artificiais, com um historico e comentarios sobre algumas redes da

literatura. Logo apos e descrito o mapa auto-organizavel, sua formulacao e um exemplo que ilustra

seu comportamento. Para finalizar e apresentado a ferramenta utilizada para tratar o discurso, omel-

frequency cepstral coeficientes. A realizacao dos dois experimentos desse trabalho e baseada nos

conceitos apresentados nesse capıtulo.

2.1 Redes Neurais Artificiais

UmaRede Neural Artificial(ANN, Artificial Neural Network), ou simplesmenterede neural, e

um modelo matematico inspirado no cerebro humano por sua habilidade de adquirir e armazenar

conhecimento necessario para realizar uma dada tarefa. Devido a motivacao biologica, os elementos

basicos de processamento de uma rede neural sao chamadosneuroniosounos. Em 1943 os cientistas

Warren McCulloch e Walter Pitts apresentaram o primeiro modelo artificial de um neuronio. No artigo

intitulado “A Logical Calculus of the Ideas Immanent in Nervous Activity” os dois discorrem sobre

diversos assuntos relacionados a um modelo artificial de um neuronio e apresentam suas capacidades.

Um neuronio artificial consiste dos seguintes elementos cuja representacao grafica esta apresen-

tada na figura 2.1 (Haykin, 1999; Valle, 2007):

1. Um conjunto depesos sinapticos(ouconexoes sinapticas), e uma operacao binaria que combina

a entrada com a respectiva conexao sinaptica.

2. Umaregra de agregacaoque combina as entradas dos neuronios ponderados com as respectivas

conexoes sinapticas.

3. Umafuncao de ativacao com objetivo de introduzir nao-linearidade no modelo ou confinar a

saıda do neuronio num dado intervalo.

CAPITULO 2. FUNDAMENTACAO TEORICA

Entradas1. Conexoes

Sinapticas e Bias2. Regra deAgregacao

3. Funcao deAtivacao Saıda

1

θLLLLLLLLLLLLLLLLLLLLL

%%LLLLLLLLLLLLLLLLLLLLL

x1

w1PPPPPPPPPPPPPPPPPPP

((PPPPPPPPPPPPPPPPPPP

x2

w2TTTTTTTTTTTTTTTTTT

**TTTTTTTTTTTTTTTTTT...

xj wj // ?>=<89:; φ(·) // yi

...

xn

wnjjjjjjjjjjjjjjjjjj

44jjjjjjjjjjjjjjjjjj

_ _ _ _��

��

_ _ _ _

_ _ _ _ _ _ _��

��

_ _ _ _ _ _ _

_ _ _ _ _ _��

��

_ _ _ _ _ _

_ _ _ _ _ _ _ _ _��

��

_ _ _ _ _ _ _ _ _

_ _ _ _ _ _��

��

_ _ _ _ _ _

Figura 2.1 –Modelo geral de um neuronio.

Fonte: Valle (2007)

4


Alguns modelos de neuronios tambem incluem um termo externo oubias. Entretanto, na maioria dos

casos, o bias pode ser interpretado como um peso sinaptico conectado a uma entrada constante.

Uma parte importante na discussao de ANNs que foi pouco comentada no artigo de McCulloch e

Pitts sao as tecnicas de aprendizado, que vieram a ser objeto de estudo alguns anos depois, em 1949

por Donald Hebb (Hebb, 1949). O postulado de Hebb diz: “Se dois neuronios em ambos os lados de

uma sinapse sao ativados simultaneamente, entao a forcadaquela sinapse e aumentada”. Em outras

palavras, o aprendizado de neuronios e baseado no reforco das ligacoes sinapticas entre neuronios

excitados. A regra de Hebb, que e a interpretacao matematica de seu postulado, e utilizada em varios

algoritmos de aprendizado.

O aprendizado de Hebb falhou em algumas aplicacoes devidoa “rigidez” do neuronio, mais

expecificadamente em suas conexoes sinapticas, que sofriam somente um reforco no aprendizado.

Para solucionar esse problema, Frank Rosenblatt desenvolveu operceptron, em que ele acrescentou

ao neuronio de McCulloch e Pitts sinapses ajustaveis tornando esse neuronio capaz de classificar

certos tipos de padroes, dividindo o espaco de entrada em regioes distintas para cada uma das classes

existentes. A limitacao desse modelo de neuronio e que ele e incapaz de classificar padroes que nao

sejamlinearmente separaveis, ou seja, padroes cuja solucao nao pode ser encontrada dividindo-se o

espaco de entrada em duas regioes atraves de um hiperplano. Por exemplo, o perceptron nao consegue

resolver um problema simples como o ou-exclusivo, e foi nessas limitacoes que, em 1969, Minsky e

Papert no livro “Perceptrons” (Minsky and Papert, 1969), fizeram crıticas a esse modelo de neuronio.

Eles argumentaram que o problema de crescimento explosivo,tanto de espaco ocupado como do

tempo requerido para a solucao de problemas complexos, afetaria as ANNs, inclusive os perceptrons

(Braga et al., 2000). Afirmaram tambem que esses problemas nao seriam solucionados por redes de

perceptrons com mais de uma camada.

A falta de recursos tecnologicos e os argumentos de Minsky ePapert, causaram um desestımulo

em pesquisas sobre ANNs. Durante os anos 1970s poucos pesquisadores continuaram no ramo, entre

eles James Anderson, Shun-ichi Amari, Igor Aleksander, Kunihiko Fukushima, Steven Grossberg e

Teuvo Kohonen, que desenvolveu nessa epoca as redes auto-organizaveis estudadas nesse trabalho.

No inıcio dos anos 1980s o interesse em redes neurais voltou, gracas aos trabalhos de John J.

Hopfield e David Rumelhart. Em Hopfield (1982), Hopfield conseguiu mostrar a relacao entre redes

recorrentes auto-associativas, figura 2.2, e sistemas fısicos.

De maneira geral, uma rede neural artificial e caracterizada pelomodelo do neuronio, a arquite-

tura ou topologia da redee a regra de treinamentoou regra de aprendizado(Haykin, 1999). A

regra de aprendizadocorresponde ao processo que modifica os pesos sinapticos com a intencao de

se atingir um dado objetivo. Atopologiade uma rede neural refere-se ao projeto da rede e ao modo

como os neuronios sao conectados. Em muitos casos, o projeto de uma rede consiste em camadas de

neuronios. Geralmente, conta-se apenas as camadas de neuronios com pesos ajustaveis. Por exem-

plo, umarede de camadaunica e uma rede neural com apenas uma camada de neuronios com pesos

ajustaveis. As caracterısticas da rede utilizada nesse trabalho estao descritas na secao a seguir.

5


Figura 2.2 –ANN recorrente de unica camada.

Fonte: Valle (2007)

2.2 Mapa Auto-Organizavel

O cortex cerebral humano e organizado de uma forma em que sensacoes diferentes excitam

regioes diferentes, i.e., para diferentes estımulos, especıficas areas do cortex sao ativadas a fim de

processar tais estımulos. A motivacao neural doMapa Auto-Organizavel (SOM, Self-Organizing

Map) e desenvolvida a partir dessa caracterıstica do cortex cerebral.

A SOM e uma rede cujos nos sao neuronios, elas foram desenvolvidas por Teuvo Kohonen (Koho-

nen, 1989), na decada de 80, e por isso tambem sao chamadasde redes de Kohonen. Para formar-se, a

rede passa por um processo de aprendizagem competitiva, ou seja, quando um padrao de entrada e ex-

posto a rede, os neuronios competem entre si para que somente um neuronio venca e seja ativado, ou

disparado. O neuronio que ganha a competicao e chamado neuronio vencedor. Na SOM o neuronio

vencedor ativa tambem seus vizinhos, criando uma uniformidade naquela regiao. Apos apresentados

varios padroes de entrada, ou classes de padroes de entrada, os neuronios comecam a se dispor de

uma forma que modele os padroes apresentados a rede. Um mapa auto-organizavel e, portanto, car-

acterizado pela formacao de um mapa topografico dos padr˜oes de entrada, onde as localizacoes (i.e.

coordenadas) dos neuronios na rede sao indicativos das caracterısticas estatısticas intrınsecas contidas

nos padroes de entrada (Haykin, 1999).

O termo mapa auto-organizavel foi proposto por Kohonen (Kohonen, 1982). Segundo ele, o

princıpio de formacao de mapas topograficos e formulado da seguinte forma (Kohonen, 1990): A

localizacao espacial de um neuronio de saıda em um mapa topografico corresponde a um domınio ou

caracterıstica particular do dado retirado do espaco de entrada.

6


Segundo este princıpio Kohonen apresentou um modelo onde os neuronios de saıda estao arran-

jados em uma rede uni ou bidimensional, assegurando que cadaneuronio de saıda tenha um conjunto

de vizinhos. O modelo transforma padroes de entrada, de dimensoes arbitrarias, em um mapa dis-

creto uni ou bidimensional. O mapa forma-se seguindo uma adaptacao a cada padrao de entrada,

organizando-se de uma maneira topologicamente ordenada, simulando as caracterısticas do cortex

cerebral.

Para a formacao da SOM e necessario que a rede de neuronios passe por tres processos que sao a

base do aprendizado auto-organizavel. Porem, antes e necessario que os pesos sinapticos da rede de

neuronios sejam inicializados com valores pequenos e arbitrarios, outra forma de inicializar e tomar

valores dos padroes de entrada, de maneira aleatoria. Ap´os a inicializacao, a rede passa pelo primeiro

processo, o processo de competicao. Nesse processo os neuronios da rede competirao entre si para

determinar quem sera o neuronio vencedor. Essa competicao entre os neuronios e determinada a

partir dos valores apresentados por uma funcao discriminante que relaciona o padrao de entrada a

cada um dos neuronios da rede, o neuronio que apresentar o maior valor da funcao discriminante e o

vencedor. O segundo processo e o de cooperacao, ou seja, definida uma vizinhanca topografica entre

os neuronios, o vencedor excita os seus vizinhos, de acordocom funcoes como a funcao guassiana ou

a funcaosinc. O ultimo processo e necessario para atualizar os valores dos pesos sinapticos, chama-

se processo de adaptacao sinaptica, ele aumenta os valores da funcao discriminante dos neuronios

excitados.

O algoritmo que realiza todos esses processos e chamado algoritmo SOM e e formado de cinco

fases, onde tres dessas fases sao repetidas ate o mapa auto-organizavel estar completo. As fases

sao chamadas: inicializacao, amostragem, casamento por similaridade, atualizacao e continuacao, as

fases centrais sao repetidas, elas sao as ja comentadas bases do aprendizado auto-organizavel. Na

secao a seguir sera definido o algoritmo SOM.

2.2.1 Algoritmo SOM

Antes e importante definir o padrao de entrada e o vetor pesosinaptico dos neuronios. Um padrao

(vetor) de entrada e representado por

x = [x1, x2, . . . , xm]T , (2.1)

ondem e a dimensao do espaco de entrada. O vetor peso sinapticode um neuronio da rede,k, e

definido por

wk = [wk1, wk2, . . . , wkm]T , k = 1, 2, . . . , l, (2.2)

onde l e o numero total de neuronios na rede. Observe que o vetor peso sinaptico tem a mesma

dimensao do espaco de entrada.

A seguir sao apresentados os cinco processos do algoritmo SOM.

7


1. Inicializacao. Como dito anteriormente os valores dos vetores pesos sinapticos devem ser

inicializados, caracterizando os vetores de pesos iniciais wk(0). Os valores dewk(0) devem

ser diferentes parak = 1, 2, . . . , l, ondel e o numero de neuronios na rede.

2. Amostragem. Escolha aleatoriamente um padrao de entrada para apresenta-lo a rede.

3. Casamento por Similaridade. Para encontrar o neuronio vencedor utilize como funcaodiscreta,

i(x), o criterio da mınima distancia euclidiana, no passo de iteracaon:

i(x) = argmink ‖x(n)−wk‖ , k = 1, 2, . . . , l. (2.3)

4. Atualizacao. Apos a escolha do neuronio vencedor, os vetores de peso sinaptico de todos os

neuronios devem ser ajustados utilizando a formula de atualizacao

wk(n+ 1) = wk(n) + ǫhk,i(x)(n)(x(n)−wk(n)), (2.4)

ondeǫ e o parametro da taxa de aprendizagem ehk,i(x)(n) e a funcao de vizinhanca centrada

em torno do neuronio vencedori(x).

5. Continuacao. Retorne ao passo 2 ate o mapa auto-organizavel nao apresentar grandes alteracoes

em sua forma.

O parametro da taxa de aprendizagem,ǫ, e a funcao de vizinhanca,hk,i(x)(n), possuem algumas

caracterısticas descritas a seguir:

• A vizinhanca topologica, ou funcao de vizinhanca,hk,i(x)(n) assume um valor maximo no

neuronio vencedori(x) e decresce com o aumento da distancia lateraldk,i(x), que define a

distancia entre um neuronio vencedor e o neuronio excitado k.

• O tamanho da vizinhanca topologica deve diminuir com o passar da iteracaon.

• O parametro da taxa de aprendizagem permanece com um valor fixo com o passar do tempon.

A funcao de vizinhancahk,i(x)(n) e geralmente escolhida como a funcao gaussiana

hk,i(x)(n) = exp

(

− dk,iσ(n)2

)

. (2.5)

A distancia lateraldk,i, no caso bidimensional, e definida por

dk,i = ‖rk − ri‖ , (2.6)

onde o vetor discretork define a posicao do neuroniok e ri define a posicao discreta do neuronio

i, ambos sendo medidos no espaco de saıda discreto.σ(n) mede o grau com o qual neuronios vizi-

nhos ao neuronio vencedor participam do processo de aprendizagem. Como descrito em Ritter and

8


Kohonen (1989), a funcaoσ e definida a seguir

σ(n) = σi

(

σfσi

)n

nmax

, n = 0, 1, 2, ..., (2.7)

ondeσi e o valor deσ(n) na inicializacao do algoritmo SOM,σf e o valor final enmax e o numero

maximo de iteracoes.

2.2.2 Mapa de Caracterısticas

Para compreender melhor os conceitos apresentados ate aqui, segue um exemplo proposto por

Ritter and Kohonen (1989), e estudado por Haykin (1999), onde um conjunto de animais e algumas de

suas caracterısticas sao apresentadas a um mapa auto-organizavel chamado de mapa de caracterısticas.

O mapa de caracterısticas tem esse nome pois forma regioes, ou grupos, que representam um conjunto

de padroes de entrada com caracterısticas similares.

Na tabela 2.1 as colunas representam os animais, 16 no total,e as linhas representam as carac-

terısticas, 13 no total. Cada animal recebe atributos segundo as suas caracterısticas, onde “1” significa

presenca e “0” ausencia. Os animais sao classificados segundo umcodigo de atributoxa constituıdo

de 13 elementos. Alem do codigo de atributos, os animais s˜ao especificados por umcodigo simbolico

xs, onde as informacoes desse codigo nao devem relacionaros animais, mostrando algum tipo de

semelhanca, esse sımbolo e inserido para acrescentar mais um diferenciador entre um animal e outro.

No exemplo, o vetor colunaxs recebe na linhak, comk = 1, 2, . . . , 16, um valor fixoa e o restante

dos elementos sao igualados a zero. Por exemplo, o vetor colunaxs que representa o animal 3, ou

seja, o pato tera em sua terceira linha o valora e os outros elementos do vetor sao igualados a zero.

O parametroa representa a influencia que o codigo simbolico tem na formacao do mapa comparado

ao codigo de atributo. No exemplo, o codigo de atributo deve ser dominante, entao o valor dea deve

ser pequeno, segundo Ritter and Kohonen (1989) esse valor ede 0,2. Cada animal e representado por

um vetorx, que e o padrao de entrada apresentado ao mapa, esse vetor possui 29 elementos. Ele e

formado pela concatenacao do vetor codigo de atributoxa e do codigo simbolicoxs, como mostrado

a seguir

x =

[

xs

xa

]

=

[

xs

0

]

+

[

0

xa

]

Para finalizar, os vetores sao apresentados a uma grade bidimensional de10 × 10 neuronios e os

pesos sinapticos sao ajustados conforme discutido anteriormente. Nesse exemplo utilizamos 2000

iteracoes, ate que o mapa tenha atingido um estado de equilıbrio. Os valores dos parametros iniciais

e as constantes de tempo saoσi = 4, σf = 0, 5, nmax = 2000 e ǫ = 0, 8.

Seguindo com o exemplo, um padrao de entrada de teste e apresentado a rede auto-organizada, o

neuronio com a resposta mais forte e identificado e marcadoem uma grade. O padrao de teste e da

formax = [xs, 0]T , repete-se esse procedimento para todos os animais e o resultado e mostrado na

figura 2.3.

9


- - Ganso - Pombo - Falcao - Coruja -Pato - - - - - - - - -

- - - - Galinha - - - - Aguia- - - - - - - - - -- - - - - - - - - -

Vaca - - - - - Gato - - Raposa- - - - - - - - - -

Zebra - - - - - - - - -- - - - - - - - - Lobo

Cavalo - - Leao - Tigre - Cao - -

Figura 2.3 – Indicacao no Mapa de Caracterısticas dos neuronios quetiveram as melhores respostas.

Pato Ganso Ganso Ganso Pombo Pombo Falcao Coruja Coruja CorujaPato Pato Ganso Galinha Galinha Galinha Falcao Coruja Coruja AguiaPato Pato Galinha Galinha Galinha Galinha GalinhaAguia Aguia AguiaVaca Vaca Galinha Galinha Galinha Galinha Gato GatoAguia AguiaVaca Vaca Vaca Galinha Galinha Gato Gato Gato Raposa RaposaVaca Vaca Vaca Gato Gato Gato Gato Gato Raposa RaposaZebra Vaca Vaca Gato Gato Gato Gato Gato Raposa RaposaZebra Zebra Zebra Leao Leao Tigre Gato Cao Lobo LoboZebra Cavalo Leao Leao Tigre Tigre Tigre Cao Lobo LoboCavalo Cavalo Leao Leao Tigre Tigre Tigre Cao Cao Lobo

Figura 2.4 – Indicacao no Mapa de Caracterısticas da melhor respostade cada neuronio.

A figura 2.4 mostra a melhor resposta de cada neuronio aos diferentes tipos de animais apresen-

tados. Um mapa de caracterısticas como o da figura 2.4 e referido comomapa contextual(Kohonen,

1997; Ritter and Kohonen, 1989). Esses mapas assemelham-seaos mapas corticais pois tambem sao

separados por suas caracterısticas comuns, ou seja, eles organizam-se em grupos onde cada elemento

do grupo tem uma caracterıstica em comum.

10

CA

PIT

UL

O2.

FU

ND

AM

EN

TAC

AO

TE

OR

ICA

Animal Pom

bo

Gal

inha

Pat

o

Gan

so

Cor

uja

Fal

cao

Agu

ia

Rap

osa

Cao

Lob

o

Gat

o

Tig

re

Lea

o

Cav

alo

Zeb

ra

Vac

a

e

pequenomediogrande

100

100

100

100

100

100

010

010

010

010

100

001

001

001

001

001

tem

2 patas4 pataspeloscascos

crina/jubapenas

100001

100001

100001

100001

100001

100001

100001

011000

011000

011010

011000

011000

011010

011110

011110

011100

gosta de

cacarcorrervoarnadar

0010

0000

0001

0011

1010

1010

1010

1000

0100

1100

1000

1100

1100

0100

0100

0000

Tabela 2.1 –Nomes de Animais e seus Atributos

11


2.3 Mel-Frequency Cepstral Coefficients

Nesse secao sera discutido como e possıvel transformar uma onda de entrada em uma sequencia

de vetores que representam informacoes de uma pequena parte do sinal. Nossa sugestao para realizar

esse processo e omel-frequency cepstral coefficients(MFCC).

2.3.1 Extracao do MFCC

A extracao do MFCC de uma onda e dividida em seis estagios(Jurafsky and Martin, 2008): Pre-

Enfase, Escolha da Janela, Transformada de Fourier Discreta, Filtro Mel, Calculo do Log, Cepstrum.

Mais detalhes sobre cada processo serao discutidos nas sec¸oes abaixo.

Pre-Enfase

O primeiro passo e aumentar a quantidade de energia nas frequencias altas. Devemos realizar esse

processo, pois as baixas frequencias em um espectro de voz apresentam maior energia que as altas

frequencias. Isso e causado naturalmente pelo pulso glotal. Apos aumentar a energia nas frequencias

altas, o sinal torna-se mais avaliavel no processo.

No experimento realizado, para aumentar a quantidade de energia nas altas frequencias, utilizou-

se um filtro de primeira ordem passa-altas. A formula que descreve o filtro e

y(n) = x(n)− αx(n − 1), (2.8)

comx(n), sendo o sinal de entrada,y(n) o sinal de saıda eα uma constante com valores no intervalo

[0,9 ; 1]. Nesse experimento o valor utilizado foiα = 0, 95.

Escolha da Janela

Um discurso e chamado de um sinal nao estacionario, pois seu espectro muda muito rapido.

Porem para aplicar o MFCC e necessario que o sinal seja estacionario. Para tornar um sinal nao

estacionario em um que e, selecionamos pequenas janelas nesse sinal, assim podemos assumir que

cada pedaco do sinal dentro da janela representa um sinal estacionario.

A escolha dessa janela influencia nas futuras analises que serao realizadas. Por isso nao e qual-

quer formato que sera escolhido. Por exemplo, se escolhermos uma janela retangular, nos extremos

dessa janela teremos uma descontinuidade, pois o sinal e simplesmente cortado, causando proble-

mas na analise de Fourier. Para resolver esse problema utiliza-se a janela de Hamming, figura 2.5,

que suaviza os extremos do sinal contido na janela, ou seja, os extremos tendem a zero, evitando as

descontinuidades na analise de Fourier. A equacao que descreve a janela de Hamming e

12


0 10 20 30 40 50 60 70 80 90 1000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Figura 2.5 –Janela de Hamming.

w(n) =

{

0, 54 − 0, 46 cos(

2πnL

)

, 0 ≤ n < L− 1

0 , caso contrario, (2.9)

onden e a variavel de tempo eL e o tamanho da janela.

Para o experimento foram utilizados dois intervalos de ac˜ao para a janela de Hamming. Para o

primeiro experimento, o intervalo e o tamanho do fonema encontrado na frase. Ja para o segundo

experimento, definimos um tamanho de 20 ms para aplicarmos a janela de Hamming, e ela e aplicada

a cada 10 ms do arquivo de audio.

Transformada de Fourier Discreta

A Transformada de Fourier Discreta (DFT, Discrete Fourier Transform) consegue extrair a informacao

espectral da janela do sinal, ela mostra quanta energia o sinal contem nas diferentes faixas de frequencia.

A entrada da DFT e a pequena janela que contem uma parte do sinal,x(n) . . . x(m), ja a saıda e um

numero complexo,X(k) que representa a magnitude e a fase da componente de frequencia no sinal.

A formulacao da DFT e como segue

X(k) =

N∑

n=1

x(n)e−j 2π

N(k−1)n, (2.10)

13


Figura 2.6 –Filtro Mel.

com k = 1, . . . , N , N igual ao tamanho dex e j e a representacao da unidade imaginaria, i.e.,

j =√−1.

Porem, no processo do MFCC e mais utilizado a transformadade Fourier rapida (FFT, Fast

Fourier Transform), que nada mais e que um algaritmo utilizado para calcular a DFT utilizando

poucos calculos, reduzindo o esforco computacional. Esse modelo foi utilizado na realizacao do

experimento.

Filtro Mel e C alculo do Log

A audicao humana nao e igualmente sensıvel para todas as faixas de frequencia. Pois ela e menos

sensıvel a altas frequencias, a partir de 1000 Hertz. Parasimular essa caracterıstica, ja que o MFCC

e utilizado para a analise de discursos, utilizamos o filtro mel (Stevens and Volkmann, 1940; Stevens

et al., 1937).

O filtro mel consiste de um banco de filtros que coletam a energia de cada faixa de frequencia.

Ele e composto de 10 filtros com espacamento linear ate 1000 Hz, apos isso ele segue em uma escala

logarıtmica ate 10 kHz, figura 2.6.

O filtro entao e aplicado em todas as janelas a fim de aproximar a percepcao humana. Para

melhorar ainda mais esse processo, calcula-se o logaritmo de todos os valores obtidos, nos humanos

a resposta a um nıvel de sinal e logarıtmica. Alem disso,usando o logaritmo deixamos as estimativas

menos sensıveis a variacoes de potencia causadas pela proximidade ou nao da boca do narrador ao

microfone, na gravacao do discurso.

O Cepstrum: Inverso da Transformada de Fourier Discreta

O termo “cepstrum’ foi introduzido em 1963 por Borget, Healy, and Tukey em um artigo chamado

“The Quefrency Alanysis of Time Series for Echoes” (Borget et al., 1963). O cepstrum e o espectro

de potencia dolog do espectro de potencia de um sinal. Para um sinal de tempo-discreto, a melhor

definicao diz que ocepstrume o inverso da transformada de Fourier discreta (IDFT, inverse discrete

14


Fourier transform) do logaritmo da magnitude da DFT de um sinal. Matematicamente ocepstrum,

c(n), de um sinal,x(n), e da seguinte forma

c(n) =1

2π

∫ π

−π

log |X(ejw)|ejwdw, (2.11)

onde a DFT de um sinal e definida na subsecao 2.3.1.

A forma de onda criada pela fala humana e fruto do movimento glotal, que gera uma forma de

onda em uma frequencia fundamental e essa onda passa pelo trato vocal, que devido ao seu formato, e

basicamente um filtro. Porem as informacoes produzidas pelo movimento glotal nao sao importantes

para distinguir os diferentes sons vocais. A informacao mais importante para a deteccao vocal e o

filtro. O cepstrum consegue separar a fonte do som do filtro, por isso ele e usado nesse estudo.

Apos aplicar o cepstrum, o sinal que estava no domınio da frequencia volta ao domınio do tempo,

ele retorna os valores das amostras. Logo nas primeiras amostras esta a informacao necessaria ao

MFCC. Exatamente, toma-se os primeiros 12 valores cepstrais. Esses 12 coeficientes represen-

tam exatamente as informacoes sobre o filtro formado pelo trato vocal, separando as informacoes

desnecessarias contidas na fonte, o movimento glotal.

O calculo da IDFT nesse experimento foi conforme descrito em Rabiner and Schafer (2010), feito

atraves do inverso Transformada do Cosseno Discreta (DCT,Discrete Cosine Transform), definida a

seguir

x(k) = w(k)

N∑

n=1

X(n) cosπ(2n − 1)(k − 1)

2N, k = 1. . . . , N, (2.12)

com

w(k) =

1√N, k = 1

√

2N, 2 ≤ k ≤ N

, (2.13)

ondeN e o tamanho deX.

A relacao entre as duas transformadas pode ser vista no apˆendice A. Foram tomados os 12

primeiros valores obtidos, excluindo o valor de x(1).

15

CAPITULO 3

DESENVOLVIMENTO PRATICO

Com os conceitos apresentados tem-se a base necessaria para realizar os experimentos. A seguir

serao apresentados dois experimentos que utilizam tanto aSOM, quanto o MFCC, para tratar de

um discurso. O objetivo e formar um mapa fonetico, contendo diversos fonemas organizados em

grupos, conforme as caracterısticas comuns. As diferencas entre as duas abordagens sao a forma de

treinamento da rede e a apresentacao dos padroes no treinamento da rede.

3.1 Mapa fonetico com treinamento restrito

A caracterıstica desse experimento que define seu nome e a forma escolhida para treinar a rede

de neuronios. Nesse caso as janelas escolhidas para o calculo do MFCC variam conforme o tamanho

do fonema e em posse dos dados do fonemas treina-se a rede, ou seja, restringimos o aprendizado da

rede somente aos trechos dos fonemas encontrados no discurso.

3.1.1 Identificacao dos fonemas

O primeiro passo a ser seguido e a identificacao dos fonemas em um discurso. Escolheu-se

uma frase e identificou-se os fonemas. No experimento, a frase escolhida foi: “Ola amigo ouvinte,

hoje temos por tıtulo o seguinte tema: Envelhecer, sim, e inevitavel, mas crescer e opcional’, ex-

traıdo de uma gravacao do programa “Maturidade em foco” de Marcelo Caires na Radio UEL. Para a

visualizacao do arquivo de audio foi utilizado o software AudacityR©, que e um editor de audio digital

gratuito.

Identificados os fonemas, anota-se os tempos que cada um ocupa no arquivo, para ter a exata

localizacao do fonema. A lista dos fonemas encontrados e de seus tempos sao mostrados na tabela

3.1, segundo o “alfabeto fonetico’ SAMPA (Speech Assessment Methods Phonetic Alphabet) que

segue o padrao europeu. A figura 3.1 mostra dois alfabetos foneticos, na primeira coluna temos a

CAPITULO 3. DESENVOLVIMENTO PRATICO

Figura 3.1 –Alfabeto fonetico.

Fonte: de Oliveira (2011)

representacao do alfabeto AFI (Alfabeto Fonetico Internacional), na segunda o alfabeto SAMPA, na

terceira os grafemas utilizados no alfabeto portugues e naultima, alguns exemplos de palavras que

utilizam os fonemas utilizados.

Localizado os fonemas o MFCC e aplicado para extrair somente as informacoes necessarias.

3.1.2 Mel-Frequency Cepstral Coefficients e Mapa Auto-Oraganizavel

Reunidos os valores dos coeficientes de cepstrum, realizou-se o mapa de caracterısticas dos fone-

mas. Conforme descrito na secao 2.2.1, e utilizando do software matematico MATLAB (The Math-

Works, 2009), apresenta-se os valores de forma aleatoria para treinar o mapa, obtendo assim, apos

um numero de iteracoes e processos, o mapa de caracterısticas.

17


Fonema Tempo(s) Fonema Tempo(s) Fonema Tempo(s)Inicial Final Inicial Final Inicial Final

o

0,150 0,2180,605 0,688

1,5 1,567,181 7,2747,437 7,492

l0,219 0,2832,483 2,526

a

0,285 0,413,364 3,4325,364 5,5126,08 6,1417,586 7,67

m

0,413 0,4941,823 1,8723,3 3,363

6,031 6,071

i

0,523 0,581,627 1,6592,274 2,3452,696 2,7334,939 4,9885,175 5,217

g0,58 0,6042,788 2,808

v

0,691 0,7783,834 3,8615,119 5,1675,559 5,601

i˜0,789 0,9342,815 2,9324,498 4,719

tSi0,987 1,0922,962 3,043

Z 1,579 1,623 t

1,747 1,7572,203 2,2123,128 3,155,331 5,355

e

1,765 1,8193,869 3,9373,996 4,084,212 4,2685,045 5,1125,613 5,6446,316 6,3566,55 6,665

u1,874 1,9072,063 2,0932,529 2,546

s

1,913 1,9562,569 2,6854,087 4,2134,297 4,4976,143 6,2136,372 6,545

p2,036 2,0637,275 7,287

r

2,114 2,1444,271 4,2986,282 6,3126,676 6,75

S 2,216 2,263 tu 2,418 2,469

E3,15 3,2564,869 4,9347,083 7,177

e˜ 3,72 3,831 L 3,94 3,991

n4,992 5,0467,494 7,583

w5,646 5,6977,687 7,798

k 6,257 6,281

sj 7,287 7,43

Tabela 3.1 –Identificacao dos fonemas no arquivo de audio.

18


Segundo o exemplo apresentado na secao 2.2.2, nesse experimento, o vetor formado pelos 12

coeficientes de cepstrum e o codigo de atributos de cada fonema, o codigo simbolico foi definido para

cada fonema, onde fonemas iguais receberam o mesmo codigo.O tamanho do codigo simbolico e

igual ao numero de fonemas, sem contar os fonemas repetidos. Nesse experimento, o numero total de

fonemas encontrados no trecho foi de 74, desse total 25 e o n´umero de fonemas originais, ou seja, sem

contar as repeticoes dos fonemas. O valor fixoa foi escolhido 0,02, para que o codigo simbolico nao

seja mais influente que os codigos de atributos. O valor 0,02e inferior a media do valores dos codigos

de atributos. Devido o grande numero de informacoes, a rede possui um tamanho de20 × 20, e os

pesos sinapticos iniciais foram escolhidos aleatoriamente. Os parametros iniciais e das constantes de

tempo escolhidos saoσi = 3, σf = 0, 02, nmax = 10000 eǫ = 0, 3. Os valores escolhidos para essas

constantes foram definidos apos analise dos resultados para diferentes valores das constantes.

3.2 Mapa fonetico com treinamento irrestrito

A rede de neuronios desse experimento foi treinada com os valores de MFCC de diversos trechos

do discurso, para ser mais exato, o MFCC foi calculado em janelas de 20 ms a cada 10 ms do arquivo

de audio, ou seja, nao houve restricao na determinacao do trecho escolhido para o treinamento da

rede. O valor de 20 ms e aporximadamente a duracao de um fonema.

3.2.1 Mel-Frequency Cepstral Coefficients e Mapa Auto-Organizavel

Nesse experimento foram calculados os MFCCs de diversos trechos. Todos esses vetores pos-

suindo 12 coeficientes foram apresentados de forma a treinara rede de neuronios, o tamanho da rede,

assim como os parametros escolhidos nao sofreram alterac¸ao em relacao ao treinamento restrito, ou

seja, uma rede de20 × 20 e os parametros iniciais e as constantes de tempo com os valoresσi = 3,

σf = 0, 02, nmax = 10000 e ǫ = 0, 3. Outra diferenca nos parametros apresentados foi o fato de nao

se rotular os parametros apresentados a rede de neuronios, pois segundo Bezdek and Pal (1995) eles

nao sao necessarios.

19

CAPITULO 4

RESULTADOS E DISCUSSAO

4.1 Mapa fonetico com treinamento restrito

Os mapas de caracterısticas apresentados nas figuras 4.1 e 4.2 sao da mesma forma dos apresen-

tados no exemplo presente na secao 2.2.2. A representac˜ao dos fonemas esta seguindo o alfabeto

fonetico SAMPA.

Podemos observar que alguns fonemas, apesar do mesmo rotulo, estao distribuıdos em locais

diferentes no mapa, isso deve-se a diferente aplicacao dofonema em uma palavra, ou seja, um mesmo

fonema possui formas diferentes conforme sua posicao em uma palavra.E conhecido na literatura

sobre bifonemas e trifonemas, que apresentam uma maior confiabilidade em suas informacoes, porem

o numero de combinacoes tornaria o processo lento e nao seria aplicavel.

Alem disso esse metodo se mostrou ineficaz na recuperacao dos fonemas de uma frase, ou seja,

apresentando uma frase ao mapa ele foi incapaz de distinguiros fonemas que estavam presentes

nessa frase. Na teoria o processo deveria funcionar corretamente, apresentando um determinado

trecho, o mapa deveria reconhecer o fonema com a ativacao do neuronio especıfico representante

desse fonema. As causas dessa falha podem estar na restric˜ao da aprendizagem da rede, ou seja, o

reduzido numero de informacoes que a rede possuia para seu treinamento pode ter causado a falha

no sentido de organizar essas informacoes. O outro metodo de treinamento foi realizado a fim de

apresentar um maior numero de informacoes a rede.

Portanto nao iremos apresentar mais resultados referentes a esse metodo de treinamento e voltare-

mos nossa atencao aos resultados apresentados pelo mapa fonetico com treinamento irrestrito, apre-

sentados na secao seguinte.

CAPITULO 4. RESULTADOS E DISCUSSAO

- - a - - - - o - - - m - p - - l - - S- - - - - - - - - - - - - - - - - - - -- - - - m - - - - - - - - - - - a - - g- - - - - - - - - - - - - - - - - - - -- - - - - - - - - i - - - - - - - - - Z- - - - - - - - - - - - i - - - - - - -- - - - - - - - - - - - - - - g - i - -- - - - - - - - i - u - - - - - - - - -- g - - i˜ - - - - - - - - - - - - - - -g - - - - - - - - - - - - - - - - - - e- - - - - - - - - - - - m - - - - - - -- - - - - - - - - Z - - - e - - - - u -g - - - e - - - - - - - - - - - - l - -- - - - - l - - - - - - - - - - - - - -i˜ - - - - - - - - - - - - g - - - - v -Z - - - - - - - - - - - - - - - - - - t- - - - - - - - - - - - - - - - - - - -l - - - - - - - - - - - - - l - - - - e- - - - - - l - - - - - - - - - - - i -- - - - - t - - - m - - v - - - - i - i

Figura 4.1 – Indicacao no Mapa de Caracterısticas dos neuronios quetiveram as melhores respostas a cada fonema com o treinamento res-trito.

Z a a g a a o o o o o o o l o o l i i iZ Z a g a a o o o o o o o Z o i i i i iZ Z m m m m o o o i o o Z Z Z i i i g gm m m m m m m i i i i i Z Z Z i i i g gm m m m m m i i i i i i i i o o o m Z Zm i i i i i i i i i i i i i o o o m m mg i i i i˜ i˜ i i i i e i i i g g g m m ig g i i˜ i˜ i˜ i i i i e e e i g g g m t tg g g i˜ i˜ i˜ i˜ i i i e e l i i i i i t tg g g i˜ i˜ t t l l l l l l l i i i i v vg g g t t t t l l Z Z l l l i i i Z Z vg g g e e t t l Z Z Z l l e e i g Z Z Zg g g e e e a Z Z Z Z Z e e e a g g Z Zg g g e e a a Z Z Z Z Z g g g a a a a vi˜ i˜ Z a a a a Z Z Z Z Z g g g g g a v tZ Z Z a a a t Z Z Z Z Z g g g g g g t tv v v a a t t t Z Z Z Z Z l l l g g t tl l Z a a l l t Z Z Z Z Z l l l l l Z Zl Z Z a a l l l m m Z Z i l l t i l t tt o Z a a t l l m m Z Z i Z Z t t i t t

Figura 4.2 – Indicacao no Mapa de Caracterısticas da melhor respostade cada neuronio com o treinamento restrito.

21


- - n - i˜ - - - - - i - - - s - - - s t- - - - - - - - - - - - - - v - - - v -- m m - - - - - - - - - - - - - - - - sjn - - - - - - - - - - - - - - - - - - -m - w - - - - - - - - - - - - - - - - vu - - - - - - m - - - - - - w - - - - t- - - - - - - - - - - - - - - - - - - -- - - - - - - - - - - - - - - - - - - -g a a - - - p - - - - - - - - - - - - -- - - - - - - - - - - - - - - - - - - -- a - - - - - - - - - - - - - - - - - -- a - - - - - k - - - - - - - - - - - -a - - - - - - - - r - - - - - - - - - -- - - o - - - - e - - r r - - - - - - r- o u - - - - - - - - i - - - i - - - el o - - - - - - - - - - - L i˜ - - - i eu - - tu - - - Z - - - i˜ - - - - g - - el - - - - - - - - - - - - - - - - - - -- - - - - - - - S - - - - - e e˜ - t - E- - - - - - p - - t tSi - - i - - E E e -

Figura 4.3 – Indicacao no Mapa de Caracterısticas dos neuronios quetiveram as melhores respostas a cada fonema com o treinamento ir-restrito.

4.2 Mapa Fonetico com treinamento irrestrito

Os mapas de caracterısticas sao apresentados nas figuras 4.3 e 4.4, eles foram formados apre-

sentando a rede, ja treinada, o MFCC dos fonemas da tabela 3.1. Na figura 4.3 foram marcados os

neuronios com a melhor resposta a determinado fonema, e na figura 4.4 foi marcado a melhor resposta

de cada neuronio. A representacao dos fonemas esta seguindo o alfabeto fonetico SAMPA.

A figura 4.5 apresenta o numero de vezes que determinado neuronio venceu a competicao e foi

ativado, alguns neuronios apresentam valores bem maioresque os outros e isso deve-se ao fato de

alguns fonemas aparecerem mais vezes na frase escolhida, bem como a identificacao de um determi-

nado fonema com algum tipo de ruıdo no sinal de audio.

Apresentando o inıcio do discurso, “Ola amigo”, o mapa conseguiu reconhecer os fonemas que

compoem esse trecho, e o caminho percorrido dentro do mapa foi marcado e apresentado na figura

4.6. Observe que os numeros presentes nas setas indicam os passos seguidos, as setas que partem ou

chegam de locais onde nao existe nenhuma letra sao manifestacoes de neuronios que nao deveriam ter

sido ativados. Esses neuronios sao aqueles descritos anteriormente que podem ter se associado a um

fonema que representa um ruıdo no sinal de audio. Observe as figuras 4.7, 4.8, 4.9, 4.10, 4.11, 4.12

elas representam os fonemas que foram identificados corretamente no mapa de fonemas, ja as figuras

4.13, 4.14, 4.15 representam os fonemas que foram associados a ruıdos no processo de identificacao.

22


i˜ m n n n n a v n v i n v s s s s s s si n n i˜ n i˜ i˜ v g v i g v v s s s s s sm m m i˜ i˜ i˜ v n g v v v i˜ v v s s s sj sjn n n i˜ i˜ n v p n m i˜ v v v v v v s s sjm n w i˜ v a v m n i˜ v v v v t v t v s su n n a a a m m m a v i v v w v w v s sn n a a i w m m a v v v i w w v o v v ta tu g g r v m m m a i˜ v v v v t v v v na a a a t t w p v v v v t v v i˜ t g v ra a a a v v v v v v v v t t t i i i i na a a a a v v k s tu r r r t t i i i v ia a a a tu v v k o v r r r r r t i e i ea a o n tu v k k r r i˜ i˜ r t r i i e r ra o o o o v p p r v i˜ r r r i e˜ i e e el o o o o p p p v i˜ i˜ i i˜ L i i i e i el o o l o p tu tu v p i˜ i˜ L L i˜ g g e e eu u l o i˜ tu tu Z Z Z i˜ i˜ i˜ L i g o e i el l w o tu tu t t r i˜ i˜ i˜ i˜ i e e g e e ep p o o r r t t S tSi i˜ g e˜ i e e˜ E E E Eo e o t a r p tSi sj S tSi g e˜ i i e˜ E E e e˜

Figura 4.4 – Indicacao no Mapa de Caracterısticas da melhor respostade cada neuronio com o treinamento irrestrito.

0 50 100 150 200 250 300 350 4000

50

100

150

Figura 4.5 –Numero de vitorias de cada neuronio.

23


. . .

9<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<

��<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<<<

<<

12###################################

��###################################

. . . . . . . . . . . . . . . . .

i11nnnnn

77nnnnn

. . . . . . . . . . . . . . . . . . .

. m

8��

GG��

. . . . . . . . . . . . . . . . . .

.7|||

==|||. . . . . . . . . . . . . . . . . . .

. .6EEE

bbEEE

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. a

5

OO

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. o1S

SSSSSS

))SSSSSSSS

. . . . . . . . . . . . . . . . . .

. . . . .

2rrrrr

xxrrrrr

13 //. . . . . . . . . g

14===

��===

. . . . .

. . l3}

}}

~~}}}

. . . . . . . . . . . . o . . . .

. .

4

OO

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

10BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBB

``BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBB

Figura 4.6 –Caminho percorrido pelo discurso “Ola amigo”.

24


0.15 0.16 0.17 0.18 0.19 0.2 0.21

−0.3

−0.2

−0.1

0

0.1

0.2

0.3

Am

plitu

de

Tempo (s)

Figura 4.7 – Parte do sinal de audio que representa o fonema “o”inicial da figura 4.6.

0.22 0.23 0.24 0.25 0.26 0.27 0.28

−0.4

−0.3

−0.2

−0.1

0

0.1

0.2

0.3

Am

plitu

de

Tempo (s)

Figura 4.8 –Parte do sinal de audio que representa o fonema “l” entreos lacos 2 e 3 da figura 4.6.

25


0.3 0.32 0.34 0.36 0.38 0.4

−0.4

−0.2

0

0.2

0.4

0.6

Am

plitu

de

Tempo (s)

Figura 4.9 –Parte do sinal de audio que representa o fonema “a”entreos lacos 4 e 5 da figura 4.6.

0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49

−0.3

−0.2

−0.1

0

0.1

0.2

0.3

Am

plitu

de

Tempo (s)

Figura 4.10 –Parte do sinal de audio que representa o fonema “m”entre os lacos 7 e 8 da figura 4.6.

26


0.53 0.54 0.55 0.56 0.57 0.58

−0.1

−0.05

0

0.05

0.1

0.15

0.2

Am

plitu

de

Tempo (s)

Figura 4.11 – Parte do sinal de audio que representa o fonema “i”entre os lacos 10 e 11 da figura 4.6.

0.58 0.585 0.59 0.595 0.6

−0.2

−0.15

−0.1

−0.05

0

0.05

0.1

0.15

0.2

0.25

0.3

Am

plitu

de

Tempo (s)

Figura 4.12 – Parte do sinal de audio que representa o fonema “g”entre os lacos 13 e 14 da figura 4.6.

27


5 5.01 5.02 5.03 5.04−0.4

−0.3

−0.2

−0.1

0

0.1

0.2

0.3

0.4

Am

plitu

de

Tempo (s)

Figura 4.13 – Parte do sinal de audio que representa o fonema “n”entre os lacos 8 e 9 e 11 e 12 da figura 4.6, associado a um ruıdo

3.72 3.74 3.76 3.78 3.8 3.82

−0.3

−0.2

−0.1

0

0.1

0.2

0.3

Am

plitu

de

Tempo (s)

Figura 4.14 –Parte do sinal de audio que representa o fonema “e˜”entre os lacos 9 e 10 da figura 4.6, associado a um ruıdo

28


7.19 7.2 7.21 7.22 7.23 7.24 7.25 7.26 7.27

−0.15

−0.1

−0.05

0

0.05

0.1

0.15

Am

plitu

de

Tempo (s)

Figura 4.15 –Parte do sinal de audio que representa outro fonema “o”entre os lacos 1 e 2 e 12 e 13 da figura 4.6, associado a um ruıdo

Podemos destacar o desempenho do mapa formado observando o caminho que ela foi capaz

de criar quando apresentado o trecho de audio. Apesar da rede ter reconhecido alguns fonemas

de maneira incorreta, nao podemos medir seu desempenho pois como se trata de um processo de

aprendizagem nao supervisionado e capaz que a rede tenha armazenado informacoes incorretas ja

em seu processo de formacao pela identificacao erroneade algum fonema realizado no processo

de identificacao dos fonemas, na subsecao 3.1.1. Podemos observar tambem que alguns fonemas

possuem um formato de onda bastante parecidos, e isso pode confundir a rede, e o que acontece por

exemplo no fonema “m”, figura 4.10, e o fonema “n”, figura 4.13.

29

CAPITULO 5

CONCLUSOES

Nesse trabalho foram utilizadas duas ferramentas interagindo para a identificacao de fonemas,

o mapa auto-organizavel e o mel-frequency cepstral coeficients. A SOM e capaz de analisar as ca-

racterısticas estatısticas intrınsecas dos padroes de entrada formando um mapa topograficos destes,

assim pode classificar qualquer novo padrao de entrada utilizando as informacoes ja existentes. O

MFCC consegue extrair de um sinal a informacao necessaria para a analise do discurso, ele transforma

uma onda de entrada em uma sequencia de vetores contendo a informacao de interesse, atraves da

separacao da fonte do som, informacao nao utilizada, com o seu filtro, informacao relevante.

O primeiro experimento nao apresentou resultados satisfatorios quando tentou-se extrair as infor-

macoes do mapa de fonemas, ou seja, o mapa nao foi capaz de adquirir as informacoes dos dados

de entrada, a possıvel causa foi a restricao dos trechos apresentados a rede, pois quando extinguimos

essa restricao a rede apresentou uma resposta mais satisfatoria, esse foi o segundo experimento.

No segundo experimento pode-se observar o resultado esperado para a SOM, ela conseguiu si-

mular os dados de entrada possibilitando a visualizacao correta dos neuronios ativados ao apresentar

um trecho do discurso. Porem, alguns neuronios que nao deveriam ter se manifestado foram ativados,

esses neuronios referem-se a fonemas que foram associadosa ruıdos no sinal de audio, ruıdos que

aparecem na transicao de um fonema a outro ou de uma palavraa outra.

Bibliografia

Anderson, J. (1995).An Introduction to Neural Networks. MIT Press, MA.

Bezdek, J. H. and Pal, N. R. (1995). A note on self-organizingsemantic maps.IEEE Transactions on

Neural Networks, 6(5):1029–1036.

Borget, B., Healy, M., and Tukey, J. (1963). The quefrency alanysis of time series for echoes.Proc.

Symp. on Time Series Analysis, pages 209–243.

Braga, A. P., Carvalho, A. C. P. L. F., and Ludermir, T. B. (2000). Redes Neurais Artificiais: Teroria

e Aplicacoes, volume 1. Livros Tecnicos e Cientıficos - LTC, 1 edition.

de Oliveira, L. C. (Acesso em: 17 de novembro de 2011). Alfabeto fonetico para o dialecto padrao

portugues europeu. Disponıvel em: ¡http://www.l2f.inesc-id.pt/ lco/ptsam/ptsam.pdf¿.

Hassoun, M. H. (1995).Fundamentals of Artificial Neural Networks. MIT Press, Cambridge, MA.

Haykin, S. (1999).Neural Networks: A Comprehensive Foundation. Prentice Hall, Upper Saddle

River, NJ.

Hebb, D. (1949).The Organization of Behavior. John Wiley & Sons, New York.

Hopfield, J. J. (1982). Neural networks and physical systemswith emergent collective computational

abilities. Proceedings of the National Academy of Sciences, 79:2554–2558.

Jurafsky, D. and Martin, J. H. (2008).Speech and language processing: An introduction to natural

language processing, computational linguistic, and speech recognition.Prentice Hall.

Kohonen, T. (1982). Self-organized formation of topologically correct feature maps.Biological

Cybernetics, 43:59–69.

Kohonen, T. (1988). The “neural” phonetic typewriter.IEEE Computer, 21(3):11 – 22.

Kohonen, T. (1989).Self-Organization and Associative Memory. Springer-Verlag, Berlin, third ex-

tended edition edition.

Kohonen, T. (1990). The self-organizing maps.Proceedings of the Institute of the Institute of Elec-

trical and Electronic Engineers, 78:1464–1480.

Kohonen, T. (1997). Exploration of very large databases by self-organizing maps. In1997 Interna-

tional Conference on Neural Networks, volume I, pages PL1–PL6, Houston.

Kohonen, T. (2001).Self-Organizing Maps, volume 30 ofSpringer Series in Information Sciences.

Springer, third extended edition edition.

Levinson, S. E. (2005).Mathematical Models for Speech Technology.John Wiley and Sons, 111

River Street, Hoboken, NJ 07030, USA.

BIBLIOGRAFIA

McCulloch, W. and Pitts, W. (1943). A logical calculus of theideas immanent in nervous activity.

Bulletin of Mathematical Biophysics, 5:115–133.

Minsky, M. and Papert, S. (1969).Perceptrons. MIT Press, Cambridge, MA.

Oppenheim, A. and Schafer, R. (1989).Discrete-Time Signal Processing. Prentice-Hall, Englewood

Cliffs, NJ.

O’Shaughnessy, D. (2000).Speech Communications: Human and Machines.IEEE Press, Piscataway,

NJ.

O’Shaughnessy, D. (2008). Invited paper: Automatic speechrecognition: History, methods and

challenges.Pattern Recognition, 41:2965 – 2979.

Rabiner, L. and Schafer, R. (2007). Introduction to digitalspeech processing.Foundations and Trends

in Signal Processing 1., 1 - 2:1 – 194.

Rabiner, L. and Schafer, R. (2010).Theory and Aplications of Digital Speech Processing. Prentice

Hall.

Ritter, H. and Kohonen, T. (1989). Self-semantic maps. InBiological Cybernetics, volume 61, pages

241–254.

Stevens, S. S. and Volkmann, J. (1940). The relation of pitchfrequency: A revised scale.The

American Journal of Psychology, (53(3)):329–353.

Stevens, S. S., Volkmann, J., and Newman, E. B. (1937). A scale for the measurement of the psycho-

logical magnitude pitch.The American Journal of Psychology, (8):185–190.

The MathWorks (2009).MATLAB. The Mathworks, Inc., 7.8.0.347 (R2009a) edition.

Valle, M. E. (2007).Fundamentos e Aplicacoes de Memorias Associativas Morfologicas Nebulosas.

PhD thesis, Universidade Estadual de Campinas (UNICAMP), Campinas, Brasil.

Vapnik, V. N. (1998).Statistical Learning Theory. John Wiley and Sons.

Vapnik, V. N. (1999).The Nature of Statistical Learning Theory. Springer, 2 edition.

32

APENDICE A

RELAC AO ENTE DFT E DCT

Segundo Oppenheim and Schafer (1989), e possivel expressar a DCT de uma sequencia finita de

x(n) em termos da DFT. Para a DCT a funcao realx(n) deN pontos e estendida para possuir um

perıodo de2N , assim a sequencia periodicax(n) fica

x(n) = x(((n − 1))2N ) + x(((−n))2N ), n = 1, 2, . . . , 2N. (A.1)

Partindo da equacao A.1, sua DFT de2N pontos da sequencia de2N pontosx(n) e

X(k) = X(k) +X∗(k) exp (j2π(k − 1)/(2N)), k = 1, 2, . . . , 2N, (A.2)

ondeX(k) e a DFT de2N pontos da sequencia deN pontosx(n); i.e., nesse casox(n) e preenchido

comN amostras de zero. Partindo de A.2, nos temos

X(k) = exp (jπ(k − 1)/(2N)) (X(k) exp (−jπ(k − 1)/(2N)) +X∗(k) exp (jπ(k − 1)/(2N)))

(A.3)

X(k) = exp (jπ(k − 1)/(2N))2Re {X(k) exp (−jπ(k − 1)/(2N))} .

Da deficao de uma DFT de2N pontos de uma sequencia preenchida, temos o seguinte

Re {X(k) exp (−jπ(k − 1)/(2N))} =

N∑

n=1

x(n) cosπ(2n − 1)(k − 1)

2N. (A.4)

Uma vez que a DCT de um sinal e

XDCT (k) = 2

N∑

n=1

x(n) cosπ(2n− 1)(k − 1)

2N, k = 1, 2, . . . , N, (A.5)

podemos expressarXDCT (k) em termo deX(k), utilizando as equacoes A.3, A.2 e A.5, como

XDCT (k) = 2Re {X(k) exp (−jπ(k − 1)/(2N))} , k = 1, 2, . . . , N, (A.6)

APENDICE A. RELACAO ENTE DFT E DCT

ou em termos da DFT de2N pontos da sequencia simetricamente extendida de2N pontos,x(n),

definida em A.1 temos

XDCT (k) = exp(−jπ(k − 1)/(2N))X(k), k = 1, 2, . . . , N, (A.7)

e equivalentemente,

X(k) = exp(jπ(k − 1)/(2N))XDCT (k), k = 1, 2, . . . , N. (A.8)

34

raul arthur fernandes rosa - uel · 2011-11-30 · dois tipos de treinamento para a formac¸a˜o do...

Documents