sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz
DESCRIPTION
Estado da Arte Anderson Gomes [email protected]. Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz. Principais Empresas e Centros de Pesquisa. Google Darpa IBM Philips Nuance INESC UFRJ UCS Nagoya Institute of Technology. Google. - PowerPoint PPT PresentationTRANSCRIPT
SISTEMA PARA A TRANSCRIÇÃO AUTOMÁTICA DE ÁUDIO/VÍDEO POR MEIO
DE RECONHECIMENTO DE VOZ
Estado da Arte
Anderson Gomes
Principais Empresas e Centros de Pesquisa Google Darpa IBM Philips Nuance INESC UFRJ UCS Nagoya Institute of Technology
Possui um grupo de pesquisa de voz GAudi
Sistema de reconhecimento de vozUtilizado para indexar palavras faladas em
vídeosRestringe-se a políticaVocabulário será ampliado
Mudar o “modo” de se fazer uma pesquisa
DARPA
Grupo de pesquisa de voz Sistema de tradução entre diversas
línguas para uso militar Não realiza transcrição
IBM
Possui um grupo de pesquisa de voz ViaVoice
Reconhece uma única Voz Sisi
Transforma a voz do usuário em sinais para comunicação com deficientes auditivos
Avatares representam os sinais Fortes avanços no desenvolvimento de
um sistema de reconhecimento de voz audio-visual
Philips
Speech MagicSoftwares e hardwaresReconhece uma única Voz
Speech SDKReconhece uma única VozSDK para ser usada no desenvolvimento de
outros softwares
Nuance - Dragon Systems Dragon NaturallySpeaking
Reconhece uma única voz
INESC-ID
TECNOVOZAmplo projeto envolvendo algumas
empresas e universidadesAbrange vários projetos, inclusive
transcrição e legendagem automáticaO INESC-ID é responsável pelo módulo de
conversão fala-texto, além de outros
UFRJ
Implementação de um LVCSR para o português brasileiroRafael TeruszkinFernando Gil Vianna Resende Junior
UCS
BRAVOZ – Reconhecimento de voz com suporte a grandes vocabulários (LVCSR) para o português brasileiroVerônica FeldkircherVanessa DavanzoAndré Gustavo Adami (orientador)
Nagoya Institute of Technology
JuliusSoftware open source de reconhecimento
de vozJaponêsPode ser integrado a outras línguas
Arquitetura
Speech input
Feature vector
Subword models
Spectral analysis
Word-level match
Sentence-level match
Lexicon SemanticsGrammar
Word model composition
Word model
Recognized sentence
Arquitetura – Primeiro passo
Spectral analysisRetorna o vetor das
características do sinal de voz
Feature vectorSpectral
analysis
Speech input
Arquitetura – Segundo passo
Junção de duas partes:World-level matchSentence-level match
Word-level match
Sentence-level match
Arquitetura – Segundo passo
Word-level match:Conjunto de subpalavras HMMsForma léxica das palavrasCriação de conjunto de modelo de palavras HMMs
Subword models
Word-level match
Sentence-level match
Lexicon SemanticsGrammar
Word model composition
Word model
Arquitetura – Segundo passo
Sentence-level match:Word grammar (syntax)SemanticsComposição de um modelo de linguagem FSN
Subword models
Word-level match
Sentence-level match
Lexicon SemanticsGrammar
Word model composition
Word model
Arquitetura – Segundo passo
Integração do word-level match e do sentence-level match Level Building (LB) algorithm Exemplo de integração de uma gramática FSN em um algoritmo LB
Arquitetura
Após a integração dos módulos de word-level match e sentence-level match é formada a sentença reconhecida
Subword models
Word-level match
Sentence-level match
Lexicon SemanticsGrammar
Word model composition
Word model
Recognized sentence