sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Post on 01-Jan-2016

51 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Estado da Arte Anderson Gomes ags@cin.ufpe.br. Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz. Principais Empresas e Centros de Pesquisa. Google Darpa IBM Philips Nuance INESC UFRJ UCS Nagoya Institute of Technology. Google. - PowerPoint PPT Presentation

TRANSCRIPT

SISTEMA PARA A TRANSCRIÇÃO AUTOMÁTICA DE ÁUDIO/VÍDEO POR MEIO

DE RECONHECIMENTO DE VOZ

Estado da Arte

Anderson Gomes

ags@cin.ufpe.br

Principais Empresas e Centros de Pesquisa Google Darpa IBM Philips Nuance INESC UFRJ UCS Nagoya Institute of Technology

Google

Possui um grupo de pesquisa de voz GAudi

Sistema de reconhecimento de vozUtilizado para indexar palavras faladas em

vídeosRestringe-se a políticaVocabulário será ampliado

Mudar o “modo” de se fazer uma pesquisa

DARPA

Grupo de pesquisa de voz Sistema de tradução entre diversas

línguas para uso militar Não realiza transcrição

IBM

Possui um grupo de pesquisa de voz ViaVoice

Reconhece uma única Voz Sisi

Transforma a voz do usuário em sinais para comunicação com deficientes auditivos

Avatares representam os sinais Fortes avanços no desenvolvimento de

um sistema de reconhecimento de voz audio-visual

Philips

Speech MagicSoftwares e hardwaresReconhece uma única Voz

Speech SDKReconhece uma única VozSDK para ser usada no desenvolvimento de

outros softwares

Nuance - Dragon Systems Dragon NaturallySpeaking

Reconhece uma única voz

INESC-ID

TECNOVOZAmplo projeto envolvendo algumas

empresas e universidadesAbrange vários projetos, inclusive

transcrição e legendagem automáticaO INESC-ID é responsável pelo módulo de

conversão fala-texto, além de outros

UFRJ

Implementação de um LVCSR para o português brasileiroRafael TeruszkinFernando Gil Vianna Resende Junior

UCS

BRAVOZ – Reconhecimento de voz com suporte a grandes vocabulários (LVCSR) para o português brasileiroVerônica FeldkircherVanessa DavanzoAndré Gustavo Adami (orientador)

Nagoya Institute of Technology

JuliusSoftware open source de reconhecimento

de vozJaponêsPode ser integrado a outras línguas

Arquitetura

Speech input

Feature vector

Subword models

Spectral analysis

Word-level match

Sentence-level match

Lexicon SemanticsGrammar

Word model composition

Word model

Recognized sentence

Arquitetura – Primeiro passo

Spectral analysisRetorna o vetor das

características do sinal de voz

Feature vectorSpectral

analysis

Speech input

Arquitetura – Segundo passo

Junção de duas partes:World-level matchSentence-level match

Word-level match

Sentence-level match

Arquitetura – Segundo passo

Word-level match:Conjunto de subpalavras HMMsForma léxica das palavrasCriação de conjunto de modelo de palavras HMMs

Subword models

Word-level match

Sentence-level match

Lexicon SemanticsGrammar

Word model composition

Word model

Arquitetura – Segundo passo

Sentence-level match:Word grammar (syntax)SemanticsComposição de um modelo de linguagem FSN

Subword models

Word-level match

Sentence-level match

Lexicon SemanticsGrammar

Word model composition

Word model

Arquitetura – Segundo passo

Integração do word-level match e do sentence-level match Level Building (LB) algorithm Exemplo de integração de uma gramática FSN em um algoritmo LB

Arquitetura

Após a integração dos módulos de word-level match e sentence-level match é formada a sentença reconhecida

Subword models

Word-level match

Sentence-level match

Lexicon SemanticsGrammar

Word model composition

Word model

Recognized sentence

top related