sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

18
SISTEMA PARA A TRANSCRIÇÃO AUTOMÁTICA DE ÁUDIO/VÍDEO POR MEIO DE RECONHECIMENTO DE VOZ Estado da Arte Anderson Gomes [email protected]

Upload: isaac-jefferson

Post on 01-Jan-2016

51 views

Category:

Documents


0 download

DESCRIPTION

Estado da Arte Anderson Gomes [email protected]. Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz. Principais Empresas e Centros de Pesquisa. Google Darpa IBM Philips Nuance INESC UFRJ UCS Nagoya Institute of Technology. Google. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

SISTEMA PARA A TRANSCRIÇÃO AUTOMÁTICA DE ÁUDIO/VÍDEO POR MEIO

DE RECONHECIMENTO DE VOZ

Estado da Arte

Anderson Gomes

[email protected]

Page 2: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Principais Empresas e Centros de Pesquisa Google Darpa IBM Philips Nuance INESC UFRJ UCS Nagoya Institute of Technology

Page 3: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Google

Possui um grupo de pesquisa de voz GAudi

Sistema de reconhecimento de vozUtilizado para indexar palavras faladas em

vídeosRestringe-se a políticaVocabulário será ampliado

Mudar o “modo” de se fazer uma pesquisa

Page 4: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

DARPA

Grupo de pesquisa de voz Sistema de tradução entre diversas

línguas para uso militar Não realiza transcrição

Page 5: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

IBM

Possui um grupo de pesquisa de voz ViaVoice

Reconhece uma única Voz Sisi

Transforma a voz do usuário em sinais para comunicação com deficientes auditivos

Avatares representam os sinais Fortes avanços no desenvolvimento de

um sistema de reconhecimento de voz audio-visual

Page 6: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Philips

Speech MagicSoftwares e hardwaresReconhece uma única Voz

Speech SDKReconhece uma única VozSDK para ser usada no desenvolvimento de

outros softwares

Page 7: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Nuance - Dragon Systems Dragon NaturallySpeaking

Reconhece uma única voz

Page 8: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

INESC-ID

TECNOVOZAmplo projeto envolvendo algumas

empresas e universidadesAbrange vários projetos, inclusive

transcrição e legendagem automáticaO INESC-ID é responsável pelo módulo de

conversão fala-texto, além de outros

Page 9: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

UFRJ

Implementação de um LVCSR para o português brasileiroRafael TeruszkinFernando Gil Vianna Resende Junior

Page 10: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

UCS

BRAVOZ – Reconhecimento de voz com suporte a grandes vocabulários (LVCSR) para o português brasileiroVerônica FeldkircherVanessa DavanzoAndré Gustavo Adami (orientador)

Page 11: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Nagoya Institute of Technology

JuliusSoftware open source de reconhecimento

de vozJaponêsPode ser integrado a outras línguas

Page 12: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Arquitetura

Speech input

Feature vector

Subword models

Spectral analysis

Word-level match

Sentence-level match

Lexicon SemanticsGrammar

Word model composition

Word model

Recognized sentence

Page 13: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Arquitetura – Primeiro passo

Spectral analysisRetorna o vetor das

características do sinal de voz

Feature vectorSpectral

analysis

Speech input

Page 14: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Arquitetura – Segundo passo

Junção de duas partes:World-level matchSentence-level match

Word-level match

Sentence-level match

Page 15: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Arquitetura – Segundo passo

Word-level match:Conjunto de subpalavras HMMsForma léxica das palavrasCriação de conjunto de modelo de palavras HMMs

Subword models

Word-level match

Sentence-level match

Lexicon SemanticsGrammar

Word model composition

Word model

Page 16: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Arquitetura – Segundo passo

Sentence-level match:Word grammar (syntax)SemanticsComposição de um modelo de linguagem FSN

Subword models

Word-level match

Sentence-level match

Lexicon SemanticsGrammar

Word model composition

Word model

Page 17: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Arquitetura – Segundo passo

Integração do word-level match e do sentence-level match Level Building (LB) algorithm Exemplo de integração de uma gramática FSN em um algoritmo LB

Page 18: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Arquitetura

Após a integração dos módulos de word-level match e sentence-level match é formada a sentença reconhecida

Subword models

Word-level match

Sentence-level match

Lexicon SemanticsGrammar

Word model composition

Word model

Recognized sentence