he[ eee ]sit[u]aÇÃo modelos de hesitação para o português

Post on 24-Feb-2016

40 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Seminários@CELGA FLUC, 17 Fevereiro 2011. HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português. Sara Candeias Fernando Perdigão Carla Alexandra Lopes Arlindo Oliveira da Veiga. Sumário. Introdução Objeto de estudo Objetivos Plano e métodos Corpus Análise Perspetivas. - PowerPoint PPT Presentation

TRANSCRIPT

© 2005, it - instituto de telecomunicações. Todos os direitos reservados.

Sara CandeiasFernando Perdigão

Carla Alexandra LopesArlindo Oliveira da Veiga

HE[eee]SIT[u]AÇÃOModelos de Hesitação para o Português

Seminários@CELGAFLUC, 17 Fevereiro 2011

2Seminários@CELGA: Fevereiro 17, 2011

Sumário

Introdução Objeto de estudo Objetivos

Plano e métodos Corpus Análise

Perspetivas

3

Objeto de Estudo Eventos de hesitação (disfluências)

Pausas preenchidas Segmentos fonéticos do sistema português não

ocorrentes no âmbito do vocábulo: uum, mm, amm, aa Extensões

Prolongamentos fonéticos no âmbito de vocábulos Vocábulos cortados Repetições

de de, para a para a

Seminários@CELGA: Fevereiro 17, 2011

Preenchimentos com vocábulos pá, ok, …

4

Objetivos

Modelar eventos de hesitação presentes no português falado em contínuo Identificar características linguísticas pertinentes e regulares

Descrever os fenómenos de hesitação existentes no português falado Propriedades acústico-fonéticas Propriedades morfológicas e sintácticas

Caracterizar modelos linguísticos e acústicos das hesitações para identificação e anotação automática dos eventos na fala

contínua

Seminários@CELGA: Fevereiro 17, 2011

Anotar uma base de dados de fala contínua em termos de eventos de hesitação

5

Plano de Trabalho

Criação e anotação de base de dadosIdentificação automática de hesitaçõesEstudo linguístico e caracterização de hesitações

Seminários@CELGA: Fevereiro 17, 2011

corpora: Tecnovoz Noticiários

Centenas de locutores40 horas de fala lidaAnotado ortograficamente

Centenas de horasNão anotadoFerramentas para anotação automática de:

jingles e música mudança de locutor, reportagens no exterior

6

Eventos de Hesitação

Primeiros passos… Eventos encontrados manualmente Uso do Transcriber

Seminários@CELGA: Fevereiro 17, 2011

Sub-corpora: Inferem-se as primeiras características (surface structure)

que permitam a deteção automática dos eventos

7

Deteção Automática de Hesitações

Seminários@CELGA: Fevereiro 17, 2011

Problemas:

Ficheiros muito longos; qualidade do áudio variável; muitos locutores: necessidade de tratamento automático.

Inexistência de modelos acústicos para hesitação.

Caracterização acústica/fonética dos eventos:

Tom constante e mais baixo que o usual?

Formantes diferentes? Vibrante múltipla?

Quais as características a usar?

Deteção de repetições:

Uso de técnicas de reconhecimento de fala/fones.

8

Deteção Automática de Hesitações

Seminários@CELGA: Fevereiro 17, 2011

Solução preliminar:

Apenas deteção de pausas preenchidas e extensões.

Uso de modelos acústicos de fones. Modelos estatísticos de fones com “misturas de Gaussianas”, GMM.

Regra: existe uma hesitação se for detetada uma vogal longa (>350ms) ou repetições de um mesmo fone por mais que 350ms.

Permitir mais falsas aceitações que falsas rejeições.

Verificação manual dos eventos detectados.

Exemplos

9

Processo de Anotação

Sistemas propostos: Levelt (1983; 1989) Nakatani & Hirschberg (1994) Shriberg (1994)

Seminários@CELGA: Fevereiro 17, 2011

material a corrigirmomentos de interrupção

acompanhados (ou não) de pausasmaterial reposto

Mostra voos de Lisboa na umm de Londres na terça.

Interruption Point

Reparandum Interregnum Repair

SimpleMDE_v6.2: Simple Metadata Annotation Specification Linguistic Data Consortium

10

Exemplos de Anotação

Seminários@CELGA: Fevereiro 17, 2011

Venho de Lisboa aaaa de Co- Coimbra.

IP

* [ ] Reparandum FP Repair

[ ] Reparandum

Repair

É necessário gastar para renovar para renovar renová-lo.

IP

* [ ] Reparandum Repair

[ ] Reparandum

Repair

IP

*

11

Caracterização de Hesitações Estruturas subjacentes:

reparandum, interruption point, (explicit) editing phase, repair,

fronteiras (frases, vocábulos, sílabas)

Características fonéticas:

contornos da onda sonora

valores de F0 para onset e offset dos eventos

valores de formantes das vogais

duração dos segmentos

Características sintáticas e morfológicas (dos eventos e dos elementos adjacentes)

Seminários@CELGA: Fevereiro 17, 2011

Informação estatística

12

Perspetivas

Seminários@CELGA: Fevereiro 17, 2011

Identificação de regularidades no âmbito

da sintaxe e da morfologia

da prosódia

???

© 2005, it - instituto de telecomunicações. Todos os direitos reservados.

Fim

Obrigados

saracandeias@co.it.ptfp@co.it.ptaveiga@co.it.pt

calopes@co.it.pt

top related