copyright, 2005 © istc-spfd-cnr istituto di scienze e tecnologie della cognizione viale marx, 15...
TRANSCRIPT
![Page 1: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:](https://reader035.vdocuments.pub/reader035/viewer/2022070312/5542eb4d497959361e8bac33/html5/thumbnails/1.jpg)
Copyright, 2005 © ISTC-SPFD-CNR
ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE
Viale Marx, 1500137 Roma (Italy)
www: http://www.istc.cnr.ithttp://www.istc.cnr.it
Sintesi vocale concatenativa per l’italiano tramite modello sinusoidale
Giacomo Sommavilla, Carlo Drioli, Piero Cosi
SEZIONE DI PADOVA“FONETICA E DIALETTOLOGIA”
Via G. Anghinoni, 1035121 Padova (Italy)
e-mail: [email protected]: http://www.pd.istc.cnr.ithttp://www.pd.istc.cnr.it
“ANALISI PROSODICA”teorie, modelli e sistemi di annotazione
2° Convegno Nazionale AISV – 30/11- 2/12 2005Università degli Studi di Salerno, Campus di Fisciano - - "Aula delle Lauree“
![Page 2: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:](https://reader035.vdocuments.pub/reader035/viewer/2022070312/5542eb4d497959361e8bac33/html5/thumbnails/2.jpg)
introduzione TTSSMS
HNM - Harmonic + Noise Model SMS tools (CLAM)
risultaticonclusioni e sviluppi futuri
introduzione TTSSMS
HNM - Harmonic + Noise Model SMS tools (CLAM)
risultaticonclusioni e sviluppi futuri
Riassunto
![Page 3: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:](https://reader035.vdocuments.pub/reader035/viewer/2022070312/5542eb4d497959361e8bac33/html5/thumbnails/3.jpg)
Sistema TTS “per concatenazione”
TTS: un sistema hardware/software capace di riprodurre vocalmente un testo scritto
x concatenazione: la sintesi viene realizzata per concatenazione di unità di base
unità base, difoni: “segmenti acustici che includono la transizione fra due fonemi consecutivi”
sintesi in frequenza: il sistema sviluppato esegue le trasformazioni sui difoni nel dominio frequenziale, adottando una rappresentazione sinusoidi + residuo
TTS: un sistema hardware/software capace di riprodurre vocalmente un testo scritto
x concatenazione: la sintesi viene realizzata per concatenazione di unità di base
unità base, difoni: “segmenti acustici che includono la transizione fra due fonemi consecutivi”
sintesi in frequenza: il sistema sviluppato esegue le trasformazioni sui difoni nel dominio frequenziale, adottando una rappresentazione sinusoidi + residuo
![Page 4: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:](https://reader035.vdocuments.pub/reader035/viewer/2022070312/5542eb4d497959361e8bac33/html5/thumbnails/4.jpg)
MatchProsody
Elaborazionedei difoni
SignalSynthesis
TTS (concatenativo ): schema generale
NLP+
Prosody
text Phonetic speechDigitalSignal
Processing
FESTIVAL TTSFESTIVAL TTS
.pho file
![Page 5: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:](https://reader035.vdocuments.pub/reader035/viewer/2022070312/5542eb4d497959361e8bac33/html5/thumbnails/5.jpg)
DSP – Digital Signal Processing
Codifica dei parametri prosodici per ogni fonema nelle variabili di f0 e durata (pitch shifting e time stretching)
MatchProsody
SignalSynthesis
Trasformazione e concatenazione in frequenza di difoni successivi
Sintesi del segnale dal dominio frequenziale a quello temporale e creazione del file audio vocale
Elaborazionedei difoni
![Page 6: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:](https://reader035.vdocuments.pub/reader035/viewer/2022070312/5542eb4d497959361e8bac33/html5/thumbnails/6.jpg)
SMS - Spectral Modeling Synthesis
)()](cos[)()(1
tettAtsR
rrr
Il modello Spectral Modeling Synthesis (SMS) si basa sulla rappresentazione armoniche + residuo
armoniche (parte armonica, deterministica)
residuo(parte stocastica, rumore)
Rappresentazione nel dominio della frequenza
![Page 7: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:](https://reader035.vdocuments.pub/reader035/viewer/2022070312/5542eb4d497959361e8bac33/html5/thumbnails/7.jpg)
Sinusoidal analysis/synthesis system
![Page 8: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:](https://reader035.vdocuments.pub/reader035/viewer/2022070312/5542eb4d497959361e8bac33/html5/thumbnails/8.jpg)
HNM - Harmonic + Noise Model
![Page 9: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:](https://reader035.vdocuments.pub/reader035/viewer/2022070312/5542eb4d497959361e8bac33/html5/thumbnails/9.jpg)
HNM synthesis
si aggiorna dinamicamente Fm[n] sulla base di un ‘test di armonicità’
il rumore (noise) ha un inviluppo sia nel dominio temporale e[n] che in quello frequenziale Hn (k)
![Page 10: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:](https://reader035.vdocuments.pub/reader035/viewer/2022070312/5542eb4d497959361e8bac33/html5/thumbnails/10.jpg)
HNM synthesis
PROCEDURA di SINTESI NLP fonemi, durata, pitch ricerca unità di base (difono) sul database sintesi HNM
cross-fading di Ak e 0
La “chiave” per una buona sintesi è la preparazione accurata del database delle unità di base (difoni)
il modello sinusoidale consente l’allineamento in fase di tutte le unità
un database ricco migliora la sintesi
![Page 11: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:](https://reader035.vdocuments.pub/reader035/viewer/2022070312/5542eb4d497959361e8bac33/html5/thumbnails/11.jpg)
CLAM-SMS
CLAM - C++ Library for Audio and Music
http://www.iua.upf.es/mtg/clam/
![Page 12: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:](https://reader035.vdocuments.pub/reader035/viewer/2022070312/5542eb4d497959361e8bac33/html5/thumbnails/12.jpg)
Analisi del database di difoni
d0.rawd1.rawd2.rawd3.raw
…
File audio
d0.sdifd1.sdifd2.sdifd3.sdif
…
File SDIF
analyzeDatabase.m
File SDIF
1. frequenze, ampiezze e fasi delle parziali (comp. armonica)
2. inviluppo spettrale della comp. residuale
MBROLAMBROLA
![Page 13: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:](https://reader035.vdocuments.pub/reader035/viewer/2022070312/5542eb4d497959361e8bac33/html5/thumbnails/13.jpg)
Architettura del sistema
C++C++
Matchprosody
TimeStretching
Fonemi, prosodia (pitch e durate)
Data Basedi difoni(SDIF)
Sintesi(IFFT +OLA)
.pho file .wav file
PitchShifting(formant
preserving)
Concatenazione
Parser
![Page 14: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:](https://reader035.vdocuments.pub/reader035/viewer/2022070312/5542eb4d497959361e8bac33/html5/thumbnails/14.jpg)
Risultati sperimentali
1) Sintesi MBROLA
2) Sintesi SMS
3) Sintesi SMS con trasformazione (1)
4) Sintesi SMS con trasformazione (2)
5) Sintesi MBROLA (T=1.5, F=2)
6) Sintesi SMS (T=1.5, F=2)
Confronti con MBROLA (Mons, TCTS Lab.), programma TTS allo stato dell’arte (trasf. e conc. dominio temporale, pitch sincrono)
![Page 15: Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:](https://reader035.vdocuments.pub/reader035/viewer/2022070312/5542eb4d497959361e8bac33/html5/thumbnails/15.jpg)
Conclusioni
i risultati ottenuti dimostrano come la rappresentazione scelta sia versatile e potente per elaborazioni di tempo, pitch e inviluppo spettrale
la qualità della sintesi può essere migliorata applicando un algoritmo di ricostruzione delle fasi più adatto
i risultati ottenuti dimostrano come la rappresentazione scelta sia versatile e potente per elaborazioni di tempo, pitch e inviluppo spettrale
la qualità della sintesi può essere migliorata applicando un algoritmo di ricostruzione delle fasi più adatto
Sviluppi Futuri
residuo: concatenazione ad-hoc per fonemi unvoiced;
parte armonica:
residuo: concatenazione ad-hoc per fonemi unvoiced;
parte armonica: I. morphing / voice conversion
II. sintesi vocale emotiva (E-TTS)III. tecniche di voice quality