tech@mivoq - unipdtullio/is-1/2016/progetto/c4p.pdf · 2016. 11. 4. · tech@mivoq.it ebread -...
Post on 01-Mar-2021
0 Views
Preview:
TRANSCRIPT
tech@mivoq.it
eBread - applicazione di lettura per dislessici
https://www.mivoq.it/
Giulio Paci <giulio.paci@mivoq.it>
tech@mivoq.it
eBread - applicazione di lettura per dislessici
Proponente: chi siamo?
Text To Speech
tech@mivoq.it
eBread - applicazione di lettura per dislessici
Proponente: chi siamo?
Crea la tua voce
Real Speech
MIVOQServer
PersonalizedSynthetic Speech
tech@mivoq.it
eBread - applicazione di lettura per dislessici
Proponente: storia
I Competizioni per Startup/Progetti d’impresaI Start CUP Veneto (2012): primo postoI Rebound (2012): selezionatiI PNI (2012): finalistiI Natiper (2016): primo posto
I Spin-off del Consiglio Nazionale delle Ricerche (CNR) (2013)
I Fondata (2013)I Progetti
I FI-Content 2 (2014): partner ufficialiI IMPACT Accelerator (2015): percorso completatoI Impact Hub Milano (2016): percorso iniziato
tech@mivoq.it
eBread - applicazione di lettura per dislessici
Capitolato
Oggetto
tech@mivoq.it
eBread - applicazione di lettura per dislessici
Capitolato
Problema
tech@mivoq.it
eBread - applicazione di lettura per dislessici
Capitolato
Soluzione
tech@mivoq.it
eBread - applicazione di lettura per dislessici
Capitolato
Soluzione
tech@mivoq.it
eBread - applicazione di lettura per dislessici
Capitolato
Obiettivi di Mivoq
I App utile che utilizzi Sintesi Vocale
I Utilizzare parte del codice → opensource
I Interfaccia Multimodale (combinare audio e testo)
tech@mivoq.it
eBread - applicazione di lettura per dislessici
Capitolato
Vincoli tecnologici
I Piattaforma Android
I Motore di sintesi FA-TTSI Tecnologie di terze parti
I Accedere al contenuto testualeI Visualizzare il contenuto
tech@mivoq.it
eBread - applicazione di lettura per dislessici
Elementi di sfida
Sfida 1: Realizzare App funzionante
Integrare interfaccia multimodale interattiva
Lettore di audiolibri(es.: lettore di ePub)
Applicazione di messaggistica(es.: client Telegram)
tech@mivoq.it
eBread - applicazione di lettura per dislessici
Elementi di sfida
Sfida 2: Estendere Android TextToSpeech
Applicazione oltre i limiti di Android TextToSpeech.
http://developer.android.com/reference/android/speech/tts/TextToSpeech.html
Limiti superabili usando FA-TTS.
tech@mivoq.it
eBread - applicazione di lettura per dislessici
Elementi di sfida
Text To Speech
TESTO TTS
VOCE
PARAMETRI:Lingua, Stile,Sesso, Età, Voce, ...
tech@mivoq.it
eBread - applicazione di lettura per dislessici
Elementi di sfida
Text To Speech
TESTO TTS
VOCE
PARAMETRI:Lingua, Stile,Sesso, Età, Voce, ...
METADATI:Fonemi,Visemi,Durate, ...
tech@mivoq.it
eBread - applicazione di lettura per dislessici
FA-TTS Specific Enabler
http://mediafi.org/
tech@mivoq.it
eBread - applicazione di lettura per dislessici
FA-TTS Specific Enabler - Caratteristiche
FA-TTS: Flexible and Adaptive Text To Speech
I TTS fornito come servizio SaaS
I con supporto per: Inglese, Italiano, Tedesco, Francese, . . .
I basato sul server opensource MaryTTS: bug fixes,miglioramenti vari, moduli personalizzati e voci personalizzate,nuove API HTTP
I Flexible: permette di cambiare lo stile della voce
I Adaptive: permette di replicare una voce specifica
tech@mivoq.it
eBread - applicazione di lettura per dislessici
FA-TTS Specific Enabler - Installazione ed Uso
Istruzioni per Installazione e Uso
I Le informazioni ufficiali sono disponibili suhttp://mediafi.org/
I Per i piu impazienti. . .https://registry.hub.docker.com/u/fic2/fatts/
I Launch FA-TTS
docker run -d -p 59125:59125 fic2/fatts
I Andate su http://localhost:59125/ e buondivertimento!
tech@mivoq.it
eBread - applicazione di lettura per dislessici
FA-TTS Specific Enabler - API
API: get capabilities information: Version
curl --get http://localhost:59125/info/version
{"fa_tts_api_version":"0.0.1","vendor":"Mivoq SRL","product":"FA-TTS (MaryTTS server)","specification":"5.2-SNAPSHOT","implementation":{
"revision":"5beaed"}
}
tech@mivoq.it
eBread - applicazione di lettura per dislessici
FA-TTS Specific Enabler - API
API: get capabilities information: Available languages
curl --get http://localhost:59125/info/locales/all
{"locales":[
"de","en","en_US","fr","it",...
],next: ...
}
tech@mivoq.it
eBread - applicazione di lettura per dislessici
FA-TTS Specific Enabler - API
API: get capabilities information: Available voices 1
curl --get http://localhost:59125/info/voices/all
{"voices":[
{"id":"upmc-pierre-hsmm","locales":["fr"],"gender":"male"
},...
],"next": ...
}
tech@mivoq.it
eBread - applicazione di lettura per dislessici
FA-TTS Specific Enabler - API
API: get capabilities information: Available voices 2
curl --get http://localhost:59125/info/voices/locale/it
{"voices":[
{"id":"istc-speaker_internazione-hsmm","locales":["it"],"gender":"male"
},...
],"next": ...
}
tech@mivoq.it
eBread - applicazione di lettura per dislessici
FA-TTS Specific Enabler - API
API: get capabilities information: Voice capabilities
curl --get http://localhost:59125/info/voice/cmu-slt-hsmm/inputs/all
{"inputs":[
{"id":"TEXT"},...
]}
tech@mivoq.it
eBread - applicazione di lettura per dislessici
FA-TTS Specific Enabler - API
API: get capabilities information: Voice capabilitiescurl --get http://localhost:59125/info/voice/cmu-slt-
hsmm/outputs/all
{"outputs":[
{"id":"AUDIO","formats":[
{"id":"WAVE_FILE"},{"id":"AU_FILE"},{"id":"AU_STREAM"},{"id":"AIFF_FILE"}
]}
]}
tech@mivoq.it
eBread - applicazione di lettura per dislessici
FA-TTS Specific Enabler - API
API: get capabilities information: Voice capabilities
curl --get http://localhost:59125/info/voice/cmu-slt-hsmm/styles/all
{"styles":[
{"id":"sad"},{"id":"happy"},...
]}
tech@mivoq.it
eBread - applicazione di lettura per dislessici
FA-TTS Specific Enabler - API
API: get capabilities information: Voice capabilities
curl --get http://localhost:59125/info/voice/cmu-slt-hsmm/effects/all
{"effects":[]
}
tech@mivoq.it
eBread - applicazione di lettura per dislessici
FA-TTS Specific Enabler - API
API: get speech!
curl --get http://localhost:59125/say \--data input[type]=TEXT \--data input[locale]=it \--data-urlencode input[content]="Hello world." \
\--data output[type]=AUDIO \--data output[format]=WAVE_FILE \
\--data voice[gender]="neutral" \--data-urlencode voice[name]="istc-
speaker_internazione-hsmm" \--data utterance[style]="sad" \
| aplay
top related