音声対話技術の普及促進と進化
TRANSCRIPT
Galatea Dialog Studio の開発
• 擬人化エージェントと Galatea 仮説• 機械との音声対話における違和感の解消?
• カスタマイズ性=個性の実現
• 顔画像=顔写真からのモデル生成
• 音声合成=コーパスからの話者モデル生成
• VoiceXML 処理系としての GDS– Linux 版統合システムにおける対話記述言語
–電話応答システム向け技術を独自拡張
拡張性= Galatea アーキテクチャ
• 仮想マシン、テキストベースの通信プロトコル–プロジェクト当初 (2000 年 ) から一貫して利用
–例:仮想マシン SSM のスロットにアクセスする
to @SSM set Text = hellofrom @SSM rep Run = LIVEfrom @SSM rep Speak.stat = PROCESSINGfrom @SSM rep Text.pho = h[20] e[20]…from @SSM rep Speak.stat = READYto @SSM set Speak = NOWfrom @SSM rep Speak.stat = SPEAKINGfrom @SSM rep Speak.stat = READY
Galatea for Linux の取り組み
• Redhat → Vine → Ubuntu Linux 対応へ– http://sourceforge.jp/projects/galatea/
• インストールを簡単に/不要に
– Ubuntu 用パッケージ作成/ Live CD/USB の試作
• スタートアップのメカニズム改良–複数のモダリティに関わる設定の一元管理
• 対話記述のチュートリアル執筆(予定)– 6 階層モデルを意識して Ruby による実装例
モダリティ初期化のモデルとビュー
今後の展望
• 研究 (1) 知識に基づく対話制御–抽象的で普遍的な情報構造
• 研究 (2) コミュニケーションの効率性
–リアルタイム性= Galatea 仮説の正体?
• カスタマイズ機能の充実
• Unicode 対応、多言語化
• 6 階層モデルにふさわしい対話記述
–検討中: Ruby, Python, JavaScript, ...
Galatea プロジェクトの今後
• "Open source needs to move or die"–用途を限定しない汎用の技術
–使いたいと言ってくれる人の要望を聞くべき
• その要望に応えるための体制が必要?–ソフトウェア配付、カスタマイズ用データ提供
–サポート、カスタマイズ、講習会などの業務
–技術情報の提供・執筆
–事業者、研究者、開発者などの仲介
新しい体制のあるべき姿
• オープンソースによるビジネスや雇用の創出–既存のプロジェクトとの活動の重複を避ける
–商用ソフトウェア・既存ビジネスとの共存
• 技術の非専門家、ユーザの視点でサポート
–運営や活動方針などの情報の積極的公開
–適切な秘密保持、知的財産権管理
–大学等の研究者との協力関係の構築
• 自発的な(楽しんで参加できる)活動の場