待望の技術 オラクル社の...

16
オラクル テクノロジ オラクル・ホワイト・ペーパー 2003 6

Upload: others

Post on 29-Oct-2019

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 待望の技術 オラクル社の 音声対応テクノロジotndnld.oracle.co.jp/products/iaswe/pdf/9iASW_Voice_twp.pdf · 以前、音声認識は精度が低く、音声対応アプリケーションの開発と配置が難しい

待望の技術 – オラクル社の音声対応テクノロジ

オラクル・ホワイト・ペーパー 2003年 6月

Page 2: 待望の技術 オラクル社の 音声対応テクノロジotndnld.oracle.co.jp/products/iaswe/pdf/9iASW_Voice_twp.pdf · 以前、音声認識は精度が低く、音声対応アプリケーションの開発と配置が難しい

待望の技術 – オラクル社の音声対応テクノロジ

2

Oracle Corporation発行「Ready Today − Oracle's Voice-enabling Technology」の翻訳版です。

待望の技術 – オラクル社の音声対応テクノロジ

概要 ...................................................................................................................... 3 はじめに .............................................................................................................. 3 Oracle9iAS Wireless............................................................................................. 4 ワイヤレスおよび音声プラットフォーム ................................................. 4 仮想ブラウザ................................................................................................. 5 Oracle Collaboration Suite.............................................................................. 6 Oracle E-Business Suite.................................................................................. 6

簡単に配置できる音声対応アプリケーション............................................... 6 音声は通常最高のユーザー・インタフェース ......................................... 7 即座に使用できるアプリケーション ......................................................... 7 配置オプション............................................................................................. 7

カスタム音声対応アプリケーション............................................................... 8 Oracle9iAS Wirelessによる音声対応アプリケーションの開発 .............. 8 Oracle9iAS Wirelessを介した音声テクノロジへのアクセス .................. 9 操作性に優れた新しい音声対応アプリケーションの設計 ................... 11 音声対応アプリケーションの微調整 ....................................................... 12

VoiceXMLゲートウェイ ................................................................................. 12 VoiceXMLゲートウェイのコンポーネント ............................................ 13 VoiceXMLゲートウェイ: オラクル社承認 ............................................. 13 VoiceXMLゲートウェイ: 選択基準 ......................................................... 13

オラクル社と他社の違い ................................................................................ 14 結論 .................................................................................................................... 14

Page 3: 待望の技術 オラクル社の 音声対応テクノロジotndnld.oracle.co.jp/products/iaswe/pdf/9iASW_Voice_twp.pdf · 以前、音声認識は精度が低く、音声対応アプリケーションの開発と配置が難しい

待望の技術 – オラクル社の音声対応テクノロジ

3

Oracle Corporation発行「Ready Today − Oracle's Voice-enabling Technology」の翻訳版です。

待望の技術 – オラクル社の音声対応テクノロジ

概要

音声ユーザー・インタフェースは一般に、情報へのアクセスとして最も便利で適

切なチャネルです。自然で、手を使わない、多くのオプションからの選択に最適

な音声は、従来から電話に使用されてきました。ビジネスの観点からも、情報へ

のセルフサービスの音声アクセスは、コストの大幅な削減とコール・センターで

の ROIの向上に人気が高まっています。

以前、音声認識は精度が低く、音声対応アプリケーションの開発と配置が難しい

ため、独自のソフトウェアとハードウェアおよび特別なトレーニングを受けた IT

スタッフが必要でした。しかし時代は変わりました。今では音声認識の精度が大

きく向上し、音声対応アプリケーションの開発、配置および保守も容易です。

Oracle9iAS Wirelessは、業界をリードする音声プラットフォームです。Oracle9iAS

Wireless音声プラットフォームに業界標準の XHTMLで音声対応アプリケーショ

ンを開発して、企業はテクノロジの転換が必要なく、今までの開発投資は維持さ

れます。オラクル社の音声プラットフォームは XHTMLアプリケーションを任意

のオラクル社承認音声ゲートウェイ用に調整された VoiceXMLに変換するため、

開発者は音声ゲートウェイの複数の実装間の違いに悩まされることはありません。

また、Oracle9iAS Wirelessには企業の既存の IPインフラストラクチャ内に即座に

配置できる音声対応アプリケーション群が含まれており、ホスティング施設によ

り、さらに短期間の配置が可能です。これらの音声対応アプリケーションはカス

タマイズおよび拡張が可能であり、Oracle9iAS Wireless音声プラットフォーム用

に開発された新しいカスタム・アプリケーションとの統合も可能です。

はじめに

電話はどこにでもあるため、いつどこからでも音声で情報へアクセスして配信で

きます。統合型の Oracle9iAS Wireless音声対応アプリケーションは、企業がこの

機会を即時に利用する一方で必要な開発リソースを最小限に抑えるのに役立ちま

す。これらのアプリケーションは、簡単にカスタマイズおよび拡張ができ、オラ

クル社の顧客、システム・インテグレータまたは独立サービス・ベンダーが開発

した新しいカスタム・アプリケーションとの統合も容易にします。新しい音声ユ

ーザー・インタフェースは、オラクル社が開発したインタフェースに基づいてモ

デリングできるため、オラクル社の優れたログイン機能やプロンプト設計、文法

設計、コール・フロー、パーソナライズ、チューニングなどを利用できます。

自分の企業/個人情報への安全かつセキュアで信頼性が高く簡単なアクセスを必

要とするビジネス・ユーザーにとって、通常、電話は最も便利なインタフェース

です。

Page 4: 待望の技術 オラクル社の 音声対応テクノロジotndnld.oracle.co.jp/products/iaswe/pdf/9iASW_Voice_twp.pdf · 以前、音声認識は精度が低く、音声対応アプリケーションの開発と配置が難しい

待望の技術 – オラクル社の音声対応テクノロジ

4

Oracle Corporation発行「Ready Today − Oracle's Voice-enabling Technology」の翻訳版です。

• 大手の市場調査会社である Kelsey Group社の結論によると、音声対応サ

ービスの市場は 2005年までに 123億ドルに達し、北米で 4500万人の携

帯電話ユーザーが音声対応サービスを日常的に使用して毎日のコンピュ

ータ関連業務を行うと予測されます。

• Frost and Sullivan社は、音声対応サービス市場の今後 6年間の成長率を

54%と予測しています。

• IDC社は、米国のモバイル・ワーカー(携帯端末で仕事をする人)とリ

モート・ワーカー(在宅勤務者)の数が 2004年中に 5540万人に達する

と予測しています。

この市場はさらなる成熟が見込まれ、オラクル社の画期的な統合アプリケーショ

ンやプラットフォーム/プロトコル中立テクノロジ、および業界をリードする信頼

性とスケーラビリティ、移植性は今後も企業にとって最適な選択肢であり続けま

す。

Oracle9iAS Wireless

Oracle9iAS Wireless音声プラットフォームは、音声認識、合成音声および音声ゲ

ートウェイの最新テクノロジを利用しています。

ワイヤレスおよび音声プラットフォーム

Oracle9i Application Serverのワイヤレス機能セット(Oracle9iAS Wireless)が提供

する強力な音声プラットフォームを使用すれば、企業は音声対応アプリケーショ

ンの ROIと収益可能性を高めることができます。Oracle9iAS Wirelessはオープン

標準に準拠し(HTTPと XMLを利用)、WML、CHTML、VoiceXMLを含むほぼ

すべてのプレゼンテーション・マークアップ言語を多数サポートしています。J2EE

マルチチャンネル・サーバーを使用すると、Oracle9iASベースのアプリケーショ

ンを XHTMLで一度記述することで、それを顧客の任意のゲートウェイに配信で

きます。Oracle9iAS Wireless音声プラットフォームは、市場で現在入手可能な唯

一のゲートウェイ中立アプリケーション・サーバーです。

音声対応アプリケーションは、情報の音声再生と音声ユーザー・インタフェース

を通じて任意の電話(有線あるいは無線)に配信できます。電話のターゲット・

プレゼンテーション言語は VoiceXMLです。この言語は広く採用されている公認

標準であり、W3C、Voice Browser Working Group、および 650の加盟国によって

管理されています。Oracle9iASには、VoiceXML仕様のバージョン 1.0とバージョ

ン 2.0の両方のドライバが用意されています。VoiceXMLインタプリタは、ユーザ

ーの発話を理解する自動音声認識(ASR)を利用し、記述されたテキストを音声

で読み取るテキスト音声合成を利用します。

画面ベースのデバイスがテキストを利用した 2Dインタフェースをエンド・ユーザ

ーに提示するのに対し、音声ユーザー・インタフェースは一時的であり、エンド・

ユーザーと音声で対話をします。音声ユーザー・インタフェースを介したユーザ

ーとの対話には、音声認識ソフトウェア、合成音声ソフトウェア、テレフォニー・

インタフェースなど、画面ベースの従来のユーザー・インタフェースでは必要と

しないテクノロジ・コンポーネントが必要となります。このような複雑な状況は

オラクル社のマルチチャネル・サーバーを使用すると、顧客が指定した音声ゲートウェイ上で単一のアプリケーションを配信および実行できます。

Page 5: 待望の技術 オラクル社の 音声対応テクノロジotndnld.oracle.co.jp/products/iaswe/pdf/9iASW_Voice_twp.pdf · 以前、音声認識は精度が低く、音声対応アプリケーションの開発と配置が難しい

待望の技術 – オラクル社の音声対応テクノロジ

5

Oracle Corporation発行「Ready Today − Oracle's Voice-enabling Technology」の翻訳版です。

オラクル社の顧客に提示しませんが、背後にあるテクノロジを理解することで

Oracle製品を選択する主なメリットが明らかになります。

仮想ブラウザ

図 1では、最終的に音声対応アプリケーションを電話へ配信するサーバー間にお

ける XMLマークアップ・ページのフローを示します。この単純な(カスタマイズ

されていない)例では、発信者が音声ゲートウェイの番号に電話します。

図 1: オラクル社の音声対応アプリケーションを発信者に配信。配信手順は 1から 6の番号

です。このアプリケーション・モデルは、Webベースのアプリケーションのモデルと同じです。

音声ゲートウェイは、発信先の電話番号と最初の VoiceXMLページ(静的または

動的に生成されるページ)を関連付けます。音声ゲートウェイが電話に応答し、

この VoiceXMLページを使用して対話します。次に、(1) ユーザーがカレンダを

要求します。音声ゲートウェイは、発信者が話した内容を音声認識機能で判断し、

(2) Oracle9iAS Wirelessに HTTPリクエストを送信し、ユーザーのカレンダを含む

VoiceXMLページを要求します。(3) Oracle9iAS Wirelessはユーザーのカレンダに

対するリクエストを対象アプリケーションに中継します。(4) Oracle9iAS Wireless

は XHTML形式のレスポンスをアプリケーションから受信し、(5) それをターゲッ

ト音声ゲートウェイ用に調整された VoiceXMLに変換します。(6) 音声ゲートウ

ェイは、VoiceXMLを解析し、電話回線を介して発信者へカレンダを送信します。

Oracle9iAS Wirelessはこの一連のイベントの仮想ブラウザとして機能します。つ

まり、アプリケーション・サーバーへのリクエストの送信や結果の解析などすべ

てをエンド・ユーザーのかわりに行います。Oracle9iAS Wirelessは音声ゲートウ

ェイ用に特別に調整された VoiceXMLへとアプリケーションを変換するため、す

べての音声ゲートウェイへの配信に対してアプリケーション開発者の記述を必要

とするアプリケーションが 1つのみになります。

Page 6: 待望の技術 オラクル社の 音声対応テクノロジotndnld.oracle.co.jp/products/iaswe/pdf/9iASW_Voice_twp.pdf · 以前、音声認識は精度が低く、音声対応アプリケーションの開発と配置が難しい

待望の技術 – オラクル社の音声対応テクノロジ

6

Oracle Corporation発行「Ready Today − Oracle's Voice-enabling Technology」の翻訳版です。

図 2: Oracle9iAS Wireless音声プラットフォームは、ターゲット音声ゲートウェイ用に調整

された VoiceXMLへと XHTMLアプリケーションを変換します。このため、アプリケーション開発者はゲートウェイ固有なコードの記述が必要ありません。

Oracle Collaboration Suite

Oracle Collaboration Suiteは、2002年 7月に初めて発表された統合エンタープライ

ズ・アプリケーション群であり、個人やチーム間のコミュニケーションと、業務

の完了に必要な個人情報および企業情報を管理します。Oracle Collaboration Suite

は、あらゆる種類のユーザー・インタフェース(標準のデスクトップ・クライア

ント、Web、ワイヤレスおよび電話)からこの情報へアクセスする機能の他に、

電子メール、音声メール、カレンダ、ファイル・サービス、統合検索機能も提供

します。Oracle Collaboration Suiteのワイヤレスおよび音声機能は、Oracle9iAS

Wirelessによって提供されます。

Oracle E-Business Suite

Oracle E-Business Suiteは、顧客プロセスの効率的な管理、製品の製造、販促キャ

ンペーンの実施、発注品の出荷、代金回収などを可能にする総合的なビジネス・

アプリケーション群です。これらすべてが、単一のテクノロジ基盤を共有する 1

つのビジネス・システムから提供されます。Oracle E-Business Suiteのワイヤレス

対応化および音声対応化の動きにあわせて、Oracle9iAS Wirelessも基盤となるワ

イヤレス/音声インフラストラクチャを継続して提供します。

簡単に配置できる音声対応アプリケーション

Oracle9iAS Wirelessプラットフォームに基づくオラクル社の音声対応アプリケー

ションは、Webアプリケーションと同じ HTTP分散アーキテクチャを使用するた

め、期待される利点、フォルト・トレランス、フェイルオーバー、スケーラビリ

ティ、シングル・サインオンおよびセキュリティをすべてのサーバーに提供し、

必要な ITスタッフも 1人のみです。音声対応アプリケーションはつまり、ビジネ

ス・ユーザーが必要とする情報へのリアルタイム・アクセスを提供し、ユーザー

の生産性と能率を最大限に高めます。

Page 7: 待望の技術 オラクル社の 音声対応テクノロジotndnld.oracle.co.jp/products/iaswe/pdf/9iASW_Voice_twp.pdf · 以前、音声認識は精度が低く、音声対応アプリケーションの開発と配置が難しい

待望の技術 – オラクル社の音声対応テクノロジ

7

Oracle Corporation発行「Ready Today − Oracle's Voice-enabling Technology」の翻訳版です。

音声は通常最高のユーザー・インタフェース

今日では、不特定話者音声認識や VoiceXMLなどの音声テクノロジは、音声対応

アプリケーションの大規模な配置に対応できるまでに成熟しています。その特性

から、音声ユーザー・インタフェースには他のユーザー・インタフェースよりも

多くのメリットがあります。音声ユーザー・インタフェースでは操作や目による

確認を必要としないため、運転中でも安全に使用できます。多くのオプションか

らの選択を発信者に要求するアプリケーションでは、音声は通常、最も簡単に選

択できる手段です。たとえば、天気予報を調べるために、都市名を電話機のダイ

ヤルや PDAで入力するより言うほうが簡単です。音声ユーザー・インタフェース

はまた、他の情報配信チャネルが使用不可能あるいは使用範囲外な場合の優秀な

バックアップ・チャネルとしても機能します。さらに、全世界で 13億台の電話が

あり、米国単独でも 1億 3000万台の携帯電話があるため、近くに電話がないとい

う状況は考えられません。音声ユーザー・インタフェースの一番のメリットの 1

つは、個人の音声には声紋という特性があり、これを指紋や署名と同様に使用し

て、機密情報へのアクセスを許可する前に発信者が認証できることです。

即座に使用できるアプリケーション

Oracle9iAS Wireless製品には、幅広い市販の音声ゲートウェイへの配信に適した

音声ユーザー・インタフェースに加えて、簡単に配置できる総合的なアプリケー

ション群が含まれています。これらのアプリケーションを使用することで、ビジ

ネス・ユーザーは最新の個人情報と企業情報にアクセスしてその情報を聞くこと

ができ、また一部のアプリケーションでは音声による情報の作成および変更も可

能です。オラクル社の音声対応アプリケーションとしては、電子メール、カレン

ダ、アドレス帳、タスク・リスト、ダイヤル操作、企業ディレクトリ、ファイル、

ファックスなどがあります。これらのアプリケーションの詳細は、Oracle Technical

NetworkのWebサイト(otn.oracle.com)で入手可能な『Mobile Applications Delivered

via the Voice Channel』のデータシートに記載されています。

オラクル社の音声対応アプリケーションと、これらのアプリケーションのベース

となるアプリケーション・モジュールでは、オラクル社の顧客の既存するサーバ

ー(POP3、IMAP4、LDAP)を利用します。社内での既存のコンテンツを音声対

応アプリケーションにより提供することで、顧客側で設置済の他のサーバー(デ

ータベース・サーバー、Webサーバー、ファイル・サーバーなど)も利用できま

す。

配置オプション

オラクル社の音声対応アプリケーションは、オープン標準準拠で統合が容易な 2

つの新しいコンポーネントの追加のみで顧客のデータ・センターに配置できます。

この 2つのコンポーネントとは、(1) Oracle9iAS Wirelessを実行するサーバー、お

よび (2) 音声ゲートウェイです。短期間での配置や設備投資の最小化を望む企業

にとって、これらのコンポーネントは世界中のホスティング施設で、および Oracle

Outsourcingを介して可能となります。

Oracle9iAS Wirelessには、顧客のデータ・センターや、全世界を対象としたOracle Data Centerなどのホスティング施設に配置できる音声対応アプリケーション群が含まれています。

Page 8: 待望の技術 オラクル社の 音声対応テクノロジotndnld.oracle.co.jp/products/iaswe/pdf/9iASW_Voice_twp.pdf · 以前、音声認識は精度が低く、音声対応アプリケーションの開発と配置が難しい

待望の技術 – オラクル社の音声対応テクノロジ

8

Oracle Corporation発行「Ready Today − Oracle's Voice-enabling Technology」の翻訳版です。

カスタム音声対応アプリケーション

企業は、Oracle9iAS Wireless音声プラットフォームと Oracle Mobile Studioを使用

して独自のカスタム音声対応アプリケーションの任意な設計、開発、統合および

配置ができます。オラクル社が開発した音声ユーザー・インタフェースに基づく

新しいインタフェースのモデリングにより、企業はオラクル社の優れたログイン

機能やプロンプト設計、文法設計、コール・フロー、パーソナライズ、チューニ

ングなどを利用できます。

Oracle9iAS Wirelessによる音声対応アプリケーションの開発

Oracle9iAS Wirelessがアプリケーションを電話経由で配信すると、アプリケーシ

ョンの XHTMLコードはターゲット音声ゲートウェイ用に調整された VoiceXML

に変換されます。XHTMLは VoiceXML仕様のタグと属性を完全にサポートする

ため、VoiceXMLで記述可能なあらゆるアプリケーションを XHTMLで記述でき

ます。

VoiceXML仕様では文法ファイル形式を指定しないため、Oracle Voice Laboratory

では、入力文法を定義するすべての Oracle XHTMLアプリケーションでの Oracle

文法サブセット(OGS)として、W3Cの音声認識文法仕様(SRGS)のサブセッ

トを選択します。

出力文法の定義に、音声対応アプリケーションの開発者は 3タイプの音声プレゼ

ンテーション品質を利用し、音声再生目的に応じたそれぞれのタイプが必要とな

ります。

テキスト音声合成(TTS)は、電子メール・メッセージなどのテキスト・ソー

スから合成によって生成されます。TTSベンダーは、録音された音声の音素

と呼ばれる小さな単位をシームレスに連結して語を形成する高度なソフトウ

ェアを開発しています。このソフトウェアでは、語彙集を使用して発音を判

断し、文法規則を適用して正しいイントネーションを追加します。アプリケ

ーション開発者は空白や大文字などのヒントをテキストに挿入し、TTSエン

ジンがテキスト原稿を正しく発音できるようにします。

連結音声は、人間の音声として事前に録音された語句を連結した文の形成に

使用される方法です。典型的なアプリケーションとしては、文の構造が一定

の天気予報や株価情報があります。

録音済音声は、プロの声優が原稿どおりにマイクに吹き込む音声です。この

例としては、ニュースのヘッドラインや映画の批評があります。音声対応ア

プリケーションのプロンプトは、ユーザーの操作性を高め、正しい音声レス

ポンスを引き出すために、注意深い脚本、監督および録音が行われています。

録音済音声は現在のところ、最も自然な音声を提供しますが、TTSもいつか人間

の音声と区別不可能になると考えられています。

開発においては、通常、XHTMLで記述された音声ユーザー・インタフェースは 3

レベルの成熟度を経て進化し、レベルが上がるごとにユーザーの操作性も高まり

ます。この 3つのレベルを次に示します。

オラクル社の顧客は、独自の音声対応アプリケーションのカスタマイズ、拡張および追加が簡単にできます。

Page 9: 待望の技術 オラクル社の 音声対応テクノロジotndnld.oracle.co.jp/products/iaswe/pdf/9iASW_Voice_twp.pdf · 以前、音声認識は精度が低く、音声対応アプリケーションの開発と配置が難しい

待望の技術 – オラクル社の音声対応テクノロジ

9

Oracle Corporation発行「Ready Today − Oracle's Voice-enabling Technology」の翻訳版です。

1. 簡単な Hello Worldプログラム。最初の試作 XHTMLプログラムは、5分ほど

で記述できます。このアプリケーションが音声ゲートウェイを介して電話で

配信されると、アプリケーション・プロンプトが合成音声で再生されます。

アプリケーション・プロンプトの例としては「何を利用しますか。電子メー

ル、カレンダ、アドレス帳の中から選択してください。」などがあります。

2. より高度な Hello World。正しいユーザー・レスポンスを引き出すためにプロ

ンプトを注意深く記述し、プロの声優を雇ってプロンプトを録音することで、

アプリケーションの音声がより魅力的で親しみやすいものになります。録音

されたプロンプトの挿入には、コードを多少変更する必要があります。

3. デバイスのタイプに基づく個別の UI。ユーザー・インタフェースの側面の多

くはテキスト・アプリケーションの配信と音声アプリケーションの配信で共

通ですが、最高品質の音声ユーザー・インタフェースの実現には、音声ダイ

アログ・コンポーネントを音声専用にする必要があります。たとえば、星占

いのメニュー・プロンプトを「星座を入力」というテキストから、「星座は

何ですか。選択できるのは、山羊座、・・・」といった会話的な内容に変更でき

ます。次のコード例は、デバイスのタイプが音声であると検出された場合、

ユーザー・インタフェースの音声配信用への調整方法を示しています。

<nl>

<label>

<span mxml:media="aural">

<object type="audio/wav" data="whatsign.wav">

Say your star sign.Your options are, Capricorn, …

</object>

</span>

</label>

<li href="capricorn.jsp">Capricorn</li>

<li href="virgo.jsp">Virgo</li>

...

</nl>

音声ユーザー・インタフェースの一般的な流れは、(1) ユーザーに何をしたいかを

言わせる。通常はメニューから選択させる。(2) ユーザーが話した応答を収集し、

音声認識を使用してどのメニュー項目が選択されたかを判断する。(3) ダイアログ

の適切な箇所に移動し、別のプロンプトを再生する、または要求された情報を提

示する。ユーザーは、この前後に移動するダイアログを通じてプロンプトの階層

を横断でき、自分が必要とする情報を迅速に検索できます。たとえば明日の次の

会議について聞く場合、ユーザーはメイン・メニューのプロンプトで「カレンダ」

と言い、カレンダ・プロンプトで「明日」と言い、予定プロンプトで「次」と言

うことができます。

Oracle9iAS Wirelessを介した音声テクノロジへのアクセス

何千もの発話者の何十万もの発話に基づき、不特定話者自動音声認識(ASR)の

ベンダーは、独特のアクセントや声を持つユーザーにも正確な音響モデルを作成

します。男性と女性の発話者、騒音の多い環境およびスピーカーフォンに対して

追加の音響モデルが作成される場合もあります。ただし、ASRの携帯電話の不安

定な接続上の発話を認識する精度は、人間ほど高くありません。

Page 10: 待望の技術 オラクル社の 音声対応テクノロジotndnld.oracle.co.jp/products/iaswe/pdf/9iASW_Voice_twp.pdf · 以前、音声認識は精度が低く、音声対応アプリケーションの開発と配置が難しい

待望の技術 – オラクル社の音声対応テクノロジ

10

Oracle Corporation発行「Ready Today − Oracle's Voice-enabling Technology」の翻訳版です。

かなり制限されたボキャブラリであれば、ASRはトレーニングなしに個々のユー

ザーの発話を認識できます。しかし、ボキャブラリまたは文法での語数が数百ま

たは数千に増えると、音声が類似した句の区別が困難になる(信頼度が低くなる)

ため、精度が低下します。

通常のセッション中はいつもよりやや大きな声で話せば、信号対雑音比が向上し

て認識が容易になり、発話者がゆっくり話すと認識が低下します。

一般に、音声ゲートウェイ・ベンダーは音声アプリケーション開発者が使用する

共通文法を提供しています。これらの組込み文法は、はい/いいえ、日時、通貨、

番号、電話番号および数を認識するよう最適化され、VoiceXMLおよび XHTML

での使用を目的として提供されます。

ASR TTS

Nuance社 27 12

IBM社 9 9

Scansoft社 30 19

Loquendo社 12 12

表 1: このホワイト・ペーパーの記述時点で ASR/TTSベンダーがサポートしている ASR言語と TTS言語(音響モデル)の数

ASRベンダーは音響モデルを多数の言語で作成します。表 1は、4社の ASR/TTS

(テキスト音声合成)ベンダーと、これらのベンダーがサポートしている ASR言

語および TTS言語の数を示しています。複数の言語をサポートするために、オラ

クル社は音声ゲートウェイ・ベンダーと密に協力しており、これらのベンダーは

さらに ASRベンダーと密接です。

ユーザーの操作性の向上における重要な要素は、ユーザーがプロンプトを聞いて

いる最中に中断、すなわちバージ・インできることです。ユーザーが話している

間、音声ゲートウェイは現在のプロンプトの再生を停止し、発話を聞き取って認

識機能に送信します。バージ・インは、ダイアログ内でプロンプトごとに有効ま

たは無効にできます。

デュアル・トーン・マルチ周波数(DTMFまたはタッチトーン)入力は、雑音の

多い飲食店などの音声認識が使用できない環境や、個人オフィスまたは図書館な

どの静かな環境において、重要なバックアップ手段となります。DTMFオプショ

ンは、ASRの未一致(何も認識されない)または未入力(何も聞かれない)イベ

ントが 1つ以上発生した場合に、連続的なプロンプトを使用して段階的に提示さ

れる設定が必要です。この状況におけるユーザーは番号の付いたリストからの選

択や、標準のタッチトーン・インタフェースのように文字を入力できます。

Page 11: 待望の技術 オラクル社の 音声対応テクノロジotndnld.oracle.co.jp/products/iaswe/pdf/9iASW_Voice_twp.pdf · 以前、音声認識は精度が低く、音声対応アプリケーションの開発と配置が難しい

待望の技術 – オラクル社の音声対応テクノロジ

11

Oracle Corporation発行「Ready Today − Oracle's Voice-enabling Technology」の翻訳版です。

操作性に優れた新しい音声対応アプリケーションの設計

新しい音声対応アプリケーションの開発で重要かつ非常に困難な手順は、操作性

の高い音声ユーザー・インタフェースの実現です。次の 3つの手順が重要です。

(1) ユーザー・インタフェースの必須機能と目標を列挙します。(2) 音声アプリケ

ーション専門の設計者の協力による音声対話の全体的なモデルの作成、ダイアロ

グのスタイルの決定、コール・フローの開発、およびプロンプトを記述します。

設計者は、ASRベンダーの専門サービスを通じて時間単位で雇うことができます。

(3) プロトタイプまたはWizard-of-Ozモックアップを作成し、ユーザー研究を行

い、設計を微調整します。ここで苦労しておくと、後で大きな効果が得られます。

一般に、音声対応アプリケーションでユーザーが行う最初の手順は、数値を使用

するログインです。この手順で、ユーザーは自分の 10桁の ID番号と 4桁の PIN

を話す、または入力が求められます。アプリケーションで機密情報や独自情報を

提供していない場合、開発者はユーザーの自動番号識別(ANI)を介してユーザ

ーの自動的な識別および承認を選択し、ログイン手順全体を省略できます。

Oracle9iAS Wirelessの開発者は、ダイヤル番号識別サービス(DNIS)で適切なア

プリケーションの起動により、単一音声ゲートウェイ上で複数の音声対応アプリ

ケーションをサポートできます。

録音済プロンプトの理解しやすいスクリプトの記述には「何を利用しますか。電

子メール、カレンダ、アドレス帳の中から選択してください。」のように、オプ

ションを最後に配置する必要があります。不慣れなユーザーはオプションを覚え

ておく提示が必要であり、使い慣れたユーザーはオプションを聞く前にプロンプ

トの中断ができます。オプションの中には「ヘルプ」、「メイン・メニュー」、

「キャンセル」、「さようなら」などの、プロンプトでほとんど話されなくても、

常に使用可能として求められるものがあります。音声コマンドの発行後、ユーザ

ーには音声コマンドが聞き取られたことを確認するフィードバックが返され、理

解された内容と、処理中であることが示されます。ここでは誤認識な場合、ユー

ザーは「キャンセル」と言うことができます。

音声コマンドとして使用する句の選択は重要です。Oracle9iAS Wirelessの開発者

には、有効な文法内の他の句と音が似ていない複数音節からなる句を音声コマン

ドとする選択をお薦めします。発音が一般的でなく ASRシステムの語彙集に含ま

れていない語は、アプリケーションの語彙集に追加が必要です。XHTMLの開発

では、適切なエラー処理を取り入れ、未一致 ASRイベントと未入力 ASRイベン

トの正しい配信が必要です。

大半の音声対応アプリケーションには、ユーザー・プロファイルのパーソナライ

ズが有効です。ユーザー設定項目の知識があると、開発者は音声コマンドに対す

る要件を最小限に抑える音声対応アプリケーションの作成ができます。たとえば

Oracleのログイン手順で、ログイン後に「3通の新着メッセージと 4件の本日の予

定があります」と提示できます。

人気の高いアプリケーションとしては音声ダイヤルがあり、このアプリケーショ

ンでは、アドレス帳の連絡先の名前を言う、または発信先の番号を言うことで電

話ができます。開発者はこのアプリケーションの拡張、あるいはコールのブリッ

ジングまたは転送を伴う他の発信アプリケーションを作成できます。人気の高い

別の機能としては、無音またはダイヤル・ボタンの押下げによって終了された音

Page 12: 待望の技術 オラクル社の 音声対応テクノロジotndnld.oracle.co.jp/products/iaswe/pdf/9iASW_Voice_twp.pdf · 以前、音声認識は精度が低く、音声対応アプリケーションの開発と配置が難しい

待望の技術 – オラクル社の音声対応テクノロジ

12

Oracle Corporation発行「Ready Today − Oracle's Voice-enabling Technology」の翻訳版です。

声メッセージを録音して電子メールで配信、または音声通知の内容として配信す

る機能があります。Oracle9iAS Wirelessを使用する開発者はこの機能を新しいア

プリケーションに適用し、新しいアプリケーションを既存のメイン・メニューに

リンクできます。

Oracle Mobile Studioを使用すると、開発者は、このような新しい XHTMLアプリ

ケーションをWebベースの環境でテストおよび配置できます。Oracle Mobile

Studioには、音声対応アプリケーションの開発に関する詳しいチュートリアルが

用意されています。この独自の開発環境で、企業はテスト・サイクルの簡略化お

よび開発期間の短縮から利益を得ることができます。Studioのインスタンスは

http://studio.oraclemobile.comから入手可能です。

音声対応アプリケーションの微調整

ASRエンジンの正確な結果を出す能力を高めるために、多数の ASRパラメータを

調整でき、またこのパラメータの定期的な調整が必要です。エンド・ポイントと

は、音声認識の聞取り時間枠を表すパラメータです。エンド・ポイント・パラメ

ータの例としては、予測される発話の長さや、対話の両端で予測される無音の長

さなどがあります。これらのパラメータを適切に調整すると、音声認識機能の話

された音声コマンドへの高い判断力が得られます。実際のアプリケーションにお

ける発話の録音および分析により、開発者は聞取り時間枠を調整できます。

次の手順により音声認識の精度を測定し、段階的に向上できます。

1. 数百の発話者から数万の録音済の発話を収集し、話された語を記録しま

す。発話の収集には、音声ゲートウェイへのシステム・レベルのアクセ

スが必要なことに注意してください。

2. それぞれの発話に対し、実際に話されたコマンドと ASRエンジンが認識

したコマンドを比較します。見逃し(false negative)と誤検出(false

positive)の率を計算し、問題のパターンを調べます。

3. 信頼度のしきい値や信号対雑音比のしきい値などの ASRパラメータを調

整します。また、問題のある音声コマンドを、認識しやすい句に変更す

ることを検討します。

4. 録音済(および記録済)の発話を、新しい ASRパラメータによりバッチ・

モードで音声認識機能に認識させます。

5. 手順 2以降を繰り返します。

全体的な認識は、句に予想される使用方法に応じた文法内での句に確率を割り当

てることでも向上します。たとえば、Ford社の株価が York社の株価よりはるかに

頻繁に要求される場合、Ford社の確率を高めることができます。ただしこの場合、

York社の認識が困難なことがあります。

VoiceXMLゲートウェイ

オラクル社の音声対応アプリケーションは、複数のベンダーの音声ゲートウェイ

上で実行可能であり、オラクル社のゲートウェイ承認プロセスにより、アプリケ

ーションの正しい実行が保証されます。

Page 13: 待望の技術 オラクル社の 音声対応テクノロジotndnld.oracle.co.jp/products/iaswe/pdf/9iASW_Voice_twp.pdf · 以前、音声認識は精度が低く、音声対応アプリケーションの開発と配置が難しい

待望の技術 – オラクル社の音声対応テクノロジ

13

Oracle Corporation発行「Ready Today − Oracle's Voice-enabling Technology」の翻訳版です。

VoiceXMLゲートウェイのコンポーネント

すべての音声ゲートウェイには、購入時、次に示す多数の共通コンポーネントが

含まれています。(1) VoiceXMLインタプリタ。Webサーバーから受信した

VoiceXMLストリームを解析し、このストリームを使用して発信者との対話を実

行します。VoiceXMLインタプリタには、音声ファイルを再生し、発信者の発話

を録音する機能もあります。図 2に、高レベルの音声ゲートウェイ・アーキテク

チャを示します。(2) 1つ以上の言語での発話に対する自動音声認識(ASR)ソフ

トウェアおよび音響モデル。音声ゲートウェイ・ベンダーは、多数の ASRベンダ

ーから選択できます。(3) 1つ以上の言語での発話に対するテキスト音声合成(TTS

または合成音声)ソフトウェアとおよび TTSライブラリ。音声ゲートウェイ・ベ

ンダーは、多数の TTSベンダーから選択できます。(4) テレフォニー・インタフ

ェース(Dialogic、NMS、Audiocodes、Ciscoなど)。このインタフェースは、通

信会社の本社にあるスイッチと VoiceXMLインタプリタ間の通信ブリッジになり

ます。

図 3: 音声ゲートウェイのコンポーネントとしては、VoiceXMLインタプリタ、テレフォニ

ー・インタフェース、ASRサーバーおよび TTSサーバーの少なくとも 4つがあります。これらのコンポーネントが協調動作をして音声/DTMFトーン認識、録音、音声再生、発信などのユーザーとの相互対話をサポートします。

VoiceXMLゲートウェイ: オラクル社承認

Oracle製品の顧客と開発者が音声ゲートウェイの複数の実装間の違いに悩まない

ように、オラクル社では音声ゲートウェイ承認プロセスを作成しました。このプ

ロセスと、オラクル社承認音声ゲートウェイのリストは、OTNの次のWebサイト

に記載されています。

http://otn.oracle.com/tech/wireless/integration/

Oracle9iAS Wireless音声プラットフォームを使用すると、XHTMLアプリケーショ

ンを任意のオラクル社承認音声ゲートウェイ上で無変更で可能です。この結果、

企業の開発投資をテクノロジの推移から保護できます。

Oracle製品の顧客と開発者は、XHTMLアプリケーションがオラクル社承認音声ゲ

ートウェイでの正しい実行を確信できます。2003年末までには、10以上の音声ゲ

ートウェイがオラクル社承認になる予定です。

VoiceXMLゲートウェイ: 選択基準

オラクル社の音声対応アプリケーションを実行する音声ゲートウェイの選択には、

多数の要素を考慮する必要があります。この基準としては、(1) 音声ゲートウェイ

Page 14: 待望の技術 オラクル社の 音声対応テクノロジotndnld.oracle.co.jp/products/iaswe/pdf/9iASW_Voice_twp.pdf · 以前、音声認識は精度が低く、音声対応アプリケーションの開発と配置が難しい

待望の技術 – オラクル社の音声対応テクノロジ

14

Oracle Corporation発行「Ready Today − Oracle's Voice-enabling Technology」の翻訳版です。

がオラクル社の承認テストに合格しているか、(2) 必要なポート数、(3) 必要な言

語数、(4) ゲートウェイのスケーラビリティ、などです。

必要なポート数は、わずかなパラメータとアーラン計算機で計算できます。入力

パラメータは、発信者の数、平均的なコールの長さ、1日あたり/ユーザーあたり

のコール数、1日あたりのコール着信時間です。一般に、1つのポートで 50~500

名のユーザーをサポートします。

音声ゲートウェイ・ベンダー各社は 1つ以上のASR/TTSパッケージをサポートし、

各パッケージが 1つ以上の言語をサポートしています。特定の ASRまたは TTS

ベンダーを選択すると、音声ゲートウェイ・ベンダーの選択の幅が狭くなります。

また、特定の言語セットが必要な場合は、選択の幅がさらに狭くなります。

スケーラブルな音声ゲートウェイには、最も負荷の低いコンポーネントにコール

をルーティングするシステム(ロード・バランシング)、機能を停止しているコ

ンポーネントを回避してコールをルーティングするシステム(フォルト・トレラ

ンス)、および数千の同時通話に対処可能なリソース管理システムが必要です。

音声ゲートウェイには、音声通話を IPパケットに変換し、VoIPを内部で利用す

るものがあります。このゲートウェイの適切な実装により、音声ゲートウェイの

柔軟性とスケーラビリティが向上します。

オラクル社と他社の違い

オラクル社の機能豊富な音声プラットフォームは、他社のプラットフォームには

ない多数の機能を提供します。

• カスタマイズと配置が可能な音声対応アプリケーションとともに CDで

出荷される唯一の音声プラットフォームです。

• 100% VoiceXML準拠であり、したがって音声テクノロジに中立な唯一の

音声対応アプリケーションです。

• 市販の複数の音声ゲートウェイ間で移植可能な単一 XMLアプリケーシ

ョンの開発を可能にする唯一の音声プラットフォームです。この移植性

により、Oracle製品の顧客と開発者は ASR、TTSおよびゲートウェイ・

テクノロジの簡単な切換えができます。

Oracle Voice Laboratoryのスタッフが開発した画期的なプラットフォーム機能によ

り、Oracle製品の顧客と開発者に非常に優れた製品と戦略的テクノロジがもたら

されます。

結論

情報への音声アクセスを通じて組織が大幅に節約できるために、Oracle9iAS

Wirelessは音声対応アプリケーションの作成と配置を目的とした強力なプラット

フォームを提供します。このプラットフォームの J2EEマルチチャネル・サーバー

により、単一の XMLアプリケーションをすべてのオラクル社承認音声ゲートウェ

イに配信できます。オラクル社の XHTML開発言語により、オラクル社の顧客は

テクノロジの推移から保護されます。

Page 15: 待望の技術 オラクル社の 音声対応テクノロジotndnld.oracle.co.jp/products/iaswe/pdf/9iASW_Voice_twp.pdf · 以前、音声認識は精度が低く、音声対応アプリケーションの開発と配置が難しい

待望の技術 – オラクル社の音声対応テクノロジ

15

Oracle Corporation発行「Ready Today − Oracle's Voice-enabling Technology」の翻訳版です。

電話はどこにでもあるため、音声ユーザー・インタフェースは通常、デスクを離

れている間に情報にアクセスできる最も安全かつ効果的なチャネルとなります。

Oracle9iAS Wirelessには、即座に配置できる、またはデータ・センターでホステ

ィングできる音声アプリケーション群が含まれています。これらの PIMアプリケ

ーションおよび企業情報アプリケーションは、IMAP、POP、LDAPなどのパブリ

ックAPIにアクセスし、企業の既存のHTTPインフラストラクチャを利用します。

組織では、Oracle9iAS Wirelessの即座に使用できるアプリケーションをカスタマ

イズでき、独自のカスタム音声対応アプリケーションでアプリケーション群をシ

ームレスに拡張できます。オラクル社が開発した音声ユーザー・インタフェース

に基づく新しいインタフェースをモデリングして、企業はオラクル社の優れたロ

グイン機能やプロンプト設計、文法設計、コール・フロー、パーソナライズ、チ

ューニングなどが利用できます。

Oracle製品を選択すれば、業界トップの信頼性、スケーラビリティ、アプリケー

ションの移植性など、追加の利益になります。総合的かつ統合型の Oracle9iAS

Wirelessは、音声対応アプリケーション用の最もコスト効果の高いプラットフォ

ームであり、アプリケーションに対する投資を保護し、既存のアプリケーション

やサード・パーティ製アプリケーションと簡単に統合できます。

一番重要なことは、音声対応アプリケーションを配置することで、Oracle製品を

使用する企業がコストの削減と ROIの向上を実現でき、Oracle製品を運用する企

業に新しい収益源がもたらされることです。

Page 16: 待望の技術 オラクル社の 音声対応テクノロジotndnld.oracle.co.jp/products/iaswe/pdf/9iASW_Voice_twp.pdf · 以前、音声認識は精度が低く、音声対応アプリケーションの開発と配置が難しい

待望の技術 – オラクル社の音声対応テクノロジ 2003年 6月 著書: T. Todd Elvins Oracle Corporation World Headquarters 500 Oracle Parkway Redwood Shores, CA 94065 U.S.A. 海外からのお問合せ窓口: 電話: +1.650.506.7000 ファックス: +1.650.506.7200 www.oracle.com この文書はあくまでも参考資料であり、掲載されている情報は予告なしに変更されることがあります。 万一、誤植などにお気づきの場合は、オラクル社までお知らせください。オラクル社は本書の内容に関していかなる保証もしません。また、本書の内容に関連したいかなる損害についても責任を負いかねます。 Oracleはオラクル社の登録商標です。 このガイドで使用されているさまざまな製品名およびサービス名には、オラクル社の商標が含まれています。 その他のすべての製品名およびサービス名は、各社の商標です。 Copyright © 2003 Oracle Corporation All rights reserved.