音声認識研究内容紹介 - tfsoftec.co.jpŸ³声認識内容紹介.pdf · ionic + angularjs +...

12
1 音声認識研究内容紹介

Upload: vannga

Post on 29-Aug-2019

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 音声認識研究内容紹介 - tfsoftec.co.jpŸ³声認識内容紹介.pdf · Ionic + angularjs + html5 録 操作コマンド発送 音 生 成 取得 認識結果音声特徴

1

音 声 認 識 研 究 内 容 紹 介

Page 2: 音声認識研究内容紹介 - tfsoftec.co.jpŸ³声認識内容紹介.pdf · Ionic + angularjs + html5 録 操作コマンド発送 音 生 成 取得 認識結果音声特徴

目次

●音声認識の全体構成図

●属性説明

●IBM Watsonとの比較

●DEMO構成

2

Page 3: 音声認識研究内容紹介 - tfsoftec.co.jpŸ³声認識内容紹介.pdf · Ionic + angularjs + html5 録 操作コマンド発送 音 生 成 取得 認識結果音声特徴

音声認識の全体構成図

3

音声コーパス 音声データ

WIKI テキストデータ

Web テキストデータ

特徴抽出 Modeling/

Classification 検索

音響モデル 言語モデル 単語辞書

音声

テキスト

92.64%

認識率

Page 4: 音声認識研究内容紹介 - tfsoftec.co.jpŸ³声認識内容紹介.pdf · Ionic + angularjs + html5 録 操作コマンド発送 音 生 成 取得 認識結果音声特徴

属性説明

音響モデル 音声ドメイン DeepLearning技術 モデルサイズ

AM 講演 ○ 76 MB

言語モデル 学習用データ

辞書 LMサイズ(MB) データ名 ドメイン

LM WEB 07 -

vocab 457 WIKI 百科事典

辞書 単語の数 選定基準

vocab 89556 WIKIに出現頻度が高い順(総数約9万まで)

4

デコーディング サイズ(GB) スピード

decode 4.3 0.41

Page 5: 音声認識研究内容紹介 - tfsoftec.co.jpŸ³声認識内容紹介.pdf · Ionic + angularjs + html5 録 操作コマンド発送 音 生 成 取得 認識結果音声特徴

IBMワトソン(Speech to Text)との比較

IBM Watson(Speech to Text) 自主研究開発

開発元 IBM 長期蓄積 清華同方研究新規開発

プラットホーム IBM専用、非公開 Kaldi オープンソース

日本語音声認識 89.67% ※1 ※2 92.64% ※3

AMモデル訓練用データ資源量 数万時間 数百時間(研究中心に)

訓練環境と時間 高性能のマシン数百~数千台で数日 Tesla GPU 1枚のマシン1台で 3週間

Knowledge Transfer技法 なし 中国語の音声認識ニューラルネットよりKT ※4

5

※1 IBMの公開したサービスAPIでWEBアプリをバッチ処理で音声ファイルwavをIBMサーバにアップして識別した結果 ※2 IBM公式発表による音声認識率は93.1%、なおMSは94.1%(2016年9月)いずれもテスト集は音声評価用基準SWBベース ※3 IBM Watsonサービスで、テスト対象はアプリPCM録音で録音したファイル ※4 KT(Knowledge Transfer) は中国で特許提出済、現在は中国特許庁で審査中

Page 6: 音声認識研究内容紹介 - tfsoftec.co.jpŸ³声認識内容紹介.pdf · Ionic + angularjs + html5 録 操作コマンド発送 音 生 成 取得 認識結果音声特徴

IBM Watson(Speech to Text) 自主研究開発

LMモデル訓練用データ資源量 不詳(無制限) 20GB(自主採取、カスタマイズ可) 訓練にngram

言語辞書 不明 Unidic (Mecab)+ドメイン単語

音声クラウドサービス運用 IBMクラウドにアップロード お客様の自由

騒音対応 あり あり(kaldiべースとKTによる)

サービス(I/F) サービス公開 ※5

Watson Developer Cloud SDK公開 WebService (Socket/NodeJS) 非公開、受注開放可

※5 このサービスの有効期限内や音声量の制限値以内は無料、一定の音声認識量や試用時間を超えると有料

6

IBMワトソン(Speech to Text)との比較

Page 7: 音声認識研究内容紹介 - tfsoftec.co.jpŸ³声認識内容紹介.pdf · Ionic + angularjs + html5 録 操作コマンド発送 音 生 成 取得 認識結果音声特徴

IBMワトソンとの音声認識実例の比較1

●音声ラベリング

ECO_0150 音楽コンサートや舞台など演者と観客が同じ空間で生の体験を

共有できるライブエンターテイメントが日本で今活況を呈している

今後今想定や舞台など演者と観客が同じ空間で生の体験を

共有できるライブエンターテイメントが日本で今活況を呈している

音楽コンサートや舞台など演者と観客が同じ空間で生の体験を

共有できるライブエンターテイメントが日本で今活況を呈している

●音声認識結果

7

IBM-Watson

現在の研究結果

Page 8: 音声認識研究内容紹介 - tfsoftec.co.jpŸ³声認識内容紹介.pdf · Ionic + angularjs + html5 録 操作コマンド発送 音 生 成 取得 認識結果音声特徴

IBMワトソンとの音声認識実例の比較2

総務省が都市部の若者が長期休暇を利用して地方で働くふるさと

ワーキングホリデー制度を二千十七年にスタートするとマスコミ各社が報道

IBM-Watson フォーム性が都市部の若者が長期休暇を利用して地方で働くふるさと

ワーキングホリデー制度を二千十七年にスタートするとマスコミ各社が報道

現在の研究結果 法務省が都市部の若者が長期休暇を利用して地方で働くふるさと

ワーキングホリデー制度を二千十七年にスタートするとマスコミ各社が報道

8

●音声認識結果

●音声ラベリング

ECO_0159

Page 9: 音声認識研究内容紹介 - tfsoftec.co.jpŸ³声認識内容紹介.pdf · Ionic + angularjs + html5 録 操作コマンド発送 音 生 成 取得 認識結果音声特徴

DEMO構成図

9

クライアント サービス

操作結果表示 音声サービス (Nodejs)

PHP File Upload wav格納 結果格納

音声認識

Kaldi

自然言語処理

Cabocha

翻訳

Tensorflow

Script&Service

WEB IoT 動作

html5 + js + css3

App操作

Ionic + angularjs + html5

操作コマンド発送 録音生成

認識結果 音声特徴取得

認識結果参照

認識結果参照

英語翻訳結果出力

IoT連動パラメータ結果出力

Page 10: 音声認識研究内容紹介 - tfsoftec.co.jpŸ³声認識内容紹介.pdf · Ionic + angularjs + html5 録 操作コマンド発送 音 生 成 取得 認識結果音声特徴

DEMO1 |識別実例

10

Page 11: 音声認識研究内容紹介 - tfsoftec.co.jpŸ³声認識内容紹介.pdf · Ionic + angularjs + html5 録 操作コマンド発送 音 生 成 取得 認識結果音声特徴

Appダウンロード手順

11

1.お客様自身でiPhoneのUDIDを取得しておきます

2.メールで取得したUDIDを弊社担当 [email protected] に送信します

弊社にて音声認識サーバーにAppleデバイスへお客様のUDIDを認証します

3. 弊社からお客様へパスワードをお送りして、

お客様がURL(https://www.pgyer.com/fWlg)より App(s.t.t)をインストールします

Page 12: 音声認識研究内容紹介 - tfsoftec.co.jpŸ³声認識内容紹介.pdf · Ionic + angularjs + html5 録 操作コマンド発送 音 生 成 取得 認識結果音声特徴

12

ご清聴ありがとうございました