pictlet #2 音声認識ロボット
TRANSCRIPT
Pictlet #2
音声認識ロボット
アイデアクラフト 開米瑞浩
✓ 本書は音声認識ロボットに関する図解表現方法を分析・例示したピクトレットです。✓ 本書の著作権は開米瑞浩が保持しますが、図版の引用にあたって著作権表記をしていただく必
要はありません。本書の図版は自由に引用/改変使用可能です。✓ 本書の内容についての技術的正確性は保証しません。✓ 本書についての誤りの指摘や改善提案、別案の提供は末尾記載の連絡先までお願いします。
Copyright アイデアクラフト 2017
箇条書きテキスト
1
今回のテキストはこれ。実は通常の文章として書いたものを一文ごとに切っただけのもの。
➢ S社が開発した家庭用ロボットフォン(人間と対話する機能を持ったロボット型ス
マートフォン)はローカルとクラウドの2つの音声認識エンジンを持っている。
➢ ローカル認識エンジンの辞書は使用頻度の高い語彙を収録しており、通信オーバー
ヘッドもないため使用者が使う日常表現を高精度に認識できる。
➢ 一方、クラウド認識エンジンは豊富な語彙を収録した辞書と高性能CPUにより新
語・専門用語なども認識可能。
➢ 使用者が声をかけると、ロボットフォンは常に両方のエンジンを使って認識処理を
行い、どちらの結果がより適切かを判定して片方を採用した上で、さらにロボット
フォンへの命令として解析するモジュールへ処理を引き継ぐ仕組みである。
(出典:本事例用に開米が執筆したもの)
Copyright アイデアクラフト 2017
大まかにフロー図だな、と見当をつける
2
細かいことは脇に置いて、ざっくり見当をつけることが大事
これはフロー図になりそうだな
その「ざっくり見当」をつけられないという場合、知識と場数のどちらかが不足しています
Copyright アイデアクラフト 2017
パターン 1
3
今回のテキストを図解した例です
ローカル認識エンジン
辞書
アクセプター
音声
認識結果
認識結果(確定)
計算資源
コマンドアナライザー
クラウド認識エンジン
辞書
計算資源
豊富な語彙数を収録
高性能CPUを使用可能
使用頻度の高い語彙を収録
通信オーバーヘッドがない
認識結果 新語・専門用語なども認識可能
使用者がよく使う日常表現を
高精度に認識
どちらの結果を採用するかを判定する
入力音声は常に両方のエンジンで解析される
それをロボットフォンへの命令として解析する
Copyright アイデアクラフト 2017
図解するとたいてい「穴」ができる
4
「フローになる」と「途中で2系統に分かれる」の2つがわかるとこれに近い図は書けますが、いざ書き出すとあちこち「穴」ができるのが普通です
ローカル認識エンジン
辞書
音声
認識結果
クラウド認識エンジン
辞書 豊富な語彙数を収録
高性能CPUを使用可能
使用頻度の高い語彙を収録
通信オーバーヘッドがない
認識結果 新語・専門用語なども認識可能
使用者がよく使う日常表現を
高精度に認識
どちらの結果を採用するかを判定する
入力音声は常に両方のエンジンで解析される
それをロボットフォンへの命令として解析する
「穴」とは、原文に記載が無く、図を書いてみると空白になる部分
Copyright アイデアクラフト 2017
「穴」の部分を補ってみる
5
パターン1では「穴」の部分に「アクセプター」「コマンドアナライザー」など適当な名前をつけて補いましたが、この方法が使える場面は多くはありません(勝手に名前をつけられないことが多いため)。
ローカル認識エンジン
辞書
アクセプター
音声
認識結果
認識結果(確定)
計算資源
コマンドアナライザー
クラウド認識エンジン
辞書
計算資源
豊富な語彙数を収録
高性能CPUを使用可能
使用頻度の高い語彙を収録
通信オーバーヘッドがない
認識結果 新語・専門用語なども認識可能
使用者がよく使う日常表現を
高精度に認識
どちらの結果を採用するかを判定する
入力音声は常に両方のエンジンで解析される
それをロボットフォンへの命令として解析する
Copyright アイデアクラフト 2017
でも名前をつける努力はしましょう
6
勝手に名前をつけられない場合が多いですが、でも名前をつけてみるのは非常に大事なので、「穴」を見つけたらぜひやってみてください。適切な名前をつけるためにはその部分の意味あいを理解している必要があるため非常に難しく、その分、理解を深めるよいきっかけになるからです。
ローカル認識エンジン
辞書
アクセプター
音声
認識結果
認識結果(確定)
計算資源
コマンドアナライザー
クラウド認識エンジン
辞書
計算資源
豊富な語彙数を収録
高性能CPUを使用可能
使用頻度の高い語彙を収録
通信オーバーヘッドがない
認識結果 新語・専門用語なども認識可能
使用者がよく使う日常表現を
高精度に認識
どちらの結果を採用するかを判定する
入力音声は常に両方のエンジンで解析される
それをロボットフォンへの命令として解析する
Copyright アイデアクラフト 2017
パターン 2
7
名前をつけられない場合は適宜調整します
ローカル認識エンジン
使用頻度の高い語彙を収録
どちらの結果を採用するかを判定
音声
認識結果
認識結果(確定)
通信オーバーヘッドなし
ロボットフォンへの命令として解析
クラウド認識エンジン
豊富な語彙数を収録
高性能CPUを使用可能
認識結果 新語・専門用語なども認識可能
使用者がよく使う日常表現を
高精度に認識
入力音声は常に両方のエンジンで解析される
Copyright アイデアクラフト 2017
「フロー&コメント」が望ましいが……
8
どちらの結果を採用するかを判定
認識結果(確定)
ロボットフォンへの命令として解析
アクセプター
認識結果(確定)
コマンドアナライザー
どちらの結果を採用するかを判定する
それをロボットフォンへの命令として解析する
フロー&コメント型
単純フロー型
フロー コメント
「フロー&コメント」型は「処理の流れ」を書く場合の基本形
しかし、この形で書くためには「フロー」部分に名前が必要になるなど、難易度が高い
難しい場合は、コメントをフローの中に埋めてしまう単純フロー型でもやむを得ないでしょう
Copyright アイデアクラフト 2017
お問合せおよびご感想受付
本書への質問、感想を歓迎します。下記お問い合わせ先へお送りください。
お問い合わせ先 : http://ideacraft.jp/contactnotice/
IT技術者として働くうちに、複雑な情報をわかりやすく表現する必要性を感じ、その技術を研究。その経験を活かし、 2003年に社会人研修業務を起業。情報を論理的に整理し図解して「見える化」する技術と習慣の啓蒙・普及に取り組んでいる。
担当プログラム□エンジニアの文章図解・情報整理術□エンジニアのプレゼンテーション講座□難解な文書の持ち込み改善ワークショップ
公開講座・講演等実績中部産業連盟 日本テクノセンター SMBCコンサルティング日経BP社 その他、電機メーカー/航空サービス/光学機器メーカー等
著書等2017年 3月 日経SYSTEMS誌3月号 ロジカルシンキング特集2016年12月 (書籍)エンジニアを説明上手にする本 翔泳社2014年 6月 (書籍)エンジニアのための伝わる書き方講座 技術評論社2010年10月 (書籍)エンジニアのための図解思考再入門講座 翔泳社
著者プロフィール 開米 瑞浩
9