音でものを見る - ml.seikei.ac.jp · 遠隔認識が必要...
TRANSCRIPT
BME�特別講座�
�視覚に障害のある人に対し、音声により情報を提示する方法について考える。�
音でものを見る
視覚障害者の事故
�全日本視覚障害者協議会などによると、視覚障害者が駅ホームから転落する事故は全国で相次いでおり、重傷以上のけがを負った事故は1994年以降、35件発生。 2008年10月24日、午前9時55分頃 大阪市平野区、市営地下鉄谷町線、喜連瓜破(きれうりわり)駅 70歳ぐらいの女性がホームから線路脇に転落。電車とは接触せずにすんだものの、頭の骨を折る重傷。(2008/10/24�読売新聞)�
なぜ事故は起きるのか
例 被害者は目標物に沿って歩いているが、事務室を通り過ぎた後に方向をわずかに間違ってしまった。この後 1,目標物がないため修正できない。 2,点字ブロックを見つけそこなった。 �ため、プラットホームの端を通り過ぎてしまった。�
なぜ事故は起きるのか
例 被害者は目標物に沿って歩いているが、事務室を通り過ぎた後に方向をわずかに間違ってしまった。この後 1,目標物がないため修正できない。 2,点字ブロックを見つけそこなった。 �ため、プラットホームの端を通り過ぎてしまった。�
視覚補助
白杖:最も多く使われている。 確実に障害を見つけられる。 近くのものしか分からない。�
盲導犬:あらゆる危険を察知できる。理想的な補助者。 訓練に時間がかかるため、数が少ない。�
遠隔認識が必要 �白杖は非常に信頼できる認識手段だが、近くのものしか見つけることはできない。 �日常生活で我々は遠くの目標物を見て、方向や位置を知る。 �遠隔的な認識ができないと、位置と方向が分からないため、非常に危険な自体に陥ることがある。 �例えばスクランブル交差点の横断歩道の途中で目をつむり、スイカ割りの時のようにぐるぐると回されたらどうなるだろうか?�
Sonic Pathfinder
対象物超音波
反射
うなり音
うなり音
超音波メガネ
vOICe
周波数
時間
2次元音提示装置
自然な認識が分かりやすい
右56度、上方30度 距離3.4mから鳥の 声が聞こえます。�
情報が正確でも、感覚としては理解できなかったり、対応しきれない。�
日常で自然に対応しているのと同じやり方で対処できる。�
コウモリ
超音波
イルカ
音波
動物のエコーロケーション
�人のローカライゼーション(音源探知)能力とエコーロケーション(反射音探知)能力はどこまで高められるか。 �修行を積めば本当に回りのすべてを把握できるようになるのか?�
音でどこまで認識できるか
壁�
穴、くぼみ �
イメージを表示できません。メモリ不足のためにイメージを開くことができないか、イメージが破損している可能性があります。コンピューターを再起動して再度ファイルを開いてください。それでも赤い x が表示される場合は、イメージを削除して挿入してください。
イメージ
交通信号�
自動車�
視覚による情報認識
速度�
音による情報認識に代える
壁�
穴、くぼみ �
イメージを表示できません。メモリ不足のためにイメージを開くことができないか、イメージが破損している可能性があります。コンピューターを再起動して再度ファイルを開いてください。それでも赤い x が表示される場合は、イメージを削除して挿入してください。
イメージ
交通信号�
自動車�
音�速い�
赤信号�近い�
段差�
コンピュータ処理 イメージを表示できません。メモリ不足のためにイメージを開くことができないか、イメージが破損している可能性があります。コンピューターを再起動して再度ファイルを開いてください。それでも赤い x が表示される場合は、イメージを削除して挿入してください。
視覚情報�
音声�付加情報�
へこみ�
速度�
視覚情報から音声情報への変換
実際の音情報�
合成音と実際の物体の齟齬
どちらが本当だろうか??? 間違うと非常に危険!!!�
合成音の情報�
正しく音源定位できる合成音
�安全で実用的な、音声による情報提示装置を作るためには、ヘッドホンで提示しても音源定位できるような、位置情報を持った音を合成する必要がある。 �では、音の位置情報はどのように与えられているのだろうか?�
y
x
d d
音源�
r l r r
rr = x 2 + y + d( )2 tr =rrc
rl = x2 + y −d( )2 tl =rlc
音源からの距離 到達時間
Pr =A
4πrr2 sin(2πf t − t r( ))
Pl =A4πrl
2 sin(2πf t − t l( ))左右の合成音の振幅
A:音源の振幅、 c:音速、 f:周波数
左右の識別、ILD、 ITD
ILD, Interaural Level Difference ITD, Interaural Time Difference �
32.6度38.2度
0%0%
角度誤差
(平均)
左右の誤り
率
6kHz440Hz周波数
左右の判断と角度の誤り
�高周波、低周波で左右の誤りはほとんど起こらず、30度程度の精度で音源位置が識別できる。�
イメージを表示できません。メモリ不足のためにイメージを開くことができないか、イメージが破損している可能性があります。コンピューターを再起動して再度ファイルを開いてください。それでも赤い x が表示される場合は、イメージを削除して挿入してください。
r
h 遅れた�反響音�k r P 0
直接音P 0
kr: 反射率
g(t):矩形インパルス波形
Δt =r2 + 4h2
c遅れ時間
P t( ) = P0 t( ) + kP0 t −Δt( )= g t( )sin(2π ft)+ krg t −Δt( )sin(2πf t − Δt( ))
反響を含む合成音
p0( t) = g t( )sin(2π ft)元波形
反響による距離の認識、Echo
0 1 2 3 4 5 [m] 合成音の設定距離�
頭内�<10cm <30cm <1m <3m 3m以上�
感じ
られ
た距
離�
75-100% 50-75% 25-50% 0-25%
設定距離と感じられた距離
イメージを表示できません。メ
イメージ
仮想的音源�
実際の音源�
�両耳の穴だけを前提とした音源定位の限界。 �両耳で聞こえる音の差と反響だけでは、両耳を結ぶ軸を中心とした円周上の任意の点が音源となり得る。�
両耳による認識の限界
音像
スピーカーの配置が距離や前後情報を与える。
スピーカーによる音像定位
両耳の間にあるような気がする。�
ヘッドホンによる音像定位
Binaural録音による立体音
SONY VPT解説 www.sony.co.jp/Products/ vpt/tech/index.html
ヒトと同じ周波数特性を持つ録音装置を用いることで、ヘッドフォンでも方向を感じることができる。�
前方からの音は周波数に関わりなく全て届く。�
後方からの音は、低周波音は回折して到達し、高周波音は反射されて届かない。�
耳介�
低周波音�
高周波音�
低周波音�
高周波音�
回折�
反射�
耳介による周波数特性の違い
低周波音の比率を上げると、
後方低周波音の比率� X2� X5� X10�
前後誤り率� 51.1% 44.9% 33.2%
低周波の比率を変えると前後の位置間隔が得られる。しかし、正確さは不十分。�
y()
x()
Fig. HRTF の方向による違い
102
103
104
0 45
90135
180225
270315
3600
10
20
30
40
50
60
70
80
周波数[Hz]角度[度]
頭部音響伝達関数のスペクトルの大きさ
y(w) = h(x x():Sound pressure at source y(Sound pressure at the ear h(HRTF
Fig. 各方向のHRTF
High freq.
Low freq.
頭部音響伝達関数(HRTF) Head Related Transfer Function
水平面内のHRTF
Interference �
Incident angle �
Microphone Amplifier
High Speed Amplifier
Oscillator Oscilloscope
1m
PC
Inner Ear Microphone
Square Wave
Sound Data
Square Wave
Averaged Single Cycle Wave form
Differentiate
Recorded Response
Fourier Transform
原音� Convolution 立体音�Y (t) = G(t − τ )∫ X(τ )dτ Y(t) X(t)
計算によるHRTFの重畳
Source Movement
Front-Back Confusion [%]
Subject A B Stationary 25 12.5
30 deg. 50 0 90 deg. 12.5 0
360 deg. 50 12.5
前後錯誤率
音源の位置、移動
Y (t) = G(t − τ )∫ X(τ )dτ
G(t) : Implse Responce
HRTF による前後判断
Source Movement
Angular Error [deg.]
Subjects A B Stationary 11.3 22.5
30 deg. 8.6 18.3 90 deg. 5.6 20.5 360 deg. 22.5 5.1 Average 12 16.6
Table2 HRTFを重畳した音での角度誤差
12 16.6
ca. 15 deg.
HRTFを加えた音での方向精度
HRTFの個人特性
Subjects HRTF A B C D E
A 62.5 31.9 33.3 40.3 36.1
B 51.4 23.6 36.1 40.3 26.4
C 36.1 30.6 18.0 25.0 23.6
F 40.3 38.9 33.3 45.8 45.8
Table3 F-B confusion rates for different HRTF.
HRTF of oneself
HRTF with best results
HRTFの違い
a) HRTF of subject C b) HRTF of subject A
Frequency [Hz]
1Cyc
le
Ang
le [d
eg.]
Frequency [Hz]
1Cyc
le
Ang
le [d
eg.]
Fig. 被験者C と AのHRTFの違い。色は相対的な強度を示す。Cは音源の認識率が高い。
周波数帯域の削除による認識率の違い
Fig.9 Deleted frequency areas and confusion rate
Control �
ヒトは音の前後をどのように認識するのか?
ヒトは現実に、目をつぶっていても音の位置をかなり正確に判断できる。(できない場合もある。) できる例 ・人の声 ・時計のチクタク できない例 ・救急車のサイレン ・蝉の声�
音の種類によっても判別の精度は変わってくる。 周波数成分、トランジェントによって、総合的な判断がされているのか?�
音源の種類の違い
Human voice
yes ( short female voice ) no ( slow female vice ) no ( acute male child voice ) danger ( slow male voice ) dan-sa ( acute male voice )
Sound effect pi ( short electric sound ) Hyuuu ( long falling
sound )
Investigation of suitable sound source for licalization
音源は10度おきの13点の内の1カ所に設定された。被験者A,B,C,Eについて測定を行った。
音源の種類ごとの角度誤差
[deg] A B C H Average yes(Female voice) 17.3 27.7 20.2 23.4 22.2
no(Slow female voice)) 23.0 22.5 21.1 21.6 22.0 no(Acute child voice) 19.7 18.3 21.1 24.4 20.9 danger(Child voice) 22.3 23.0 21.1 22.0 22.1
dan-sa(Female voice) 18.8 18.8 27.7 18.3 20.9 pi(electric sound ) 25.0 27.7 17.3 25.8 24.0
hyuu(falling sound) 32.8 28.6 20.2 22.5 26.0
Table 4 Angular error with different sound source �
合成音より人の声の方が認識精度が高い。また、同じ人の声でも、トランジェントの入った音の方が良い結果を出した。�
結局、音の位置は分からない?
音の種類
反射 HRTF ������������������頭の����������動き�
1,首の動きによって、音圧が左右対称となる方向。 首の動きで正面を知ることができる。 2,角度変化でHRTFが明確に分かる。 ヒトは絶対値に鈍感で変化に敏感。
頭部運動による位置情報の獲得
ステレオ画像 �
オブジェクト抽出 �
立体音合成�
CCDカメラ �
ビデオ信号 �
ステレオ音声 �
画像処理�
音声提示装置のシステム
装置の写真
対象抽出アルゴリズム
Fig. 11 Object extraction
画像を10x10ピクセルのブロックに分け、左右の画像でブロックをマッチングさせる
て視差を求める。
ブロックの視差から距離を計算し、隣接し0.1m以内の距離にあるブロックを同じグ
ループに分類していく。
10以上のブロックを含むグループをオブジェクトとして登録、ブロック全体の重心
の位置までを距離とする。
0° +15 -15
+30 -30 • 300 x 400 [mm]2 の大きさの箱を図の各点にランダムに設置。
• HRTFを用いず、444 と 150k [Hz] の周波数成分の割合で前後を提示。
1.4m
Fig. 視覚情報の音への変換実験
実験の方法
Subject A B C D E Average
With Head Motion 7.7 4.6 4.5 5.3 6.3 5.7(deg.)
Without Head Motion 12.0 4.8 9.3 4.6 5.9 7.4(deg.)
HRTFを加えた音での 頭部運動の効果
ただし、対象を前方のみに限定している。�
段差の認識
Fig. ステレオカメラBamblebee2 を搭載した視覚聴覚変換装置
Bamblebee2 was mounted on the head with 15 deg. lower offset.
段差認識のアルゴリズム
上下のブロックの距離差 z[x,y]-z[x,y-1] を求める
↓
距離差が-2以上のブロックのペアを登録していく
↓
水平方向に4 ペア以上の登録ブロックが連続すれば、そ
こを段差と判断する。 上下のずれは連続と判定。
縦に並んだ2ブロックで距離差が極端に大きい場合、段差である可能性が高い。�
dif[a]=Z[a]-Z[b]<-2.0 �
アルゴリズムの試験
赤い四角部分を段差として認識した。
������������������������������������
��
��
��
��
�
�
�
�
�
� � � � � � � ��
�����������������
����������������������
a) Extracted step(rectangle) b) z difference graph
斜めの画像での段差認識結果
a) Subject A 1.8[m] tall b) Subject H 1.6[m] tall
横方向に傾いた画像での段差認識の結果。
反射光による眩惑効果
Fig.反射光による、間違った段差の認識
Reflection causes false recognition for it shows further parallax. Delusion steps are found on smooth reflecting surfaces.
誰でも座頭市になれる!
そんなメガネができるのも、 もうすぐ???�