音声コーパスを用いた英語弱形リストの改訂 revising the list of weak forms in...

32
音声コーパスを用いた英語弱形リ ストの改訂 牧野武彦

Upload: takehiko-makino

Post on 27-Jul-2015

920 views

Category:

Documents


5 download

DESCRIPTION

日本音声学会第320回研究例会(2009年12月5日、法政大学)における口頭発表Paper presented at the 320th Regular Meeting of the Phonetic Society of Japan

TRANSCRIPT

Page 1: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

音声コーパスを用いた英語弱形リストの改訂

牧野武彦

Page 2: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

本研究の目的

• 質的な観察に頼った研究を基にして行われてきたように思われる、英語の機能語を中心とした語の弱形の記述を、音声コーパスを用いた量的な研究により改訂を試みることである。

• 我々は、英語の音声を常日頃インフォーマルに観察しながら、辞書や英語音声学のテキストに現れる弱形の記述が、実際の音声を反映しているとは限らないということに薄々感づいている。本研究は、そのギャップを埋めようとする試みである。

Page 3: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

• Obendorfer (1998)は、およそ100語の「弱化語(weakener)」をその弱形の発音と共に挙げることで恐らくもっとも包括的に弱形の記述を行っているため、このリストを出発点にする。

• 配付資料は、Obendorferのリストに挙がっている語とその弱形発音に、Longman Pronunciation Dictionary 第3版 (2008) および English Pronouncing Dictionary 第17版 (2006) の記述を付加したものである。– なお、Obendorfer では、古語と考えられる動詞の二人称単数現在活用形などもリストに挙がっているが、これは除いた。

Page 4: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

資料

• オハイオ州立大学心理学科で構築されたBuckeye Corpus of Conversational Speech (Fosler-Lusier et al. 2007) を用いる。

• これは、オハイオ州コロンバス地域のアメリカ英語話者40人による約30万語のインフォーマルな発話を音声表記した音声コーパスである。

Page 5: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

• コーパスのマニュアルによれば、表記の手順は次の通りである。

1. Soundscriber ソフトウェアを用いて、音声ファイルを英語の正書法で書き起こす。

2. ESPS Aligner ソフトウェアを用いて、自動で音声

表記を生成し、単語表記と音声表記を音声ファイルの時間軸に割り付ける。

3. 自動生成された表記を手作業で修正する。

Page 6: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

手順

• コーパスに付属のソフトウェアSpeechSearcherを用いて、単語ごとにその音声形式を抜き出す。

• そのデータをスプレッドシートに読み込み、既存の記述と内容を比較検討する。

Page 7: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

問題点

• 先に単語を表記してから音声表記をするという手順のため、正書法上の縮約形がある単語に関しては、どちらで表記されるのか予測できない。本研究は縮約形を対象としなかったので、このために分布が歪んでしまう可能性がある。

• コーパスはアクセント・イントネーションを表記していない。このため、コーパス内の iy, ih, uw, uh, ah, er が強母音に対応するのか弱母音に対応するのか判別できない。

Page 8: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

リストにない単語の検討

• 同じ語彙範疇に属する他の単語がリストにありながら、抜けていると思われる単語– 疑問詞/関係詞の what, when, who, whom,

whose はあるが、how, where, which, why がない。

– 人称代名詞のうち、our だけがない。

– 法助動詞のうち、might だけがない。

– 動詞の活用形が載っていない。Said, says はあるが say がなく、come はあるが came がなく、go はあるが went, gone がなく、get はあるが get, got, gotten がない。

Page 9: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

how

haʊ 417hɑː 76hæ 12hə 11aʊ 8haɪ 5ɑː 4hoʊ 4h 3その他 14合計 554

haʊ

hɑː

haɪ

ɑː

hoʊ

h

その他

Page 10: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

wherewɚ 204

wɛr 186

wər 61

wə 17

wɛ 16

hwɚ 13

weɪ 12

weɪr 9

wɪ 9

wɪr 4

ɚ 3

hwɛr 3

hwɛ 2

wɚr 2

その他 26

合計 567

wɛr

wər

hwɚ

weɪ

weɪr

wɪr

ɚ

hwɛr

hwɛ

wɚr

その他

Page 11: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

whichwɪtʃ 257wʊtʃ 14wətʃ 13hwɪtʃ 7wɪʃ 6tʃ 3その他 19合計 319

wɪtʃ

wʊtʃ

wətʃ

hwɪtʃ

wɪʃ

その他

Page 12: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

whywaɪ 223wɑː 11wə 7hwaɪ 3その他 21合計 265

waɪ

wɑː

hwaɪ

その他

Page 13: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

our

ɑːr 257ər 30ɚ 29aʊr 16ə 5ɑː 3ɔːr 2その他 7合計 349

ɑːr

ər

ɚ

aʊr

ə

ɑː

ɔːr

その他

Page 14: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

here

hir 345hɪr 125ir 26hɚ 17hiɚ 7ɪr 5hɛr 4iɚ 2その他 8合計 539

hir

hɪr

ir

hiɚ

ɪr

hɛr

その他

Page 15: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

though

ðoʊ 56noʊ 39ðə 3doʊ 2oʊ 4その他 10合計 114

ðoʊ

noʊ

ðə

doʊ

その他

Page 16: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

most

moʊst 111moʊs 87məst 14məs 12moʊʃ 3その他 9合計 236

moʊst

moʊs

məst

məs

moʊʃ

その他

Page 17: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

wentwɛn 123wɛnt 109wɛɾ ̃ 55wɛnʔ 30wən 17wɛʔ̃ 17wɛʔ 10wɛt̃ 8wɛnd 6wəɾ ̃ 5wəʔ̃ 5wɛ 5wɛ ̃ 5wɛt 4wənt 3wɛm 2wn̩t 2その他 21合計 427

wɛn

wɛnt

wɛɾ ̃wɛnʔ

wən

wɛʔ̃

wɛʔ

wɛt̃

wɛnd

wəɾ ̃wə̃ʔ

wɛ̃wɛt

wənt

wɛm

wn ̩t

Page 18: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

getsgɛts 33gɪts 29gɛs 7gɪs 2gɛds 1gɛz 1gɪtʃ 1gɪds 1gɪdz 1gɪz 1kɪts 1合計 78

gɛts

gɪts

gɛs

gɪs

gɛds

gɛz

gɪtʃ

gɪds

gɪdz

gɪz

kɪts

Page 19: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

• got, gotten, gone, came, might には弱形らしきものは見あたらなかった。

– 必ずしも弱形が存在しないということを意味しないが、記述を追加する必要性は見いだせない。

• where, our, gets に関しては、弱形と見られる形の生起が非常に多いため、既存の記述は見直すべきであると思われる。

• その他の語については、弱形と見られる発音が無視できる頻度なのか、判断が難しい。

Page 20: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

リストにある単語の検討

• 全ての項目を扱うことは到底できないので、いくつかを例示的に扱うにとどめる。

※必要があれば、その他の項目についても、データを示すことは可能です。

Page 21: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

aə 3918ɪ 993eɪ 405ɛ 403ɑ 141l̩ 88ʊ 50ɚ 46i 22æ 14o 14u 14その他 90合計 6198

ə

ɪ

ɛ

ɑ

ʊ

ɚ

i

æ

o

u

その他

Page 22: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

anæn 87ən 83ɛn 74ɪn 57n̩ 51æɾ ̃ 32əɾ ̃ 32ɪɾ ̃ 19ɛɾ ̃ 16その他 43合計 494

æn

ən

ɛn

ɪn

n ̩

æɾ ̃əɾ ̃ɪɾ ̃ɛɾ ̃

その他

Page 23: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

been

bɪn 299bɛn 110bɪɾ ̃ 41bən 23bɛɾ ̃ 18bɪ ̃ 9bn̩ 6bɪ 6bɪm 6その他 52合計 570

bɪn

bɛn

bɪɾ ̃bən

bɛɾ ̃bɪ̃bn ̩

bɪm

その他

Page 24: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

waswəz 1334əz 372wəs 260wɪz 237wʊz 212ɪz 80ʊz 78wɪs 68əs 63wʊs 42z 41wuz 29uz 19wɪʒ 18s 15ʊs 14wəʒ 14その他 172合計 3068

wəz

əz

wəs

wɪz

wʊz

ɪz

ʊz

wɪs

əs

wʊs

z

wuz

uz

wɪʒ

s

ʊs

wəʒ

Page 25: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

havehæv 1038ɛv 204æv 160hæf 158hɛv 124hæ 73əv 58ə 37ɪv 30æf 27æ 17ɪ 17v 17ɛ 16ɛf 14hæb 12həv 12その他 125

合計 2139

hæv

ɛv

æv

hæf

hɛv

əv

ə

ɪv

æf

æ

ɪ

v

ɛ

ɛf

hæb

həv

Page 26: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

dodu 1360dɪ 58də 43ɾu 24tu 17d 14dʊ 13di 12ɾɪ 12ɾi 12その他 60合計 1625

du

ɾu

tu

d

di

ɾɪ

ɾi

その他

Page 27: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

from

frəm 346fɚm 67frm̩ 67fəm 51fm̩ 35fɛm 10その他 61合計 637

frəm

fɚm

frm̩

fəm

fm̩

fɛm

その他

Page 28: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

onɑːn 685ɔːn 315ən 204ɑːɾ ̃ 96ɔːɾ ̃ 47ɑ̃ː 25ɑːm 19əɾ ̃ 16ɔ̃ː 15ɑː 12əm 12その他 111合計 1557

ɑːn

ɔːn

ən

ɑːɾ ̃ɔːɾ ̃ɑ̃ː

ɑːm

əɾ ̃ɔ̃ː

ɑː

əm

その他

Page 29: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

まとめ

• 会話音声では、それぞれの単語の変異はとても多い。例えば that は 354 種類、and は 188種類など、膨大な数になる。

• それらの中には、前後の語との同化などによって、これらの語に限らず起こるものも多いはずなので、そのようなものは記述から外すことができるだろう。

• しかし、既に見たように、そのような説明を拒絶するかに見える形も現れており、それらが何故そうなっているのかを一つ一つ検討する必要もあると思われる。これはまた、音韻過程の研究にとっても新しいデータを提供してくれる可能性があると言えよう。

Page 30: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

参照文献

• Obendorfer, Rudolf (1998) Weak Forms in Present-Day English. Oslo: Novus Press.

• Pitt, M.A., Dilley, L., Johnson, K., Kiesling, S., Raymond, W., Hume, E. and Fosler-Lussier, E. (2007) Buckeye Corpus of Conversational Speech (2nd release) [www.buckeyecorpus.osu.edu] Columbus, OH: Department of Psychology, Ohio State University (Distributor).

Page 31: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

牧野武彦「音声コーパスを用いた英語弱形リストの改訂」(日本音声学会第320回研究例会、2009/12/05)Obendorfer (1998) による弱形リスト

1/2

POS Obendorfer LPD3 EPD17 Buckeye tokensa det ə ə ə 6198an det ən ən, n̩ ən 494the det ði, ðə ði, ðə ði, ðə 8437

be aux, verb bi bi bi, bə 1510been aux, verb 570am aux, verb əm, m əm əm, m 74are aux, verb ɚ ɚ ɚ, r 1099is aux, verb z, s z, s z, s 1900was aux, verb wəz, wz wəz wəz, wz 3068were aux, verb wɚ wɚ wɚ 747had aux, verb həd, əd, d həd, əd, d həd, əd, d 993has aux, verb həz, əz, z, s həz, əz, z, s həz, əz, z, s 377have aux, verb həv, əv, v həv, əv, v həv, əv, v 2039did aux, verb dəd §dəd, d 441do aux, verb dʊ, də, d dʊ, də, d də, du 1625does aux, verb dəz dəz, dz dəz 174can aux kən kən kən, kn̩, kŋ 739could aux kəd, kd kəd kəd 395may aux mɪ, mə 54must aux məst, mst məst, məs məst, məs 33shall aux ʃəl ʃəl, ʃl̩, ʃə, ʃ ʃəl, ʃl̩ 2should aux ʃəd, ʃd ʃəd, ʃd, ʃt ʃəd, ʃd, ʃt 261will aux wəl, əl, l wəl, wl̩, əl, l̩ wəl, wl̩, əl, l̩ 234would aux wəd, əd, d wəd, əd wəd, əd, d 903

at prep ət ət ət 1155by prep bɪ, bə bi, bə bɪ, bə 286for prep fɚ fɚ, fr fɚ, fr 1823from prep frəm frəm frəm, frm 637in prep ən §ən 3598of prep əv, ə əv, ə əv 4418on prep ən 1557per prep pɚ pɚ pɚ 12to prep tʊ, tə tu, tə tə, t  ə̬, tu 6450up adv, prep əp 925with prep wəð wəð, wəθ 1473and conj ənd, n ənd, ən, nd, n, m, n, ŋ, əm, əŋ ənd, ən, nd, n, m, ŋ 10998but conj bət, bt bət bət 2983nor conj nɚ nɚ nɚ 1or conj ɚ ɚ ɚ 1546so adv, conj sə sə sə 2716as adv, conj, prep əz əz əz 946if conj əf əf 1224than conj ðən ðən, ðn̩ ðən, ðn̩ 333till conj, prep təl təl, tl̩ 38what rel wət 1313when rel wən wən 1072who rel u, ʊ hu, u hu, u 353whom rel um, hʊz, ʊz hum, um 1whose rel um, hʊm, ʊm huz, uz 9that conj, det, pron, relðət ðət ðət, ðt 5874

Page 32: 音声コーパスを用いた英語弱形リストの改訂 Revising the list of weak forms in English using a spoken corpus

牧野武彦「音声コーパスを用いた英語弱形リストの改訂」(日本音声学会第320回研究例会、2009/12/05)Obendorfer (1998) による弱形リスト

2/2

he pron hi, i, ɪ hi, i hi, i 1710her det, pron hɚ, ɝː, ɚ hɚ, ɝː, ɚ hɚ, ɚ 524him pron ɪm hɪm, ɪm, §həm, §əm hɪm, ɪm 580his det ɪz hɪz, ɪz, §həz, §əz ɪz 402it pron ət, t §ət 4615me pron mi mi mi 1045my det mɪ, mə mi, mə mɪ 1871she pron ʃi ʃi ʃi 1041their det ðɚ ðɚ ðɚ 555them pron ðəm ðəm, ðm̩ ðəm, ðm̩, əm, m̩ 1105they pron ðəɪ 3541us pron əs əs, §əz əs, s 203we pron wi wi wi 1719you pron jʊ, jə ju, jə ju, jə 4319your det jɚ jɚ jɚ 588one pron wən 1007

any det əni əni, n̩i əni, n̩i 306no det nə nə nə 816some det səm səm, sm̩ səm, sm̩ 733such det sətʃ sətʃ sətʃ 56this det, pron ðəs ðəs ðəs 1174

sure adj ʃɚ 180just adv dʒəst dʒəst, §dʒɪst dʒəst 2452not adv nət 1523then adv ðən 1009there adv ðɚ ðɚ ðɚ 1642

come verb kəm kəm 295get verb gət 1134go verb gʊ, gə §ɡə, §ɡu 1070said verb səd 673says verb səz 119sit verb sət 105thank verb (ŋ)k 20ma'am noun məm məm, əm 3Saint noun sənt 15sir noun sɚ sɚ sɚ 1time noun təm 641times noun təmz 129well interj wəl wəl, wl̩ 1315

LPDのみ記載I pron ə, a 12354its det əts 21