buckeye corpus による、英語機能語の弱形の探索 (searching weak forms of english speech...

21
Buckeye Corpus ににに ににににににに にににに •にに にに ににににに () [email protected] c.jp

Upload: takehiko-makino

Post on 27-Jul-2015

578 views

Category:

Documents


2 download

DESCRIPTION

大学英語教育学会英語辞書研究会ワークショップ(2009年3月14日、成城大学)での口頭発表A talk given at an annual workshop held by English Dictionary SIG of Japan Association of College English Teachers (Seijo Univerisity, 14 March, 2009). There is no proceeding of this workshop.

TRANSCRIPT

Page 1: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

Buckeye Corpus による、英語機能語の弱形の探索

•牧野 武彦(中央大学)•[email protected]

Page 2: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

はじめに• 英語辞書に載っている発音は、基本的に引用形

(citation form) であり、現実の発話ではこれらの語は多かれ少なかれ変化を被る。

• いわゆる機能語と呼ばれる範疇のものの中には、アクセントを持たない位置に現れるのが普通で、引用形とはかなりかけ離れた発音になる(主として)単音節語がある。このようなものは、辞書でもこの形を弱形 (weak form) として(優先して)載せている。

Page 3: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

• 但し、辞書の記載は弱形を網羅しているわけではない。英語音声学の概説書も同様で、牧野 (2005: 126-127) の表も主なものだけを載せている。

• 弱形を網羅的に扱った研究としては Obendorfer (1998) があり、 a から your に至るまで単音節語を 100 語挙げ、弱形の現れやすさやその弱形の縮小の程度を分類している。

Page 4: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

• しかし、現実の発音を色々と聞いていると、これにも出て来ないような発音も観察される。また、いわゆる内容語の中にも、弱形と見なせるような発音が聞かれるものがあるという印象がある。

• 弱形の出現は語彙によって決まっているとされるので、これは語彙記述の一部をなすが、これまで資料・観察共に不十分だったと考えられる。

• 本発表では、そうした不足を補う研究の可能性を探る。

Page 5: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

音声研究の潮流• 連続発話で起こる現象については、同化・脱落・挿

入・融合といった枠組みで記述されてきている。但し、比較的改まった発話で起こる現象に限定されていたという印象がある。

• 音韻理論において、それらの現象が起こる仕組みについて定式化への努力がなされている。音声記述では扱われていないような現象を発掘している場合もある。

• 全体としては、連続発話で起こる現象を組織的に記述しようという方向性は希薄であったと思われる。

Page 6: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

• 近年はプロソディーに関心の中心が移っていたが、更に自然発話で分節音に起こる様々な現象に関心が一回りして巡ってきているという印象がある (cf. Shockey 2003) 。

• 音声学の将来はこうした研究のあり方にかかっているという意見もある (cf. Kohler 2000) 。

Page 7: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

音声のコーパス研究• 昨今、言語研究において、コーパスの構築・利用は花盛

りとも言えるが、音声・音韻の分野においては、これは立ち後れていた。口語コーパスであっても、音声表記までなされたものは少なかった。

• しかし、技術の進歩と上記のような関心の移行により、音声コーパスも少しずつ現れてきた。日本語に関して言えば、国立国語研究所が「日本語話し言葉コーパス (The Corpus of Spontaneous Japanese) 」 を構築した。

• 今回紹介する Buckeye Corpus of Conversational Speech は、そのような流れの中にある、アメリカ英語音声コーパスの一つである。

Page 8: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

Buckeye Corpus の概要• オハイオ州立大学心理学科で 1999 年に構築が始

まった。半分の音声表記が 2005 年に完成してリリースされ、残り半分は 2007 年にリリースされた。

• コーパス全体の規模はおよそ 30 万語。インタビュー形式で、 40 名の話者からそれぞれ 1 時間程度の収録である。

• 話者の男女比は半々。年齢は半数が 30歳未満、残りの半数が 40歳以上。全員がオハイオ州中部 Columbus 市内外の出身である。

Page 9: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

• 音声ファイル本体 (.wav) のほか、 Xwaves 形式による log 、 phones 、 txt 、 words の 4 つの annotation ファイルから成り立つ。

• これらは音声分析ソフト Wavesurfer と Praat で、波形・スペクトログラムなどと転写部分を対応させて閲覧・編集できる。

• 専用の検索機能を備えた SpeechSearcher というツールが、 2007 年 4月の全体リリースと同時に公開されるはずだったが、後に 2008 年 12月に延期され、今現在も公開されていない。

Page 10: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

• .txt ファイル。話された内容がつづり字で記されている。すべて小文字化されている。<>で囲まれたタグは大文字で記載されている。

Page 11: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

• .log ファイル。声質とその時間帯が記されている。

Page 12: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

• .phones ファイル。実際に現れた分節音と、その時間が記されている。

Page 13: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

• .words ファイル。各語の現れる時間、綴り、ターゲットの音声表記、実際の音声が対応して格納されている。

Page 14: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

問題点• (現時点では?)プロソディーの表記が

なされていないこと。

• SpeechSearcher のリリースが遅れていること。 Wavesurfer や Praat での annotation 表示は付録的なものであり、本格的な検索はできない。

Page 15: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

当面の解決方法: ELAN• 音声コーパス構築のためにオランダの Max-Planck 心

理言語学研究所で開発された ELAN というツールがある。当然、優れた検索機能を持つが、このソフトは Praat が生成する TextGrid ファイルを読み込むことができる。

• cf. http://www.lat-mpi.eu/tools/elan/

• Praat で TextGrid を作り、 ELAN に読み込ませれば、このソフトを使って検索などの作業はできる。

Page 16: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

• しかし、コーパスは 5 つひと揃いのファイルが 254 組もある。変換作業だけでも多くの手間と時間を必要とする。

• 今回は各話者から 1 つずつ、合計 40 組のファイルを ELAN に変換して、予備的調査を行った。

Page 17: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

• Buckeye Corpus を  ELAN に読み込ませたところ。上半分の表示を音声表記にした。

Page 18: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

• ELAN の検索結果画面。 KWIC 形式になっており、データとして保存可能。

• この画面から、コーパス本体にジャンプして音声表記を確認したり、音声そのものを聴いたりできる。

Page 19: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

事例: where の弱形• 関係副詞 where は Obendorfer の弱形

を持つ語のリストに入っていないが、実際には弱形らしき発音が頻繁に聞かれる。これをコーパス内で探してみた。

• 調査範囲では where は 88 回現れており、結果はまだ分析中だが、 [wɚ] [wər] など、どの英語発音辞典にも載っていない形が見つかっている。

Page 20: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

謝辞• 本研究は、中央大学特定課題研究費の助

成を受けたものです。

Page 21: Buckeye Corpus による、英語機能語の弱形の探索 (Searching weak forms of English speech using Buckeye Corpus)

参考文献Fosler-Lusier, Eric, et al. (2007) “The Buckeye Corpus of Speech: Updates and Enhancements.” Pro

c. Interspeech 2007, pp.934-937.Johnson, Keith. (2003). “Massive Reduction in Conversational American English.” Proc. Workshop on

Spontaneous Speech: Data and Analysis. August, 2002. Tokyo, Japan.Kenyon, J. S. and T. A. Knott. (1953) A Pronouncing Dictionary of American English. Springfield, MA:

Merriam-Webster.Kiesling, Scott, Laura Dilley and William D. Raymond. (2006) The Variation in Conversation (ViC) Proj

ect: Creation of the Buckeye Corpus of Conversational Speech. http://buckeyecorpus.osu.edu/BuckeyeCorpusmanual.pdf

Kohler, Klaus J. (2000) “The future of phonetics.” Journal of the International Phonetic Association 30.1/2, pp.1-24.

国立国語研究所 . (2006) 『日本語話しことばコーパスの構築法』 国立国語研究所報告 124.牧野武彦 . (2005) 『日本人のための英語音声学レッスン』 東京:大修館書店 .Obendorfer, Rudolf. (1998) Weak-forms in Present-day English. Olso: Novus Press.Pitt, M.A., et al. (2007) Buckeye Corpus of Conversational Speech (2nd release) [www.buckeyecorpu

s.osu.edu] Columbus, OH: Department of Psychology, Ohio State University.Shockey, Linda. (2003) Sound Patterns of Spoken English. Oxford: Blackwell. Wells, J. C. (2008) Longman Pronunciation Dictionary, 3rd ed. Harlow: Pearson Education.