Download - Gengo Africa
![Page 1: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/1.jpg)
1
言語アフリカ起源説(Science, Atkinson 2011)
niam江原 遥
![Page 2: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/2.jpg)
2
自己紹介
• 計算言語学の院生です• ユーザの語学力を推定して、分からなそう
な語にあらかじめ訳をつけておく読解支援システムの研究をしてきました。
• ローマ字で書くと名前が 7 文字です。
http://yoehara.com/
![Page 3: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/3.jpg)
3
Science, Atkinson 2011 の衝撃
NLP 界でも話題になっている
![Page 4: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/4.jpg)
4
大学にいるメリット:論文をダウンロード出来る特徴:• 論文本体はたった3ページ!
– ( Science だから)– ただし、 Supporting Online Material が付いており、
これは 38 ページぐらいある• データは zip で配布されてる WALS dataset• 手法: Phonemic diversity (音素数)をアフリ
カからの距離で線形回帰。• アフリカ起源: 2,560 箇所の候補地から BIC でモ
デル選択して結果アフリカ。
![Page 5: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/5.jpg)
5
図でざっと見る
![Page 6: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/6.jpg)
6
音素が減る原理:創始者効果 (founder effect)• すぐに思いつく疑問:
– 音素が増える場合を考えてるの?→考えてます。• 創始者効果とは:「隔離された個体群が新しく作られるとき
に、新個体群の個体数が少ない場合、元になった個体群とは異なった遺伝子頻度の個体群が出来ること」
• 個体群が分裂する際に、音素が減るケースの方が多ければ、音素はアフリカからの距離に対して漸減する。 旧個体群
新個体群
![Page 7: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/7.jpg)
7
遺伝学領域との関連
アフリカからの距離は• Neutral genetic markers の 80% ~ 85%• Human mitochondrial DNA の 18%• Phenotypic data の 14%~18%• Phonemic diversity の 19%を説明する。
← この論文の貢献
![Page 8: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/8.jpg)
8
本日の流れ
• 音素と発音– 子音– 母音
• 古代の音を復元してみる– ラテン語の [r] の音を例に取って復元を体験し
てみる– 音が減るとき増えるとき
• アフリカの言語の音• 線形回帰
– BIC
PRML や情報理論の基礎の方が分かりやすく正確に書いてあります
音声学の基本的な話。音声学の専門家では全然ないので間違いがきっとあります。
![Page 9: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/9.jpg)
9
音素
• この論文は、 phonemic diversity (音素数)をアフリカの言語からの距離で線形回帰している
• 世界の言語の音は、大体、 IPA (国際音声字母)で表現できる。
• 子音、母音の順に見ていきます。
![Page 10: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/10.jpg)
10
子音:調音位置 x 調音方法
ここにきちんと現れていない区別:無声音、有声音、有気音
調音位置
![Page 11: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/11.jpg)
11
有声音、無声音、有気音:
閉鎖音に有声音、無声音、有気音の区別。p/b, p/ph の区別はよくある。日本語や英語は p/b 。 p/ph の区別は中国語・韓国語でおなじみ。p/b/ph の3つを区別する言語の例:古代ギリシア語。ギリシア文字はもともと…π /β/ φ: p/b/phτ/δ/θ: t/d/thκ/γ/χ: k/g/khという音だった。
![Page 12: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/12.jpg)
12
有声音、無声音、有気音は何が違う?: Voice Onset Timep/b の区別は我々には母語。 p/ph の区別は、中国語の入門書でも「 ph は強く発音します」などの不正確な記述が多く入門者は混乱。厳密には voice onset time 声帯を震わせるタイミン
グが違う。b
p
ph
![Page 13: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/13.jpg)
13
色々な言語の VOT
![Page 14: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/14.jpg)
14
余談:無声鼻音
鼻音 (Nasal) は、世界のどの言語でも大抵有声。しかし、無声鼻音は発音できないわけではない。/m/ は最も基本的な音なのに、なぜ p/ph の区別をする言語でも /m/ は有声なのか?→ 母音が続かないと聞こえないから。
![Page 15: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/15.jpg)
15
異音 (allophone)歯茎 軟口蓋
za a
da a
na a
摩擦
破裂
鼻
![Page 16: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/16.jpg)
16
異音 (allophone)歯茎 軟口蓋
za a
da a
na a
摩擦
破裂
鼻
ざ
だ
な がどの音素を区別して音韻に対応させるかは言語によって恣意的。「言語とは恣意的なものである」 by ソシュール余談:格助詞の「が」は / a/ で発音すべきか?アナウンサーの鼻母音問題。
![Page 17: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/17.jpg)
17
母音: openness x backness x roundedness
![Page 18: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/18.jpg)
18
日本語の母音
最大の特徴:「う」~非円唇の u ~「い→う」で backness の練習が出来る!
![Page 19: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/19.jpg)
19
Backness は第2フォルマントに対応Praat で、「い→う→い」と連続的に発音してみる
い う い
![Page 20: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/20.jpg)
20
California English の母音
![Page 21: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/21.jpg)
21
日本語の母音と英語の母音を重ねてみる
黒:日本語セピア色:英語
![Page 22: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/22.jpg)
22
日本語の母音と英語の母音を重ねてみる
この辺が日本語話者にとって難しいはず。
![Page 23: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/23.jpg)
23
英語の母音の練習方法:
日本語の / あ / から、Backness を前後に振る練習を僕はしました。
cat father
![Page 24: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/24.jpg)
24
Father-brother merger
![Page 25: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/25.jpg)
25
Suprasegmentals:vowel length や tone など
Vowel length→↓tone
short long
低はじまり yuki (雪) yu:ki (悠木)
高はじまり yuki (有希) yu:ki (勇気)
• 長短 x高低 x5 母音 =20種類ある?通常、「音素」といった場合にSuprasegmentals はカウントしない。が、今回の解析では、 tone の数は前処理でカウントしているらしい。Suprasegmentals の他の例: vowel nasality (台湾語)や母音調和(モンゴル語)
![Page 26: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/26.jpg)
26
母音調和
• 一語の中に現れる母音の組み合わせに一定の制限が生じる現象のこと。
• 上のモンゴル語の例では、「女性母音と男性母音はそれぞれ一語中で共存できないが、中性母音はどちらとも共存できる」らしい。
• アルタイ語系の言語には、母音調和が見られる。• 日本語がアルタイ語系統であることを示すには、
古代日本語に母音調和が存在したかどうかが議論される。
![Page 27: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/27.jpg)
27
古代語の音を復元する~ラテン語の場合~ラテン語の簡単な紹介:• 長短2つの Vowel length の区別があっ
た:– 日本語と同じ!
母音の長短が表記されていないだけ。Ave Maria→Ave: MariaPuella magi Madoka magica→Puella magi: Madoka magica• 母音の数も a,e,i,o,u の5つで日本語と同じ。
![Page 28: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/28.jpg)
28
ラテン語を例にあげた理由:系統が分かっているから
![Page 29: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/29.jpg)
29
ラテン語の [r]
ラテン語の [r] の音は何だったか?
Dental/alveolar trill か uvular trill かどっち?
“r” と表記される音は、現代語でもこんなにたくさんある。R は littera canina(犬の字)との記述からたぶん、 trill である。(犬の唸り声)
![Page 30: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/30.jpg)
30
古代の音を復元する~ Rhotacism~母音に挟まれた /s/ が /r/ の音になる!ラテン語 genus (種は) →英語 genusラテン語 generis (種の) →英語generics/s/ が /r/ に変化するということは、ラテン語の [r] の調音位置は /s/ と同じ部分であった可能性が高い→uvular trill の可能性が消えて、ラテン語の[r] は alveolar trill であったことが分かる。
![Page 31: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/31.jpg)
31
Guttural Rラテン語の [r] はalveolar trill であることが分かった。一方、今のフランス語の [r] は uvular fricative.いつ [r] は uvularになったのか?18 世紀中頃~後半と言われている。
![Page 32: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/32.jpg)
33
音素が減るとき:日本語の「ひ」と「し」の区別
ひし
![Page 33: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/33.jpg)
34
音素が増えるときの一例:suprasegmentals が崩れるとき
古典ラテン語→Vulgar Latinの変化の際に、vowel length の区別が消失し、代わりに、音価で音を区別するようになった。
フランス語→
![Page 34: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/34.jpg)
35
図でざっと見る(再掲)
![Page 35: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/35.jpg)
36
アフリカの言語の音~クリック音~• Khoekhoe 語のビデオ
![Page 36: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/36.jpg)
37
Xhosa 語 (コサ語)
話者約160万人Nelson Mandela元大統領はXhosa 語話者らしいです。
![Page 37: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/37.jpg)
38
図でざっと見る(再掲)
![Page 38: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/38.jpg)
39
Piraha 語
![Page 39: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/39.jpg)
40
WALS データセット
The World ATLAS of language structures 504 言語について色々な特徴が記述されている。全部ダウンロード出来る。言語処理学会でも使われていたりする• Relation between Word Order Characteristics and
Suicide/Homicide Rates (2), ○ 江原暉将 (山梨英和大 ), NLP2011
• 数理的手法を用いた日本語の系統に関する考察 , ○ 小橋昌明 , 田中久美子 ( 東大 ), NLP2011
この手の研究をしようと思うと、実質、これ一択?
![Page 40: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/40.jpg)
41
Phonemic diversity
Phoneme diversity と phonemic diversity の 2種類が使われているが…たぶん、同じ。WALS には、 consonant の数、 vowel の数、 toneの数の3つの情報が入っている。 (small [2-4], medium [5-6], large [7-14]), consonant (small [6-14], moderately small [15-18], average [19-25], moderately large [26-33], large [34+])
前処理として、どうやら、次のことをやり、 phonemic diversity と呼んでいるらしい。pd = n(n(c)+n(v)+n(t))n(x) は平均 0 、分散 1 で正規化。
![Page 41: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/41.jpg)
42
線形回帰
![Page 42: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/42.jpg)
43
アフリカ起源
• 2,560 箇所の候補地を作る。候補地からの距離とphonemic diversity を線形回帰し、 BIC でモデル選択した結果、アフリカ起源だと思うのが一番良いという結果に。
• Controlling for other demographic variables in this way, sub-Saharan Africa remains the most likely area of origin (fig. S7).
![Page 43: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/43.jpg)
44
BIC
BIC はベイズ的にはモデルエビデンスの近似モデルエビデンス:
データが出てくる確率をパラメータで周辺かしたもの。 PRML3章 , 4章。また、 MDL の枠組みでは、モデルとデータの総符号長 (MDL) と一致。オッカムのかみそり。
![Page 44: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/44.jpg)
45
線形回帰
![Page 45: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/45.jpg)
47
BIC
![Page 46: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/46.jpg)
48
BIC
PRML4章章末
情報理論の基礎 5.4
![Page 47: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/47.jpg)
49
BIC
5.5
![Page 48: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/48.jpg)
50
BIC
w_2 がwell-determinedパラメータ。PRML3.5.3
PRML4.4.1
![Page 49: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/49.jpg)
51
論文中でやっているが今回省いたこと線形回帰の P値も出している。 Mantel test もしている。言語の起源が複数ある場合とも比較して、アフリカ単一起源の方が当てはまりがよいことを示している。語族( Language family )による影響を考えるために、• Language family でまとめて回帰をかけたり• 階層線形回帰をやったりしている。Language expansion としては、人類のアフリカからの exodus の他に、より新しく、最終氷河期(LGM) の後のものが考えられる。そこで、 LGM の後に言語拡散したモデルとも比較している。
![Page 50: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/50.jpg)
52
まとめ
• 言語の起源がアフリカであること自体は、信じていいんじゃないでしょうか。
• 創始者効果を表していることも信じていいのかなぁ…?
• ただ、 BIC だけに頼っているのはちょっと不安。モデルエビデンスをより正確に近似してもいいのでは。
• Vowel, consonant, tone の 3次元の空間で線形回帰したらどうなるのだろう…?
![Page 51: Gengo Africa](https://reader036.vdocuments.pub/reader036/viewer/2022062419/5592a71e1a28ab6e798b4776/html5/thumbnails/51.jpg)
53
ご清聴ありがとうございました。