- 世界で最も謎に満ちた写本を例に -...
TRANSCRIPT
-
安形輝(亜細亜大学)安形輝(亜細亜大学)[[安形麻理(慶應義塾大学)安形麻理(慶應義塾大学)]]
20082008//0202//2626 研究談話会研究談話会
-- 世界で最も謎に満ちた写本を例に世界で最も謎に満ちた写本を例に --
-
•• 自己紹介、今回の研究のきっかけ自己紹介、今回の研究のきっかけ
•• 未解読文書とは未解読文書とは
•• 解読可能性判定法の提案解読可能性判定法の提案
•• VoynichVoynich写本とは写本とは
•• 過去の解読の試み過去の解読の試み
•• 部分文書の類似度測定とクラスタリング部分文書の類似度測定とクラスタリング
•• まとめまとめ
2
-
3
http://x51.org/より
-
•• 例えば「線文字例えば「線文字BB」」によるクレタ島文書によるクレタ島文書
–– 当初はクレタ文明独当初はクレタ文明独自の言語?自の言語?
–– 19521952年年 ヴェントリヴェントリスとチャドウィックスとチャドウィックがギリシャ語としてがギリシャ語として解読解読
4
Wikipedia「線文字B」より
-
5
解読できない文書
暗号解読、翻訳
言語学的分析→言語的特徴があるか
-
6
解読できない文書
テキスト処理技術↓
図表やページ構造などの他の手がかりと
対応をみる=捏造文書の判定
仮説
多くの言語に適用可能なテキスト処理技術は未知の言語にも応用可能
価値判断、解読に傾注すべき労力の判断
-
The Vinland Map
7
http://en.wikipedia.org/wiki/Vinland_mapより
http://upload.wikimedia.org/wikipedia/commons/d/dd/Vinland_Map_HiRes.jpg
-
8
Page 10
他の要素からの構造
テキストからの構造
ページ順
1,2,3,…n-2,n-1,n
図の類似性
読めないテキスト
テキストクラスタリング
捏造/真正?
未解読文書
似ていない
似ている
内容的に近い
内容的に近くない
-
9
•• 19121912年年Wilfred M. Wilfred M. VoynichVoynichがイタリがイタリアで発見アで発見
•• 未知の言語/暗号、未知の言語/暗号、いままで全ての解いままで全ての解読の試みは失敗読の試みは失敗
•• 現在はイェール大現在はイェール大学のバイネッケ図学のバイネッケ図書館の蔵書書館の蔵書((MSMS408)408)
-
10
•• 制作地や年代は、目制作地や年代は、目録によれば録によれば1515末~末~1616世紀中欧と推定世紀中欧と推定
•• 102102葉の羊皮紙葉の羊皮紙((1414葉欠落あり)葉欠落あり)
•• アラビア数字やアルアラビア数字やアルファベットに似たファベットに似たヴォイニッチ文字ヴォイニッチ文字
•• 同じ文字の資料は存同じ文字の資料は存在しない在しない
-
11
•• 大部分のページ大部分のページに挿図に挿図
•• 図の内容は、植図の内容は、植物、天文学、小物、天文学、小さな裸の女性、さな裸の女性、十二宮図、薬草十二宮図、薬草の調合用壺などの調合用壺など
-
12
•• 真正性の根拠は真正性の根拠は200200ページを超えるページを超える=捏造にしては作成=捏造にしては作成の労力が大きいの労力が大きい⇔強い動機を持つ捏⇔強い動機を持つ捏造者造者
•• 外的証拠として、こ外的証拠として、これと思われる写本にれと思われる写本に言及した言及した1717世紀の複世紀の複数の書簡が現存数の書簡が現存
-
•• バイネッケ図書館にバイネッケ図書館に収蔵収蔵
•• 16651665年に年にMarcusMarcusMarciMarciが暗号専門家が暗号専門家AtanasiusAtanasius KircherKircher宛宛に解読を依頼する内に解読を依頼する内容容
13
http://www.voynich.nu/extra/img/marci2k.jpgより
-
•• イギリスのBBCで放送されたドキュメイギリスのBBCで放送されたドキュメンタリー「ヴォイニッチの謎」の書籍版ンタリー「ヴォイニッチの謎」の書籍版
–– 著者の一人が著者の一人がWilfred M. VoynichWilfred M. Voynichの子孫の子孫
•• ISBN:4ISBN:4--79177917--62486248--77
14
http://www.amazon.co.jp/gp/product/images/4791762487/ref=dp_image_0/249-0212683-4977172?ie=UTF8&n=465392&s=books
-
15
•• 19201920年代の研究年代の研究•• 1313世紀世紀 Roger BaconRoger Baconにによる暗号書?よる暗号書?
•• 英語学者英語学者J.M.ManlyJ.M.Manlyは、は、NewboldNewboldの研究が著しくの研究が著しく主観的かつ不完全であ主観的かつ不完全であると批判ると批判
Roger Bacon
-
16
•• 第二次大戦日本軍暗号解読で有名な夫妻第二次大戦日本軍暗号解読で有名な夫妻
•• VoynichVoynich写本は「ア・プリオリなタイプの写本は「ア・プリオリなタイプの人工的もしくは普遍的言語を作成しよう人工的もしくは普遍的言語を作成しようとする初期の試みである」とアナグラムとする初期の試みである」とアナグラムメッセージを遺すメッセージを遺す
William F. Friedman Elizebeth Friedman
http://upload.wikimedia.org/wikipedia/commons/f/fc/William-Friedman.jpg
-
17
•• 19981998年年 G. LandiniG. LandiniととR. ZandbergenR. ZandbergenZipfZipfの法則に従うことを検証の法則に従うことを検証
•• 20002000年年 ZandbergenZandbergenエントロピー分析ではラテン語と同程エントロピー分析ではラテン語と同程度の複雑さを持つ=冗長暗号ではない度の複雑さを持つ=冗長暗号ではない
→→ 真正性への根拠真正性への根拠
-
18
•• 20042004年キール大学年キール大学ののGordon RuggGordon Ruggによる復による復元実験元実験
•• 似た特徴の文書をカル似た特徴の文書をカルダーノ・グリルで作成ダーノ・グリルで作成が容易に可能が容易に可能
•• 1616世紀の錬金術師で世紀の錬金術師でJohn DeeJohn Deeの弟子?の弟子?Edward KellyEdward Kellyの捏造の捏造
Edward Kelly
Gordon Rugg
John Dee
-
•• 中世のイタリアの数学者ジェロラモ・カ中世のイタリアの数学者ジェロラモ・カルダーノルダーノ(Girolamo Cardano)(Girolamo Cardano)の考案の考案
•• 英語読みでカルダングリル(英語読みでカルダングリル(Cardan Cardan grillegrille)とも呼ばれる)とも呼ばれる
19
http://en.wikipedia.org/wiki/Image:CardanGrille.png
http://upload.wikimedia.org/wikipedia/commons/6/62/CardanGrille.png
-
•• JohnJohn DeeDee
–– 1616世紀エリザベス女王の下で相談役世紀エリザベス女王の下で相談役
•• 有名なコード名有名なコード名
–– 錬金術師、数学者錬金術師、数学者
•• EdwardEdward KellyKelly
–– 錬金術師、霊媒師錬金術師、霊媒師
•• DeeDeeととKellyKellyの日誌の日誌
–– エノク語=人工言語?エノク語=人工言語?
20
http://www.john-dee.org/Tertius.pdfより
-
21
-
22
•• 近年のヴォイニッチ研究の中では最も注近年のヴォイニッチ研究の中では最も注目を集めている目を集めている
–– Nature Science UpdateNature Science Update他、一般誌を含む数多他、一般誌を含む数多くの雑誌に取り上げられ、日本語にも訳されくの雑誌に取り上げられ、日本語にも訳されるる
-
•• AndreasAndreas Schinner. The Voynich Schinner. The Voynich Manuscript: Evidence of the Hoax.Manuscript: Evidence of the Hoax.
–– Cryptologia, vol.31, no.2, p.95Cryptologia, vol.31, no.2, p.95--107,2007107,2007
•• VoynichVoynich写本は何らかの言語を暗号化した写本は何らかの言語を暗号化したものではなく確率過程によって生成されものではなく確率過程によって生成された可能性が高いた可能性が高い
=ねつ造説および=ねつ造説およびRuggRuggの仮説を支持の仮説を支持
23
-
24
•• 数多くの解読の試み→解読の成功例はない数多くの解読の試み→解読の成功例はない
•• 20042004年年RuggRuggの研究以降真贋論争が再燃の研究以降真贋論争が再燃
••ヴォイニッチ写本の部分文書をクラスタリングヴォイニッチ写本の部分文書をクラスタリングしたときに、挿図との対応が見られるかしたときに、挿図との対応が見られるか
=文書構造を持つか、デタラメな文書かを判定=文書構造を持つか、デタラメな文書かを判定
-
2525
•• 部分文書の単位:ページ単位部分文書の単位:ページ単位
•• 図との対応:図との対応:–– 図から推測されたセクション図から推測されたセクション
フォリオ番号フォリオ番号 セクションセクション ページ数ページ数
f. 1rf. 1r~~65v65v 植物(植物(PlantPlant)) 116116
f. 66rf. 66r~~7373vv 天文天文(Astoro.)(Astoro.) 2626
f. 75rf. 75r~~8484vv 生物生物(Bio.)(Bio.) 2020
f. 85r1f. 85r1~~85v685v6 十二宮図(十二宮図(ZodiacZodiac)) 88
f. 87rf. 87r~~102v2102v2 薬草薬草(Herb.)(Herb.) 3232
ff. 103r. 103r~~116r116r レシピ(レシピ(RecipeRecipe)) 2323
-
植物植物セクションセクション
•• 未知の植物の図未知の植物の図
•• 説明文らしきも説明文らしきものの
•• 分量が最も多い分量が最も多い
26
-
•• テキストは比較的少ないテキストは比較的少ない
•• 星雲が描かれているという説も星雲が描かれているという説も
27
-
•• テキストは比較テキストは比較的多い的多い
•• 小さい裸の女性小さい裸の女性が描かれているが描かれている
28
-
29
•• テキストはほとテキストはほとんどないんどない
•• 複数枚で一つ複数枚で一つ
•• 数は最も少ない数は最も少ない
-
30
•• 絵柄は植物絵柄は植物セクションセクションに似ているに似ている
•• 薬草壺らし薬草壺らしき物体き物体
-
•• 行頭文字のよ行頭文字のような挿図のみうな挿図のみ
•• ほとんどテキほとんどテキストスト
31
-
•• 未解読文書であるため、テキスト処理の未解読文書であるため、テキスト処理のにはトランスクリプションが必要にはトランスクリプションが必要
•• EVAEVA::EuropeanEuropean VoynichVoynich AlphabetAlphabet
–– ZandbergenZandbergenらが考案らが考案
–– 2626文字の基本セット文字の基本セット
32
-
33
•• トランスクリプショントランスクリプション
–– 高橋健によるトランスクリプションを利用高橋健によるトランスクリプションを利用
kchsy.chadaiin.ol-{plant}oltchey.char.cfhar.am-yteeay.char.or.ochy-{plant}dcho.lkody.okodar.chody-d!o.ckhy.ckho.ckhy.shy-{plant}dksheey.cthy.kotchody.dal-dol.chokeo.dair.dam-{plant}sochey.chokody=potoy.shol.dair.cphoal-{plant}dar.chey.tody.otoaiin.shoshy-choky.chol.cthol.shol.okal-{plant}dolchey.chodo.lol.chy.cthy-qo.ol.choeee.cheol.dol.cthey-{plant}ykol.dol.dolo.ykol.do.l!ch!!ody-okol.shol.kol.kechy.chol.ky-{plant}chol.cthol.chody.chol.daiin-shor.okol.chol.dol.ky.dar-{plant}shol.dchor.otcho.dar.shody-taor.chotchey.dal.chody-{plant}schody.pol.chodar=
http://www.dcc.unicamp.br/~stolfi/voynich/98-12-28-interln16e6/
f.1v
-
34
• 単語の切り分け:空白と改行で行う
• 注釈の除去:
–{}で囲まれた注釈は除去
異なり単語数 7907 語
平均単語数/ページ 166.0 語
平均単語長 5.0 文字
総ページ数 225 ページ
-
35
•• 単語の重み付け:単語の重み付け:TFTF・・IDFIDF法法
•• 部分文書同士類似度:キャンベラ距離部分文書同士類似度:キャンベラ距離–– 距離が近いほど、類似度が高い距離が近いほど、類似度が高い
⎟⎟⎠
⎞⎜⎜⎝
⎛⋅=⋅=
= jijMj
ijjijij n
Nf
fidftfw log
max,...1
∑= +
−=
n
k jkik
jkikij xx
xxd
1
-
36
Plant_f1r Plant_f1v Plant_f2r Plant_f2v Plant_f3r Plant_f3v Plant_f4r
Plant_f1r 0 7907 7907 7907 7907 7907 7907
Plant_f1v 7907 0 7615.696 7619.004 7570.843 7635.833 7713.638
Plant_f2r 7907 7615.696 0 7417.186 7448.504 7456.909 7636.899
Plant_f2v 7907 7619.004 7417.186 0 7401.165 7642.471 7556.286
Plant_f3r 7907 7570.843 7448.504 7401.165 0 7345.488 7502.947
Plant_f3v 7907 7635.833 7456.909 7642.471 7345.488 0 7566.793
Plant_f4r 7907 7713.638 7636.899 7556.286 7502.947 7566.793 0
Plant_f4v 7907 7710.788 7386.276 7313.975 7642.974 7346.136 7645.943
Plant_f5r 7907 7563.289 7370.537 7384.411 7250.004 7424.785 7582.286
Plant_f5v 7907 7686.23 7563.814 7577.542 7037.572 7554.82 7771.522
Plant_f6r 7907 7719.043 7664.163 7472.549 7175.165 7584.594 7515.726
Plant_f6v 7907 7660.002 7588.82 7370.369 7617.167 7591.089 7628.562
Plant_f7r 7907 7579.024 7165.719 7436.899 7564.423 7449.303 7625.256
Plant_f7v 7907 7647.892 7660.676 7595.512 7403.558 7372.305 7713.869
*距離行列の一部
最初のページは他のページと共通する単語が全く出現していない
-
37
••全てのページ同士の組に対して類似度全てのページ同士の組に対して類似度を算出し、類似度行列を作成を算出し、類似度行列を作成
––f. 1rf. 1rには他のページに出現する語がには他のページに出現する語が全く出現しない全く出現しない→他のページと性格が異なる→他のページと性格が異なる
––後世の誰かが捏造し追加?後世の誰かが捏造し追加?
––暗号のキー?暗号のキー?
-
38
•• サインが消された跡サインが消された跡
•• Jacobj `a TepeneceJacobj `a Tepenece
==Jakub Horcicky of Jakub Horcicky of TepenecTepenec(薬草の専門(薬草の専門家)家)
•• 蔵書?作成者?蔵書?作成者?
•• サイン自体がねつサイン自体がねつ造?造?
-
•• 類似度行列からセクションごとに平類似度行列からセクションごとに平均を算出均を算出
39
-
40
セクション内外のページ同士の類似度の平均
植物 天文 生物 十二宮図 薬草 レシピ
植物 7612.1 7715.7 7653.8 7666.0 7659.6 7686.3
天文 7715.7 7619.9 7638.9 7645.6 7670.2 7646.7
生物 7653.8 7638.9 6942.7 7302.9 7575.8 7242.6
十二宮図 7666.0 7645.6 7302.9 7350.7 7596.7 7346.2
薬草 7659.6 7670.2 7575.8 7596.7 7568.2 7593.4
レシピ 7686.3 7646.7 7242.6 7346.2 7593.4 7148.8
十二宮図以外は同じセクションのページ同士が異なるセクションよりも類似度が高い(距離が近い)
-
41
•• 類似度行列から類似度行列からクラスター分析クラスター分析––代表的な手法代表的な手法
「最短距離法」「最短距離法」
「最長距離法」「最長距離法」
「群平均法」「群平均法」
「ウォード法」「ウォード法」
-
42
Rec
ipe_
f112
vR
ecip
e_f1
13r
Rec
ipe_
f108
vR
ecip
e_f1
15r
Ast
ro_f
66v
Rec
ipe_
f104
vR
ecip
e_f1
07r
Rec
ipe_
f114
rR
ecip
e_f1
07v
Rec
ipe_
f108
rH
erb_
f87r
Rec
ipe_
f105
rR
ecip
e_f1
15v
Rec
ipe_
f116
rR
ecip
e_f1
06v
Rec
ipe_
f113
vP
lant
_f58
vP
lant
_f65
rR
ecip
e_f1
06r
Rec
ipe_
f105
vR
ecip
e_f1
14v
Zodi
ac_f
85r2
Zodi
ac_f
86v5
Zodi
ac_f
86v3
Rec
ipe_
f111
rR
ecip
e_f1
11v
Rec
ipe_
f103
vR
ecip
e_f1
04r
Bio
_f76
vR
ecip
e_f1
12r
Zodi
ac_f
85r1
Bio
_f78
vB
io_f
84v
Bio
_f77
rB
io_f
83v
Bio
_f78
rB
io_f
81v
Bio
_f82
vB
io_f
77v
Bio
_f84
rB
io_f
79v
Bio
_f80
vB
io_f
81r
Bio
_f75
vB
io_f
79r
Bio
_f76
rB
io_f
80r
Bio
_f82
rB
io_f
83r
Pla
nt_f
3rP
lant
_f5v
Pla
nt_f
7vP
lant
_f8r
Pla
nt_f
3vP
lant
_f4v
Pla
nt_f
5rP
lant
_f6r
Pla
nt_f
2vP
lant
_f6v
Pla
nt_f
1vP
lant
_f2r
Pla
nt_f
7rP
lant
_f13
rP
lant
_f19
vP
lant
_f15
rP
lant
_f17
rP
lant
_f15
vP
lant
_f19
rP
lant
_f37
rP
lant
_f20
rP
lant
_f23
rP
lant
_f10
rP
lant
_f21
vP
lant
_f45
vP
lant
_f16
vP
lant
_f57
rP
lant
_f13
vP
lant
_f22
vP
lant
_f10
vP
lant
_f21
rP
lant
_f44
vP
lant
_f46
rP
lant
_f23
vP
lant
_f24
rP
lant
_f32
vP
lant
_f37
vP
lant
_f45
rP
lant
_f25
rP
lant
_f28
vP
lant
_f28
rP
lant
_f20
vP
lant
_f49
vP
lant
_f29
vP
lant
_f16
rP
lant
_f56
vP
lant
_f35
vP
lant
_f36
rP
lant
_f14
rP
lant
_f50
rP
lant
_f31
rP
lant
_f33
rP
lant
_f14
vP
lant
_f30
rP
lant
_f26
rP
lant
_f30
vP
lant
_f38
rP
lant
_f11
rP
lant
_f29
rP
lant
_f22
rP
lant
_f38
vP
lant
_f9v
Pla
nt_f
48r
Pla
nt_f
25v
Pla
nt_f
36v
Pla
nt_f
8vP
lant
_f9r
Pla
nt_f
42v
Pla
nt_f
11v
Pla
nt_f
27v
Pla
nt_f
47v A
stro
_f69
rP
lant
_f39
rP
lant
_f43
rH
erb_
f95r
2P
lant
_f40
vH
erb_
f94v
Her
b_f9
5v1
Her
b_f9
6rP
lant
_f41
rP
lant
_f50
vP
lant
_f33
vP
lant
_f40
rP
lant
_f55
vZo
diac
_f86
v4P
lant
_f51
rH
erb_
f95r
1P
lant
_f35
rH
erb_
f95v
2P
lant
_f26
vA
stro
_f67
r1P
lant
_f27
rP
lant
_f41
vP
lant
_f34
rP
lant
_f47
rP
lant
_f44
rP
lant
_f56
rP
lant
_f39
vP
lant
_f48
vP
lant
_f34
vP
lant
_f43
vP
lant
_f46
vP
lant
_f49
rA
stro
_f71
rA
stro
_f72
v3A
stro
_f72
r3A
stro
_f72
v1A
stro
_f72
r1A
stro
_f72
r2A
stro
_f69
vA
stro
_f70
v2A
stro
_f72
v2A
stro
_f67
r2P
lant
_f32
rA
stro
_f73
vA
stro
_f68
v1A
stro
_f71
vB
io_f
75r
Ast
ro_f
70r1
Ast
ro_f
70r2
Ast
ro_f
73r
Ast
ro_f
70v1
Zodi
ac_f
86v6
Pla
nt_f
58r
Ast
ro_f
67v2
Pla
nt_f
54v
Her
b_f9
3vP
lant
_f54
rH
erb_
f94r
Pla
nt_f
4rP
lant
_f17
vP
lant
_f18
vA
stro
_f67
v1P
lant
_f52
vP
lant
_f24
vP
lant
_f51
vP
lant
_f1r
Pla
nt_f
65v
Ast
ro_f
68r1
Her
b_f9
0v2
Pla
nt_f
53v
Ast
ro_f
68r2
Pla
nt_f
53r
Pla
nt_f
55r
Her
b_f8
8v Her
b_f8
8rH
erb_
f87v
Her
b_f9
9rH
erb_
f102
v2R
ecip
e_f1
03r
Her
b_f8
9r1
Her
b_f9
9vH
erb_
f89v
2H
erb_
f102
r1H
erb_
f100
vP
lant
_f18
rH
erb_
f101
v2H
erb_
f102
v1 Her
b_f9
3rH
erb_
f89v
1H
erb_
f90r
1H
erb_
f100
rP
lant
_f42
rH
erb_
f102
r2A
stro
_f68
v3A
stro
_f68
v2P
lant
_f57
vA
stro
_f66
rP
lant
_f52
rH
erb_
f89r
2H
erb_
f101
r1P
lant
_f31
vH
erb_
f90v
1A
stro
_f68
r3H
erb_
f90r
2H
erb_
f96v50
0010
000
1500
020
000
2500
0「ウォード法」によるデンドログラム
-
43
-
44
-
45
VoynichVoynich写本の写本の部分文書クラスタリング部分文書クラスタリング
•• 図によるセクションに対応しページ同士図によるセクションに対応しページ同士がまとまるがまとまる
–– カルダーノ・グリルでデタラメに作成されたカルダーノ・グリルでデタラメに作成された文書であれば図との対応関係はないはず文書であれば図との対応関係はないはず
→→ 捏造ではない捏造ではない
•• 暗号だとしても複雑な暗号(暗号だとしても複雑な暗号(複式換字複式換字式式)ではない)ではない →→ 暗号ではなく言語暗号ではなく言語
-
46
まとめまとめ
•• 仮説「未知の言語の文書に対しても既存仮説「未知の言語の文書に対しても既存のテキスト処理技術が応用可能」からののテキスト処理技術が応用可能」からの未解読文書の解読可能性の判定手法未解読文書の解読可能性の判定手法
•• VoynichVoynich写本に適用し、テキストから導き写本に適用し、テキストから導き出した文書構造と挿図からのセクション出した文書構造と挿図からのセクションの対応関係を示したの対応関係を示した
–– 図と対応した構造を持つ文書=真正性が高い図と対応した構造を持つ文書=真正性が高い
-
•• クラスタリング結クラスタリング結果の詳細な評価果の詳細な評価
•• VoynichVoynich写本と同写本と同様に解読不能文書様に解読不能文書
–– LuigiLuigi SerafiniSerafiniにによるよるCodexCodexSeraphinianusSeraphinianus
–– RohoncRohonc CodexCodex
47
http://www.believermag.com/issues/200705/?read=article_taylor
-
安形輝(亜細亜大学)安形輝(亜細亜大学)[[安形麻理(慶應義塾大学)安形麻理(慶應義塾大学)]]
20082008//0202//2626 研究談話会研究談話会*発表に使用した*発表に使用したVoynichVoynich写本の画像は全てバイネッケ図書館がインターネット写本の画像は全てバイネッケ図書館がインターネット上で公開しているもの上で公開しているもの URLURL::http://http://www.library.yale.edu/beineckewww.library.yale.edu/beinecke//
-- 世界で最も謎に満ちた写本を例に世界で最も謎に満ちた写本を例に --
植物�セクションVoynich写本の�部分文書クラスタリングまとめ