文字の正統性

18
文字の正統性 2009/07/06 t_yamo

Upload: t-yamo

Post on 06-Aug-2015

1.099 views

Category:

Technology


5 download

TRANSCRIPT

文字の正統性

2009/07/06

t_yamo

動機 その1

某プロジェクト「○○(中国の人の姓)という漢字をシステムで扱えるようにしたい」

某プロジェクト「サポート範囲外の漢字が入力されたらサポート範囲内の漢字に自動変換したい」

そんなそんなそんなそんな簡単簡単簡単簡単にににに言言言言われてもわれてもわれてもわれても困困困困りますりますりますります。。。。

動機 その1

技術的技術的技術的技術的にににに可能可能可能可能なななな要件要件要件要件もありもありもありもありますがますがますがますが、、、、単純単純単純単純なななな話話話話ではないではないではないではないですよですよですよですよ。。。。

文字コードの事情

コードと見た目の事情

文字自体の事情

動機 その2

世の中には厳密に定義されているものは少ない。

にも関わらず、それらについて、どこかに正統な定義が存在しているかのように捉えている人たちもいる。

今回今回今回今回はははは文字文字文字文字((((主主主主にににに漢字漢字漢字漢字))))をををを題材題材題材題材にににに「「「「正統性正統性正統性正統性のののの危危危危うさうさうさうさ」」」」をををを考考考考えてみましょうえてみましょうえてみましょうえてみましょう。。。。

動機 その2

とはとはとはとは言言言言ってもってもってもっても、、、、5555分分分分だしだしだしだし、、、、私私私私がががが話話話話すのですのですのですので、、、、疑問疑問疑問疑問のののの提示提示提示提示だけしてだけしてだけしてだけして終終終終わらせますよわらせますよわらせますよわらせますよ。。。。

ヤマヤマヤマヤマなしなしなしなしオチオチオチオチなしなしなしなし

意味意味意味意味なしなしなしなしでもでもでもでも怒怒怒怒らないようにらないようにらないようにらないように。。。。

問1

←←←←これこれこれこれ、、、、なんてなんてなんてなんて読読読読むむむむ????

意味意味意味意味::::きめがきめがきめがきめが粗粗粗粗いいいい、、、、粗末粗末粗末粗末ななななUnicodeUnicodeUnicodeUnicode::::9EA49EA49EA49EA4JIS X 0208JIS X 0208JIS X 0208JIS X 0208::::コードコードコードコード割当割当割当割当なしなしなしなしJIS X 0213JIS X 0213JIS X 0213JIS X 0213::::1111面面面面94949494区区区区76767676点点点点漢検漢検漢検漢検1111級範囲級範囲級範囲級範囲でででで一番画数一番画数一番画数一番画数がががが多多多多いらしいですよいらしいですよいらしいですよいらしいですよ。。。。

答答答答ええええ::::ソソソソ、、、、スススス、、、、あらあらあらあら・・・・いいいい

問1

これってこれってこれってこれって漢字漢字漢字漢字????基本的基本的基本的基本的にはにはにはには「「「「漢字漢字漢字漢字」」」」とととと考考考考えるえるえるえる人人人人がががが多多多多そうそうそうそう。。。。

問2

←←←←これこれこれこれ、、、、なんてなんてなんてなんて読読読読むむむむ????

意味意味意味意味::::プラナリアプラナリアプラナリアプラナリア((((田田田田んぼとかにいるんぼとかにいるんぼとかにいるんぼとかにいる生物生物生物生物))))UnicodeUnicodeUnicodeUnicode::::JIS X 0208/0213JIS X 0208/0213JIS X 0208/0213JIS X 0208/0213::::コードコードコードコード割当割当割当割当なしなしなしなし2009/07/052009/07/052009/07/052009/07/05ににににt_yamot_yamot_yamot_yamoがががが勝手勝手勝手勝手にににに作作作作ったったったった漢字漢字漢字漢字ですですですです。。。。

答答答答ええええ::::プラナリアプラナリアプラナリアプラナリア

問2

これってこれってこれってこれって漢字漢字漢字漢字????基本的基本的基本的基本的にはにはにはには「「「「漢字漢字漢字漢字」」」」とととと考考考考えるえるえるえる人人人人がががが少少少少なそうなそうなそうなそう。。。。でもでもでもでも、、、、なんでなんでなんでなんで????・・・・最近最近最近最近、、、、できたものだからできたものだからできたものだからできたものだから????

→→→→ いつできたものならいつできたものならいつできたものならいつできたものならOKOKOKOK????・・・・t_yamot_yamot_yamot_yamoがががが作作作作ったからったからったからったから????

→→→→ 誰誰誰誰がががが作作作作ったものならったものならったものならったものならOKOKOKOK????・・・・文字文字文字文字コードコードコードコードがががが採番採番採番採番されてないからされてないからされてないからされてないから????

→→→→ どのどのどのどの文字文字文字文字コードコードコードコードならならならならOKOKOKOK????「「「「t_yamot_yamot_yamot_yamoコードコードコードコード」」」」をををを採番採番採番採番してもだめしてもだめしてもだめしてもだめ????

問3

←←←←これこれこれこれ、、、、なんてなんてなんてなんて読読読読むむむむ????

意味意味意味意味::::不明不明不明不明UnicodeUnicodeUnicodeUnicode::::JIS X 0208/0213JIS X 0208/0213JIS X 0208/0213JIS X 0208/0213::::コードコードコードコード割当割当割当割当なしなしなしなしTRONTRONTRONTRONコードコードコードコード::::3333面面面面7D6B7D6B7D6B7D6B番番番番雲雲雲雲××××3333のののの「「「「タイタイタイタイ」」」」とととと龍龍龍龍××××3333のののの「「「「トウトウトウトウ」」」」のののの合字合字合字合字っぽいっぽいっぽいっぽい。。。。1960196019601960年代年代年代年代にあるにあるにあるにある生命保険会社生命保険会社生命保険会社生命保険会社にににに現現現現れたれたれたれた人人人人がががが残残残残ししししていったていったていったていった名刺名刺名刺名刺にあったらしいがにあったらしいがにあったらしいがにあったらしいが、、、、実際実際実際実際にそんなにそんなにそんなにそんな苗字苗字苗字苗字があるのかがあるのかがあるのかがあるのか否否否否かはかはかはかは不明不明不明不明らしいらしいらしいらしい。。。。

答答答答ええええ::::たいとたいとたいとたいと

問3

これってこれってこれってこれって漢字漢字漢字漢字????意見意見意見意見がががが分分分分かれそうかれそうかれそうかれそう。。。。でもでもでもでも、、、、なんでなんでなんでなんで????・・・・「「「「漢字漢字漢字漢字」」」」ではないならではないならではないならではないなら「「「「あらあらあらあら・・・・いいいい」」」」とのとのとのとの違違違違いはいはいはいは????・・・・「「「「漢字漢字漢字漢字」」」」ならならならなら「「「「プラナリアプラナリアプラナリアプラナリア」」」」とのとのとのとの違違違違いはいはいはいは????

由来の怪しい漢字たち

墸 壥 妛 彁 挧 暃 椢 槞 蟐 袮 閠駲上記上記上記上記12121212個個個個のののの漢字漢字漢字漢字ははははJISJISJISJIS基本漢字基本漢字基本漢字基本漢字((((いわゆるいわゆるいわゆるいわゆる第第第第1111水準水準水準水準////第第第第2222水準水準水準水準))))にににに含含含含まれるがまれるがまれるがまれるが、、、、典拠不明典拠不明典拠不明典拠不明とされているものとされているものとされているものとされているもの。「。「。「。「幽霊漢幽霊漢幽霊漢幽霊漢字字字字」「」「」「」「幽霊文字幽霊文字幽霊文字幽霊文字」」」」とととと呼呼呼呼ばれるばれるばれるばれる。。。。

そのそのそのその後後後後のののの調査調査調査調査でででで「「「「彁彁彁彁」」」」以外以外以外以外はははは類似文字類似文字類似文字類似文字やややや写写写写しししし間違間違間違間違いのいのいのいの可能可能可能可能性性性性がががが指摘指摘指摘指摘されるがされるがされるがされるが「「「「彁彁彁彁」」」」はははは手手手手がかりなしがかりなしがかりなしがかりなし。。。。

普通普通普通普通にににに入力入力入力入力できるできるできるできる漢字漢字漢字漢字にもにもにもにも「「「「プラナリアプラナリアプラナリアプラナリア」」」」並並並並みにみにみにみに由来由来由来由来のののの怪怪怪怪しいものがありますよしいものがありますよしいものがありますよしいものがありますよ。。。。

問4:左右は同じ字?違う字?JIS X 0208/0213JIS X 0208/0213JIS X 0208/0213JIS X 0208/0213ではではではでは「「「「包摂包摂包摂包摂」」」」としてとしてとしてとして同同同同じじじじ字字字字としてとしてとしてとして扱扱扱扱われるわれるわれるわれる。。。。「「「「辻辻辻辻」」」」についてはについてはについてはについては、「、「、「、「例示字体例示字体例示字体例示字体」」」」としてとしてとしてとして1111点点点点のものとのものとのものとのものと2222点点点点のものがのものがのものがのものが差差差差しししし変変変変わったわったわったわった経緯経緯経緯経緯があるためがあるためがあるためがあるため、、、、フォントフォントフォントフォント表表表表現現現現ににににブレブレブレブレがががが出出出出やすいやすいやすいやすい。。。。表示表示表示表示をををを分分分分けたいけたいけたいけたい場合場合場合場合でもでもでもでも基本的基本的基本的基本的ににににはあきらめてくださいはあきらめてくださいはあきらめてくださいはあきらめてください。。。。

左左左左ははははラテンラテンラテンラテン文字文字文字文字ののののAAAA、、、、右右右右ははははギリシャギリシャギリシャギリシャ文字文字文字文字ののののAAAA。。。。フォントフォントフォントフォントのつくりによってはのつくりによってはのつくりによってはのつくりによっては同一同一同一同一にににに見見見見えるがえるがえるがえるが、、、、JIS X 0208/0213JIS X 0208/0213JIS X 0208/0213JIS X 0208/0213ではではではでは異異異異ななななるるるるコードコードコードコードをををを採番採番採番採番。。。。

包摂/例示字体

文字集合(JIS X 0208)

33区80点

33区81点

33区79点

同じ文字符号=同じ文字

例示字体 例示字体に包摂された字体

Unicode上の横棒たち(混ぜるな危険)

U+002D:HYPHEN-MINUSU+2212:MINUS SIGNU+FF0D:FULLWIDTH HYPHEN-MINUSU+30FC:KATAKANA-HIRAGANA PROLONGED SOUND MARKU+2012:FIGURE DASHU+2013:EN DASHU+2014:EM DASHU+2015:HORIZONTAL BARU+2500:BOX DRAWINGS LIGHT HORIZONTAL

当然当然当然当然、、、、いくらいくらいくらいくら見見見見たたたた目目目目がががが似似似似ていてもていてもていてもていても、、、、混在混在混在混在させさせさせさせたたたた場合場合場合場合はははは単純単純単純単純にににに比較比較比較比較してしてしてして検索検索検索検索しようとしてもしようとしてもしようとしてもしようとしても一致一致一致一致しませんからしませんからしませんからしませんから。。。。

おまけ:これって何文字?

答答答答ええええ::::1111文字文字文字文字。。。。普通普通普通普通だねだねだねだね。。。。

これはこれはこれはこれは古文古文古文古文でよくでてくるでよくでてくるでよくでてくるでよくでてくる「「「「よりよりよりより」」」」というというというという字字字字。。。。「「「「よよよよ」」」」とととと「「「「りりりり」」」」がががが1111文字文字文字文字にににに合合合合わさったものわさったものわさったものわさったもの。。。。複数複数複数複数のののの文字文字文字文字をををを結合結合結合結合したしたしたした文字文字文字文字をををを合字合字合字合字((((リガチャリガチャリガチャリガチャ))))というというというという。。。。じつはじつはじつはじつは「「「「&&&&」」」」ははははラテンラテンラテンラテン語語語語のののの「「「「eeee」」」」とととと「「「「tttt」、「」、「」、「」、「@@@@」」」」はははは「「「「aaaa」「」「」「」「dddd」」」」のののの合字合字合字合字らしらしらしらしいいいい。「$」。「$」。「$」。「$」はははは「「「「PPPP」「」「」「」「SSSS」」」」説説説説がががが有力有力有力有力。。。。廃廃廃廃れていったものもあるがれていったものもあるがれていったものもあるがれていったものもあるが、「、「、「、「麻呂麻呂麻呂麻呂」」」」→→→→「「「「麿麿麿麿」」」」やややや「「「「久米久米久米久米」」」」→→→→「「「「粂粂粂粂」」」」はははは生生生生きききき残残残残ってるっぽいってるっぽいってるっぽいってるっぽい。。。。

言いたいこと

AとBは同じ文字か?

どの単位で1字とみなすのか?

Aは正統な文字なのか?

とととと、、、、いうのはいうのはいうのはいうのは簡単簡単簡単簡単なななな話話話話ではありませではありませではありませではありませんよんよんよんよ。。。。システムシステムシステムシステムでいろんなでいろんなでいろんなでいろんな要件要件要件要件をををを満満満満たすたたすたたすたたすためにはめにはめにはめには下準備下準備下準備下準備がががが必要必要必要必要ですよですよですよですよ。。。。文字文字文字文字ってってってって奥奥奥奥がががが深深深深いですねいですねいですねいですね。。。。

参考幽霊文字http://ja.wikipedia.org/wiki/%E5%B9%BD%E9%9C%8A%E6%96%87%E5%AD%97

たいとhttp://ja.wikipedia.org/wiki/%E3%81%9F%E3%81%84%E3%81%A8

JIS X 0208http://ja.wikipedia.org/wiki/JIS_X_0208#.E5.85.B8.E6.8B.A0.E4.B8.8D.E6.98.8E.E3.81.AE.E6.BC.A2.E5.AD.97

ISO/IEC 2022http://ja.wikipedia.org/wiki/ISO/IEC_2022

文字概念と包摂http://www.tim.hi-ho.ne.jp/hebiguchi/KanjiCode/housetsu.htm

青空文庫:「ケ」のように見える文字の入力についてhttp://attic.neophilia.co.jp/aozora/task/small_or_large/2007_list.html

JIS X 0208と0213規格票の包摂関連項目http://www.aozora.gr.jp/hosetsu_kijyun/index.html

1点しんにょうの辻と2点しんにょうの辻http://slashdot.jp/~yasuoka/journal/417201

こせきの技術日記:Unicodeのハイフンっぽい文字いろいろhttp://d.hatena.ne.jp/koseki2/20070927/unicodehyphen

よりhttp://ja.wikipedia.org/wiki/%E3%82%88%E3%82%8A

合字http://ja.wikipedia.org/wiki/%E5%90%88%E5%AD%97