20120713 ku-librarians勉強会#151:書誌データベースの漢字処理
DESCRIPTION
http://kulibrarians.g.hatena.ne.jp/kulibrarians/20120713/1340789637TRANSCRIPT
ところで
• 谷と穀は同じ字か
• 違うと思う人
• 同じだと思う人
簡体字
• 谷は穀の簡体字
• 「じゃあ谷の簡体字は?」 →谷です。
• 「こんなの図書館の世界で使うの?」
春秋穀梁伝
穀梁傳 - 维基百科,自由的百科全書
http://zh.wikipedia.org/wiki/%E7%A9%80%E6%A2%81%E5%82%B3 (閲覧:2012/7/10)
春秋穀梁伝
谷梁传_百度百科 http://baike.baidu.com/view/40190.htm (閲覧:2012/7/10)
ちなみに。本当はWikipediaの表示を「大陸簡体」にするだけのつもりだったの
に、ノートに「榖梁是姓氏,不能被简化成谷梁。简体字中有“榖”这个字,简体字文章中亦是用“榖梁传”。BlazOops (留言) 2008年9月12日 (五) 11:32
(UTC)」って書いてあって、簡体字にしても表示が谷にならなかった。
何が言いたいかというと
• 「春秋穀梁伝」は
• 「春秋穀梁傳」と書かれたり
• 「春秋谷梁传」と書かれたりする
• 全部中身は同じもの。使われている漢字が違うだけ
• では、書誌データベースはこれらをどう扱っているのか。
なんでそんなことを考えなあかんねん
• もし「春秋穀梁伝」で検索して、繁体字・簡体字で書かれたものもヒットすると思い込んで検索したら、検索モレが発生する可能性
• 反論「だったら全部OR検索すればいいんじゃない?」
• →……その通り。けど簡体字とか繁体字に変換するのめんどいじゃん。
その通りなんだけど
• 日本人は古くから「中国語」を「漢文」と称して「日本語」として読んできた、という経緯
• 東洋文学とか東洋史の学生・研究者(=我々のお客様)は簡体字も繁体字も新字体も普通に読む、という事実
• その人たちにサービスするのが我々の仕事
異体字の定義
• 今回はUnicodeを基準とする
→「しんにょう」の点の数や「しめすへん」が示かネかの違いなど)は考慮に入れず、同じ字として扱う。
Ex.
簡体字・繁体字・新字体
• ざっと説明
• 大まかに言って、もともと日本も中国ももともと繁体字(旧字体)を使っていた
• 戦後日本は新字体を、中国は簡体字(简体字 )を、台湾はそのまま繁体字(正體字)を使用するようになり、文字がバラバラになる。
• 細かい事情などは省略。
いろいろあって
• Unicodeでは、それぞれに別のコードが宛てられることとなった。
• 別のコードが宛てられた文字(コンピュータから見れば完全に別の文字)をどのようにして、どの範囲まで「同じ文字」として扱うべきか。
今回対象とするデータベース
• CiNii Books
• NDL-OPAC
• NDL Search
• 理由
1.比較的新しく、分析が進んでいない
2.Google的、のイメージから、テキトーな検索キーワードでもなんとか探してくれるんじゃないか、という期待が発生している気がする。
3.古典的な資料(=同じ「著作」が簡体字・繁体字・新字体それぞれで書かれている可能性が高い)が論文よりも図書に多い。(CiNii Articlesなどをはずした理由)
予想
• CiNii BooksはNACSIS-Webcatの後継なので、NII
の漢字統合インデックス準拠
• NDL-OPACは「漢字は日本漢字、簡体字、繁体字
のいずれでも検索可能」ただし「複数の正体字が同じ簡体字に置き換わる場合」は別の字
• NDL-Searchは「日本漢字、簡体字、繁体字は別字として認識」
国立国会図書館サーチ、NDL-OPACにおけるアジア言語資料の検索について: アジア情報室通報 第10巻第1号 http://rnavi.ndl.go.jp/asia/entry/bulletin10-1-3.php
(閲覧:2012/7/10)
テスト用に使った漢字
A B C D E
日本漢字
図 呉 書 館 内 学 後 穀 機 葉
簡体字
图 吴 书 馆 内 学 后 谷 机 叶
繁体字
圖 吳 書 館 內 學 後 穀 機 葉
テスト方法
• A not BとB not Aで検索して、ヒット件数がどちらもゼロなら、A=Bといえる
• と思ったら、NDL-Searchにはnot検索がなかったので、仕方ないのでAとBの件数を比較。
CiNii Books(予想)
A B C D E
日本漢字
図 呉 書 館 内 学 後 穀 機 葉
簡体字
图 吴 书 馆 内 学 后 谷 机 叶
繁体字
圖 吳 書 館 內 學 後 穀 機 葉
CiNii Books
A B C D E
日本漢字
図 呉 書 館 内 学 後 穀 機 葉
簡体字
图 吴 书 馆 内 学 后 谷 机 叶
繁体字
圖 吳 書 館 內 學 後 穀 機 葉
NDL-OPAC(予想)
A B C D E
日本漢字
図 呉 書 館 内 学 後 穀 機 葉
簡体字
图 吴 书 馆 内 学 后 谷 机 叶
繁体字
圖 吳 書 館 內 學 後 穀 機 葉
NDL-OPAC
A B C D E
日本漢字
図 呉 書 館 内 学 後 穀 機 葉
簡体字
图 吴 书 馆 内 学 后 谷 机 叶
繁体字
圖 吳 書 館 內 學 後 穀 機 葉
あれ? 穀=谷? 複数の正体字が同じ簡体字に置き換わる場合」は別の字のはず
NDL-Search(予想)
A B C D E
日本漢字
図 呉 書 館 内 学 後 穀 機 葉
簡体字
图 吴 书 馆 内 学 后 谷 机 叶
繁体字
圖 吳 書 館 內 學 後 穀 機 葉
NDL-Search
A B C D E
日本漢字
図 呉 書 館 内 学 後 穀 機 葉
簡体字
图 吴 书 馆 内 学 后 谷 机 叶
繁体字
圖 吳 書 館 內 學 後 穀 機 葉
一致するものも、件数は一致するが、適合度順は異なる。
圖=図で、學=学だが、吳≠呉で、內≠内……なんでや?
予想との乖離
• CiNii Books→なし。漢字統合インデックスのストライクゾーンの広さを知っていれば不思議でもなんでもない。(著=着、とか、書=昼とか)
• NDL-OPAC→穀=谷。しかし、後≠后で機≠机。→穀,谷だけが例外なのか?
• NDL-Search→圖=図、學=学(予想はずれ)。 吳≠呉、內≠内(予想あたり)→繁体字の中でも一致するものとしないものがある→法則は?
NDL-OPAC検証
• 何故、穀=谷?
• 同類を他にも調べてみた。鬱(郁)、醜(丑)、雲(云)、乾・幹(干)などは全て別の文字扱い
• もう一度。何故、穀=谷?
• 誰か分かる人は教えてください。
NDL-Search検証
• 圖=図、學=学。吳≠呉、內≠内。
• と、こうやってpptに貼り付けてゴシック体にしてみてわかったけど、圖と學はMS Pゴシックに字が有るけど、吳と內には無い。
• この間附属の書架をブラウジングしてたら以下のような記事を発見。
NDL-Search検証
(近代デジタルライブラリーについて)「検索時の異体字の関連づけは第1~第4水準内に限られている」
• 富田倫生「冊子からテキストへ 文字コードがもたらすものと強いるもの (特集 図書館における全文テキストデータの可能性について)」『現代の図書館』49(2), 2011, p. 95-103 の p. 101
• JIS X 0208 圖 5426、學 555C 、吳 範囲外、內 範囲外
• →仮説「NDL-SearchはJIS第4水準までの旧字体を新字体に統合している」
さらに検証
• とすれば……第3水準・第4水準の旧字体が統合されているか確認。
• 禰(第3水準)=祢を確認
• 第4水準表を見たが「○○という字の旧字体(繁体字)である」といえる字が見つからなかった。
• 第3水準の禰=祢なので、JIS X0208だけではなく、JISX0213を含むことは間違いない。
どちらにしても
• NDLサーチについて、先に引用した「日本漢字、簡体字、繁体字は別字として認識されます。」という説明はアジアとしては間違ってないかもしれないが、JIS X 0208に学の繁体字である學が含まれることを考えれば不正確。
CiNii Books検証
• 漢字統合インデックスは簡体字・繁体字だけでなく「似た形や同じ意味の漢字」を統合する
• 例:著=着 書=昼(晝)
• なのになぜか書=昼と画(畫)は別の字扱い
• ちなみに、NDL-Searchで図昼館で検索すると……「公共圖晝館經營に關する感想片々 / 伊東平藏 」???
• NDL-Searchには「圖畫館」もあった
• 誤植? 目録作成時のミス?
まとめ
• CiNii Booksは簡体字とか繁体字とか気にせず検索できる代わりに、それらを区別した検索はできない
• NDL-OPACは簡体字が現代日本で別の漢字として使われている場合に注意が必要
• NDL-Searchは基本的に別の文字は別の文字として扱うと思ったほうがいい
おわり
京都大学工学研究科 桂化学系図書室
長坂和茂