20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

30
書誌データベースの漢字処理 -谷と穀は同じ字か- 京都大学工学研究科 桂化学系図書室 長坂和茂 [email protected] 151ku-librarians勉強会 前座

Upload: kulibrarians

Post on 31-May-2015

1.282 views

Category:

Documents


5 download

DESCRIPTION

http://kulibrarians.g.hatena.ne.jp/kulibrarians/20120713/1340789637

TRANSCRIPT

Page 1: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

書誌データベースの漢字処理

-谷と穀は同じ字か-

京都大学工学研究科

桂化学系図書室

長坂和茂

[email protected]

第151回ku-librarians勉強会 前座

Page 2: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

ところで

• 谷と穀は同じ字か

• 違うと思う人

• 同じだと思う人

Page 3: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

簡体字

• 谷は穀の簡体字

• 「じゃあ谷の簡体字は?」 →谷です。

• 「こんなの図書館の世界で使うの?」

Page 4: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

春秋穀梁伝

穀梁傳 - 维基百科,自由的百科全書

http://zh.wikipedia.org/wiki/%E7%A9%80%E6%A2%81%E5%82%B3 (閲覧:2012/7/10)

Page 5: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

春秋穀梁伝

谷梁传_百度百科 http://baike.baidu.com/view/40190.htm (閲覧:2012/7/10)

ちなみに。本当はWikipediaの表示を「大陸簡体」にするだけのつもりだったの

に、ノートに「榖梁是姓氏,不能被简化成谷梁。简体字中有“榖”这个字,简体字文章中亦是用“榖梁传”。BlazOops (留言) 2008年9月12日 (五) 11:32

(UTC)」って書いてあって、簡体字にしても表示が谷にならなかった。

Page 6: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

何が言いたいかというと

• 「春秋穀梁伝」は

• 「春秋穀梁傳」と書かれたり

• 「春秋谷梁传」と書かれたりする

• 全部中身は同じもの。使われている漢字が違うだけ

• では、書誌データベースはこれらをどう扱っているのか。

Page 7: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

なんでそんなことを考えなあかんねん

• もし「春秋穀梁伝」で検索して、繁体字・簡体字で書かれたものもヒットすると思い込んで検索したら、検索モレが発生する可能性

• 反論「だったら全部OR検索すればいいんじゃない?」

• →……その通り。けど簡体字とか繁体字に変換するのめんどいじゃん。

Page 8: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

その通りなんだけど

• 日本人は古くから「中国語」を「漢文」と称して「日本語」として読んできた、という経緯

• 東洋文学とか東洋史の学生・研究者(=我々のお客様)は簡体字も繁体字も新字体も普通に読む、という事実

• その人たちにサービスするのが我々の仕事

Page 9: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

異体字の定義

• 今回はUnicodeを基準とする

→「しんにょう」の点の数や「しめすへん」が示かネかの違いなど)は考慮に入れず、同じ字として扱う。

Ex.

Page 10: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

簡体字・繁体字・新字体

• ざっと説明

• 大まかに言って、もともと日本も中国ももともと繁体字(旧字体)を使っていた

• 戦後日本は新字体を、中国は簡体字(简体字 )を、台湾はそのまま繁体字(正體字)を使用するようになり、文字がバラバラになる。

• 細かい事情などは省略。

Page 11: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

いろいろあって

• Unicodeでは、それぞれに別のコードが宛てられることとなった。

• 別のコードが宛てられた文字(コンピュータから見れば完全に別の文字)をどのようにして、どの範囲まで「同じ文字」として扱うべきか。

Page 12: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

今回対象とするデータベース

• CiNii Books

• NDL-OPAC

• NDL Search

• 理由

1.比較的新しく、分析が進んでいない

2.Google的、のイメージから、テキトーな検索キーワードでもなんとか探してくれるんじゃないか、という期待が発生している気がする。

3.古典的な資料(=同じ「著作」が簡体字・繁体字・新字体それぞれで書かれている可能性が高い)が論文よりも図書に多い。(CiNii Articlesなどをはずした理由)

Page 13: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

予想

• CiNii BooksはNACSIS-Webcatの後継なので、NII

の漢字統合インデックス準拠

• NDL-OPACは「漢字は日本漢字、簡体字、繁体字

のいずれでも検索可能」ただし「複数の正体字が同じ簡体字に置き換わる場合」は別の字

• NDL-Searchは「日本漢字、簡体字、繁体字は別字として認識」

国立国会図書館サーチ、NDL-OPACにおけるアジア言語資料の検索について: アジア情報室通報 第10巻第1号 http://rnavi.ndl.go.jp/asia/entry/bulletin10-1-3.php

(閲覧:2012/7/10)

Page 14: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

テスト用に使った漢字

A B C D E

日本漢字

図 呉 書 館 内 学 後 穀 機 葉

簡体字

图 吴 书 馆 内 学 后 谷 机 叶

繁体字

圖 吳 書 館 內 學 後 穀 機 葉

Page 15: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

テスト方法

• A not BとB not Aで検索して、ヒット件数がどちらもゼロなら、A=Bといえる

• と思ったら、NDL-Searchにはnot検索がなかったので、仕方ないのでAとBの件数を比較。

Page 16: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

CiNii Books(予想)

A B C D E

日本漢字

図 呉 書 館 内 学 後 穀 機 葉

簡体字

图 吴 书 馆 内 学 后 谷 机 叶

繁体字

圖 吳 書 館 內 學 後 穀 機 葉

Page 17: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

CiNii Books

A B C D E

日本漢字

図 呉 書 館 内 学 後 穀 機 葉

簡体字

图 吴 书 馆 内 学 后 谷 机 叶

繁体字

圖 吳 書 館 內 學 後 穀 機 葉

Page 18: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

NDL-OPAC(予想)

A B C D E

日本漢字

図 呉 書 館 内 学 後 穀 機 葉

簡体字

图 吴 书 馆 内 学 后 谷 机 叶

繁体字

圖 吳 書 館 內 學 後 穀 機 葉

Page 19: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

NDL-OPAC

A B C D E

日本漢字

図 呉 書 館 内 学 後 穀 機 葉

簡体字

图 吴 书 馆 内 学 后 谷 机 叶

繁体字

圖 吳 書 館 內 學 後 穀 機 葉

あれ? 穀=谷? 複数の正体字が同じ簡体字に置き換わる場合」は別の字のはず

Page 20: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

NDL-Search(予想)

A B C D E

日本漢字

図 呉 書 館 内 学 後 穀 機 葉

簡体字

图 吴 书 馆 内 学 后 谷 机 叶

繁体字

圖 吳 書 館 內 學 後 穀 機 葉

Page 21: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

NDL-Search

A B C D E

日本漢字

図 呉 書 館 内 学 後 穀 機 葉

簡体字

图 吴 书 馆 内 学 后 谷 机 叶

繁体字

圖 吳 書 館 內 學 後 穀 機 葉

一致するものも、件数は一致するが、適合度順は異なる。

圖=図で、學=学だが、吳≠呉で、內≠内……なんでや?

Page 22: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

予想との乖離

• CiNii Books→なし。漢字統合インデックスのストライクゾーンの広さを知っていれば不思議でもなんでもない。(著=着、とか、書=昼とか)

• NDL-OPAC→穀=谷。しかし、後≠后で機≠机。→穀,谷だけが例外なのか?

• NDL-Search→圖=図、學=学(予想はずれ)。 吳≠呉、內≠内(予想あたり)→繁体字の中でも一致するものとしないものがある→法則は?

Page 23: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

NDL-OPAC検証

• 何故、穀=谷?

• 同類を他にも調べてみた。鬱(郁)、醜(丑)、雲(云)、乾・幹(干)などは全て別の文字扱い

• もう一度。何故、穀=谷?

• 誰か分かる人は教えてください。

Page 24: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

NDL-Search検証

• 圖=図、學=学。吳≠呉、內≠内。

• と、こうやってpptに貼り付けてゴシック体にしてみてわかったけど、圖と學はMS Pゴシックに字が有るけど、吳と內には無い。

• この間附属の書架をブラウジングしてたら以下のような記事を発見。

Page 25: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

NDL-Search検証

(近代デジタルライブラリーについて)「検索時の異体字の関連づけは第1~第4水準内に限られている」

• 富田倫生「冊子からテキストへ 文字コードがもたらすものと強いるもの (特集 図書館における全文テキストデータの可能性について)」『現代の図書館』49(2), 2011, p. 95-103 の p. 101

• JIS X 0208 圖 5426、學 555C 、吳 範囲外、內 範囲外

• →仮説「NDL-SearchはJIS第4水準までの旧字体を新字体に統合している」

Page 26: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

さらに検証

• とすれば……第3水準・第4水準の旧字体が統合されているか確認。

• 禰(第3水準)=祢を確認

• 第4水準表を見たが「○○という字の旧字体(繁体字)である」といえる字が見つからなかった。

• 第3水準の禰=祢なので、JIS X0208だけではなく、JISX0213を含むことは間違いない。

Page 27: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

どちらにしても

• NDLサーチについて、先に引用した「日本漢字、簡体字、繁体字は別字として認識されます。」という説明はアジアとしては間違ってないかもしれないが、JIS X 0208に学の繁体字である學が含まれることを考えれば不正確。

Page 28: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

CiNii Books検証

• 漢字統合インデックスは簡体字・繁体字だけでなく「似た形や同じ意味の漢字」を統合する

• 例:著=着 書=昼(晝)

• なのになぜか書=昼と画(畫)は別の字扱い

• ちなみに、NDL-Searchで図昼館で検索すると……「公共圖晝館經營に關する感想片々 / 伊東平藏 」???

• NDL-Searchには「圖畫館」もあった

• 誤植? 目録作成時のミス?

Page 29: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

まとめ

• CiNii Booksは簡体字とか繁体字とか気にせず検索できる代わりに、それらを区別した検索はできない

• NDL-OPACは簡体字が現代日本で別の漢字として使われている場合に注意が必要

• NDL-Searchは基本的に別の文字は別の文字として扱うと思ったほうがいい

Page 30: 20120713 ku-librarians勉強会#151:書誌データベースの漢字処理

おわり

京都大学工学研究科 桂化学系図書室

長坂和茂