テキスト検索は文字列検索でも木検索でもない

テキスト検索は文字列検索でも木検索でもな

い京都大学人文科学研究所附属漢字情報研究センター

安岡孝一

テキスト処理とコンピュータの出会い

• IBM 704 (1954)入出力に CPY 命令を使用

• 連続したメモリの内容を順次入出力

• FORTRAN I (1956)「 Hollerith field 」を FORMAT 文に導入

• 定数長の連続した文字の列• メモリ空間上に連続的に配置

文字列 (string) の登場

• ALGOL 60 (1960)BNF によって定式化「 string 」を 1 次元の文字の列として定義

<proper string> ::= <any sequence of basic symbols not containing ‘ or ’>|<empty><open string> ::= <proper string>|‘<open string>’|<open string><open string><string> ::= ‘<open string>’

多くの実装では「 string 」をメモリに連続配置

文字列処理の実用化

• IBM System/360 (1964)メモリ単位を 8bit=1byte に1 文字 =1byte (EBCDIC)

• PL/I (1964)CHARACTER 型を規定文字列に対する比較操作が可能に

文字列検索アルゴリズムの登場

• Morris-Pratt (1970)部分マッチング後の検索キーのシフト量を

増加• Knuth-Morris-Pratt (1974)

Morris-Pratt をさらに改良• Aho-Corasick (1975)

複数の検索キーに対し平行して検索

Aho-Corasick アルゴリズム

ex) ITALY と TIE と TULIA を検索

INSTITUTE FOR RESEARCH IN HUMANITIES

逆方向文字列マッチング

• Boyer-Moore (1977)検索キーの末尾からマッチングをおこなう非マッチング時の検索キーのシフト量を増

加• Commentz-Walter (1979)

複数の検索キーに対し Boyer-Moore を適用

Commentz-Walter アルゴリズム

I T A L

T U L I A

その他 3

I T A L

T U L I A

その他 3

I T A L

T U L I A

その他 3

I T A L

T U L I A

その他 3

I T A L

T U L I A

その他 3

I T A L

T U L I A

その他 3

漢字テキスト検索への応用

• 1 文字≠ 1byteex) 「安岡の 1 族」を日本語 EUC で表現

安岡の 1 族B0 C2 B2 AC A4 CE 31 C2 B2

単純なバイト列マッチングでは検索に失敗？

• 1 文字≠ 1byte

• 異体字による曖昧検索ex) 「帝國大學」の検索

「帝国大学」も「帝國大学」も「帝国大學」も…

幾何級数的に組み合わせが増える

「國」の異体字 : 国、囯、囻、圀、囶「學」の異体字 : 学、斈、斆、斅

• 篠原－有川 (1985)Aho-Corasick を漢字テキスト用に改良ex) 日本語 EUC で「十週休」と「十周休」

を検索BD BD BD B5

A1 ～ AFB1 ～ FE

A1 ～ FE

漢字における逆方向マッチング

• 日本語 EUC やシフト JIS では難しい• UTF-8 を考案 (1993)

– ISO 10646 (Unicode) の変形の一種– 1 文字を 1 ～ 6 バイトで表現

• 1 バイト目には 00 ～ 7F 、 C0 ～ FE を使用• 2 バイト目以降には 80 ～ BF を使用

安岡の 1 族E5 AE 89 E5 B2 A1 E3 81 AE 31 E6 97 8F安岡の 1 族E5 AE 89 E5 B2 A1 E3 81 AE 31 E6 97 8F

UTF-8 での逆方向マッチング

• Commentz-Walter を使用可能∵ 文字間にマッチングすることはありえな

いex) 「大学」「大學」「大斈」を検索

8896E6

E5E5 A4 A7

• 1 文字≠ 1byte

• 異体字による曖昧検索• テキストの非１次元性

漢字テキストの非１次元性

• ルビつきテキストの検索

私は安岡孝一です。やすおかこういち

安岡孝一です

私はやすおか

安岡こういち

• ルビつきテキストの検索• 本文に埋め込まれた注の検索

故宮の神 ( 玄の避諱 ) 武門に向かった。故宮の神 ( 玄の避諱 ) 武門に向かった。

神武門

故宮の神 ( 玄の避諱 ) 武門に向かった。故宮の神 ( 玄の避諱 ) 武門に向かった。

故宮の玄武門

故宮の神 ( 玄の避諱 ) 武門に向かった。

テキスト検索は文字列検索ではない

• テキストの非１次元性にどう対処するか– XML/XHTML を使う？

ex) XHTML における Ruby Annotation (2001)<p> 私は <ruby xml:lang=“ja”><rbc><rb> 安 </rb><rb> 岡 </rb><rb> 孝 </rb><rb> 一 </rb></rbc><rtc><rt> やす </rt><rt> おか </rt><rt> こう </rt><rt> いち </rt></rtc></ruby> です。 </p>

<p> 私は <ruby xml:lang=“ja”><rbc><rb> 安 </rb><rb> 岡 </rb><rb> 孝 </rb><rb> 一 </rb></rbc><rtc><rt> やす </rt><rt> おか </rt><rt> こう </rt><rt> いち </rt></rtc></ruby> です。 </p> p

rb rb rbrb

rt rt rtrt

安岡孝一やすおかこういち

私はです。

木構造がテキストの流れと合致しない

rb rb rbrb

rt rt rtrt

安岡孝一やすおかこういち

私はです。

テキスト検索は文字列検索ではない

• テキストの非１次元性にどう対処するか– Directed Acyclic Graph でテキストを実装？

検索アルゴリズムは？

DAG テキストの検索アルゴリズム

• Aho-Corasick 風アルゴリズム– 深さ優先で容易に実装可能– パスが縮退した際の打ち切りは容易

• Commentz-Walter 風アルゴリズム– 深さ優先で実装可能

通ってきたノードを記憶する必要あり

– パスが縮退した際の打ち切り条件が複雑

DAG テキストの検索アルゴリズム

• 分岐と縮退によるパス数の爆発

• 縮退時の打ち切りは？– Aho-Corasick 風アルゴリズム

初期状態に戻れば確実に打ち切れる– Commentz-Walter 風アルゴリズム

「その他」が起これば確実に打ち切れる

今後の課題

• DAG テキスト検索アルゴリズムの高速化– パス数の爆発を抑えられるか？– 縮退時の打ち切り条件を tight にできる

か？– もっと効率のよいアルゴリズムはない

か？

テキスト検索は文字列検索でも木検索でもな

い京都大学人文科学研究所附属漢字情報研究センター

安岡孝一

テキスト検索は文字列検索でも木検索でもない

Documents

ajacs advanced: ngsデータベース検索

文献検索早わかり＠東京大学①...

【基本検索画面】【基本検索画面】もの...

検索カンタン！電子ジャーナルを読もう！ ·...

カラーコードの検索方法 : pcのctrl + fキー …...

情報検索2（医中誌検索） -...

カラーコードの検索方法 : pcのctrl + fキー...

new taqman assay search 検索ガイド - thermo …€¢...

mysqlへの地理空間距離関数の追加 -...

何を検索するか？によっても変わる！point 1...

20130109 検索cross yasuda

年月実施資料の探し方...

コミック検索『なびコミ』機能解説1...

intra-mart webplatform/appframework...

cin pocket guide 1612シリーズポケットガイド ①...

filemaker基本操作マニュアル ·...

pubmedの基本的な...

カラーコードの検索方法 : pcのctrl + fキー...

図 18 に示すとおり、google...

メディカルオンライン...Ⅳ.文献検索...

テキスト検索は 文字列検索でも木検索でもない

テキスト検索は文字列検索でも木検索でもない