『コーパスに基づく言語学教育研究報告』 no.9 (2012)...

14
-129- 『コーパスに基づく言語学教育研究報告』 No.9 (2012) スワヒリ語における動詞複合体の形態素解析 の試み 佐藤 大和 (東京外国語大学グローバル COE 特任教授) 要 旨 本論文は,スワヒリ語「口語」コーパスを用いたスワヒリ語研究のためのツールとして の形態素解析に関して述べたものである。特に,スワヒリ語動詞複合体を構成する動詞語 幹と,主語接辞,時制標識,目的語接辞等の接頭辞類を同定し,これらを区分化する手法 に関して報告する。 1. はじめに 東京外国語大学グローバル COE プロジェクトでは,世界の各種言語の研究の一環として, スワヒリ語の「口語」コーパスを構築し,これに基づいたスワヒリ語研究を進めている。 従来スワヒリ語の研究は,主として所謂「文語」を対象としてなされてきたが,言語研究 としては実際の言語運用の実態に基づいた研究が求められる。そのため,本プロジェクト では,インタビュアーによる対話形式の音声を収録し,これをテキストに書き起こすこと によって,より「口語」的な資料としてのスワヒリ語コーパスを作成した(詳細は稗田(2011))。 コーパスに基づく言語研究では,形態素などの言語要素への区分化とタグ付け等の作業 が必要になる。これらの作業を人手によって行うのは,大量の言語資料を対象とする場合 には作業量が極めて多くなり能率的ではない。形態素解析ツールなどによって自動的に分 節化したりタグ付けをする手法が必要になってくる。英語などのように,語と語がスペー スによって区分化されているテキストを扱う場合には問題は少ないが,日本語やスワヒリ 語のように接辞や造語成分が複合・膠着した形態を扱う場合には,特に形態素解析の手段 が必要になる。 本プロジェクトにおけるスワヒリ語研究では,動詞複合体を構成する目的語接辞の役割 に焦点を当てて研究が進められてきた(稗田(2010, 2011) )。本報告は,こうしたスワヒリ 語研究に役立てるため,スワヒリ語テキスト・コーパスから動詞複合体を検出し,それを 構成する形態素(各種接頭辞)と動詞要素を分離抽出する手法とツールに関して述べたも のである。

Upload: others

Post on 30-Dec-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 『コーパスに基づく言語学教育研究報告』 No.9 (2012) スワヒリ語における動詞複合体の形態素解析 …cblle.tufs.ac.jp/assets/files/publications/working_papers_09/section/... ·

-129-

『コーパスに基づく言語学教育研究報告』 No.9 (2012)

スワヒリ語における動詞複合体の形態素解析

の試み 佐藤 大和

(東京外国語大学グローバル COE 特任教授)

要 旨

本論文は,スワヒリ語「口語」コーパスを用いたスワヒリ語研究のためのツールとして

の形態素解析に関して述べたものである。特に,スワヒリ語動詞複合体を構成する動詞語

幹と,主語接辞,時制標識,目的語接辞等の接頭辞類を同定し,これらを区分化する手法

に関して報告する。

1. はじめに

東京外国語大学グローバルCOEプロジェクトでは,世界の各種言語の研究の一環として,

スワヒリ語の「口語」コーパスを構築し,これに基づいたスワヒリ語研究を進めている。

従来スワヒリ語の研究は,主として所謂「文語」を対象としてなされてきたが,言語研究

としては実際の言語運用の実態に基づいた研究が求められる。そのため,本プロジェクト

では,インタビュアーによる対話形式の音声を収録し,これをテキストに書き起こすこと

によって,より「口語」的な資料としてのスワヒリ語コーパスを作成した(詳細は稗田(2011))。

コーパスに基づく言語研究では,形態素などの言語要素への区分化とタグ付け等の作業

が必要になる。これらの作業を人手によって行うのは,大量の言語資料を対象とする場合

には作業量が極めて多くなり能率的ではない。形態素解析ツールなどによって自動的に分

節化したりタグ付けをする手法が必要になってくる。英語などのように,語と語がスペー

スによって区分化されているテキストを扱う場合には問題は少ないが,日本語やスワヒリ

語のように接辞や造語成分が複合・膠着した形態を扱う場合には,特に形態素解析の手段

が必要になる。

本プロジェクトにおけるスワヒリ語研究では,動詞複合体を構成する目的語接辞の役割

に焦点を当てて研究が進められてきた(稗田(2010, 2011) )。本報告は,こうしたスワヒリ

語研究に役立てるため,スワヒリ語テキスト・コーパスから動詞複合体を検出し,それを

構成する形態素(各種接頭辞)と動詞要素を分離抽出する手法とツールに関して述べたも

のである。

Page 2: 『コーパスに基づく言語学教育研究報告』 No.9 (2012) スワヒリ語における動詞複合体の形態素解析 …cblle.tufs.ac.jp/assets/files/publications/working_papers_09/section/... ·

-130-

2. スワヒリ語形態素解析の方法

2.1. 動詞複合体

スワヒリ語では,動詞語幹に種々の接辞が付加されて動詞複合体を構成する。動詞複合

体は,以下に示された要素とその順序によって構成される。

動詞複合体:SP-TM-(RM)-(OP)-VERB-(ES)-FV

ここで,

SP:主語接辞 (Subject Prefix)

TM:時制標識 (Tense Marker)

RM:関係節標識 (Relative Marker)

OP:目的語接辞 (Object Prefix)

VERB:動詞語幹

ES:拡張接尾辞 (Extension Suffix)

FV:終母音 (Final Vowel)

括弧で括られた関係節標識(RM),目的語接辞(OP),拡張接尾辞(ES)は,必須要素ではな

い。なお,主語接辞(SP)は,命令形のときは省略される。

すべての要素が付加された動詞複合体の例を以下に示す。

kitabu ni-li-cho-m-som-esh-a mtoto (‘the book which I made a child to read’)

book SP-TM-RM-OP-read-ES-FV child

上記の動詞複合体 ni-li-cho-m-som-esh-a は以下の形態素から形成されている。

som 動詞語幹(“読む”)

ni- 主語接辞(1 人称単数)

li- 時制標識(過去時制)

cho- 関係節標識(物のクラス 単数)

m- 目的語接辞(3 人称単数,人間のクラス)

-esh 拡張接尾辞(使役)

-a 終母音

今回の形態素解析ツールでは,動詞複合体の接頭辞類の役割を明らかにする目的である

ことから,(動詞語幹)-(拡張接尾辞)-(終母音)の連接は,新たに一つの(動詞:VERB)

という単位として扱うこととした。すなわち,動詞は拡張接尾辞と終母音を含む単位とし

て辞書に登録される。こうすることにより,動詞複合体の構成は以下のようになる。

動詞複合体:SP-TM-(RM)-(OP)-VERB

Page 3: 『コーパスに基づく言語学教育研究報告』 No.9 (2012) スワヒリ語における動詞複合体の形態素解析 …cblle.tufs.ac.jp/assets/files/publications/working_papers_09/section/... ·

-131-

これにより前記の動詞複合体の例の場合は,以下のような要素の連接となる。

動詞複合体の例:ni-li-cho-m-somesha

2.2. 形態素解析上の考慮すべき点

スワヒリ語動詞複合体の形態素解析は,まず動詞辞書を用い,後方一致によって入力テ

キストから動詞の検出を行う。動詞が検出された単位は,接辞類の辞書を用いて各接辞の

区分化を行う。その際,留意すべき点を以下に示す。

(1) 動詞辞書中の動詞は,多くは語尾が –a で終わる形式(不定形)で表現されている。

テキスト上,語尾は –e(命令形)や –i(否定形)に変化している場合があるので,

動詞辞書とのマッチングは,このような変形を考慮しなければならない。

(2) 動詞の中にはもともと –i で終わる動詞も存在する。例えば,「住む」を意味する ishi

という動詞は,「終える」を意味する isha の否定形と同形となる。しかし,動詞が

否定形の場合には,主語接辞は否定の接頭辞が用いられるので,主語接辞を肯定型と

否定形の接辞に分け,否定の主語接辞と動詞の否定形の共起性を考慮して処理しなけ

ればならない。

(3) スワヒリ語のテキスト・コーパスは,音声言語を文字表記した「口語」コーパスであ

る。「口語」の特徴として,語を強調したい時など母音部を伸長して発音することが

考えられ,その場合伸長部分を長音化(母音の重ね書き,aa など)して表記するこ

とが予想される。一方,もともと長母音を含む動詞も存在するところから,動詞辞書

を,長母音を含む動詞辞書と含まない動詞辞書に分割し,テキスト中の動詞が長母音

を含む場合には,それが長母音動詞辞書に含まれる動詞であるかどうかをチェックす

る処理が必要になる。

3. 形態素解析ツール

3.1. 入力テキスト

入力となるスワヒリ語コーパス(テキスト)は,以下に示すようにスペースやピリオドなど

の区切り記号で区分化された語および形態素の複合体の系列である。

mwishoni mwa wiki kama leo ama kesho, wakazi wengi wa mijini hujipumzisha jioni

kwa kuangalia michezo mbali mbali. katika michezo hiyo hakuna unaopendwa sana kama

mpira, na ukienda kwenye viwanja utakuta makundi makubwa ya wafanya kazi, akina mama

na watoto wanaangalia mchuano kati ya timu mbali mbali wakishangilia kwa furaha sana.

lakini katika miezi michache iliyopita, na hasa katika wiki chache hizi za karibuni, kumezuka

hali ambayo inaweza kuwa na hatari sana katika viwanja vya michezo ikiwa wanaohusika

hawatachukua hatua kali.

Page 4: 『コーパスに基づく言語学教育研究報告』 No.9 (2012) スワヒリ語における動詞複合体の形態素解析 …cblle.tufs.ac.jp/assets/files/publications/working_papers_09/section/... ·

-132-

(訳:In weekend like today or tomorrow, many workers in town relax in the evening by watching

various games, in these games there is no other game that is favored very much like football, and if

you go to a stadium you will meet big groups of workers and groups of mothers and children

watching games among various teams with making rejoicings shout with joy. But in last few months,

and especially in these recent few weeks, it started up that it was very dangerous to be in stadiums

when audiences became fierce in progress. )

3.2. 辞書類のファイル

形態素解析に用いられる辞書類ファイルは,動詞辞書と接辞辞書類から成っており,す

べて CSV 形式のテキストファイルである。辞書中,#で始まる行はコメント行であり,そ

の行は読み飛ばす。

以下に辞書ファイルの内容を示す。

(1)動詞辞書

動詞辞書は,swahiri_Verb1.txt と swahiri_Verb2.txt の二つの辞書ファイルに分かれている。

swahiri_pre_Verb1.txt には連続母音を内部に有する動詞が,swahiri_pre_Verb2.txt には連続母

音を含まない動詞が登録されている。

入力テキストに対して,検索対象に連続母音を含む場合には,最初に Verb1 を用いて連

続母音を含む動詞の検索を行い,検索されなかった場合は,連続母音を単母音に縮約して

Verb2 を用いた動詞の検索を行う。

(swahiri_Verb1.txt の例(部分))順に,表記,品詞,付加カテゴリ,文字数,を示す。

staajabisha, v, v,11 ( ‘make wonder’ )

staajabiwa, v, v pas,10 ( ‘be astonished’ )

chuchumaa, v, v,9 ( ‘squat on the haunches’ )

shajisha, v, v,8 ( ‘incite’ )

dhoofisha, v, v,9 ( ‘weaken’ )

maanisha, v, v caus,8 ( ‘denote’ )

(swahiri_Verb2.txt の例(部分))

pambanisha, v, v,10 ( ‘make to contest’ )

rakibishwa, v, v,10 ( ‘be ridden’ )

randaranda, v, v,10 ( ‘loiter’ )

rekebishwa, v, v,10 ( ‘be adjusted’ )

sababishwa, v, v,10 ( ‘be caused’ )

sahaulisha, v, v,10 ( ‘make to forget’ )

sahihisha , v, v,10 ( ‘correct’ )

Page 5: 『コーパスに基づく言語学教育研究報告』 No.9 (2012) スワヒリ語における動詞複合体の形態素解析 …cblle.tufs.ac.jp/assets/files/publications/working_papers_09/section/... ·

-133-

(2)主語接辞辞書

主語接辞辞書は,swahiri_pre_SP1.txt と swahiri_pre_SP2.txt の二つの辞書からなっている。

前者は,動詞に肯定の接尾辞を伴う場合の主語接辞類であり,後者は動詞に否定の接尾辞

–i を伴う場合の主語接辞類である。

(awahiri_pre_SP1.txt の例(部分))肯定の主語接辞

表記,結合手付表記,を表す(以下の接辞辞書も同じ)

ni, ni- (1 人称単数)

u, u- (2 人称単数)

a, a- (3 人称単数)

tu, tu- (1 人称複数)

m, m- / mw, mw- (2 人称複数)

wa, wa- (3 人称複数)

(awahiri_pre_SP2.txt の例(部分))否定の主語接辞

si, si- (1 人称単数)

hu, hu- (2 人称単数)

ha, ha- (3 人称単数)

hatu, ha-tu- (1 人称複数)

ham, ha-m- (2 人称複数)

hawa, ha-wa- (3 人称複数)

(3)目的語接辞辞書(swahiri_pre_OP.txt)

目的語接辞類の辞書である。

(例(部分))

ni, ni- (1 人称単数)

ku, ku- (2 人称単数)

m, m- / mw, mw- (3 人称単数)

tu, tu- (1 人称複数)

wa, wa- (2 人称複数,3 人称複数)

(4)時制標識辞書(swahiri_pre_T.txt)

時制標識接辞類の辞書である。

(例(部分))

na, na- (現在)

ta, ta- (未来)

li, li- (過去)

me, me- (完了)

ku, ku- (否定過去)

Page 6: 『コーパスに基づく言語学教育研究報告』 No.9 (2012) スワヒリ語における動詞複合体の形態素解析 …cblle.tufs.ac.jp/assets/files/publications/working_papers_09/section/... ·

-134-

(5)関係節標識辞書(swahiri_pre_Rel.txt)

関係節標識接辞類の辞書である。

(例(部分))

ye, ye- (人のクラス 3 人称単数)

o, o- (人のクラス 3 人称複数,植物のクラス 単数,

長くて薄い物のクラス 単数)

yo, yo- (植物のクラス 複数,果物のクラス 複数,動物のクラス 単数)

cho, cho- (物のクラス 単数)

vyo, vyo- (物のクラス 複数)

3.3. プログラムの起動

形態素解析プログラム( swh_splitter.rb )は Ruby スクリプトであり,Windows のコマンド

プロンプトから以下のように起動する。

ruby swh_splitter.rb [option] <input filename> ...

ここで,

<input filename> : スワヒリ語のテキストファイル。

複数指定可(指定順に順次処理する)

[option] : オプション指定

-v 分析結果の詳細情報を表示

(このオプションがない場合は,出力は原テキストに接辞境界記号

が挿入された形式となる)

-w 辞書にない接辞が見つかった場合→ 警告を表示

-u 辞書にない接辞が見つかった場合→ 原文のテキストを表示

-h ヘルプ画面表示

--version バージョン番号を表示

分析結果は標準出力に表示される。結果をファイルに出力したい場合は,以下のように

リダイレクトする。

ruby swh_splitter.rb [option] <input filename> ...>output_filename.txt

以下に解析結果の例を示す。

C:¥>ruby swh_splitter.rb swh_test.txt (←詳細分析のオプションのない場合)

mwishoni mwa wiki kama leo ama kesho, wakazi wengi wa mijini h-u-ji-pumzisha jioni kwa

ku-angalia michezo m-bali m-bali. katika michezo hiyo h-a-kuna u-na-o-pendwa sana kama mpira,

na u-ki-enda kw-enye vi-wa-n-ja u-ta-kuta makundi m-a-kubwa ya wa-fanya kazi, akina m-ama na

Page 7: 『コーパスに基づく言語学教育研究報告』 No.9 (2012) スワヒリ語における動詞複合体の形態素解析 …cblle.tufs.ac.jp/assets/files/publications/working_papers_09/section/... ·

-135-

watoto wa-na-angalia mchuano kati ya timu m-bali m-bali wa-ki-shangilia kwa furaha sana. lakini

katika miezi m-i-chache i-li-yo-pita, na h-asa katika wiki chache hizi za ka-ri-buni, ku-me-zuka

h-a-li ambayo i-na-weza kuwa na hatari sana katika vi-wa-n-ja vya michezo ikiwa wa-na-o-husika

ha-wa-ta-chukua h-atua kali....

C:¥>ruby swh_splitter.rb -v swh_test.txt (←詳細分析のオプション指定の場合)

(動詞複合体として検出されたもののみ以下に示す。)

hujipumzisha

[SP ] hu

[OP ] ji

[VERB] pumzisha

---> h-u-ji-pumzisha

unaopendwa

[SP ] u

[T ] na

[REL ] o

[VERB] pendwa

---> u-na-o-pendwa

ukienda

[SP ] u

[T ] ki

[VERB] enda

---> u-ki-enda

wanaangalia

[SP ] wa

[T ] na

[VERB] angalia

---> wa-na-angalia

iliyopita

[SP ] i

[T ] li

[REL ] yo

[VERB] pita

---> i-li-yo-pita

Page 8: 『コーパスに基づく言語学教育研究報告』 No.9 (2012) スワヒリ語における動詞複合体の形態素解析 …cblle.tufs.ac.jp/assets/files/publications/working_papers_09/section/... ·

-136-

kumezuka

[SP ] ku

[T ] me

[VERB] zuka

---> ku-me-zuka

wanaohusika

[SP ] wa

[T ] na

[REL ] o

[VERB] husika

---> wa-na-o-husika

hawatachukua

[SP ] hawa

[T ] ta

[VERB] chukua

---> ha-wa-ta-chukua

ukichunguza

[SP ] u

[T ] ki

[VERB] chunguza

---> u-ki-chunguza

atatokea

[SP ] a

[T ] ta

[VERB] tokea

---> a-ta-tokea

atakayejidai

[SP ] a

[T ] taka

[REL ] ye

[OP ] ji

[VERB] dai

---> a-taka-ye-ji-dai

atawakagomesha

[SP ] a

[T ] ta

[OP ] wa

Page 9: 『コーパスに基づく言語学教育研究報告』 No.9 (2012) スワヒリ語における動詞複合体の形態素解析 …cblle.tufs.ac.jp/assets/files/publications/working_papers_09/section/... ·

-137-

[VERB] kagomesha

---> a-ta-wa-kagomesha

スワヒリ語動詞複合体の形態素解析の処理フローを図 1~図 5 に示す。図 1 は,解析処理

のメインフローである。図 2 は,テキストからの 1 単位の読込み処理,図 3 は,切り出さ

れた単語の処理フローである。図 4 は,動詞の辞書検索,図 5 は,接辞類の検索と境界記

号挿入処理フローを示す。

図 1:スワヒリ語動詞複合体の形態素解析メインフロー

入力ファイル(スワヒリ語テキスト)

メイン

単語読み込みループ

単語読み込みループ

1単語の処理

そのまま出力区切り文字の挿入結果を出力

終了

読み込んだ種類別の処理

終端 単語

1単位読み込み(単語/境界記号/終端)

境界記号

Page 10: 『コーパスに基づく言語学教育研究報告』 No.9 (2012) スワヒリ語における動詞複合体の形態素解析 …cblle.tufs.ac.jp/assets/files/publications/working_papers_09/section/... ·

-138-

図 2:スワヒリ語テキストからの 1 単位読込み処理

1単位読み込み

入力ファイル(スワヒリ語テキスト)境界記号文字を読み込む

(1文字以上の連続)

1文字以上読み込んだ?

Yes境界記号を返す

[ ]で囲まれた文字列を読み込む

No

[ ]を読み込んだ?

Yes境界記号を返す

No

境界記号文字以外を読み込む(1文字以上の連続)

1文字以上読み込んだ?

Yes単語を返す

終端を返す

【境界記号文字】タブ、CR、LF、スペース、!、(、)、

カンマ、-、ピリオド、/、0~9、;、;、=、?、‘、’、…

No

Page 11: 『コーパスに基づく言語学教育研究報告』 No.9 (2012) スワヒリ語における動詞複合体の形態素解析 …cblle.tufs.ac.jp/assets/files/publications/working_papers_09/section/... ·

-139-

図 3:1 単語の処理フロー

1単語の処理

否定の接尾辞をチェック

マッチしたものがある?

動詞類辞書の検索(連続母音なし)

マッチしたものがある?

元の文字列を返す

終了

swahiri_pre_SP2.txtから読み込んだ内容

動詞類辞書の検索(連続母音あり)

接辞検索・区切り文字挿入

区切り文字を挿入したテキストを返す

Yes

No

Yes

No

swahiri_pre_Verb1.txtから読み込んだ内容

(連続母音を含む動詞)

swahiri_pre_Verb2.txtから読み込んだ内容

(連続母音を含まない動詞)

連続母音は1つの母音として比較する

Page 12: 『コーパスに基づく言語学教育研究報告』 No.9 (2012) スワヒリ語における動詞複合体の形態素解析 …cblle.tufs.ac.jp/assets/files/publications/working_papers_09/section/... ·

-140-

図 4:動詞辞書の検索処理

動詞類辞書の検索

検索ループ

検索ループ

辞書から検索候補を絞る検索の高速化のため、同じ子音を持つもののみを検索対象とする

語尾変化がないものとして検索(検索結果1)

動詞かつ否定の接尾辞

がある?

語尾変化があるものとして検索(検索結果2)

検索結果がある?

終了

No

Yes

1も2もない

1と2の両方ある1または2の

一方だけある

マッチした部分が長い方を採用

動詞で、かつ語尾がaの場合、語尾がeまたはiも一致とみなす

Page 13: 『コーパスに基づく言語学教育研究報告』 No.9 (2012) スワヒリ語における動詞複合体の形態素解析 …cblle.tufs.ac.jp/assets/files/publications/working_papers_09/section/... ·

-141-

図 5:接辞類の検索と境界記号処理

接辞検索・区切り文字挿入

動詞類辞書にマッチした部分を取り除く

終了

SP辞書を検索する

T辞書を検索する

REL辞書を検索する

OP辞書を検索する

区切り付き接辞+区切り付き動詞を返す

まだ文字が残っている?

-uオプションあり?

WARNINGの表示

-vまたは-wが指定されているときのみ

読み込んだ単語をそのまま返す

区切り付き接辞-不明語-区切り付き動詞を返す

各接辞辞書と順にマッチングし、一致すればその部分を区切り付き接辞に置き換える

swahiri_pre_SP1.txtとswahiri_preSP2.txtから

読み込んだ内容

swahiri_pre_T.txtから読み込んだ内容

swahiri_pre_Rel.txtから読み込んだ内容

swahiri_pre_OP.txtから読み込んだ内容

Yes

Yes

No

No

Page 14: 『コーパスに基づく言語学教育研究報告』 No.9 (2012) スワヒリ語における動詞複合体の形態素解析 …cblle.tufs.ac.jp/assets/files/publications/working_papers_09/section/... ·

-142-

4. おわりに

スワヒリ語における動詞複合体の形態素解析の試みに関して報告した。ここでの手法は

辞書を追加するなどすれば,そのまま形容詞複合体など他の言語要素の形態素解析へも容

易に拡張が可能である。本ソフトは作成途上のものであって,分析精度はまだ十分なもの

ではない。今後辞書類の拡張を図るとともに,スワヒリ語研究の進展によって接辞間,あ

るいは接辞と動詞語幹との共起関係などがより明らかになれば,その成果を導入するなど

して解析の精度をより向上させていきたいと考えている。

謝 辞

本研究は,東京外国語大学アジア・アフリカ言語文化研究所の稗田乃教授の協力のもと

になされたものである。本文執筆においても,スワヒリ語テキストの訳や内容の校閲をお

願いした。ここに記して厚くお礼申し上げる。また本ソフトウェア・ツール作成に尽力い

ただいた杉浦功一氏に深謝する。

参考文献

稗田乃(2010) 『Swahili Grammar, スワヒリ語文法』,東京:アジア・アフリカ言語文化研

究所

稗田乃(2011) 『スワヒリ語の目的語接辞の働き-スワヒリ語「口語」コーパスを用いた研

究の試み-』,コーパスに基づく言語学教育研究報告,No.7, pp.153-169