bioie のための 自然言語処理技術

34
BioIE のののの のののののののの のののの ののののの JST ののの のの のの

Upload: dacia

Post on 19-Mar-2016

72 views

Category:

Documents


3 download

DESCRIPTION

BioIE のための 自然言語処理技術. 東京大学 辻井研究室 JST 研究員 鶴岡 慶雅. Outline. 言語処理資源 GENIA コーパス 言語処理ツール 最大エントロピー法 バイオテキスト用品詞タガー バイオテキスト用専門用語タガー HPSG パーザ 応用 MEDLINE からの遺伝子・疾患関係の抽出. 言語資源の構築. 言語処理研究のためのリソース ドメイン知識 コーパスベースの技術のための学習データ システムの汎用性を評価するめの評価データ 現在開発中のリソース GENIA リソース オントロジー:ドメイン固有概念を体系化 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: BioIE  のための 自然言語処理技術

BioIE のための自然言語処理技術

東京大学 辻井研究室JST 研究員 鶴岡 慶雅

Page 2: BioIE  のための 自然言語処理技術

Outline

• 言語処理資源– GENIA コーパス

• 言語処理ツール– 最大エントロピー法– バイオテキスト用品詞タガー– バイオテキスト用専門用語タガー– HPSG パーザ

• 応用– MEDLINE からの遺伝子・疾患関係の抽出

Page 3: BioIE  のための 自然言語処理技術

言語資源の構築• 言語処理研究のためのリソース

– ドメイン知識– コーパスベースの技術のための学習データ– システムの汎用性を評価するめの評価データ

• 現在開発中のリソース– GENIA リソース

• オントロジー:ドメイン固有概念を体系化• コーパス:概念の実テキスト上での表現

Page 4: BioIE  のための 自然言語処理技術

GENIA コーパスの概要

• MEDLINE アブストラクト 4,000 件– ヒト血球細胞における転写因子に関する論文( Human,

Blood cells, Transcription factors )

• XML 形式• 現在開発中のコーパス(赤字は公開中)

– 専門用語とその意味( Kim et al 2003 )– 品詞( Tateisi et al 2004 )– 構文木– 照応( Institute of Infocomm Research, Singapore )

Page 5: BioIE  のための 自然言語処理技術

The peri-kappa B site mediates human immunodeficiency    virus type 2 enhancer activation in monocytes …

GENIA 専門用語コーパス

• GENIA オントロジーに基づく意味クラスを付与• 規模

– アブストラクト 2,000 件– 用語数 92,723 語– 総異なり数 36,568 語

    DNA virus

cell_type

Page 6: BioIE  のための 自然言語処理技術

GENIA 品詞コーパス

• 個々のトークンに品詞タグを付与• 規模

– アブストラクト 2,000 件– 20,544 文– 50,1054 単語( Penn Treebank の約半分)

The peri-kappa B site mediates human immunodeficiency virus type 2 enhancer activation in monocytes …

DT NN NN NN VBZ JJ NN

NN NN CD NN NN IN NNS

Page 7: BioIE  のための 自然言語処理技術

GENIA 構文木コーパス

• Penn TreeBank の基準に基づき木構造を付与• 規模

– アブストラクト 200 件– 12 月までに 500 件– 年度末に 1500 件( 15,000 文、 Penn Treebank の約 3 分の 1 )

CD3-episilon expression is controlled by a downstream T lymphocyte-specific enhancer element

NP ADJP

NP

PPVP

VP

S

Page 8: BioIE  のための 自然言語処理技術

Outline

• 言語処理資源– GENIA コーパス

• 言語処理ツール– 最大エントロピー法– バイオテキスト用品詞タガー– バイオテキスト用専門用語タガー– HPSG パーザ

• 応用– MEDLINE からの遺伝子・疾患関係の抽出

Page 9: BioIE  のための 自然言語処理技術

最大エントロピー法による機械学習

• Log-linear model

F

iii xf

Zxq

1

exp1

素性関数素性の重み

不等式制約による最大エントロピー法 (Kazama and Tsujii 2003)

• Gaussian prior と似たような効果

• 学習結果(パラメータ)がスパースになるためモデルサイズが小さい

• 実行時速度・プログラムサイズの点で高い実用性

Page 10: BioIE  のための 自然言語処理技術

品詞タグ付け

• 新聞記事などに対しては高精度のタガーが利用可能– Brill’s tagger, TnT tagger, MX POST, etc. – 約 97%

• 汎用タガーは MEDLINE では精度がでない

The peri-kappa B site mediates human immunodeficiency DT NN NN NN VBZ JJ NNvirus type 2 enhancer activation in monocytes … NN NN CD NN NN IN NNS

Page 11: BioIE  のための 自然言語処理技術

TnT tagger (Brants 2000)によるタグ付け誤り例

… and membrane potential after mitogen binding. CC NN NN IN NN JJ… two factors, which bind to the same kappa B enhancers… CD NNS WDT NN TO DT JJ NN NN NNS … by analysing the Ag amino acid sequence. IN VBG DT VBG JJ NN NN… to contain more T-cell determinants than … TO VB RBR JJ NNS IN Stimulation of interferon beta gene transcription in vitro by NN IN JJ JJ NN NN IN NN IN

Page 12: BioIE  のための 自然言語処理技術

GENIA コーパスでの TnT tagger の精度

• いくつかのタグを同一視して評価

精度

オリジナル 84.4%NNP = NN, NNPS = NNS 90.0%LS = NN 91.3%JJ = NN 94.9%

実質的には94%前後?

Page 13: BioIE  のための 自然言語処理技術

GENIA tagger

• 確率モデル– Maximum Entropy Markov Model (MEMM)

i

nii

i

nii

nn

wttP

wttPwtP

11

11

111

分類問題なので最大エントロピー法で機械学習

Page 14: BioIE  のための 自然言語処理技術

学習• 素性

5,ofsuffixis

uppercaseisofletterfirstthe1

1

1

1

1

XwX

wXwwXww

XwXwXwt

Xt

i

i

ii

ii

i

i

i

• 訓練コーパス– Wall Street Journal (WSJ)

39,832 文

– GENIA corpus

18,508 文

Page 15: BioIE  のための 自然言語処理技術

タグ付け精度

学習コーパス WSJ GENIAWSJ 97.0 84.3GENIA 75.2 98.1WSJ+GENIA 96.9 98.1

学習コーパス WSJ GENIAWSJ 96.7 84.3GENIA 80.1 97.9WSJ+GENIA 96.5 97.5

• GENIA tagger (参考) TnT tagger

特化した場合と比較してほとんど精度低下なし

特化した場合よりも 0.2 ~ 0.4ポイント程度精度低下

Page 16: BioIE  のための 自然言語処理技術

CELL TYPE

固有表現認識 (NER)• 文の中で , 固有表現 ( 人名 , 地名 , ..., タンパク質名などの情報抽出にとって重要

なオブジェクト)が現れている場所を認識しそのタイプを判定する

“Thus, CIITA not only activates the expression of class II

genes but recruits another B cell-specific coactivator to

increase transcriptional activity of class II promoters in B

cells.”

PROTEIN DNA

DNA

Page 17: BioIE  のための 自然言語処理技術

IOB tagging

B-X: タイプ X の固有表現の始まりI-X: タイプ X の固有表現の中O: それ以外

( IOB tagging; Ramshaw and Marcus 1995)

個々の単語に対するタグ付けタスクとして捉える :

Number of glucocorticoid receptors in lymphocytes …

O O B-PROTEIN I-PROTEIN O B-CELLTYPE

Page 18: BioIE  のための 自然言語処理技術

部分単語列判定モデル

• 可能な部分単語列を分類するタスクと考える– MEMMや CRF などでは扱えない素性を導入できる– ただし 1文あたり単語数の2乗個の分類 ⇒ 多すぎる

• 効率的な学習– named entity の一部になる確率が低い単語を含む部分単

語列を除外 ⇒ 学習可能に

W1 W2 W3 W4

Page 19: BioIE  のための 自然言語処理技術

学習

• 学習器– Maximum entropy model

• LMVM• cutoff = 0• Gaussian prior = 1000

• 訓練データ:– 2000 abstracts– shared task の training

set– 1/10 を development

set として利用5,ofsuffixis

uppercaseareofletterlasttheandfirstthe

,,

21

11

12

XwX

weibiXw

XwXw

XwwXwwXww

e

i

i

e

b

ee

eb

bb

• 素性

XwXwXwXw

e

e

b

b

2

1

1

2

Page 20: BioIE  のための 自然言語処理技術

テストセットでの精度

Recall Precision F-scoreSVM+HMM (Zho 2004)

76.0 69.4 72.6

本手法 71.5 70.2 70.8MEMM (Fin 2004) 71.6 68.6 70.1CRF (Set 2004) 70.3 69.3 69.8

• Shared task at Coling 2004 BioNLP workshop

Page 21: BioIE  のための 自然言語処理技術

HPSG パージング

語彙項目

HEAD: verbSUBJ: <>COMPS: <>

Mary walked slowly

HEAD: nounSUBJ: <>COMPS: <>

HEAD: verbSUBJ: <noun>COMPS: <>

HEAD: advMOD: verb

HEAD: verbSUBJ: <noun>COMPS: <>

Subject-head schema

Head-modifier schema

• HPSG– 少ない文法規則– 大量の語彙項目– 項構造を出力

• 文法 (Miyao et al. 2004)– 確率モデル

• Log-linear• コーパスから学習

Page 22: BioIE  のための 自然言語処理技術

Phrase structure

The company is run by him

DT NN VBZ VBN IN PRP

dt np vp vp pp np

np pp

vp

vp

s

Page 23: BioIE  のための 自然言語処理技術

Predicate-argument structure

The company is run by him

DT NN VBZ VBN IN PRP

dt np vp vp pp np

np pp

vp

vp

s

arg1arg2mod

Page 24: BioIE  のための 自然言語処理技術

述語・項構造を利用した情報検索

Page 25: BioIE  のための 自然言語処理技術

Parsing MEDLINE by Enju

• Enju の GENIA Treebank での精度評価

文数 LP / LR UP / UR全ての文 1,556 82.8 / 81.5 86.4 / 85.1文法でカバーされている文

1,104 86.8 / 86.5 88.7 / 88.4

Page 26: BioIE  のための 自然言語処理技術

Outline

• 言語処理資源– GENIA コーパス

• 言語処理ツール– 最大エントロピー法– バイオテキスト用品詞タガー– バイオテキスト用専門用語タガー– HPSG パーザ

• 応用– MEDLINE からの遺伝子・疾患関係の抽出

Page 27: BioIE  のための 自然言語処理技術

対象テキスト

• MEDLINE アブストラクト 150万件– 疾患と遺伝子の関係を記述していそうな論文– MeSH Term による絞込み

• “Disease Category” AND (“Amino Acids, Peptides, and Proteins” OR “Genetic Structures”)

• パージング– HPSG パーザを利用して全ての文を解析– 実行環境:  PC クラスタ( 100 processors with

GXP )– 時間: 約 10日間

Page 28: BioIE  のための 自然言語処理技術

テキストに記述されている疾患・遺伝子関係

These results suggested that targeted disruption of Cyp19 caused anovulation and precocious depletion of ovarian follicles

Furthermore, AML cells with methylated p15(INAK4B) tended to express higher levels of DNMT1 and 3B.

Page 29: BioIE  のための 自然言語処理技術

学習データ

All foals with OLWS were homozygous for the Ile118Lys EDNRB mutation, and adults that were homozygous were not found.

Dominant radial drusen and Arg345Trp EFEMP1 mutation.

The 5 year overall survival (OS) and event-free survival (EFS) were 94 and 90 +/- 8%, respectively, with a median follow-up of 48 months.

These data may indicate that formation of parathyroid adenoma in young patients is related to a mechanism involving EGFR.

• 遺伝子・疾患の共起に対して専門家が「関係あり/なし」のアノテーション

Page 30: BioIE  のための 自然言語処理技術

述語・項構造を利用した素性

• These results suggested that targeted disruption of Cyp19 caused anovulation and precocious depletion of ovarian follicles.

• Furthermore, AML cells with methylated p15(INAK4B) tended to express higher levels of DNMT1 and 3B.

X disease/gene

ARG2ARG1

gene/disease

Page 31: BioIE  のための 自然言語処理技術

疾患・遺伝子関係抽出精度

• 学習/評価データ:  2,253文

• 10-fold cross validation素性 recall precision f-score

なし 1.0 0.351 0.520

+ bag of words 0.733 0.682 0.706

+ local context 0.733 0.695 0.714

+ 述語・項構造 0.759 0.710 0.733

Page 32: BioIE  のための 自然言語処理技術

DGA explorer

Page 33: BioIE  のための 自然言語処理技術

まとめ

• バイオテキスト用品詞タガー– PTB と GENIA コーパスを利用して学習– Precision: 97 %

• バイオテキスト用専門用語タガー– F-score: 70.8%

• Enju on the GENIA treebank – LP/LR: 82.8% / 81.5%

• MEDLINE からの遺伝子・疾患関係の抽出– F-score: 73%

Page 34: BioIE  のための 自然言語処理技術

公開ソフトウェア・リソース

• GENIA– 専門用語コーパス– 品詞コーパス– 構文木コーパス– 照応コーパス(公開予定 , シンガポール大)– 品詞タガー– 専門用語タガー(予定)– HPSG によるパーズ結果( MEDLINE10万件)

• Enju ( HPSG パーザ)• MEDUSA (項構造を利用した情報検索システ

ム)• LiLFeS