trích chọn sự kiện y sinh học dựa trên đồ thị
Post on 23-Feb-2016
70 Views
Preview:
DESCRIPTION
TRANSCRIPT
TRÍCH CHỌN SỰ KIỆN Y SINH HỌC DỰA TRÊN ĐỒ THỊ
Trình bày: Nhóm khai phá dữ liệu Y sinh học
2
Nội dungGiới thiệuTrích chọn sự kiện Y sinh họcBiểu diễn đồ thị phụ thuộcPhương pháp cắt tỉa đồ thị phụ
thuộc (JULIELab Team)Đánh giá
Trích chọn sự kiện Y sinh học dựa trên đồ thị
3
Giới thiệu thành viên
STT Tên thành viên Nhiệm vụ Đánh giá Ghi chú1 Phí Văn Thủy Đọc tài liệu
(1)Hoàn thành
- Nhóm trưởng- Trình bày
2 Phạm Thanh Bình Đọc tài liệu (2)
Hoàn thành
- Trình bày
3 Nguyễn Xuân Hùng
Đọc tài liệu (3)
Hoàn thành
4 Phạm Thị Hồng Đọc tài liệu (4)
Hoàn thành
Trích chọn sự kiện Y sinh học dựa trên đồ thị
4
Tài liệu tham khảo(1) [BFWH09]. Ekaterina Buyko, Erik Faessler, Joachim Wermter,
Udo Hahn (2009). Event Extraction from Trimmed Dependency Graphs, BioNLP 2009 Workshop (Shared Task on Event Extraction): 19-27
(2) [KWTY11]. Jin-Dong Kim, Yue Wang, Toshihisa Takagi and Akinori Yonezawa (2011) Overview of Genia Event Task in BioNLP Shared Task 2011, BioNLP Shared Task 2011 Workshop: 7-15
(3) [BHGAPS09]. Jari Björne, Juho Heimonen, Filip Ginter, Antti Airola, Tapio Pahikkala, Tapio Salakoski (2009). Extracting Complex Biological Events with Rich Graph-Based Feature Sets, BioNLP 2009 Workshop (Shared Task on Event Extraction): 10-18
(4) [PSOKA12]. Sampo Pyysalo, Pontus Stenetorp, Tomoko Ohta, Jin-Dong Kim and Sophia Ananiadou (2012), New Resources and Perspectives for Biomedical Event Extraction, BioNLP 2012 Workshop:100-108
Trích chọn sự kiện Y sinh học dựa trên đồ thị
5
Giới thiệu Các nghiên cứu gần đây trong trích
chọn thông tin miền y sinh học tập trung vào trích chọn sự kiện ngữ nghĩa liên quan đến gen hoặc protein◦ sự kiện liên kết (bind) hoặc phiên mã, dị
hóa…
Hầu hết các hiểu biết về sự kiện y sinh học chỉ có dạng văn bản phi cấu trúc
Trích chọn sự kiện Y sinh học dựa trên đồ thị
6
Giới thiệu Sự kiện y sinh học đc mô tả trong văn
bản nhận dạng kiểu, trigger – dấu hiệu sự kiện, và 1 hoặc nhiều tham số của sự kiện đó.
BioNLP 2009 & Taskso concerns the recognition of bio-molecular
events (bio-events) that appear in biomedical literature.
Trích chọn sự kiện Y sinh học dựa trên đồ thị
7
BioNLP 2009
Trích chọn sự kiện Y sinh học dựa trên đồ thị
The BioNLP'09 Shared Task on Event Extraction – Home
(http://www.nactem.ac.uk/tsujii/GENIA/SharedTask/)
8
Trích chọn sự kiện Y sinh học
Trích chọn sự kiện Y sinh học dựa trên đồ thị
The term biomedical event extraction is used to refer to the task of extracting descriptions of actions and relations involving one or more entities from the biomedical literature1
The biological event extraction refers to the task of detection of event templates using basic tools from biological and biomedical text2
1: Search-based Structured Prediction applied to Biomedical Event Extraction, Andreas Vlachos and Mark Craven2: J. D. Kim, T. Ohta, S. Pyysalo, Y. Kano, and J. Tsujii. Overview of BioNLP09 Shared Task on event extraction. In Proceedings of the workshop on BioNLP: Shared Task, pages 1-9, 2009.
9
BioNLP 2009 Tasks
Trích chọn sự kiện Y sinh học dựa trên đồ thị
Task 0
•Protein recognition (Given)
Task 1
•Core event extraction (mandatory)•event trigger detection•event typing•primary argument recognition
Task 2
•Event enrichment (optional)
Task 3
•Negation and speculation recognition (optional)
To draw concentration on event extraction
“phosphorylation of TRAF2”
(Type:Phosphorylation, Theme:TRAF2)
10
Event type
Trích chọn sự kiện Y sinh học dựa trên đồ thị
(The BioNLP'09 Shared Task on Event Extraction )
11
Event type
Trích chọn sự kiện Y sinh học dựa trên đồ thị
(The BioNLP'09 Shared Task on Event Extraction )
12
BioNLP 2009 Task 1
Trích chọn sự kiện Y sinh học dựa trên đồ thị
Evalution results of Task 1 – BioNLP Shared Task 2009 (reall / precision / F-score)
5/24 team: F-score >= 40%
13
Một số hướng tiếp cận Tương tác giữa 2 protein (PPIs)• Pattern-based: Blaschke et al. (1999),
Hakenberg et al. (2005), Huang et al. (2004)
• Rule-based: Yakushiji et al. (2001), Saric et al. (2004), Fundel et al. (2007)
• Machine learning-based: Katrenko & Adriaans (2006), Sætre et al. (2007), Airola et al. (2008).
Trích chọn sự kiện Y sinh học dựa trên đồ thị
Trích chọn sự kiện Y sinh học dựa trên đồ thị
14
Biểu diễn đồ thị phụ thuộc Đồ thị cung cấp sự mô hình hóa cho
dữ liệu y sinh học
Trích chọn sự kiện Y sinh học dựa trên đồ thị
15
Biểu diễn đồ thị phụ thuộc Sự biểu diễn phụ thuộc của 1 câu được hình
thành bởi các từ trong câu và quan hệ 2 ngôi giữa chúng
Quan hệ phụ thuộc 1 chiều:• relation (governor, dependent) đồ thị phụ thuộc
Trích chọn sự kiện Y sinh học dựa trên đồ thị
16
Dependency graph A dependency graph is a pair of sets G =
(V,E), where V is a set of nodes that correspond to the tokens in a sentence, and E is a set of directed edges, for which the edge labels are types of dependency relations between the tokens, and the edge direction is from governor to dependent node[3].
Trích chọn sự kiện Y sinh học dựa trên đồ thị
17
Trích chọn sự kiện Y sinh học
Nhận dạng event trigger Hợp nhất event trigger Gán kiểu sự kiện Xác định tham số Gán kiểu tham số Sắp xếp tham số
Sự phức tạp của Task 1: không chỉ protein được cho phép là tham số mà nó cũng là sự kiện.
Trích chọn sự kiện Y sinh học dựa trên đồ thị
18
Nhận dạng event trigger
Xác định các biểu diễn tương đương của cùng kiểu sự kiện • “A is expressed” và “the expression of
A”expression(A)
“Event trigger ambiguity”
Trích chọn sự kiện Y sinh học dựa trên đồ thị
19
Hợp nhất event trigger Lựa chọn đúng tên sự kiện từ tập
event trigger tương đương
Trích chọn sự kiện Y sinh học dựa trên đồ thị
20
Gán kiểu sự kiện Phân loại ngữ nghĩa cho 1 tên sự kiện
đc hợp nhất và gán với 1 kiểu sự kiện
Binding
Trích chọn sự kiện Y sinh học dựa trên đồ thị
21
Xác định tham số Tìm tất cả những phần tử cần tham
gia trong sự kiện, vd: các tham số của quan hệ
Cần chú ý các thực thể tương đương và lựa chọn tham số
Trích chọn sự kiện Y sinh học dựa trên đồ thị
22
Gán kiểu tham số Gán đúng loại ngữ nghĩa (lớp thực
thể) cho mỗi phần tử đc xác định trong 1 sự kiện (có thể xem như đối tượng của lớp đó)
Trích chọn sự kiện Y sinh học dựa trên đồ thị
23
Sắp xếp tham số Gán mỗi vai trò chức năng của phần
tử đc xác định trong sự kiện, thường là Agent (và Patient/Theme) (tác nhân/đối tượng)
Trích chọn sự kiện Y sinh học dựa trên đồ thị
24
Phương pháp cắt tỉa đồ thị phụ thuộc (JULIELab Team)
Trích chọn sự kiện Y sinh học dựa trên đồ thị
25
Phương pháp cắt tỉa đồ thị phụ thuộc 3 luồng chính:
• Phát hiện tập event trigger• Cắt tỉa đồ thị phụ thuộc
lược bỏ phần không liên quan làm giàu ngữ nghĩa tập từ vựng liên quan
Xác định tham số cho sự kiện dưới sự giám sát Trong cách tiếp cận của họ, hợp nhất event trigger đã
bao gồm gán kiểu sự kiện
Trích chọn sự kiện Y sinh học dựa trên đồ thị
26
Nhận dạng event trigger Tìm kiếm tập trigger có khả năng là
một sự kiện: dictionary-based• GENIA event corpus (Kim et al., 2008a)• Automatic lemmatized (for extracted
event trigger)1
• Gán kiểu sự kiện Hợp nhất event trigger: kết hợp các
bộ từ điển
1: http://lexsrv3.nlm.nih.gov/SPECIALIST/index.html,
Trích chọn sự kiện Y sinh học dựa trên đồ thị
27
Hợp nhất event trigger Độ quan trọng của 1 event trigger ti
cho 1 kiểu sự kiện T
: tần suất của even trigger ti của kiểu sự kiện đc lưa chọn T trong kho huấn luyện / tổng số event trigger của kiểu sự kiện được lưa chọn T trong kho huấn luyện đó. Tần suất đc đo dựa vào các event
trigger gốc
Trích chọn sự kiện Y sinh học dựa trên đồ thị
28
Cắt tỉa đồ thị phụ thuộc Mục đích: • Loại bỏ đi ngữ nghĩa không liên quan• Làm giàu ngữ nghĩa các nút có liên quan
Lược bỏ cú pháp• các trợ động từ và động từ khuyết thiếu
Trích chọn sự kiện Y sinh học dựa trên đồ thị
29
Cắt tỉa đồ thị phụ thuộc Động từ thường kết nối với trợ động
từ bởi quan hệ phụ thuộc VC (verb chain)• dạng cây phụ thuộc và quy ước gán nhãn (2006 &
2007 CoNLL shared task) …
Trích chọn sự kiện Y sinh học dựa trên đồ thị
30
Xác định tham số và sắp thứ tự 3 mức:
Trích chọn sự kiện Y sinh học dựa trên đồ thị
31
Xác định tham số và sắp thứ tự• Tiếp cận học máy• Feature-based
3 loại đặc trưng• Lexical feature• Chunking feature• Dependecy parse featurebộ phân loại ME (Maximum Entropy)
(MALLET)http://mallet.cs.umass.edu/index.php/Main_Page
Trích chọn sự kiện Y sinh học dựa trên đồ thị
32
Đánh giá Baseline: trích chọn cho mỗi cặp của
1 trigger giả định và 1 tham số giả định đường đi ngắn nhất giữa chúng
So sánh với phương pháp đề xuất• the shared task development and test set
Trích chọn sự kiện Y sinh học dựa trên đồ thị
33
Shared task development data
Baseline JULIELab Team
Trích chọn sự kiện Y sinh học dựa trên đồ thị
34
Shared task test data
Baseline JULIELab Team
Thank you!
top related