một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh
DESCRIPTION
Một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh. Trần Mai Vũ. Nội dung. Khái quát bài toán nhận dạng thực thể y sinh Một số phương pháp giải quyết bài toán Định hướng tiếp theo. Công trình liên quan. Thesis - PowerPoint PPT PresentationTRANSCRIPT
Một số tìm hiểu về nhận dạng thực thể trong văn bản y
sinhTrần Mai Vũ
Nội dung Khái quát bài toán nhận dạng thực thể y sinh Một số phương pháp giải quyết bài toán Định hướng tiếp theo
2
Công trình liên quan• Thesis
[1] Tuangthong Wattarujeekrit (2005). Exploring Semantic Roles for Named Entity Recognition in The Molecular Biology Domain. Doctoral dissertation, The Graduate University for Advanced Studies
[2] John Philip McCrae (2009). Automatic Extraction of Logically Consistent Ontologies from Text Corpora. Doctoral dissertation, The Graduate University for Advanced Studies (SOKENDAI)
• Publication[3] Collier, N., Nobata, C., and Tsujii, J. "Extracting the Names of Genes and Gene Products with a Hidden Markov
Model", In Proc. International Conference on Computational Linguistics , (COLING'2000), pp. 201-207, Saarbrucken, Germany, August, 2000.
[4] Collier, N. and Takeuchi, K. (2004), "Comparison of character-level and part of speech features for name recognition in bio-medical texts", in vol. 37, no. 6, Journal of Biomedical Informatics, Elsevier, December, pp. 423-435.
[5] Collier, N., Nazarenko, A., Baud, R. and Ruch, P. (2006) “Recent advances in natural language processing for biomedical applications”, International Journal of Medical Informatics, Elsevier, Vol. 75, Issue 6, pp. 413-417.
[6] Doan, S., Kawazoe, A. and Collier, N. (2007), "The role of roles in classifying annotated biomedical texts", Proc. Workshop on Biomedical Natural Language Processing (BioNLP 2007), Prague, Czech Republic, June 29, pp. 17-24.
[7] Kim, J. D. et al. (2004), "Introduction to the Bio-Entity Recognition Task at JNLPBA", in proceedings of the Joint Workshop on Natural Language Processing in Biomedicine and its Applications, 28-29 August, Geneva, Switzerland
• Slide[8] Nigel Collier, Research history and future challenges, 2011[9] Nigel Collier, Web sensing for real time disaster detection and tracking, 2011[10] Nigel Collier, High throughput analysis and alerting of disease outbreaks from the grey literature, 2010
3
Nhận dạng thực thể (NER) Nhận dạng và phân loại các danh từ riêng
xuất hiện trong văn bản
4
October 14, 2002, 4:00 a.m. PT
For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation.
Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers.
"We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a super-important shift for us in terms of code access.“
Richard Stallman, founder of the Free Software Foundation, countered saying…
Microsoft CorporationCEOBill GatesMicrosoftGatesMicrosoftBill VeghteMicrosoftVPRichard StallmanfounderFree Software Foundation
Nhận dạng thực thể y sinh Nhận dạng thực thể y sinh:
Các loại thực thể: Tên người, tổ chức,…,DNA, gene, protein, bệnh… Biocaster: 23 loại thực thể JNLPBA 2004: 48 loại thực thể (36 loại sử dụng trong
GENIA) Ứng dụng chính trong các hệ thống trích xuất
thông tin y sinh (Bio-IE)
5
6
Một số task tại các hội nghị
Một số hệ thống Bio-IE Highlight system (Thomas et al., 2000)
Dựa trên phương pháp của Hobbs và các cộng sự (1996)
Chưa phân tích mối quan hệ giữa các thực thể GENIES (Friedman et al., 2001)
GeneWay (Rzhetsky et al., 2004) mở rộng từ GENIES
Có phân tích mối quan hệ giữa các thực thể BioCaster (Collier et al., 2006)
Xây dựng ontology về y sinh và dịch bệnh Phân tích các sự kiện liên quan đến dịch bệnh dựa
trên dữ liệu web7
BioCaster (Collier et al., 2006)
8
BioCaster (Collier et al., 2006)
9
[10] Nigel Collier, High throughput analysis and alerting of disease outbreaks from the grey literature, 2010
Nhận dạng thực thể y sinh Thách thức [1]
Thiếu quy ước đặc tên trong sinh học Sự đa dạng trong thuật ngữ:
Dùng từ tiếng Anh: Vd: light, map, complement,…tên gene Sử dụng số: Vd: 9-cis retinoic acid Sử dụng các ký tự và mã: M(2)201
Sự lồng nhau giữa các tên: Vd: “[leukaemic[T [cell line]] Kit225]”
Sự phối hợp: “B and T cells” Sự đồng âm Tính đa nghĩa Nhiều biến thể của một tên:
Vd: “-150 CD28 response element (CD28RE)/AP-1 site” cũng là “-150 CD28RE/AP-1 site”.
10
Hướng tiếp cận giải quyết bài toán Dựa vào tra từ điển Dựa vào luật
MEDLINE(1998) 94.70% và 98.84% FlyBase(1998) 91.4% và 94.4%
Dựa vào học máy HMM (Collier et al., 2000; Zhang et al., 2004;
Zhao, 2004; Zhou et al, 2004) Cây quyết định (Nobata et al.,1999.) CRF (Settles, 2004) MEMM (Finkel et al.,2004; Lin et al., 2004) SVM (Zhou and Su, 2004; Song et al., 2004)
11
Các loại đặc trưng
12
S SVM sh Dạng tự sy Nhãn cú phápH HMM gn Chuỗi gene tr LuậtC CRF wv Biến thể của từ ab Viết tắtM MEMM ln Độ dài từ ca Các thực thể
kháclx Từ vựng gz Tra từ điển do Thông tin tài liệuaf Các thông tin liên quan (ngram) po Nhãn từ loại pa Dấu ngoặcor Chính tả np Nhãn cụm danh từ pr Sử dụng các
nhãn đã dữ đoán
Một số phương pháp giải quyết
13
Một số phương pháp giải quyết
14
Trong BioCaster [10]: Pha phân tích thực thể:
Huấn luyện 500 tài liệu, kiểm thử chéo 10 fold Xử lý 17361 nhóm từ, 12168 chính xác Độ chính xác 88.7%, F=71.1
Kinh nghiệm: Sử dụng luật để tăng độ chính xác
Xử lý ngữ nghĩa trong BioCaster
15
Định hướng tiếp theo Thử nghiệm trên dữ liệu lấy từ BioCaster đối
với một số phương pháp Tìm hiểu các vấn đề liên quan đến đối
sánh(matching) và mở rộng Ontology
16
Một số tài liệu khác Leaman, R. et al. (2008) BANNER: An executable survey of
advances in biomedical named entity recognition Settles, B. (2004) Biomedical named entity recognition using
conditional random fields Tanabe, L. et al. (2005) GENETAG: a tagged corpus for
gene/protein named entity recognition Ki-Joong Lee, Young-Sook Hwang, Seonho Kim, Hae-Chang Rim
(2004) Biomedical named entity recognition using two-phase model based on SVMs. Journal of Biomedical Informatics 37 (2004) 436-447
A. Ekbal, S. Saha, U. K. Sikdar, Md. Hasanuzzaman (2010) A Genetic Approach for Biomedical Named Entity Recognition, 22nd International Conference on Tools with Artificial Intelligence
17
XIN CẢM ƠN
18
Zhou and Su, 2004 Kết hợp HMM và SVM
HMM:
Dữ liệu thưa P(si|On1) => Sử dụng SVM sigmoid để bổ
sung thêm thông tin SVM: vấn đề chuyển đầu ra dạng xác suất
Nghiên cứu của Platt (1999)
19
Các phương pháp khác Song et al., 2004
Kết hợp 2 kết quả dự đoán từ SVM và CRF Finkel et al.,2004
Sử dụng MEMM và lựa chọn các đặc trưng Zhao, 2004
Cải tiến HMM bằng thêm các độ tương đồng giữa các từ
20