khóa học: tin sinh học: lắp ráp, dự đoán, chú giải và phân...

49
5/7/2015 1 Khóa học: Tin Sinh Học: Lắp ráp, Dự đoán, Chú giải và Phân tích Hệ gen Giảng viên: TS. Nguyễn Cường TS. Dương Quốc Chính Trợ giảng: Nguyễn Văn Lâm Phạm Quang Huy Nguyễn Quốc Đại Chú giải và phân tích hệ gen Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 2

Upload: others

Post on 03-Jan-2020

9 views

Category:

Documents


0 download

TRANSCRIPT

5/7/2015

1

Khóa học:

Tin Sinh Học: Lắp ráp, Dự đoán,

Chú giải và Phân tích Hệ gen

Giảng viên: TS. Nguyễn Cường

TS. Dương Quốc Chính

Trợ giảng: Nguyễn Văn Lâm

Phạm Quang Huy

Nguyễn Quốc Đại

Chú giải và phân tích hệ gen

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 2

5/7/2015

2

Đặt vấn đề

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

1. Có 1 chuỗi trình tự DNA hoặc protein, làm thế nào để

biết chuỗi trình tự mang chức năng sinh học gì?

2. Có 50000 chuỗi trình tự trong tay, có những cách nào

có thể khai phá từ khối dữ liệu khổng lồ này?

3

Nội dung

• Lý thuyết: cơ chế tìm kiếm trong:

• BLAST

• InterProScan

• BLAST2GO

• Thực hành:

• BLAST

• InterProScan

• BLAST2GO

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 4

5/7/2015

3

Quy trình chú giải chức năng Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 5

Trình tự DNA

(hoặc protein)

Trình tự được

chú giải bằng

BLAST

Trình tự được chú giải

bằng InterProScan

NCBI-nr

InterPro

Phần mềm

BLAST

Phần mềm

InterProScan

Trình tự được chú giải

chức năng.

Phần mềm

BLAST2GO

Gene

Ontology

Enzyme

KEGG

Quy trình chú giải chức năng Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 6

Trình tự DNA

(hoặc protein)

Trình tự được

chú giải bằng

BLAST

Trình tự được chú giải

bằng InterProScan

NCBI-nr

InterPro

Phần mềm

BLAST

Phần mềm

InterProScan

Trình tự được chú giải

chức năng.

Phần mềm

BLAST2GO

Gene

Ontology

Enzyme

KEGG

5/7/2015

4

Sequence alignment là gì?

Alignment (Gióng hàng): So sánh 2 (pairwise) hoặc nhiều

(multiple) trình tự với nhau để tìm ra những vùng trình tự

giống hoặc tương đồng giữa chúng.

MVNLTSDEKTAVLALWNKVDVEDCGGE || || ||||| ||| || || || MVHLTPEEKTAVNALWGKVNVDAVGGE

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 7

Kết quả alignment:

8 mismatches

18 matches

Global vs. Local alignment

• Global alignment – Sắp gióng cột trên

toàn bộ chiều dài (bao gồm cả hai đầu

của mỗi trình tự).

• Local alignment – chỉ đưa ra những

vùng tương đồng nhất giữa 2 trình tự.

Global

alignment:

Áp dụng cho

so sánh các

trình tự

ortholog với

nhau (tiến hóa)

Local

alignment:

Xác định các

vùng chức

năng trong

protein.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 8

5/7/2015

5

Local alignment thích hợp với chú giải chức năng

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

3 kết quả alignment, 3 ý nghĩa khác nhau

9

1. BLAST

• Basic Local Alignment Search Tool

• Altschul và cs. 1990,1994,1997

• Là công cụ tìm kiếm tương đồng rất phổ biến, dựa trên

thuật toán Smith Waterman.

• Có thể tìm ra các đoạn local alignment tốt nhất phục vụ

chú giải chức năng.

• Được phát triển cả trên web và standalone.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 10

5/7/2015

6

MEAAVKEEISVEDEAVDKNI

MEA EAA AAV AVK VKE KEE EEI EIS ISV ...

Cắt nhỏ trình tự

query thành các

words có kích

thước là 3 Cắt nhỏ các trình

tự trong cơ sở dữ

liệu thành các

word cũng có

kích thước là 3

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 11

Trình tự query Cơ sở dữ liệu

NCBI

Cơ chế tìm kiếm trong BLAST

Dánh sách các word được cắt nhỏ trong cơ sở dữ liệu RTT AAQ

SDG KSS SRW LLN QEL RWY VKI GKG DKI NIS LFC WDV AAV KVR PFR DEI … …

Danh sách word được cắt

nhỏ của trình tự query:

MEA EAA AAV AVK VKL KEE EEI EIS ISV

?

So sánh các word

với nhau

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 12

Cơ chế tìm kiếm trong BLAST

5/7/2015

7

ELEPRRPRYRVPDVLVADPPIARLSVSGRDENSVELTMEAT

TDVRWMSETGIIDVFLLLGPSISDVFRQYASLTGTQALPPLFSLGYHQSRWNY

IWLDIEEIHADGKRYFTWDPSRFPQPRTMLERLASKRRVKLVAIVDPH

MEA EAA AAV AVK KLV KEE EEI EIS ISV

Tìm vị trí của các word giống nhau trên

các trình tự của cơ sở dữ liệu

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 13

Trình tự query Cơ sở dữ liệu

NCBI

Cơ chế tìm kiếm trong BLAST

Word được tìm thấy trên trình tự cơ sở dữ liệu sẽ được

mở rộng về 2 bên để tiếp tục tìm kiếm sự tương đồng.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

Word

Mở rộng tìm kiếm

trên trình tự của

cơ sở dữ liệu

Trình tự cơ sở dữ liệu

Trình tự query

14

Cơ chế tìm kiếm trong BLAST

Độ dài mở rộng

tối đa = kết quả

BLAST

5/7/2015

8

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 15

Kết quả BLAST

Thanh đơn vị này

(Query) thể hiện độ

dài bp của toàn bộ

trình tự input

Thanh trên cùng có

các ô màu khác nhau

là thanh đơn vị đo

điểm số alignment

(Score)

Các thanh này là kết quả các trình

tự được tìm thấy trên cơ sở dữ liệu,

đi kèm là màu sắc thể hiện điểm số

alignment và vùng alignment (HSP)

tương ứng với vị trí trên trình tự

query.

Đường thẳng nhỏ

(dấu *) thể hiện có

2 vùng alignment

trên cùng một trình

tự kết quả.

Danh sách BLAST “hit”:

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 16

Max score: Điểm số (score) alignment cao nhất của vùng alignment (HSP) giữa

trình tự query và trình tự trên cơ sở dữ liệu.

Total score: Tổng điểm số (score) alignment của tất cả các vùng alignment

(HSP) cộng lại. Total score khác với max score khi xảy ra trường hợp nhiều vùng

alignment (HSP) đến từ cùng một trình tự trên cơ sở dữ liệu (dấu *).

Query coverage: Phần trăm độ dài giữa vùng alignment (HSP) và độ dài query

E-value: Độ tin cậy của kết quả, e-value càng thấp kết quả càng tin tưởng.

5/7/2015

9

Kết quả chi tiết BLAST

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 17

Bit-score:

dạng log của

score

E-value

Identity: số

base giống

hệt nhau.

Similarity (Positive):

Số base tương

đồng nhau.

Số lượng đoạn

trống (GAP)

trong alignment.

Kết luận

• Gợi ý tham số BLAST:

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 18

(Nguồn: Chapter 11 – Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins)

E-value Sequence identity

Nucleotide ≤ 1e-6 ≥ 70%

Protein ≥ 1e-3 ≥ 25%

Các tham số này chỉ mang ý nghĩa tham khảo, kết

luận chính xác nhất về một kết quả BLAST chỉ khi

đánh giá được alignment của kết quả đó.

5/7/2015

10

Bài tập 1: thực hành BLAST

I. Download toàn bộ protein của chủng E.coli DH10B trên

NCBI.

1. Vào trang NCBI BioProject và download:

http://www.ncbi.nlm.nih.gov/bioproject/20079

2. Nhấn vào con số “4126” ở mục Protein Sequence (đây chính là

tổng số protein tìm thấy trong chủng E.coli DH10B)

3. Nhấn vào nút “Send” ở góc trên cùng bên phải

4. Chọn “Destination” -> “File”-> “Format: FASTA” -> “Creat file”

5. Sau khi download file về máy, đổi tên thành “DH10B.fasta”

6. Sử dụng FileZilla để upload file DH10B.fasta lên máy chủ và cất

ở thư mục của bạn. (ví dụ: /home/hocvien1)

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 19

Bài tập 1: thực hành BLAST

II. Chuẩn bị cơ sở dữ liệu:

Để có thể giúp BLAST hiểu được bạn muốn tìm kiếm trình tự trên file DH10B.fasta, bạn phải chuyển file fasta thành 1 cơ sở dữ liệu

dựa vào script “makeblastdb” có sẵn trong phần mềm BLAST+ :

makeblastdb –in DH10B.fasta –out DH10B –dbtype prot

Trong đó:

-in file được chọn để làm cơ sở dữ liệu BLAST

-out tên cơ sở dữ liệu

-dbtype dạng cơ sở dữ liệu là protein (nếu là

nucleotide thì để nucl)

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 20

5/7/2015

11

Bài tập 1: thực hành BLAST III. Một nhóm nghiên cứu thiết kế mồi và muốn câu protein “30S ribosomal

subunit S1” từ E.coli DH10B, nhóm mang mẫu đi giải trình tự Sanger thu được file Sanger.fasta đặt trong thư mục:

/data/BIC15/6.annotation/Sanger.fasta

IV. Từ bộ protein của chủng E.coli DH10B đã được công bố trên NCBI (project-20079), ta sử dụng blastp để tìm kiếm trình tự Sanger.fasta trên bộ dữ liệu này:

blastp –num_thread 2 –db DH10B –query Sanger.fasta /

–out ketqua.xml –evalue 1e-6 –outfmt 5

Trong đó:

–num_thread: số lượng CPU sử dụng

-db: cơ sở dữ liệu sử dụng

-query trình tự cần kiểm tra

-out: tên file đầu ra

-evalue ngưỡng độ tin cậy e-value cao nhất

-outfmt định dạng file số 5, có dạng file là XML, định dạng file

này có thể xem bằng phần mềm EPOS – Blast Viewer.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 21

Bài tập 1: thực hành BLAST

V. Đáp án bài tập: sau khi đã tạo ra được file ketqua.xml, học viên có

thể mở ra bằng EPOS và đánh giá kêt quả BLAST. Dưới đây là các kết

quả mà học viên cần đạt được.

1. Tạo cơ sở dữ liệu DH10B.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 22

Phần mềm thông báo tạo thành công cơ sở dữ liệu

5/7/2015

12

Bài tập 1: thực hành BLAST V. Đáp án bài tập:

2. Mở phần mềm EPOS -> chọn BLAST Viewer -> Import File -> chọn file ketqua.xml -> nhấn OK

Kết quả trình tự cần kiểm tra có 3 kết quả tìm thấy, trong đó trình tự tin cậy nhất trả về “30S ribosomal subunit” S1 trên chủng E.coli DH10B.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 23

Bài tập 1: thực hành BLAST V. Đáp án bài tập:

2. Mở phần mềm EPOS -> chọn BLAST Viewer -> Import File -> chọn file ketqua.xml -> nhấn OK

Kết quả trình tự cần kiểm tra có 3 kết quả tìm thấy, trong đó trình tự tin cậy nhất trả đúng về kết quả 30S ribosomal subunit S1 trên chủng E.coli DH10B.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 24

5/7/2015

13

Quy trình chú giải chức năng Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 25

Trình tự DNA

(hoặc protein)

Trình tự được

chú giải bằng

BLAST

Trình tự được chú giải

bằng InterProScan

NCBI-nr

InterPro

Phần mềm

BLAST

Phần mềm

InterProScan

Trình tự được chú giải

chức năng.

Phần mềm

BLAST2GO

Gene

Ontology

Enzyme

KEGG

Là tập hợp của 11

ngân hàng protein lớn

nhất trên thế giới

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 26

2. InterProScan

5/7/2015

14

Database Trung tâm Cấu trúc dữ liệu Phương pháp chú giải URL

Pfam Sanger Institute Sequence alignment Family & Domain based on

conserved sequence http://pfam.sanger.ac.uk/

Gene3D UCL Structure

alignment Structural Domain

http://gene3d.biochem.ucl.ac.u

k/Gene3D/

Superfamily Uni. of Bristol Structure

alignment

Evolutionary domain

relationships http://supfam.cs.bris.ac.uk/SU

PERFAMILY/

SMART EMBL Heidelberg Sequence alignment Functional domain

annotation http://smart.embl-

heidelberg.de/

TIGRFAM J. Craig Venter Inst. Sequence alignment Microbial Functional

Family Classification

http://www.jcvi.org/cms/resear

ch/projects/tigrfams/overview/

Panther Uni. S. California Sequence alignment Family functional

classification http://www.pantherdb.org/

PIRSF PIR, Georgetown,

Washington D.C. Sequence alignment Functional classification

http://pir.georgetown.edu/pirw

ww/dbinfo/pirsf.shtml

PRINTS Uni. of Manchester Sequence alignment Family functional

classification

http://www.bioinf.manchester.

ac.uk/dbbrowser/PRINTS/inde

x.php

PROSITE SIB Sequence alignment Functional annotation http://expasy.org/prosite/

HAMAP SIB Sequence alignment Microbial protein family

classification http://expasy.org/sprot/hamap/

ProDom PRABI : Rhône-Alpes

Bioinformatics Center Sequence alignment

Conserved domain

prediction http://prodom.prabi.fr/prodom/

current/html/home.php

Limitations with Pairwise comparisons

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 28

5/7/2015

15

Protein signatures database

Multiple sequence alignment

Protein family/domain

Kết quả mới

ITWKGPVCGLDGKTYRNECALL

AVPRSPVCGSDDVTYANECELK

SVPRSPVCGSDGVTYGTECDLK

HPPPGPVCGTDGLTYDNRCELR

E-value 1e-49

E-value 3e-42

E-value 5e-39

E-value 6e-10

Protein

signature

Xây dựng lại

mô hình

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 29

1 2 3

Xây dựng mô hình Tìm kiếm

Điền trình tự protein

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

Tìm kiếm trên InterPro database http://www.ebi.ac.uk/interpro/

30

Chọn cơ sở dữ liệu

5/7/2015

16

Download kết quả về máy tính

Unintegrated signatures

Family và domain

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 31

http://www.ebi.ac.uk/interpro/

Sequence feature

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 32

http://www.ebi.ac.uk/interpro/

Đường dẫn đến signature databases

Đường dẫn đến InterPro entry

5/7/2015

17

I. Tương tự với BLAST, ta sẽ phân tích trình tự Sanger.fasta để phân loại trình tự này thuộc vào họ

(family) nào và có những domain nào.

II. Truy cập www.ebi.ac.uk/interpro/sequencesearch

III. Dán trình tự vào ô “Analyse your protein sequence”

IV. Nhấn search

V. Quan sát kết quả

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 33

Bài tập 2: thực hành InterProScan

Kết quả phân tích trình tự Sanger.fasta

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 34

Bài tập 2: thực hành InterProScan

5/7/2015

18

Quy trình chú giải chức năng Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 35

Trình tự DNA

(hoặc protein)

Trình tự được

chú giải bằng

BLAST

Trình tự được chú giải

bằng InterProScan

NCBI-nr

InterPro

Phần mềm

BLAST

Phần mềm

InterProScan

Trình tự được chú giải

chức năng.

Phần mềm

BLAST2GO

Gene

Ontology

Enzyme

KEGG

Gene Ontology là gì?

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 36

Gene ontology là một quyển từ điển chứa các thuật

ngữ sinh học được liên kết với nhau và giải quyết

được 2 vấn đề lớn nhất trong chú giải chức năng:

• Từ đa nghĩa (nhiều sự vật được mô tả bởi cùng 1

thuật ngữ)

• Từ đồng nghĩa (một sự vật được mô tả bởi nhiều

thuật ngữ)

5/7/2015

19

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 37

Từ đa nghĩa

Cell

• Glucose synthesis

• Glucose biosynthesis

• Glucose formation

• Glucose anabolism

• Gluconeogenesis

Từ đồng nghĩa

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 38

5/7/2015

20

Gene Ontology

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 39

Thông tin có được từ một protein (sản phẩm gene):

• Protein đó có chức năng gì?

• Chức năng đó thực hiện ở đâu?

• Chức năng đó thực hiện như thế nào?

1. Molecular Function

2. Biological Process

3. Cellular Component

Chức năng của protein

• protein kinase activity

• insulin receptor activity

Các quá trình mà protein tham gia

• cell division

Khu vực mà protein hoạt động

• mitochondrion

• mitochondrial matrix

• mitochondrial inner membrane

Gene Ontology

5/7/2015

21

PMID: PMC2680341

Cách tạo ra Gene Ontology

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 41

A0A087WNN3

Bằng chứng thực nghiệm của gene ontology

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 42

Inhibition of Btk kinase activity by IBtk

5/7/2015

22

Bằng chứng thực nghiệm của gene ontology

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 43

Protein tyrosine kinase inhibitor activity

GO:0030292

Bằng chứng thực nghiệm của gene ontology

Các bằng chứng từ thực nghiệm khẳng định

protein Ibtk mang các mã chức năng trên và

được xếp vào nhóm IDA (thực nghiệm)

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 44

Negative regulation of protein amino acid phosphorylation

GO:0001993

5/7/2015

23

GO EVIDENCE CODES

Direct Evidence Codes

IDA - inferred from direct assay

IEP - inferred from expression pattern

IGI - inferred from genetic interaction

IMP - inferred from mutant phenotype

IPI - inferred from physical interaction

Indirect Evidence Codes

inferred from literature

IGC - inferred from genomic context

TAS - traceable author statement

NAS - non-traceable author statement

IC - inferred by curator

inferred by sequence analysis

RCA - inferred from reviewed computational analysis

IS* - inferred from sequence*

IEA - inferred from electronic annotation

Other

NR - not recorded (historical)

ND - no biological data available

ISS - inferred from sequence or structural similarity

ISA - inferred from sequence alignment

ISO - inferred from sequence orthology

ISM - inferred from sequence model

http://www.geneontology.org/GO.evi

dence.shtml

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 45

Evidence codes

GO Mapping Example

NDUFAB1

GO EVIDENCE CODES

Direct Evidence Codes

IDA - inferred from direct assay

IEP - inferred from expression pattern

IGI - inferred from genetic interaction

IMP - inferred from mutant phenotype

IPI - inferred from physical interaction

Indirect Evidence Codes

inferred from literature

IGC - inferred from genomic context

TAS - traceable author statement

NAS - non-traceable author statement

IC - inferred by curator

inferred by sequence analysis

RCA - inferred from reviewed computational analysis

IS* - inferred from sequence*

IEA - inferred from electronic annotation

Other

NR - not recorded (historical)

ND - no biological data available

Bằng chứng dạng tài liệu

(literature):

• Chi tiết

• Độ chính cao

• “Lâu” (vì cần thực nghiệm)

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 46

5/7/2015

24

GO Mapping Example

NDUFAB1

GO EVIDENCE CODES

Direct Evidence Codes

IDA - inferred from direct assay

IEP - inferred from expression pattern

IGI - inferred from genetic interaction

IMP - inferred from mutant phenotype

IPI - inferred from physical interaction

Indirect Evidence Codes

inferred from literature

IGC - inferred from genomic context

TAS - traceable author statement

NAS - non-traceable author statement

IC - inferred by curator

inferred by sequence analysis

RCA - inferred from reviewed computational analysis

IS* - inferred from sequence*

IEA - inferred from electronic annotation

Other

NR - not recorded (historical)

ND - no biological data available

ISS - inferred from sequence or structural similarity

ISA - inferred from sequence alignment

ISO - inferred from sequence orthology

ISM - inferred from sequence model

Bằng chứng dạng tài liệu

(literature):

• Chi tiết hơn

• Độ chính cao

• “Lâu” (vì cần thực nghiệm)

Bằng chứng dạng máy tính

• Nhanh (computational)

• Độ chính xác thấp hơn

• Ít chi tiết hơn

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 47

NDUFAB1 (UniProt P52505)

Bovine NADH dehydrogenase (ubiquinone) 1, alpha/beta subcomplex, 1, 8kDa

Biological Process (BP or P)

GO:0006633 fatty acid biosynthetic process TAS

GO:0006120 mitochondrial electron transport, NADH to ubiquinone TAS

GO:0008610 lipid biosynthetic process IEA

Cellular Component (CC or C)

GO:0005759 mitochondrial matrix IDA

GO:0005747 mitochondrial respiratory chain complex I IDA

GO:0005739 mitochondrion IEA

NDUFAB1

Molecular Function (MF or F)

GO:0005504 fatty acid binding IDA

GO:0008137 NADH dehydrogenase (ubiquinone) activity TAS

GO:0016491 oxidoreductase activity TAS

GO:0000036 acyl carrier activity IEA

Ứng dụng của Gene Ontology

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 48

5/7/2015

25

NDUFAB1 (UniProt P52505)

Bovine NADH dehydrogenase (ubiquinone) 1, alpha/beta subcomplex, 1, 8kDa

GO:ID (unique)

GO term name

GO evidence code

Ví dụ về chú giải Gene Ontology

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 49

Ontologies

Mã số

Mô tả

thuật ngữ

Mối quan hệ

giữa các thuật

ngữ

Gene Ontology hiện có

40.000 thuật ngữ (05/05/2015)

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 50

5/7/2015

26

http://www.geneontology.org/

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 51

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 52

5/7/2015

27

o Trong đó phần mềm Blast2GO (www.blast2go.com) là phần mềm được đánh giá cao nhất trong phân tích chú giải chức năng hệ gen.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 53

3. Blast2GO

Chú giải chức năng cho

những loài non-model

Xử lý dữ liệu thông lượng cao

như hệ gen.

Kết nối chặt chẽ với hầu hết các

ngân hàng dữ liệu lớn.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 54

5/7/2015

28

Lý do chọn Blast2GO?

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 55

Tổng citation (Google Scholar): 4134 (05/05/2015)

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

BLAST2GO: Quy trình chú giải chức năng

Sq1

Blast Sq2

Sq3

Sq4

Sq1

Sq2

Sq3

Sq4

Hit1 Hit2 Hit3 Hit4

Hit1 Hit2 Hit3 Hit4

Hit1 Hit2 Hit3 Hit4

Sq1

Sq2

Sq3

Sq4

Hit1 Hit2 Hit3 Hit4

Hit1 Hit2 Hit3 Hit4

Hit1 Hit2 Hit3 Hit4

Hit1 Hit2

go1,go2, go3 go1,go3, go4 go3,go5, go6,go8 go1,go4

go6,go9, go8 go1,go8 go4,go1, go8,go9

go2 go2,go4, go4 go2,go5, go6 go2,go4

Sq1

Sq2

Sq3

Sq4

go1,go2, go3

go1,go3, go4

go3,go5, go6,go8

go1,go4

go6,go9, go8

go1,go8

go4,go1, go8,go9

go2

go2,go4, go4

go2,go5, go6

go2,go4

Mapping

Hit1 Hit2

Annotation

Nr

Interpro GO

56

5/7/2015

29

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

Quy trình chú giải chức năng trình tự hệ gen

(tiếp)

Sq1

Sq2

Sq3

Sq4

go1,go2, go3

go1,go3, go4

go3,go5, go6,go8

go1,go4

go6,go9, go8

go1,go8

go4,go1, go8,go9

go2

go2,go4, go4

go2,go5, go6

go2,go4

Sàng lọc

57

KEGG

EC

Sq1

Sq2

Sq3

Sq4

EC1,go2,

go1,go3,

EC3,

PATHWAY1,

go8

EC8

PATHWAY8,

go2

EC2,

go2,

go2,go4

PATHWAY2

Quy tắc chú giải Gene Ontology

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 58

Annotation Score (AS) = max i=1→n {%sim Hit i x ECw Hit i}

Mỗi một GO term sẽ được chú giải dựa trên điểm số annotation

Sq1

Hit1 go1,go2,go3

Hit2 go1,go3,go4,

Hit3 go3,go5,go6,go8

Hit4 go1,go4

Phần trăm similarity của Hit-Query

Evidence Code

Weight (ECw)

IDA 1

IMP 1

EXP 1

ISS 0.8

ISO 0.8

IEA 0.7 %sim Hit 𝑖 =

Độ 𝑑à𝑖 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝐻𝑆𝑃 Độ 𝑑à𝑖 𝐴𝑙𝑖𝑔𝑛𝑚𝑒𝑛𝑡 𝐻𝑆𝑃

5/7/2015

30

Enzyme commission và KEGG

Enzyme commission: hệ thống phân loại chức năng của enzyme dựa vào các phản ứng. (www.chem.qmul.ac.uk)

KEGG: cơ sở dữ liệu lớn nhất hiện nay về hệ thống các con đường chuyển hóa sinh học. (www.genome.jp/kegg/)

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 59

Nguồn: Program description: Strategies for biological annotation of mammalian systems: implementing gene

ontologies in mouse genome informatics. Genomics 74:121-128 (2001)

Gene Ontology

[Molercular function]

Enzyme

commission

năm 2001

1. Phần mềm: trong bài tập chú giải chức năng và phân tích hệ gen này, học viên sẽ sử dụng phần mềm BLAST2GO phiên bản 2.8 (phiên bản cũ, vì nhiều lý do không sử dụng bản mới nhất 3.0). Để có thể download BLAST2GO, học viên vào đường dẫn dưới đây và sử dụng trực tiếp trên Window: https://www.blast2go.com/start-blast2go-2-8

2. Dữ liệu:

/data/BIC15/5.Gene-prediction/transcript.fasta

(file trình tự transcript (cDNA) có được từ dự đoán gen vi tảo PQ6)

/data/BIC15/6.Annotation/transcript.xml

(kết quả Blastx transcript trên cơ sở dữ liệu nr-NCBI)

/data/BIC15/6.Annotation/transcript.dat

(kết quả chú giải Gene Ontology, Enzyme Commission và KEGG)

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 60

Bài tập phân tích hệ gen BLAST2GO

5/7/2015

31

Download Blast2GO v2.8 (phiên bản cũ)

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 61

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 62

Giao diện BLAST2GO

Bảng thao tác chính

(1) Blast (2) Mapping

(3) Annotation

Hiển thị biểu đồ GO

Thông báo quá trình phân tích

Kết quả Blast

Kết quả thống kê

Mọi thao tác

chỉ thực hiện

trên những

sequence

được select

Tin sinh học: Lắp ráp, dự

đoán, chú giải và phân tích

hệ gen | Phòng Tin sinh

học | www.tinsinhhoc.org 62

5/7/2015

32

Load sequences

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 63

Load sequences

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 64

Import kết quả blast

Import kết quả InterPro

Import trình tự fasta

Import kết quả mapping và annotation

5/7/2015

33

Load sequences

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 65

Import trình tự fasta

Bài 3: Thống kê phân bố độ dài trình tự

Bài tập:

• Thống kê phân bố độ dài trình tự trong file transcript.fasta và trích xuất dưới dạng : file ảnh

.png và file .txt

Hướng dẫn:

• Trong giao diện của BLAST2GO chọn “Statistics ->

Sequence Length Statistics”, chạy xong kết quả chọn

save theo PNG hoặc txt.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 66

5/7/2015

34

Bài 3: Thống kê phân bố độ dài trình tự

• .

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 67

Phân bố độ dài trình tự theo 2 định dạng file

Bài 4: Blast và InterPro

I. Chú giải trình tự mRNA-evidence.fasta bằng Blast và InterProScan trực tiếp trên BLAST2GO:

1. Blast: trong BLAST2GO có giao diện giúp người dùng blast trực tiếp online lên các cơ sở dữ liệu như nr-NCBI hay SwissProt. Tuy nhiên, trong khóa học này, học viên sẽ thực hành blastx dữ liệu PQ6 lên nr-NCBI trên máy chủ Lobi và Genome (tương tự như trong bài thực hành số 1).

Cách làm:

• Copy file .ncbirc về thư mục của học viên để kết nối với nr-NCBI:

cp /data/BIC15/6.Annotation/.ncbirc /home/hocvien1/

• Tiến hành blastx:

blastx -query transcript.fasta -db nr -num_threads 2 /

-max_target_seqs 20 -evalue 1e-6 -outfmt 5 / -

out transcript.xml

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 68

5/7/2015

35

Địa chỉ email BLAST (thông thường blastx)

Số lượng HITs (thường =< 20)

Hiển thị thông tin theo thuật toán

BDA (Best description annotator)

Khuyến cáo nên sử dụng XML

BLAST database (nr,…) E-Value

BLAST

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 69

Sử dụng server riêng

word size

Filter by description Minimum HSP length

Các tham số khác của BLAST

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 70

5/7/2015

36

Kết quả bài thực hành 4: BLAST

Màu đỏ

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 71

Kết quả bài thực hành 4: BLAST

Đánh giá độ tương đồng (similarity)

và e-value trong kết quả BLAST

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 72

5/7/2015

37

Kết quả bài thực hành 4: BLAST

Giao diện kết quả BLAST của trình tự

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 73

Bài 4: Blast và InterPro

I. Chú giải trình tự mRNA-evidence.fasta bằng

Blast và InterProScan trực tiếp trên

BLAST2GO:

2. InterProScan: Một điểm bất tiện của

www.ebi.ac.uk/interpro/ là không cho phép phân tích

nhiều trình tự một lúc, tuy nhiên BLAST2GO cho phép

tìm kiếm nhiều trình tự một lúc trên InterPro và online

với tốc độ rất nhanh.

Cách làm: theo hình vẽ phía sau.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 74

5/7/2015

38

Bài 4: Blast và InterPro

Kết quả được

lưu dưới dạng

file XML Một khi chú giải xong trên cơ sở dữ

liệu Interpro, các mã GO Interpro sẽ được

thêm vào kết quả GO chung.

Chạy công cụ InterProScan

trên máy chủ EBI trực tiếp

thông qua Blast2GO

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 75

Bài 4: Blast và InterPro

Kết quả InterproScan

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 76

5/7/2015

39

Bài 5: Mapping và annotation

I. Bước phân tích “mapping” và “annotation” được

BLAST2GO cho phép chạy online trên máy chủ đặt tại

Tây Ban Nha, tuy nhiên tốc độ rất chậm.

II. Ngoài cách chạy online, bước “mapping” và “annotation”

có thể chạy được local trên máy chủ Lobi và Genome tuy

nhiên lại khá phức tạp, buổi học thực hành hôm nay

chúng tôi chỉ hướng dẫn học viên cách chạy online phần

mapping và annotation (học viên sẽ thực hiện tại nhà

phần này) và đưa kết quả đầu ra để tiếp tục phân tích.

Input: transcript.xml (kết quả Blast hoặc InterPro)

Output: transcript.dat (dạng file project)

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 77

Bài 5: Mapping và annotation

Xanh lá cây

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 78

Statistics -> Mapping Statistics

-> Evidence Code distribution

Statistics -> Mapping Statistics

-> DB-resource of mapping

5/7/2015

40

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 79

BLAST based annotation

Tin sinh học: Lắp ráp, dự

đoán, chú giải và phân tích

hệ gen | Phòng Tin sinh

học | www.tinsinhhoc.org 79

Bài 5: Mapping và annotation

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 80

Ngưỡng giá trị cho Annotation Score (AS)

Tin sinh học: Lắp ráp, dự

đoán, chú giải và phân tích

hệ gen | Phòng Tin sinh

học | www.tinsinhhoc.org 80

Bài 5: Mapping và annotation

5/7/2015

41

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 81

Xanh biển

Tin sinh học: Lắp ráp, dự

đoán, chú giải và phân tích

hệ gen | Phòng Tin sinh

học | www.tinsinhhoc.org 81

Bài 5: Mapping và annotation

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 82

Kết quả thực hành bài 5 Statistics -> Data Distribution

Statistics -> Annotation Statistics

-> GO annotation level distribution

Statistics -> Annotation Statistics

-> Annotation Distribution

5/7/2015

42

Bài 6: Phân loại chức năng bằng Gene Ontology

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 83

Các mục phân loại

Tinh gọn đồ thị theo

số lượng trình tự

Dạng dữ liệu hiển thị

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 84

Bài 6: Phân loại chức năng bằng Gene Ontology

5/7/2015

43

Lưu dưới dạng ảnh và txt

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 85

Bài 6: Phân loại chức năng bằng Gene Ontology

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 86

Bài 6: Phân loại chức năng bằng Gene Ontology

5/7/2015

44

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 87

Bài 6: Phân loại chức năng bằng Gene Ontology

• Sequence Distribution/GO as Multilevel-Pie (#score or #seq cutoff)

• Sequence Distribution/GO

as Bar-Chart

• Sequence Distribution/GO

as Level-Pie (level selection)

Bài 7: Phân loại enzyme và pathway bằng EC và KEGG

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 88

Bài tập: Thống kê toàn bộ những trình tự liên quan đến

quá trình tổng hợp axit béo (fatty acid biosynthesis)

5/7/2015

45

Bài tập chú giải hệ gen vi tảo PQ6

Sau khi kết thúc phần thực hành chú giải hệ gen học

viên cần làm được những bài tập sau:

1. Thống kê phân bố độ dài trình tự hệ gen vi tảo PQ6 (transcript.fasta).

2. Thống kê có bao nhiêu trình tự: non-blast, blast, mapping,

annotation, mang mã EC (thống kê có bao nhiêu mã EC), được đưa vào KEGG pathway (transcript.dat).

3. Phân loại chức năng hệ gen theo Gene Ontology level 2 (transcript.dat).

4. Thống kê chi tiết những trình tự nào tham gia vào chu trình

tổng hợp axit béo trong KEGG (fatty acid biosynthesis).

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 89

Một vài chức năng khác

trong BLAST2GO

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 90

5/7/2015

46

Trích xuất kết quả

Lưu kết quả dưới

dạng file project để

lưu trữ

Trích xuất kết quả chú giải

dưới các định dạng khác

nhau

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 91

Định dạng trích xuất

C04018A02 glyoxalase i GO:0004462 F:lactoylglutathione lyase activity

C04018C02 metallothionein-like protein GO:0046872 F:metal ion binding

C04018G02 protein phosphatase GO:0008287 C:protein serine/threonine phosphatase complex

C04013E10 response to water deprivation; regulation of transcription; multicellular organismal development; response to abscisic acid stimulus; nucleus; transcription factor activity;

C04013A12 translation; ribosome; plastid; structural constituent of ribosome;

C04013C12 galactose metabolic process; plastid; aldose 1-epimerase activity; carbohydrate binding;

By Seq

GeneSpring Format

C04018C10 4707,9409,6979,10200,5524,169

C04018A12 16798,272,44248

C04018C12 4869,12505,8233

GoStat

C04018C10 GO:0004707 mitogen-activated protein kinase 3

C04018C10 EC:2.7.11.24

C04018A12 GO:0016798 class iv chitinase

C04018A12 GO:0000272

.annot

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 92

5/7/2015

47

Các định dạng trích xuất khác

Sequence name Sequence desc. Sequence lengthHit desc. Hit ACC E-Value Similarity Score Alignment lengthPositives

C04018C10 mitogen-activated protein kinase 3 717 gi|122894104|gb|ABM67698.1|mitogen-activated protein kinase [Citrus sinensis]ABM67698 1.35E-123 99 445.28 222 221

C04018E10 ---NA--- 706 gi|157356307|emb|CAO62459.1|unnamed protein product [Vitis vinifera]CAO62459 2.69E-036 83 155.22 119 99

C04018G10 protein 620 gi|114153154|gb|ABI52743.1|10 kDa putative secreted protein [Argas monolakensis]ABI52743 7.47E-015 63 83.57 90 57

C04018A12 class iv chitinase 715 gi|3608477|gb|AAC35981.1|chitinase CHI1 [Citrus sinensis]AAC35981 1.45E-061 78 239.2 171 134

C04018C12 cysteine proteinase inhibitor 663 gi|8099682|gb|AAF72202.1|AF265551_1cysteine protease inhibitor [Manihot esculenta]AAF72202 9.33E-025 83 116.7 99 83

C04018E12 protein phosphatase 2c 663 gi|46277128|gb|AAS86762.1|protein phosphatase 2C [Lycopersicon esculentum]AAS86762 2.76E-077 91 291.2 180 164

C04018G12 alpha beta fold family protein 578 gi|147865769|emb|CAN83251.1|hypothetical protein [Vitis vinifera] >gi|157339464|emb|CAO44005.1| unnamed protein product [Vitis vinifera]CAN83251 1.67E-084 94 314.69 179 169

C04018A02 glyoxalase i 600 gi|2213425|emb|CAB09799.1|hypothetical protein [Citrus x paradisi]CAB09799 2.16E-064 81 248.05 114 93

C04018C02 metallothionein-like protein 625 gi|3308980|dbj|BAA31561.1|metallothionein-like protein [Citrus unshiu]BAA31561 2.23E-014 100 82.03 40 40

Seq. Name Seq. Description Seq. Length #Hits min. eValuemean Similarity#GOs GOs Enzyme Codes InterProScan

C04018C12 cysteine proteinase inhibitor 663 20 25 80.00% 3 F:GO:0004869; C:GO:0012505; F:GO:0008233IPR000010; IPR018073; noIPR

C04018E12 protein phosphatase 2c 663 20 77 85.00% 2 N:GO:0015071; F:GO:0003824 IPR001932; IPR014045; IPR015655; noIPR

C04018G12 alpha beta fold family protein 578 20 84 79.00% 4 F:GO:0016787; C:GO:0005739; C:GO:0009507; P:GO:0006725noIPR

C04018A02 glyoxalase i 600 20 64 74.00% 2 P:GO:0005975; F:GO:0004462EC:4.4.1.5 IPR004360; noIPR

C04018C02 metallothionein-like protein 625 18 14 74.00% 1 F:GO:0046872 IPR000347

C04018E02 haemolysin-iii related familyexpressed 612 20 32 72.00% 1 C:GO:0016020 noIPR

C04018G02 protein phosphataseexpressed 645 20 97 81.00% 5 C:GO:0008287; N:GO:0015071; P:GO:0006470; C:GO:0009536; C:GO:0005739no IPS match

C04018C04 phosphoglycerate bisphosphoglycerate mutase family protein780 20 63 66.00% 2 P:GO:0008152; F:GO:0003824 IPR001345; IPR013078; noIPR

C04018E04 polyubiquitin 707 20 115 99.00% 2 P:GO:0006464; C:GO:0005622 IPR000626; IPR019954; IPR019955; IPR019956; noIPR

C04018G04 meiotic recombination 11 575 20 45 89.00% 21 C:GO:0019013; P:GO:0007126; F:GO:0004519; F:GO:0005509; F:GO:0004871; C:GO:0005739; F:GO:0030145; P:GO:0006302; P:GO:0045449; F:GO:0008289; P:GO:0042157; F:GO:0003677; P:GO:0006869; C:GO:0030089; P:GO:0007165; F:GO:0004527; P:GO:0015979; C:GO:0005576; F:GO:0005198; C:GO:0005634; P:GO:0006118IPR003701; IPR004843; noIPR

C04018A06 late embryogenesis-abundant protein 648 20 43 68.00% 2 P:GO:0009737; P:GO:0009409 no IPS match

Export Sequence Table

Export BestHit Data

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 93

Sequence Selection

Sequence Selection giúp

lựa chọn các sequence

mong muốn.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 94

5/7/2015

48

Sequence Selection

By Name/Description By Function

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 95

View Menu

Chức năng cho phép chọn

trình tự muốn hiện thị dựa trên

các chức năng chú giải

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 96

5/7/2015

49

Mục lục bài thực hành

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org 97

Tên bài thực hành Slide số

Bài 1: Thực hành BLAST trên máy chủ với dữ liệu E.coli 19-24

Bài 2: Thực hành InterProScan trên web với dữ liệu E.coli 33-34

Bài 3: Thống kê phân bố độ dài trình tự bằng BLAST2GO 67-68

Bài 4: BLAST và InterProScan trên BLAST2GO 69-77

Bài 5: Mapping và annotation (thực hiện tại nhà) 78-83

Bài 6: Phân loại chức năng bằng Gene Ontology 84-88

Bài 7: Phân loại enzyme và pathway bằng EC và KEGG 89