tin sinh hoc

Bé GI¸O DôC Vµ §µo t¹oBé GI¸O DôC Vµ §µo t¹otr êng ®¹i häc n«ng nghiÖp hµ néitr êng ®¹i häc n«ng nghiÖp hµ néi

Bµi gi¶ng Tin sinh häCBµi gi¶ng Tin sinh häC

TThS. Phan Träng NhËthS. Phan Träng NhËt

Bé m«n C«ng nghÖ Bé m«n C«ng nghÖ sinh häcsinh häc

CHƯƠNG I: GIỚI THIỆU VỀ INTERNET VÀ

SỰ RA ĐỜI CỦA TIN SINH HỌC

1.1. Giới thiệu về Internet

Khái niệm

• Internet là mạng máy tính toàn cầu để liên kết

các tổ chức, trung tâm, viện nghiên cứu, trường

học....

• Để máy tính hoạt động hiệu quả thì chúng phải

cùng chia sẻ một phương tiện truyền thông được

gọi chung là TCP/IP.

Các máy tính giao tiếp với nhau bằng cách nào?

TCP/IP (Transmission Control Protocol/ Internet Protocol) gọi là giao thức truyền dữ liệu/ giao thức Internet. Giao thức này cho phép các máy tính trên mạng trao đổi dữ liệu với nhau một cách thống nhất, tương tự như một ngôn ngữ quốc tế được mọi người cùng sử dụng để có thể hiểu nhau.

Mỗi máy tính trên internet được đặt một tên duy nhất đó là địa chỉ IP

Ví dụ: IP: 203.162.8.82 hay IP: http:// www.hau1.edu.vn

1.1.1. Lịch sử ra đời của Internet

• Năm 1969: Mạng ARPANET được ra đời dưới sự

tài trợ của cơ quan quản lý các dự án nghiên cứu

phát triển ARPA (American Research Projects

Agency) thuộc Bộ Quốc phòng Mỹ (US Department

of Defence).

• Khởi điểm là 4 nút mạng đặt tại 4 trường đại học

của Mỹ: Đại học California Los Angeles (UCLA) Học viện nghiên cứu Standford (SRI) Đại học California Santa Barbara (UCSB) Đại học Utah

Đó là mạng liên khu vực (WAN: Wide Area Network) đầu tiên được xây dựng, đánh dấu sự ra đời của internet ngày nay.

Trung tâm nghiên cứu Xeroc Corporation Palo Alto phát triển chuẩn kết nối Ethernet. Những năm 1980, giao thức TCP/IP trên Ethernet trở thành giao thức thông dụng trên mạng cục bộ.

Năm 1983, Bộ Quốc phòng Mỹ đã tách ARPANET làm

hai mạng con: MILNET: dành cho các hoạt động quân sự. ARPANET mới: dành cho các hoạt động phi quân

sự, trường đại học, viện nghiên cứu.

• Năm 1986, Tổ chức quỹ khoa học quốc gia NSF

(National Science Foudation) thành lập mạng NSFNET.

Nhiều doanh nghiệp chuyển từ ARPANET sang NSFNET.• Năm 1990, ARPANET ngừng hoạt động sau gần 20

năm.• Năm 1995, NSFNET thu lại thành một mạng nghiên cứu

còn Internet thì vẫn tiếp tục phát triển.• Năm 1991, WWW (World Wide Web) ra đời đặt nền

móng cho việc chuyển tải thông tin đa phương tiện

(multimedia) thông qua các siêu liên kết (hyperlink) rất

tiện dụng cho việc khai thác internet. Tổ chức W3C

(World Wide Web Consorticum) ra đời: nghiên cứu các

chuẩn chung cho Web.

Cuối năm 1992, xuất hiện nhà cung cấp thông tin thương mại đầu tiên là Delphi.

Tháng 6/1993: có khoảng 130 website. Năm 1994: có khoảng 3.000 website. Hiện nay: Vài trăm triệu website. Không có bất kỳ cá nhân hay tổ chức nào có toàn

quyền kiểm soát internet mà mỗi nhà quản trị chỉ quản lý phần mạng của tổ chức mình.

Để internet hoạt động theo một chiều hướng thống nhất thì hiệp hội internet và W3C có nhiệm vụ phát triển các giao thức truyền thông tin chung trên internet và theo dõi các chuẩn về web.

Số lượng máy chủ:

Năm 1981: khoảng 200 máy

Năm 1985: khoảng 2000 máy

Nay: > 9.000.000 máy

Internet trở thành mạng lớn nhất thế giới: mạng

của các mạng và xuất hiện trong mọi lĩnh vực:

Chính trị, quân sự, thương mại, nghiên cứu, giáo

dục, văn hoá, xã hội...

1.1.2. Sự hình thành Internet ở Việt Nam• Năm 1993 mạng VARENET (Vietnam Academic

Research Education Network) được thành lập, tạo tiền đề cho việc hình thành mạng lưới internet Việt Nam. VARENET ra đời từ Chương trình hợp tác nghiên cứu khoa học, triển khai công nghệ mạng tại Viện Công nghệ Thông tin thuộc Viện Khoa học và Công nghệ Việt Nam với sự hợp tác khoa học của Đại học Quốc gia Australia (ANU). Máy chủ của mạng VARENET đặt tại ANU.

• Năm 1993: VARENET chỉ có một chức năng duy nhất là phục vụ thư điện tử (E-mail) cho các văn phòng đại diện nước ngoài, các Cty liên doanh hay 100% vốn nước ngoài do tính chất mới và chi phí tài chính cao tại Việt Nam.

• Ngày 19 – 11 - 1997, khi Chính phủ Việt Nam quyết định

chính thức kết nối internet thì tên miền (.vn) được phía

Australia bàn giao cho Tổng cục Bưu điện Việt Nam. Sự

hình thành của hàng loạt các nhà cung cấp dịch vụ

internet sau đó đã làm mờ nhạt vai trò của VARENET.

• Sau VARENET, mạng diện rộng thứ hai là VINANET

(Vietnam Network) ra đời ở Việt Nam của Trung tâm

Thông tin Thương mại thuộc Bộ Thương mại. VINANET

cung cấp thông tin giá cả thị trường trong nước và quốc

tế, địa chỉ doanh nghiệp, văn bản tư pháp.... Tốc độ truy

cập thời kỳ này là 2,4kbps qua đường dây điện thoại.

• Năm 1997, hàng loạt các nhà cung cấp dịch vụ

internet (ISP) và các nhà cung cấp thông tin lên

internet (ICP) như: VNN, FPT, Saigonnet, Netnam và

CINET.

• VNN (Vietnam Network) là mạng máy tính của Công

ty Điện toán và truyền số liệu VDC (Vietnam

Datacommunication Company) thuộc Tổng công ty

Bưu chính viễn thông Việt Nam, hình thành năm 1997.

• FPT (Company for Financing and Promoting

Technology) là Công ty Tài chính và Kỹ thuật Quảng

cáo, thành lập năm 1997.

• Saigonnet thuộc Công ty Cổ phần Bưu chính viễn

thông Sài gòn SPT (Saigon Post and

Telecommunication Service Corporation), thành lập

năm 1997.

• Netnam thuộc Viện Công nghệ thông tin, thành lập

năm 1998.

• CINET (Culture and Information Net) thuộc Bộ Văn

hoá và Thông tin, thành lập năm 1997.

• Trong số các ISP kể trên, VNN dẫn đầu danh sách với

ưu thế vừa là IAP (cung cấp cổng truy cập internet)

vừa là cung cấp dịch vụ internet ISP (Internet Service

Provider) và ICP (cung cấp nội dung trên internet).

1.2. Kết cấu mạng Internet

1.2.1. Các kiểu mạng:• Mạng cục bộ LAN (Local Area Network)• Mạng vùng trung tâm MAN (Metropolitan Area

Network)• Mạng diện rộng WAN (Wide Area Network)

Mạng cục bộ LAN: là mạng nhỏ nhất, trong vòng

vài km, ngoại trừ trường hợp máy tính đơn kết nối

trực tiếp với internet, tất cả các máy tính có nối

mạng đều nối vào mạng LAN. Mạng LAN được

dùng cho một toà nhà, trường học, thư viện, bệnh

viện…

Một đặc điểm của mạng LAN là khi một máy tính truyền dữ liệu thì tất cả các máy tính trong mạng đều có thể nhận dữ liệu đó, đặc tính này gọi là broadcasting.

Máy tính trong mạng LAN sử dụng kỹ thuật gọi là Carrier Sense Multiple Access/ Collision Detect (CSMA/CD) nghĩa là không gửi khi máy tính khác đang gửi và kiểm tra những gì gửi đi có xung đột với các máy tính khác.

Công nghệ LAN mới nhất hiện nay là mạng không dây sử dụng tia hồng ngoại hay sóng radio thay cho cáp để truyền tín hiệu mạng. Tốc độ truyền từ 1 đến 11 Mbps, nó thích hợp cho những người di chuyển thường xuyên hay những nơi mà không thể đặt dây cáp.

Mạng vùng trung tâm MAN

Khác với mạng LAN là dùng chung một thiết bị truyền

trong mạng nên cho phép nhiều máy tính kết nối

vào cùng một sợi dây, mạng MAN sử dụng các kết

nối điểm đến điểm (point to point) với chỉ một máy

tính tại cuối mỗi liên kết. Các máy tính tại cuối mỗi

liên kết của MAN cũng có thể kết nối với các mạng

LAN, MAN và WAN.

Mạng diện rộng WAN

Phạm vi của mạng có thể là một quốc gia hay thậm chí

cả lục địa. Cũng giống như đa số MAN, mạng WAN

dùng các kết nối vật lý điểm đến điểm nhưng dùng

cáp xoắn. Công nghệ WAN thường có nguồn gốc từ

các hệ thống xây dựng để phục vụ cho các công ty

điện thoại.

1.2.2. Kết nối Internet Kết nối vật lý: kết nối các thiết bị phần cứng như

modem, dây cáp để thực hiện việc nối từ một máy tính đến mạng internet thông qua các nhà cung cấp mạng.

Sau khi kết nối vật lý, việc kết nối internet có thể thực hiện theo hai cách:

Kết nối trực tiếp: cần có modem tốc độ cao nối với cổng V35 của thiết bị định tuyến (Router) để kết nối trực tiếp vào internet thông qua kênh thuê bao riêng. Các loại dịch vụ kết nối do các nhà cung cấp dịch vụ internet bao gồm:

Đường truyền thường trực (Leased Line)

Đường dây thuê bao số bất đối xứng ADSL (Asymetrical Digital Subcribe Line)

Kết nối gián tiếp: chỉ cần một modem và một đường

dây điện thoại để quay số vào mạng. Dịch vụ này có:

Quay số kết nối qua mạng điện thoại Dial-Up

Mạng số tích hợp đa dịch vụ (Intergrated

Service Digital Network)

So với kết nối internet gián tiếp, kết nối internet trực

tiếp có nhiều ưu điểm như: băng thông rộng, tốc độ

cao và ổn định, hoạt động liên tục (online 24/24).

Đương nhiên chi phí cho việc kết nối trực cũng tốn

kém hơn nhiều so với loại gián tiếp.

Sau khi đã lựa chọn cách kết nối internet thì chúng ta quan tâm đến dịch vụ nào cho phép chúng ta lướt trên internet. Có 2 nhóm chính là:

Các dịch vụ trực tuyến (online service) như America Online (AOL) và CompuServe thường cung cấp một lượng lớn các dịch vụ Intergrative Digital bao gồm Information retrieval, thư điện tử (e-mail), bảng tin (bulletin board) và “chat room’’ nhờ đó người sử dụng trực tuyến đồng thời có thể quan tâm đến một vài lĩnh vực cùng một lúc.

Các nhà cung cấp dịch vụ internet ISP (Internet Service Provider) bao gồm việc cấp tài khoản truy cập internet cho người sử dụng đồng thời cung cấp các dịch vụ internet.

1.3. Một số nét khái quát về WWW (World Wide

Web) và trình duyệt Web

1.3.1. WWW và nguyên lý hoạt động

WWW là gì? :

WW là dịch vụ cung cấp thông tin trên hệ thống

mạng Internet/Intranet. Các thông tin này được lưu

trữ dưới dạng tập tin siêu văn bản (hypertext) và

được truy xuất bởi trình duyệt web (Web Browser).

Siêu văn bản là các tư liệu chứa văn bản, hình ảnh tĩnh, hình ảnh động, âm thanh, video… được liên kết với nhau qua các siêu liên kết (hyperlink). Thông qua các siêu liên kết, người dùng có thể nhanh chóng tham khảo các tư liệu liên quan một cách dễ dàng.

Để truy xuất các thông tin trên Web Server, các khách hàng sử dụng web (Web Client) phải sử dụng chương trình có chức năng duyệt các thông tin dạng siêu văn bản gọi là trình duyệt web. Có nhiều loại trình duyệt web như: Internet Explorer, Netscape Navigator, Opera, Neoplanet… Trong số đó, 2 trình duyệt được sử dụng phổ biến là Internet Explorer và Netscape Navigator.

1.3.2. Vài nét cơ bản của trình duyệt Web

Tiềm năng của Internet chỉ thực sự phát huy được khi có các trình duyệt web ra đời. Chúng cho phép truy cập tới nguồn thông tin ở các vị trí khác nhau. Các Browser là các trạm công tác có khả năng xử lý hoặc yêu cầu lấy thông tin hoặc các chương trình ứng dụng từ máy chủ của mạng. Trong đó trang chủ là điểm trung gian giữa browser và server. Hiện nay có một số Web browser đang dùng phổ biến là Lynx cho hệ điều hành Unix hoặc VMS; Mosaic cho các máy Apple Mac, X-Windows; Internet Explorer và Netscape Navigator cho các máy Windows.

Ưu điểm:

Sử dụng dễ dàng, không cần phải hiểu biết nhiều về

tin học – máy tính.

Người sử dụng không cần biết vị trí chính xác của

trang văn bản, hình ảnh… trên mạng internet, mà

chỉ cần chọn nó bằng cách nhấp chuột vào các liên

kết để có được nội dung muốn tìm.

Các nguyên tắc duyệt Web:

Xác định rõ thông tin muốn tìm trên web.

Xác định được những Web site nào thích hợp cho

việc truy tìm thông tin.

Có thể mở nhiều của sổ cho mỗi website trong

việc tìm kiếm bằng cách chọn File/New Windows

hoặc tổ hợp phím Ctrl + N.

Muốn mở một liên kết trong một cửa sổ mới, nhấp

phải chuột và chọn Open link in new windows.

Chức năng của trình duyệt:

Cho phép xem trang web.

Lưu lại những địa chỉ URL của trang web.

Sử dụng dịch vụ FPT bằng trình duyệt web (Web FPT)

Sử dụng các chương trình E-mail trên web (Webmail)

Các trình duyệt đều sử dụng đĩa cứng để tạm ghi các

địa chỉ trang web (gọi là cache) mà người sử dụng

vừa lướt qua, có thể điều chỉnh tuỳ theo nhu cầu của

mỗi người.

Các chức năng hỗ trợ khác bao gồm: Ngăn chặn

những trang web mang nội dung xấu, phản động và

có thể thay đổi phông chữ, kích thước.

1.4. Các dịch vụ, tài nguyên và đạo đức trên

Internet

1.4.1. Các dịch vụ:

• E-mail (Electronic mail): Thư điện tử

• WWW: Mạng thông tin toàn cầu thể hiện thông tin

dạng siêu văn bản.

• FTP (File Transfer Protocol): Giao thức truyền tập tin

trên mạng.

Chat: Hội thoại trực tiếp trên Internet

• VoIP (Voice over Internet Protocol): Kỹ thuật

chuyển tải giọng nói qua giao thức Internet hay

còn gọi là điện thoại Internet.

• Video Conference: Hội nghị truyền hình.

• WAI (Wireless Application Protocol): Giao thức sử

dụng công nghệ không dây.

1.4.2. Luật lệ, đạo đức và các quy định hoạt

động của Internet• Không được truy cập (Access) bất hợp pháp vào

những hệ thống đòi hỏi phải có Username và

Password.

• Không phá hoại và gây rối loạn hệ thống lưu thông

trên Internet (gieo rắc, phát tán virus).

• Không lãng phí nguồn tài nguyên (không download

những tập tin quá lớn mà chẳng để làm gì, đặc biệt

trong giờ cao điểm.

• Không xoá tập tin của người khác.

• Không xâm phạm, phát tán những thông tin có tính

chất riêng tư của người khác.

1.5. Sự ra đời và vai trò của tin sinh học

1.5.1. Buổi bình minh của trình tự

Trình tự Protein

Trình tự axit nucleic

1.5.2. Sự ra đời của tin sinh học

Do sự xuất hiện của các thông tin về cấu trúc, chức

năng và trình tự của protein, DNA từ đó dẫn tới

nhu cầu quản lý, so sánh và dự đoán cấu trúc và

chức năng của sinh vật và sự phát triển của các

ngành khoa học khác đặc biệt là công nghệ thông

tin, máy tính. Do nhu cầu đó mà Tin sinh học đã

được ra đời.

1.5.3. Khái niệm Tin sinh học

Là một môn khoa học phân tích các cơ sở dữ liệu

sinh học nhờ sự hỗ trợ của máy tính và các công cụ

thống kê.

Các ngành học của Tin sinh học bao gồm:

Tin sinh học genome

Tin sinh học protein

Tin sinh học tiến hoá

Tin sinh học nông nghiệp

Tin sinh học y học

Phát triển các công cụ và cơ sở nền

1.5.4. Vai trò và xu hướng phát triển của Tin sinh

a/ Vai trò của Tin sinh học:

Tập hợp, lưu trữ, sắp xếp, truy xuất và chia sẻ cơ

sở dữ liệu.

Hỗ trợ cho việc tìm kiếm, phân tích, xử lý và dự

đoán các kết quả nghiên cứu.

Hỗ trợ trong các nghiên cứu về cấu trúc không

gian phân tử.

Hỗ trợ trong nghiên cứu đa dạng và tiến hoá của

sinh vật

b/ Xu hướng phát triển của Tin sinh họcb/ Xu hướng phát triển của Tin sinh học

Những lĩnh vực của Tin sinh học đang được tập Những lĩnh vực của Tin sinh học đang được tập

trung nghiên cứu:trung nghiên cứu:

Quản lý cơ sở dữ liệu Quản lý cơ sở dữ liệu

Phân tích, biên dịch dữ liệuPhân tích, biên dịch dữ liệu

Phát triển các thuật toánPhát triển các thuật toán

Các cấu trúc cơ sở dữ liệuCác cấu trúc cơ sở dữ liệu

Thiết kế các giao diện và hiển thịThiết kế các giao diện và hiển thị

c/ Địa chỉ có thể tìm hiểu thêm những tài liệu về Tin c/ Địa chỉ có thể tìm hiểu thêm những tài liệu về Tin

sinh học:sinh học:

http://www.iscb.orghttp://www.iscb.org

http://www.ncbi.nlm.nih.govhttp://www.ncbi.nlm.nih.gov

http://www.bioinformatics.orghttp://www.bioinformatics.org

Các tạp chí về BioinformaticsCác tạp chí về Bioinformatics

Các công cụ tìm kiếm (Google, Yahoo…)Các công cụ tìm kiếm (Google, Yahoo…)

Các hội nghị, hội thảoCác hội nghị, hội thảo

Các thư việnCác thư viện

CHƯƠNG 2TÌM KIẾM THÔNG TIN TRÊN INTERNET

2.1. Khái niệm về thông tin1. Thông tin là gì?Thông tin là các dữ liệu và tri thức được sử dụng trong

thựctiễn để giải quyết một số vấn đề hoặc một nhiệm vụ nào

2. Các thuộc tính của thông tin Giá trị của thông tin phụ thuộc vào:

Chất lượng của thông tinTrình độ của người sử dụng

Thông tin có chất lượng khi nó có những tính chất sau:Chính xác và đáng tin cậyKịp thời Đặc trưng và định hướng cho người dùng thi cụ thể

Khái niệm chung về tìm tin:

Tìm tin là một thuật ngữ chung để chỉ công việc tìm tài

liệu

hay nguồn của tài liệu, cũng như thông tin về dữ liệu và

sự kiện mà tài liệu đó cung cấp.

2.2. Các công cụ tìm kiếm thông tin

Biểu thức tìm tin:

Biểu thức tìm tin là một tập hợp các từ khóa được liên

kết với nhau bằng các toán tử logic.

Các loại toán tử logic thường sử dụng khi tìm tin:

Phép nối đồng thời hai từ khóa hay và (and, +): Ví dụ:

“Cây lúa” + “hoa màu” hoặc “Cây lúa” & “Hoa màu”.

Phép lựa chọn hay hoặc: Ví dụ: “Cây lúa” or

“Hoa màu”.

Phép loại trừ: Ví dụ: “Cây lúa” – “Hoa màu”.

Phép phủ định (Not, !): Ví dụ: Internet &!

Computer.

Sử dụng các dấu ngoặc: Ví dụ: (PCR or

RAPD) and not (AFLP or SSR).

Các toán tử gần đúng: NEAR (gần như), ADJ

(gần như) , SAME (đại loại giống như), FBY

(theo sau bởi).

Những lưu ý về việc chọn lựa từ khóa

Tốt nhất chỉ nên dùng danh từ làm từ khóa.

Trong khi tìm kiếm các tài liệu tiếng nước ngoài không

nên sử dụng các mạo từ, giới từ.

Sắp xếp các từ khóa quan trọng trước theo thứ tự ưu

tiên.

Nên sử dụng ít nhất là hai từ khoá (thường là 3) và kết

hợp các từ khóa thành những cụm từ.

Tránh sử dụng các từ thường sử dụng (tần suất lặp lại

rất nhiều ở hầu hết các tài liệu).

Để tìm thông tin cụ thể tốt nhất hay chọn những từ

khóa mà có thể sẽ là tiêu đề cho tài liệu hoặc tên trang

2.3. Cách tìm kiếm thông tin Nguyên tắc chung Mở nhiều cửa sổ trình duyệt (Web browser) trong khi

khai thác thông tin để tăng tốc độ tìm tin (Ctrl + N). Không nên mở trực tiếp một hyperlink ngay trên trang

web chính mà mở riêng thông tin đó trên một trang Web mới (Open in new windows).

Các cách tìm tin

a/ Tìm tin theo thư mục chủ đề: Thư mục chủ đề là một tập hợp các tài liệu có liên quan đến thông tin mà chúng ta cần tìm kiếm.

Các ưu điểm và hạn chế của thư mục chủ đề: Chứa các

thông tin cụ thể, chính xác và ít xuất hiện trong các kết

quả tìm kiếm.

Khi nào nên sử dụng các thư mục chủ đề:

Khi muốn xem thông tin nào sẵn có trên trang

Web trong một lĩnh vực, phạm vi cụ thể liên quan

đến vấn đề mình quan tâm trong thời gian ngắn.

Các thư mục chủ đề tiêu biểu:

Yahoo! (http://www.yahoo.com)

Excite (http://www.excite.com/)

LookSmart (http://www.looksmart.com)

Magellan (http://magellan.excite.com/)

Open Directory Project (http://www.dmoz.org)

Snap (http://www.snap.com/)

b/ Tìm tin theo từ khóa:

Để tìm thông tin theo từ khoá ngoài việc xác định từ khóa và

biểu thức tìm tin chúng ta cần phải lựa chọn một công cụ để

tìm kiếm tin hay còn gọi là các search engine.

Việc tìm kiếm nhờ các search engine có rất nhiều lợi thế vì:

Thứ nhất thông tin tìm được sẽ cụ thể và chi tiết hơn.

Thứ hai có rất nhiều tiêu chuẩn để lọc thông tin như: tìm

thông tin theo thời gian, ngôn ngữ, định dạng file...

c/ Tìm tin theo các trường

Tìm kiếm theo tiêu đề: Title: “từ khóa”, kết quả sẽ

cho ra tất cả các trang Web có tên như từ khóa đã

chọn. Nhanh hơn rất nhiều so với tìm kiếm từ khóa

trong toàn bộ tài liệu.

Tìm kiếm theo tên miền: Tên miền gồm 3 chữ viết tắt

của một lĩnh vực mà trang web đó chứa thông tin liên

quan. Vi dụ: www.hau1.edu.vn khi đó domain là: edu

Tìm kiếm các hình ảnh: image: bones.gif

Ngoài ra còn có nhiều trường tìm kiếm khác như:

object, text, sound, pictures, date, anchor, applet và

language.

2.4. Cách chọn và đánh giá độ tin cậy của thông tin

2.4.1. Cách chọn thông tin2.4.2. Đánh giá độ tin cậy của thông

CHƯƠNG 3: CƠ SỞ DỮ LIỆU SINH HỌC VÀ

CÁC NGÂN HÀNG CƠ SỞ DỮ LIỆU

3.1. Khái quát chung về cơ sở dữ liệu sinh học

Cơ sở dữ liệu sinh học (CSDL) trong chương này chủ

yếu đề cập đến các thông tin về trình tự axit nucleic

(ADN, ARN), trình tự axit amin của các phân tử

protein, thông tin về cấu trúc và giải phẫu của một

số genom, mô hình cấu trúc không gian của các đại

phân tử.

Các thông tin này được sắp xếp và lưu trữ bởi một hệ

thống các máy chủ rất mạnh của 3 ngân hàng gen

lớn nhất thế giới là NCBI, EMBL và DDBJ.

3.2. Phân tích dữ liệu ADN và Protein3.2. Phân tích dữ liệu ADN và Protein

Các thông tin về dữ liệu ADN, protein: chủ yếu là

trình tự nucleotit và trình tự axit amin

Ngân hàng gen cũng có thể được coi như một thư

viện sách, trong đó mỗi cuốn sách chính là một

trình tự nucleotit ADN hoặc axit amin của protein

và chúng đều được đánh số.

Bằng cách này hay cách khác chúng ta có thể tìm

được trình tự cần quan tâm. Tuy nhiên, vấn đề ở

đây không phải là tìm bằng cách nào mà chúng ta

phải hiểu được cuốn sách đó viết về cái gì và sử

dụng nó như thế nào?

a/ Dữ liệu ADN và Protein là gi?a/ Dữ liệu ADN và Protein là gi?

Dữ liệu về trình tự nucleotit trong ADN và trình tự

axit amin trong protein là những thông tin sinh học

ở mức độ phân tử. Đối với ADN đó là số lượng, thành

phần và trật tự sẵp xếp của các nucleotit,

ribonucleotit trên một phân tử ADN, mRNA.

Các thông tin về ADN thường được chỉ rõ chúng mã

hóa cho sản phẩm gen gì? có mặt ở đối tượng sinh

vật nào? phân bố ở đâu. Ngoài ra các thông tin này

còn liên quan đến vấn đề nghiên cứu gì và của tác

giả nào?

Đối với Protein, đó là số lượng và trật

tự sắp xếp của các axit amin trong

một phân tử protein. Các thông tin

này cũng bao gồm đặc tính và vai trò

của protein vị trí có mặt trong tế bào,

mô, cơ quan, tác giả công bố… thậm

chí còn đưa ra những giả thiết về cấu

trúc của phân tử.

b/ Genomic và Proteomic

Genomic: Là tất cả những dữ liệu về thông tin di

truyền của một loài sinh vật nhất định. Tức là hướng

tiếp cận từ ADN.

Proteomic: Là tất cả các sản phẩm gen (protein) của

một tế bào, mô hoặc cơ quan của một sinh vật nào

đó trong một giai đoạn sinh lý nhất định. Xét ở

phạm vi hẹp, có thể nói đó là tập hợp sản phẩm

dịch mã của tất cả các mRNA có mặt trong tế bào

sinh vật tại thời điểm nghiên cứu. Tức là hướng tiếp

cận từ protein.

Luận thuyết trung tâm

RNADNA

ProteinPhiên mã Dịch mã

c/ Sử dụng các dữ liệu ADN và Protein để làm gì?c/ Sử dụng các dữ liệu ADN và Protein để làm gì? Đối với trình tự nucleotit: So sánh một đoạn ADN bất kỳ với các dữ liệu trong

ngân hàng gen có thể chúng ta xác định được đoạn ADN đó của sinh vật nào (Bài thực hành tìm kiếm trình tự tương đồng).

Biết được trình tự sắp xếp các nucleotit của một đoạn ADN có thể suy ra trình tự các axit amin tương ứng trên mạch polypeptide nếu đoạn ADN đó mã hóa (Bài thực hành dịch mã 1 phân tử ADN sang trình tự axit amin).

Xác định đột biến, sự sai khác về trình tự nucleotit trong cùng một sản phẩm gen (isozyme, allozyme…) có ý nghĩa trong nghiên cứu tiến hóa và ứng dụng thực tiễn.

Về mặt phân loại sinh học, đối với một số gen có

tính bảo thủ cao, mang tính đặc thù loài, chẳng hạn

các gen mã hóa cho ARN ribosome (rRNA). Dựa vào

những trình tự ADN của các gen này ở những loài

sinh vật khác nhau mà người ta có thể so sánh

chúng trên cơ sở xác định mức độ sai khác về trình

tự nucleotit từ đó mô phỏng mối quan hệ loài, dưới

loài.

(Bài thực tập xác định mối quan hệ di truyền bằng

cách so sánh trình tự nucleotit)

Hình thái giống nhau Vật chất di truyền như thế nào?

Early globin gene

ß-chain gene-chain gene

cattle ß human ß mouse ßhuman cattle

Gene Duplication

Biết được trình tự của một gen (chẳng hạn gen ung

thư hay sự có mặt của các virus nguy hiểm chẳng

hạn H5N1, bệnh virus đốm trắng ở tôm…) người ta có

thể phát hiện sớm bằng kỹ thuật PCR, lai ADN để

ngăn chặn, điều trị.

Thiết kế những cặp mồi (primer) để nhân bản các

đoạn này cho những mục đích nghiên cứu khác nhau

như : Nghiên cứu sự có mặt của gen đó trong các

sinh vật khác nhau (xác định sự có mặt gen chống

bệnh bạc lá, đạo ôn, xác định giới tính, bệnh di

truyền…). Ngoài ra, còn sử dụng các kỹ thuật

microarray, DNA chip để phát hiện sự có mặt và mức

độ hoạt động của các gen trong những điều kiện nhất

định.

Từ trình tự nucleotit của một phân tử ADN có thể

biết được bản đồ các vị trí nhận biết của các

enzym cắt hạn chế. Điều này đặc biệt có ý nghĩa

trong kỹ nghệ ADN tái tổ hợp.

(Bài thực hành xác dịnh bản đồ giới hạn của

genome ADN )

Một trong những phương pháp trị liệu gen (gene

therapy) dựa trên trình tự ribonucleotit trên phân

tử mRNA để tổng hợp sợi bổ sung (antisense)

nhằm ngăn chặn sự hoạt động của các gen đó.

Một trong những ứng dụng quan trọng đó là chuyển

gen để tạo ra các sinh vật mới mang những đặc

tính mong muốn hoặc có thể chuyển gen vào các tế

bào vi khuẩn, nấm men… để sản xuất sản phẩm

gen theo con đường tái tổ hợp (protein, enzym,

vaccine và các hợp chất có hoạt tính sinh học).

Nếu như chúng ta biết được thành phần, trình tự

sắp xếp của các axit amin trong phân tử protein,

enzym nào đó có thể đánh giá được sự sai khác

giữa các axit amin trong các phân tử protein,

enzym cùng chức năng ở các loài khác nhau để biết

được thành phần axit amin nào đóng vai trò quan

trọng.

Đối với trình tự axit amin

Nếu như chúng ta biết được thành phần, trình tự

sắp xếp của các axit amin trong phân tử protein,

enzym nào đó có thể đánh giá được sự sai khác

giữa các axit amin trong các phân tử protein,

enzym cùng chức năng ở các loài khác nhau để biết

được thành phần axit amin nào đóng vai trò quan

trọng.

Từ trình tự axit amin của phân tử protein, có thể

suy diễn ra trình tự nucleotit của gen mã hóa.

Từ trình tự axit amin có thể dự đoán được cấu trúc

ba chiều, vị trí hoạt động (domain) của phân tử

protein, enzym đó.

Ngày nay, việc phát hiện sự tương đồng hay sự có

mặt của phân tử protein có thể được thực hiện bằng

các kỹ thuật hiện đại như khối phổ. Tuy nhiên việc

xác định trình tự các axit amin là không thể thiếu

được.

3.2. CSDL của các ngân hàng gen

Cả 3 CSDL lớn nhất (NCBI, EMBL và DDBJ) đều

có đầy đủ thông tin cơ bản về các CSDL trên.

Tuy nhiên mỗi ngân hàng có một cách phân

loại và tổ chức các loại dữ liệu khác nhau.

Trong phạm vi bài giảng, chương này chỉ đề

cập đến những CSDL chính, được sử dụng

thường xuyên.

3.2.1. CSDL của EMBL/EBI

a/ CSDL tài liệu (Literature Databases) Medline: Bao quát tất cả các lĩnh vực của y học,

chăm sóc bệnh nhân, nha khoa, thú y, hệ thống chăm sóc sức khỏe và khoa học tiền lâm sàng.

Omim: Di truyền Mendel ở người (Online Mendelian Inheritance in Man -OMIM) là một tập hợp của các gen và các rối loạn di truyền.

Patent Abstracts: Các bản tóm tắt có liên quan đến CNSH của các ứng dụng mô hình lấy từ các sản phẩm dữ liệu của European Patent Office (EPO).

Taxonomy: CSDL phân loại của ISDC (International Sequence Database Collaboration) chứa các tên của các sinh vật được trình bày dưới dạng CSDL trình tự.

b/ CSDL Microarray (Microarray Databases)

ArrayExpress: Một CSDL cho microarry dựa vào

dữ liệu biểu hiện gen.

Miame : Thông tin tối thiểu về một thí nghiệm

microarry (Minimum Information About a

Microarray Experiment (MIAME).

Công nghệ microarry tận dụng các nguồn trình tự

được tạo ra từ các dự án xác định trình tự genom

để trả lời câu hỏi là các gen nào đang được biểu

hiện ở một dạng tế bào nhất định của một sinh vật

ở một thời gian nhất định trong những điều kiện

nhất định

c/ CSDL Nucleotide (Nucleotide Databases)c/ CSDL Nucleotide (Nucleotide Databases)

CSDL trình tự nucleotide của EMBL là một thành viên CSDL trình tự nucleotide của EMBL là một thành viên

các nước châu Âu trong 3 CSDL lớn nhất thế giới. Có các nước châu Âu trong 3 CSDL lớn nhất thế giới. Có

thể truy cập vào hàng trăm trình tự genom hoàn thể truy cập vào hàng trăm trình tự genom hoàn

chỉnh cùng với các sản phẩm protein dịch mã nhờ chỉnh cùng với các sản phẩm protein dịch mã nhờ

máy chủ của EBI. máy chủ của EBI.

ASD: ASD: CSDL phân cắt nảy sinhCSDL phân cắt nảy sinh ( (Alternative Splicing Alternative Splicing

Database) chứa dữ liệu về các exon phân cắt phát Database) chứa dữ liệu về các exon phân cắt phát

sinh cùng với các thông tin bổ sung đi kèm. Dự án sinh cùng với các thông tin bổ sung đi kèm. Dự án

ASD nhằm hiểu rõ hơn về cơ chế cắt ghép nảy sinh ở ASD nhằm hiểu rõ hơn về cơ chế cắt ghép nảy sinh ở

quy mô genome.quy mô genome.

ATD: CSDL đa dạng về các bản phiên mã nảy

sinh (Alternate Transcript Diversity Database ATD)

chứa dữ liệu về các bản phiên mã trong đó mỗi bản

phiên mã được mô tả cho một dạng cắt ghép nảy sinh

và sự polyadenyl hóa nảy sinh (alternative

polyadenylation).

EMBL-Align database: CSDL so sánh nhiều trình tự.

EMBL-Bank: Ngân hàng EMBL còn được gọi là CSDL

trình tự nucleotide EMBL, đóng góp vào nguồn trình tự

nucleotide sơ cấp của châu Âu.

EMBL CDS: là một CSDL của trình tự nucleotide của

trình tự mã hóa (CDS coding sequence)

Ensembl: Mô tả tự động của các genome eukaryote.

Genomes Server: một cái nhìn tổng quan của các

genom hoàn chỉnh ở EBI. Những trang web này cho

phép truy cập với một số lượng lớn các genom hoàn

chỉnh.

Genome Reviews: CSDL genom được chỉnh sửa bao

gồm các phiên bản chính xác của các mục tra cứu

(entry) genom hoàn chỉnh từ CSDL trình tự nucleotide

của EMBL/GenBank/DDBJ

Karyn's Genomes: thu thập và mô tả một số trình tự

genom.

IMGT/HLA: CSDL di truyền miễn dịch, bao gồm CSDL IMGT/HLA của phức hệ phù hợp tổ chức (MHC). CSDL di truyền miễn dịch IMGT/LIGM bao gồm CSDL IMGT/LIGM của các Ig và các thụ thể tế bào T.

IPD: CSDL đa hình miễn dịch (Immuno Polymorphism Database IPD), bao gồm các gen đa hình của hệ thống miễn dịch, chẳng hạn như KIR, HPA và MHC không phải của người.

LGICdb: CSDL các chất gắn các kênh Ion (Ligand Gated Ion Channel Database)

Mutations: Dự án CSDL sự đa hình trình tự (Sequence variation database project)

Parasites: CSDL genome ký sinh (Parasite Genome databases).

d/ CSDL protein (Protein Databases)d/ CSDL protein (Protein Databases)

EBI đã phát triển và duy trì một số CSDL protein có liên EBI đã phát triển và duy trì một số CSDL protein có liên quan với nhau. Danh sách của các dự án và CSDL:quan với nhau. Danh sách của các dự án và CSDL:

CluSTr:CluSTr: Đề xuất một sự phân loại tự động của Đề xuất một sự phân loại tự động của UniProtKB/Swiss-Prot + UniProtKB/TrEMBL. UniProtKB/Swiss-Prot + UniProtKB/TrEMBL.

CSA:CSA: Tập hợp các vị trí xúc tác (Catalytic Site Atlas) Tập hợp các vị trí xúc tác (Catalytic Site Atlas) là một nguồn của các vị trí xúc tác và các gốc được là một nguồn của các vị trí xúc tác và các gốc được tìm thấy ở các enzym bằng cách sử dụng CSDL cấu tìm thấy ở các enzym bằng cách sử dụng CSDL cấu trúc.trúc.

GO: GO: Các trang của hiệp hội Gene Ontology của EBI.Các trang của hiệp hội Gene Ontology của EBI. GOAGOA: Cung cấp các thông tin về sản phẩm gen vào : Cung cấp các thông tin về sản phẩm gen vào

nguồn GOnguồn GO.. HPIHPI: Các proteomic của người ban đầu (Human : Các proteomic của người ban đầu (Human

Proteomics Initiative) là một khởi xướng bởi SIB và EBI Proteomics Initiative) là một khởi xướng bởi SIB và EBI để mô tả tất cả các trình tự đã biết của người theo để mô tả tất cả các trình tự đã biết của người theo tiêu chuẩn chất lượng của UniProtKB/Swiss-Prot. tiêu chuẩn chất lượng của UniProtKB/Swiss-Prot.

IntActIntAct: Là một CSDL đi kèm với hệ thống phân : Là một CSDL đi kèm với hệ thống phân tích, nó cung cấp một giao diện truy vấn và một tích, nó cung cấp một giao diện truy vấn và một module để phân tích các dữ liệu.module để phân tích các dữ liệu.

IntEnz:IntEnz: CSDL liên quan giữa các enzym CSDL liên quan giữa các enzym (Integrated relational Enzyme database) chứa các (Integrated relational Enzyme database) chứa các dữ liệu enzym được chứng nhận bởi hội đồng định dữ liệu enzym được chứng nhận bởi hội đồng định tên (Nomenclature Committee) với mục đích là để tên (Nomenclature Committee) với mục đích là để tạo ra một CSDL các enzym có mối quan hệ đơn.tạo ra một CSDL các enzym có mối quan hệ đơn.

InterPro: InterPro: CSDL là một sự kết hợp của nguồn tài CSDL là một sự kết hợp của nguồn tài liệu trích dẫn cho các họ proein, các domain và liệu trích dẫn cho các họ proein, các domain và các vị trí hoạt động.các vị trí hoạt động.

IPI:IPI: (International Protein Index) một hệ thống (International Protein Index) một hệ thống proteom không dư thừa (non-redundant) được xây proteom không dư thừa (non-redundant) được xây dựng từ UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, dựng từ UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, Ensembl và RefSeq. Ensembl và RefSeq.

PANDITPANDIT: là một bộ các chương trình so sánh trình : là một bộ các chương trình so sánh trình tự và xây dựng cây phân loại.tự và xây dựng cây phân loại.

Proteome Analysis: Proteome Analysis: Phân tích so sánh và thống Phân tích so sánh và thống kê các proteom của các sinh vật.kê các proteom của các sinh vật.

UniProtUniProt: Nguồn Protein phổ biến cho các trình tự : Nguồn Protein phổ biến cho các trình tự protein và trung tâm của các CSDL protein cho các protein và trung tâm của các CSDL protein cho các ngân hàng CSDL khác. ngân hàng CSDL khác.

UniProt ArchiveUniProt Archive:: Một phần trình tự protein được Một phần trình tự protein được trích ra từ CSDL công khai chỉ chứa các trình tự trích ra từ CSDL công khai chỉ chứa các trình tự protein.protein.

UniProt/UniRefUniProt/UniRef Features clustering of similar Features clustering of similar sequences to yield a representative subset of sequences to yield a representative subset of sequences. This produces very fast search times. sequences. This produces very fast search times.

UniProtKB/Swiss-ProtUniProtKB/Swiss-Prot: CSDL trình tự protein : CSDL trình tự protein được mô tả, một phần của UniProtKB. được mô tả, một phần của UniProtKB.

UniProtKB/TrEMBL: UniProtKB/TrEMBL: Một CSDL protein được tạo Một CSDL protein được tạo ra bằng máy tính, là một phần của UniProtKB.ra bằng máy tính, là một phần của UniProtKB.

e/ CSDL Proteomic (Proteomic Databases)

EBI đã phát triển và lưu giữ một số lượng lớn các CSDL liên

quan proteom. Dưới đây là một số CSDL proteom.

ChEBI (Chemical Entities of Biological Interest ChEBI):

một từ điển của các phân tử nhỏ (small molecular ).

IntAct : Cung cấp một hệ thống CSDL mở, sẵn có và các

công cụ phân tích cho các dữ liệu tương tác protein.

IntEnz (Integrated relational Enzyme database

IntEnz) sẽ chứa dữ liệu enzym được hội định tên quốc

tế (Nomenclature Committee) xác nhận. Mục tiêu là

để tạo ra một CSDL quan hệ enzym đơn.

IUPHAR CSDL thụ thể đại diện cho tất cả các lĩnh vực

của dược học theo nghĩa rộng nhất của nó từ lý

thuyết cho đến lâm sàng ở quy mô thế giới.

PRIDE (PRoteomics IDEntifications database) cho

phép đăng ký (submit) dữ liệu protein ở dạng PRIDE

f/ CSDL cấu trúc (Structure Databases)f/ CSDL cấu trúc (Structure Databases)

EBI đã phát triển và duy trì một số lượng các CSDL có EBI đã phát triển và duy trì một số lượng các CSDL có

liên quan đến cấu trúc của các đại phân tử. Trong đó liên quan đến cấu trúc của các đại phân tử. Trong đó

quan trọng nhất là (Macromolecular Structure quan trọng nhất là (Macromolecular Structure

Database MSD). Database MSD).

DALI:DALI: Thư mục cấu trúc domain của các protein. Thư mục cấu trúc domain của các protein.

MSDMSD: CSDL cấu trúc các đại phân tử (MSD), bao gồm : CSDL cấu trúc các đại phân tử (MSD), bao gồm

các công cụ tìm kiếm PDB.các công cụ tìm kiếm PDB.

MSDchem:MSDchem: Thư viện hóa học của các thành phần hóa Thư viện hóa học của các thành phần hóa

học tìm thấy trong PDB.học tìm thấy trong PDB.

MSDliteMSDlite: Cung cấp các công cụ dễ dàng truy cập vào : Cung cấp các công cụ dễ dàng truy cập vào

PDB.PDB.

MSDtargetMSDtarget: Máy chủ chung cấp các công cụ tìm kiếm : Máy chủ chung cấp các công cụ tìm kiếm

RESIDRESID: CSDL các protein cải biến là một tập hợp : CSDL các protein cải biến là một tập hợp

các cấu trúc và mô tả cho cấccỉ biến bao gồm đầu các cấu trúc và mô tả cho cấccỉ biến bao gồm đầu

amino, carboxyl tận cùng… amino, carboxyl tận cùng…

ReactomeReactome: CSLD chính xác về các quá trình sinh : CSLD chính xác về các quá trình sinh

học ở cơ thể người. Reactome sẽ không chỉ hữu ích học ở cơ thể người. Reactome sẽ không chỉ hữu ích

đối với các nhà sinh học nói chung như là một cuốn đối với các nhà sinh học nói chung như là một cuốn

sách về sinh học trực tuyến mà còn có ích đối với sách về sinh học trực tuyến mà còn có ích đối với

các nhà tin sinh học phát hiện ra các con đường các nhà tin sinh học phát hiện ra các con đường

sinh học mới.sinh học mới.

BioModelsBioModels: CSDL của các mô hình sinh học cho : CSDL của các mô hình sinh học cho

phép các nhà sinh học lưu giữ, tìm kiếm và công bố phép các nhà sinh học lưu giữ, tìm kiếm và công bố

các mô hình toán học trong lĩnh vực sinh học.các mô hình toán học trong lĩnh vực sinh học.

3.2.2. CSDL của NCBI

a/ CSDL tài liệu (Literature Database)

Bookshelf: Tìm kiếm những thông tin cơ bản hoặc các

chủ đề nghiên cứu mới, miễn phí, có một phần ở

PubMed.

PubMed: Bất kỳ ai đều có thể truy cập vào, chứa phần

tóm tắt của hơn 15.000.000 kết quả nghiên cứu trong

lĩnh vực sinh y học.

PubMed Central: Là một tạp chí khoa học sự sống, kết

hợp với hệ thống Enztrez, PMC cho phép truy cập tự do

và không hạn chế với hơn 160 tạp chí khoa học sự sống.

Online Mendelian Inheritance in Man (OMIM):

Với hơn 15.000 đăng mục, OMIM được duy trì bởi

tiến sỹ Victor A. McKusick và cộng sự (đại học

Johns Hopkins), đăng tải một hệ thống các bệnh di

truyền và liên tục được update.

Online Mendelian Inheritance in Animals

(OMIA): Là một CSDL của các gen, các rối loạn di

truyền và các tính trạng của các loài động vật.

Journals: Tìm kiếm các CSDL tạp chí cho phép kết

nối (link) các tạp chí với hệ thống Entrez kể cả

CSDL di truyền.

b/ CSDL Nucleotide (Nucleotide databases) GenBank: Tập hợp tất cả các trình tự nucleotide

và axit amin hiện có GenBank® là CSDL trình tự di truyền của NIH. Có

khoảng 51.674.486.881 base trong 46.947.388 bản trình tự trong các nhánh của GenBank và 53.346.605.784 base trong 10.276.161 bản ghi trình tự ở nhánh WGS vào 8/2005.

Chẳng hạn, chúng ta có thể xem bản ghi cho một gen của Saccharomyces cerevisiae thì GenBank đã cung cấp đầy đủ. Cứ sau 2 tháng, một phiên bản update được đưa ra.

GenBank là một phần của (International Nucleotide Sequence Database Collaboration) bao gồm ở DDBJ, EMBL và NCBI. Ba tổ chức này trao đổi dữ liệu với nhau hàng ngày.

Trong lần công bố gần đây nhất, INSDC cho biết

CSDL trình tự DNA đã vượt quá 100 Gb. GenBank

là một thành viên quan trọng đóng góp cho mức

này và tất nhiên đó là kết quả đóng góp của rất

nhiều các nhà khoa học trên toàn thế giới.

dbEST (data base of Expressed Sequence Tags):

Theo Nature Genetics 4:332-3; 1993 thì dbEST là

một tập hợp của các trình tự đeo thẻ hoặc các

trình tự ngắn, duy nhất lấy từ mRNA (cDNA).

dbEST cũng là một nhánh của GenBank.

dbGSS (data base of Genome Survey Sequences): cũng là một nhánh của GenBank nhưng khác với dbEST là hầu hết các trình tự đều có nguồn gốc từ genomic chứ không phải là cDNA (mRNA). Nhánh dbGSS chứa các dạng dữ liệu sau:• Single - pass genom sequence• Các trình tự tận cùng của cosmid/BAC/YAC• Các trình tự Alu PCR• Các trình tự transposon được đeo thẻ

(transposon –tagged).

dbSNP (data base of Single-base Nucleotide Polymorphism): là CSDL các đa hình do sự thay thế hoặc thêm, bớt một nucleotide.

RefSeq: CSDL của các trình tự tra cứu không có sự dư thừa (non-redundant reference sequence) bao gồm: các đoạn contig DNA genom, các mRNA, các protein của các gen đã biết.

dbSTS (data base of sequence tagged sites): CSDL của các vị trí trình tự được đeo thẻ hoặc các trình tự ngắn thường chỉ có mặt một lần duy nhất trong genom.

UniSTS: là một cơ sở dữ liệu toàn diện của các STS (các vị trí đánh dấu trình tự) được lấy từ các bản đồ STS và các thí nghiệm khác.

UniGene: Tập hợp của các trình tự EST và các trình tự mRNA có chiều dài đầy đủ được nhóm vào các cụm và mỗi cụm đại diện cho một gene duy nhất được biết hoặc gene người được mô tả cùng với bản đồ và những thông tin về quá trình biểu hiện gen.

dbHTG (data base of high-throughput genom sequence): tập hợp của các trình tự genom thu được từ các trung tâm xác định trình tự genom.

HomoloGene: Sử dụng để so sánh trình tự nucleotide giữa hai sinh vật để đánh giá mức độ ortholog giả định.

MGC: (Mamalian Gene Collection) cung cấp các dòng đầy đủ chiều dài các khung đọc mở (full-length open reading frame FL-ORF) cho người, chuột nhắt và chuột cống.

PopSet: PopSet là một hệ thống các trình tự DNA được thu thập để phân tích mối quan hệ tiến hóa của một quần thể.

RefSeq: Cung cấp hệ thống các trình tự: DNA, các

loại RNA và sản phẩm protein để nghiên cứu các sinh

vật.

TPA: Third Party Annotation (TPA) Sequence:

Được thiết kế để thu hút các kết quả thực nghiệm và

hỗ trợ cho những người đăng ký mô tả, giải thích về

trình tự mà người đăng ký không xác định được trực

tiếp nhưng có thể lấy từ dữ liệu sơ cấp của GenBank.

RHdb: là một cơ sở dữ liệu của các dữ liệu thô được

sử dụng trong việc thiết kế các bản đồ lai phóng xạ.

Nó bao gồm các dữ liệu STS, điểm số, các điều kiện

thí nghiệm và các tra cứu chéo.

c. CSDL Protein (Protein Databases) 3D

Domains: Bao gồm các trình tự và cấu trúc 3

chiều của các domain trong các phân tử protein.

Proteins: Tập hợp các CSDL trình tự protein

RefSeq: Cung cấp một CSDL không dư thừa (non-

redundant) bao gồm DNA, RNA và Protein.

PROW: CSDL về protein trên Web (Protein

Reviews on the Web PROW) ...

d/ Cơ sở dữ liệu cấu trúc (Structure Databases)

3D Domain

MMDB (Molecular Modeling Database) : CSDL mô

hình cấu trúc phân tử 3D, bao gồm các protein và

các polynucleotide. MMDB chứa hơn 28.000 cấu

trúc và được liên kết với phần còn lại của CSDL ở

NCBI, bao gồm các trình tự, các trích dẫn, phân

loại học, và các trình tự và cấu trúc lân cận.

Conserved Domains: Tập hợp các CSDL về các

vùng domain bảo thủ của các protein, họ protein.

e/ Cơ sở dữ liệu hệ thống học (Taxonomy

Databases)

Cơ sở dữ liệu hệ thống học (Taxonomy

database) chứa tên của các sinh vật có mặt trong

cơ sở dữ liệu di truyền với ít nhất một trình tự

nucleotide hoặc protein. NCBI cung cấp một hệ

thống hệ thống phân loại cùng với các đơn vị phân

loại (taxa).

f/ Cơ sở dữ liệu genom (genome database)

Các nhiễm sắc thể ung thư:

Cancer Chromosomes: 3 cơ sở dữ liệu NCI/NCBI

SKY?M-FISH và CGH.

COGs (Clusters of Orthologous Groups of proteins):

Nhóm của các nhóm Orthologous của protein được

dẫn xuất từ việc so sánh trình tự protein được mã hóa

thành các genom hoàn chỉnh, đại diện cho các dòng

giống chủ yếu của phân loại hệ thống học.

Cơ sử dữ liệu các gen: Gene: Các gen được lưu trữ

trong một hệ thống, để truy cập có thể sử dụng các

công cụ như Entrez Gene.

Cơ sở dữ liệu của các dự án giải trình tự:

Genome Project: Các trình tự hoàn tất, đang ở giai

đoạn lắp ráp hoặc đang tiến hành đều được lưu trữ

trong một hệ thống. Chúng ta có thể sử dụng công

cụ Entrez Genome Project để truy cập.

Genomes: Các nguồn genom đặc thù từng loại sinh

vật: Chứa toàn bộ genom của hơn 1000 sinh vật

gồm những genom hoàn chỉnh và đang tiến hành:

Aspergillus, Bacteria, Bee, Cat, Chickent, Cow, Dog,

các bào quan của eukaryote, Frog, Fruit fly, Human,

Mosquito, Mouse, Pig, plant genome, rat, Retrovirus,

Sheep, Viral Genomes, Yeast, Zebrafish...

g/ Cơ sở dữ liệu hệ thống học

Cơ sở dữ liệu hệ thống học (Taxonomy

database) chứa tên của các sinh vật có mặt trong

cơ sở dữ liệu di truyền với ít nhất một trình tự

nucleotide hoặc protein. NCBI cung cấp một hệ

thống hệ thống phân loại cùng với các đơn vị

phân loại (taxa).

h/ Cơ sử dữ liệu cấu trúc (Structure Databases)

MMDB (Molecular Modeling Database): CSDL mô

hình phân tử chứa các cấu trúc 3D của đại phân

tử, bao gồm các protein và các polynucleotide.

MMDB chứa hơn 28,000 cấu trúc và nó được kết

nối với phần còn lại của NCBI bao gồm các trình

tự, trích dẫn, hệ thống phân loại và các trình tự và

cấu trúc liên quan.

GEO Datasets: CSDL này lưu giữ các gen biểu hiện

(Gene Expression Omnibus GEO)

SAGE: Để hỗ trợ cho việc sử dụng công cộng và

công bố các dữ liệu gen biểu hiện (serial analysis

of gene expression SAGE), NCBI gần đây đã chỉnh

sửa lại website này.

SAGEmap là một nguồn dữ liệu SAGE cho yêu cầu

truy vấn, thu nhân và phân tích các dữ liệu SAGE từ

một loài sinh vật bất kỳ. Tất cả các dữ liệu có mặt

trong website này có thể được truy cập từ các kho

lưu trữ của GEO (Gene Expression Omnibus).

k/ Cơ sở dữ liệu hóa học (Chemical Databases)

Các phản ứng, test..

Danh sách các chất hóa học

Danh sách các hợp chất

3.3. Các công cụ tìm kiếm, phân tích các CSDL

3.3.1. Công cụ của EMBL/EBI

a/ Similarity & Homology: Công cụ phân tích mức độ

giống nhau và tương đồng giữa các trình tự.

Các công cụ như: Fasta, Blast, MPsrch và Scanps.

Dạng tìm kiếm và kết quả trả về qua email cũng

được phát triển.

Hai chương trình có thể được sử dụng để tìm kiếm,

so sánh mức độ giống nhau và mức độ tương đồng

suy diễn là BLAST or Fasta.

Công cụ tìm kiếm DNA và Protein chungCông cụ tìm kiếm DNA và Protein chung

Công cụ Ứng dụng, mô tả

Blast2-WU Protein Tìm kiếm CSDL protein (Blast 2.0 with gaps) của Washington University

Blast2-WU Nucleotide Tìm kiếm CSDL nucleotide (Blast 2.0 with gaps) Washington University

Blast2-NCBI Protein Chương trình tìm kiếm CSDL protein của NCBI.(blastall)

Blast2-NCBI Nucleotide

Chương trình tìm kiếm CSDL nucleotide của NCBI.(blastall)

Blast2-NCBI EVEC Chương trình nhằm phát hiện các trình tự lẫn với trình tự của các vector.

Fasta Nucleotide Sử dụng FASTA để tìm các trình tự giống với trình tự nucleotide trong CSDL

Fasta Protein Sử dụng FASTA để tìm các trình tự giống với trình tự protein trong CSDL

Fasta-Proteome server Tìm kiếm bằng Fasta trong máy chủ Proteome

Fasta-Genome server Tìm kiếm bằng Fasta trong máy chủ genome

Fasta-WGS server Tìm kiếm bằng Fasta trong máy chủ WGS (các genome thu được bằng phương pháp shotgun Whole genome shotgun - WGS)

Các công cụ tìm kiếm chuyên biệt cho Protein

Blitz Blitz là một dịch vụ tìm kiếm CSDL thông qua email.

Thực chất là việc trả kết quả tìm trình tự tương

đồng với trình tự cần quan tâm thông qua Email.

EBI đã phát triển hai phương pháp khác nhau gọi là

MPsrch và Scanps.

Các công cụ tìm kiếm chuyên biệt cho DNA

Công cụ Ứng dụng, mô tảBlast2-ASD Tìm kiếm trình tự giống nhau nhờ máy chủ Blast2-ASD

Blast2-Parasite Tìm kiếm trình tự giống nhau nhờ máy chủ Parasite Genomes blast

Fasta-ASD Sử dụng Fasta để tìm trình tự protein giống với CSDL ASD

Fasta-LGIC Protein server

Sử dụng Fasta để tìm trình tự protein giống với CSDL Ligand Gated Ion Channel.

Fasta-LGIC Nucleotide server

Sử dụng Fasta để tìm trình tự nucleotide giống với CSDL Ligand Gated Ion Channel.

Fasta-SNP server Fasta tìm kiếm trình tự tương đồng trong CSDL European SNP (HGBASE).

b/ Protein Functional Analysis: Phân tích chức

năng của protein

Một trong những nghiên cứu phân tích chức năng

của protein là phát hiện các vùng hoạt động đặc

trưng (motif) trong các trình tự protein. Phần này

cung cấp các công cụ sử dụng để xác định chức

năng của protein với nhiều phương pháp và CSDL

khác nhau. Dịch vụ quan trọng nhất trong phần này

là InterProscan cùng kết hợp với rất nhiều phương

pháp khác trong một giao diện rất dễ sử dụng.

Công cụ Ứng dụng, mô tảCluSTr Search Tìm kiếm các UniProtKB (UniProtKB/Swiss-Prot +

UniProtKB/TrEMBL) bằng số truy cập

FingerPRINTScan Tìm kiếm các PRINTS Protein fingerprint

GeneQuiz Phân tích trình tự tự động các trình tự sinh học

Inquisitor Inquisitor cung cấp một giao diện truy vấn đơn để xác định các trình tự protein giốn nhau trong các proteome. Các trình tự chưa biết được phân tích sử dụng FASTA và InterProScan.

InterProScan Tìm kiếm các trình tự protein trong các CSDL thành viên InterPro.

PPSearch Tìm kiếm các motif của protein

Pratt Phát hiện các mô hình trong các trình tự protein chưa được so sánh (alignment)

Radar Phát hiện các protein lặp lại.

c/ Proteomic ServicesBao gồm các phương thức truy cập vào các dịch vụ proteomic do EBI cung cấp. Trong đó quan trọng nhất là máy chủ UniProt DAS nó cho phép các nhà nghiên cứu trình bày kết quả nghiên cứu của mình dưới dạng mô tả của UniProtKB/Swiss-Prot.

Dasty Công cụ cho phép trình bày những thông tin về đặc điểm trình tự protein dưới dạng dễ quan sát.

UniProt DAS

Máy chủ UniProt DAS cho phép các nhà nghiên cứu trình bày kết quả nhiên cứu của mình, chẳng hạn xác định các peptide hoặc các trình tự tín hiệu trên máy chủ UniProt dưới dạng mô tả của UniProtKB/Swiss-Prot.

d/ Sequence Analysis: Phân tích trình tự

Sử dụng rất nhiều phương pháp tin sinh học

để xác định chức năng sinh học, cấu trúc của các

gen và protein mà chúng mã hóa.

Các công cụ như Transeq có thể giúp xác

định các vùng mã hóa protein của một trình tự

DNA. ClustalW được sử dụng để so sánh trình tự

DNA hoặc protein để làm sáng tỏ mối quan hệ cũng

như nguồn gốc tiến hóa của chúng.

Các công cụ phân tích do EBI cung cấp:

Align Công cụ so sánh cặp trình tự theo 2 kiểu toàn bộ và cục bộ.

ClustalW Cô cụ so sánh nhiều trình tự.

CpG Plot/CpGreport Công cụ tìm và vẽ CpG Island

Dna Block Aligner Form So sánh hai trình tự DNA dưới dạng khối mạch thẳng (colinear block), rất thích hợp cho các promoter.

GeneMark Dịch vụ dự đoán gen

Genetic Code Viewer Công cụ tổng kết các sự khác nhau về mã di truyền

GeneWise So sánh một trình tự protein hoặc một hồ sơ protein HMM với trình tự DNA.

Muscle Công cụ so sánh nhiều trình tự với độ chính xác và tốc độ cao hơn so với Clustal W hoặc T-Coffee phụ thuộc vào tùy chọn khác nhau.

Mutation Checker Đánh giá độ trính xác của trình tự, phát hiện đột biến.

Pepstats/Pepwindow/Pepinfo Chương trình phân tích trình tự protein

PromoterWise So sánh hai trình tự DNA cho phép đảo ngược và đổi vị trí, rất lý tưởng cho các promoter.

Reverse Translator Kiểm tra trình tự đảo ngược, bổ sung

SAPS Phân tích thống kê trình tự protein

T-Coffee Chương trình so sánh trình tự cho phép người sử dụng kết hợp các kết quả thu được với một số phương pháp so sánh khác nhau.

Transeq Công cụ dịch mã trình tự DNA

e/ Phân tích cấu trúc (Structural Analysis):

Việc xác định cấu trúc 2D/3D của một protein là

một công việc quan trọng nhất khi nghiên cứu chức

năng của nó. Người sử dụng sẽ tìm thấy rất nhiều

dịch vụ giúp cho việc phân tích cấu trúc do EBI

cung cấp. Một trong những công cụ đó là DALI. và

MSDfold. Công cụ của MSDfold hoặc DALI cho

phép xác định cấu trúc protein cần nghiên cứu và

so sánh nó với các cấu trúc trong PDB (Protein Data

Bank).

DALI So sánh cấu trúc protein ở dạng 3D

DaliLite Chương trình so sánh cấu trúc cặp (hai cấu trúc). So sánh cấu trúc cần quan tâm (cấu trúc thứ nhất) với một cấu trúc tham chiếu (cấu trúc thứ hai)

MSD Services Bảng tóm tắt và danh sách của tất cả các công cụ và dịch vụ của Macromolecular Structure Database (MSD)

MSDfold So sánh các chuỗi/cấu trúc và tìm kiếm các chuỗi/cấu trúc tương đồng trong CSDL PDB hoặc trong các domain SCOP.

MSDpro Một chương trình ứng dụng cho phép xây dựng các truy vấn quan hệ phức tạp của MSD mà không cần biết sự sắp xếp của dữ liệu trong CSDL hoặc ngân như mà truy vấn đó sử dụng.

MSDsite Công cụ cho phép tìm các vị trí hoạt động dựa vào chất gắn (chẳng hạn ATP) hoặc thông tin vị trí hoạt động (CYS CYS CYS CYS).

NMR Representatives

Tìm kiếm các cấu trúc thu được từ NMR trong PDB

PQS Xác định cấu trúc bậc 4

PQS-Quick Công cụ cho phép xác định được thông tin cấu trúc bậc 4 từ mã ID của PDB một cách nhanh chóng.

f/ Các công cụ khácf/ Các công cụ khácCông cụ Ứng dụng, mô tả

BioLayout Trình bày, hình ảnh hóa các biểu đồ và mạng lưới sinh học, chẳng hạn như độ giống nhau giữa các trình tự protein và các mạng lưới tương tác protein.

CAST Lọc để phát hiện các thành phần trình tự protein bias của Computational Genomics Group.

EBIMed NEW Là một ứng dụng Web kết hợp thu nhận và truy xuất thông tin từ Medline.

EMBL Computational Services

Tập hợp các công cụ do EMBL cung cấp ở Heidelberg Đức để phân tích trình tự DNA/protein.

Expression Profiler Một bộ các công cụ cho phép phân tích, nhóm và hiển thị sự biểu hiện gen và các dữ liệu genom.

NEWT CSDL taxon, kết hợp các dữ liệu taxon ở NCBI với CSDL của UniProtKB/Swiss-Prot

Protein Colourer Một công cụ cho phép tô màu các trình tự axit amin.

Protein Corral NEW Một ứng dụng Web kết hợp thu nhận và truy xuất thông tin từ Medline.

Readseq Công cụ chuyển các trình tự sang các dạng format khác nhau.

Webservices Cung cấp các chương trình truy cập vào các CSDL sinh học khác nhau.

Whatizit Có thể nói cho người sử dụng biết ý nghĩa của các từ tìm thấy trong văn bản phục thuộc vào dạng thông tin mà người dùng muốn xem ở dạng được hightlight.

3.3.2. Công cụ của NCBI

a/ Các công cụ phân tích trình tự

Cluster of Orthologous Groups (COGs): Một hệ

thống của các họ gen từ các genom hoàn chỉnh.

Gene Expression Omnibus (GEO): Kho dữ liệu

gen biểu hiện và các nguồn trực tuyến cho việc thu

nhận các dữ liệu gen biểu hiện.

HomoloGene: So sánh các trình tự nucleotide giữa

các cặp sinh vật để xác định các gen ở các loài

khác nhau được tiến hóa từ một gen tổ tiên chung

do quá trình phân loài và chúng thường vẫn giữ

được nguyên chức năng trong quá trình tiến hóa.

CSDL các vùng bảo thủ (

Conserved Domain Database CDD): Tập hợp các bản

so sánh trình tự (sequence alignment) và các profile

của các vùng bảo thủ của các phân tử protein trong

quá trình tiến hóa phân tử.

Tập hợp các gen động vật có vú (

Mammalian Gene Collection MGC): Một nỗ lực mới của

NIH để thu được các nguồn cDNA với chiều dài đầy đủ.

Clone Registry: Một CSDL được sử dụng bởi sự tham

gia của các trung tâm trình tự genom người và chuột

để lưu giữ những dòng được lựa chọn từ việc đọc trình

tự, các dòng đang được đọc trình tự và các dòng đã

hoàn tất và được lưu giữ ở GenBank

Trace Archive: Được phát triển để lưu giữ các dữ liệu trình tự thô được tạo ra từ các dự án xác định trình tự.

Tìm khung đọc mở (ORF Finder): Một công cụ phân tích hiện thị dưới dạng đồ hoạ cho phép tìm các khung đọc mở của một đoạn trình tự hoặc một trình tự có trong CSDL.

VecScreen: Một công cụ cho phép xác định các đoạn trình tự nucleotide mà có thể là của vector, các vùng linker hoặc các điểm khởi đầu sao chép (origin) trước khi sử dụng các công cụ phân tích trình tự hoặc đăng ký trình tự.

Electronic-PCR (e-PCR): Có thể được sử dụng để so sánh một trình tự truy vấn (query sequence) với các vị trí trong trình tự đánh dấu (sequence-tagged sites) để tìm ra một vị trí bản đồ có thể cho trình tự truy vấn.

b/ Tìm kiếm trình tự giống nhau (Sequence Similarity Searching)

BLAST Homepage: Cho phép truy cập vào chương trình và công cụ BLAST (Basic Local Alignment Search Tool), các trợ giúp…

BLink: Trình bày các kết quả tìm kiếm của BLAST đối với mỗi trình tự protein trong CSDL protein Entrez.

Network-Client BLAST: cho phép tiếp cận các công cụ tìm kiếm BLAST của NCBI. Blastcl3 có thể tìm tất cả các trình tự trong file FASTA và tạo ra một hay nhiều các bản so sánh trình tự dưới dạng text hoặc HTML.

Stand-alone BLAST: Chương trình có thể sử dụng sau khi download và cài đặt vào trong máy tính cá nhân.

c/ Hệ thống đơn vị phân loại (Taxonomy)

Taxonomy Browser: Công cụ cho phép tìm kiếm

các CSDL taxonomy của NCBI

Taxonomy BLAST: Các nhóm công cụ BLAST sắp

xếp các nguồn sinh vật theo CSDL Taxonomy của

TaxTable: Bảng tóm tắt các dữ liệu taxon của

BLAST và các mối quan hệ của sinh vật với nhau

thông qua dạng đồ hoạ màu.

ProtTable: Cung cấp một bảng tóm tắt các vùng

mã hóa protein trong một gene

TaxPlot: Cung cấp các dạng quan sát genom giống

nhau (three-way view of genome similarities).

d/ Đăng ký trình tự (Sequence Submission) Sequin: Một công cụ đăng ký trình tự bao gồm cả

ORF finder, một công cụ để sửa chữa và xem trình tự. BankIt: Đăng ký một hay nhiều trình tự một lúc thông

qua WWW. e/ Tìm kiếm các thuật ngữ (Text Term Searching) Entrez: Truy cập vào các dữ liệu trình tự protein và

DNA từ hơn 100000 sinh vật cùng với các cấu trúc protein 3D, các thông tin và bản đồ gen và PubMed MEDLINE.

LinkOut: Một dịch vụ đăng ký để tạo ra các đường kết nối từ các bài báo, tạp chí hoặc các dữ liệu sinh học trong Entrez với các nguồn trang Web bên ngoài.

Citation Matcher: Cho phép tìm các ID của PubMed hoặc các UID của MEDLINE của bất kỳ bài báo nào trong CSDL PubMed.

f/ Các công cụ cho thể hiện cấu trúc 3D và các kết quả tìm kiếm trình tự giống nhau (Tools for 3d structure display and similarity searching)

CD-Search: Dịch vụ tìm kiếm các vùng bảo thủ (Conserved Domain Search Service (CD-Search) có thể được sử dụng để xác định các vùng bảo thủ có mặt trong các trình tự protein.

Cn3D: Công cụ cho phép hiển thị các trình tự và cấu trúc 3D cho các CSDL NCBI.

Domain Architecture Retrieval Tool: Displays the functional domains that make up a protein and lists proteins with similar domain architectures.

VAST Search: Dịch vụ tìm kiếm cấu trúc tương đồng, so sánh cấu trúc protein của mọt cấu trúc protein mới xác định với các CSDL MMDB/PDB.

g/ CSDL bản đồ (MAPS)

Truy cập tới các dạng bản đồ vật lý và di truyền khác

Công cụ quan sát bản đồ (Map Viewer): Cung cấp

công cụ quan sát bản đồ nhiễm sắc thể của hơn 17

loài sinh vật. Map Viewer trình bày một hoặc nhiều

bản đồ đã được so sánh với nhau dựa trên các chỉ thị

và các gen, đối với bản đồ trình tự dựa vào mức độ

giống nhau giữa các trình tự. Hiện nay, có các bản đồ

của Arabidopsis, Ruồi giấm (fruit fly), người (human),

bản đồ tương đồng của người và chuột, sốt rét, muỗi,

chuột, giun tròn (nemato), chuột (rat), Zebrafish…

3.4. ExpaSy

3.4.1. Cơ sở dữ liệu ExpaSy Swiss-Prot and TrEMBL – CSDL protein đã biết PROSITE – Các họ protein và các domain. SWISS-2DPAGE – CSDL protein (điện di 2 chiều trên gel

polyacrylamide) ENZYME - Định tên các enzym (Enzyme nomenclature) SWISS-MODEL Repository – Các mô hình protein được

tạo ra tự động (Automatically generated protein models)

GermOnLine – CSDL về sự biệt hóa tế bào mầm. Ashbya Genome Database Và các đường dẫn đến các CSDL khác.

SWISS-PROT Swiss-Prot là một cơ sở dữ liệu protein được

khởi đầu vào năm 1986 do sự hợp tác của Department of Medical Biochemistry ở Trường đại học Geneva và EMBL. Sau năm 1994, tổ chức này chuyển tới một trạm của EMBL ở Anh gọi là EBI. Vào tháng 4 năm 1998, nó được chuyển tới Swiss Institute of Bioinformatics (SIB), do đó cơ sở dữ liệu này bây giờ được duy trì bởi SIB và EBI/EMBL. Cơ sở dữ liệu này cố gắng để cung cấp những thông tin ở mức độ cao bao gồm: các mô tả về chức năng của các protein và cấu trúc của các domain của nó, sự cải biến sau phiên mã, các dạng biến đổi và những thông tin khác. SWISS-PROT mục đích là để giảm thiểu sự dư thừa, và nó liên kết với nhiều nguồn khác. Vào năm 1996, một chương trình hỗ trợ máy tính cho SWISS-PROT được tạo ra gọi là TrEMBL (sẽ được mô tả chi tiết dưới đây). Trước hết chúng ta hãy tìm hiểu kỹ hơn về cấu trúc của SWISS-PROT.

Cấu trúc của SWISS-PROT

Cấu trúc của cơ sở dữ liệu, và số lượng các

mô tả của nó, các bộ SWISS-PROT tách khỏi các

nguồn trình tự protein khác và nó đã trở thành một

trong những cơ sở dữ liệu được lựa chọn cho hầu

hết các mục đích nghiên cứu. Vào giữa những năm

1998, cơ sở dữ liệu chứa 70000 mục đăng nhập từ

hơn 5000 loài khác nhau tập trung chủ yếu là Homo

sapiens, Saccharomyces cerevisiae, Escherichia

coli, Mus musculus và Rattus norvegicus.

3.4.2. Các công cụ phân tích

3.4.2.1. Nhận dạng và xác định các đặc điểm của protein

a/ Nhận dạng và xác định các protein thông qua các dữ liệu peptide thu được từ khối phổ.

Aldente - Nhận dạng các protein với các dữ liệu khối phổ peptide. Đây là một tiến bộ mới trong vịêc nhận dạng protein.

FindMod - Dự đoán những khả năng cải biến sau dịch mã và khả năng thay thế các amino acid trong chuỗi peptide. Các thực nghiệm đo khối lượng peptide với các peptide tính toán lý thuyết từ CSDL Swiss-Prot hoặc từ các trình tự do người sử dụng đăng ký. So sánh sự khác biệt về khối lượng của các peptide cũng là một trong những biện pháp hiệu quả trong việc nhận dạng protein.

FindPept - Nhận dạng các peptide do kết quả từ các

thí nghiệm khối phổ từ đó giải thích cho những cải

biến hóa học, cải biến sau dịch mã và hoạt động tự

thủy phân.

GlycoMod - Dự đoán các cấu trúc oligosacharide xảy

ra trên phân tử protein từ các thí nghiệm khác định

khối lượng.

PepMAPPER – Công cụ nhận dạng khối lượng peptide

từ UMIST, UK

ProFound – Tìm kiếm các trình tự protein đã biết với

thông tin về khối lượng peptide từ trường đại học

Rockefeller and NY.

b/ Nhận dạng và xác định các đặc điểm của protein

nhờ dữ liệu MS/MS.

Popitam - Công cụ nhận dạng và xác định protein

cho các peptide với những cải biến không đoán

trước được, chẳng hạn đột biết hoặc những cải biến

sau dịch mã nhờ vào khối phổ xen kẽ (tandem mass

spectrometry)

Phenyx - Nhận dạng, xác định đặc điểm của protein

và peptide từ dữ liệu MS/MS từ GeneBio, Switzerland

OMSSA - Nhận dạng các phổ peptide MS/MS bằng

cách so sánh các thư viện của các protein đã biết.

PepFrag – Tìm kiếm các trình tự protein đã biết với

thông tin về khối phổ mảnh peptide từ Rockefeller

và NY Universities hoặc từ Genomic Solutions

ProteinProspector - UCSF tools for fragment-ion

masses data (MS-Tag, MS-Seq, MS-Product, etc.)

SearchXLinks – Phân tích khối phổ của các protein

đã bị cải biến, liên kết ngang, phân giải mà có các

trìh tự axit amin đã biết từ Caesar, Đức.

c/ c/ Nhận dạng protein dựa vào thành phần axit amin, dạng protein dựa vào thành phần axit amin, pI, khối lượng phân tử… pI, khối lượng phân tử…

AACompIdent - Xác định một protein nhờ vào thành AACompIdent - Xác định một protein nhờ vào thành phần axit amin của nó.phần axit amin của nó.

AACompSim - So sánh thành phần axit amin của AACompSim - So sánh thành phần axit amin của một đăng nhập trong UniProtKB/Swiss-Prot với các một đăng nhập trong UniProtKB/Swiss-Prot với các đăng nhập khác (other entries)đăng nhập khác (other entries)

TagIdent - Nhận dạng các protein nhờ vào pI, Mw TagIdent - Nhận dạng các protein nhờ vào pI, Mw và các trình tự đeo thẻ (sequence tag) hoặc đưa ra và các trình tự đeo thẻ (sequence tag) hoặc đưa ra một danh sách các protein có pI và Mw gần với một danh sách các protein có pI và Mw gần với protein truy vấn nhất.protein truy vấn nhất.

MultiIdent - Nhận dạng các protein dựa vào thành MultiIdent - Nhận dạng các protein dựa vào thành phần axit amin, pI, Mw, trình tự đeo thẻ và dữ liệu phần axit amin, pI, Mw, trình tự đeo thẻ và dữ liệu khối phổ peptide.khối phổ peptide.

d/ Các công cụ dự đoán khác (other prediction tools)

GlycanMass - Tính toán khối lượng của một cấu GlycanMass - Tính toán khối lượng của một cấu

trúc oligosacharide.trúc oligosacharide.

PeptideCutter - Dự đoán các vị trí phân cắt và PeptideCutter - Dự đoán các vị trí phân cắt và

thủy phân bởi các hóa chất đối với một trình tự thủy phân bởi các hóa chất đối với một trình tự

nhất định. PeptideMass - Tính toán khối lượng nhất định. PeptideMass - Tính toán khối lượng

peptide và các cải biến sau dịch mã đối với một peptide và các cải biến sau dịch mã đối với một

đăng nhập của UniProtKB/Swiss-Prot hoặc đăng nhập của UniProtKB/Swiss-Prot hoặc

UniProtKB/TrEMBL hoặc một trình tự bất kỳ do UniProtKB/TrEMBL hoặc một trình tự bất kỳ do

người sử dụng đưa vào.người sử dụng đưa vào.

IsotopIdent - Dự đoán sự phân bố đồng vị về mặt IsotopIdent - Dự đoán sự phân bố đồng vị về mặt

lý thuyết của một chuối peptide, protein, lý thuyết của một chuối peptide, protein,

polynucleotide hoặc các chất hóa học.polynucleotide hoặc các chất hóa học.

3.4.2.2. Các công cụ chuyển DNA -> Protein

Translate - Dịch mã một trình tự nucleotide thành một trình tự protein.

Transeq - Dịch mã từ trình tự nucleotide thành protein từ phần mềm EMBOSS.

Graphical Codon Usage Analyser – Hiển thị “codon bias” dưới dạng đồ họa.

“Codon bias” là một thuật ngữ chỉ hiện tượng tần suất một bộ ba được sử dụng để mã hóa cho một axit amin nào đó ở một sinh vật nhất định cao hơn so với các bộ ba khác cùng mã hóa.Mỗi loài sinh vật có dạng “codon bias” khác nhau.

BCM search launcher - Dịch mã ra 6 khung từ một

trình tự nucleotide.

Backtranslation - Dịch mã một trình tự protein

ngược trở lại thành trình tự nucleoide.

Reverse Translate - Dịch mã một trình tự protein

thành trình tự nucleotide.

Genewise – So sánh trình tự của một protein với

trình tự DNA genomic để nghiên cứu intron, các

đột biến lệch khung.

FSED – Phát hiện đột biến lệch khung đọc.

List of gene identification software sites

3.4.2.3. Tìm kiếm các trình tự giống nhauBLAST và WU-BLAST - kết hợp với rất nhiều các phiên

bản BLAST (Basic Local Alignment Search Tool) BLAST Mạng lưới dịch vụ của ExPASy BLAST ở EMBnet-CH/SIB (Switzerland) BLAST ở NCBI WU-BLAST của EMBL (Heidelberg) WU-BLAST và BLAST ở EBI (Hinxton) BLAST ở PBIL (Lyon) Fasta3 – Phiên bản FASTA 3 ở EBI MPsrch – So sánh trình tự của Smith/Waterman ở

EBI PropSearch – Tìm kiếm cấu trúc tương đồng Scanps – Tìm kiếm trình tự giống nhau bằng thuật

toán của Barton

tin sinh hoc

Science

f2.hcm.edu.vn · su pham Ðai hoc sinh hoc sur pham tin...

khoa hoc cong nghe tin hoc

automatically generated pdf from existing images. tuyen sinh...

tuyensinh.ctu.edu.vn · môn thi tu ên sinh ngành - giáo...

tin sinh hoc

nihe.org.vn...vi sinh vât hoc. rhoa hoc v sinh. quan in'...

nguyenthiminhkhai.phuyen.edu.vnnguyenthiminhkhai.phuyen.edu.vn/upload/34797/... ·...

thong bao tuyen sinh dai hoc hinh thltc vlta lam · pdf...

thong bao tuyen sinh...thi sinh tiring tuyen dong hoc phi...

tin sinh hoc

dia sinh hoc, den sinh hoc, nang luong sinh hoc

thcsluongngocquyen.pgdtpthainguyen.edu.vnthcsluongngocquyen.pgdtpthainguyen.edu.vn/upload/... ·...

tin hoc dai_cuong_9517

dulieu.tailieuhoctap.vndulieu.tailieuhoctap.vn/books/tin-hoc-van-phong/tin-hoc-can-ban/file... ·...

bs yhct.pdf · sinh hoc (2) tin hoc dai cuong (1) giài...

tin hoc trong hoa hoc - hui

tin hoc trong hoa hoc

i hoc quac truong dai hoc cong nghe thong tin qua …£)~i...

gialai.edu.vngialai.edu.vn/upload/18282/20200509/776-sgddt... ·...

17.vien mt + cn sinh hoc - so tay thong tin bdkh (2010).pdf