tin sinh hoc
Post on 13-Aug-2015
48 Views
Preview:
TRANSCRIPT
Bé GI¸O DôC Vµ §µo t¹oBé GI¸O DôC Vµ §µo t¹otr êng ®¹i häc n«ng nghiÖp hµ néitr êng ®¹i häc n«ng nghiÖp hµ néi
Bµi gi¶ng Tin sinh häCBµi gi¶ng Tin sinh häC
TThS. Phan Träng NhËthS. Phan Träng NhËt
Bé m«n C«ng nghÖ Bé m«n C«ng nghÖ sinh häcsinh häc
CHƯƠNG I: GIỚI THIỆU VỀ INTERNET VÀ
SỰ RA ĐỜI CỦA TIN SINH HỌC
1.1. Giới thiệu về Internet
Khái niệm
• Internet là mạng máy tính toàn cầu để liên kết
các tổ chức, trung tâm, viện nghiên cứu, trường
học....
• Để máy tính hoạt động hiệu quả thì chúng phải
cùng chia sẻ một phương tiện truyền thông được
gọi chung là TCP/IP.
Các máy tính giao tiếp với nhau bằng cách nào?
TCP/IP (Transmission Control Protocol/ Internet Protocol) gọi là giao thức truyền dữ liệu/ giao thức Internet. Giao thức này cho phép các máy tính trên mạng trao đổi dữ liệu với nhau một cách thống nhất, tương tự như một ngôn ngữ quốc tế được mọi người cùng sử dụng để có thể hiểu nhau.
Mỗi máy tính trên internet được đặt một tên duy nhất đó là địa chỉ IP
Ví dụ: IP: 203.162.8.82 hay IP: http:// www.hau1.edu.vn
1.1.1. Lịch sử ra đời của Internet
• Năm 1969: Mạng ARPANET được ra đời dưới sự
tài trợ của cơ quan quản lý các dự án nghiên cứu
phát triển ARPA (American Research Projects
Agency) thuộc Bộ Quốc phòng Mỹ (US Department
of Defence).
• Khởi điểm là 4 nút mạng đặt tại 4 trường đại học
của Mỹ: Đại học California Los Angeles (UCLA) Học viện nghiên cứu Standford (SRI) Đại học California Santa Barbara (UCSB) Đại học Utah
Đó là mạng liên khu vực (WAN: Wide Area Network) đầu tiên được xây dựng, đánh dấu sự ra đời của internet ngày nay.
Trung tâm nghiên cứu Xeroc Corporation Palo Alto phát triển chuẩn kết nối Ethernet. Những năm 1980, giao thức TCP/IP trên Ethernet trở thành giao thức thông dụng trên mạng cục bộ.
Năm 1983, Bộ Quốc phòng Mỹ đã tách ARPANET làm
hai mạng con: MILNET: dành cho các hoạt động quân sự. ARPANET mới: dành cho các hoạt động phi quân
sự, trường đại học, viện nghiên cứu.
• Năm 1986, Tổ chức quỹ khoa học quốc gia NSF
(National Science Foudation) thành lập mạng NSFNET.
Nhiều doanh nghiệp chuyển từ ARPANET sang NSFNET.• Năm 1990, ARPANET ngừng hoạt động sau gần 20
năm.• Năm 1995, NSFNET thu lại thành một mạng nghiên cứu
còn Internet thì vẫn tiếp tục phát triển.• Năm 1991, WWW (World Wide Web) ra đời đặt nền
móng cho việc chuyển tải thông tin đa phương tiện
(multimedia) thông qua các siêu liên kết (hyperlink) rất
tiện dụng cho việc khai thác internet. Tổ chức W3C
(World Wide Web Consorticum) ra đời: nghiên cứu các
chuẩn chung cho Web.
Cuối năm 1992, xuất hiện nhà cung cấp thông tin thương mại đầu tiên là Delphi.
Tháng 6/1993: có khoảng 130 website. Năm 1994: có khoảng 3.000 website. Hiện nay: Vài trăm triệu website. Không có bất kỳ cá nhân hay tổ chức nào có toàn
quyền kiểm soát internet mà mỗi nhà quản trị chỉ quản lý phần mạng của tổ chức mình.
Để internet hoạt động theo một chiều hướng thống nhất thì hiệp hội internet và W3C có nhiệm vụ phát triển các giao thức truyền thông tin chung trên internet và theo dõi các chuẩn về web.
Số lượng máy chủ:
Năm 1981: khoảng 200 máy
Năm 1985: khoảng 2000 máy
Nay: > 9.000.000 máy
Internet trở thành mạng lớn nhất thế giới: mạng
của các mạng và xuất hiện trong mọi lĩnh vực:
Chính trị, quân sự, thương mại, nghiên cứu, giáo
dục, văn hoá, xã hội...
1.1.2. Sự hình thành Internet ở Việt Nam• Năm 1993 mạng VARENET (Vietnam Academic
Research Education Network) được thành lập, tạo tiền đề cho việc hình thành mạng lưới internet Việt Nam. VARENET ra đời từ Chương trình hợp tác nghiên cứu khoa học, triển khai công nghệ mạng tại Viện Công nghệ Thông tin thuộc Viện Khoa học và Công nghệ Việt Nam với sự hợp tác khoa học của Đại học Quốc gia Australia (ANU). Máy chủ của mạng VARENET đặt tại ANU.
• Năm 1993: VARENET chỉ có một chức năng duy nhất là phục vụ thư điện tử (E-mail) cho các văn phòng đại diện nước ngoài, các Cty liên doanh hay 100% vốn nước ngoài do tính chất mới và chi phí tài chính cao tại Việt Nam.
• Ngày 19 – 11 - 1997, khi Chính phủ Việt Nam quyết định
chính thức kết nối internet thì tên miền (.vn) được phía
Australia bàn giao cho Tổng cục Bưu điện Việt Nam. Sự
hình thành của hàng loạt các nhà cung cấp dịch vụ
internet sau đó đã làm mờ nhạt vai trò của VARENET.
• Sau VARENET, mạng diện rộng thứ hai là VINANET
(Vietnam Network) ra đời ở Việt Nam của Trung tâm
Thông tin Thương mại thuộc Bộ Thương mại. VINANET
cung cấp thông tin giá cả thị trường trong nước và quốc
tế, địa chỉ doanh nghiệp, văn bản tư pháp.... Tốc độ truy
cập thời kỳ này là 2,4kbps qua đường dây điện thoại.
• Năm 1997, hàng loạt các nhà cung cấp dịch vụ
internet (ISP) và các nhà cung cấp thông tin lên
internet (ICP) như: VNN, FPT, Saigonnet, Netnam và
CINET.
• VNN (Vietnam Network) là mạng máy tính của Công
ty Điện toán và truyền số liệu VDC (Vietnam
Datacommunication Company) thuộc Tổng công ty
Bưu chính viễn thông Việt Nam, hình thành năm 1997.
• FPT (Company for Financing and Promoting
Technology) là Công ty Tài chính và Kỹ thuật Quảng
cáo, thành lập năm 1997.
• Saigonnet thuộc Công ty Cổ phần Bưu chính viễn
thông Sài gòn SPT (Saigon Post and
Telecommunication Service Corporation), thành lập
năm 1997.
• Netnam thuộc Viện Công nghệ thông tin, thành lập
năm 1998.
• CINET (Culture and Information Net) thuộc Bộ Văn
hoá và Thông tin, thành lập năm 1997.
• Trong số các ISP kể trên, VNN dẫn đầu danh sách với
ưu thế vừa là IAP (cung cấp cổng truy cập internet)
vừa là cung cấp dịch vụ internet ISP (Internet Service
Provider) và ICP (cung cấp nội dung trên internet).
1.2. Kết cấu mạng Internet
1.2.1. Các kiểu mạng:• Mạng cục bộ LAN (Local Area Network)• Mạng vùng trung tâm MAN (Metropolitan Area
Network)• Mạng diện rộng WAN (Wide Area Network)
Mạng cục bộ LAN: là mạng nhỏ nhất, trong vòng
vài km, ngoại trừ trường hợp máy tính đơn kết nối
trực tiếp với internet, tất cả các máy tính có nối
mạng đều nối vào mạng LAN. Mạng LAN được
dùng cho một toà nhà, trường học, thư viện, bệnh
viện…
Một đặc điểm của mạng LAN là khi một máy tính truyền dữ liệu thì tất cả các máy tính trong mạng đều có thể nhận dữ liệu đó, đặc tính này gọi là broadcasting.
Máy tính trong mạng LAN sử dụng kỹ thuật gọi là Carrier Sense Multiple Access/ Collision Detect (CSMA/CD) nghĩa là không gửi khi máy tính khác đang gửi và kiểm tra những gì gửi đi có xung đột với các máy tính khác.
Công nghệ LAN mới nhất hiện nay là mạng không dây sử dụng tia hồng ngoại hay sóng radio thay cho cáp để truyền tín hiệu mạng. Tốc độ truyền từ 1 đến 11 Mbps, nó thích hợp cho những người di chuyển thường xuyên hay những nơi mà không thể đặt dây cáp.
Mạng vùng trung tâm MAN
Khác với mạng LAN là dùng chung một thiết bị truyền
trong mạng nên cho phép nhiều máy tính kết nối
vào cùng một sợi dây, mạng MAN sử dụng các kết
nối điểm đến điểm (point to point) với chỉ một máy
tính tại cuối mỗi liên kết. Các máy tính tại cuối mỗi
liên kết của MAN cũng có thể kết nối với các mạng
LAN, MAN và WAN.
Mạng diện rộng WAN
Phạm vi của mạng có thể là một quốc gia hay thậm chí
cả lục địa. Cũng giống như đa số MAN, mạng WAN
dùng các kết nối vật lý điểm đến điểm nhưng dùng
cáp xoắn. Công nghệ WAN thường có nguồn gốc từ
các hệ thống xây dựng để phục vụ cho các công ty
điện thoại.
1.2.2. Kết nối Internet Kết nối vật lý: kết nối các thiết bị phần cứng như
modem, dây cáp để thực hiện việc nối từ một máy tính đến mạng internet thông qua các nhà cung cấp mạng.
Sau khi kết nối vật lý, việc kết nối internet có thể thực hiện theo hai cách:
Kết nối trực tiếp: cần có modem tốc độ cao nối với cổng V35 của thiết bị định tuyến (Router) để kết nối trực tiếp vào internet thông qua kênh thuê bao riêng. Các loại dịch vụ kết nối do các nhà cung cấp dịch vụ internet bao gồm:
Đường truyền thường trực (Leased Line)
Đường dây thuê bao số bất đối xứng ADSL (Asymetrical Digital Subcribe Line)
Kết nối gián tiếp: chỉ cần một modem và một đường
dây điện thoại để quay số vào mạng. Dịch vụ này có:
Quay số kết nối qua mạng điện thoại Dial-Up
Mạng số tích hợp đa dịch vụ (Intergrated
Service Digital Network)
So với kết nối internet gián tiếp, kết nối internet trực
tiếp có nhiều ưu điểm như: băng thông rộng, tốc độ
cao và ổn định, hoạt động liên tục (online 24/24).
Đương nhiên chi phí cho việc kết nối trực cũng tốn
kém hơn nhiều so với loại gián tiếp.
Sau khi đã lựa chọn cách kết nối internet thì chúng ta quan tâm đến dịch vụ nào cho phép chúng ta lướt trên internet. Có 2 nhóm chính là:
Các dịch vụ trực tuyến (online service) như America Online (AOL) và CompuServe thường cung cấp một lượng lớn các dịch vụ Intergrative Digital bao gồm Information retrieval, thư điện tử (e-mail), bảng tin (bulletin board) và “chat room’’ nhờ đó người sử dụng trực tuyến đồng thời có thể quan tâm đến một vài lĩnh vực cùng một lúc.
Các nhà cung cấp dịch vụ internet ISP (Internet Service Provider) bao gồm việc cấp tài khoản truy cập internet cho người sử dụng đồng thời cung cấp các dịch vụ internet.
1.3. Một số nét khái quát về WWW (World Wide
Web) và trình duyệt Web
1.3.1. WWW và nguyên lý hoạt động
WWW là gì? :
WW là dịch vụ cung cấp thông tin trên hệ thống
mạng Internet/Intranet. Các thông tin này được lưu
trữ dưới dạng tập tin siêu văn bản (hypertext) và
được truy xuất bởi trình duyệt web (Web Browser).
Siêu văn bản là các tư liệu chứa văn bản, hình ảnh tĩnh, hình ảnh động, âm thanh, video… được liên kết với nhau qua các siêu liên kết (hyperlink). Thông qua các siêu liên kết, người dùng có thể nhanh chóng tham khảo các tư liệu liên quan một cách dễ dàng.
Để truy xuất các thông tin trên Web Server, các khách hàng sử dụng web (Web Client) phải sử dụng chương trình có chức năng duyệt các thông tin dạng siêu văn bản gọi là trình duyệt web. Có nhiều loại trình duyệt web như: Internet Explorer, Netscape Navigator, Opera, Neoplanet… Trong số đó, 2 trình duyệt được sử dụng phổ biến là Internet Explorer và Netscape Navigator.
1.3.2. Vài nét cơ bản của trình duyệt Web
Tiềm năng của Internet chỉ thực sự phát huy được khi có các trình duyệt web ra đời. Chúng cho phép truy cập tới nguồn thông tin ở các vị trí khác nhau. Các Browser là các trạm công tác có khả năng xử lý hoặc yêu cầu lấy thông tin hoặc các chương trình ứng dụng từ máy chủ của mạng. Trong đó trang chủ là điểm trung gian giữa browser và server. Hiện nay có một số Web browser đang dùng phổ biến là Lynx cho hệ điều hành Unix hoặc VMS; Mosaic cho các máy Apple Mac, X-Windows; Internet Explorer và Netscape Navigator cho các máy Windows.
Ưu điểm:
Sử dụng dễ dàng, không cần phải hiểu biết nhiều về
tin học – máy tính.
Người sử dụng không cần biết vị trí chính xác của
trang văn bản, hình ảnh… trên mạng internet, mà
chỉ cần chọn nó bằng cách nhấp chuột vào các liên
kết để có được nội dung muốn tìm.
Các nguyên tắc duyệt Web:
Xác định rõ thông tin muốn tìm trên web.
Xác định được những Web site nào thích hợp cho
việc truy tìm thông tin.
Có thể mở nhiều của sổ cho mỗi website trong
việc tìm kiếm bằng cách chọn File/New Windows
hoặc tổ hợp phím Ctrl + N.
Muốn mở một liên kết trong một cửa sổ mới, nhấp
phải chuột và chọn Open link in new windows.
Chức năng của trình duyệt:
Cho phép xem trang web.
Lưu lại những địa chỉ URL của trang web.
Sử dụng dịch vụ FPT bằng trình duyệt web (Web FPT)
Sử dụng các chương trình E-mail trên web (Webmail)
Các trình duyệt đều sử dụng đĩa cứng để tạm ghi các
địa chỉ trang web (gọi là cache) mà người sử dụng
vừa lướt qua, có thể điều chỉnh tuỳ theo nhu cầu của
mỗi người.
Các chức năng hỗ trợ khác bao gồm: Ngăn chặn
những trang web mang nội dung xấu, phản động và
có thể thay đổi phông chữ, kích thước.
1.4. Các dịch vụ, tài nguyên và đạo đức trên
Internet
1.4.1. Các dịch vụ:
• E-mail (Electronic mail): Thư điện tử
• WWW: Mạng thông tin toàn cầu thể hiện thông tin
dạng siêu văn bản.
• FTP (File Transfer Protocol): Giao thức truyền tập tin
trên mạng.
Chat: Hội thoại trực tiếp trên Internet
• VoIP (Voice over Internet Protocol): Kỹ thuật
chuyển tải giọng nói qua giao thức Internet hay
còn gọi là điện thoại Internet.
• Video Conference: Hội nghị truyền hình.
• WAI (Wireless Application Protocol): Giao thức sử
dụng công nghệ không dây.
1.4.2. Luật lệ, đạo đức và các quy định hoạt
động của Internet• Không được truy cập (Access) bất hợp pháp vào
những hệ thống đòi hỏi phải có Username và
Password.
• Không phá hoại và gây rối loạn hệ thống lưu thông
trên Internet (gieo rắc, phát tán virus).
• Không lãng phí nguồn tài nguyên (không download
những tập tin quá lớn mà chẳng để làm gì, đặc biệt
trong giờ cao điểm.
• Không xoá tập tin của người khác.
• Không xâm phạm, phát tán những thông tin có tính
chất riêng tư của người khác.
1.5. Sự ra đời và vai trò của tin sinh học
1.5.1. Buổi bình minh của trình tự
Trình tự Protein
Trình tự axit nucleic
1.5.2. Sự ra đời của tin sinh học
Do sự xuất hiện của các thông tin về cấu trúc, chức
năng và trình tự của protein, DNA từ đó dẫn tới
nhu cầu quản lý, so sánh và dự đoán cấu trúc và
chức năng của sinh vật và sự phát triển của các
ngành khoa học khác đặc biệt là công nghệ thông
tin, máy tính. Do nhu cầu đó mà Tin sinh học đã
được ra đời.
1.5.3. Khái niệm Tin sinh học
Là một môn khoa học phân tích các cơ sở dữ liệu
sinh học nhờ sự hỗ trợ của máy tính và các công cụ
thống kê.
Các ngành học của Tin sinh học bao gồm:
Tin sinh học genome
Tin sinh học protein
Tin sinh học tiến hoá
Tin sinh học nông nghiệp
Tin sinh học y học
Phát triển các công cụ và cơ sở nền
1.5.4. Vai trò và xu hướng phát triển của Tin sinh
học
a/ Vai trò của Tin sinh học:
Tập hợp, lưu trữ, sắp xếp, truy xuất và chia sẻ cơ
sở dữ liệu.
Hỗ trợ cho việc tìm kiếm, phân tích, xử lý và dự
đoán các kết quả nghiên cứu.
Hỗ trợ trong các nghiên cứu về cấu trúc không
gian phân tử.
Hỗ trợ trong nghiên cứu đa dạng và tiến hoá của
sinh vật
b/ Xu hướng phát triển của Tin sinh họcb/ Xu hướng phát triển của Tin sinh học
Những lĩnh vực của Tin sinh học đang được tập Những lĩnh vực của Tin sinh học đang được tập
trung nghiên cứu:trung nghiên cứu:
Quản lý cơ sở dữ liệu Quản lý cơ sở dữ liệu
Phân tích, biên dịch dữ liệuPhân tích, biên dịch dữ liệu
Phát triển các thuật toánPhát triển các thuật toán
Các cấu trúc cơ sở dữ liệuCác cấu trúc cơ sở dữ liệu
Thiết kế các giao diện và hiển thịThiết kế các giao diện và hiển thị
c/ Địa chỉ có thể tìm hiểu thêm những tài liệu về Tin c/ Địa chỉ có thể tìm hiểu thêm những tài liệu về Tin
sinh học:sinh học:
http://www.iscb.orghttp://www.iscb.org
http://www.ncbi.nlm.nih.govhttp://www.ncbi.nlm.nih.gov
http://www.bioinformatics.orghttp://www.bioinformatics.org
Các tạp chí về BioinformaticsCác tạp chí về Bioinformatics
Các công cụ tìm kiếm (Google, Yahoo…)Các công cụ tìm kiếm (Google, Yahoo…)
Các hội nghị, hội thảoCác hội nghị, hội thảo
Các thư việnCác thư viện
CHƯƠNG 2TÌM KIẾM THÔNG TIN TRÊN INTERNET
2.1. Khái niệm về thông tin1. Thông tin là gì?Thông tin là các dữ liệu và tri thức được sử dụng trong
thựctiễn để giải quyết một số vấn đề hoặc một nhiệm vụ nào
đó.
2. Các thuộc tính của thông tin Giá trị của thông tin phụ thuộc vào:
Chất lượng của thông tinTrình độ của người sử dụng
Thông tin có chất lượng khi nó có những tính chất sau:Chính xác và đáng tin cậyKịp thời Đặc trưng và định hướng cho người dùng thi cụ thể
Khái niệm chung về tìm tin:
Tìm tin là một thuật ngữ chung để chỉ công việc tìm tài
liệu
hay nguồn của tài liệu, cũng như thông tin về dữ liệu và
sự kiện mà tài liệu đó cung cấp.
2.2. Các công cụ tìm kiếm thông tin
Biểu thức tìm tin:
Biểu thức tìm tin là một tập hợp các từ khóa được liên
kết với nhau bằng các toán tử logic.
Các loại toán tử logic thường sử dụng khi tìm tin:
Phép nối đồng thời hai từ khóa hay và (and, +): Ví dụ:
“Cây lúa” + “hoa màu” hoặc “Cây lúa” & “Hoa màu”.
Phép lựa chọn hay hoặc: Ví dụ: “Cây lúa” or
“Hoa màu”.
Phép loại trừ: Ví dụ: “Cây lúa” – “Hoa màu”.
Phép phủ định (Not, !): Ví dụ: Internet &!
Computer.
Sử dụng các dấu ngoặc: Ví dụ: (PCR or
RAPD) and not (AFLP or SSR).
Các toán tử gần đúng: NEAR (gần như), ADJ
(gần như) , SAME (đại loại giống như), FBY
(theo sau bởi).
Những lưu ý về việc chọn lựa từ khóa
Tốt nhất chỉ nên dùng danh từ làm từ khóa.
Trong khi tìm kiếm các tài liệu tiếng nước ngoài không
nên sử dụng các mạo từ, giới từ.
Sắp xếp các từ khóa quan trọng trước theo thứ tự ưu
tiên.
Nên sử dụng ít nhất là hai từ khoá (thường là 3) và kết
hợp các từ khóa thành những cụm từ.
Tránh sử dụng các từ thường sử dụng (tần suất lặp lại
rất nhiều ở hầu hết các tài liệu).
Để tìm thông tin cụ thể tốt nhất hay chọn những từ
khóa mà có thể sẽ là tiêu đề cho tài liệu hoặc tên trang
Web.
2.3. Cách tìm kiếm thông tin Nguyên tắc chung Mở nhiều cửa sổ trình duyệt (Web browser) trong khi
khai thác thông tin để tăng tốc độ tìm tin (Ctrl + N). Không nên mở trực tiếp một hyperlink ngay trên trang
web chính mà mở riêng thông tin đó trên một trang Web mới (Open in new windows).
Các cách tìm tin
a/ Tìm tin theo thư mục chủ đề: Thư mục chủ đề là một tập hợp các tài liệu có liên quan đến thông tin mà chúng ta cần tìm kiếm.
Các ưu điểm và hạn chế của thư mục chủ đề: Chứa các
thông tin cụ thể, chính xác và ít xuất hiện trong các kết
quả tìm kiếm.
Khi nào nên sử dụng các thư mục chủ đề:
Khi muốn xem thông tin nào sẵn có trên trang
Web trong một lĩnh vực, phạm vi cụ thể liên quan
đến vấn đề mình quan tâm trong thời gian ngắn.
Các thư mục chủ đề tiêu biểu:
Yahoo! (http://www.yahoo.com)
Excite (http://www.excite.com/)
LookSmart (http://www.looksmart.com)
Magellan (http://magellan.excite.com/)
Open Directory Project (http://www.dmoz.org)
Snap (http://www.snap.com/)
b/ Tìm tin theo từ khóa:
Để tìm thông tin theo từ khoá ngoài việc xác định từ khóa và
biểu thức tìm tin chúng ta cần phải lựa chọn một công cụ để
tìm kiếm tin hay còn gọi là các search engine.
Việc tìm kiếm nhờ các search engine có rất nhiều lợi thế vì:
Thứ nhất thông tin tìm được sẽ cụ thể và chi tiết hơn.
Thứ hai có rất nhiều tiêu chuẩn để lọc thông tin như: tìm
thông tin theo thời gian, ngôn ngữ, định dạng file...
c/ Tìm tin theo các trường
Tìm kiếm theo tiêu đề: Title: “từ khóa”, kết quả sẽ
cho ra tất cả các trang Web có tên như từ khóa đã
chọn. Nhanh hơn rất nhiều so với tìm kiếm từ khóa
trong toàn bộ tài liệu.
Tìm kiếm theo tên miền: Tên miền gồm 3 chữ viết tắt
của một lĩnh vực mà trang web đó chứa thông tin liên
quan. Vi dụ: www.hau1.edu.vn khi đó domain là: edu
Tìm kiếm các hình ảnh: image: bones.gif
Ngoài ra còn có nhiều trường tìm kiếm khác như:
object, text, sound, pictures, date, anchor, applet và
language.
2.4. Cách chọn và đánh giá độ tin cậy của thông tin
2.4.1. Cách chọn thông tin2.4.2. Đánh giá độ tin cậy của thông
tin
CHƯƠNG 3: CƠ SỞ DỮ LIỆU SINH HỌC VÀ
CÁC NGÂN HÀNG CƠ SỞ DỮ LIỆU
3.1. Khái quát chung về cơ sở dữ liệu sinh học
Cơ sở dữ liệu sinh học (CSDL) trong chương này chủ
yếu đề cập đến các thông tin về trình tự axit nucleic
(ADN, ARN), trình tự axit amin của các phân tử
protein, thông tin về cấu trúc và giải phẫu của một
số genom, mô hình cấu trúc không gian của các đại
phân tử.
Các thông tin này được sắp xếp và lưu trữ bởi một hệ
thống các máy chủ rất mạnh của 3 ngân hàng gen
lớn nhất thế giới là NCBI, EMBL và DDBJ.
3.2. Phân tích dữ liệu ADN và Protein3.2. Phân tích dữ liệu ADN và Protein
Các thông tin về dữ liệu ADN, protein: chủ yếu là
trình tự nucleotit và trình tự axit amin
Ngân hàng gen cũng có thể được coi như một thư
viện sách, trong đó mỗi cuốn sách chính là một
trình tự nucleotit ADN hoặc axit amin của protein
và chúng đều được đánh số.
Bằng cách này hay cách khác chúng ta có thể tìm
được trình tự cần quan tâm. Tuy nhiên, vấn đề ở
đây không phải là tìm bằng cách nào mà chúng ta
phải hiểu được cuốn sách đó viết về cái gì và sử
dụng nó như thế nào?
a/ Dữ liệu ADN và Protein là gi?a/ Dữ liệu ADN và Protein là gi?
Dữ liệu về trình tự nucleotit trong ADN và trình tự
axit amin trong protein là những thông tin sinh học
ở mức độ phân tử. Đối với ADN đó là số lượng, thành
phần và trật tự sẵp xếp của các nucleotit,
ribonucleotit trên một phân tử ADN, mRNA.
Các thông tin về ADN thường được chỉ rõ chúng mã
hóa cho sản phẩm gen gì? có mặt ở đối tượng sinh
vật nào? phân bố ở đâu. Ngoài ra các thông tin này
còn liên quan đến vấn đề nghiên cứu gì và của tác
giả nào?
Đối với Protein, đó là số lượng và trật
tự sắp xếp của các axit amin trong
một phân tử protein. Các thông tin
này cũng bao gồm đặc tính và vai trò
của protein vị trí có mặt trong tế bào,
mô, cơ quan, tác giả công bố… thậm
chí còn đưa ra những giả thiết về cấu
trúc của phân tử.
b/ Genomic và Proteomic
Genomic: Là tất cả những dữ liệu về thông tin di
truyền của một loài sinh vật nhất định. Tức là hướng
tiếp cận từ ADN.
Proteomic: Là tất cả các sản phẩm gen (protein) của
một tế bào, mô hoặc cơ quan của một sinh vật nào
đó trong một giai đoạn sinh lý nhất định. Xét ở
phạm vi hẹp, có thể nói đó là tập hợp sản phẩm
dịch mã của tất cả các mRNA có mặt trong tế bào
sinh vật tại thời điểm nghiên cứu. Tức là hướng tiếp
cận từ protein.
Luận thuyết trung tâm
RNADNA
ProteinPhiên mã Dịch mã
c/ Sử dụng các dữ liệu ADN và Protein để làm gì?c/ Sử dụng các dữ liệu ADN và Protein để làm gì? Đối với trình tự nucleotit: So sánh một đoạn ADN bất kỳ với các dữ liệu trong
ngân hàng gen có thể chúng ta xác định được đoạn ADN đó của sinh vật nào (Bài thực hành tìm kiếm trình tự tương đồng).
Biết được trình tự sắp xếp các nucleotit của một đoạn ADN có thể suy ra trình tự các axit amin tương ứng trên mạch polypeptide nếu đoạn ADN đó mã hóa (Bài thực hành dịch mã 1 phân tử ADN sang trình tự axit amin).
Xác định đột biến, sự sai khác về trình tự nucleotit trong cùng một sản phẩm gen (isozyme, allozyme…) có ý nghĩa trong nghiên cứu tiến hóa và ứng dụng thực tiễn.
Về mặt phân loại sinh học, đối với một số gen có
tính bảo thủ cao, mang tính đặc thù loài, chẳng hạn
các gen mã hóa cho ARN ribosome (rRNA). Dựa vào
những trình tự ADN của các gen này ở những loài
sinh vật khác nhau mà người ta có thể so sánh
chúng trên cơ sở xác định mức độ sai khác về trình
tự nucleotit từ đó mô phỏng mối quan hệ loài, dưới
loài.
(Bài thực tập xác định mối quan hệ di truyền bằng
cách so sánh trình tự nucleotit)
Hình thái giống nhau Vật chất di truyền như thế nào?
Early globin gene
mouse
ß-chain gene-chain gene
cattle ß human ß mouse ßhuman cattle
Gene Duplication
Biết được trình tự của một gen (chẳng hạn gen ung
thư hay sự có mặt của các virus nguy hiểm chẳng
hạn H5N1, bệnh virus đốm trắng ở tôm…) người ta có
thể phát hiện sớm bằng kỹ thuật PCR, lai ADN để
ngăn chặn, điều trị.
Thiết kế những cặp mồi (primer) để nhân bản các
đoạn này cho những mục đích nghiên cứu khác nhau
như : Nghiên cứu sự có mặt của gen đó trong các
sinh vật khác nhau (xác định sự có mặt gen chống
bệnh bạc lá, đạo ôn, xác định giới tính, bệnh di
truyền…). Ngoài ra, còn sử dụng các kỹ thuật
microarray, DNA chip để phát hiện sự có mặt và mức
độ hoạt động của các gen trong những điều kiện nhất
định.
Từ trình tự nucleotit của một phân tử ADN có thể
biết được bản đồ các vị trí nhận biết của các
enzym cắt hạn chế. Điều này đặc biệt có ý nghĩa
trong kỹ nghệ ADN tái tổ hợp.
(Bài thực hành xác dịnh bản đồ giới hạn của
genome ADN )
Một trong những phương pháp trị liệu gen (gene
therapy) dựa trên trình tự ribonucleotit trên phân
tử mRNA để tổng hợp sợi bổ sung (antisense)
nhằm ngăn chặn sự hoạt động của các gen đó.
Một trong những ứng dụng quan trọng đó là chuyển
gen để tạo ra các sinh vật mới mang những đặc
tính mong muốn hoặc có thể chuyển gen vào các tế
bào vi khuẩn, nấm men… để sản xuất sản phẩm
gen theo con đường tái tổ hợp (protein, enzym,
vaccine và các hợp chất có hoạt tính sinh học).
Nếu như chúng ta biết được thành phần, trình tự
sắp xếp của các axit amin trong phân tử protein,
enzym nào đó có thể đánh giá được sự sai khác
giữa các axit amin trong các phân tử protein,
enzym cùng chức năng ở các loài khác nhau để biết
được thành phần axit amin nào đóng vai trò quan
trọng.
Đối với trình tự axit amin
Nếu như chúng ta biết được thành phần, trình tự
sắp xếp của các axit amin trong phân tử protein,
enzym nào đó có thể đánh giá được sự sai khác
giữa các axit amin trong các phân tử protein,
enzym cùng chức năng ở các loài khác nhau để biết
được thành phần axit amin nào đóng vai trò quan
trọng.
Từ trình tự axit amin của phân tử protein, có thể
suy diễn ra trình tự nucleotit của gen mã hóa.
Từ trình tự axit amin có thể dự đoán được cấu trúc
ba chiều, vị trí hoạt động (domain) của phân tử
protein, enzym đó.
Ngày nay, việc phát hiện sự tương đồng hay sự có
mặt của phân tử protein có thể được thực hiện bằng
các kỹ thuật hiện đại như khối phổ. Tuy nhiên việc
xác định trình tự các axit amin là không thể thiếu
được.
3.2. CSDL của các ngân hàng gen
Cả 3 CSDL lớn nhất (NCBI, EMBL và DDBJ) đều
có đầy đủ thông tin cơ bản về các CSDL trên.
Tuy nhiên mỗi ngân hàng có một cách phân
loại và tổ chức các loại dữ liệu khác nhau.
Trong phạm vi bài giảng, chương này chỉ đề
cập đến những CSDL chính, được sử dụng
thường xuyên.
3.2.1. CSDL của EMBL/EBI
a/ CSDL tài liệu (Literature Databases) Medline: Bao quát tất cả các lĩnh vực của y học,
chăm sóc bệnh nhân, nha khoa, thú y, hệ thống chăm sóc sức khỏe và khoa học tiền lâm sàng.
Omim: Di truyền Mendel ở người (Online Mendelian Inheritance in Man -OMIM) là một tập hợp của các gen và các rối loạn di truyền.
Patent Abstracts: Các bản tóm tắt có liên quan đến CNSH của các ứng dụng mô hình lấy từ các sản phẩm dữ liệu của European Patent Office (EPO).
Taxonomy: CSDL phân loại của ISDC (International Sequence Database Collaboration) chứa các tên của các sinh vật được trình bày dưới dạng CSDL trình tự.
b/ CSDL Microarray (Microarray Databases)
ArrayExpress: Một CSDL cho microarry dựa vào
dữ liệu biểu hiện gen.
Miame : Thông tin tối thiểu về một thí nghiệm
microarry (Minimum Information About a
Microarray Experiment (MIAME).
Công nghệ microarry tận dụng các nguồn trình tự
được tạo ra từ các dự án xác định trình tự genom
để trả lời câu hỏi là các gen nào đang được biểu
hiện ở một dạng tế bào nhất định của một sinh vật
ở một thời gian nhất định trong những điều kiện
nhất định
c/ CSDL Nucleotide (Nucleotide Databases)c/ CSDL Nucleotide (Nucleotide Databases)
CSDL trình tự nucleotide của EMBL là một thành viên CSDL trình tự nucleotide của EMBL là một thành viên
các nước châu Âu trong 3 CSDL lớn nhất thế giới. Có các nước châu Âu trong 3 CSDL lớn nhất thế giới. Có
thể truy cập vào hàng trăm trình tự genom hoàn thể truy cập vào hàng trăm trình tự genom hoàn
chỉnh cùng với các sản phẩm protein dịch mã nhờ chỉnh cùng với các sản phẩm protein dịch mã nhờ
máy chủ của EBI. máy chủ của EBI.
ASD: ASD: CSDL phân cắt nảy sinhCSDL phân cắt nảy sinh ( (Alternative Splicing Alternative Splicing
Database) chứa dữ liệu về các exon phân cắt phát Database) chứa dữ liệu về các exon phân cắt phát
sinh cùng với các thông tin bổ sung đi kèm. Dự án sinh cùng với các thông tin bổ sung đi kèm. Dự án
ASD nhằm hiểu rõ hơn về cơ chế cắt ghép nảy sinh ở ASD nhằm hiểu rõ hơn về cơ chế cắt ghép nảy sinh ở
quy mô genome.quy mô genome.
ATD: CSDL đa dạng về các bản phiên mã nảy
sinh (Alternate Transcript Diversity Database ATD)
chứa dữ liệu về các bản phiên mã trong đó mỗi bản
phiên mã được mô tả cho một dạng cắt ghép nảy sinh
và sự polyadenyl hóa nảy sinh (alternative
polyadenylation).
EMBL-Align database: CSDL so sánh nhiều trình tự.
EMBL-Bank: Ngân hàng EMBL còn được gọi là CSDL
trình tự nucleotide EMBL, đóng góp vào nguồn trình tự
nucleotide sơ cấp của châu Âu.
EMBL CDS: là một CSDL của trình tự nucleotide của
trình tự mã hóa (CDS coding sequence)
Ensembl: Mô tả tự động của các genome eukaryote.
Genomes Server: một cái nhìn tổng quan của các
genom hoàn chỉnh ở EBI. Những trang web này cho
phép truy cập với một số lượng lớn các genom hoàn
chỉnh.
Genome Reviews: CSDL genom được chỉnh sửa bao
gồm các phiên bản chính xác của các mục tra cứu
(entry) genom hoàn chỉnh từ CSDL trình tự nucleotide
của EMBL/GenBank/DDBJ
Karyn's Genomes: thu thập và mô tả một số trình tự
genom.
IMGT/HLA: CSDL di truyền miễn dịch, bao gồm CSDL IMGT/HLA của phức hệ phù hợp tổ chức (MHC). CSDL di truyền miễn dịch IMGT/LIGM bao gồm CSDL IMGT/LIGM của các Ig và các thụ thể tế bào T.
IPD: CSDL đa hình miễn dịch (Immuno Polymorphism Database IPD), bao gồm các gen đa hình của hệ thống miễn dịch, chẳng hạn như KIR, HPA và MHC không phải của người.
LGICdb: CSDL các chất gắn các kênh Ion (Ligand Gated Ion Channel Database)
Mutations: Dự án CSDL sự đa hình trình tự (Sequence variation database project)
Parasites: CSDL genome ký sinh (Parasite Genome databases).
d/ CSDL protein (Protein Databases)d/ CSDL protein (Protein Databases)
EBI đã phát triển và duy trì một số CSDL protein có liên EBI đã phát triển và duy trì một số CSDL protein có liên quan với nhau. Danh sách của các dự án và CSDL:quan với nhau. Danh sách của các dự án và CSDL:
CluSTr:CluSTr: Đề xuất một sự phân loại tự động của Đề xuất một sự phân loại tự động của UniProtKB/Swiss-Prot + UniProtKB/TrEMBL. UniProtKB/Swiss-Prot + UniProtKB/TrEMBL.
CSA:CSA: Tập hợp các vị trí xúc tác (Catalytic Site Atlas) Tập hợp các vị trí xúc tác (Catalytic Site Atlas) là một nguồn của các vị trí xúc tác và các gốc được là một nguồn của các vị trí xúc tác và các gốc được tìm thấy ở các enzym bằng cách sử dụng CSDL cấu tìm thấy ở các enzym bằng cách sử dụng CSDL cấu trúc.trúc.
GO: GO: Các trang của hiệp hội Gene Ontology của EBI.Các trang của hiệp hội Gene Ontology của EBI. GOAGOA: Cung cấp các thông tin về sản phẩm gen vào : Cung cấp các thông tin về sản phẩm gen vào
nguồn GOnguồn GO.. HPIHPI: Các proteomic của người ban đầu (Human : Các proteomic của người ban đầu (Human
Proteomics Initiative) là một khởi xướng bởi SIB và EBI Proteomics Initiative) là một khởi xướng bởi SIB và EBI để mô tả tất cả các trình tự đã biết của người theo để mô tả tất cả các trình tự đã biết của người theo tiêu chuẩn chất lượng của UniProtKB/Swiss-Prot. tiêu chuẩn chất lượng của UniProtKB/Swiss-Prot.
IntActIntAct: Là một CSDL đi kèm với hệ thống phân : Là một CSDL đi kèm với hệ thống phân tích, nó cung cấp một giao diện truy vấn và một tích, nó cung cấp một giao diện truy vấn và một module để phân tích các dữ liệu.module để phân tích các dữ liệu.
IntEnz:IntEnz: CSDL liên quan giữa các enzym CSDL liên quan giữa các enzym (Integrated relational Enzyme database) chứa các (Integrated relational Enzyme database) chứa các dữ liệu enzym được chứng nhận bởi hội đồng định dữ liệu enzym được chứng nhận bởi hội đồng định tên (Nomenclature Committee) với mục đích là để tên (Nomenclature Committee) với mục đích là để tạo ra một CSDL các enzym có mối quan hệ đơn.tạo ra một CSDL các enzym có mối quan hệ đơn.
InterPro: InterPro: CSDL là một sự kết hợp của nguồn tài CSDL là một sự kết hợp của nguồn tài liệu trích dẫn cho các họ proein, các domain và liệu trích dẫn cho các họ proein, các domain và các vị trí hoạt động.các vị trí hoạt động.
IPI:IPI: (International Protein Index) một hệ thống (International Protein Index) một hệ thống proteom không dư thừa (non-redundant) được xây proteom không dư thừa (non-redundant) được xây dựng từ UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, dựng từ UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, Ensembl và RefSeq. Ensembl và RefSeq.
PANDITPANDIT: là một bộ các chương trình so sánh trình : là một bộ các chương trình so sánh trình tự và xây dựng cây phân loại.tự và xây dựng cây phân loại.
Proteome Analysis: Proteome Analysis: Phân tích so sánh và thống Phân tích so sánh và thống kê các proteom của các sinh vật.kê các proteom của các sinh vật.
UniProtUniProt: Nguồn Protein phổ biến cho các trình tự : Nguồn Protein phổ biến cho các trình tự protein và trung tâm của các CSDL protein cho các protein và trung tâm của các CSDL protein cho các ngân hàng CSDL khác. ngân hàng CSDL khác.
UniProt ArchiveUniProt Archive:: Một phần trình tự protein được Một phần trình tự protein được trích ra từ CSDL công khai chỉ chứa các trình tự trích ra từ CSDL công khai chỉ chứa các trình tự protein.protein.
UniProt/UniRefUniProt/UniRef Features clustering of similar Features clustering of similar sequences to yield a representative subset of sequences to yield a representative subset of sequences. This produces very fast search times. sequences. This produces very fast search times.
UniProtKB/Swiss-ProtUniProtKB/Swiss-Prot: CSDL trình tự protein : CSDL trình tự protein được mô tả, một phần của UniProtKB. được mô tả, một phần của UniProtKB.
UniProtKB/TrEMBL: UniProtKB/TrEMBL: Một CSDL protein được tạo Một CSDL protein được tạo ra bằng máy tính, là một phần của UniProtKB.ra bằng máy tính, là một phần của UniProtKB.
e/ CSDL Proteomic (Proteomic Databases)
EBI đã phát triển và lưu giữ một số lượng lớn các CSDL liên
quan proteom. Dưới đây là một số CSDL proteom.
ChEBI (Chemical Entities of Biological Interest ChEBI):
một từ điển của các phân tử nhỏ (small molecular ).
IntAct : Cung cấp một hệ thống CSDL mở, sẵn có và các
công cụ phân tích cho các dữ liệu tương tác protein.
IntEnz (Integrated relational Enzyme database
IntEnz) sẽ chứa dữ liệu enzym được hội định tên quốc
tế (Nomenclature Committee) xác nhận. Mục tiêu là
để tạo ra một CSDL quan hệ enzym đơn.
IUPHAR CSDL thụ thể đại diện cho tất cả các lĩnh vực
của dược học theo nghĩa rộng nhất của nó từ lý
thuyết cho đến lâm sàng ở quy mô thế giới.
PRIDE (PRoteomics IDEntifications database) cho
phép đăng ký (submit) dữ liệu protein ở dạng PRIDE
XML.
f/ CSDL cấu trúc (Structure Databases)f/ CSDL cấu trúc (Structure Databases)
EBI đã phát triển và duy trì một số lượng các CSDL có EBI đã phát triển và duy trì một số lượng các CSDL có
liên quan đến cấu trúc của các đại phân tử. Trong đó liên quan đến cấu trúc của các đại phân tử. Trong đó
quan trọng nhất là (Macromolecular Structure quan trọng nhất là (Macromolecular Structure
Database MSD). Database MSD).
DALI:DALI: Thư mục cấu trúc domain của các protein. Thư mục cấu trúc domain của các protein.
MSDMSD: CSDL cấu trúc các đại phân tử (MSD), bao gồm : CSDL cấu trúc các đại phân tử (MSD), bao gồm
các công cụ tìm kiếm PDB.các công cụ tìm kiếm PDB.
MSDchem:MSDchem: Thư viện hóa học của các thành phần hóa Thư viện hóa học của các thành phần hóa
học tìm thấy trong PDB.học tìm thấy trong PDB.
MSDliteMSDlite: Cung cấp các công cụ dễ dàng truy cập vào : Cung cấp các công cụ dễ dàng truy cập vào
PDB.PDB.
MSDtargetMSDtarget: Máy chủ chung cấp các công cụ tìm kiếm : Máy chủ chung cấp các công cụ tìm kiếm
RESIDRESID: CSDL các protein cải biến là một tập hợp : CSDL các protein cải biến là một tập hợp
các cấu trúc và mô tả cho cấccỉ biến bao gồm đầu các cấu trúc và mô tả cho cấccỉ biến bao gồm đầu
amino, carboxyl tận cùng… amino, carboxyl tận cùng…
ReactomeReactome: CSLD chính xác về các quá trình sinh : CSLD chính xác về các quá trình sinh
học ở cơ thể người. Reactome sẽ không chỉ hữu ích học ở cơ thể người. Reactome sẽ không chỉ hữu ích
đối với các nhà sinh học nói chung như là một cuốn đối với các nhà sinh học nói chung như là một cuốn
sách về sinh học trực tuyến mà còn có ích đối với sách về sinh học trực tuyến mà còn có ích đối với
các nhà tin sinh học phát hiện ra các con đường các nhà tin sinh học phát hiện ra các con đường
sinh học mới.sinh học mới.
BioModelsBioModels: CSDL của các mô hình sinh học cho : CSDL của các mô hình sinh học cho
phép các nhà sinh học lưu giữ, tìm kiếm và công bố phép các nhà sinh học lưu giữ, tìm kiếm và công bố
các mô hình toán học trong lĩnh vực sinh học.các mô hình toán học trong lĩnh vực sinh học.
3.2.2. CSDL của NCBI
a/ CSDL tài liệu (Literature Database)
Bookshelf: Tìm kiếm những thông tin cơ bản hoặc các
chủ đề nghiên cứu mới, miễn phí, có một phần ở
PubMed.
PubMed: Bất kỳ ai đều có thể truy cập vào, chứa phần
tóm tắt của hơn 15.000.000 kết quả nghiên cứu trong
lĩnh vực sinh y học.
PubMed Central: Là một tạp chí khoa học sự sống, kết
hợp với hệ thống Enztrez, PMC cho phép truy cập tự do
và không hạn chế với hơn 160 tạp chí khoa học sự sống.
Online Mendelian Inheritance in Man (OMIM):
Với hơn 15.000 đăng mục, OMIM được duy trì bởi
tiến sỹ Victor A. McKusick và cộng sự (đại học
Johns Hopkins), đăng tải một hệ thống các bệnh di
truyền và liên tục được update.
Online Mendelian Inheritance in Animals
(OMIA): Là một CSDL của các gen, các rối loạn di
truyền và các tính trạng của các loài động vật.
Journals: Tìm kiếm các CSDL tạp chí cho phép kết
nối (link) các tạp chí với hệ thống Entrez kể cả
CSDL di truyền.
b/ CSDL Nucleotide (Nucleotide databases) GenBank: Tập hợp tất cả các trình tự nucleotide
và axit amin hiện có GenBank® là CSDL trình tự di truyền của NIH. Có
khoảng 51.674.486.881 base trong 46.947.388 bản trình tự trong các nhánh của GenBank và 53.346.605.784 base trong 10.276.161 bản ghi trình tự ở nhánh WGS vào 8/2005.
Chẳng hạn, chúng ta có thể xem bản ghi cho một gen của Saccharomyces cerevisiae thì GenBank đã cung cấp đầy đủ. Cứ sau 2 tháng, một phiên bản update được đưa ra.
GenBank là một phần của (International Nucleotide Sequence Database Collaboration) bao gồm ở DDBJ, EMBL và NCBI. Ba tổ chức này trao đổi dữ liệu với nhau hàng ngày.
Trong lần công bố gần đây nhất, INSDC cho biết
CSDL trình tự DNA đã vượt quá 100 Gb. GenBank
là một thành viên quan trọng đóng góp cho mức
này và tất nhiên đó là kết quả đóng góp của rất
nhiều các nhà khoa học trên toàn thế giới.
dbEST (data base of Expressed Sequence Tags):
Theo Nature Genetics 4:332-3; 1993 thì dbEST là
một tập hợp của các trình tự đeo thẻ hoặc các
trình tự ngắn, duy nhất lấy từ mRNA (cDNA).
dbEST cũng là một nhánh của GenBank.
dbGSS (data base of Genome Survey Sequences): cũng là một nhánh của GenBank nhưng khác với dbEST là hầu hết các trình tự đều có nguồn gốc từ genomic chứ không phải là cDNA (mRNA). Nhánh dbGSS chứa các dạng dữ liệu sau:• Single - pass genom sequence• Các trình tự tận cùng của cosmid/BAC/YAC• Các trình tự Alu PCR• Các trình tự transposon được đeo thẻ
(transposon –tagged).
dbSNP (data base of Single-base Nucleotide Polymorphism): là CSDL các đa hình do sự thay thế hoặc thêm, bớt một nucleotide.
RefSeq: CSDL của các trình tự tra cứu không có sự dư thừa (non-redundant reference sequence) bao gồm: các đoạn contig DNA genom, các mRNA, các protein của các gen đã biết.
dbSTS (data base of sequence tagged sites): CSDL của các vị trí trình tự được đeo thẻ hoặc các trình tự ngắn thường chỉ có mặt một lần duy nhất trong genom.
UniSTS: là một cơ sở dữ liệu toàn diện của các STS (các vị trí đánh dấu trình tự) được lấy từ các bản đồ STS và các thí nghiệm khác.
UniGene: Tập hợp của các trình tự EST và các trình tự mRNA có chiều dài đầy đủ được nhóm vào các cụm và mỗi cụm đại diện cho một gene duy nhất được biết hoặc gene người được mô tả cùng với bản đồ và những thông tin về quá trình biểu hiện gen.
dbHTG (data base of high-throughput genom sequence): tập hợp của các trình tự genom thu được từ các trung tâm xác định trình tự genom.
HomoloGene: Sử dụng để so sánh trình tự nucleotide giữa hai sinh vật để đánh giá mức độ ortholog giả định.
MGC: (Mamalian Gene Collection) cung cấp các dòng đầy đủ chiều dài các khung đọc mở (full-length open reading frame FL-ORF) cho người, chuột nhắt và chuột cống.
PopSet: PopSet là một hệ thống các trình tự DNA được thu thập để phân tích mối quan hệ tiến hóa của một quần thể.
RefSeq: Cung cấp hệ thống các trình tự: DNA, các
loại RNA và sản phẩm protein để nghiên cứu các sinh
vật.
TPA: Third Party Annotation (TPA) Sequence:
Được thiết kế để thu hút các kết quả thực nghiệm và
hỗ trợ cho những người đăng ký mô tả, giải thích về
trình tự mà người đăng ký không xác định được trực
tiếp nhưng có thể lấy từ dữ liệu sơ cấp của GenBank.
RHdb: là một cơ sở dữ liệu của các dữ liệu thô được
sử dụng trong việc thiết kế các bản đồ lai phóng xạ.
Nó bao gồm các dữ liệu STS, điểm số, các điều kiện
thí nghiệm và các tra cứu chéo.
c. CSDL Protein (Protein Databases) 3D
Domains: Bao gồm các trình tự và cấu trúc 3
chiều của các domain trong các phân tử protein.
Proteins: Tập hợp các CSDL trình tự protein
RefSeq: Cung cấp một CSDL không dư thừa (non-
redundant) bao gồm DNA, RNA và Protein.
PROW: CSDL về protein trên Web (Protein
Reviews on the Web PROW) ...
d/ Cơ sở dữ liệu cấu trúc (Structure Databases)
3D Domain
MMDB (Molecular Modeling Database) : CSDL mô
hình cấu trúc phân tử 3D, bao gồm các protein và
các polynucleotide. MMDB chứa hơn 28.000 cấu
trúc và được liên kết với phần còn lại của CSDL ở
NCBI, bao gồm các trình tự, các trích dẫn, phân
loại học, và các trình tự và cấu trúc lân cận.
Conserved Domains: Tập hợp các CSDL về các
vùng domain bảo thủ của các protein, họ protein.
e/ Cơ sở dữ liệu hệ thống học (Taxonomy
Databases)
Cơ sở dữ liệu hệ thống học (Taxonomy
database) chứa tên của các sinh vật có mặt trong
cơ sở dữ liệu di truyền với ít nhất một trình tự
nucleotide hoặc protein. NCBI cung cấp một hệ
thống hệ thống phân loại cùng với các đơn vị phân
loại (taxa).
f/ Cơ sở dữ liệu genom (genome database)
Các nhiễm sắc thể ung thư:
Cancer Chromosomes: 3 cơ sở dữ liệu NCI/NCBI
SKY?M-FISH và CGH.
COGs (Clusters of Orthologous Groups of proteins):
Nhóm của các nhóm Orthologous của protein được
dẫn xuất từ việc so sánh trình tự protein được mã hóa
thành các genom hoàn chỉnh, đại diện cho các dòng
giống chủ yếu của phân loại hệ thống học.
Cơ sử dữ liệu các gen: Gene: Các gen được lưu trữ
trong một hệ thống, để truy cập có thể sử dụng các
công cụ như Entrez Gene.
Cơ sở dữ liệu của các dự án giải trình tự:
Genome Project: Các trình tự hoàn tất, đang ở giai
đoạn lắp ráp hoặc đang tiến hành đều được lưu trữ
trong một hệ thống. Chúng ta có thể sử dụng công
cụ Entrez Genome Project để truy cập.
Genomes: Các nguồn genom đặc thù từng loại sinh
vật: Chứa toàn bộ genom của hơn 1000 sinh vật
gồm những genom hoàn chỉnh và đang tiến hành:
Aspergillus, Bacteria, Bee, Cat, Chickent, Cow, Dog,
các bào quan của eukaryote, Frog, Fruit fly, Human,
Mosquito, Mouse, Pig, plant genome, rat, Retrovirus,
Sheep, Viral Genomes, Yeast, Zebrafish...
g/ Cơ sở dữ liệu hệ thống học
Cơ sở dữ liệu hệ thống học (Taxonomy
database) chứa tên của các sinh vật có mặt trong
cơ sở dữ liệu di truyền với ít nhất một trình tự
nucleotide hoặc protein. NCBI cung cấp một hệ
thống hệ thống phân loại cùng với các đơn vị
phân loại (taxa).
h/ Cơ sử dữ liệu cấu trúc (Structure Databases)
MMDB (Molecular Modeling Database): CSDL mô
hình phân tử chứa các cấu trúc 3D của đại phân
tử, bao gồm các protein và các polynucleotide.
MMDB chứa hơn 28,000 cấu trúc và nó được kết
nối với phần còn lại của NCBI bao gồm các trình
tự, trích dẫn, hệ thống phân loại và các trình tự và
cấu trúc liên quan.
GEO Datasets: CSDL này lưu giữ các gen biểu hiện
(Gene Expression Omnibus GEO)
SAGE: Để hỗ trợ cho việc sử dụng công cộng và
công bố các dữ liệu gen biểu hiện (serial analysis
of gene expression SAGE), NCBI gần đây đã chỉnh
sửa lại website này.
SAGEmap là một nguồn dữ liệu SAGE cho yêu cầu
truy vấn, thu nhân và phân tích các dữ liệu SAGE từ
một loài sinh vật bất kỳ. Tất cả các dữ liệu có mặt
trong website này có thể được truy cập từ các kho
lưu trữ của GEO (Gene Expression Omnibus).
k/ Cơ sở dữ liệu hóa học (Chemical Databases)
Các phản ứng, test..
Danh sách các chất hóa học
Danh sách các hợp chất
3.3. Các công cụ tìm kiếm, phân tích các CSDL
3.3.1. Công cụ của EMBL/EBI
a/ Similarity & Homology: Công cụ phân tích mức độ
giống nhau và tương đồng giữa các trình tự.
Các công cụ như: Fasta, Blast, MPsrch và Scanps.
Dạng tìm kiếm và kết quả trả về qua email cũng
được phát triển.
Hai chương trình có thể được sử dụng để tìm kiếm,
so sánh mức độ giống nhau và mức độ tương đồng
suy diễn là BLAST or Fasta.
Công cụ tìm kiếm DNA và Protein chungCông cụ tìm kiếm DNA và Protein chung
Công cụ Ứng dụng, mô tả
Blast2-WU Protein Tìm kiếm CSDL protein (Blast 2.0 with gaps) của Washington University
Blast2-WU Nucleotide Tìm kiếm CSDL nucleotide (Blast 2.0 with gaps) Washington University
Blast2-NCBI Protein Chương trình tìm kiếm CSDL protein của NCBI.(blastall)
Blast2-NCBI Nucleotide
Chương trình tìm kiếm CSDL nucleotide của NCBI.(blastall)
Blast2-NCBI EVEC Chương trình nhằm phát hiện các trình tự lẫn với trình tự của các vector.
Fasta Nucleotide Sử dụng FASTA để tìm các trình tự giống với trình tự nucleotide trong CSDL
Fasta Protein Sử dụng FASTA để tìm các trình tự giống với trình tự protein trong CSDL
Fasta-Proteome server Tìm kiếm bằng Fasta trong máy chủ Proteome
Fasta-Genome server Tìm kiếm bằng Fasta trong máy chủ genome
Fasta-WGS server Tìm kiếm bằng Fasta trong máy chủ WGS (các genome thu được bằng phương pháp shotgun Whole genome shotgun - WGS)
Các công cụ tìm kiếm chuyên biệt cho Protein
Công cụ Ứng dụng, mô tả
Blitz Blitz là một dịch vụ tìm kiếm CSDL thông qua email.
Thực chất là việc trả kết quả tìm trình tự tương
đồng với trình tự cần quan tâm thông qua Email.
EBI đã phát triển hai phương pháp khác nhau gọi là
MPsrch và Scanps.
Các công cụ tìm kiếm chuyên biệt cho DNA
Công cụ Ứng dụng, mô tảBlast2-ASD Tìm kiếm trình tự giống nhau nhờ máy chủ Blast2-ASD
Blast2-Parasite Tìm kiếm trình tự giống nhau nhờ máy chủ Parasite Genomes blast
Fasta-ASD Sử dụng Fasta để tìm trình tự protein giống với CSDL ASD
Fasta-LGIC Protein server
Sử dụng Fasta để tìm trình tự protein giống với CSDL Ligand Gated Ion Channel.
Fasta-LGIC Nucleotide server
Sử dụng Fasta để tìm trình tự nucleotide giống với CSDL Ligand Gated Ion Channel.
Fasta-SNP server Fasta tìm kiếm trình tự tương đồng trong CSDL European SNP (HGBASE).
b/ Protein Functional Analysis: Phân tích chức
năng của protein
Một trong những nghiên cứu phân tích chức năng
của protein là phát hiện các vùng hoạt động đặc
trưng (motif) trong các trình tự protein. Phần này
cung cấp các công cụ sử dụng để xác định chức
năng của protein với nhiều phương pháp và CSDL
khác nhau. Dịch vụ quan trọng nhất trong phần này
là InterProscan cùng kết hợp với rất nhiều phương
pháp khác trong một giao diện rất dễ sử dụng.
Công cụ Ứng dụng, mô tảCluSTr Search Tìm kiếm các UniProtKB (UniProtKB/Swiss-Prot +
UniProtKB/TrEMBL) bằng số truy cập
FingerPRINTScan Tìm kiếm các PRINTS Protein fingerprint
GeneQuiz Phân tích trình tự tự động các trình tự sinh học
Inquisitor Inquisitor cung cấp một giao diện truy vấn đơn để xác định các trình tự protein giốn nhau trong các proteome. Các trình tự chưa biết được phân tích sử dụng FASTA và InterProScan.
InterProScan Tìm kiếm các trình tự protein trong các CSDL thành viên InterPro.
PPSearch Tìm kiếm các motif của protein
Pratt Phát hiện các mô hình trong các trình tự protein chưa được so sánh (alignment)
Radar Phát hiện các protein lặp lại.
c/ Proteomic ServicesBao gồm các phương thức truy cập vào các dịch vụ proteomic do EBI cung cấp. Trong đó quan trọng nhất là máy chủ UniProt DAS nó cho phép các nhà nghiên cứu trình bày kết quả nghiên cứu của mình dưới dạng mô tả của UniProtKB/Swiss-Prot.
Công cụ Ứng dụng, mô tả
Dasty Công cụ cho phép trình bày những thông tin về đặc điểm trình tự protein dưới dạng dễ quan sát.
UniProt DAS
Máy chủ UniProt DAS cho phép các nhà nghiên cứu trình bày kết quả nhiên cứu của mình, chẳng hạn xác định các peptide hoặc các trình tự tín hiệu trên máy chủ UniProt dưới dạng mô tả của UniProtKB/Swiss-Prot.
d/ Sequence Analysis: Phân tích trình tự
Sử dụng rất nhiều phương pháp tin sinh học
để xác định chức năng sinh học, cấu trúc của các
gen và protein mà chúng mã hóa.
Các công cụ như Transeq có thể giúp xác
định các vùng mã hóa protein của một trình tự
DNA. ClustalW được sử dụng để so sánh trình tự
DNA hoặc protein để làm sáng tỏ mối quan hệ cũng
như nguồn gốc tiến hóa của chúng.
Các công cụ phân tích do EBI cung cấp:
Công cụ Ứng dụng, mô tả
Align Công cụ so sánh cặp trình tự theo 2 kiểu toàn bộ và cục bộ.
ClustalW Cô cụ so sánh nhiều trình tự.
CpG Plot/CpGreport Công cụ tìm và vẽ CpG Island
Dna Block Aligner Form So sánh hai trình tự DNA dưới dạng khối mạch thẳng (colinear block), rất thích hợp cho các promoter.
GeneMark Dịch vụ dự đoán gen
Genetic Code Viewer Công cụ tổng kết các sự khác nhau về mã di truyền
GeneWise So sánh một trình tự protein hoặc một hồ sơ protein HMM với trình tự DNA.
Muscle Công cụ so sánh nhiều trình tự với độ chính xác và tốc độ cao hơn so với Clustal W hoặc T-Coffee phụ thuộc vào tùy chọn khác nhau.
Mutation Checker Đánh giá độ trính xác của trình tự, phát hiện đột biến.
Pepstats/Pepwindow/Pepinfo Chương trình phân tích trình tự protein
PromoterWise So sánh hai trình tự DNA cho phép đảo ngược và đổi vị trí, rất lý tưởng cho các promoter.
Reverse Translator Kiểm tra trình tự đảo ngược, bổ sung
SAPS Phân tích thống kê trình tự protein
T-Coffee Chương trình so sánh trình tự cho phép người sử dụng kết hợp các kết quả thu được với một số phương pháp so sánh khác nhau.
Transeq Công cụ dịch mã trình tự DNA
e/ Phân tích cấu trúc (Structural Analysis):
Việc xác định cấu trúc 2D/3D của một protein là
một công việc quan trọng nhất khi nghiên cứu chức
năng của nó. Người sử dụng sẽ tìm thấy rất nhiều
dịch vụ giúp cho việc phân tích cấu trúc do EBI
cung cấp. Một trong những công cụ đó là DALI. và
MSDfold. Công cụ của MSDfold hoặc DALI cho
phép xác định cấu trúc protein cần nghiên cứu và
so sánh nó với các cấu trúc trong PDB (Protein Data
Bank).
Công cụ Ứng dụng, mô tả
DALI So sánh cấu trúc protein ở dạng 3D
DaliLite Chương trình so sánh cấu trúc cặp (hai cấu trúc). So sánh cấu trúc cần quan tâm (cấu trúc thứ nhất) với một cấu trúc tham chiếu (cấu trúc thứ hai)
MSD Services Bảng tóm tắt và danh sách của tất cả các công cụ và dịch vụ của Macromolecular Structure Database (MSD)
MSDfold So sánh các chuỗi/cấu trúc và tìm kiếm các chuỗi/cấu trúc tương đồng trong CSDL PDB hoặc trong các domain SCOP.
MSDpro Một chương trình ứng dụng cho phép xây dựng các truy vấn quan hệ phức tạp của MSD mà không cần biết sự sắp xếp của dữ liệu trong CSDL hoặc ngân như mà truy vấn đó sử dụng.
MSDsite Công cụ cho phép tìm các vị trí hoạt động dựa vào chất gắn (chẳng hạn ATP) hoặc thông tin vị trí hoạt động (CYS CYS CYS CYS).
NMR Representatives
Tìm kiếm các cấu trúc thu được từ NMR trong PDB
PQS Xác định cấu trúc bậc 4
PQS-Quick Công cụ cho phép xác định được thông tin cấu trúc bậc 4 từ mã ID của PDB một cách nhanh chóng.
f/ Các công cụ khácf/ Các công cụ khácCông cụ Ứng dụng, mô tả
BioLayout Trình bày, hình ảnh hóa các biểu đồ và mạng lưới sinh học, chẳng hạn như độ giống nhau giữa các trình tự protein và các mạng lưới tương tác protein.
CAST Lọc để phát hiện các thành phần trình tự protein bias của Computational Genomics Group.
EBIMed NEW Là một ứng dụng Web kết hợp thu nhận và truy xuất thông tin từ Medline.
EMBL Computational Services
Tập hợp các công cụ do EMBL cung cấp ở Heidelberg Đức để phân tích trình tự DNA/protein.
Expression Profiler Một bộ các công cụ cho phép phân tích, nhóm và hiển thị sự biểu hiện gen và các dữ liệu genom.
NEWT CSDL taxon, kết hợp các dữ liệu taxon ở NCBI với CSDL của UniProtKB/Swiss-Prot
Protein Colourer Một công cụ cho phép tô màu các trình tự axit amin.
Protein Corral NEW Một ứng dụng Web kết hợp thu nhận và truy xuất thông tin từ Medline.
Readseq Công cụ chuyển các trình tự sang các dạng format khác nhau.
Webservices Cung cấp các chương trình truy cập vào các CSDL sinh học khác nhau.
Whatizit Có thể nói cho người sử dụng biết ý nghĩa của các từ tìm thấy trong văn bản phục thuộc vào dạng thông tin mà người dùng muốn xem ở dạng được hightlight.
3.3.2. Công cụ của NCBI
a/ Các công cụ phân tích trình tự
Cluster of Orthologous Groups (COGs): Một hệ
thống của các họ gen từ các genom hoàn chỉnh.
Gene Expression Omnibus (GEO): Kho dữ liệu
gen biểu hiện và các nguồn trực tuyến cho việc thu
nhận các dữ liệu gen biểu hiện.
HomoloGene: So sánh các trình tự nucleotide giữa
các cặp sinh vật để xác định các gen ở các loài
khác nhau được tiến hóa từ một gen tổ tiên chung
do quá trình phân loài và chúng thường vẫn giữ
được nguyên chức năng trong quá trình tiến hóa.
CSDL các vùng bảo thủ (
Conserved Domain Database CDD): Tập hợp các bản
so sánh trình tự (sequence alignment) và các profile
của các vùng bảo thủ của các phân tử protein trong
quá trình tiến hóa phân tử.
Tập hợp các gen động vật có vú (
Mammalian Gene Collection MGC): Một nỗ lực mới của
NIH để thu được các nguồn cDNA với chiều dài đầy đủ.
Clone Registry: Một CSDL được sử dụng bởi sự tham
gia của các trung tâm trình tự genom người và chuột
để lưu giữ những dòng được lựa chọn từ việc đọc trình
tự, các dòng đang được đọc trình tự và các dòng đã
hoàn tất và được lưu giữ ở GenBank
Trace Archive: Được phát triển để lưu giữ các dữ liệu trình tự thô được tạo ra từ các dự án xác định trình tự.
Tìm khung đọc mở (ORF Finder): Một công cụ phân tích hiện thị dưới dạng đồ hoạ cho phép tìm các khung đọc mở của một đoạn trình tự hoặc một trình tự có trong CSDL.
VecScreen: Một công cụ cho phép xác định các đoạn trình tự nucleotide mà có thể là của vector, các vùng linker hoặc các điểm khởi đầu sao chép (origin) trước khi sử dụng các công cụ phân tích trình tự hoặc đăng ký trình tự.
Electronic-PCR (e-PCR): Có thể được sử dụng để so sánh một trình tự truy vấn (query sequence) với các vị trí trong trình tự đánh dấu (sequence-tagged sites) để tìm ra một vị trí bản đồ có thể cho trình tự truy vấn.
b/ Tìm kiếm trình tự giống nhau (Sequence Similarity Searching)
BLAST Homepage: Cho phép truy cập vào chương trình và công cụ BLAST (Basic Local Alignment Search Tool), các trợ giúp…
BLink: Trình bày các kết quả tìm kiếm của BLAST đối với mỗi trình tự protein trong CSDL protein Entrez.
Network-Client BLAST: cho phép tiếp cận các công cụ tìm kiếm BLAST của NCBI. Blastcl3 có thể tìm tất cả các trình tự trong file FASTA và tạo ra một hay nhiều các bản so sánh trình tự dưới dạng text hoặc HTML.
Stand-alone BLAST: Chương trình có thể sử dụng sau khi download và cài đặt vào trong máy tính cá nhân.
c/ Hệ thống đơn vị phân loại (Taxonomy)
Taxonomy Browser: Công cụ cho phép tìm kiếm
các CSDL taxonomy của NCBI
Taxonomy BLAST: Các nhóm công cụ BLAST sắp
xếp các nguồn sinh vật theo CSDL Taxonomy của
NCBI.
TaxTable: Bảng tóm tắt các dữ liệu taxon của
BLAST và các mối quan hệ của sinh vật với nhau
thông qua dạng đồ hoạ màu.
ProtTable: Cung cấp một bảng tóm tắt các vùng
mã hóa protein trong một gene
TaxPlot: Cung cấp các dạng quan sát genom giống
nhau (three-way view of genome similarities).
d/ Đăng ký trình tự (Sequence Submission) Sequin: Một công cụ đăng ký trình tự bao gồm cả
ORF finder, một công cụ để sửa chữa và xem trình tự. BankIt: Đăng ký một hay nhiều trình tự một lúc thông
qua WWW. e/ Tìm kiếm các thuật ngữ (Text Term Searching) Entrez: Truy cập vào các dữ liệu trình tự protein và
DNA từ hơn 100000 sinh vật cùng với các cấu trúc protein 3D, các thông tin và bản đồ gen và PubMed MEDLINE.
LinkOut: Một dịch vụ đăng ký để tạo ra các đường kết nối từ các bài báo, tạp chí hoặc các dữ liệu sinh học trong Entrez với các nguồn trang Web bên ngoài.
Citation Matcher: Cho phép tìm các ID của PubMed hoặc các UID của MEDLINE của bất kỳ bài báo nào trong CSDL PubMed.
f/ Các công cụ cho thể hiện cấu trúc 3D và các kết quả tìm kiếm trình tự giống nhau (Tools for 3d structure display and similarity searching)
CD-Search: Dịch vụ tìm kiếm các vùng bảo thủ (Conserved Domain Search Service (CD-Search) có thể được sử dụng để xác định các vùng bảo thủ có mặt trong các trình tự protein.
Cn3D: Công cụ cho phép hiển thị các trình tự và cấu trúc 3D cho các CSDL NCBI.
Domain Architecture Retrieval Tool: Displays the functional domains that make up a protein and lists proteins with similar domain architectures.
VAST Search: Dịch vụ tìm kiếm cấu trúc tương đồng, so sánh cấu trúc protein của mọt cấu trúc protein mới xác định với các CSDL MMDB/PDB.
g/ CSDL bản đồ (MAPS)
Truy cập tới các dạng bản đồ vật lý và di truyền khác
nhau.
Công cụ quan sát bản đồ (Map Viewer): Cung cấp
công cụ quan sát bản đồ nhiễm sắc thể của hơn 17
loài sinh vật. Map Viewer trình bày một hoặc nhiều
bản đồ đã được so sánh với nhau dựa trên các chỉ thị
và các gen, đối với bản đồ trình tự dựa vào mức độ
giống nhau giữa các trình tự. Hiện nay, có các bản đồ
của Arabidopsis, Ruồi giấm (fruit fly), người (human),
bản đồ tương đồng của người và chuột, sốt rét, muỗi,
chuột, giun tròn (nemato), chuột (rat), Zebrafish…
3.4. ExpaSy
3.4.1. Cơ sở dữ liệu ExpaSy Swiss-Prot and TrEMBL – CSDL protein đã biết PROSITE – Các họ protein và các domain. SWISS-2DPAGE – CSDL protein (điện di 2 chiều trên gel
polyacrylamide) ENZYME - Định tên các enzym (Enzyme nomenclature) SWISS-MODEL Repository – Các mô hình protein được
tạo ra tự động (Automatically generated protein models)
GermOnLine – CSDL về sự biệt hóa tế bào mầm. Ashbya Genome Database Và các đường dẫn đến các CSDL khác.
SWISS-PROT Swiss-Prot là một cơ sở dữ liệu protein được
khởi đầu vào năm 1986 do sự hợp tác của Department of Medical Biochemistry ở Trường đại học Geneva và EMBL. Sau năm 1994, tổ chức này chuyển tới một trạm của EMBL ở Anh gọi là EBI. Vào tháng 4 năm 1998, nó được chuyển tới Swiss Institute of Bioinformatics (SIB), do đó cơ sở dữ liệu này bây giờ được duy trì bởi SIB và EBI/EMBL. Cơ sở dữ liệu này cố gắng để cung cấp những thông tin ở mức độ cao bao gồm: các mô tả về chức năng của các protein và cấu trúc của các domain của nó, sự cải biến sau phiên mã, các dạng biến đổi và những thông tin khác. SWISS-PROT mục đích là để giảm thiểu sự dư thừa, và nó liên kết với nhiều nguồn khác. Vào năm 1996, một chương trình hỗ trợ máy tính cho SWISS-PROT được tạo ra gọi là TrEMBL (sẽ được mô tả chi tiết dưới đây). Trước hết chúng ta hãy tìm hiểu kỹ hơn về cấu trúc của SWISS-PROT.
Cấu trúc của SWISS-PROT
Cấu trúc của cơ sở dữ liệu, và số lượng các
mô tả của nó, các bộ SWISS-PROT tách khỏi các
nguồn trình tự protein khác và nó đã trở thành một
trong những cơ sở dữ liệu được lựa chọn cho hầu
hết các mục đích nghiên cứu. Vào giữa những năm
1998, cơ sở dữ liệu chứa 70000 mục đăng nhập từ
hơn 5000 loài khác nhau tập trung chủ yếu là Homo
sapiens, Saccharomyces cerevisiae, Escherichia
coli, Mus musculus và Rattus norvegicus.
3.4.2. Các công cụ phân tích
3.4.2.1. Nhận dạng và xác định các đặc điểm của protein
a/ Nhận dạng và xác định các protein thông qua các dữ liệu peptide thu được từ khối phổ.
Aldente - Nhận dạng các protein với các dữ liệu khối phổ peptide. Đây là một tiến bộ mới trong vịêc nhận dạng protein.
FindMod - Dự đoán những khả năng cải biến sau dịch mã và khả năng thay thế các amino acid trong chuỗi peptide. Các thực nghiệm đo khối lượng peptide với các peptide tính toán lý thuyết từ CSDL Swiss-Prot hoặc từ các trình tự do người sử dụng đăng ký. So sánh sự khác biệt về khối lượng của các peptide cũng là một trong những biện pháp hiệu quả trong việc nhận dạng protein.
FindPept - Nhận dạng các peptide do kết quả từ các
thí nghiệm khối phổ từ đó giải thích cho những cải
biến hóa học, cải biến sau dịch mã và hoạt động tự
thủy phân.
GlycoMod - Dự đoán các cấu trúc oligosacharide xảy
ra trên phân tử protein từ các thí nghiệm khác định
khối lượng.
PepMAPPER – Công cụ nhận dạng khối lượng peptide
từ UMIST, UK
ProFound – Tìm kiếm các trình tự protein đã biết với
thông tin về khối lượng peptide từ trường đại học
Rockefeller and NY.
b/ Nhận dạng và xác định các đặc điểm của protein
nhờ dữ liệu MS/MS.
Popitam - Công cụ nhận dạng và xác định protein
cho các peptide với những cải biến không đoán
trước được, chẳng hạn đột biết hoặc những cải biến
sau dịch mã nhờ vào khối phổ xen kẽ (tandem mass
spectrometry)
Phenyx - Nhận dạng, xác định đặc điểm của protein
và peptide từ dữ liệu MS/MS từ GeneBio, Switzerland
OMSSA - Nhận dạng các phổ peptide MS/MS bằng
cách so sánh các thư viện của các protein đã biết.
PepFrag – Tìm kiếm các trình tự protein đã biết với
thông tin về khối phổ mảnh peptide từ Rockefeller
và NY Universities hoặc từ Genomic Solutions
ProteinProspector - UCSF tools for fragment-ion
masses data (MS-Tag, MS-Seq, MS-Product, etc.)
SearchXLinks – Phân tích khối phổ của các protein
đã bị cải biến, liên kết ngang, phân giải mà có các
trìh tự axit amin đã biết từ Caesar, Đức.
c/ c/ Nhận dạng protein dựa vào thành phần axit amin, dạng protein dựa vào thành phần axit amin, pI, khối lượng phân tử… pI, khối lượng phân tử…
AACompIdent - Xác định một protein nhờ vào thành AACompIdent - Xác định một protein nhờ vào thành phần axit amin của nó.phần axit amin của nó.
AACompSim - So sánh thành phần axit amin của AACompSim - So sánh thành phần axit amin của một đăng nhập trong UniProtKB/Swiss-Prot với các một đăng nhập trong UniProtKB/Swiss-Prot với các đăng nhập khác (other entries)đăng nhập khác (other entries)
TagIdent - Nhận dạng các protein nhờ vào pI, Mw TagIdent - Nhận dạng các protein nhờ vào pI, Mw và các trình tự đeo thẻ (sequence tag) hoặc đưa ra và các trình tự đeo thẻ (sequence tag) hoặc đưa ra một danh sách các protein có pI và Mw gần với một danh sách các protein có pI và Mw gần với protein truy vấn nhất.protein truy vấn nhất.
MultiIdent - Nhận dạng các protein dựa vào thành MultiIdent - Nhận dạng các protein dựa vào thành phần axit amin, pI, Mw, trình tự đeo thẻ và dữ liệu phần axit amin, pI, Mw, trình tự đeo thẻ và dữ liệu khối phổ peptide.khối phổ peptide.
d/ Các công cụ dự đoán khác (other prediction tools)
GlycanMass - Tính toán khối lượng của một cấu GlycanMass - Tính toán khối lượng của một cấu
trúc oligosacharide.trúc oligosacharide.
PeptideCutter - Dự đoán các vị trí phân cắt và PeptideCutter - Dự đoán các vị trí phân cắt và
thủy phân bởi các hóa chất đối với một trình tự thủy phân bởi các hóa chất đối với một trình tự
nhất định. PeptideMass - Tính toán khối lượng nhất định. PeptideMass - Tính toán khối lượng
peptide và các cải biến sau dịch mã đối với một peptide và các cải biến sau dịch mã đối với một
đăng nhập của UniProtKB/Swiss-Prot hoặc đăng nhập của UniProtKB/Swiss-Prot hoặc
UniProtKB/TrEMBL hoặc một trình tự bất kỳ do UniProtKB/TrEMBL hoặc một trình tự bất kỳ do
người sử dụng đưa vào.người sử dụng đưa vào.
IsotopIdent - Dự đoán sự phân bố đồng vị về mặt IsotopIdent - Dự đoán sự phân bố đồng vị về mặt
lý thuyết của một chuối peptide, protein, lý thuyết của một chuối peptide, protein,
polynucleotide hoặc các chất hóa học.polynucleotide hoặc các chất hóa học.
3.4.2.2. Các công cụ chuyển DNA -> Protein
Translate - Dịch mã một trình tự nucleotide thành một trình tự protein.
Transeq - Dịch mã từ trình tự nucleotide thành protein từ phần mềm EMBOSS.
Graphical Codon Usage Analyser – Hiển thị “codon bias” dưới dạng đồ họa.
“Codon bias” là một thuật ngữ chỉ hiện tượng tần suất một bộ ba được sử dụng để mã hóa cho một axit amin nào đó ở một sinh vật nhất định cao hơn so với các bộ ba khác cùng mã hóa.Mỗi loài sinh vật có dạng “codon bias” khác nhau.
BCM search launcher - Dịch mã ra 6 khung từ một
trình tự nucleotide.
Backtranslation - Dịch mã một trình tự protein
ngược trở lại thành trình tự nucleoide.
Reverse Translate - Dịch mã một trình tự protein
thành trình tự nucleotide.
Genewise – So sánh trình tự của một protein với
trình tự DNA genomic để nghiên cứu intron, các
đột biến lệch khung.
FSED – Phát hiện đột biến lệch khung đọc.
List of gene identification software sites
3.4.2.3. Tìm kiếm các trình tự giống nhauBLAST và WU-BLAST - kết hợp với rất nhiều các phiên
bản BLAST (Basic Local Alignment Search Tool) BLAST Mạng lưới dịch vụ của ExPASy BLAST ở EMBnet-CH/SIB (Switzerland) BLAST ở NCBI WU-BLAST của EMBL (Heidelberg) WU-BLAST và BLAST ở EBI (Hinxton) BLAST ở PBIL (Lyon) Fasta3 – Phiên bản FASTA 3 ở EBI MPsrch – So sánh trình tự của Smith/Waterman ở
EBI PropSearch – Tìm kiếm cấu trúc tương đồng Scanps – Tìm kiếm trình tự giống nhau bằng thuật
toán của Barton
top related