contig ordering

5
Contig Ordering with ACT 1 การเรียงช้ินดีเอนเอทีเ่ ป็ นส่วนของยีโนม (คอนทีก) Contig Ordering สมชาย แสงอำานาจเดช 21 เมษายน 2553 โปรแกรม ACT มีประโยชน์ในการจัดลำาดับชิ้นดีเอนเอและในการประกอบยีโนมท่ีสมบูรณ์ โดยใช้ในการตรวจหาบริเวณจำาเพาะเช่น บริเวณท่ีแสดงลำาดับก่อนหลังของยีนในยีโนมท่ีอนุรักษ์ หรือมีการแตกกระจายออกของยีน หรือหาบริเวณท่ีเบสซ้ำๆ หรือตรวจหาบริเวณท่ียังมีปัญหาอยูเพ่ือแก้ไขให้ถูกต้อง ไฟล์ท่ีต้องใช้ในแบบฝึกหัด 1. ลำาดับดีเอนเอของคอนทีกหรือโครโมโซมหรือยีโนมอ้างอิง (reference contig/chromosome/genome) 2. ลำาดับดีเอนเอของชุดของคอนทีกท่ีนำามาเปรียบเทียบ (comparator of contigs) 3. ไฟล์เปรียบเทียบ (comparison file) ซึ่งมีรายละเอียดของระดับความคล้ายคลึงกันของ ยีโนมท่ีใกล้เคียงกัน สำาหรับฟอร์แม็ทของไฟล์เปรียบเทียบท่ีใช้กับ ACT ได้แสดงใน หมายเหตุท่ีอยู่ในตอนท้ายของเอกสารน้ี การสร้างไฟล์ดังกล่าวสามารถทำาได้หลายวิธี เช่น 1. command line BLAST 2. WebACT 3. ABACAS ย่อจาก Algorithm Based Automatic Contguation of Assembled Shotgun sequences แบบฝึ กหัดที่ 1 การเรียงคอนทีกของเช้ือ chlamydia โดยใช้โปรแกรม ACT ในแบบฝึกหัดน้ีใช้ตรวจดูการจัดเรียงคอนทีกของเช ้ือ Chlamydia trachomatis สายพันธุL2 โดยการศึกษาเปรียบเทียบกับยีโนมของ C. trachomatis สายพันธุWU ท่ีตีพิมพ์เผยแพร่ยีโนมแล้ว ไฟล์ท่ีใช้ในแบบฝึกหัดน้ีมีดังน้ี 1. CT_WU.embl เป็นไฟล์ลำาดับเบสท่ีอยู่ในฟอร์แม็ท EMBL 2. CT_WU_vs_CT_L2_blastn.crunch เป็นไฟล์เปรียบเทียบจากค้น blastn 3. CT_L2.con เป็นไฟล์ consensus file ในการประกอบยีโนมด้วยโปรแกรม Gap4 (อยู่ใน ฟอร์แม็ท fasta) 1. เปิดโปรแกรม ACT 2. เม่ือหน้าต่างปรากฏให้เลือกไฟล์โดยคลิกท่ี Choose...เพ่ือใส่ไฟล์ลงในช่อง sequence file 1, comparison file, และ sequence file 2 ท้ังน้ีใช้ไฟล์ในลำาดับท่ีกล่าวก่อนหน้าน้ี จะได้ดังภาพท่ี 1 3. ให้เล่ือนแถบเล่ือนด้านข้างหน้าต่างของลำาดับบนสุดเพ ่ือซูมให้เห็นท้ังยีโนม จะเห็นว่า หน้าต่างล่างถูกซูมตามท้ังน้ีเพราะว่าโปรแกรมได้ต้ังให้เปล่ียนแปลงตามกัน (สังเกตคำาว่า

Upload: somchais

Post on 19-Jun-2015

228 views

Category:

Documents


7 download

DESCRIPTION

In these exercises, ACT and ABACAS are used to order the contigs.

TRANSCRIPT

Contig Ordering with ACT 1

การเรียงช้นิดีเอนเอทีเ่ป็นส่วนของยีโนม (คอนทีก)Contig Ordering

สมชาย แสงอำานาจเดช21 เมษายน 2553

โปรแกรม ACT มีประโยชน์ในการจัดลำาดับชิ้นดเีอนเอและในการประกอบยีโนมท่ีสมบูรณ์ โดยใช้ในการตรวจหาบริเวณจำาเพาะเชน่ บริเวณท่ีแสดงลำาดับก่อนหลงัของยีนในยีโนมท่ีอนุรักษ ์

หรอืมีการแตกกระจายออกของยีน หรอืหาบริเวณท่ีเบสซ้ำๆ หรอืตรวจหาบรเิวณท่ยีังมีปัญหาอยู่เพื่อแก้ไขให้ถูกต้อง

ไฟล์ท่ีต้องใช้ในแบบฝึกหัด1. ลำาดับดเีอนเอของคอนทีกหรือโครโมโซมหรือยีโนมอ้างอิง (reference

contig/chromosome/genome)2. ลำาดับดเีอนเอของชุดของคอนทีกท่ีนำามาเปรียบเทยีบ (comparator of contigs)3. ไฟล์เปรียบเทยีบ (comparison file) ซ่ึงมีรายละเอียดของระดับความคล้ายคลึงกันของ

ยโีนมท่ีใกลเ้คยีงกัน สำาหรับฟอร์แม็ทของไฟล์เปรียบเทยีบท่ีใช้กับ ACT ได้แสดงในหมายเหตุท่อียู่ในตอนท้ายของเอกสารน้ี

การสรา้งไฟล์ดงักล่าวสามารถทำาได้หลายวิธี เช่น1. command line BLAST2. WebACT3. ABACAS ย่อจาก Algorithm Based Automatic Contguation of Assembled Shotgun

sequences

แบบฝึกหัดที่ 1 การเรียงคอนทีกของเชื้อ chlamydia โดยใช้โปรแกรม ACT

ในแบบฝึกหัดน้ีใช้ตรวจดูการจัดเรยีงคอนทีกของเช้อื Chlamydia trachomatis สายพันธุ์ L2 โดยการศึกษาเปรียบเทยีบกับยีโนมของ C. trachomatis สายพันธุ์ WU ที่ตีพิมพ์เผยแพรย่ีโนมแล้ว

ไฟล์ท่ีใช้ในแบบฝึกหัดน้ีมีดังน้ี1. CT_WU.embl เป็นไฟล์ลำาดับเบสที่อยู่ในฟอร์แม็ท EMBL2. CT_WU_vs_CT_L2_blastn.crunch เป็นไฟลเ์ปรยีบเทยีบจากคน้ blastn3. CT_L2.con เป็นไฟล์ consensus file ในการประกอบยีโนมด้วยโปรแกรม Gap4 (อยู่ใน

ฟอรแ์ม็ท fasta)

1. เปิดโปรแกรม ACT2. เมื่อหน้าต่างปรากฏให้เลือกไฟล์โดยคลิกท่ี Choose... เพ่ือใส่ไฟล์ลงในช่อง sequence file 1,

comparison file, และ sequence file 2 ท้งันี้ใช้ไฟล์ในลำาดับท่กีล่าวก่อนหน้าน้ี จะได้ดังภาพท่ี 13. ให้เล่ือนแถบเล่ือนด้านข้างหน้าต่างของลำาดับบนสุดเพ่ือซูมใหเ้ห็นท้ังยีโนม จะเห็นว่า

หน้าต่างล่างถูกซูมตามท้งัน้ีเพราะว่าโปรแกรมได้ตั้งให้เปล่ยีนแปลงตามกัน (สงัเกตคำาว่า

Contig Ordering with ACT 2

LOCKED) ภาพท่ี 1 โปรแกรม ACT หลงัจากอ่านไฟล์ดงักล่าวแล้ว

4. ให้เล่ือนแถบด้านข้างในหน้าต่างท่ีสองเพ่ือลดเส้นท่ีแสดงความคล้ายคลงึกันน้อยๆออกไป ตอนน้ีน่าจะได้ผลคล้ายๆในภาพท่ี 2

5. ไปท่รีายการ Select เลือก CT_WU.embl แล้วใช้ feature selector ในการหายีน rRNA ใน C. trachomatis WU ให้หาจำานวนของยีน rRNA และมีจำานวนเท่าไรท่ีถูกจัดเรยีง

6. การหาตำาแหน่งของยีน rRNA ในสายพันธุ์ L2 ทำาโดยหายีน rRNA ของสายพันธุ์ L2 ท่ีตรง กันกับสายพันธุ์ WU วิธีการคือให้เลือกยีน rRNA ของสายพันธุ์ WU มาหนึง่ยีนโดยคลิก

เลอืกท่ยีีนน้ัน จากน้ันคลิกขวาบนหน้าต่างกลางจะปรากฏรายการให้เลือก ให้เลือก view selected matches จะได้ผลแสดงในภาพท่ี 3 ซ่ึงปรากฏหน้าต่างเมื่อดับเบิ้ลคลิกบนรายการใน

หน้าต่างน้ีจะทำาให้มีการ align ในยีโนมในหน้าต่างล่าง (บางคร้ังอาจต้องกลับทิศทางของยี โนมในหน้าต่างล่าง โดยคลิกขวาท่ยีีโนมแล้วเลือก flip display)

7. ให้ซูมออกอีกคร้งัเพ่ือดูท้งัยีโนม เมื่อเปรยีบเทียบกับสายพันธุ์ WU แล้วลองทำานายคอนทีกท่ี ควรเป็นของสายพันธุ์ L2

Contig Ordering with ACT 3

ภาพท่ี 2 การซูมภาพออกเพ่ือใหเ้ห็นท้ังยีโนม

ภาพท่ี 3 แสดงผลหลังจากเลือก view selected matches

Contig Ordering with ACT 4

แบบฝึกหัดที่ 2 การเรียงคอนทีกของเชื้อ plasmodium โดยใช้โปรแกรม ACT

แบบฝึกหัดน้ีจะใช้ไฟล์ chab09.fas, chab09.fasta-txMAL11.fasta.crunch, และ MAL11.embl

1. เปิดโปรแกรม ACT2. อ่านไฟล์ sequence file 1, comparison file, และ sequence file 2 โดยใช้ไฟล์ดังกล่าวตามลำาดับ3. เลื่อนแถบเล่ือนด้านข้างหน้าต่างเพ่ือซูมใหเ้ห็นท้ังยีโนม เชน่เดียวกับในแบบฝึกหัดท่ีแล้ว4. เลื่อนแถบเล่ือนท่หีน้าต่างสำาหรับเปรยีบเทยีบ (หน้าต่างตรงกลาง) เพื่อให้ไม่แสดงผลความ

คลา้ยคลึงในช่วงส้ันๆ5. วิธีการจัดเรียงคอนทีกใหม่

1. ไปท่ี Edit แล้วเลือก Contig reordering2. จะปรากฏหน้าต่าง Contig Tool ขึ้นมาดังภาพท่ี 43. คลกิเลือก Contig ที่ต้องการแล้วลากไปยังตำาแหนง่ใหม่4. ถ้าต้องการกลับทิศและสร้างลำาดับคอมพลเีม็นท์ ให้ไปท่ี Edit แล้วไปท่ี Bases จากน้ัน

เลอืก Reverse And Complement Selected Contig

ภาพท่ี 4 แสดงหน้าต่าง Contig Tool

แบบฝึกหัดที่ 3 การเรียงคอนทีกของเชื้อ plasmodium โดยใช้โปรแกรม ABACAS

ในแบบฝึกหักน้ีจะใช้โปรแกรม ABACAS เพ่ือจัดเรยีงลำาดับคอนทีกของ Plasmodium yoelii 17x1.1 โดยเทียบกับโครโมโซมอ้างอิงของ P. chabaudi

โปรแกรม ABACAS (Algorithm Based Automatic Contigution of Assembled Shotgun sequences) พฒันาโดยกลุ่มศึกษาจีโนมิกส์ของเช้ือโรค ใช้ MUMmer ในการหาตำาแหนง่จัดเรยีงและ

หา syntenies ในสายคอนทีกโดยการเปรียบเทยีบกับโครโมโซมอ้างอิง โปรแกรมยังสร้างไฟล์ เปรียบเทยีบท่นีำาไปอ่านในโปรแกรม ACT เพ่ือดทูิศทางและลำาดับของคอนทีก ( ส่วนท่ีเป็น synteny

จะแสดงด้วยแถบสแีดง โดยความเข้มของสีจะลดลงตามค่าระดับเปอร์เซ็นต์ท่เีหมือนกันท่ลีดลง ระหว่างช่วงท่เีปรียบเทยีบ ขอ้มูลต่างๆของคอนทีก ( ทิศทาง เปอร์เซ็นต์ความเหมือนกัน ความ

ครอบคลุม ส่วนท่ีซ้อนคาบกันกับคอนทีกอื่นๆ สามารถดูด้วยโปรแกรม ACT) คำาส่ังของ abacas เป็นดังน้ี

abacas.pl -r<reference file:single fasta>-q<query sequence file:fasta>-p<nucmer/promer>

ในแบบฝึกหัดน้ี ไฟล์อ้างอิง คือ chab02.fasta และไฟลท่์ีนำามาเปรยีบเทียบ (query sequence file) คือ Pyoelii.contigs.fasta

Contig Ordering with ACT 5

1. เปิด Terminal2. เขา้ไปในโมดูล 4 ใน Exercise 23. พิมพค์ำาส่ัง

abacas.pl -r chab02.fasta -q Pyoelii.contigs.fasta -p promer -d สำาหรับ -d เป็นตัวเลือกท่ีเป็นค้าท่ีตั้งไว้ใน MUMmer การใชค้่าน้ีทำาให้การจัดลำาดับมี

ความเร็ว4. นำาผลการจัดเรยีงคอนทีกไปเปิดในโปรแกรม ACT แล้วปรับเล่ือนแถบเล่ือนข้างหน้าต่าง

เพื่อใหเ้ห็นท้ังยีโนม อาจนำาส่วนของ stop codon ออกเพ่ือให้เหน็คอนทีกชัดเจน5. มีคอนทีกของ P. yoelii จำานวนมากเท่าไรท่ีจัดเรยีงเทยีบกับโครโมโซม 2 ของ P. chabaudi

หมายเหตุ รหสัสขีองคอนทีกเป็นดังน้ีสฟ้ีาเข้ม คอนทกีท่ีมีทิศทางไปข้างหน้า (forward orientation)สเีขียว คอนทกีท่ีมีทิศทางไปข้างไปข้างหลงั (reverse orientation)สฟ้ีาน้ำทะเล คอนทกีท่ีซ้อนคาบกับคอนทีกถัดไป

หมายเหตุ

ฟอร์แม็ทของไฟล์เปรียบเทียบ (comparison files) ฟอร์แม็ทของ comparison files ที่สามารถใช้กับโปรแกรม ACT ได้มี 3 ฟอร์แม็ทดังน้ี

1. ไฟล์ผลที่ได้จากการค้น BLAST version 2.2.2 การค้นต้องใช้คำาส่งั blastall และ -m 8 flag เพื่อให้ข้อมูลแสดง HSP แต่ละบรรทัด

2. ไฟล์ผลที่ได้จากการค้น MegaBLAST3. ไฟล์ผลที่ได้จากการค้นด้วยโปรแกรม MSPcrunch เป็นโปรแกรมสำาหรับระบบยูนีคซ์

และ GNU/Linux โปรแกรมน้ีสามารถแปลงผลจาก BLAST เวอร์ช่ัน 1 ให้อยู่ในฟ อรแ์ม็ทท่ีอ่านได้ง่ายกว่า ท้งัน้ีต้องใช้ -d flag

ตัวอย่างฟอร์แม็ทของๆไฟลเ์ปรยีบเทยีบท่ีได้จาก MSPcrunch -d เป็นดงันี้

1399 97.00 940 2539 sequence1.dna 1 1596 AF140550.seq1033 93.00 9041 10501 sequence1.dna 9420 10880 AF140550.seq

แต่ละคอลัมน์คือค่าต่อไปน้ีเรยีงต่อๆกันไปตามลำาดับโดยแต่ละค่าในคอลัมน์ห่างกัน 1 ช่องไฟ score, percent identity, match start in the query sequence, match end in the query sequence,

query sequence name, subject sequence start, subject sequence end, subject sequence name