contig ordering
DESCRIPTION
In these exercises, ACT and ABACAS are used to order the contigs.TRANSCRIPT
Contig Ordering with ACT 1
การเรียงช้นิดีเอนเอทีเ่ป็นส่วนของยีโนม (คอนทีก)Contig Ordering
สมชาย แสงอำานาจเดช21 เมษายน 2553
โปรแกรม ACT มีประโยชน์ในการจัดลำาดับชิ้นดเีอนเอและในการประกอบยีโนมท่ีสมบูรณ์ โดยใช้ในการตรวจหาบริเวณจำาเพาะเชน่ บริเวณท่ีแสดงลำาดับก่อนหลงัของยีนในยีโนมท่ีอนุรักษ ์
หรอืมีการแตกกระจายออกของยีน หรอืหาบริเวณท่ีเบสซ้ำๆ หรอืตรวจหาบรเิวณท่ยีังมีปัญหาอยู่เพื่อแก้ไขให้ถูกต้อง
ไฟล์ท่ีต้องใช้ในแบบฝึกหัด1. ลำาดับดเีอนเอของคอนทีกหรือโครโมโซมหรือยีโนมอ้างอิง (reference
contig/chromosome/genome)2. ลำาดับดเีอนเอของชุดของคอนทีกท่ีนำามาเปรียบเทยีบ (comparator of contigs)3. ไฟล์เปรียบเทยีบ (comparison file) ซ่ึงมีรายละเอียดของระดับความคล้ายคลึงกันของ
ยโีนมท่ีใกลเ้คยีงกัน สำาหรับฟอร์แม็ทของไฟล์เปรียบเทยีบท่ีใช้กับ ACT ได้แสดงในหมายเหตุท่อียู่ในตอนท้ายของเอกสารน้ี
การสรา้งไฟล์ดงักล่าวสามารถทำาได้หลายวิธี เช่น1. command line BLAST2. WebACT3. ABACAS ย่อจาก Algorithm Based Automatic Contguation of Assembled Shotgun
sequences
แบบฝึกหัดที่ 1 การเรียงคอนทีกของเชื้อ chlamydia โดยใช้โปรแกรม ACT
ในแบบฝึกหัดน้ีใช้ตรวจดูการจัดเรยีงคอนทีกของเช้อื Chlamydia trachomatis สายพันธุ์ L2 โดยการศึกษาเปรียบเทยีบกับยีโนมของ C. trachomatis สายพันธุ์ WU ที่ตีพิมพ์เผยแพรย่ีโนมแล้ว
ไฟล์ท่ีใช้ในแบบฝึกหัดน้ีมีดังน้ี1. CT_WU.embl เป็นไฟล์ลำาดับเบสที่อยู่ในฟอร์แม็ท EMBL2. CT_WU_vs_CT_L2_blastn.crunch เป็นไฟลเ์ปรยีบเทยีบจากคน้ blastn3. CT_L2.con เป็นไฟล์ consensus file ในการประกอบยีโนมด้วยโปรแกรม Gap4 (อยู่ใน
ฟอรแ์ม็ท fasta)
1. เปิดโปรแกรม ACT2. เมื่อหน้าต่างปรากฏให้เลือกไฟล์โดยคลิกท่ี Choose... เพ่ือใส่ไฟล์ลงในช่อง sequence file 1,
comparison file, และ sequence file 2 ท้งันี้ใช้ไฟล์ในลำาดับท่กีล่าวก่อนหน้าน้ี จะได้ดังภาพท่ี 13. ให้เล่ือนแถบเล่ือนด้านข้างหน้าต่างของลำาดับบนสุดเพ่ือซูมใหเ้ห็นท้ังยีโนม จะเห็นว่า
หน้าต่างล่างถูกซูมตามท้งัน้ีเพราะว่าโปรแกรมได้ตั้งให้เปล่ยีนแปลงตามกัน (สงัเกตคำาว่า
Contig Ordering with ACT 2
LOCKED) ภาพท่ี 1 โปรแกรม ACT หลงัจากอ่านไฟล์ดงักล่าวแล้ว
4. ให้เล่ือนแถบด้านข้างในหน้าต่างท่ีสองเพ่ือลดเส้นท่ีแสดงความคล้ายคลงึกันน้อยๆออกไป ตอนน้ีน่าจะได้ผลคล้ายๆในภาพท่ี 2
5. ไปท่รีายการ Select เลือก CT_WU.embl แล้วใช้ feature selector ในการหายีน rRNA ใน C. trachomatis WU ให้หาจำานวนของยีน rRNA และมีจำานวนเท่าไรท่ีถูกจัดเรยีง
6. การหาตำาแหน่งของยีน rRNA ในสายพันธุ์ L2 ทำาโดยหายีน rRNA ของสายพันธุ์ L2 ท่ีตรง กันกับสายพันธุ์ WU วิธีการคือให้เลือกยีน rRNA ของสายพันธุ์ WU มาหนึง่ยีนโดยคลิก
เลอืกท่ยีีนน้ัน จากน้ันคลิกขวาบนหน้าต่างกลางจะปรากฏรายการให้เลือก ให้เลือก view selected matches จะได้ผลแสดงในภาพท่ี 3 ซ่ึงปรากฏหน้าต่างเมื่อดับเบิ้ลคลิกบนรายการใน
หน้าต่างน้ีจะทำาให้มีการ align ในยีโนมในหน้าต่างล่าง (บางคร้ังอาจต้องกลับทิศทางของยี โนมในหน้าต่างล่าง โดยคลิกขวาท่ยีีโนมแล้วเลือก flip display)
7. ให้ซูมออกอีกคร้งัเพ่ือดูท้งัยีโนม เมื่อเปรยีบเทียบกับสายพันธุ์ WU แล้วลองทำานายคอนทีกท่ี ควรเป็นของสายพันธุ์ L2
Contig Ordering with ACT 3
ภาพท่ี 2 การซูมภาพออกเพ่ือใหเ้ห็นท้ังยีโนม
ภาพท่ี 3 แสดงผลหลังจากเลือก view selected matches
Contig Ordering with ACT 4
แบบฝึกหัดที่ 2 การเรียงคอนทีกของเชื้อ plasmodium โดยใช้โปรแกรม ACT
แบบฝึกหัดน้ีจะใช้ไฟล์ chab09.fas, chab09.fasta-txMAL11.fasta.crunch, และ MAL11.embl
1. เปิดโปรแกรม ACT2. อ่านไฟล์ sequence file 1, comparison file, และ sequence file 2 โดยใช้ไฟล์ดังกล่าวตามลำาดับ3. เลื่อนแถบเล่ือนด้านข้างหน้าต่างเพ่ือซูมใหเ้ห็นท้ังยีโนม เชน่เดียวกับในแบบฝึกหัดท่ีแล้ว4. เลื่อนแถบเล่ือนท่หีน้าต่างสำาหรับเปรยีบเทยีบ (หน้าต่างตรงกลาง) เพื่อให้ไม่แสดงผลความ
คลา้ยคลึงในช่วงส้ันๆ5. วิธีการจัดเรียงคอนทีกใหม่
1. ไปท่ี Edit แล้วเลือก Contig reordering2. จะปรากฏหน้าต่าง Contig Tool ขึ้นมาดังภาพท่ี 43. คลกิเลือก Contig ที่ต้องการแล้วลากไปยังตำาแหนง่ใหม่4. ถ้าต้องการกลับทิศและสร้างลำาดับคอมพลเีม็นท์ ให้ไปท่ี Edit แล้วไปท่ี Bases จากน้ัน
เลอืก Reverse And Complement Selected Contig
ภาพท่ี 4 แสดงหน้าต่าง Contig Tool
แบบฝึกหัดที่ 3 การเรียงคอนทีกของเชื้อ plasmodium โดยใช้โปรแกรม ABACAS
ในแบบฝึกหักน้ีจะใช้โปรแกรม ABACAS เพ่ือจัดเรยีงลำาดับคอนทีกของ Plasmodium yoelii 17x1.1 โดยเทียบกับโครโมโซมอ้างอิงของ P. chabaudi
โปรแกรม ABACAS (Algorithm Based Automatic Contigution of Assembled Shotgun sequences) พฒันาโดยกลุ่มศึกษาจีโนมิกส์ของเช้ือโรค ใช้ MUMmer ในการหาตำาแหนง่จัดเรยีงและ
หา syntenies ในสายคอนทีกโดยการเปรียบเทยีบกับโครโมโซมอ้างอิง โปรแกรมยังสร้างไฟล์ เปรียบเทยีบท่นีำาไปอ่านในโปรแกรม ACT เพ่ือดทูิศทางและลำาดับของคอนทีก ( ส่วนท่ีเป็น synteny
จะแสดงด้วยแถบสแีดง โดยความเข้มของสีจะลดลงตามค่าระดับเปอร์เซ็นต์ท่เีหมือนกันท่ลีดลง ระหว่างช่วงท่เีปรียบเทยีบ ขอ้มูลต่างๆของคอนทีก ( ทิศทาง เปอร์เซ็นต์ความเหมือนกัน ความ
ครอบคลุม ส่วนท่ีซ้อนคาบกันกับคอนทีกอื่นๆ สามารถดูด้วยโปรแกรม ACT) คำาส่ังของ abacas เป็นดังน้ี
abacas.pl -r<reference file:single fasta>-q<query sequence file:fasta>-p<nucmer/promer>
ในแบบฝึกหัดน้ี ไฟล์อ้างอิง คือ chab02.fasta และไฟลท่์ีนำามาเปรยีบเทียบ (query sequence file) คือ Pyoelii.contigs.fasta
Contig Ordering with ACT 5
1. เปิด Terminal2. เขา้ไปในโมดูล 4 ใน Exercise 23. พิมพค์ำาส่ัง
abacas.pl -r chab02.fasta -q Pyoelii.contigs.fasta -p promer -d สำาหรับ -d เป็นตัวเลือกท่ีเป็นค้าท่ีตั้งไว้ใน MUMmer การใชค้่าน้ีทำาให้การจัดลำาดับมี
ความเร็ว4. นำาผลการจัดเรยีงคอนทีกไปเปิดในโปรแกรม ACT แล้วปรับเล่ือนแถบเล่ือนข้างหน้าต่าง
เพื่อใหเ้ห็นท้ังยีโนม อาจนำาส่วนของ stop codon ออกเพ่ือให้เหน็คอนทีกชัดเจน5. มีคอนทีกของ P. yoelii จำานวนมากเท่าไรท่ีจัดเรยีงเทยีบกับโครโมโซม 2 ของ P. chabaudi
หมายเหตุ รหสัสขีองคอนทีกเป็นดังน้ีสฟ้ีาเข้ม คอนทกีท่ีมีทิศทางไปข้างหน้า (forward orientation)สเีขียว คอนทกีท่ีมีทิศทางไปข้างไปข้างหลงั (reverse orientation)สฟ้ีาน้ำทะเล คอนทกีท่ีซ้อนคาบกับคอนทีกถัดไป
หมายเหตุ
ฟอร์แม็ทของไฟล์เปรียบเทียบ (comparison files) ฟอร์แม็ทของ comparison files ที่สามารถใช้กับโปรแกรม ACT ได้มี 3 ฟอร์แม็ทดังน้ี
1. ไฟล์ผลที่ได้จากการค้น BLAST version 2.2.2 การค้นต้องใช้คำาส่งั blastall และ -m 8 flag เพื่อให้ข้อมูลแสดง HSP แต่ละบรรทัด
2. ไฟล์ผลที่ได้จากการค้น MegaBLAST3. ไฟล์ผลที่ได้จากการค้นด้วยโปรแกรม MSPcrunch เป็นโปรแกรมสำาหรับระบบยูนีคซ์
และ GNU/Linux โปรแกรมน้ีสามารถแปลงผลจาก BLAST เวอร์ช่ัน 1 ให้อยู่ในฟ อรแ์ม็ทท่ีอ่านได้ง่ายกว่า ท้งัน้ีต้องใช้ -d flag
ตัวอย่างฟอร์แม็ทของๆไฟลเ์ปรยีบเทยีบท่ีได้จาก MSPcrunch -d เป็นดงันี้
1399 97.00 940 2539 sequence1.dna 1 1596 AF140550.seq1033 93.00 9041 10501 sequence1.dna 9420 10880 AF140550.seq
แต่ละคอลัมน์คือค่าต่อไปน้ีเรยีงต่อๆกันไปตามลำาดับโดยแต่ละค่าในคอลัมน์ห่างกัน 1 ช่องไฟ score, percent identity, match start in the query sequence, match end in the query sequence,
query sequence name, subject sequence start, subject sequence end, subject sequence name