Сравнительный анализ последовательностей ДНК

Post on 12-Jan-2016

60 Views

Category:

Documents

4 Downloads

Preview:

Click to see full reader

DESCRIPTION

Сравнительный анализ последовательностей ДНК. БиБи 4 курс Осень 2005. Идентификация генов. Новый геном = > нет обучающей выборки «Псевдообучение» Длинные открытые рамки считывания (ОРС) Открытые рамки, гомологичные известным генам «Самосогласование» - PowerPoint PPT Presentation

TRANSCRIPT

Сравнительный анализ последовательностей ДНК

БиБи 4 курс

Осень 2005

Идентификация генов• Новый геном => нет обучающей выборки• «Псевдообучение»

– Длинные открытые рамки считывания (ОРС)– Открытые рамки, гомологичные известным генам

• «Самосогласование»– Режем на фрагменты, делим на два кластера, обучаемся– Предсказываем– Переобучаемся– Etc.

• Сравнение с родственными геномами– CRITICA: (пара) ОРС=ген, если сходство на уровне

аминокислотных последовательностей выше, чем можно было бы ожидать для формальных транслятов при заданном уровне сходства нуклеотидных последовательностей

rbsD в энтеробактериях

Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCSen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCStm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCEco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGCYpe TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** *****  Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGSen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGStm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGEco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTGYpe GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *

rbsD в энтеробактериях: ответ

Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCSen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCStm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCEco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGCYpe TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** *****  Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGSen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGStm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGEco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTGYpe GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *

Паттерн нуклеотидных заменв белок-кодирующих областях:

pdxB в энтеробактериях

Sty TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATTStm TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATTSen TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATTEco TTGCCCG--TGCCAGACGGCAGATTATCTCCCTGACCTGGTGGTTGCCCAGGAGGAGGGCCGGAAATAGGTTGTATCATTKpn ----CGG--TGGCGCAGTGCCTGATGGG-CCTCGCCCTGGAGGACGGTCTGGCAT---ATCAGCAAGGGGGTGCGTCATGYpe TTGTTAGAACAGGGGAAAACGGTAAACAGTGTGGCATTAGATGTCGGTTATAGCT-----CCGCCTCTGCTTTTATCGCC * * * * * * * * * * *

 

Sty AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCTTGGCGGCCAGATTATGGC--ACACTTGTCCGGStm AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGGSen AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGGEco ACGTATCCTTATAC----------CTGAAATCTTCGCAAG--TATGCCTGGCCGCGAGATTATGGC--ACACTTGTCCGGKpn ATTCATCCTTTCGATATCGCGGTGCTGGAACCAGGTGATGAGTATGCCTGGCGGCCAGATTATGGC--ACACTTCCCCAGYpe ATGTTTCAGCAAATAT--------CGGGTACCA-CGCCTGAGCGTTTCCGGCGGGGCAATAGTGGCTTATACTAAGCCCC * ** * * * * *** * ** **** * *** **

 Sty TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGCStm TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGCSen TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGCEco TTAACTCTCGT--CTCATACAG------GTAACACAAAC--GTGAAAATCCTTGTTGATGAAAATATGCCTTATGCCCGCKpn TTAACTCTCGTT-CTCAGACAG------GTACTGAACT---GTGAAAATCCTCGTTGATGAAAATATGCCCTATGCCCGTYpe CTGTTTTTCATCTGTATGGCAGTTCGCTGTCGGAGAGTAAAGTGAAAATTCTGGTTGATGAAAATATGCCGTACGCTGAG * * ** * * *** ** * ******** ** ***************** ** ** 123123123123123123123123123123123123123

Белковое выравнивание (ribD)

Eco V_____QDEYYMARALKLAQRGRFTTHPNPNVGCVIVKDGEIVGEGYHQRAGEPHAEVHA QD +M RAL LA +G +TT PNP VGCV VK+GEIVGEG+H +AG+PHAE A Hin MLEFSSQDCVFMQRALDLAAKGQYTTTPNPSVGCVLVKNGEIVGEGFHFKAGQPHAERVA

Eco GCGCGCCTGGAGGACTAA----G----------CCGTGCAGGAC-GAGTATTACATGGCGCGGGCGCTAA

Hin GAAAAATTAAAGGATTAATTATGCTTGAATTTTCCTCACAAGATTGCGTATTT-ATGCAACGTGCCTTAG * * **** *** * ** ** ** * ***** *** ** ** **

Множественное выравнивание

REC06584       109 tttttatttcaggcaatcggggtgaat---------gtggcgcaggcggaagtgttgaatRECO04717      109 tttttatttcaggcaatcggggtgaat---------gtggcgcaggcggaagtgttgaatRECS04752      109 tttttatttcaggcaatcggggtgaat---------gtggcgcaggcggaagtgttgaatRTY01088        51 tagcgcctgttttgatttatggtgaacggggttaatgtggcgcaggcggaagtgttgaatRSY05814        51 tagcgcctgttttgatttatggtgaacggggttaatgtggcgcaggcggaagtgttgaatREO01497        66 atagcgcctgtttgatttcattgaattggggaaggcgtgtctacggcggaagtattgaatRYPK00397       45 gccggcctgtgcagatctaatagttgggggaaaagtgtgtcgaccgcagcagtgataaacRYP04048        45 gccggcctgtgcagatctaatagttgggggaaaagtgtgtcgaccgcagcagtgataaacRYE04903        44 aaccggcctgtgcagatctcatagttggggaatagtgtgtcaaccgcagcagtgataaatRVFI01204        0 ........tattattgatgagttttttatgtccagcatgatcgcagagcaaccaatggaaREC06584            f  l  f  q  a  i  g  v  n  =  =  =  V  A  Q  A  E  V  L  N RECO04717           f  l  f  q  a  i  g  v  n  =  =  =  V  A  Q  A  E  V  L  N RECS04752           f  l  f  q  a  i  g  v  n  =  =  =  V  A  Q  A  E  V  L  N RTY01088            *  r  l  f  *  f  m  v  n  g  v  n  V  A  Q  A  E  V  L  N RSY05814            *  r  l  f  *  f  m  v  n  g  v  n  V  A  Q  A  E  V  L  N REO01497            i  a  p  v  *  f  h  *  i  g  e  g  V  S  T  A  E  V  L  N RYPK00397           a  g  l  c  r  s  n  s  w  g  k  s  V  S  T  A  A  V  I  N RYP04048            a  g  l  c  r  s  n  s  w  g  k  s  V  S  T  A  A  V  I  N RYE04903            n  r  p  v  q  i  s  *  l  g  n  s  V  S  T  A  A  V  I  N RVFI01204           .  .  .  i  i  d  e  f  f  m  s  s  M  I  A  E  Q  P  M  E 

Эукариоты: сплайсированное выравнивание

• Ген с известными гомологами (Procrustes, GeneWise)– Операция вставки интрона– Блочная модель

• Использование сходства (BLAST) как дополнительного параметра (GenomeScan)– Отступление: динамическое программирование в задаче

распознавания генов• Вершины – сайты, ребра – экзоны и интроны

– Квадратичное количество ребер, линейное время оценки веса ребра• Вершины – сайты («рельсовый граф»)

– Линейное количество ребер

• Ген без известных гомологов, но в двух геномах– Экзон-интронная структура в нуклеотидном выравнивании

(Rosetta, SGP) – Геномное сплайсированное выравнивание (Pro-Gene –

динамическое программирование, DoubleScan – HMM распознавание+выравнивание, SLAM).

Динамическое программирование

Четвертая степень, если всякий раз выбирать оптимальный интрон, но внутри прямоугольника это делается один раз

HMM (DoubleScan)

Match in exon

Insertion in exon

Match in exon

Match in intron

Match in intron

Insertion in intron

Match in exon

Match in intron

Match in exon

Match in exon

Inserted intron

Matching

intergenic re

gion

Matching

intergenic interval

Регуляция транскрипции

• Phylogenetic footprinting – прокариоты. MENTERIC, Gibbs samplers

• Phylogenetic footprinting – эукариоты. rVISTA

• Phylogenetic shadowing

• Проверка соответствия (consistency check). Регулоги

Low conservation in upstream region

yjcD

ST AAA-GCATAAAAAGCGGCAAAGTTCAGTTGAAAAAGCGTTGATGATCGCTGGATAATCGTTTGCTTTTTTTTG---CCACEC AAA-GAGAAAAAAGCAGCAAACTTCGGTTGAAAAAGCCGCTATGATCGCCGGATAATCGTTTGCTTTTTTTA----CCACYP AAATGTATTAAATGTCGCATTCGGGTGTTGATTAGTCACCACTGATGGCTAGATAATCGTTTGCCTTAAATGACATCTGC *** * *** * *** ***** * * **** ** ************* ** * * *

ST CC--------GTTTTGT--------ATACGTG----GAGCTAAACGTTTGCTTTTTTGCGGCGCCCCG-G-TTGTCGTAAEC CC--------GTTTTGT--------ATGCGCG----GAGCTAAACGTTTGCTTTTTTGCGACGCAGCA-AATTGTCGCAAYP CCTAAACTTCGATTTTTTTTCAGTCATGCGTTCTCCCAGCTAATCGTTTGCTATTTTTCCCCGCTCTATGAGTCAGGGAG ** * *** * ** ** ****** ******** **** * *** * * *

ST ATGTAGC----------ACAAGGA-GATAACGTTGCGCTGTTAGTGGATTACCTCCCACGTATACCGACGAATAATAAATEC ACCTGGA----------GCAGGAA-GATAACGTTTCGCTGGCAGGGGATTGTCCGCCACGCATCTTGACGAAAATTAAACYP AGTTAGTGAGTTCATCGACAGGAACGGAAACGATTACGTAGAGAAGGGCGCTTGGCTTGGCATGCTATTTTAAAATGA-C * * * ** * * * **** * * ** * * ** * * * *

ST TCTCAGGGGATGTTTTCT-ATGTCT------ACGCCTTCAGCGCGTACCGGCGGTTCACTCGACGCCTGGTTTAAAATTTEC TCTCAGGGGATGTTTTCTTATGTCT------ACGCCATCAGCGCGTACCGGCGGTTCACTCGACGCCTGGTTTAAAATTTYP ACACAGGGGACATCACC--ATGTCTAGCAGCAACCCTCAAGCACAGCCAAAGGGCACGCTTGATGCATTCTTTAAGCTTA * ******* * * ****** * ** *** * * ** * ** ** ** * ***** **

High conservation in upstream region

purL

ST AGCGGCATTTTGCGTAACAATGCGCCAGTTGGCAACTT-ATT-CGCAACGATAGCCGCACC--GTATGACAAGAAAAAGCEC AGCGGCATTTTGCGTAAACCTGCGCCAGATGGCAACTT-ATT-ACAGCCATTGGCGGCACG--CGTTGCTAATTCACGATYP AGTGGCATTTTGCGCAACAAAACGCCAGTGTGCAACTTTATTGCGAGCTATTTGCTGAGTCTGCGTTACACACACATAGC ** *********** ** ****** ******* *** * ** * * * *

ST GG-TGATT---------TTATTTCT-------ACGCAAACGGTTTCGTCGGCGCGTCAGATTCTTTATAATGACGGCCGTEC GG-TGATT---------TTATTTCC-------ACGCAAACGGTTTCGTCAGCGCATCAGATTCTTTATAATGACGCCCGTYP GGCTGTTTCTGACTGAATTATTAATAATAGATACGCAAACGGTTTCGTCGGCGGCTCAGATTCACTATAATGGCGCGCGT ** ** ** ***** ***************** *** ******** ******* ** ***

ST TTCCCCCC-------------------TTGCGCACACCAAA--------------GCTTAGAAGACGAGAGA--CTTA--EC TTCCCCCCC------------------TTGGGTACACCGAAA-------------GCTTAGAAGACGAGAGA--CTTA--YP TTTGCCCTGTTGTTGCGCCAATGAATGTTGCGCCCAATGAAGTGCTGTTCCAGCCGCTTCGAAGACGAGAGAAACTTAGA ** *** *** * ** ** **** ************ ****

ST TGATGGAAATTCTGCGTGGTTCGCCTGCACTGTCTGCATTCCGTATCAATAAACTGCTGGCGCGCTTTCAGGCTGCCAACEC TGATGGAAATTCTGCGTGGTTCGCCTGCACTGTCGGCATTCCGAATCAACAAACTGCTGGCACGTTTTCAGGCTGCCAGGYP TTATGGAAATACTGCGTGGTTCACCCGCTTTGTCGGCTTTTCGTATCACCAAACTGTTGTCCCGTTGCCAGGATGCTCAC * ******** *********** ** ** **** ** ** ** **** ****** ** * ** * **** ***

Menteric

Multiple sites (nrd genes): FNR, DnaA, NrdR

nrdD:пром.DnaAFNR NrdR

Phylogenetic Shadowing (E.Rubin’s lab)

Ген apo(a) есть

только у приматов

Consistency filtering: the basic procedure

Genome 2Genome 2Genome 1Genome 1

Set of known sitesSet of known sites ProfileProfile

Genome NGenome N

Accounting for the operon structure

«Old» genome «New» genome

A

A

BC

BC

D

XD

EF

E

F

X

X

X

X

Regulogger (W.Wasserman)

Упражнение: чем это плохо?

микроРНК

• ~22 нуклеотида• Комплементарны мРНК (неточно, 3’-конец –

животные; точно, кодирующая область - растения)• Подавляют трансляцию или способствуют

деградации мРНК (растения)• Предшественник – шпилька специального вида,

длина ~70 нт.• Человек – минимум 800 (экспериментально > 200),

дрозофила – 200, нематода – 100, растения – минимум сотня

• Независимые гены (м.б. полицистронные) или в интронах

• Регулируют минимум треть генов человека• В основном – гены развития?

Как искать

• Экспериментально• Консервативность

– В далеких геномах– В близких геномах – shadowing

• Наличие и консервативность мишеней (трудно, если в белок-кодирующей области)

• Синтения, кластеризация генов• Кластеризация сайтов в мРНК-мишенях• Проверка функции

top related