Download - Распознавание регуляторных сигналов
Распознавание Распознавание регуляторных сигналоврегуляторных сигналов
Распознавание Распознавание регуляторных сигналоврегуляторных сигналов
Д. А. Равчеев, М. С. ГельфандВ. Ю. Макеев (некоторые слайды)
Факультет биоинженерии и биоинформатики МГУ
2-й курс (набор 2007 года)
Осенний семестр 2008
Транскрипция и трансляция в прокариотах
ЭукариотыПрокариоты
1. Сопряжение транскрипции и трансляции
2. Котранскрипция нескольких генов (опероны)
1.Транскрипция
2. Процессинг пре-мРНК
3. Экспорт мРНК
4.Трансляция
(синтез пре-мРНК)
– кэпирование
– сплайсингсплайсинг
– полиаденилирование
Сплайсинг ( эукариоты )
Сборка сплайсосомы
Разрез на 5’ конце интрона, образование «аркана»
Разрез на 3’ конце интрона, соединение экзонов
Транскрипция в прокариотах :Инициация транскрипции
Направление транскрипции
Старт транскрипции
Промотор
Транскрипция в прокариотах :Регуляция транскрипции
РепрессияАктивация
Структура ДНК-связывающего домена
CI, фаг
Структура ДНК-связывающего домена
Cro, фаг
Белок-ДНКовые взаимодействия
CI Cro
Регуляция транскрипции у эукариот
Один и тот же ген может регулироваться несколькими регуляторными модулями, работающими в разных условиях
Расстояние от регуляторного модуля до кодирующих областей может достигать 100 000 пар оснований
Регуляция транскрипции у эукариот
Регуляторные модули ( В. Ю. Макеев )
Консенсус
Pattern (“образец” - консенсус с вырoжденными позициями)
Матрица частот, nucleotide frequency matrix
Позиционная весовая матрица (или профиль) positional weight matrix, PWM, profile
Логические правила
РНКовые сигналы – вторичная структура
Представление сигналов
Консенсус
CCTACGCAAACGTTTTCTTTTTGTCTCGCAAACGTTTGCTTTCCCACACGCAAACGTTTTCGTTTATCCACGCAAACGGTTTCGTCAGGCCACGCAACCGTTTTCCTTGCGATACGCAAACGTGTGCGTCTGCCGACGCAATCGGTTACCTTGAGTTGCGCAAACGTTTTCGTTACTTGAGGAAAACGATTGGCTGAATTTAAGCAAACGGTGATTTTGATAGATGCAATCGGTTACGCTCTTAAAGGCAAACGTTTACCTTGCAACGAGCAAACGTTTCCACTAC
ACGAAAACGTTTTCGT
Сайты связывания PurR E. coli
cvpApurMpurTpurLpurEpurCpurBpurHpurA1
purA2
guaBpurR1
purR2
consensus
Образец
cvpApurMpurTpurLpurEpurCpurBpurHpurA1
purA2
guaBpurR1
purR2
consensus
pattern
CCTACGCAAACGTTTTCTTTTTGTCTCGCAAACGTTTGCTTTCCCACACGCAAACGTTTTCGTTTATCCACGCAAACGGTTTCGTCAGGCCACGCAACCGTTTTCCTTGCGATACGCAAACGTGTGCGTCTGCCGACGCAATCGGTTACCTTGAGTTGCGCAAACGTTTTCGTTACTTGAGGAAAACGATTGGCTGAATTTAAGCAAACGGTGATTTTGATAGATGCAATCGGTTACGCTCTTAAAGGCAAACGTTTACCTTGCAACGAGCAAACGTTTCCACTAC
ACGAAAACGTTTTCGT
amGAAAaCGkTTwCwT
Сайты связывания PurR E. coli
Матрица частотСайты связывания PurR E. coli
a m G A A A a C G k T T w C w Tb
A 10 2 0 1 13 13 10 0 0 1 0 0 4 0 1 0C 0 8 0 12 0 0 1 13 0 0 0 0 1 11 4 2G 2 2 13 0 0 0 0 0 13 4 1 1 3 1 5 0T 1 1 0 0 0 0 2 0 0 8 12 12 5 1 3 11
Информационное содержание :
I = j b f (b, j) [log f (b, j) / p (b)]
f (b, j) – частота нуклеотида b в позиции j
p (b) – частота нуклеотида в геноме
где
Диаграмма Лого ( Logo )
Сайты связывания PurR E. coli
I = j b f (b, j) [log f (b, j) / p (b)]
Позиционная весовая матрица(профиль )
a m G A A A a C G k T T w C w T j
A 10 2 0 1 13 13 10 0 0 1 0 0 4 0 1 0C 0 8 0 12 0 0 1 13 0 0 0 0 1 11 4 2G 2 2 13 0 0 0 0 0 13 4 1 1 3 1 5 0T 1 1 0 0 0 0 2 0 0 8 12 12 5 1 3 11
A 1,6 -0,2 -0,8 0,0 2,5 2,5 1,6 -0,8 -0,8 -0,4 -1,1 -1,1 0,3 -1,3 -0,8 -1,2
C -1,4 1,0 -0,8 2,1 -0,8 -0,8 -0,3 2,5 -0,8 -1,5 -1,1 -1,1 -0,8 1,8 0,3 0,4
G 0,2 -0,2 2,5 -1,1 -0,8 -0,8 -1,4 -0,8 2,5 0,7 0,0 0,0 0,0 -0,2 0,5 -1,2
T -0,3 -0,7 -0,8 -1,1 -0,8 -0,8 0,2 -0,8 -0,8 1,3 2,1 2,1 0,5 -0,2 0,0 1,9
W (b, j) = ln [N (b, j)+0,5] – 0,25 i ln [N (i, j)+0,5]
A 1,6 -0,2 -0,8 0,0 2,5 2,5 1,6 -0,8 -0,8 -0,4 -1,1 -1,1 0,3 -1,3 -0,8 -1,2
C -1,4 1,0 -0,8 2,1 -0,8 -0,8 -0,3 2,5 -0,8 -1,5 -1,1 -1,1 -0,8 1,8 0,3 0,4
G 0,2 -0,2 2,5 -1,1 -0,8 -0,8 -1,4 -0,8 2,5 0,7 0,0 0,0 0,0 -0,2 0,5 -1,2
T -0,3 -0,7 -0,8 -1,1 -0,8 -0,8 0,2 -0,8 -0,8 1,3 2,1 2,1 0,5 -0,2 0,0 1,9
Позиционная весовая матрица(профиль )
Термодинамическая мотивировка : свободная энергия
Предположение :независимость соседних позиций
Сравнение частотной и весовой матриц
... A ... A ... A ...... G ... G ... G ...... G ... G ... C ...... G ... C ... T ...
A 1 1 1C 0 1 1G 3 2 1T 0 0 1
Частоты
A 0,34 0,15 0,00C -0,76 0,15 0,00G 1,18 0,66 0,00T -0,76 -0,95 0,00
Веса
Начало:
Исправление ошибок
Проверка литературных данных
Удаление дубликатов
Составление выборки
GenBank специализированные банки данных (EcoCyc, RegDB) литература (обзоры) литература (оригинальные статьи)
предсказанные сайты
Первоначальное выравнивание по биологическим признакам
Выделение сигнала в скользящем окне
Перевыраванивание
и т.д. пока не сойдётся
Перевыравнивание
промоторы : старт транскрипции
участки связывания рибосом : стартовый кодон
сайты сплайсинга : экзон-интронные границы
Начала генов Bacillus subtilis
Позиционное информационное содержание до и после перевыравнивания
после
до
ОптимизацияExpectation - Maximization
Породим начальное множество профилей (например, каждый из имеющихся k-меров породит один профиль)
Матрица частот
A 0,8 -0,3 -0,3 -0,3C -0,3 0,8 -0,3 -0,3G -0,3 -0,3 0,8 -0,3T -0,3 -0,3 -0,3 0,8
Матрица (профиль) весов
k-мер : ACGT
A 1 0 0 0C 0 1 0 0G 0 0 1 0T 0 0 0 1
ОптимизацияExpectation - Maximization
Для каждого профиля :
Повторять пока не сойдётся
найти наилучшего представителя в каждой последовательности
обновить профиль
http://meme.sdsc.edu/meme/meme.html
ОптимизацияExpectation - Maximization
Недостатки метода :
Алгоритм сходится, но не может покинуть область локального максимума
Поэтому если начальное приближение было плохим, он сойдётся к ерунде
Решение: стохастическая оптимизация
Имитация теплового отжига
Цель : максимизировать информационное содержание I
или любой другой функционал, измеряющий однородность множества сайтов
I = j b f (b, j) [log f (b, j) / p (b)]
Имитация теплового отжигаАлгоритм
A – текущий сигнал (множество потенциальных сайтов)I (A) – информационное содержание A
B – сигнал, отличающийся от А выбором сайта в одной последовательности
I (B) – информационное содержание B
если I (B) I (A), B принимается если I (B) < I (A), B принимается с вероятностью
P = exp [ (I(B) – I(A)) / T ]
Температура T медленно снижается, первоначально она такова, что почти все изменения принимаются (Р 1).
Gibbs sampler
A – текущий сигнал (множество потенциальных сайтов)I (A) – информационное содержание A
На каждом шаге в одной последовательности выбирается новый сайт с вероятностью
P ~ exp [ (I (Anew) ]
Для каждого потенциального сайта подсчитывается, сколько раз он был выбран.
Использование свойств сигнала
ДНК-связывающие белки и их сигналы
Кооперативные однородные
Палиндромы
Кооперативные неоднородные
Кассеты
Прямые повторы
Другие
РНК-сигналы
Распознавание сайтов :весовые матрицы (профили)
W (b, j) = ln [N (b, j)+0,5] – 0,25 i ln [N (i, j)+0,5]
Позиционные веса нуклеотидов
Вес потенциального сайта (k-мера) b1…bk – сумма соответствующих позиционных весов :
S (b1…bk) = i=1…k W (bi , j)
Распознавание сайтов : весовые матрицы (профили)
GCAATCTTCTTGCTGCGCAAGCGTTTTCCAGAACAGGTTAGATGATCTTTTTGTCGCT
A 1,6 -0,2 -0,8 0,0 2,5 2,5 1,6 -0,8 -0,8 -0,4 -1,1 -1,1 0,3 -1,3 -0,8 -1,2
C -1,4 1,0 -0,8 2,1 -0,8 -0,8 -0,3 2,5 -0,8 -1,5 -1,1 -1,1 -0,8 1,8 0,3 0,4
G 0,2 -0,2 2,5 -1,1 -0,8 -0,8 -1,4 -0,8 2,5 0,7 0,0 0,0 0,0 -0,2 0,5 -1,2
T -0,3 -0,7 -0,8 -1,1 -0,8 -0,8 0,2 -0,8 -0,8 1,3 2,1 2,1 0,5 -0,2 0,0 1,9
carAEscherichia coli K-12
Вес данного потенциального сайта :
S = 21,2
Распределение весовсайтов связывания рибосом
сайтыне сайты
вес
Кол-во сайтов
Оценка качества алгоритмов
Чувствительность =правильно предсказанные
все правильные
Специфичность =правильно предсказанные
все предсказанные
Трудно составить тестирующую выборку:
— неизвестные сайты— активация в определенных условиях— неспецифическое связывание
Промоторы Escherichia coli K-12
Профиль предсказывает 1 сайт на 2000 нт
Чувствительность:
– 25% на всех промоторах
– 60% на конститутивных (неактивируемых) промоторах
Эукариотические промоторы
Случайные предсказания
Сайты связывания рибосом
Надежность предсказания зависит от информационного содержания
Информационное содержание
Пр
ави
льн
о п
редс
каз
анн
ые
стар
ты т
ран
сляц
ии
(в
%)
0102030405060708090100110
3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5
ПОРОГ
OV
UN
CRP (Escherichia coli)
%
OV = 1 – специфичность перепредсказание (% лишних среди всех предсказанных)
UN = 1 – чувствительность недопредсказание (% потерянных правильных)
gene complement(120178..121551) /note="b0112" /gene="aroP" CDS complement(120178..121551) /gene="aroP" /product="aromatic amino acid transport protein" protein_bind complement(121599..121617) /bound_moiety="TyrR documented site" protein_bind complement(121622..121640) /bound_moiety="TyrR documented site" protein_bind complement(121653..121664) /bound_moiety="PutA predicted site" promoter complement(121683..121711) /note="factor Sigma70; promoter aroP; documented +1 at 121671" protein_bind complement(121810..121823) /bound_moiety="OxyR predicted site" protein_bind complement(121813..121835) /bound_moiety="ArgR predicted site"
Запись GenBank для гена aroP E. coli
aroP TyrR TyrR PutA OxyR ArgR
promoter
Что же делать ?
Выход :
филогенетическое картирование (филогенетический футпринтинг) : “правильные” сайты консервативны
Консервативная область
purL
STY CAACTT-ATT-CGCAACGATAGCCGCACC--GTATGACAAGAAAAAGCGG-TGATT---------TTATTTCT-- ECO CAACTT-ATT-ACAGCCATTGGCGGCACG--CGTTGCTAATTCACGATGG-TGATT---------TTATTTCC-- YPK CAACTTTATTGCGAGCTATTTGCTGAGTCTGCGTTACACACACATAGCGGCTGTTTCTGACTGAATTATTAATAA **** *** * ** * * * * ** ** ** ***** STY -----ACGCAAACGGTTTCGTCGGCGCGTCAGATTCTTTATAATGACGGCCGTTTCCCCCC-------------- ECY -----ACGCAAACGGTTTCGTCAGCGCATCAGATTCTTTATAATGACGCCCGTTTCCCCCCC------------- YPK TAGATACGCAAACGGTTTCGTCGGCGGCTCAGATTCACTATAATGGCGCGCGTTTTGCCCTGTTGTTGCGCCAAT ***************** *** ******** ******* ** ***** *** STY -----TTGCGCACACCAAA--------------GCTTAGAAGACGAGAGA--CTTA--TGATGGAAATTCTGCGT ECO -----TTGGGTACACCGAAA-------------GCTTAGAAGACGAGAGA--CTTA--TGATGGAAATTCTGCGT YPK GAATGTTGCGCCCAATGAAGTGCTGTTCCAGCCGCTTCGAAGACGAGAGAAACTTAGATTATGGAAATACTGCGT *** * ** ** **** ************ **** * ******** ******
PurR
Менее консервативная область
yjcD
STY AAA-GCATAAAAAGCGGCAAAGTTCAGTTGAAAAAGCGTTGATGATCGCTGGATAATCGTTTGCTTTTTTTTG-- ECO AAA-GAGAAAAAAGCAGCAAACTTCGGTTGAAAAAGCCGCTATGATCGCCGGATAATCGTTTGCTTTTTTTA--- YPK AAATGTATTAAATGTCGCATTCGGGTGTTGATTAGTCACCACTGATGGCTAGATAATCGTTTGCCTTAAATGACA *** * *** * *** ***** * * **** ** ************* ** * STY -CCACCC--------GTTTTGT--------ATACGTG----GAGCTAAACGTTTGCTTTTTTGCGGCGCCCCG-G ECO -CCACCC--------GTTTTGT--------ATGCGCG----GAGCTAAACGTTTGCTTTTTTGCGACGCAGCA-A YPK TCTGCCCTAAACTTCGATTTTTTTTCAGTCATGCGTTCTCCCAGCTAATCGTTTGCTATTTTTCCCCGCTCTATG * *** * *** * ** ** ****** ******** **** * *** STY -TTGTCGTAAATGTAGC----------ACAAGGA-GATAACGTTGCGCTGTTAGTGGATTACCTCCCACGTATAC ECO ATTGTCGCAAACCTGGA----------GCAGGAA-GATAACGTTTCGCTGGCAGGGGATTGTCCGCCACGCATCT YPK AGTCAGGGAGAGTTAGTGAGTTCATCGACAGGAACGGAAACGATTACGTAGAGAAGGGCGCTTGGCTTGGCATGC * * * * * * ** * * * **** * * ** * * ** STY CGACGAATAATAAATTCTCAGGGGATGTTTTCT-ATGTCT------ACGCCTTCAGCGCGTACCGGCGGTTCACT ECO TGACGAAAATTAAACTCTCAGGGGATGTTTTCTTATGTCT------ACGCCATCAGCGCGTACCGGCGGTTCACT YPK TATTTTAAAATGA-CACACAGGGGACATCACC--ATGTCTAGCAGCAACCCTCAAGCACAGCCAAAGGGCACGCT ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ * * * * * ******* * * ****** * ** *** * * ** * **
PurR
PurR
rbsD в энтеробактериях
RbsRSTY AGGGTTACACTGCGG-CCAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC SEN AGGGTTACACTGCGG-CCAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC SEN GGGGTTACACTGCGG-CCAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC ECO AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC YPE TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** STY ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG SEN ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG STM ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG SEN ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG YPE GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** *** **** * **** ** *********** ***** *** *
Сложная ситуациясайты консервативны …
GGTTGATCGATTCACC
YPK AGCCAACAAAAAATTTTTCTTGTTGGGTTGATCGATTCACCTGTCCATAGGTTATGGATCATTGTGCT PCA GCCATGAAATCAGTTTTTTTTCATAGGTTGATCGATTCACCTGTCCATGTTCATCAAAACGCTATGCT PLU TACCTAAGAAAAAAATAATGTGTTGGGTTGATCGATTCACCTTTCTATGTGTGCGAAAACATTGTGTT SMA CTCTTAAAAACCACTTTCTTCAGTGGGTTGATCGATTCACCTTTCCATTTTCCCCAGATCAGTGTGCT STY TCTGAAAAAATGAAAAAATAAATTTGCTTGAACGATTCACCGTTTTTTTCGCGGGTTTAAGTATGCCA ECO GTCTTAAAAAGTAAAAAAAATATTTGCTTGAACGATTCACCGTTTTTTTCATCCGGTTAAATATGCAA * * * **** ********* * *
Сайты связывания FruR перед ppsA
Сложная ситуация… но не на выравнивании
YPK TTGGGTTGATCGATTCACCTGTCCATAGGTTA--TGGATCATTGTGCTAGTCTGAAATGGCT-GAT--TTTTCAG PCA CGATATTGG--ATTTTTACCG-CGTTAAGCAA--TCATTCGCCATGA-AATCAGTTTTTTTT-CAT-AGGTTGAT PLU TGAAACCGA--GAGT---C-GATTTTCTGCAA--AGTATACCTAAGA-AAAAAATAATGTGT-TG---GGTTGAT SMA CGATTGGGAACGGTTCCCAGGCAAATCAGCCGGTTAGGACATTCTCTTAAAAACCACTTTCTTCAGTGGGTTGAT STY CTTGAAACGCAGTTTATGCCGGGAGTGATTAA--GGGAATGCCGTGCTATGCGCGGGTTTGCGCAACTACGTAAA ECO -TTATGGTTTCGTTTATACCGATGGTTTATGT--GGAAAT-TGTCGAAGAGAGCAGATTTGCGCAACGCTGGGAT * * * * YPK CGACGATAACGGTTGTCCGTACCCTACAGACTGTTCGTCACTCGTCGGCGATGT-AATAACTAATCGACGGTGTA PCA CGATTCACCTGTCCATGTTCATCAAAACGCT-ATGCTAACCTGATTGTGTTGA------------------GGCG PLU CGATTCACCTTTCTATGTGTGCGAAAACATT-GTGTTAGTCTATTTGTGACT-------------------GCTC SMA CGATTCACCTTTCCATTTTCCCCAGATCAGT-GTGCTAGTCTGATTCGGCTC--------CGTGTTAGCGGCGCC STY CAATCTGAAAAAATGAAAAAATAAATTTGCTTGAACGATTCACCGTTTTTTTCGCGGGTT-TAAGTAT-GCCAGG ECO CAGTCTTAAAAAGTAAAAAAATATATTTGCTTGAACGATTCACCGTTTTTTTCATCCGGT-TAAATAT-GCAAAG * YPK ATA-ACTAATCGGCG-------ATGTAATAACTAATCGACAATGTA-AAAGGATTGTT-TCGATGTCCAACAATG PCA ---ATTCTCAACCGAACTCT---TTCATACCCTAATTGT--ATGCAGAAAGGATTATTTTCGATGTCCAATAACG PLU ----TATGCAGTGCTAATTT---CCCGATTTGTACCCAA--ATGCTAAAAGGATTGTTTT-AATGCCCAATAATG SMA GTAAAGCAAGCGAATTAAATCCGTCTTTACCCTACTGAT--A-GCAATAAGGATTGTC-TCGATGTCCAACAATG STY ATA-AATACGCAACTATGTG-TTTCTTAAACTCGTTCATTTATCACAAAAGGATTGT--TCGATGTCCAACAATG ECO ATA-AATGCGCAGAAATGTG-TTTCTCAAAC-CGTTCATTTATCACAAAAGGATTGT—-TCGATGTCCAACAATG * ********* * *************
регулируется НЕ регулируется ?
Базовый геном
Метод проверки соответствия
Геномы родственных организмов
http://genome.lbl.gov/vista/rvista/submit.shtml
rVista
Матрицы TRANSFAQ (частотные)
или консенсус
rVista
all sites
aligned sites
conserved sites
CNS = conserved non-coding sequences
rVista
Conserved sites :располагаются в участках последовательности, консервативность которых не менее 80% в окне 24 п.н.
Aligned sites :ключевые позиции идентичны в обеих последовательностях
All sites :все сайты : conserved+aligned+все остальные предсказанные
rVista