iii alineamiento de secuencias andrés moreira departamento de informática utfsm

94
III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Upload: gerardo-rubio-macias

Post on 31-Jan-2016

238 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

IIIAlineamiento de Secuencias

IIIAlineamiento de Secuencias

Andrés MoreiraDepartamento de Informática UTFSM

Page 2: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

TAAACCCTGGCATGCATGTTCAAGCTTTCCAGTCTTGTCAAAATGAATTGTTCTTGTATCATCTAGAAATTTAGTTAGAGATCAATTTGCCTTTTTTACAAACAAGCATTTTTAGTTAGTAAGGTTCTGGCCTAATTTGGTATTCTGGATTTCTTATTTATCTTAATATTAAAAATAAAGGAGGAAAACTAAATTCACATTAAAAATGACTAAATTTTGAAAATTTTTTTCAACAGGTTATATCAATCAGTGAAAATTCTATATTCCTTTGGCATTTTTGTGACATATTCAATTCAGTTCTATGTTCCAGCAGAGATCATTATCCCTGGGATCACATCCAAATTTCATACTAAATGGAAGCAAATCTGTGAATTTGGGATAAGATCCTTCTTGGTTAGTATTACTTGTAAGTATCATTATATATTTATATCATAATAATTTTTTATTGTTCAATTTCAGTTTTATCCCAACTGGACACACCTAATTTACATTCTTACAGACAAGAATTGTTTGCACTGCTGTCAGTGTGCTGCAATTTAACTTCTGTCTCTACAGAATTGTAAAAGAGCCTAGTCAAAGTCACCCCTAGATGGAATTAAATAATTCCTGGGGCCTTCAGCCTTTCATTGAAAGGATATCCAATAATCTCTTTTCCTCATTTTAAAGTCTTATATTTTTCTTTGCAGTGATAAAAGTGATAATTCTGCCTTAGCTCAGTTATGGAAGGCAGAATAAGGAAGATACTTATTAACACCACACAGAAAGAAATCACATATCTTTTACGACTTATGCTTAGTTTTTTTTTAAATACATTGACAGAATAATGAAAACATAACTATTAATAATCATGAGGAGTCTGTAGATATTACCTCACTGTCATTATCTAAGATAACAAATGGAAATGTAACAACTATTAACTAAAGTCAAAATGGACACTCATAGTAAATATGTCTTTTGTTTATGCACAAAGAGTATACACTCTGTCAAATCAAAATAGATTTTTTTAAAGATGTGAAATTAATCCAATCAGTTCTTTCCTCCTTTAACAACAACAAAAATACACTGCCAGGTTAGTGAGTCAAACAAGAGAAGTCTAGGAAGATGAATGGGGAAGAGAGGCTGTTCTGGTTTAATGTAAACAGCTTAAATATGATATTCAAAGGAGTCTGAGAAGCAATTTCCTTAGACTGTTAACTTATTTGCTTTAGGATTAATTTATTCTTTTTTATTCAATGCAAGTCCAATGCATTTTAATTTTCAAACAGTAGTATGTCCAGCAGCATTTATTATATGTTCTTGCTATATGCCCAGAACCATGCTAATATTATCGTCTATCATTCAATACTGTAAAAACAATGCTATTATTACAAATCTAATTGCAGTCAGGTATTCCCTAGGCTTCAACCATGAGTGGAGGGGTGGCAGGAGCTAAGATCAAGGCACAGCTTTTGATCTCAGCTGGCAAGAAAGGAAAGTGGGTAGGGCAGGGCTGGTGATTGCTTACTTCTTGGACTCAGGGTTTCACAGAGCATCAAGATCTAATAAGCTATGCTTCTTCTGTTACCACTCCTCTATCTCTGCCTCTCTCTGCTTCTAGCACCATCTTTTCCTTCCTGTCCAAGCTCAGCAATGACATCTCCATCCTTCCCTGAGCTCTTTATCAAAATTTCCAGTGCCCTTTTGATTGCACCAGGTATTAGAAAGGAATCCTTTGGCATTAGTCCAATTGATGATCTTCTGATCCTTTCTGAGAGGTTTGAATTTTTATAAAAGATATTTGATAACAAATCTCAAATTGTTCATTTTTTTAAACTTGTTATTTCTTCTTCCTTTTAACCATTTAGTCAACAAACATTTTGAGTACCTACTACTTGCTAGGTGTTCTAGGTGCTAGGGACAATCTTCTTCCTTCATAGGTCTGCTGCTTACCTACTTGCTAGGGAACTGATGGGGAGCCATTTCTCCTTTGGGAAACCTGGGTCTAGCACTGATGAAAGAAAGTTTCATGGTTGCTTGTCAACCCCATCCTCCAACCTGGGAGTGCCACAGAGGCCAGTGCAGAAACCAGGGTTCTCAGGGTTTGTGTGAGGGACCGAGTCTCTGGAACCTGGATTGGGGGAAGGCCATTTACTTTGAAGAGCAGGGGTTGGACCTGCTGGGAAAGGGGCCCCTTTTTCTATGAGCAGAACTGAACTGGATTTTTCATTTGCATTTCATGGGCAGCCTTGCCTTCAATGTCACTGATGAGGGAAACACCACATGGGATTTCTCAGGCCTCCTCCCCCTCCTTCTCAATGTCCCTCAAGGCAGCACCCACTCCCATTTGTTTCTCTCTTGGGTGGGAAGGTACATGACATGAAAAATGCTGAATCTCACATCAAGATGTCTTTCAAAAGATGAATGGGCAGATTCTTAGTATCATCTCAAAGCAGGCAAGGCAAAGGCAGGATATTTATGAGGTTTTGGAGTGTAGTTTGAGTCAGGCCTTTTGTTTCAGGGGACTTGATTAGAATCGGGTAATCTTGTGACATATTAGGGTTAGTGGACAGAATGAGGCAAGGGTTTTGAAGACAGTCTTGGACTGTAAACCATTGTTTGAGACTATATTGTAGTAGACATGGACTATGAATAGTCTAATGTTTATTTAAATAAATTTTCAGGATATTCTTGAAATGGATAATAAAGTTATTTGCAACTTTATCTTCCATGGCAAGAGTGTCCTGGAATAATAAATAATATTGATGAAGACAATGGATAATAAAGTCATGTTAATGTAGACAGTAAGCCCTGTGGGTATAGATAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATGGAAAACAAACTTTCAGGACCCTCTATATGGAAAAGGGCATAGGTGAAGCCTCCAAACCCTGGCCTCCATCCCTGGTCTGGGGATGAAGAAAAACCCTAAAAAAATCTCTCACTCTCCCATCTATTATGGTTGCTTCTAGCACTATTTGCCTTTATCACTACCTATAGGATCAACCTTGATATGCTCAAACTCCAGAAAACTCTACACTTGAAAGTCATGTGGATGGTAGAATACAATAAAAGCACTACTAACCTTTCAAACACTGTGTTGATGCTGGTTTCCTAGGCAGGAGGTGAGAAAAGAAGACTCCAAGGGAATGATCTTTTTTATTAATCTTTCAACTTACTGTAAAAATATAAATGATCACTGTTTTTCAAGCACTTAGCATCTAGAATGGGATCTTTATTTTTTGCTTTCTGAAAGACAAAACAGAACCAACAAAGTGGTCTAGGAAAAAAATCCTTGCACCCAGAAATCCAGAGAAAATGACGTATTCTCATTGGAGTACAGGTGAAAGAGGACTTCTGAGAGGGCCAGGCAAGGTGGCTCATGCCTGTAATTCCAATGCTGTGGGAGGCCGAGACTGGAGAATTGCTTGAGGCAGGAGTTTGAGATTAGCTAGGAAAACATAGTGAGACCCTGTCTCTACAAGAAATTATAAAATTAGCCAGGTGTAGTGGTACAGCTGCAATCCTAGTGCCTGAGGCAGGAGGATCGCTTGAGCCCACGGGTTTGAGTGTTATGGTGAGCTATAATCACACCACTGCACTCCAGCCTGGGTGATAGAGTAAGATCCTGTCTCAAAAAAACAAAAACAAAAACAAACTTCAAAGAAAATCCAAGTGTAACTGCTTGAATGTGTCCTCTCCCAAATTCAGGTGTTGCCAATGTGACACTATCAAGAGGTGGGGCTTTAAGAGGTGATTAGGCTATGAAGACTCCTCCCTCATGAATAGGATTCAGTTCCCATATAAAGGGCCTTGAGAGAGGGAGCTCCTCCCTTTTATCCTTCTGCCTTTTGCCATGTGAGGACACAACACTCCTCCCCTCTGGAGAATCCAACATTAAGGTGCCATCTTGCAAGTAGGATGCATCCTTCACTAGAGAAGCTGAACCTGCTGGTCTCTTGATCTTGGATTTCACAGCCTCCAGAATTATAAGAAAGTAAATTTCTCTTCTATAAAATACCCAGTCCCAGAAATTCTGTTATACCAGCACAAACAGACTAAAACAGCTTTCAAGTGTGATTAGAGTCAACAACCCTGACTAGGGTCAGTAATTGGGATGCTCTGTTATCTCTATTGCAAAGTTACTGCGTAACTCCAGGTGCACCACATTTTAGCATATTCCCACTTTGGCAACGTGGTGGTGGTGGTGGTGAAGGTGTCCAGACAGAGGGGGCAGTAAGAGGAAAAAGCCCTAAAATGGCTGGTATGTTTAACATAGGTTTCTTTAACTCCCCACAACCTGTAACTGGTACAAATAGGTTCACATTAGCATTAATTCCCTCATTTCAATGGCTCATCTTAGTTCTCTGCCTATGCTTTTCACTTATTTTCAGATGTCTCTAGAGATGTCTTACACGCACGCAATAATGGTCTTCTGTTCCTCTGCTCCACCTTCCTAGTTGGTGTCTATCACCCACAAGCCACTTAAGGAAAATGCTTTTCCTCTGCTGTGACTGCTGTTGTCCTTCATGAAATAAATACTGCCCAGCCCAGGAAGCAAGCTTCAGACACTCCGAAAGTCACAACACCCTTGAGATGCCAAATGACAATGTGTTCTGTAAATCAAACGACGTGACGGAGGTAAGTCTCAATCATTTTACAGGTTTATTTTGCCAAAATTGAGCATGTGCCTGGCAAAAAGGAACACAAAATCACAGGAACATCTGTGATCTGTGCTTTTTCCAAACAGGGTTTGAGAACTTTTGTATTTAAAGGGGAAAGAGCAGGCAGTAAGGGAAAGTGGAAAGAAAAGGGGGTAGGGTAAATAAAAGAGAAAAGCAATTGCATTCTTTTGAAGCTTTGATCAGCAGTCACTGAATCCATATTTTACATGTGAAAGAAGCGGGTAGAGGAAGAGTCAATTATGCATTCATCTGGTGTGTGGTTAATCTACATTTTTACGTAAAATAAACAGTAGATAACGCAGTCAAACATGCATTTGTCTTAAGTGAGGGAAGGATGACTCCTAATCCTGTCTTTGTCCCATACCTGTGAAGATAATCTGTTAATTTACATTGTTTGGGTGAAATTCAACAGAATTGTTTTAGGGTAAAGATCTTGGGGCCCACAAGGAATTTCCTTGTAAGCAAATTGTGAGGCAGGACCCTTGGGGAGGTCAGTAACCTTCTTTCTATCAATCTATTTAGGAACAAAATGGAAGGCAGTTTTGCATAACTCAGTTTTCAAGCTTGACTTTTCCCTGTGGCATAATGAGTTTGGGGTCCCAGATTTTTAGTTTCCTTTCACAGTGTTGTGGGACTTTTCCTTAGTTCAGCTAAAGGTGAGGTCCTTGTCACACGGCCACAAAATTTAGGGTCGCAATTTGAAGGGTGAGCAGGGCAGGGTTTATTGGGTGAAAAGGAAAAAAGGGAAACAGGGACCCTCTGCAAAGCCAGAGTCCCTGCTAGTGCGCTTCCAGCCTCTCAGTTCCCAGGTTCCACAAAGGAAGAGGAGGGGCCAGTCTCCTCCCCACTACAAACAGCACAAACTTCTGTGGCTCCACCCAGGTGTGCACTCCTCCCAGTGCATAGGCTGGTTGGAGTTTTGCCAGGGAGCCCTTCCCACCTAGCAGTTTCAACAGTTTTCTCCAGAACTTGTTAGACTGCTAAGCCACACCATATTATGTGCAGAAATGGGAATAACATCCCTTTCCCCCAATTTGAGTGGTAGGCTGTATTGCATAGTGCTTAAGAGCATGGGTTTGGAGGACAGAGATAGATTTTATTTATCTGACTCTAAAATATGAATTAAAAAAATCTATTTCACAAGGTTGTTATGTGGATTAAATTAGTGGCACAGAAAGCTGAAGATAGTGCAGCTCACTCTTCTGGACTTCATTAAAGTTCACTTTCAAATGTTTGTCTTTAACACTATCTCAGAGGCCTGTAGAAAAATGCCAAAAGGAAATGAAAACTTATATCCACACAAATATAGATAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATCTAAAATATGAATTAAAAAAATCTATTTCACAAGGTTGTTATGTGGATTAAATTAGTGGCACAGAAAGCTGAAGATAGTGCAGCTCACTCTTCTGGACTTCATTAAAGTTCACTTTCAAATGTTTGTCTTTAACACTATCTCAGAGGCCTGTAGAAAAATGCCAAAAGGAAATGAAAACTTATATCCACACAAATATAGATAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATCTAAAATATGAATTAAAAAAATCTATTTCACAAGGTTGTTATGTGGATTAAATTAGTGGCACAGAAAGCTGAAGATAGTGCAGCTCACTCTTCTGGACTTCATTAAAGTTCACTTTCAAATGTTTGTCTTTAACACTATCTCAGAGGCCTGTAGAAAAATGCCAAAAGGAAATGAAAACTTATATCCACACAAATATAGATAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATCTAAAATATGAATTAAAAAAATCTATTTCACAAGGTTGTTATGTGGATTAAATTAGTGGCACAGAAAGCTGAAGATAGTGCAGCTCACTCTTCTGGACTTCATTAAAGTTCACTTTCAAATGTTTGTCTTTAACACTATCTCAGAGGCCTGTAGAAAAATGCCAAAAGGAAATGAAAACTTATATCCACACAAATATAGATAATTTCAGTTCTCAAAGATTAATGGCAACAGTTATCATTTATTGAGTGGCTACTGCAGTATGTACTGGGCTGGCACTTTTAAGTTGCAATGGTCCTCTATTTTCTTCTGTCTTATTTTTTCCTCGTAAATTAAGCAGGTGTCAGCTCTGTATGCCTTTAGATGCTTGCTATTCAAACTGTGGTCCTGAGACCTGCAGCATCATCAGTATCACCCGGGAGCTTGTTACAAATGCAGACTCTCAGGCCCCACCACAGACCTACTAATTATAGTCTCCATTTTAACAAAATTTCCAGGAGAAGGGTGTACACATTAAAGTTGGTTAAAATTTTGGGCCATTTTTGGCAGAATGACATTAAAAATAAAAATTTTCGTTTCAGTTTAGAAACATTAAGGACCTCATGTTCATTGGCATCTAAGCTTTTGAACTACACTTGTTAGTATTTCATAGACATTATCTGATTTAATCCCTACAACAACCTATGAAGTAGGATTTTATGGATGAGAAAACAAAGACTCACAGTGGTGAAGCATCTAACTCAAGGTCACATCATCAGTATTAAGTGATAGAGCCAGGATTTGAATTCTGGTATGTCTTAACACAAAAGCCAAGGTTCTCAACCATAATGCCCTGCTGCCCCCTGAAGACTCTCTAGATGAGAGTTCCCCACCATCACACCCAGACTCCTGCCTTCATCTCCTAACAGCTCTACACATATCTACGTGGTGCCTTCTCTACCTCCTCCAAGCCAGATGTCTTGCACAATCCAGACCAAATCCAGACCACTGAGTACAATCTTTTTGACCTTCAGTCCACTGTCATGGTTGATATGCTTCTTCTGGATTGATGACAGAAAGTAGCCTCCCTACTTCTCAGACATATTCAGGCATAGGAATCTCTTCCCATGACTACCAATAACTTAGATTTCAGTGTACACCACCATCCTTTCTCTCTTCCTCAGAAACACGACCATCATTTGCCAGCACAAATGGAAAACAAACTTTCAGGACCCTCTATATGGAAAAGGGCATAGGTGAAGCCTCCAAACCCTGGCCTCCATCCCTGGTCTGGGGATGAAGAAAAACCCTAAAAAAATCTCTCACTCTCCCATCTATTATGGTTGCTTCTAGCACTATTTGCCTTTATCACTACCTATAGGATCAACCTTGATATGCTCAAACTCCAGAAAACTCTACACTTGAAAGTCATGTGGATGGTAGAATACAATAAAAGCACTACTAACCTTTCAAACACTGTGTTGATGCTGGTTTCCTAGGCAGGAGGTGAGAAAAGAAGACTCCAAGGGAATGATCTTTTTTATTAATCTTTCAACTTACTGTAAAAATATAAATGATCACTGTTTTTCAAGCACTTAGCATCTAGAATGGGATCTTTATTTTTTGCTTTCTGAAAGACAAAACAGAACCAACAAAGTGGTCTAGGAAAAAAATCCTTGCACCCAGAAATCCAGAGAAAATGACGTATTCTCATTGGAGTACAGGTGAAAGAGGACTTCTGAGAGGGCCAGGCAAGGTGGCTCATGCCTGTAATTCCAATGCTGTGGGAGGCCGAGACTGGAGAATTGCTTGAGGCAGGAGTTTGAGATTAGCTAGGAAAACATAGTGAGACCCTGTCTCTACAAGAAATTATAAAATTAGCCAGGTGTAGTGGTACAGCTGCAATCCTAGTGCCTGAGGCAGGAGGATCGCTTGAGCCCACGGGTTTGAGTGTTATGGTGAGCTATAATCACACCACTGCACTCCAGCCTGGGTGATAGAGTAAGATCCTGTCTCAAAAAAACAAAAACAAAAACAAACTTCAAAGAAAATCCAAGTGTAACTGCTTGAATGTGTCCTCTCCCAAATTCAGGTGTTGCCAATGTGACACTATCAAGAGGTGGGGCTTTAAGAGGTGATTAGGCTATGAAGACTCCTCCCTCATGAATAGGATTCAGTTCCCATATAAAGGGCCTTGAGAGAGGGAGCTCCTCCCTTTTATCCTTCTGCCTTTTGCCATGTGAGGACACAACACTCCTCCCCTCTGGAGAATCCAACATTAAGGTGCCATCTTGCAAGTAGGATGCATCCTTCACTAGAGAAGCTGAACCTGCTGGTCTCTTGATCTTGGATTTCACAGCCTCCAGAATTATAAGAAAGTAAATTTCTCTTCTATAAAATACCCAGTCCCAGAAATTCTGTTATACCAGCACAAACAGACTAAAACAGCTTTCAAGTGTGATTAGAGTCAACAACCCTGACTAGGGTCAGTAATTGGGATGCTCTGTTATCTCTATTGCAAAGTTACTGCGTAACTCCAGGTGCACCACATTTTAGCATATTCCCACTTTGGCAACGTGGTGGTGGTGGTGGTGAAGGTGTCCAGACAGAGGGGGCAGTAAGAGGAAAAAGCCCTAAAATGGCTGGTATGTTTAACATAGGTTTCTTTAACTCCCCACAACCTGTAACTGGTACAAATAGGTTCACATTAGCATTAATTCCCTCATTTCAATGGCTCATCTTAGTTCTCTGCCTATGCTTTTCACTTATTTTCAGATGTCTCTAGAGATGTCTTACACGCACGCAATAATGGTCTTCTGTTCCTCTGCTCCACCTTCCTAGTTGGTGTCTATCACCCACAAGCCACTTAAGGAAAATGCTTTTCCTCTGCTGTGACTGCTGTTGTCCTTCATGAAATAAATACTGCCCAGCCCAGGAAGCAAGCTTCAGACACTCCGAAAGTCACAACACCCTTGAGATGCCAAATGACAATGTGTTCTGTAAATCAAACGACGTGACGGAGGTAAGTCTCAATCATTTTACAGGTTTATTTTGCCAAAATTGAGCATGTGCCTGGCAAAAAGGAACACAAAATCACAGGAACATCTGTGATCTGTGCTTTTTCCAAACAGGGTTTGAGAACTTTTGTATTTAAAGGGGAAAGAGCAGGCAGTAAGGGAAAGTGGAAAGAAAAGGGGGTAGGGTAAATAAAAGAGAAAAGCAATTGCATTCTTTTGAAGCTTTGATCAGCAGTCACTGAATCCATATTTTACATGTGAAAGAAGCGGGTAGAGGAAGAGTCAATTATGCATTCATCTGGTGTGTGGTTAATCTACATTTTTACGTAAAATAAACAGTAGATAACGCAGTCAAACATGCATTTGTCTTAAGTGAGGGAAGGATGACTCCTAATCCTGTCTTTGTCCCATACCTGTGAAGATAATCTGTTAATTTACATTGTTTGGGTGAAATTCAACAGAATTGTTTTAGGGTAAAGATCTTGGGGCCCACAAGGAATTTCCTTGTAAGCAAATTGTGAGGCAGGACCCTTGGGGAGGTCAGTAACCTTCTTTCTATCAATCTATTTAGGAACAAAATGGAAGGCAGTTTTGCATAACTCAGTTTTCAAGCTTGACTTTTCCCTGTGGCATAATGAGTTTGGGGTCCCAGATTTTTAGTTTCCTTTCACAGTGTTGTGGGACTTTTCCTTAGTTCAGCTAAAGGTGAGGTCCTTGTCACACGGCCACAAAATTTAGGGTCGCAATTTGAAGGGTGAGCAGGGCAGGGTTTATTGGGTGAAAAGGAAAAAAGGGAAACAGGGACCCTCTGCAAAGCCAGAGTCCCTGCTAGTGCGCTTCCAGCCTCTCAGTTCCCAGGTTCCACAAAGGAAGAGGAGGGGCCAGTCTCCTCCCCACTACAAACAGCACAAACTTCTGTGGCTCCACCCAGGTGTGCACTCCTCCCAGTGCATAGGCTGGTTGGAGTTTTGCCAGGGAGCCCTTCCCACCTAGCAGTTTCAACAGTTTTCTCCAGAACTTGTTAGACTGCTAAGCCACACCATATTATGTGCAGAAATGGGAATAACATCCCTTTCCCCCAATTTGAGTGGTAGGCTGTATTGCATAGTGCTTAAGAGCATGGGTTTGGAGGACAGAGATAGATTTTATTTATCTGACAACTTTTACTTGAGTGTTGATAGTGGCATTATTCATAATGTCTCCAAAGTGGAAACCACCCATATGTCTACCAACAGACGAATGGATAAAGTATGATATAGCGCTGCAATGGAATATTATTTGGCAATAAAAAGAAATGAAGTACTAAAGCATGATATATACAAAGATGAACCTTGAAAACATCATGTTAAGTAAAAGAAGACAGTCATAAAAGTCATGTATTGCATGATTCTATTTATATGAAATGTCCAGAATAGGCAAATTCACTGAAAAAGGAAGTAGATTAGCGGTTGCCTAGAGCTGTGAGAATGGAGAGTTGGGGATGATAACTAAGGTATGAGAGATTTCTTTTTGAGGTGATTCAAATGTTCTAACTTGTGGTGATAGTTGCACAAGTCTGAATATATTAAAACCATTTAATCATATACTTTAAATGTGTGAATTAGATGATTTGTGAAGTAATGTTACCGTAGGTAGCTAGTCAAACATGAGCAGGGCAGGAGAGAGCTTCCCCCAACCCCCACCAGGAATGTCAGGCGACCGTCAGGTGATGGTCAGGCAGTTGTTAAGCTATCTCTCTAAAATAATAATTGGTTGCAGCCGGTGCCAGGGAACGGCAGCCTCCCAACAGATAGAAACATCTAAAACTGATGATCAGCAGCTTCCCAATAAGCTCTCAGGAGTTGGGCAAGTGGGCTCAAGCATGCGCACTAAGAGGGAAAGTGGCAGATGACCTTTGTTTAGGAACACTGGATTGGTAAGGGGAAAATGCCTCAAGTGAGCATGCACACTGTGCATGCGGCCCCTCCCAAGTGCTAGCAGGCCACTGTACATGTGGACAGCCCGCCCCAAGGGAAGAATCAGGGGAGAAGTAGTGCAAGACCCCGGAAGAATGCCAACATATAAAACCCCAAGTCGAAAGGTTAAACCGTACGCTTGATCTCTCAAGTTGCCCGCTTGGCCCTCTTCCGAGTGTACTTTACTTCCCTTCATTCCTGCTCTAAAGCTTTTTAACAAACTTTCACTCCTGCTCTAAAACTTGCCTTGGTCTCTCACTCTGCCTTATACCCCCTCAGTCTTCTGAGGAGGCAAGAATTCAGGTTGATGTAGACCCATATGGATTTGCCAGTGGTAACAATAAGAAATATACAGTCATCCTTCAATATCTGTGGGGGATTGGTTCTGGAATCCCCCCTCAGAAATTAAATCTATGATGCTCAAGTACCTTATATAACATGGTGTGGTATTTGCATATAACCTATACACTGCCTCCCATGTACTTTAAATCATCTCTAGATTCTTATTACAATGTAATGCTATGTAAATTGTTGTTACACTATATTTTTAAAATTTGTGTTATTTTAAATTGTTGTATTATTTTTTATTTATGTTTGTTATGTTTATGTTACGTATTATGTTTTCCAAATATTTTCATTGAATTTGCATTGAATTTACAGATGTAGAGGGCAGAGGGCTCATGGTGCATTTGGTCTTTGTCTTAGGTTTCTGGAGGATTCTGGCACACAGTTCCTAAATCCCTTAAAATCTCTAGAGGCATAAGGGTACTGTTTGTATGCTAATGAGATGATGGGTGGCTGGTGGGTGGGGGGCGGCTAGGGGGGACGGTCCCTAGACAGCTTCAGGTGGGGGCTGTTCACCAGAAAAACCTACAAGTGATTAGAGATTTGGAACTATCAGCTCCACTCACAGACCTCCAGGCAGAGAGAGAAGCTGAAGATGAGTTAACCACCTGTGGCCAATGATGTAATCAGTCATGCCTGTGAATGGAGCCTCCATTAAAACCTCCTAAATGAAGTAGTTCAGAGAGCTCCCGGGTTGGTGAACACATCAGGGATGCTGGAAGGGTGATGTGGCCCTGCTCCCATACCTTG

CCCCCTGCATCTCTTCCATTTGGCTGTTCCTGAGTTGTGTCCTGTACAATAAACTGGTAACGGTAAAGTTCTTTCTCAGTTCTGTGAGCCATTCAAGCAAATTATAAAACTCAAGGAGGGGGGTCCTGGGAACCCCTAGTTTATAGCTGGTCCATCTGGAAGGCTCAGACTTGCAATTAGCATCTGCAGTGAAGGGAGTCTTGTAGCACTGAGCCCTTAACCTGTGAGGCCTGCGCTAACTATGGGTAGCTATTGTCAGAACTGAATTGAATTGCAGAACACCCACTTGGTGTCTGGAGAGCTGGAGAGTTGGCTGGCAGGTGGAAAACCCCCTGCATTTGGTGCCAGCGGTGTTGTGAGCAAAGAGAACACAGATATCTCAGTAAAGCTGTTACTGAGAGTGCCTATAGGGGGCTTCCTTAGTAGCTTGAATTGGCCTACAATGATGGCTGGGCCTTCCCAGGCTATGATCCCTTCTGAGGAAATCTTGCCCGGACATCTCAGGCCTGCTCCTGACAGGGTGTAAAACCTTGAGCAAGTTACCTTGCTTCTCTGAGTGAATTTCCTCCTCTGTGATATGGGGATGAGAGTAGTACCTTCCGTATAATGACACAACACCAATTCTTTGCACAGTGTCTGGCAGATGGAATGATTTGGATAAATGTGAGCTAACATTATCAGGTGTGAAGTGCAGATAATAATATCTATCTCACAAGGTG

Page 3: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Comparación de secuenciasComparación de secuenciasComparación de secuenciasComparación de secuencias

La comparación de secuencias está en el corazón de la bioinformática.

Los usos son variados; innumerables problemas se reducen en algún momento a comparar dos secuencias, o un grupo de secuencias.

Y eso tiene que ver con que...

Nothing in biology makes sense except in the light of evolution!!

Page 4: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Comparación de secuenciasComparación de secuenciasComparación de secuenciasComparación de secuencias

Darwin:•Ancestro común•Descendencia con modificación

Por lo tanto, las secuencias:

•tienen ancestros comunes

•sufren modificaciones

•secuencias similares tienen funciones similares

Page 5: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Comparación de secuenciasComparación de secuenciasComparación de secuenciasComparación de secuencias

Pero el parentezco entre secuencias no sólo corresponde a parentezco entre especies: también hay familias de secuencias.

Árbol filogenético de las “globinas” humanas

Page 6: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Comparación de secuenciasComparación de secuenciasComparación de secuenciasComparación de secuencias

¿Para qué sirve comparar secuencias?

•Para determinar relaciones evolutivas entre especies.

•Para determinar relaciones evolutivas entre genes.

•La secuencia que acabo de obtener en el laboratorio, ¿está en la base de datos? ¿O alguna parecida?

¿O incluye trozos parecidos a algo conocido?

Page 7: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Comparación de secuenciasComparación de secuenciasComparación de secuenciasComparación de secuencias

¿Para qué sirve comparar secuencias?

•Para predecir función: si mi proteína NN se parece mucho a una, digamos, polimerasa... ¿será también polimerasa?

•Para predecir estructura: si conozco la estructura 3d de una secuencia parecida...

•Para predecir regulación: ¿a qué otras secuencias de control se parece la de este gen?

•Etc, etc, etc...

Page 8: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Comparación de secuencias: Comparación de secuencias: homologíahomología

Comparación de secuencias: Comparación de secuencias: homologíahomología

Homología: similaridad entre secuencias atribuída a que descienden de un ancestro común.

Hay dos tipos de homología. Las secuencias pueden ser:

•Ortólogas: secuencias homólogas en especies distintas, que divergieron por la divergencia de las especies.

•Parálogas: secuencias homólogas en una misma especie, que divergieron tras la duplicación de un gen.

Page 9: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Ortólogos:proteína RBP en varias especies de vertebrados

common carp

zebrafish

rainbow trout

teleost

African clawed frog

chicken

mouserat

rabbitcowpighorsehuman

10 cambios

Tienden a tener la misma función.

Comparación de secuencias: Comparación de secuencias: homologíahomología

Comparación de secuencias: Comparación de secuencias: homologíahomología

Page 10: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

apolipoprotein D

retinol-bindingprotein 4

Complementcomponent 8

prostaglandinD2 synthase

neutrophilgelatinase-associatedlipocalin

10 cambiosLipocalin 1Odorant-bindingprotein 2A

progestagen-associatedendometrialprotein

Alpha-1Microglobulin/bikunin

Parálogos

Alguna divergencia ocurre en la función.

Comparación de secuencias: Comparación de secuencias: homologíahomología

Comparación de secuencias: Comparación de secuencias: homologíahomología

Page 11: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Homólogos de los dos tipos:

Comparación de secuencias: Comparación de secuencias: homologíahomología

Comparación de secuencias: Comparación de secuencias: homologíahomología

Page 12: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Xenólogos: resultado de transferencias horizontales de genes (esos genes saltarines...)

E. coli

Comparación de secuencias: Comparación de secuencias: homologíahomología

Comparación de secuencias: Comparación de secuencias: homologíahomología

Page 13: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Similaridad: la medida en la cual dos secuencias (de nucleótidos o aminoácidos) están relacionadas.

Importan la identidad y la conservación de las “letras”.

•Identidad: no hubo cambio.

•Conservación: hubo cambio pero se mantuvieron propiedades físicas/químicas/funcionales relevantes (eso es más frecuente en aminoácidos).

Comparación de secuencias: Comparación de secuencias: similaridadsimilaridad

Comparación de secuencias: Comparación de secuencias: similaridadsimilaridad

Page 14: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alinemiento entre RBP4 y beta-lactoglobulina: 1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | . |. . . | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin

51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin

98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC 136 RBP || ||. | :.|||| | . .| 94 IPAVFKIDALNENKVL........VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin

137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || . | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin

| identidad. algo de conservación: alta conservación..... gaps (“indels”, inserción o eliminación)

Comparación de secuencias: Comparación de secuencias: similaridadsimilaridad

Comparación de secuencias: Comparación de secuencias: similaridadsimilaridad

Page 15: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Similaridad versus homología:

•Similaridad es entre secuencias; es cuantificable.•Homología requiere ancestro común; no es cuantificable.

Homología por lo general implica similaridad.

Similaridad no implica homología, ...aunque alta similaridad entre secuencias largas por lo general sí se considera evidencia de homología.

(La convergencia es rara; sólo se ve en secuencias cortas).

Comparación de secuencias: Comparación de secuencias: similaridadsimilaridad

Comparación de secuencias: Comparación de secuencias: similaridadsimilaridad

Page 16: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

La similaridad es variable, según qué cosa comparemos, y cómo comparemos.

¿Cómo evaluar similaridad?

¿Cómo encontrar los alineamientos?

¿Cómo saber si son significativos?

En proteínas un 25% de identidad probablemente indica homología

En DNA, es lo que se esperaría al azar!

Comparación de secuencias: Comparación de secuencias: similaridadsimilaridad

Comparación de secuencias: Comparación de secuencias: similaridadsimilaridad

Page 17: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

RBP4 vs beta-lactoglobulina

1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | . |. . . | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin

51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin

98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC 136 RBP || ||. | :.|||| | . .| 94 IPAVFKIDALNENKVL........VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin

137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || . | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin

Comparación de secuencias: Comparación de secuencias: similaridadsimilaridad

Comparación de secuencias: Comparación de secuencias: similaridadsimilaridad

Page 18: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

RBP humana vs RBP en trucha arcoiris

1 .MKWVWALLLLA.AWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDP 48 :: || || || .||.||. .| :|||:.|:.| |||.||||| 1 MLRICVALCALATCWA...QDCQVSNIQVMQNFDRSRYTGRWYAVAKKDP 47 . . . . . 49 EGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTED 98 |||| ||:||:|||||.|.|.||| ||| :||||:.||.| ||| || | 48 VGLFLLDNVVAQFSVDESGKMTATAHGRVIILNNWEMCANMFGTFEDTPD 97 . . . . . 99 PAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAVQYSCRLLNLDGTCADS 148 ||||||:||| ||:|| ||||||::||||| ||: |||| ..||||| | 98 PAKFKMRYWGAASYLQTGNDDHWVIDTDYDNYAIHYSCREVDLDGTCLDG 147 . . . . . 149 YSFVFSRDPNGLPPEAQKIVRQRQEELCLARQYRLIVHNGYCDGRSERNLL 199 |||:||| | || || |||| :..|:| .|| : | |:|: 148 YSFIFSRHPTGLRPEDQKIVTDKKKEICFLGKYRRVGHTGFCESS...... 192

Comparación de secuencias: Comparación de secuencias: similaridadsimilaridad

Comparación de secuencias: Comparación de secuencias: similaridadsimilaridad

Page 19: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento de secuenciasAlineamiento de secuenciasAlineamiento de secuenciasAlineamiento de secuencias

Tipos de alineamiento:

•De a pares: se alinean dos secuencias de la mejor manera posible para maximizar identidad y conservación; se busca evaluar similaridad, y posible homología.

•Múltiple: se alinea un grupo de secuencias ( no es lo mismo que alinearlas a todas de a pares!).

Page 20: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

El alineamiento múltiple (no lo veremos aún) ayuda a:

•hacer árboles filogenéticosmosca GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA humano GAKRVIISAP SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA planta GAKKVIISAP SAD.APM..F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA bacteria GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA levadura GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA archaea GADKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA

•detectar letras “importantes”~~~~~EIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTM LSFTLEEEDITGTWYAMVVDKDFPEDRRRKVSPVKVTALGGGNLEATFTFTKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHRVQENFDVNKYLGRWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTVVKENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTFLQQNFQDNQFQGKWYVVGLAGNAI.LREDKDPQKMYATIDKSYNVTSVLFVQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFLVQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEGEAEISMTSTRWPKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD...

•determinar patrones o secuencias de consenso

Alineamiento de secuenciasAlineamiento de secuenciasAlineamiento de secuenciasAlineamiento de secuencias

Page 21: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

La métrica que se usa es la distancia de Levenshtein o distancia de edición : es la longitud del proceso más corto para convertir una secuencia en otra, a través de pasos de inserción, borrado, o reemplazo (cada vez, de a una letra).

A G C A C A C - A A G - C A C A C A

A - C A C A C T A A C A C A C T - A La distancia de edición entre AGCACACA y ACACACTA

es 2

Alineamiento de secuenciasAlineamiento de secuenciasAlineamiento de secuenciasAlineamiento de secuencias

Page 22: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Problemas:

•Una única mutación que inserta o borra suele afectar a más de una posición; por lo tanto, un “hoyo” de largo k no debiera costar igual que k hoyos de largo 1.

Solución usual: puntaje afín para los hoyos, del tipo a+bk.

K L A A S V I L S D A L

K L A A - - - - S D A L

-10 + 3 x (-1)=-13

Alineamiento de secuenciasAlineamiento de secuenciasAlineamiento de secuenciasAlineamiento de secuencias

Page 23: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Problemas:

•Sólo se reconocen identidades; reemplazos conservativos requieren algún “puntaje” intermedio.

Se usan matrices de sustitución, que asocian un número a cada posible reemplazo de una letra por otra.

Hay que distinguir entre proteínas y ácidos nucléicos.

Alineamiento de secuenciasAlineamiento de secuenciasAlineamiento de secuenciasAlineamiento de secuencias

Page 24: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento: matrices de Alineamiento: matrices de sustituciónsustitución

Alineamiento: matrices de Alineamiento: matrices de sustituciónsustitución

Ácidos nucléicos:

El alfabeto ACGT se puede proyectar a un alfabeto binario de tres maneras distintas; cada una tiene cierto significado bioquímico:

•R={A,G}, Y={C,T} : purinas y pirimidinas, resp.•S={G,C}, W={A,T} : enlace fuerte o débil, resp.•K={T,G}, M={A,C}: expone grupo keto o amino, resp.

Si un reemplazo no cambia la distinción R/Y, se suele considerar conservativo; se llaman transiciones, y los otros reemplazos son transversiones.

Page 25: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Proteínas:

Serina (S) y treonina (T) tienen propiedades parecidas; el ácido aspártico (D) y el ácido glutámico (E) también.

El reemplazo S/T o E/D es frecuente durante la evolución. El “costo” no debería ser muy inferior al de la identidad.

Alineamiento: matrices de Alineamiento: matrices de sustituciónsustitución

Alineamiento: matrices de Alineamiento: matrices de sustituciónsustitución

Page 26: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Fuentes posibles para crear las matrices:

•Propiedades fisico/químicas de los aminoácidos.

•Frecuencia empírica de reemplazos observados en proteínas claramente homólogas.

En la práctica resultan ser criterios parecidos.

Se usa lo segundo.

Alineamiento: matrices de Alineamiento: matrices de sustituciónsustitución

Alineamiento: matrices de Alineamiento: matrices de sustituciónsustitución

Page 27: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Son dos los grupos de matrices más usados:

•PAM (Dayhoff, 1978)•BLOSUM (Henikoff & Henikoff, 1992)

casi han reemplazado a las PAM

En la matriz se pone el odds ratio:

Alineamiento: matrices de Alineamiento: matrices de sustituciónsustitución

Alineamiento: matrices de Alineamiento: matrices de sustituciónsustitución

el logaritmo de la probabilidad de la sustitución, dividida por la probabilidad de que las letras alineadas estén allí al azar (qi y qj son las frecuencias absolutas).

¿Por qué logaritmo? Para poder trabajar con números de magnitudes similares, y para poder sumar en vez de multiplicar.

Page 28: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

PAM:

•PAM1 se construye con la prob. de reemplazo para un nivel de divergencia de 1% (1 aminoácido de cada 100), que sería aproximadamente un millón de años.

•PAMn, para divergencias mayores, se construye calculando potencia n-ésima de PAM1.

BLOSUM:

•Para BLOSUMn, se usan alineamientos locales de un mismo largo (sin gaps) de proteínas con al menos n% de identidad. No se extrapola nada.

Alineamiento: matrices de Alineamiento: matrices de sustituciónsustitución

Alineamiento: matrices de Alineamiento: matrices de sustituciónsustitución

Page 29: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

PAM250A R N D C Q E G H I L K M F P S T W Y V

A 2

R -2 6

N 0 0 2

D 0 -1 2 4

C -2 -4 -4 -5 4

Q 0 1 1 2 -5 4

E 0 -1 1 3 -5 2 4

G 1 -3 0 1 -3 -1 0 5

H -1 2 2 1 -3 3 1 -2 6

I -1 -2 -2 -2 -2 -2 -2 -3 -2 5

L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6

K -1 3 1 0 -5 1 0 -2 0 -2 -3 5

M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6

F -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9

P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6

S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 3

T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -2 0 1 3

W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17

Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10

V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4

Alineamiento: matrices de Alineamiento: matrices de sustituciónsustitución

Alineamiento: matrices de Alineamiento: matrices de sustituciónsustitución

Page 30: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

A 4 R -1 5 N -2 0 6 D -2 -2 1 6 C 0 -3 -3 -3 9 Q -1 1 0 0 -3 5 E -1 0 0 2 -4 2 5 G 0 -2 0 -1 -3 -2 -2 6 H -2 0 1 -1 -3 0 0 -2 8 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 K -1 2 0 -1 -1 1 1 -2 -1 -3 -2 5 M -1 -2 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 A R N D C Q E G H I L K M F P S T W Y V

BLOSUM62

Alineamiento: matrices de Alineamiento: matrices de sustituciónsustitución

Alineamiento: matrices de Alineamiento: matrices de sustituciónsustitución

100

62

30

Usa

est

as

Page 31: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

La matriz que corresponda usar depende de qué tan lejanas son las secuencias que se están comparando.

RBP de ratón vs RBP de rata

•Polimerasa de ratón vs polimerasa de bacteria•Globinas humanas distantes

Alineamiento: matrices de Alineamiento: matrices de sustituciónsustitución

Alineamiento: matrices de Alineamiento: matrices de sustituciónsustitución

Page 32: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Resumiendo, el puntaje de un alineamiento dependerá (aditivamente) de:

•La matriz de sustitución, que le pone puntaje al reemplazo de una letra por otra

•La penalización de gaps

Con eso se están haciendo varias simplificaciones:

•Que haya independencia entre posiciones.•Que no haya zonas más mutables.•Que todas las secuencias cambian al mismo ritmo...

AlineamientoAlineamientoAlineamientoAlineamiento

Page 33: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

¿Que todas las secuencias cambian al mismo ritmo?

AlineamientoAlineamientoAlineamientoAlineamiento

human (NP_005203) versus mouse (NP_031812) kappa casein

human (NP_005203) versus mouse (NP_031812) ubiquitin

33 PAM para kappa-caseína, 0 PAM para ubiquitina!Pero ok, se hace la simplificación.

Page 34: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Una herramienta simple pero útil: dot plots.

Alineamiento: dot plotsAlineamiento: dot plotsAlineamiento: dot plotsAlineamiento: dot plots

A C D E F G H G

GHGFEDCA

Ponemos una secuencia en una fila, la otra en una columna, y un punto por cada coincidencia.

Se suelen unir con líneas los puntos contiguos de una diagonal.

En uso desde los 70s.

Page 35: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Refinamiento más reciente:Sólo poner el punto si en una ventana de tamaño w, hay s coincidencias (se elimina “ruido” poco significativo).

Alineamiento: dot plotsAlineamiento: dot plotsAlineamiento: dot plotsAlineamiento: dot plots

a

beta-human.pep ck: 1,242, 1 to 146

0

50

100

150

100500

Mioglobina vs beta-globina (humanas)

Page 36: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento: dot plotsAlineamiento: dot plotsAlineamiento: dot plotsAlineamiento: dot plots

Receptor LDL humano vs sí mismo

a

ldlrecep.pep ck: 3,641, 1 to 860

0

200

400

600

800

8006004002000

ldlrecep.pep ck: 3,641, 1 to 860

0

200

400

600

800

8006004002000

COMPARE Window: 40 Stringency: 20.0 Points: 2,295

ldlrecep.pep ck: 3,641, 1 to 860

w=30, s=9

w=40, s=20

Page 37: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento: dot plotsAlineamiento: dot plotsAlineamiento: dot plotsAlineamiento: dot plots

Conviene hacerlos antes de aplicar algoritmos; puede haber algo evidente que salte a la vista.

¿Qué se puede ver?

Similaridad entre dos secuencias

Secuencias repetitivas

Palíndromes (que existen!)

Segmentos compartidos, aunque esté cambiado el orden, o haya bloques insertados.

Page 38: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento: local y globalAlineamiento: local y globalAlineamiento: local y globalAlineamiento: local y global

Se pueden buscar alineamientos locales o globales :

•Global: se alinea una secuencia completa contra otra secuencia completa. Suele ser útil para secuencias similares, y/o de tamaños parecidos.

•Local: se alinea un tramo de una secuencia con un tramo de la otra, de la mejor manera posible.

Page 39: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento globalAlineamiento globalAlineamiento globalAlineamiento global

Podemos ver un alineamiento como un camino en una matriz similar al dotplot:

•Avanzamos hacia la derecha y hacia abajo.

•Vamos de la esquina en que comienzan las secuencias, hasta la esquina en que terminan.

Horizontal o vertical gap

Diagonal identidad o reemplazo

Page 40: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento globalAlineamiento globalAlineamiento globalAlineamiento global

Para dos proteínas de 100 aá, los posibles alineamientos son 1060.

AGTGCCCTGGAACCCTGACGGTGGGTCACAAAACTTCTGGA

AGTGACCTGGGAAGACCCTGACCCTGGGTCACAAAACTC

En general, la cantidad de alineamientos es O(2n+m).

Por suerte, existe un algoritmo de programación dinámica: Needleman & Wunsch, 1970.

Page 41: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento globalAlineamiento globalAlineamiento globalAlineamiento global

A cada punto podemos llegar por sólo tres caminos.

T C G C A

T

C

C

A

x

Page 42: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento globalAlineamiento globalAlineamiento globalAlineamiento global

A cada punto podemos llegar por sólo tres caminos.

T C G C A

T

C

C

A

x

score(x,y) = max

score(x,y-1) - gap-penalty

Page 43: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento globalAlineamiento globalAlineamiento globalAlineamiento global

A cada punto podemos llegar por sólo tres caminos.

T C G C A

T

C

C

A

x

score(x,y) = max

score(x,y-1) - gap-penalty

score(x-1,y-1) + substitution-score(x,y)

Page 44: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento globalAlineamiento globalAlineamiento globalAlineamiento global

T C G C A

T

C

C

A

x

score(x,y) = max

score(x,y-1) - gap-penalty

score(x-1,y-1) + substitution-score(x,y)

score(x-1,y) - gap-penalty

A cada punto podemos llegar por sólo tres caminos.Una vez que llegamos al final, desandamos lo andado para determinar la ruta óptima.

Page 45: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Seq2(j) A R T S

Seq1(i) 0 1 2 3 4

0

M 1

A 2

T 3

H 4

S 5

Alineamiento globalAlineamiento globalAlineamiento globalAlineamiento global

Page 46: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Seq2(j) A R T S

Seq1(i) 0 1 2 3 4

0 0

M 1

A 2

T 3

H 4

S 5

Alineamiento globalAlineamiento globalAlineamiento globalAlineamiento global

Page 47: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Seq2(j) A R T S

Seq1(i) 0 1 2 3 4

0 0 1

M 1

A 2

T 3

H 4

S 5

Alineamiento globalAlineamiento globalAlineamiento globalAlineamiento global

Page 48: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Seq2(j) A R T S

Seq1(i) 0 1 2 3 4

0 0 1 2

M 1

A 2

T 3

H 4

S 5

Alineamiento globalAlineamiento globalAlineamiento globalAlineamiento global

Page 49: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Seq2(j) A R T S

Seq1(i) 0 1 2 3 4

0 0 1 2 3 4

M 1 1

A 2 2

T 3 3

H 4 4

S 5 5

Alineamiento globalAlineamiento globalAlineamiento globalAlineamiento global

Page 50: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Seq2(j) A R T S

Seq1(i) 0 1 2 3 4

0 0 1 2 3 4

M 1 1 1

A 2 2

T 3 3

H 4 4

S 5 5

Alineamiento globalAlineamiento globalAlineamiento globalAlineamiento global

Page 51: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Seq2(j) A R T S

Seq1(i) 0 1 2 3 4

0 0 1 2 3 4

M 1 1 1 2

A 2 2

T 3 3

H 4 4

S 5 5

Alineamiento globalAlineamiento globalAlineamiento globalAlineamiento global

Page 52: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Seq2(j) A R T S

Seq1(i) 0 1 2 3 4

0 0 1 2 3 4

M 1 1 1 2 3 4

A 2 2 1 2 3 4

T 3 3

H 4 4

S 5 5

Alineamiento globalAlineamiento globalAlineamiento globalAlineamiento global

Page 53: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Seq2(j) A R T S

Seq1(i) 0 1 2 3 4

0 0 1 2 3 4

M 1 1 1 2 3 4

A 2 2 1 2 3 4

T 3 3 2 2 2 3

H 4 4

S 5 5

Alineamiento globalAlineamiento globalAlineamiento globalAlineamiento global

Page 54: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Seq2(j) A R T S

Seq1(i) 0 1 2 3 4

0 0 1 2 3 4

M 1 1 1 2 3 4

A 2 2 1 2 3 4

T 3 3 2 2 2 3

H 4 4 3 3 3 3

S 5 5 4 4 4 3

Alineamiento globalAlineamiento globalAlineamiento globalAlineamiento global

Page 55: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Seq2(j) A R T S

Seq1(i) 0 1 2 3 4

0 0 1 2 3 4

M 1 1 1 2 3 4

A 2 2 1 2 3 4

T 3 3 2 2 2 3

H 4 4 3 3 3 3

S 5 5 4 4 4 3

Alineamiento globalAlineamiento globalAlineamiento globalAlineamiento global

Page 56: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento globalAlineamiento globalAlineamiento globalAlineamiento global

•El alineamiento no es necesariamente único:

MATHS MA-THS MATHS

-ARTS -ART-S ART-S

•Si los gaps tienen costo afín, se usan tres matrices, pero la idea es la misma.

•El algoritmo corre en tiempo O(mn), y ocupa espacio O(mn).

•Se puede arreglar para que el espacio sea O(max{m,n}).

Page 57: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento localAlineamiento localAlineamiento localAlineamiento local

Alineamientos locales: buscar un buen alineamiento entre segmentos, y extenderlo sólo mientras siga siendo bueno (no más allá).

Alineamiento global

Sec 1

Sec 2

Alineamiento local

Page 58: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento localAlineamiento localAlineamiento localAlineamiento local

Algoritmo Smith-Waterman, 1982:

Después de 12 años, se le agrega un 0 al algoritmo de N&W

score(x,y) = max

score(x,y-1) - gap-penalty

score(x-1,y-1) + substitution-score(x,y)

score(x-1,y) - gap-penalty

0

•Al terminar, busco el valor más grande en la tabla.•Me devuelvo por ruta óptima hasta encontrar un 0.

Page 59: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento localAlineamiento localAlineamiento localAlineamiento local

Algoritmo Smith-Waterman

Page 60: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

AlineamientoAlineamientoAlineamientoAlineamiento

NW y SW son óptimos, aunque no necesariamente sean el alineamiento biológicamente correcto. Lo realmente malo es el orden cuadrático.

Base de datos

Secuencia de Consulta

Page 61: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

AlineamientoAlineamientoAlineamientoAlineamiento

Page 62: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

AlineamientoAlineamientoAlineamientoAlineamiento

Contra una base de datos, por lo general:

se buscan alineamientos locales se usan heurísticas

Se desea buena sensitividad (evitar falsos negativos) y especificidad (evitar falsos positivos).

Los dos algoritmos (o familias de) principales son FASTA y BLAST.

Ambos parten buscando bloques de identidades, mediante matches de palabras (substrings cortos).

Page 63: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento - FASTAAlineamiento - FASTAAlineamiento - FASTAAlineamiento - FASTA

FASTA :

Lippman & Pearson, 1985 (para proteínas), 1988 (nucleótidos).

•Ubica los mejores tramos diagonales de identidades.

•Los recalcula con PAM.

•Se queda con los 10 mejores.

Page 64: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento - FASTAAlineamiento - FASTAAlineamiento - FASTAAlineamiento - FASTA

FASTA :

•Busca una cuasi-diagonal que recorra la mayoría

•Aplica SW sobre una ventana en torno a eso.

Acelera un orden de magnitud, respecto a SW.

Page 65: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento - BLASTAlineamiento - BLASTAlineamiento - BLASTAlineamiento - BLAST

BLAST (Karlin & Altschul, 1990, 1993):

•Indexa las palabras de un cierto largo k (para la base de datos, lo hace antes).

•A partir del query, genera una lista L de todas las palabras de largo k, y a partir de esas, una lista de palabras de largo k que darían un puntaje sobre un umbral T si se alinearan con alguna de L.

Ejemplo: Si el query contiene AIV, AIA da un puntaje de 4+4+0 y AII da un puntaje de 4+4+3. Con T =10, tomo AII.

Page 66: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento - BLASTAlineamiento - BLASTAlineamiento - BLASTAlineamiento - BLAST

BLAST :

Típicamente eso genera ~50 palabras a partir de la secuencia query.

•Busca matchs exactos de palabras.

•Extiende esos match en ambas direcciones, mientras eso genere alineamiento significativo. extensiones

Page 67: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

AlineamientoAlineamientoAlineamientoAlineamiento

De FASTA y de BLAST (sobre todo de BLAST) existen distintas variantes:

•con énfasis locales o globales, •mejoras para proteínas o DNA, •previsiones para bases de datos grandes, •etc...

Se pueden bajar, o utilizar en servidores.

Se pueden usar en la web de manera interactiva, o desde software local (hay API del uso vía URLs).

Page 68: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

AlineamientoAlineamientoAlineamientoAlineamiento

Por lo general, FASTA resulta mejor para nucleótidos, y BLAST, para proteínas.

•Velocidad: BLAST > FASTA > SW

•Sensitividad: BLAST < FASTA < SW

Pero ojo, ambas familias están en permanente evolución, y en BLAST hay mucha gente trabajando.

* Cuando se comparan secuencias que codifican proteínas, por lo general es preferible comparar las proteínas, no sus DNAs.

Page 69: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

AlineamientoAlineamientoAlineamientoAlineamiento

Sabores principales de BLAST (hay equiv. FASTA):

•BLASTN: query de nucleótidos, BD de nucleótidos.•BLASTP: query de proteína, BD de proteínas.

Esas son simples. Las que siguen, consideran los 6 marcos de lectura posible (mirando ambas hebras del DNA, y partiendo la traducción desde la primera, segunda o tercera letra):

•BLASTX: query de nucleótidos, BD de proteínas.•TBLAST: query de proteína, BD de nucleótidos.•TBLASTX: query de nucleótidos, BD de nucleótidos

Page 70: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

SignificatividadSignificatividadSignificatividadSignificatividad

Al hacer una búsqueda contra una base de datos y encontrar un match, se suele informar el p-value y el E-value asociados al puntaje obtenido.

p-value: probabilidad de obtener ese puntaje o uno mejor, por simple azar.

E-value: el p-value multiplicado por la cantidad de secuencias en la base de datos (ergo, cantidad de matches así de buenos que cabe esperar al azar).

Page 71: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

SignificatividadSignificatividadSignificatividadSignificatividad

No existe buena teoría estadística para los valores E y p, en el caso más general.

Para el caso de alineamiento local de dos secuencias de largo n y m, sin gaps, en la aproximación de n y m grandes, se tiene

E mn K e-S

donde K y S reflejan el espacio de búsqueda y la puntuación, respectivamente.

Esto es el E-value de los HSP (high scoring segments, los tramos no-extendibles del alineamiento local).

Bit score: S’ = (S- ln K) / ln 2

Page 72: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

SignificatividadSignificatividadSignificatividadSignificatividad

Para bases de datos, o para el caso general con gaps, la distribución para el p-value se determina empíricamente. NO sigue una normal; es una distribución de valores extremos, pero depende de la base de datos.En los servidores, los datos están precalculados.

BLAST suele subestimar el E-value; hay que creerle sólo a valores chicos. 0.02 a 0.05 pueden ser de interés.

Page 73: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

SignificatividadSignificatividadSignificatividadSignificatividad

Conviene probar con versiones “rebarajadas” de nuestra secuencia. En general, tener ojo con la composición, repeticiones, etc.

0

2

4

6

8

10

12

14

16

1 10 19 28 37

100 random shufflesMean score = 8.4Std. dev. = 4.5

score

mero

de in

stan

cias

Score obtenido = 37

Page 74: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento bayesianoAlineamiento bayesianoAlineamiento bayesianoAlineamiento bayesiano

Una alternativa reciente:

Nucleic Acids Research, 2002, Vol. 30, No. 5 1268-1277BALSA: Bayesian algorithm for local sequence alignment Bobbie-Jo M. Webb, Jun S. Liu and Charles E. Lawrence

•Se consideran varias matrices de sustitución y penalizaciones de gaps (con alguna distribución de probabilidad a priori). •Se entrega una función P(i,j) con la probabilidad de que la letra i-ésima de la primera secuencia se alinee con la j-ésima de la segunda.•Se entrega también una distribución a posteriori para las matrices y penalizaciones.

Page 75: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Alineamiento bayesianoAlineamiento bayesianoAlineamiento bayesianoAlineamiento bayesiano

Desventajas:•mayor trabajo de cómputo•no entrega directamente un alineamiento [pero se puede reconstruir uno, por ejemplo recorriendo de (0,0) a (m,n) por la ruta que sume más P(i,j).]

Ventajas:•formaliza el proceso de “tantear” con distintas matrices de sustitución hasta tener una que refleje (y prediga) la distancia evolutiva entre las secuencias.•permite observar distintos niveles de confianza a lo largo del alineamiento

Page 76: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Breve nota sobre lenguajeBreve nota sobre lenguajeBreve nota sobre lenguajeBreve nota sobre lenguaje

“Residuo”: sinónimo de aminoácido (letra de proteína).

“Base”: sinónimo de nucleótido (letra de DNA o RNA).

También se habla de “base pair” para referirse a las bases (pensando en que el DNA tiene dos hebras). No es lo mismo que un dinucleótido (que es una palabra de DNA de largo 2).

Page 77: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Breve nota sobre “Organismos Breve nota sobre “Organismos modelos”modelos”

Breve nota sobre “Organismos Breve nota sobre “Organismos modelos”modelos”

Organismos modelos:

•Los estudios se concentran en ciertas especies, por economías de escala (de varios tipos)

•Se escogen especies fáciles de tratar, con ciclos de vida rápidos, tamaño relativamente pequeño, y a veces con algún interés específico.

•No están repartidos de manera representativa de la diversidad del árbol de la vida; sesgo (práctico) hacia los eucariotas, los metazoos (=animales), los vertebrados.

Page 78: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Breve nota sobre “Organismos Breve nota sobre “Organismos modelos”modelos”

Breve nota sobre “Organismos Breve nota sobre “Organismos modelos”modelos”

La lista es larga. Principales:

Mamíferos•Homo sapiens (humano)•Canis lupus familiaris (perro)•Mus musculus (ratón)•Cavia porcellus (conejillo de indias)•Rattus norvegicus (rata)

Otros vertebrados:•Gallus gallus domesticus (gallina)•Danio rerio (pez zebra)•Xenopus laevis (una rana africana)

Page 79: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Breve nota sobre “Organismos Breve nota sobre “Organismos modelos”modelos”

Breve nota sobre “Organismos Breve nota sobre “Organismos modelos”modelos”

Invertebrados:•Caenorhabditis elegans (un gusano nemátodo)•Drosophila melanogaster (mosca de la fruta)•Arbacia punctulata (erizo de mar, “sea urchin”)

Plantas:•Arabidopsis thaliana (mostaza)•Nicotiana tabaccum (tabaco)•Oryza sativa (arroz)•Zea mays (choclo)

Page 80: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Breve nota sobre “Organismos Breve nota sobre “Organismos modelos”modelos”

Breve nota sobre “Organismos Breve nota sobre “Organismos modelos”modelos”

Hongos:•Saccharomyces cerevisiae (levadura de la cerveza y el pan)

•Schizosaccharomyces pombe (otra levadura)•Neurospora crassa (moho de pan)

Protistas:•Dictyostelium discoideum (ameba social)•Tetrahymena thermophila (un protozoo ciliado)•Chlamydomonas reinhardtii (alga unicelular)

Page 81: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Breve nota sobre “Organismos Breve nota sobre “Organismos modelos”modelos”

Breve nota sobre “Organismos Breve nota sobre “Organismos modelos”modelos”

Bacterias:•Escherichia coli •Bacilus subtilis (bacilo, vive en el suelo)•Mycoplasma genitalium (diminuta!)•Vibrio fischeri (marino, luminoso)

Virus:•Tobacco mosaic virus (un virus de RNA, en tabaco) fago (ataca a E. coli)•HIV (virus del sida)

Page 82: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Breve nota sobre software Breve nota sobre software bioinformáticobioinformático

Breve nota sobre software Breve nota sobre software bioinformáticobioinformático

•Hay mucho.•Mucho es libre, y/o de código abierto.

Lenguajes frecuentes:•Java (particularmente aplicaciones individuales)•C, C++ (todo lo que tiene que andar rápido)•Perl (operaciones sobre secuencias)•Python (crecientemente)

•Muchos servicios online, utilizables vía web o vía URLs.•Librerías bajables que conviene reutilizar.

•Hay mucho.

Page 83: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Breve nota sobre datos Breve nota sobre datos bioinformáticosbioinformáticos

Breve nota sobre datos Breve nota sobre datos bioinformáticosbioinformáticos

•Hay muuuuchos, de diversos tipos.

•Existen bases de datos de bases de datos.

•Al comienzo de cada año, número especial de Nucleic Acid Research con las novedades más importantes.

•Por lo general, mucha cross-reference entre las BD.

Mencionaremos por ahora sólo el punto de entrada al núcleo y punto de partida de los datos: Genbank.

Page 84: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Bases de datos: el núcleoBases de datos: el núcleoBases de datos: el núcleoBases de datos: el núcleo

GenBank

DDBJEMBL

EMBLEMBL

Entrez

SRS

getentry

NIGNIGCIB EBI

NCBI

NIHNIH

•Submissions•Updates

•Submissions•Updates

•Submissions•Updates

Page 85: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

NCBI - EntrezNCBI - EntrezNCBI - EntrezNCBI - Entrez

EntrezEntrez

PopSet

Structure

PubMed

Books

3D Domains

Taxonomy

GEO/GDS

UniGene

Nucleotide

Protein Genome

OMIM

CDD/CDART

Journals

SNP

UniSTS

PubMed Central

Gene

HomoloGene

Page 86: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Bases de datosBases de datosBases de datosBases de datos

•GenBank/DDBJ/EMBL es BD de nucleótidos.•Son secuencias primarias: información “en bruto”, con las anotaciones que los autores hayan provisto.•RefSeq (en el NCBI) es una BD curada; contiene información tomada de GenBank pero comparada y anotada; es como un review.

•Para proteínas: UniProt incluye una parte curada y con mucha información (SwissProt) y una parte no curada que simplemente traduce las secuencias de GenBank: TrEMBL.

Page 87: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Bases de datosBases de datosBases de datosBases de datos

¿De dónde sale la información primaria?

•De gente que está investigando un gen entradas cortas, organismos típicos, muy bien anotadas

•De gente que está investigando filogenia o genética de poblaciones: secuencias de organismos atípicos; por lo general cortas, con diversas versiones

•Proyectos de secuenciamiento: entradas cortas, productos intermedios en las técnicas de secuenciamiento. entradas largas, con nivel de anotación dependiente del nivel de avance del proyecto.

Page 88: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Bases de datos: formatos básicosBases de datos: formatos básicosBases de datos: formatos básicosBases de datos: formatos básicos

Formatos elementales para secuencias de ácidos nucléicos o proteínas:

•Texto plano (sólo las letras de una secuencia!)•FASTA•Genbank•ASN.1 (como referencia)•XML (para parsearlo)

Page 89: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Bases de datos: formatos básicosBases de datos: formatos básicosBases de datos: formatos básicosBases de datos: formatos básicos

•Línea de descripción que parte con “>”.•Lo primero en esa línea es un identificador; sigue la descripción.•Formato bastante libre.•Se recomienda que las líneas no pasen de 80 caract.•Si vuelve a aparecer un “>”, es que sigue otra secuencia.

>gi|121066|sp|P03069|GCN4_YEAST GENERAL CONTROL PROTEIN GCN4MSEYQPSLFALNPMGFSPLDGSKSTNENVSASTSTAKPMVGQLIFDKFIKTEEDPIIKQDTPSNLDFDFALPQTATAPDAKTVLPIPELDDAVVESFFSSSTDSTPMFEYENLEDNSKEWTSLFDNDIPVTTDDVSLADKAIESTEEVSLVPSNLEVSTTSFLPTPVLEDAKLTQTRKVKKPNSVVKKSHHVGKDDESRLDHLGVVAYNRKQRSIPLSPIVPESSDPAALKRARNTEAARRSRARKLQRMKQLEDKVEELLSKNYHLENEVARLKKLVGER

Formato FASTA:

Page 90: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Bases de datos: formatos básicosBases de datos: formatos básicosBases de datos: formatos básicosBases de datos: formatos básicos

Letras estandar:

Page 91: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Bases de datos: formatos básicosBases de datos: formatos básicosBases de datos: formatos básicosBases de datos: formatos básicos

Genbank:

•Información preliminar sobre la secuencia: título, taxonomía, referencia.•Tabla de features : cosas que se encuentran en la secuencia. Cada feature puede tener qualifiers.•La secuencia misma.•Un “//” indica fin de la entrada; después puede comenzar otra.

LOCUS MUSNGH 1803 bp mRNA ROD 29-AUG-1997DEFINITION Mouse neuroblastoma and rat glioma hybridoma cell line NG108-15 cell TA20 mRNA, complete cds.ACCESSION D25291NID g1850791KEYWORDS neurite extension activity; growth arrest; TA20.SOURCE Murinae gen. sp. mouse neuroblastma-rat glioma hybridoma cell_line:NG108-15 cDNA to mRNA. ORGANISM Murinae gen. sp. Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae.REFERENCE 1 (sites) AUTHORS Tohda,C., Nagai,S., Tohda,M. and Nomura,Y. TITLE A novel factor, TA20, involved in neuronal differentiation: cDNA cloning and expression JOURNAL Neurosci. Res. 23 (1), 21-27 (1995) MEDLINE 96064354REFERENCE 3 (bases 1 to 1803) AUTHORS Tohda,C. TITLE Direct Submission JOURNAL Submitted (18-NOV-1993) to the DDBJ/EMBL/GenBank databases. Chihiro Tohda, Toyama Medical and Pharmaceutical University, Research Institute for Wakan-yaku, Analytical Research Center for Ethnomedicines; 2630 Sugitani, Toyama, Toyama 930-01, Japan (E-mail:[email protected], Tel:+81-764-34-2281(ex.2841), Fax:+81-764-34-5057)COMMENT On Feb 26, 1997 this sequence version replaced gi:793764.FEATURES Location/Qualifiers source 1..1803 /organism="Murinae gen. sp." /note="source origin of sequence, either mouse or rat, has not been identified" /db_xref="taxon:39108" /cell_line="NG108-15" /cell_type="mouse neuroblastma-rat glioma hybridoma" misc_signal 156..163 /note="AP-2 binding site" GC_signal 647..655 /note="Sp1 binding site" TATA_signal 694..701 gene 748..1311 /gene="TA20" CDS 748..1311 /gene="TA20" /function="neurite extensiion activity and growth arrest effect" /codon_start=1 /db_xref="PID:d1005516" /db_xref="PID:g793765" /translation="MMKLWVPSRSLPNSPNHYRSFLSHTLHIRYNNSLFISNTHLSRR KLRVTNPIYTRKRSLNIFYLLIPSCRTRLILWIIYIYRNLKHWSTSTVRSHSHSIYRL RPSMRTNIILRCHSYYKPPISHPIYWNNPSRMNLRGLLSRQSHLDPILRFPLHLTIYY RGPSNRSPPLPPRNRIKQPNRIKLRCR" polyA_site 1803BASE COUNT 507 a 458 c 311 g 527 tORIGIN 1 tcagtttttt tttttttttt tttttttttt tttttttttt tttttttttg ttgattcatg 61 tccgtttaca tttggtaagt tcacaggcct cagtcaacac aattggactg ctcaggaaat 121 cctccttggt gaccgcagta tacttggcct atgaacccaa gccacctatg gctaggtagg 181 agaagctcaa ctgtagggct gactttggaa gagaatgcac atggctgtat cgacatttca 241 catggtggac ctctggccag agtcagcagg ccgagggttc tcttccgggc tgctccctca 301 ctgcttgact ctgcgtcagt gcgtccatac tgtgggcgga cgttattgct atttgccttc 361 cattctgtac ggcattgcct ccatttagct ggagagggac agagcctggt tctctagggc 421 gtttccattg gggcctggtg acaatccaaa agatgagggc tccaaacacc agaatcagaa 481 ggcccagcgt atttgtaaaa acaccttctg gtgggaatga atggtacagg ggcgtttcag 541 gacaaagaac agcttttctg tcactcccat gagaaccgtc gcaatcactg ttccgaagag 601 gaggagtcca gaatacacgt gtatgggcat gacgattgcc cggagagagg cggagcccat 661 ggaagcagaa agacgaaaaa cacacccatt atttaaaatt attaaccact cattcattga 721 cctacctgcc ccatccaaca tttcatcatg atgaaacttt gggtcccttc taggagtctg 781 cctaatagtc caaatcatta caggtctttt cttagccata cactacacat cagatacaat 841 aacagccttt tcatcagtaa cacacatttg tcgagacgta aattacgggt gactaatccg 901 atatatacac gcaaacggag cctcaatatt ttttatttgc ttattccttc atgtcggacg 961 aggcttatat tatggatcat atacatttat agaaacctga aacattggag tacttctact 1021 gttcgcagtc atagccacag catttatagg ctacgtcctt ccatgaggac aaatatcatt 1081 ctgaggtgcc acagttatta caaacctcct atcagccatc ccatatattg gaacaaccct 1141 agtcgaatga atttgagggg gcttctcagt agacaaagcc accttgaccc gattcttcgc 1201 tttccacttc atcttaccat ttattatcgc ggccctagca atcgttcacc tcctcttcct 1261 ccacgaaaca ggatcaaaca acccaacagg attaaactca gatgcagata aaattccatt 1321 tcacccctac tatacatcaa agatatccta ggtatcctaa tcatattctt aattctcata 1381 accctagtat tatttttccc agacatacta ggagacccag acaactacat accagctaat 1441 ccactaaaca ccccacccca tattaaaccc gaatgatatt tcctatttgc atacgccatt 1501 ctacgctcaa tccccaataa actaggaggt gtcctagcct taatcttatc tatcctaatt 1561 ttagccctaa tacctttcct tcatacctca aagcaacgaa gcctaatatt ccgcccaatc 1621 acacaaattt tgtactgaat cctagtagcc aacctactta tcttaacctg aattgggggc 1681 caaccagtag acacccattt attatcattg gccaactagc ctccatctca tacttctcaa 1741 tcatcttaat tcttatacca atctcaggaa ttatcgaaga caaaatacta aaattatatc 1801 cat//

Page 92: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Bases de datos: formatos básicosBases de datos: formatos básicosBases de datos: formatos básicosBases de datos: formatos básicos

SwissProt:

Esquema parecido al de GenBank, pero con mucha más información (función, estructura, enfermedades asociadas...)

ID CYS3_YEAST STANDARD; PRT; 393 AA.AC P31373;DT 01-JUL-1993 (REL. 26, CREATED)DE CYSTATHIONINE GAMMA-LYASE (EC 4.4.1.1) (GAMMA-CYSTATHIONASE).GN CYS3 OR CYI1 OR STR1 OR YAL012W OR FUN35.OS TAXONOMYOC SACCHAROMYCETACEAE; SACCHAROMYCES.

RX CITATIONCC -!- CATALYTIC ACTIVITY: L-CYSTATHIONINE + H(2)O = L-CYSTEINE +CC NH(3) + 2-OXOBUTANOATE.CC -!- COFACTOR: PYRIDOXAL PHOSPHATE.CC -!- PATHWAY: FINAL STEP IN THE TRANS-SULFURATION PATHWAY SYNTHESIZINGCC L-CYSTEINE FROM L-METHIONINE.CC -!- SUBUNIT: HOMOTETRAMER.CC -!- SUBCELLULAR LOCATION: CYTOPLASMIC.CC -!- SIMILARITY: BELONGS TO THE TRANS-SULFURATION ENZYMES FAMILY.CC --------------------------------------------------------------------------CC DISCLAMORCC --------------------------------------------------------------------------

DR DATABASE cross-referenceKW CYSTEINE BIOSYNTHESIS; LYASE; PYRIDOXAL PHOSPHATE.FT INIT_MET 0 0FT BINDING 203 203 PYRIDOXAL PHOSPHATE (BY SIMILARITY).SQ SEQUENCE 393 AA; 42411 MW; 55BA2771 CRC32; TLQESDKFAT KAIHAGEHVD VHGSVIEPIS LSTTFKQSSP ANPIGTYEYS RSQNPNRENL ERAVAALENA QYGLAFSSGS ATTATILQSL PQGSHAVSIG DVYGGTHRYF TKVANAHGVE TSFTNDLLND LPQLIKENTK LVWIETPTNP TLKVTDIQKV ADLIKKHAAG QDVILVVDNT FLSPYISNPL NFGADIVVHS ATKYINGHSD VVLGVLATNN KPLYERLQFL QNAIGAIPSP FDAWLTHRGL KTLHLRVRQA ALSANKIAEF LAADKENVVA VNYPGLKTHP NYDVVLKQHR DALGGGMISF RIKGGAEAAS KFASSTRLFT LAESLGGIES LLEVPAVMTH GGIPKEAREA SGVFDDLVRI SVGIEDTDDL LEDIKQALKQ ATN//

Page 93: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Bases de datos: formatos básicosBases de datos: formatos básicosBases de datos: formatos básicosBases de datos: formatos básicos

ASN1 (Abstract Syntax Notation):Es un estándar; es el formato interno en GenBank.

Page 94: III Alineamiento de Secuencias Andrés Moreira Departamento de Informática UTFSM

Iremos mencionando otros formatos y otros softwares y otras bases de datos en la medida en que vayamos pasando por distintos temas.

http://www.ncbi.nlm.nih.gov/Entrez/