introduksjon til bioinformatikk generelt · • genomet er i de fleste tilfeller ett enkelt...

13
1 Lars O. Baumbusch INF3350/INF4350 – Høst 2007 1 Introduksjon til bioinformatikk Forelesning # 1 Lars O. Baumbusch Senter for Bioinformatikk, IFI, UiO Rikshospitalet - Radiumhospitalet Medical Center Lars O. Baumbusch INF3350/INF4350 – Høst 2007 2 Generelt Tenk! S P Ø R! (Slå av mobilen) Lars O. Baumbusch INF3350/INF4350 – Høst 2007 3 Hva er bioinformatikk? Bioinformatics is generally defined as the analysis, prediction, and modeling of biological data with the help of informatics Bruk av informatikk og statistikk til å trekke biologisk forståelse ut av molekylære data fra levende organismer Lars O. Baumbusch INF3350/INF4350 – Høst 2007 4 Moderne biologi Fagfelt i rivende utvikling • Sterke medisinske, miljømessige og kommersielle interesser er knyttet til faget • Utviklingen er ”datadrevet” (dvs avhenger av innsamlede observasjoner og data) • Stort behov for personer med kompetanse i informatikk og statistikk for å håndtere, presentere og analysere observasjonene

Upload: others

Post on 15-Mar-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Introduksjon til bioinformatikk Generelt · • Genomet er i de fleste tilfeller ett enkelt "kromosom" som består av et sirkulært DNA molekyl, hvor nesten alt DNA er kodende (det

1

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 1

Introduksjon til bioinformatikk

Forelesning # 1

Lars O. Baumbusch

Senter for Bioinformatikk, IFI, UiORikshospitalet - Radiumhospitalet Medical Center

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 2

Generelt

Tenk!

S P Ø R!

(Slå av mobilen)

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 3

Hva er bioinformatikk?

Bioinformatics is generally defined as the analysis, prediction, and modeling of biological data

with the help of informatics

Bruk av informatikk og statistikk til å trekke biologisk forståelse ut av molekylære data fra levende organismer

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 4

Moderne biologi

• Fagfelt i rivende utvikling

• Sterke medisinske, miljømessige og kommersielle interesser er knyttet til faget

• Utviklingen er ”datadrevet”(dvs avhenger av innsamlede observasjoner og data)

• Stort behov for personer med kompetanse i informatikk og statistikk for å håndtere,presentere og analysere observasjonene

Page 2: Introduksjon til bioinformatikk Generelt · • Genomet er i de fleste tilfeller ett enkelt "kromosom" som består av et sirkulært DNA molekyl, hvor nesten alt DNA er kodende (det

2

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 5

Bioinformatikernes rolle

• utvikle biologiske databaser

• utvikle nettbaserte grensesnitt for legge inn og hente ut store biologiske dataset og analyseresultater

• lage algoritmer og programsystemer for ulike typer søk, visualisering og analyse av biologiske data

• utvikle statistiske modeller og metoder for å modellere, teste hypoteser, gjøre prediksjoner og forståde underliggende biologiske prosesser

• implementere de statistiske metodene nevnt ovenfor

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 6

Det biologiske grunnlaget for faget

For å forstå bakgrunnen for bioinformatikk-fagetog hva som er drivkreftene i faget, må man vite litt om (genetikk og molekylær) biologi

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 7

• Flere store databanker ble opprettet med informasjon om sekvens-, protein-, litteratur- eller andre typer data

• Fremveksten av internett har revolusjonert måten biologer utveksler forskningsresultater. Nye data blir raskt lagt ut på sentrale servere slik at de er tilgjengelige for hele verden, også via ulike former for databasesøk

• Bioinformatikk har nå blitt etablert som et selvstendig fag og har blitt en forutsetning for at utviklingen i biologi kan gå videre

Utvikling av bioinformatikk I

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 8

Utvikling av bioinformatikk II

• Man begynte å leke med tanken på å sekvensere hele genomer,dvs alt DNA i en organisme, til og med menneskets genom

• En rekke organismer har blitt sekvensert, bl.a.ulike virusulike bakterierplanter (bl.a. vårskrinneblom, eller Arabidopsis)insekter (Drosophila)enklere dyr (rundom, eller C. elegans)fuglflerev høyerestående dyr (blant annet mennesket)

• Langt mer effektive metoder ble funnet for sammenstilling av sekvenser, blant annet FASTA og BLAST

Page 3: Introduksjon til bioinformatikk Generelt · • Genomet er i de fleste tilfeller ett enkelt "kromosom" som består av et sirkulært DNA molekyl, hvor nesten alt DNA er kodende (det

3

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 9

GenBank: et register over DNA-sekvenser

• Stadig mer sekvensdata har skapt et behov for å registre ogsamle alt ett sted og gjør det lett tilgjengelig

• GenBank er en slik database, som er åpent tilgjengelig for alle via nettet

• Der legges alle DNA-sekvenser som er åpent tilgjengelige, med tilleggsinformasjon og tolking (annotering)

• Man kan søke i GenBank på mange ulike måter, f.eks. via Entrez, The Life Sciences Search Engine

(www.ncbi.nlm.nih.gov/gquery/gquery.fcgi) fra NCBI National Center for Biotechnology Information

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 10

Eksempler på data

• Sekvensdata• DNA-sekvenser • RNA-sekvenser• Protein-sekvenser

• Strukturdata• Protein 3D-struktur• RNA 3D-struktur

• Funksjonsdata• Proteindomainer• Pathways

• Publikasjoner/Litteratur

ATCGCTCT.......

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 11

Veksten av GenBank

1982: 600.000 baser

2003: 28.5 milliarder baser

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 12

Sekvensformater

• Bioinformatiske databaser og annen programvare som arbeider på sekvensdata (nukleotidsekvenser eller aminosyresekvenser) krever at inputdata gis på bestemte formater

• IUPAC-tegn og blanke tegn (IUPAC = International Union of Pure and Applied Chemistry

• Mange vanlige sekvensformater:

– Plain sequence format– FASTA format– GenBank format– GCG format

Page 4: Introduksjon til bioinformatikk Generelt · • Genomet er i de fleste tilfeller ett enkelt "kromosom" som består av et sirkulært DNA molekyl, hvor nesten alt DNA er kodende (det

4

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 13

Plain sequence format

• Kun IUPAC-tegn og blanke tegn

• Eksempel (DNA):

• Eksempel (protein):

ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCCCTGCCCCTGGAGGGTGGCCCCACCGGCCGAGACAG

ACFGHIKLMPQRTYVVFGHKLPPASSCVFGHKLMNVVVVDEQVREWTYPLLLASWERTYMCDKACFGHIKLMPQRTYVVFGHKLPPASSCVFGHKLMNVVVVDEQVREWTYPLLLASWERTYMCDK

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 14

FASTA format

• Først en kommentarlinje som starter med > og som gir en kort beskrivelse av dataene, deretter dataene på IUPAC-format. Linjene skal helst ha maksimalt 80 tegn

• Eksempel (DNA):

• Eksempel (protein):

>AB000263 |acc=AB000263|descr=Homo sapiens mRNA for ....ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCCCTGCCCCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCCAGGAAGCGGCAGGAATAAGGAAAAGCAGCCTCCTGACTTTCCTCGCTTGGTGGTTTGAGTGGACCTCCCAGGCCAGTGCCGGGCCCCTCATAGGAGAGGAAGCTCGGGAGGT

>gi|282349|pir||A41961 chitinase (EC 3.2.1.14) D ...TYPLKLPPASSCVFGHKLMNVVVVDEQVREWTYPLKLPPASSCVFGHKLMNVVVV DEQVREWTYPLTYPLKLPPASSCVFGHKLMNVVVVDEQVREWTYPLKLPPTYPLKLPPASSCVFGHKLMNVVVVDEQVREWTYPLKLPPASSCVFGHKLMNVVVVDEQVREWTYPLTYPLKLPPASSCVFGHKLMNVVVVDEQVREWTYPLKLPP

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 15

GenBank format

• Kan inneholde flere sekvenser• Hver sekvens starter med ”LOCUS”, en eller flere linjer med

annotering, deretter ”ORIGIN” og selve sekvensen, og til slutt ”//”

• Eksempel (DNA):

LOCUS AB000263 368 bp mRNA linear PRI 05-FEB-1999 DEFINITION Homo sapiens mRNA for prepro cortistatin like

peptide, complete cds. ACCESSION AB000263 ORIGIN

1 acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc61 ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg121 caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag181 aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg241 gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac301 agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag361 gacctgaa

//

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 16

Eksempel fra GenBankLOCUS NEIL1 1828 bp mRNA linear PRI 03-AUG-2002DEFINITION Homo sapiens nei endonuclease VIII-like 1 (E. coli) (NEIL1), mRNA.ACCESSION NM_024608VERSION NM_024608.1 GI:13375816KEYWORDS .SOURCE human.

ORGANISM Homo sapiensEukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.

REFERENCE 1 (sites)AUTHORS Watanabe,K., Kumagai,A., Itakura,S., Yamazaki,M., Tashiro,H.,

Ota,T., Suzuki,Y., Obayashi,M., Nishi,T., Shibahara,T., Tanaka,T.,Nakamura,Y., Isogai,T. and Sugano,S.

TITLE NEDO human cDNA sequencing projectJOURNAL Unpublished

COMMENT PROVISIONAL REFSEQ: This record has not yet been subject to finalNCBI review. The reference sequence was derived from AK026055.1.

FEATURES Location/Qualifierssource 1..1828

/organism="Homo sapiens"/db_xref="taxon:9606"/chromosome="15"/map="15q22.33"/clone="HRC08117"/cell_type="primary human renal epithelial cells"/clone_lib="HRC"/note="cloning vector pME18SFL3"

gene 1..1828/gene="NEIL1"/note="NEI1; FLJ22402"/db_xref="LocusID:79661"

CDS 428..1600/gene="NEIL1"/note="endonuclease VIII"/codon_start=1/product="nei endonuclease VIII-like 1"/protein_id="NP_078884.1"/db_xref="GI:13375817"/db_xref="LocusID:79661"/translation="MPEGPELHLASQFVNEACRALVFGGCVEKSSVSRNPEVPFESSAYRISASARGKELRLILSPLPGAQPQQEPLALVFRFGMSGSFQLVPREELPRHAHLRFYTAPPGPRLALCFVDIRRFGRWDLGGKWQPGRGPCVLQEYQQFRESVLRNLADKAFDRPICEALLDQRFFNGIGNYLRAEILYRLKIPPFEKARSVLEALQQHRPSPELTLSQKIRTKLQNPDLLELCHSVPKEVVQLGGRGYGSESGEEDFAAFRAWLRCYGMPGMSSLQDRHGRTIWFQGDPGPLAPKGRKSRKKKSKATQLSPEDRVEDALPPSKAPSRTRRAKRDLPKRTATQRPEGTSLQQDPEAPTVPKKGRRKGRQAASGHCRPRKVKADIPSLEPEGTSAS"

misc_feature 431..1018/gene="NEIL1"/note="Region: pfam01149, Fapy_DNA_glyco,Formamidopyrimidine-DNA glycosylase"

variation 1814/gene="NEIL1"/allele="A"/allele="T"/db_xref="dbSNP:3186576"

BASE COUNT 355 a 569 c 537 g 367 tORIGIN

1 gctttctgat ttcagagact ctccgcaaca gaaccatctc aagtgggtct acctcctcgc61 ctttttttgt tgttgttgtt gcttggctgc gcttctgaca gggcaggccg tgatgatgtt

121 tgtttatgag ttaggtccga ctgttcgttg gtgcttaaga tccccaccgg gtccctaggg181 cctgtgcgta ccgcgcacct gtgcacgtcc tgcgcgcagc tgcaggcgac tccgctctgg241 ctcgtcgctg ctgtttcctg ctgggggtgc cgaccctgtc ccacgctagc tgggtgactt301 cccccaaccg cagagacagc ggcgacccgg ggcctcagac ctgcccccgc atctcgccgg361 cgccaggcag tgggaagtca ggttcttccg ccacccccca gccaggactc tgccaccctc421 cctcaggatg cctgagggcc ccgagctgca cctggccagc cagtttgtga atgaggcctg481 cagggcgctg gtgttcggcg gctgcgtgga gaagtcctct gtcagccgca accctgaggt541 gccctttgag agcagtgcct accgcatctc agcttcagcc cgcggcaagg agctgcgcct601 gatactgagc cctctgcctg gggcccagcc ccaacaggag ccactggccc tggtcttccg661 cttcggcatg tccggctctt ttcagctggt gccccgcgag gagctgccac gccatgccca721 cctgcgcttt tacacggccc cgcctggccc ccggctcgcc ctatgtttcg tggacatccg781 ccggttcggc cgctgggacc ttgggggaaa gtggcagccg ggccgcgggc cctgtgtctt841 gcaggagtac cagcagttca gggagagtgt gctacgaaac ctagcggata aggcctttga901 ccggcccatc tgcgaggccc tcctggacca gaggttcttc aatggcattg gcaactatct961 gcgggcagag atcctgtacc ggctgaagat cccccccttt gagaaggccc gctcggtcct

1021 ggaggccctg cagcagcaca ggccgagccc ggagctgacc ctgagccaga agataaggac1081 caagctgcag aatccagacc tgctggagct atgtcactca gtgcccaagg aagtggtcca1141 gttggggggc aggggctacg ggtcagagag cggggaggag gactttgctg cctttcgagc1201 ctggctgcgc tgctatggca tgccaggcat gagctccctg caggaccggc atggccgtac1261 catctggttc cagggggatc ctggaccgtt ggcacccaaa gggcgcaagt cccgcaaaaa1321 gaaatccaag gccacacagc tgagtcctga ggacagagtg gaggacgctt tgcctccaag1381 caaggcccct tccaggacac gaagggcaaa gagagacctt cctaagagga ctgcaaccca1441 gcggcctgag gggaccagcc tccagcagga cccagaagct cccacagtgc ccaagaaggg1501 gaggaggaag gggcgacagg cagcctctgg ccactgcaga ccccggaagg tcaaggctga1561 catcccatcc ttggaaccag aggggacctc agcctcttag caggaggctc tccttgcttg1621 cactcaccct ttcttattgt cttgccctgc atctgggggt ctgaattttt gggagcaggc1681 aatatctgaa ggtgcaaaca ggccctacgg ctgttccctg cacaactctc atggttttaa1741 ttgtacccca tcttccacat ctttaaagct catgtgaaaa atgctgcatt tttaataaac1801 tgatacattt gaaaaaaaaa aaaaaaaa

//

Page 5: Introduksjon til bioinformatikk Generelt · • Genomet er i de fleste tilfeller ett enkelt "kromosom" som består av et sirkulært DNA molekyl, hvor nesten alt DNA er kodende (det

5

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 17

Kombinasjon of framvisning av data

• Annotering av genomet, dvs kart som beskriver:genenes plassering, genenes funksjon, proteiner, contig region, markører i området, koplinger mellom sykdommer og genmutasjoner,polymorfier (genetiske variasjoner i en populasjon), homologe gener and gene report

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 18

DatabaserDatabaser sites: (3 uavhengige: USA, Europa, Japan)

NCBI: National Center for Biotechnology Information(www.ncbi.nlm.nih.gov/)

e!Ensembl: EMBL - EBI and the Sanger Institute (www.ensembl.org/index.html)

DDBJ: DNA Data Bank of Japan(www.ddbj.nig.ac.jp/Welcome-e)

Proteinsekvenser:UniProt: Universal protein resource

combines information from Swiss-Prot, TrEMBL, and PIR(www.expasy.uniprot.org/)

InterPro: Database of protein families, domains and functional sites(www.ebi.ac.uk/interpro/)

Pfam: Collection of sequence alignments for protein domains and families.(www.sanger.ac.uk/Software/Pfam/)

Proteinstrukturer:Dali comparing protein structures in 3D

(www.ebi.ac.uk/dali/)PDB: Protein Data Bank

(www.rcsb.org/pdb/Welcome.do)

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 19

Databaser

Pathways:KEGG: Kyoto Encyclopedia of Genes and Genomes prediction of higher-level

complexity of cellular processes(www.genome.ad.jp/kegg/)

GO: The GeneOntology database to describe gene and gene product attributes (www.geneontology.org/)

Literature:PubMed: biomedical literature citations and abstracts

(www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed&itool=toolbar)

Diseases:OMIM: online Mendelian Inheritance in Man

(www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM)

Genome maps:UCSC: Genome Bioinformatics Group of UC Santa Cruz

(www.genome.ucsc.edu/)NCBI: MapViewer

(www.ncbi.nlm.nih.gov/mapview/)e!Ensembl Human:

(www.ensembl.org/Homo_sapiens/index) Lars O. Baumbusch INF3350/INF4350 – Høst 2007 20

Biologi - What is life?

Page 6: Introduksjon til bioinformatikk Generelt · • Genomet er i de fleste tilfeller ett enkelt "kromosom" som består av et sirkulært DNA molekyl, hvor nesten alt DNA er kodende (det

6

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 21

Livet begynner med en celle

(fra: www.bioalgorithms.info) Lars O. Baumbusch INF3350/INF4350 – Høst 2007 22

• Celler er de minste enhetene i levende organismer

• Levende organismer kan være en-cellede eller flercellede

• Et menneske består av ca 75 000 000 000 000 celler

• Størrelsen på celler varierer fra ~10-7 m (mykoplasma) til ~1 m (visse nerveceller)

Røde blodlegemerfra menneske

Pseudomonasaeruginosa

Alle levende organismer består av celler

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 23

Prokaryoter og eukaryoter

Kjemisk komposisjon av celler

70% vann23% Makromolekyler

- proteiner- polysacharider- fettstoffer

7% mindre molekyler- salt- fettstoffer- aminosyrer- nukleotider

(fra: www.bioalgorithms.info) Lars O. Baumbusch INF3350/INF4350 – Høst 2007 24

Tre domener av livsformer

Levende organismer klassifiseres i tre domener:

• Archaea• Bakterier• Eukaryoter

Bakterier ArchaeaEukaryoter

PlanterSoppDyr

Prokaryoter

You are here

(fra: www.bioalgorithms.info)

Page 7: Introduksjon til bioinformatikk Generelt · • Genomet er i de fleste tilfeller ett enkelt "kromosom" som består av et sirkulært DNA molekyl, hvor nesten alt DNA er kodende (det

7

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 25

Genomet hos prokaryoter

• Genomet er i de fleste tilfeller ett enkelt "kromosom" som består av et sirkulært DNA molekyl, hvor nesten alt DNA er kodende (det finnes bakterier med flere kromosomer, f.eks. kolera-bakt.)

• Det kan også være mindre sirkulære eller lineære DNA molekyler: plasmider som gir tilleggsegenskaper: antibiotika-resistens,

evne til å utnytte et næringsstoff, osv.

Nukleoid (et enkelt, sirkulært kromosom)

Plasmid

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 26

Genomet hos eukaryoter

• Genomet utgjøres i størstedel av to eller flere kromosomer i cellekjernen. Hver kromosom består av et lineært DNA-molekyl

• Mitokondriene (og hos planter i tillegg: kloroplastene) inneholder mindre DNA-molekyler

Mitokondrisk DNA

Nukleært DNA

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 27

Exons/Intron splicingEnkel intern organiseringIngen mRNA post transkriptsjonalmodifikasjon

To eller flere kromosomerEtt sirkulært kromosom

OrganellerIngen organeller

NukleusIngen nukleus

En eller flere cellerEnkel celle

EukaryoterProkaryoter

Prokaryoter og eukaryoter

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 28

Menneskets genom

• Menneskets genom består av 46 kromosomer• 44 av dem er i par (22 fra far og 22 fra mor)• de to siste er X og Y (kvinner har XX og menn XY)

• Total lengde på genomet: ca 3.000.000.000 baser

• Antall gener (som hver koder for ett bestemt protein) er mellom 20.000 og 35.000

• Genene utgjør bare en liten del (ca 1.5%) av genomet

• Resten er ”ikke-kodende DNA” – det aller meste vet vi ikkehvorfor er der, om det har noen funksjon og isåfall hvilken

Page 8: Introduksjon til bioinformatikk Generelt · • Genomet er i de fleste tilfeller ett enkelt "kromosom" som består av et sirkulært DNA molekyl, hvor nesten alt DNA er kodende (det

8

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 29

Ferdigsekvensert

2001

Det humane genomet

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 30

Menneskets genom

Genomet

Mitokondrisk genom16 600 bp37 gener

Kjernegenom3 200 000 000 bp

~35 000 gener

Ikke gen-relatertGen-relatert

Kodende DNA Ikkekodende DNA

Pseudogener Genfragmenter Introner m.m.

Repetitiv DNA Annet

25% 75%

>10% <90%

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 31

• Genomet utgjøres i størstedel av kromosomer i cellekjernen. Hver kromosom består av et lineært DNA-molekyl

• Kromosomene består på sin side av DNA: lange kjedemolekyler sammensatt av fire forskjellige baser: A, T, C og G

celle

kromosomeri cellekjernen

kromosom

DNA dobbelthelix

Hver celle innholder en komplett utgave av hele genomet

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 32

Kromosomene

dobbelheliks

kromatin

nukleosom

kromosomer

Page 9: Introduksjon til bioinformatikk Generelt · • Genomet er i de fleste tilfeller ett enkelt "kromosom" som består av et sirkulært DNA molekyl, hvor nesten alt DNA er kodende (det

9

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 33

sukker

H-bruer

komplementære tråder

fosfat-gruppe

To komplementæreDNA-tråder formersammen en stabilDNA dobbeltheliks

A og T danner parG og C danner par

Base-par er forbundet viahydrogen-bruer

DNA er en polymer og består av sukker-fosfatgruppe-base

DNA danner en dobbelheliks

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 34

• Byggestenene i DNA er de fire nukleotidene– 2'-deoxyadenosin 5'-trifosfat = dATP = A– 2'-deoxycytidin 5'-trifosfat = dCTP = C– 2'-deoxyguanosin 5'-trifosfat = dGTP = G– 2'-deoxythymidin 5'-trifosfat = dTTP = T

Byggestenene i DNA er fire nukleotider

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 35

Purines Pyrimidines

Byggestenene i DNA er fire nukleotider

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 36

Det sentrale dogmet i biologi

Det er rekkefølgen av baser i DNA-sekvensen som bestemmer rekkefølgen av aminosyrer i proteinet.

Transkripsjon (RNA syntese) og translasjon (protein syntese) fører fra DNA til protein

Page 10: Introduksjon til bioinformatikk Generelt · • Genomet er i de fleste tilfeller ett enkelt "kromosom" som består av et sirkulært DNA molekyl, hvor nesten alt DNA er kodende (det

10

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 37

Fra DNA til protein

promoter terminator

DNA

intronexon exonpre-mRNA

transkripsjon

mRNA

etterprosessering(splicing, capping, polyadenylering)

protein

translasjon

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 38

Capping og polyadenylering

Capping legger påen baklengs metylert nukleosid, methylguanylate (m7G)i starten av primærtranskriptet

Polyadenylering legger på en hale av A'er(en poly-A hale) i slutten av primærtranskriptet

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 39

Fra pre-mRNA til mRNA

• For prokaryoter er pre-mRNA = mRNA

• I eukaryoter er gener normalt delt opp i et antall

– exoner: de delene av genet som koder for protein– introner: deler som ikke koder for protein

• Da vil pre-mRNA etterprosesseres bl.a. for å fjerne introner

Exoner

Introner

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 40

Splicing

• Et typisk eukaryotisk gen innholder introns. Splicingresulterer i at intronene i pre-mRNA fjernes, slik at man får en kortere sekvens som kun består av den kodende sekvensen (og noe av sekvensen upstreamog downstream)

• Alternativ splicing forekommer noen ganger, ved at eksonene settes sammen på en alternativ måte (annen rekkefølge og/eller at noen eksoner utelates). Dermed kan en enkelt nukleotidsekvens (ett gen) gi opphav til flere polypeptider (proteiner)

• Hos mennesker regner en med at en god del av genene er gjenstand for alternativ splicing

Page 11: Introduksjon til bioinformatikk Generelt · • Genomet er i de fleste tilfeller ett enkelt "kromosom" som består av et sirkulært DNA molekyl, hvor nesten alt DNA er kodende (det

11

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 41

RNA

• RNA er i likhet med DNA kjedemolekyler av varierende lengde, bygget opp av fire forskjellige nukleotider. Disse er

– Adenin– Cytosin– Guanin som for DNA– Uracil

• RNA har mange viktige roller i cellen. De første former på liv på jorda antas å ha vært basert på RNA og ikke på DNA

• RNA har ikke tilbøyeligheten som DNA har til å danne en dobbeltheliks

Uracil

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 42

RNA

• RNA is similar to DNA chemically. It is usually only a single strand. T(hyamine) is replaced by U(racil)

• Some forms of RNA can form secondary structures by “pairing up”with itself. This can have change its properties dramatically.

DNA and RNAcan pair with each other.

(From: http://www.cgl.ucsf.edu/home/glasfeld/tutorial/trna/trna.gif)

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 43

Prokaryoter og eukaryoter

Eukaryotiske gener

Regulatory regions: up to 50 kb upstream of +1 site

Exons: protein coding and untranslated regions (UTR)1 to 178 exons per gene (mean 8.8)8 bp to 17 kb per exon (mean 145 bp)

Introns: splice acceptor and donor sites, junk DNAaverage 1 kb – 50 kb per intron

Gene size: Largest - 2.4 Mb (Dystrophin). Mean – 27 kb

DNA pre-mRNA mRNA

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 44

Translasjon

mRNA oversettes til protein via den genetiske koden

Page 12: Introduksjon til bioinformatikk Generelt · • Genomet er i de fleste tilfeller ett enkelt "kromosom" som består av et sirkulært DNA molekyl, hvor nesten alt DNA er kodende (det

12

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 45

Den genetiske koden

Alle aminosyrer er kodetmed 3 nukleotider

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 46

Aminosyrer

Proteiner er satt sammen av 20 ulike aminosyrer som skiller seg fra hverandre ved sidekjeden ("R-gruppen")

IIleIsoleucine

HHisHistidine

GGlyGlycine

QGlnGlutamine

EGluGlutamic acid

CCysCysteine

DAspAspartic acie

NAsnAsparagine

RArgArginine

AAlaAlanine

Aminosyre

VValValine

YTyrTyrosine

WTrpTryptophan

TThrThreonine

SSerSerine

PProProline

FPhePhenylalanine

MMetMethionine

KLysLysine

LLeuLeucine

Aminosyre

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 47

Sidekjede

Generell form

Primærstruktur = aminosyresekvens

Met

Asp

Leu

Tyr

Met Asp Leu Tyr

+ + +

N-terminus C-terminus

N C

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 48

Høyereordens proteinstruktur

PrimærstrukturAminosyresekvens

Sekundærstrukturβ-sheet og α-helix

Tertiærstruktur3D-konfigurasjon

KvartærstrukturKobling av flere aminosyrekjeder

Page 13: Introduksjon til bioinformatikk Generelt · • Genomet er i de fleste tilfeller ett enkelt "kromosom" som består av et sirkulært DNA molekyl, hvor nesten alt DNA er kodende (det

13

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 49

Proteiners kjemiske diversitet

• Med 20 aminosyrer er det nærmest et ubegrenset antall ulike proteiner av lengde < 1500 som er mulige

• Diversiteten er i praksis enda større, fordi– Enda en aminosyre (selenocysteine) kan settes inn i en

polypeptidkjede når proteiner lages– Aminosyrer kan modifiseres (f.eks. ved acetylering,

fosforylering eller ved å hekte på sukkergrupper) under produksjonen av proteiner

• Proteiner har i motsetning til DNA enorm strukturell og funksjonell diversitet

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 50

• Proteiner er byggestenen i alle levende organismer

• Proteiner er lange kjeder av aminosyrer (21 ulike)

• Kveiler seg opp i kompliserte og veldig varierte 3D-strukturer

• Utfører mange forskjellige oppgaver:– enzymer– antistoffer– transportproteiner (f.eks. hemoglobin)– reseptorer– visse hormoner (f.eks. insulin)– muskler, hud, hår, brusk

Hemoglobin

Proteiner er livets byggestener

Lars O. Baumbusch INF3350/INF4350 – Høst 2007 51

Litteratur

• NCBI-primer ”Bioinformatics” og ”What is a genome”

• Seksjon 1 i pensum boka Jim Xiong ”Essential Bioinformatics”