introduksjon til bioinformatikk generelt · • genomet er i de fleste tilfeller ett enkelt...
TRANSCRIPT
1
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 1
Introduksjon til bioinformatikk
Forelesning # 1
Lars O. Baumbusch
Senter for Bioinformatikk, IFI, UiORikshospitalet - Radiumhospitalet Medical Center
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 2
Generelt
Tenk!
S P Ø R!
(Slå av mobilen)
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 3
Hva er bioinformatikk?
Bioinformatics is generally defined as the analysis, prediction, and modeling of biological data
with the help of informatics
Bruk av informatikk og statistikk til å trekke biologisk forståelse ut av molekylære data fra levende organismer
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 4
Moderne biologi
• Fagfelt i rivende utvikling
• Sterke medisinske, miljømessige og kommersielle interesser er knyttet til faget
• Utviklingen er ”datadrevet”(dvs avhenger av innsamlede observasjoner og data)
• Stort behov for personer med kompetanse i informatikk og statistikk for å håndtere,presentere og analysere observasjonene
2
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 5
Bioinformatikernes rolle
• utvikle biologiske databaser
• utvikle nettbaserte grensesnitt for legge inn og hente ut store biologiske dataset og analyseresultater
• lage algoritmer og programsystemer for ulike typer søk, visualisering og analyse av biologiske data
• utvikle statistiske modeller og metoder for å modellere, teste hypoteser, gjøre prediksjoner og forståde underliggende biologiske prosesser
• implementere de statistiske metodene nevnt ovenfor
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 6
Det biologiske grunnlaget for faget
For å forstå bakgrunnen for bioinformatikk-fagetog hva som er drivkreftene i faget, må man vite litt om (genetikk og molekylær) biologi
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 7
• Flere store databanker ble opprettet med informasjon om sekvens-, protein-, litteratur- eller andre typer data
• Fremveksten av internett har revolusjonert måten biologer utveksler forskningsresultater. Nye data blir raskt lagt ut på sentrale servere slik at de er tilgjengelige for hele verden, også via ulike former for databasesøk
• Bioinformatikk har nå blitt etablert som et selvstendig fag og har blitt en forutsetning for at utviklingen i biologi kan gå videre
Utvikling av bioinformatikk I
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 8
Utvikling av bioinformatikk II
• Man begynte å leke med tanken på å sekvensere hele genomer,dvs alt DNA i en organisme, til og med menneskets genom
• En rekke organismer har blitt sekvensert, bl.a.ulike virusulike bakterierplanter (bl.a. vårskrinneblom, eller Arabidopsis)insekter (Drosophila)enklere dyr (rundom, eller C. elegans)fuglflerev høyerestående dyr (blant annet mennesket)
• Langt mer effektive metoder ble funnet for sammenstilling av sekvenser, blant annet FASTA og BLAST
3
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 9
GenBank: et register over DNA-sekvenser
• Stadig mer sekvensdata har skapt et behov for å registre ogsamle alt ett sted og gjør det lett tilgjengelig
• GenBank er en slik database, som er åpent tilgjengelig for alle via nettet
• Der legges alle DNA-sekvenser som er åpent tilgjengelige, med tilleggsinformasjon og tolking (annotering)
• Man kan søke i GenBank på mange ulike måter, f.eks. via Entrez, The Life Sciences Search Engine
(www.ncbi.nlm.nih.gov/gquery/gquery.fcgi) fra NCBI National Center for Biotechnology Information
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 10
Eksempler på data
• Sekvensdata• DNA-sekvenser • RNA-sekvenser• Protein-sekvenser
• Strukturdata• Protein 3D-struktur• RNA 3D-struktur
• Funksjonsdata• Proteindomainer• Pathways
• Publikasjoner/Litteratur
ATCGCTCT.......
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 11
Veksten av GenBank
1982: 600.000 baser
2003: 28.5 milliarder baser
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 12
Sekvensformater
• Bioinformatiske databaser og annen programvare som arbeider på sekvensdata (nukleotidsekvenser eller aminosyresekvenser) krever at inputdata gis på bestemte formater
• IUPAC-tegn og blanke tegn (IUPAC = International Union of Pure and Applied Chemistry
• Mange vanlige sekvensformater:
– Plain sequence format– FASTA format– GenBank format– GCG format
4
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 13
Plain sequence format
• Kun IUPAC-tegn og blanke tegn
• Eksempel (DNA):
• Eksempel (protein):
ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCCCTGCCCCTGGAGGGTGGCCCCACCGGCCGAGACAG
ACFGHIKLMPQRTYVVFGHKLPPASSCVFGHKLMNVVVVDEQVREWTYPLLLASWERTYMCDKACFGHIKLMPQRTYVVFGHKLPPASSCVFGHKLMNVVVVDEQVREWTYPLLLASWERTYMCDK
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 14
FASTA format
• Først en kommentarlinje som starter med > og som gir en kort beskrivelse av dataene, deretter dataene på IUPAC-format. Linjene skal helst ha maksimalt 80 tegn
• Eksempel (DNA):
• Eksempel (protein):
>AB000263 |acc=AB000263|descr=Homo sapiens mRNA for ....ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCCCTGCCCCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCCAGGAAGCGGCAGGAATAAGGAAAAGCAGCCTCCTGACTTTCCTCGCTTGGTGGTTTGAGTGGACCTCCCAGGCCAGTGCCGGGCCCCTCATAGGAGAGGAAGCTCGGGAGGT
>gi|282349|pir||A41961 chitinase (EC 3.2.1.14) D ...TYPLKLPPASSCVFGHKLMNVVVVDEQVREWTYPLKLPPASSCVFGHKLMNVVVV DEQVREWTYPLTYPLKLPPASSCVFGHKLMNVVVVDEQVREWTYPLKLPPTYPLKLPPASSCVFGHKLMNVVVVDEQVREWTYPLKLPPASSCVFGHKLMNVVVVDEQVREWTYPLTYPLKLPPASSCVFGHKLMNVVVVDEQVREWTYPLKLPP
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 15
GenBank format
• Kan inneholde flere sekvenser• Hver sekvens starter med ”LOCUS”, en eller flere linjer med
annotering, deretter ”ORIGIN” og selve sekvensen, og til slutt ”//”
• Eksempel (DNA):
LOCUS AB000263 368 bp mRNA linear PRI 05-FEB-1999 DEFINITION Homo sapiens mRNA for prepro cortistatin like
peptide, complete cds. ACCESSION AB000263 ORIGIN
1 acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc61 ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg121 caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag181 aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg241 gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac301 agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag361 gacctgaa
//
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 16
Eksempel fra GenBankLOCUS NEIL1 1828 bp mRNA linear PRI 03-AUG-2002DEFINITION Homo sapiens nei endonuclease VIII-like 1 (E. coli) (NEIL1), mRNA.ACCESSION NM_024608VERSION NM_024608.1 GI:13375816KEYWORDS .SOURCE human.
ORGANISM Homo sapiensEukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.
REFERENCE 1 (sites)AUTHORS Watanabe,K., Kumagai,A., Itakura,S., Yamazaki,M., Tashiro,H.,
Ota,T., Suzuki,Y., Obayashi,M., Nishi,T., Shibahara,T., Tanaka,T.,Nakamura,Y., Isogai,T. and Sugano,S.
TITLE NEDO human cDNA sequencing projectJOURNAL Unpublished
COMMENT PROVISIONAL REFSEQ: This record has not yet been subject to finalNCBI review. The reference sequence was derived from AK026055.1.
FEATURES Location/Qualifierssource 1..1828
/organism="Homo sapiens"/db_xref="taxon:9606"/chromosome="15"/map="15q22.33"/clone="HRC08117"/cell_type="primary human renal epithelial cells"/clone_lib="HRC"/note="cloning vector pME18SFL3"
gene 1..1828/gene="NEIL1"/note="NEI1; FLJ22402"/db_xref="LocusID:79661"
CDS 428..1600/gene="NEIL1"/note="endonuclease VIII"/codon_start=1/product="nei endonuclease VIII-like 1"/protein_id="NP_078884.1"/db_xref="GI:13375817"/db_xref="LocusID:79661"/translation="MPEGPELHLASQFVNEACRALVFGGCVEKSSVSRNPEVPFESSAYRISASARGKELRLILSPLPGAQPQQEPLALVFRFGMSGSFQLVPREELPRHAHLRFYTAPPGPRLALCFVDIRRFGRWDLGGKWQPGRGPCVLQEYQQFRESVLRNLADKAFDRPICEALLDQRFFNGIGNYLRAEILYRLKIPPFEKARSVLEALQQHRPSPELTLSQKIRTKLQNPDLLELCHSVPKEVVQLGGRGYGSESGEEDFAAFRAWLRCYGMPGMSSLQDRHGRTIWFQGDPGPLAPKGRKSRKKKSKATQLSPEDRVEDALPPSKAPSRTRRAKRDLPKRTATQRPEGTSLQQDPEAPTVPKKGRRKGRQAASGHCRPRKVKADIPSLEPEGTSAS"
misc_feature 431..1018/gene="NEIL1"/note="Region: pfam01149, Fapy_DNA_glyco,Formamidopyrimidine-DNA glycosylase"
variation 1814/gene="NEIL1"/allele="A"/allele="T"/db_xref="dbSNP:3186576"
BASE COUNT 355 a 569 c 537 g 367 tORIGIN
1 gctttctgat ttcagagact ctccgcaaca gaaccatctc aagtgggtct acctcctcgc61 ctttttttgt tgttgttgtt gcttggctgc gcttctgaca gggcaggccg tgatgatgtt
121 tgtttatgag ttaggtccga ctgttcgttg gtgcttaaga tccccaccgg gtccctaggg181 cctgtgcgta ccgcgcacct gtgcacgtcc tgcgcgcagc tgcaggcgac tccgctctgg241 ctcgtcgctg ctgtttcctg ctgggggtgc cgaccctgtc ccacgctagc tgggtgactt301 cccccaaccg cagagacagc ggcgacccgg ggcctcagac ctgcccccgc atctcgccgg361 cgccaggcag tgggaagtca ggttcttccg ccacccccca gccaggactc tgccaccctc421 cctcaggatg cctgagggcc ccgagctgca cctggccagc cagtttgtga atgaggcctg481 cagggcgctg gtgttcggcg gctgcgtgga gaagtcctct gtcagccgca accctgaggt541 gccctttgag agcagtgcct accgcatctc agcttcagcc cgcggcaagg agctgcgcct601 gatactgagc cctctgcctg gggcccagcc ccaacaggag ccactggccc tggtcttccg661 cttcggcatg tccggctctt ttcagctggt gccccgcgag gagctgccac gccatgccca721 cctgcgcttt tacacggccc cgcctggccc ccggctcgcc ctatgtttcg tggacatccg781 ccggttcggc cgctgggacc ttgggggaaa gtggcagccg ggccgcgggc cctgtgtctt841 gcaggagtac cagcagttca gggagagtgt gctacgaaac ctagcggata aggcctttga901 ccggcccatc tgcgaggccc tcctggacca gaggttcttc aatggcattg gcaactatct961 gcgggcagag atcctgtacc ggctgaagat cccccccttt gagaaggccc gctcggtcct
1021 ggaggccctg cagcagcaca ggccgagccc ggagctgacc ctgagccaga agataaggac1081 caagctgcag aatccagacc tgctggagct atgtcactca gtgcccaagg aagtggtcca1141 gttggggggc aggggctacg ggtcagagag cggggaggag gactttgctg cctttcgagc1201 ctggctgcgc tgctatggca tgccaggcat gagctccctg caggaccggc atggccgtac1261 catctggttc cagggggatc ctggaccgtt ggcacccaaa gggcgcaagt cccgcaaaaa1321 gaaatccaag gccacacagc tgagtcctga ggacagagtg gaggacgctt tgcctccaag1381 caaggcccct tccaggacac gaagggcaaa gagagacctt cctaagagga ctgcaaccca1441 gcggcctgag gggaccagcc tccagcagga cccagaagct cccacagtgc ccaagaaggg1501 gaggaggaag gggcgacagg cagcctctgg ccactgcaga ccccggaagg tcaaggctga1561 catcccatcc ttggaaccag aggggacctc agcctcttag caggaggctc tccttgcttg1621 cactcaccct ttcttattgt cttgccctgc atctgggggt ctgaattttt gggagcaggc1681 aatatctgaa ggtgcaaaca ggccctacgg ctgttccctg cacaactctc atggttttaa1741 ttgtacccca tcttccacat ctttaaagct catgtgaaaa atgctgcatt tttaataaac1801 tgatacattt gaaaaaaaaa aaaaaaaa
//
5
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 17
Kombinasjon of framvisning av data
• Annotering av genomet, dvs kart som beskriver:genenes plassering, genenes funksjon, proteiner, contig region, markører i området, koplinger mellom sykdommer og genmutasjoner,polymorfier (genetiske variasjoner i en populasjon), homologe gener and gene report
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 18
DatabaserDatabaser sites: (3 uavhengige: USA, Europa, Japan)
NCBI: National Center for Biotechnology Information(www.ncbi.nlm.nih.gov/)
e!Ensembl: EMBL - EBI and the Sanger Institute (www.ensembl.org/index.html)
DDBJ: DNA Data Bank of Japan(www.ddbj.nig.ac.jp/Welcome-e)
Proteinsekvenser:UniProt: Universal protein resource
combines information from Swiss-Prot, TrEMBL, and PIR(www.expasy.uniprot.org/)
InterPro: Database of protein families, domains and functional sites(www.ebi.ac.uk/interpro/)
Pfam: Collection of sequence alignments for protein domains and families.(www.sanger.ac.uk/Software/Pfam/)
Proteinstrukturer:Dali comparing protein structures in 3D
(www.ebi.ac.uk/dali/)PDB: Protein Data Bank
(www.rcsb.org/pdb/Welcome.do)
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 19
Databaser
Pathways:KEGG: Kyoto Encyclopedia of Genes and Genomes prediction of higher-level
complexity of cellular processes(www.genome.ad.jp/kegg/)
GO: The GeneOntology database to describe gene and gene product attributes (www.geneontology.org/)
Literature:PubMed: biomedical literature citations and abstracts
(www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed&itool=toolbar)
Diseases:OMIM: online Mendelian Inheritance in Man
(www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM)
Genome maps:UCSC: Genome Bioinformatics Group of UC Santa Cruz
(www.genome.ucsc.edu/)NCBI: MapViewer
(www.ncbi.nlm.nih.gov/mapview/)e!Ensembl Human:
(www.ensembl.org/Homo_sapiens/index) Lars O. Baumbusch INF3350/INF4350 – Høst 2007 20
Biologi - What is life?
6
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 21
Livet begynner med en celle
(fra: www.bioalgorithms.info) Lars O. Baumbusch INF3350/INF4350 – Høst 2007 22
• Celler er de minste enhetene i levende organismer
• Levende organismer kan være en-cellede eller flercellede
• Et menneske består av ca 75 000 000 000 000 celler
• Størrelsen på celler varierer fra ~10-7 m (mykoplasma) til ~1 m (visse nerveceller)
Røde blodlegemerfra menneske
Pseudomonasaeruginosa
Alle levende organismer består av celler
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 23
Prokaryoter og eukaryoter
Kjemisk komposisjon av celler
70% vann23% Makromolekyler
- proteiner- polysacharider- fettstoffer
7% mindre molekyler- salt- fettstoffer- aminosyrer- nukleotider
(fra: www.bioalgorithms.info) Lars O. Baumbusch INF3350/INF4350 – Høst 2007 24
Tre domener av livsformer
Levende organismer klassifiseres i tre domener:
• Archaea• Bakterier• Eukaryoter
Bakterier ArchaeaEukaryoter
PlanterSoppDyr
Prokaryoter
You are here
(fra: www.bioalgorithms.info)
7
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 25
Genomet hos prokaryoter
• Genomet er i de fleste tilfeller ett enkelt "kromosom" som består av et sirkulært DNA molekyl, hvor nesten alt DNA er kodende (det finnes bakterier med flere kromosomer, f.eks. kolera-bakt.)
• Det kan også være mindre sirkulære eller lineære DNA molekyler: plasmider som gir tilleggsegenskaper: antibiotika-resistens,
evne til å utnytte et næringsstoff, osv.
Nukleoid (et enkelt, sirkulært kromosom)
Plasmid
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 26
Genomet hos eukaryoter
• Genomet utgjøres i størstedel av to eller flere kromosomer i cellekjernen. Hver kromosom består av et lineært DNA-molekyl
• Mitokondriene (og hos planter i tillegg: kloroplastene) inneholder mindre DNA-molekyler
Mitokondrisk DNA
Nukleært DNA
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 27
Exons/Intron splicingEnkel intern organiseringIngen mRNA post transkriptsjonalmodifikasjon
To eller flere kromosomerEtt sirkulært kromosom
OrganellerIngen organeller
NukleusIngen nukleus
En eller flere cellerEnkel celle
EukaryoterProkaryoter
Prokaryoter og eukaryoter
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 28
Menneskets genom
• Menneskets genom består av 46 kromosomer• 44 av dem er i par (22 fra far og 22 fra mor)• de to siste er X og Y (kvinner har XX og menn XY)
• Total lengde på genomet: ca 3.000.000.000 baser
• Antall gener (som hver koder for ett bestemt protein) er mellom 20.000 og 35.000
• Genene utgjør bare en liten del (ca 1.5%) av genomet
• Resten er ”ikke-kodende DNA” – det aller meste vet vi ikkehvorfor er der, om det har noen funksjon og isåfall hvilken
8
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 29
Ferdigsekvensert
2001
Det humane genomet
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 30
Menneskets genom
Genomet
Mitokondrisk genom16 600 bp37 gener
Kjernegenom3 200 000 000 bp
~35 000 gener
Ikke gen-relatertGen-relatert
Kodende DNA Ikkekodende DNA
Pseudogener Genfragmenter Introner m.m.
Repetitiv DNA Annet
25% 75%
>10% <90%
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 31
• Genomet utgjøres i størstedel av kromosomer i cellekjernen. Hver kromosom består av et lineært DNA-molekyl
• Kromosomene består på sin side av DNA: lange kjedemolekyler sammensatt av fire forskjellige baser: A, T, C og G
celle
kromosomeri cellekjernen
kromosom
DNA dobbelthelix
Hver celle innholder en komplett utgave av hele genomet
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 32
Kromosomene
dobbelheliks
kromatin
nukleosom
kromosomer
9
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 33
sukker
H-bruer
komplementære tråder
fosfat-gruppe
To komplementæreDNA-tråder formersammen en stabilDNA dobbeltheliks
A og T danner parG og C danner par
Base-par er forbundet viahydrogen-bruer
DNA er en polymer og består av sukker-fosfatgruppe-base
DNA danner en dobbelheliks
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 34
• Byggestenene i DNA er de fire nukleotidene– 2'-deoxyadenosin 5'-trifosfat = dATP = A– 2'-deoxycytidin 5'-trifosfat = dCTP = C– 2'-deoxyguanosin 5'-trifosfat = dGTP = G– 2'-deoxythymidin 5'-trifosfat = dTTP = T
Byggestenene i DNA er fire nukleotider
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 35
Purines Pyrimidines
Byggestenene i DNA er fire nukleotider
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 36
Det sentrale dogmet i biologi
Det er rekkefølgen av baser i DNA-sekvensen som bestemmer rekkefølgen av aminosyrer i proteinet.
Transkripsjon (RNA syntese) og translasjon (protein syntese) fører fra DNA til protein
10
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 37
Fra DNA til protein
promoter terminator
DNA
intronexon exonpre-mRNA
transkripsjon
mRNA
etterprosessering(splicing, capping, polyadenylering)
protein
translasjon
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 38
Capping og polyadenylering
Capping legger påen baklengs metylert nukleosid, methylguanylate (m7G)i starten av primærtranskriptet
Polyadenylering legger på en hale av A'er(en poly-A hale) i slutten av primærtranskriptet
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 39
Fra pre-mRNA til mRNA
• For prokaryoter er pre-mRNA = mRNA
• I eukaryoter er gener normalt delt opp i et antall
– exoner: de delene av genet som koder for protein– introner: deler som ikke koder for protein
• Da vil pre-mRNA etterprosesseres bl.a. for å fjerne introner
Exoner
Introner
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 40
Splicing
• Et typisk eukaryotisk gen innholder introns. Splicingresulterer i at intronene i pre-mRNA fjernes, slik at man får en kortere sekvens som kun består av den kodende sekvensen (og noe av sekvensen upstreamog downstream)
• Alternativ splicing forekommer noen ganger, ved at eksonene settes sammen på en alternativ måte (annen rekkefølge og/eller at noen eksoner utelates). Dermed kan en enkelt nukleotidsekvens (ett gen) gi opphav til flere polypeptider (proteiner)
• Hos mennesker regner en med at en god del av genene er gjenstand for alternativ splicing
11
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 41
RNA
• RNA er i likhet med DNA kjedemolekyler av varierende lengde, bygget opp av fire forskjellige nukleotider. Disse er
– Adenin– Cytosin– Guanin som for DNA– Uracil
• RNA har mange viktige roller i cellen. De første former på liv på jorda antas å ha vært basert på RNA og ikke på DNA
• RNA har ikke tilbøyeligheten som DNA har til å danne en dobbeltheliks
Uracil
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 42
RNA
• RNA is similar to DNA chemically. It is usually only a single strand. T(hyamine) is replaced by U(racil)
• Some forms of RNA can form secondary structures by “pairing up”with itself. This can have change its properties dramatically.
DNA and RNAcan pair with each other.
(From: http://www.cgl.ucsf.edu/home/glasfeld/tutorial/trna/trna.gif)
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 43
Prokaryoter og eukaryoter
Eukaryotiske gener
Regulatory regions: up to 50 kb upstream of +1 site
Exons: protein coding and untranslated regions (UTR)1 to 178 exons per gene (mean 8.8)8 bp to 17 kb per exon (mean 145 bp)
Introns: splice acceptor and donor sites, junk DNAaverage 1 kb – 50 kb per intron
Gene size: Largest - 2.4 Mb (Dystrophin). Mean – 27 kb
DNA pre-mRNA mRNA
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 44
Translasjon
mRNA oversettes til protein via den genetiske koden
12
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 45
Den genetiske koden
Alle aminosyrer er kodetmed 3 nukleotider
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 46
Aminosyrer
Proteiner er satt sammen av 20 ulike aminosyrer som skiller seg fra hverandre ved sidekjeden ("R-gruppen")
IIleIsoleucine
HHisHistidine
GGlyGlycine
QGlnGlutamine
EGluGlutamic acid
CCysCysteine
DAspAspartic acie
NAsnAsparagine
RArgArginine
AAlaAlanine
Aminosyre
VValValine
YTyrTyrosine
WTrpTryptophan
TThrThreonine
SSerSerine
PProProline
FPhePhenylalanine
MMetMethionine
KLysLysine
LLeuLeucine
Aminosyre
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 47
Sidekjede
Generell form
Primærstruktur = aminosyresekvens
Met
Asp
Leu
Tyr
Met Asp Leu Tyr
+ + +
N-terminus C-terminus
N C
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 48
Høyereordens proteinstruktur
PrimærstrukturAminosyresekvens
Sekundærstrukturβ-sheet og α-helix
Tertiærstruktur3D-konfigurasjon
KvartærstrukturKobling av flere aminosyrekjeder
13
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 49
Proteiners kjemiske diversitet
• Med 20 aminosyrer er det nærmest et ubegrenset antall ulike proteiner av lengde < 1500 som er mulige
• Diversiteten er i praksis enda større, fordi– Enda en aminosyre (selenocysteine) kan settes inn i en
polypeptidkjede når proteiner lages– Aminosyrer kan modifiseres (f.eks. ved acetylering,
fosforylering eller ved å hekte på sukkergrupper) under produksjonen av proteiner
• Proteiner har i motsetning til DNA enorm strukturell og funksjonell diversitet
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 50
• Proteiner er byggestenen i alle levende organismer
• Proteiner er lange kjeder av aminosyrer (21 ulike)
• Kveiler seg opp i kompliserte og veldig varierte 3D-strukturer
• Utfører mange forskjellige oppgaver:– enzymer– antistoffer– transportproteiner (f.eks. hemoglobin)– reseptorer– visse hormoner (f.eks. insulin)– muskler, hud, hår, brusk
Hemoglobin
Proteiner er livets byggestener
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 51
Litteratur
• NCBI-primer ”Bioinformatics” og ”What is a genome”
• Seksjon 1 i pensum boka Jim Xiong ”Essential Bioinformatics”