ievads bioinformātikā

61
Ievads bioinformātikā Nils Rostoks Latvijas Universitāte Bioloģijas fakultāte

Upload: dwight

Post on 07-Feb-2016

93 views

Category:

Documents


5 download

DESCRIPTION

Ievads bioinformātikā. Nils Rostoks Latvijas Universitāte Bioloģijas fakultāte. Jā, esmu jau kaut ko līdzīgu redzējis, bet nezinu kā to izdarīt ar saviem datiem. Ko šī dendrogramma nozīmē? Uz ko norāda dažādās grupas? Vai zaru garumiem ir kāda nozīme? - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Ievads  bioinformātikā

Ievads bioinformātikā

Nils Rostoks Latvijas Universitāte Bioloģijas fakultāte

Page 2: Ievads  bioinformātikā

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra2

1. Jā, esmu jau kaut ko līdzīgu redzējis, bet nezinu kā to izdarīt ar saviem datiem. 2. Ko šī dendrogramma nozīmē? Uz ko norāda dažādās grupas? 3. Vai zaru garumiem ir kāda nozīme? 4. Dendrogramma balstīta uz dominantiem DArT molekulāro marķieru datiem un

veidota izmantojot Neighbour-Joining metodi balstoties uz Jaccard dissimilarity indeksu un 1000 bootstrap soļiem. Ko tas nozīmē? Vai izmantotā metode atbilst datu veidam? Kādus secinājumus drīkst izdarīt balstoties uz šiem datiem un izmantoto metodi?

Page 3: Ievads  bioinformātikā

Kas ir bioinformātika?

Bioinformatics derives knowledge from computer analysis of biological data. These can consist of the information stored in the genetic code, but also experimental results from various sources,

patient statistics, and scientific literature. Research in bioinformatics includes method development for storage, retrieval,

and analysis of the data. Bioinformatics is a rapidly developing branch of biology and is highly interdisciplinary, using techniques and concepts from informatics, statistics, mathematics, chemistry,

biochemistry, physics, and linguistics. It has many practical applications in different areas of biology and medicine

M. Nilges, J.P. Linge, Institut Pasteur

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra3

Page 4: Ievads  bioinformātikā

Kas ir bioinformātika?

Bioinformatics: Research, development, or application of computational tools and approaches for expanding the use of

biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze, or visualize such data.

Computational Biology: The development and application of data-analytical and theoretical methods, mathematical modeling

and computational simulation techniques to the study of biological, behavioral, and social systems

NIH Biomedical Information Science and Technology Initiative Consortium

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra4

Page 5: Ievads  bioinformātikā

Kas ir bioinformātika?

Bioinformatics is the field of science in which biology, computer science, and information technology merge to form a single

discipline. The ultimate goal of the field is to enable the discovery of new biological insights as well as to create a global

perspective from which unifying principles in biology can be discerned

http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra5

Page 6: Ievads  bioinformātikā

Kas ir bioinformātika?

• Kāpēc vajadzīgs vēl viens kurss, ja ir jau bijuši kursi “Bioloģija Internetā”, “Datormācība”, “Biometrija”?

• Bioinformātika ir atšķirīga. Lai gan terminoloģiski tā nozīmē jebkuras bioloģiskās informācijas analīzi, ar šo jēdzienu parasti saprot ļoti specifisku bioloģisko informāciju

Piemēram, priežu mežs Kolkā... • Var saskaitīt kokus, nomērīt to augstumu, stumbra diametru. Tā ir

biometrija • Var veikt eksperimentu audzējot priežu stādus vidē ar kontrolētu

sāls daudzumu un pētīt to atbildes reakciju. Tā ir augu fizioloģija • Var analizēt priežu genomu un tā kodētos proteīnus. Tā ir

bioinformātika 15.09.2011

Mikrobioloģijas un biotehnoloģijas katedra

6

Page 7: Ievads  bioinformātikā

Kursa apjoms

• 2 kredītpunkti• 12 lekcijas • Patstāvīgais darbs (uzdevumu risināšana) • 2 semināri (uzdevumu risinājumu

prezentēšana) • Gala pārbaudījums – eksāmens • Gala vērtējums = 50% uzdevums + 50%

eksāmens 15.09.2011

Mikrobioloģijas un biotehnoloģijas katedra

7

Page 8: Ievads  bioinformātikā

Lekciju saraksts

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra8

N.p.k. Datums Lekcijas temats

1. 15.09.2011Ievadlekcija. Prasības kursa apgūšanai un literatūras avoti. Bioinformātikas jēdziens. Kas ir bioinformātika un kāpēc tā biologiem vajadzīga? Bioloģija, statistika, informācijas tehnoloģijas un programmēšana kā bioinformātikas pamatelementi

2. 22.09.2011 Bioloģiskās informācijas veidi un apjoms. Genomu organizācija. Modernās genomu analīzes metodes3. 29.09.2011 Genomu evolūcija. Salīdzinošā genomika 4. 06.10.2011 Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas 5. 13.10.2011 Dažādu bioloģiskās informācijas datubāžu izmantošanas piemēri

6. 20.10.2011 Nukleīnskābju un proteīnu sekvenču līdzības pamatprincipi. Nukleīnskābju un proteīnu sekvenču pāru salīdzināšana. BLAST veidi

7. 27.10.2011 Nukleīnskābju un proteīnu daudzkārtējās salīdzināšanas metodes, to priekšrocības un pielietošanas nosacījumi. Datorprogrammas nukleīnskābju un proteīnu sekvenču daudzkārtējai salīdzināšanai

8. 03.11.2011 Seminārs un uzdevumu pārbaude par tēmām, kas saistītas ar informācijas meklēšanu datu bāzēs un sekvenču homoloģijas meklēšanu

9. 10.11.2011 Filoģenētika. Klāsteru un kladistiskās metodes filoģenētisko koku rekonstruēšanā 10. 17.11.2011 Datorprogrammas nukleīnskābju un proteīnu sekvenču filoģenētiskajai analīzei

11. 24.11.2011 Makromolekulu telpiskā struktūra un tās paredzēšana. DNS topoloģija. Proteīnu struktūras paredzēšana, modelēšana un pielietojums farmakoloģijā

12. 01.12.2011 Genoma ekspresijas analīze. Transkriptomika. DNS čipi genomu polimorfisma analīzē. Gēnu ekspresijas ģenētika 13. 08.12.2011 Proteomika un sistēmu bioloģija. Tīklveida struktūras kā bioloģisko sistēmu dabiska sastāvdaļa.

14. 15.12.2011Seminārs un uzdevumu pārbaude par tēmām, kas saistītas ar filoģenētisko analīzi un proteīnu sekundārās struktūras paredzēšanu. Bioinformātikas perspektīvas. Bioinformātika kā priekšnosacījums modernās bioloģijas apgūšanai

15. 22.12.2011 Eksāmens

Page 9: Ievads  bioinformātikā

Mācību plāns I

• Bioloģiskā informācija - tās daudzveidība un apjoms • Bioloģija, statistika, informācijas tehnoloģijas un

programmēšana kā bioinformātikas pamatelementi • Genomu organizācija un evolūcija • Salīdzinošā genomika • Bioloģiskās informācijas datubāzes. Informācijas

meklēšanas un iegūšanas sistēmas

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra9

Page 10: Ievads  bioinformātikā

Mācību plāns II

• Nukleīnskābju un proteīnu sekvenču līdzības pamatprincipi. Dažādas salīdzināšanas metodes, to priekšrocības un pielietošanas nosacījumi

• Filoģenētika. Klāsteru un kladistiskās metodes filoģenētisko koku rekonstruēšanā

• Genoma ekspresijas analīze• DNS čipi genomu polimorfisma analīzē. Gēnu

ekspresijas ģenētika

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra10

Page 11: Ievads  bioinformātikā

Mācību plāns III

• DNS topoloģija, proteīnu struktūra, tās paredzēšanas metodes un pielietojums farmakoloģijā

• Proteomika un sistēmu bioloģija. Tīklveida struktūras kā bioloģisko sistēmu dabiska sastāvdaļa

• Bioinformātikas perspektīvas. Bioinformātika kā priekšnosacījums modernās bioloģijas apgūšanai

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra11

Page 12: Ievads  bioinformātikā

Mācību materiāli I

• Lekcijas • Lesk AM (2008) Introduction to Bioinformatics. 3rd ed.

Oxford University Press, New York, USA • Lesk AM (2005) Introduction to Bioinformatics. 2nd ed.

Oxford University Press, New York, USA • Higgs PG, Attwood TK (2006) Bioinformatics and molecular

evolution. Blackwell Publishing, Malden, USA, Oxford, UK • Claverie, Jean-Michel Bioinformatics for dummies 2003 LUB:Biologijas-zin.-bibl.,

LUB:Centr.bibl.-krājums• Higgs, Paul G. Bioinformatics and molecular evolution 2005 LUB:Biologijas-zin.-

bibl., LUB:Juridisko-zin.-bibl.• Mount, David W. Bioinformatics 2001 LUB:Centr.bibl.-krājums

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra12

Page 13: Ievads  bioinformātikā

Mācību materiāli II

• Interneta resursi: http://plantgenetics.lu.lv

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra13

Page 14: Ievads  bioinformātikā

http://plantgenetics.lu.lv

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra14

Page 15: Ievads  bioinformātikā

Mācību materiāli III

• Interneta resursi: http://www.ebi.ac.uk/2can/home.html http://www.ncbi.nlm.nih.gov/Education/index.html http://bioinformatics.oxfordjournals.org/

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra15

Page 16: Ievads  bioinformātikā

Bioinformātika

• Bioinformātika ir zinātne, kas analizē informāciju, kas ietverta dzīvo organismu genomā

• Ģenētiskā informācija (DNS secība) ir diskrēta, ne velti tās aprakstīšanai tiek lietoti datorzinātņu terminoloģija

• Bioinformātika ir bioloģijas, statistikas, informāciju tehnoloģijas un programmēšanas sintēze

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra16

Page 17: Ievads  bioinformātikā

Digitālais cilvēka genoms

• Diploīds genoms – apmēram 6 x 109 bp • Viena nukleotīda kodēšanai binārā formā

nepieciešami vismaz 2 biti: A = 00, C = 01, G = 10, T = 11

• 8 biti = 1 baits • 1 baits var kodēt 4 nukleotīdus • Diploīds cilvēka genoms binārā formā ir 1.5 x 109

baiti (tikpat cik MS Windows XP operētājsistēma) http://www.tmsoft.com/article-genome.html

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra17

Page 18: Ievads  bioinformātikā

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra18

Page 19: Ievads  bioinformātikā

Kursa mērķis

• Sniegt priekšstatu par bioinformātikas metodēm, tā lai lasot zinātnisko literatūru, jūs varētu skaidri stādīties priekšā, kādā veidā dati tika iegūti un analizēti. Protams, daudzas bioinformātikas jomas būs pārāk sarežģītas, lai tās padziļināti apskatītu šajā kursā

• Iemācīt pamatmetodes molekulāro sekvenču analīzē, salīdzināšanā un datu bāzu darbībā

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra19

Page 20: Ievads  bioinformātikā

Bioloģiskā informācija - tās daudzveidība un apjoms

Page 21: Ievads  bioinformātikā

Ģenētiskās informācijas nesēja ir DNS

• DNS ir (gandrīz) universāla ģenētiskās informācijas nesēja - 1944. gads (Oswald T. Avery un Colin M. MacLeod)

• Pirmā rekombinantā DNS molekula – 1972. gads (Paul Berg)

• Pirmā pilnā genoma secība – 1980. gads (vīruss FX174)

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra21

Page 22: Ievads  bioinformātikā

Datorprogrammas DNS sekvences analīzei

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra22

Page 23: Ievads  bioinformātikā

Genomā ietvertā informācija nosaka organisma identitāti

... vismaz baktērijās ...

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra23

Page 24: Ievads  bioinformātikā

Genoma transplantēšana baktērijās

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra24

Page 25: Ievads  bioinformātikā

Pilna baktērijas genoma ķīmiskā sintēze

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra25

Page 26: Ievads  bioinformātikā

Baktēriju genomu inženierija

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra26

Page 27: Ievads  bioinformātikā

DNS sekvenēšana

• Divas metodes 1975. - 1977. gadā (Allan Maxam un Walter Gilbert, Frederick Sanger)

“These chemical procedures ... soon allowed the entire sequence of the plasmid cloning vector pBR322 (4362 bp) to be worked out by a single scientist in only one year.”

Molecular Biology of the Gene IVth ed. 1987

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra27

Page 28: Ievads  bioinformātikā

Automatizētā DNS sekvenēšana

ASV Enerģijas departamenta Apvienotais genoma institūts (DoE Joint Genome Institute, www.jgi.doe.gov

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra28

Page 29: Ievads  bioinformātikā

Genoma sekvenēšanas centri

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra29

Page 30: Ievads  bioinformātikā

DNS sekvenču pieaugums GenBank

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra30

19821984

19861988

19901992

19941996

19982000

20022004

20062008

0

10

20

30

40

50

60

70

80

90

100

0

10

20

30

40

50

60

70

80

90

100

Bāzu pāri Sekvences

Genbankas attīstība 1982. - 2008. gadā

Bāzu

pār

u sk

aits

Gen

bank

as d

atu

bāzē

(milj

ardo

s)

Sekv

enču

ska

its

Gen

bank

as d

atu

bāzē

(milj

onos

)

Page 31: Ievads  bioinformātikā

DNS sekvences un Mūra likums

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra31

Mūra likums – tranzistoru skaits datoru procesoros katru gadu dubultojas Gan DNS sekvenču, gan tranzistoru skaita pieaugums uz datoru mikroshēmām ir eksponenciāls

Page 32: Ievads  bioinformātikā

Sekvenēšanas izmaksas

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra32

http://www.nsf.gov/news/speeches/colwell/rc03_dallas/sld016.htm

Page 33: Ievads  bioinformātikā

Next generation sequencing

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra33

Līdz šim dotā statistika raksturo Sangera sekvenēšanu – sekvenēšana ar sintēzi izmantojot fluorescenti iezīmētus didezoksinukleotīdu terminatorus

Next generation sequencing balstās uz citiem principiem NGS ir apkopojošs nosaukums vairākiem atšķirīgiem sekvenēšanas protokoliem

454 (Roche), ABI Solid, Illumina Solexa, Helicos HeliScope

Schendure and Hanlee (2008) Next-generation DNA sequencing. Nat Biotech 26:1135

Page 34: Ievads  bioinformātikā

454 (Roche) GS FLX Titanium

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra34

Page 35: Ievads  bioinformātikā

Illumina (Solexa) Genome Analyzer

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra35

Page 36: Ievads  bioinformātikā

Indivīda genoma sekvence

• Cilvēka genoma projekts (1990. – 2003.) noteica pilnu cilvēka genoma sekvenci, taču tā ir dažādu indivīdu genomu hibrīds

• Levy et al. (2007) The diploid genome sequence of an individual human. PLoS Biol 5: e254

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra36

Page 37: Ievads  bioinformātikā

1000 genomu sekvences

• The Genomes Project (2010) A map of human genome variation from population-scale sequencing. Nature 467: 1061-1073

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra37

Page 38: Ievads  bioinformātikā

Genoma sekvence un medicīna

• Genoma sekvenēšanas tehnoloģijas virzās uz priekšu ātrāk nekā medicīniskā ģenētika un molekulārā bioloģija

• Genoma sekvenēšana ir (gandrīz) rutīna, bet ko nozīmē atklātā ģenētiskā daudzveidība mēs nezinām

• Bioinformātikas uzdevums ir ne tikai veicināt genomu sekvences iegūšanu, bet arī to funkcionālo anotāciju

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra38

Page 39: Ievads  bioinformātikā

Bioloģija, statistika, informācijas tehnoloģijas un programmēšana kā

bioinformātikas pamatelementi

Page 40: Ievads  bioinformātikā

Bioinformātikas pētījumu objekts

• Genoma nukleotīdu secības (DNS/RNS) (genomika)

• Genoma ekspresija (dažādu RNS veidu analīze) (transkriptomika)

• Genoma kodētie proteīni (proteomika)

• Šūnas veidotie metabolīti (metabolomika)

• Mijiedarbības dažādu objektu starpā (sistēmbioloģija)

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra40

Page 41: Ievads  bioinformātikā

Eksperimentālās bioloģijas metodes un bioinformātika

• Eksperimentālās metodes, kas nepieciešamas dažāda līmeņa bioloģiskās informācijas iegūšanai ir ļoti dažādas:

Genomika – molekulārā klonēšana un sekvenēšana Proteomika – rentgenstaru struktūra, kodola magnētiskā

rezonanse . . . • Bioinformātika apkopo un organizē datus, kas iegūti ar šīm

dažādajām metodēm, kā arī ļauj iegūt padziļinātas zināšanas par šo datu fundamentālo saistību

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra41

Page 42: Ievads  bioinformātikā

Bioloģija, statistika, programmēšana, informāciju tehnoloģijas

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra42

Datu bāzes

Datu analīzes un apstrādes metodes – statistika, informātika, informāciju tehnoloģijas

1. Aprakstošā informācija par dzīvo dabu un vidi – ekoloģija, morfoloģija, taksonomija...

2. Eksperimentālā informācija par dzīvajiem organismiem - genomika, proteomika, transkriptomika...

Jaunu algoritmu

izstrāde

IT infrastruktūra un DB programmēšana

Jaunu programmu

izstrāde

Page 43: Ievads  bioinformātikā

Bioloģija

• Bioloģija ir bioinformātikas pamats

Bioinformātikas funkcija ir veicināt bioloģisko procesu izpratni, integrēt esošos datus viegli pieejamās datu bāzēs un tādējādi atvieglot to analīzi izmantojot jaunas analītiskās metodes

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra43

Page 44: Ievads  bioinformātikā

Bioloģiskās informācijas plūsma

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra44

DNS

RNS

Proteīni

Šūna Organisms Populācija Suga

Page 45: Ievads  bioinformātikā

Statistika

• Bioinformātikas neatņemama sastāvdaļa. Visu kursa gaitā pieminēto analītisko metožu pamatā ir dažādas statistikas metodes

• Statistika nepieciešama visos genoma analīzes etapos Piemēram, genoma sekvences noteikšanai, kad no daudziem nelieliem DNS secības gabaliņiem tiek rekonstruēta pilna genoma secība

• Statistikas mācīšana nav šī kursa uzdevums, bet dažas metodes tiks pieminētas

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra45

Page 46: Ievads  bioinformātikā

Statistikas funkcija bioinformātikā

• Statistika ļauj novērtēt vai novērotā parādība (analīzes gaitā iegūtie rezultāti) ir nozīmīgi

Vai starp divām dažādu gēnu DNS/aminoskābju secībām novērotā homoloģija ir statistiski nozīmīga? Vai gēnu struktūras paredzēšanas programmas piedāvātais sadalījums intronos – eksonos ir nozīmīgs? Vai novērotā atšķirība gēnu ekspresijas līmeņos starp kontroles un slimības paraugiem ir nozīmīga?

• Statistiskā nozīmība automātiski nenozīmē, ka novērotajai parādībai ir bioloģiska jēga

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra46

Page 47: Ievads  bioinformātikā

Statistikas īpatnības bioinformātikas kontekstā

• Datu veids – DNS un proteīnu sekvences (kvantitatīvi diskrēti dati), gēnu ekspresijas dati (kvantitatīvi nepārtraukti dati), proteīnu struktūras

• Datu apjoms – miljardiem bāzu pāru, miljoniem gēnu ekspresijas mērījumu

• Eksaktās metodes ir precīzas, bet reizēm var būt pārāk laikietilpīgas pat izmantojot modernāko IT infrastruktūru

• Eksperimentālo datu ieguve ir dārga, tāpēc nereti tiek strādāts ar nelielu bioloģisko atkārtojumu skaitu

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra47

Page 48: Ievads  bioinformātikā

Informācijas tehnoloģijas

• Datori ir nepieciešama bioinformātikas daļa • Līdzko datori vispār parādījās, tie nekavējoties

tika pielietoti bioinformātikā • Bioloģiskās informācijas apjoms ir milzīgs un

tās uzglabāšanai un apstrādei ir nepieciešamas pašas jaunākās informācijas tehnoloģijas

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra48

Page 49: Ievads  bioinformātikā

Datori un sekvences

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra49

Page 50: Ievads  bioinformātikā

Datortehnika

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra50

http://www.theregister.co.uk/2009/05/01/s100

Page 51: Ievads  bioinformātikā

Internets

• Gan IT infrastruktūra, gan programmatūra • Sākumā bija ASV Aizsardzības ministrijs

atbalstītais tīkls ARPANET (DoD Advanced Research Projects Agency Network)

• 1990. gadā Šveices organizācija CERN (Conseil Européen pour la Recherche Nucleaire) izveidoja tīkla protokolus, kas ir pamatā mūsdienu World Wide Web

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra51

Page 52: Ievads  bioinformātikā

Programmēšana

• Programmēšanas zināšanas bioinformātiķim nav absolūti nepieciešamas, bet tās ļoti atvieglo dzīvi

• Bioloģiskās informācijas analīze ir dinamiska joma, kas strauji attīstās

• Parādās jauni algoritmi un analīzes metodes, kuru pielietojums ir atkarīgs no tā, vai tās ir pieejamas ērti lietojamas programmatūras veidā. Vairumam biologu ir relatīvi ierobežota sapratne par programmēšanu un tādēļ pat vislabākais algoritms netiks plaši pielietots, ja tas nebūs pieejams ērti lietojamas programmas veidā

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra52

Page 53: Ievads  bioinformātikā

Programmēšana Perl

• PERL – Practical Extraction and Report Language (Larry Wall, 1987)

• Perl ir augsta līmeņa programmēšanas valoda

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra53

Mašīnas valoda8B45FC 0345F88945F4

Assemblera valoda

movl a, %eax addl b, %eax movl %eax, c

Augsta līmeņa valoda c = a + b

Page 54: Ievads  bioinformātikā

Programmēšana Perl

• Perl ir īpaši piemērota darbam ar tekstu (tātad arī ar DNS un proteīnu sekvencēm)

• Perl ir samērā vienkārša, bet arī ļoti spēcīga programmēšanas valoda

• Perl tiek plaši izmantota bioinformātikā, gan programmatūras rakstīšanai, gan WWW saitu programmēšanai

• http://www.activestate.com • http://www.bioperl.org

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra54

Page 55: Ievads  bioinformātikā

Perl ir pieejama programmēšanas valoda

TMTOWTDI – There’s More Than One Way To Do It

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra55

Page 56: Ievads  bioinformātikā

Uzsākt mācīties Perl ir vienkārši

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra56

Page 57: Ievads  bioinformātikā

BLAST meklēšanas rezultātu apstrāde ar Perl

• ~1400 miežu cDNS secību • BLASTX homoloģijas meklēšana attiecībā pret rīsu

genoma paredzētajām proteīnu sekvencēm • Kā tikt galā ar BLAST rezultātu? • 16 MB fails ar vairāk kā 300 000 rindiņām...

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra57

Page 58: Ievads  bioinformātikā

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra58

Page 59: Ievads  bioinformātikā

Kāpēc šādas programmas strādā?

• if(/^<b>Query=... atrod tikai rindiņu, kas sākas ar Query=, bet ne QUERY=, nedz query=

• BLAST programmu rezultātus ir viegli apstrādāt, jo tie ir precīzi un konsekventi

• Nedrīkst izmantot latviešu fontus, atstarpes failu nosaukumos un tmldz.

• Uzglabājot un apstrādājot bioloģisko informāciju datorā nepieciešams izstrādāt datu nosaukumu standartus

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra59

Page 60: Ievads  bioinformātikā

Slikti un labi failu nosaukumi

15.09.2011Mikrobioloģijas un biotehnoloģijas

katedra60

Page 61: Ievads  bioinformātikā

Genomu struktūra un modernās metodes tās analīzei