![Page 1: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/1.jpg)
TWA-Seminar Thorsten Denhard, SS2003
1
Seminarvortrag im Studienschwerpunkt
technisch-wissenschaftliche Anwendungen
Sommersemester 2003Prof. Dr. Klement, Prof. Dr. Kneisel
Datenbanken in der BioinformatikThorsten Denhard
FH Giessen-Friedberg, Fachbereich MNI
![Page 2: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/2.jpg)
TWA-Seminar Thorsten Denhard, SS2003
2
Inhalt Einführung Bioinformatik
Genetischer CodeProteine
Einsatzgebiete für Datenbanken in der BISequenzdatenbankenDynamische Prozesse, etc.
Datenmodellierung und ManagementKonventionelle DBMSSpezielle Systeme für biologische DBn
Datenbank-RetrievalWWW-SchnittstellenMeta-Suchen
DB-Pflege und QualitätssicherungDatenintegrationAnnotationen
![Page 3: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/3.jpg)
TWA-Seminar Thorsten Denhard, SS2003
3
Einführung Bioinformatik Fachgebiet im Wandel:
von der „klassischen“hin zur Molekularbiologie
Heute erhobene Daten:Gensequenzen, Proteinstrukturen
Scharfe, quantifizierbare Größen
Große Datenmenge Algorithmen zur Analyse Methoden aus der Informatik
immer stärker gefordert
![Page 4: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/4.jpg)
TWA-Seminar Thorsten Denhard, SS2003
4
Genetischer Code DNS: linearer Doppelstrang Nucleotide:
Träger der Information, eine von vier Basen (A,T,C,G)Verbinden sich paarweise
Anzahl Basenpaare von ca.0,172 * 106 (Virus) bis3200 * 106 (Mensch)
„Gen“: ein Sequenzabschnitt, der ein Protein codiert
![Page 5: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/5.jpg)
TWA-Seminar Thorsten Denhard, SS2003
5
ProteineAufbau Bestehen aus Aminosäuren (20 verschiedene) Lineare unverzweigte Kette Länge: 50-3000 Elemente, im Mittel etwa 200
Gene codieren Proteine Codierungsschema:
3 Nucleotide (Codon) codieren eine AminosäureGenetischer Standardcode gleich über Artgrenzen
Benennung der Aminosäuren: drei oder ein Buchstabe (Glycin: Gly / G)
![Page 6: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/6.jpg)
TWA-Seminar Thorsten Denhard, SS2003
6
ProteineHierarchische Struktur Primärstruktur: Abfolge der Aminosäuren, linear Sekundärstruktur: -Helix, -Faltblatt Tertiärstruktur: Faltung d. Sekundärstruktur-
elemente im Raum
Maßgebend für die
Funktionalität des Proteins!
![Page 7: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/7.jpg)
TWA-Seminar Thorsten Denhard, SS2003
7
Einsatzfelder für Datenbanken
Sequenzdatenbanken Protein-Raumstrukturen Evolutionäre Entwicklungen (Phylogenetik) Genexpression (Aktivität von Genen) Stoffwechsel-Vorgänge (Metabolische Pfade) Literaturdatenbanken
![Page 8: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/8.jpg)
TWA-Seminar Thorsten Denhard, SS2003
8
Sequenzdatenbanken Gene: Nucleotidsequenzen
z.B. GenBank, Human Genome DB Proteine: Aminosäuresequenzen
z.B. SWISS-PROT Sequenzierung:
Codierende Sequenzen identifizieren
Analyse: Sequenz-Alignment Ähnlichkeit zw. Sequenzen
bestimmen In DB integriert oder separate Prog.
ExponentiellesWachstum
![Page 9: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/9.jpg)
TWA-Seminar Thorsten Denhard, SS2003
9
Proteinstrukturen Strukturdatenbanken
z.B. Protein Data Bank (PDB) 3D-Koordinaten aller Atome Zuordnung v. Sekundärstrukturen Rel. wenige Moleküle untersucht
Einordnung neuer Sequenzen Homologieansatz:
ähnliche Sequenzen ähnliche Struktur
Vorhersage der Proteinfaltung wichtiges Forschungsthema!
![Page 10: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/10.jpg)
TWA-Seminar Thorsten Denhard, SS2003
10
Phylogenetische DBn Verwandtschaftsbeziehungen zwischen Arten Heute auf genetischer Basis Erstellung phylogenetischer Bäume auf
dieser Basis Algorithmen, Zugriff auf genetische Daten
Archivieren erstellter Bäume in Datenbanken Bsp.: Tree Of Life - DB:
WWW-Projekt, ca. 350 teilnehmende Wissenschaftler
![Page 11: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/11.jpg)
TWA-Seminar Thorsten Denhard, SS2003
11
Bsp.: Tree Of Life - DB
![Page 12: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/12.jpg)
TWA-Seminar Thorsten Denhard, SS2003
12
Metabolische Pfade
Stoffwechsel-Vorgängein Zellen
Codiert als XML-Dokument
Über Java-Applet zugänglich
Verknüpungen mit z.B. chemischer Datenbank(per Mausklick)
Beispiel: KEGG PATHWAY-DB
![Page 13: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/13.jpg)
TWA-Seminar Thorsten Denhard, SS2003
13
Sonstige EinsatzgebieteGenexpression Genom: statischer „Bauplan“ Aber: Gene sind unterschiedlich aktiv DNA-Chips erlauben Messungen d. Aktivität Große Datenmengen, Analyse z.B. für neue
diagnostische u. therapeutische Verfahren
Literaturdatenbanken Bsp.: MEDLINE-DB für Medizin und
Lebenswissenschaften
![Page 14: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/14.jpg)
TWA-Seminar Thorsten Denhard, SS2003
14
Modellierung u. Datenmanagement
Implementierungsalternativen ASCII-Dateien (Flat Files)
40 % Relationales DBMS
38% Objektorientiertes / objektrelationales DBMS
9 % ACEDB
5 % OPM (Object Protocol Model)
2 %
( Daten von 2001 aus einer Studie von Bry & Kröger )
![Page 15: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/15.jpg)
TWA-Seminar Thorsten Denhard, SS2003
15
Implementierung: Flat Files ASCII-Dateien noch immer weit verbreitet Zum Datenaustausch u. Analyse de facto
Standard Explizite Strukturierung:
Tags, erlauben komplexe Strukturen und unvollständige Daten
Bsp.: Auszug aus der SWISS-PROT-DB (Proteine)ID PILI_PSEAE STANDARD; PRT; 178 AA.AC P43502;DT 01-NOV-1995 (Rel. 32, Created)DT 01-NOV-1995 (Rel. 32, Last sequence update)DE Protein pilI.GN PILI OR PA0410.OS Pseudomonas aeruginosa.SQ SEQUENCE 178 AA; 19934 MW; 634A1A4B135A7E77 CRC64; MSDVQTPFQL LVDIDQRCRR LAAGLPAQQE AVQSWSGIGF [...]
![Page 16: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/16.jpg)
TWA-Seminar Thorsten Denhard, SS2003
16
Implementierung: relationale DBMS
Relationale DBMS in anderen Feldern lange erprobt
Für wissenschaftliche Daten nicht optimal Komplexe Struktur führt zu uneinsichtigem
Tabellenverbund Administration und Abfragen daher unnötig
kompliziert Effiziente Speicherung u. Suche von
Sequenzdaten nicht hinreichend untersucht Trotzdem rund 38 % der DBn
mit relationalem DBMS
![Page 17: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/17.jpg)
TWA-Seminar Thorsten Denhard, SS2003
17
Implementierung: ACEDB A C. elegans DataBase Speziell für wissenschaftliches Umfeld
entworfen Objektorientiertes Datenmodell, aber:
Keine Vererbung möglich Baumstruktur von Objekten u. Attributen Semistrukturierter Ansatz
Erlaubt Ausnahmen i.d. Datenstruktur Query-Sprache AQL:
SQL-ähnlich, Pfad-Ausdrücke
![Page 18: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/18.jpg)
TWA-Seminar Thorsten Denhard, SS2003
18
Implementierung: ACEDB
Klassendefinition Tags, Objekte, Basistypen,
Modifizierer 1:N-Beziehungen
problemlos modellierbar
Bsp. Abfrage:Alle Co-Autoren in allen Aufsätzen von Hr. Lesk finden
?Author Name UNIQUE Text Paper ?Paper
?Paper Title UNIQUE Text Author ?Author Abstract ?LongText
select a->Paper->Author from a in class Author where a->Name like "*lesk*"
![Page 19: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/19.jpg)
TWA-Seminar Thorsten Denhard, SS2003
19
Implementierung: OPMObject Protocol Model Objektorientiertes Modell mit spezieller
Unterstützung für wissenschaftliche Daten/Prozesse
Kein DBMS, nur Datenmodell Protokoll-Klassen
modellieren Experimente mit Input und Output Tool-Suite zur Modellierung/Benutzung
Schema Editor: Erlaubt Transformation in relationale Schemata
Browse & Query: Anfragen u. Transaktionen in z.B. SQL umwandeln
![Page 20: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/20.jpg)
TWA-Seminar Thorsten Denhard, SS2003
20
Datenbank-RetrievalHeterogenität Vielzahl existierender DBn
welche enthält relevante Daten? unterschiedliche Abfragearten
Ansatz: „Meta-Suchen“z.B. SRS (Sequence Retrieval System) Zugriff auf ca. 500 DBn Folgt Hypertext-Links in Einträgen
Abfrage über WWW-Standardformular oderQuery-Language
[swissprot-id:acha-human] > prosite > swissprot
![Page 21: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/21.jpg)
TWA-Seminar Thorsten Denhard, SS2003
21
DatenintegrationAkquisition neuer Daten aus anderen DBn Voll- oder semiautomatisch
Konflikte möglich, Einteilung insemantische, deskriptive, strukturelle
Forschergruppen dürfen Daten einbringen
Qualität d. Daten, Validierungsprozess?
Übernahme aus der Literatur Meist manuell, arbeitsintensiv
![Page 22: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/22.jpg)
TWA-Seminar Thorsten Denhard, SS2003
22
QualitätssicherungAnnotationen Meta-Daten, z.B.
Literaturreferenzen Verknüpfungen zu anderen Datensätzen Herkunft der Daten, experimentelle Methoden Feature-Tables: biol. Bedeutung v. Sequenzen
Neuannotation von Einträgen Macht Datenbestand „dynamisch“ Qualität d. Einträge, Bsp. EMBL-DB
ohne Annotation vorläufig ungeprüft Standard
Annotationen geben den Daten Bedeutung
![Page 23: Datenbanken in der Bioinformatik Thorsten Denhard](https://reader033.vdocuments.pub/reader033/viewer/2022051517/568159fb550346895dc74767/html5/thumbnails/23.jpg)
TWA-Seminar Thorsten Denhard, SS2003
23
Zusammenfassung Molekularbiologische Daten
enorme Schärfe und Quantität oft komplexe Strukturen
Datenbanken bewährte DBMS bereits in Verwendung spezielle Ansätze verfügbar, aber noch nicht verbreitet
Heterogenität von Datenbeständen Verteiltheit und unterschiedliche Datenhaltung Integration notwendig
Informatik-Expertise bei Biologen erforderlich