![Page 1: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/1.jpg)
WS2017/2018 MSc Modul 7A
„Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “
AG Hankeln
Methoden der Genomsequenzierung: Mapping-Strategien
![Page 2: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/2.jpg)
Sind alle sequenzierten Reads qualitativ hochwertig?
Was fällt noch auf?
![Page 3: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/3.jpg)
Qualitätsprozessierung: Nukleotidverteilung in Rohdaten
Clippen
Adaptorfiltern
![Page 4: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/4.jpg)
FASTQ-Format Format zum Speichern der Sequenzschnipsel
33; 39; 39; 42; 40 usw. Header Sequenz Header2 Phred-kodierte Qualitätswerte
Vor dem Mapping: Aussortieren
![Page 5: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/5.jpg)
Qualitätswerte
Sanger-Sequenzierung - Chromatogramme - Phred-scores
Phred-scores: Q = -10 Log10 p p = 10^(-Q/10) p: Wahrscheinlichkeit, dass der Basecall falsch ist
NGS - Phred ähnliche Qualitätswerte - Werden im FASTQ und SAM-format umformatiert um weniger Speicherplatz zu belegen - Q wird mit X addiert, der entsprechende Eintrag der Ascii-Tabelle steht für die Qualität - X = 33 bei Sanger, bei Illumina lange Zeit 64, jetzt auch 33 Sanger Beispiel: Ascii: 73 ! minus X (33) ! Q = 40 ! p = 10^(-40/10) = 0,0001
![Page 6: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/6.jpg)
Berechne den Quality score zu p=0,05
a = b x
x = log b a
![Page 7: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/7.jpg)
Berechne den Quality score zu p=0,05
• p = 10 Q/-10
• Q/-10 = log 10 p
• Q = -10 log 10 p • -10 log 10 0,05 = 13
• ! Cutoff bei einem Quality-Score von 13
a = b x
x = log b a
![Page 8: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/8.jpg)
Mapping • Alignierung der generierten Reads an eine
Referenz
Genomposition
Quantitative Information!
![Page 9: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/9.jpg)
Mapping - aber wie?
![Page 10: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/10.jpg)
Mapping-Algorithmus I: Burrows-Wheeler-Transformation
• Umstrukturierung der Daten • Verringerter Speicherbedarf • Verkürzte Zugriffszeiten • Schnelleres Alignieren
![Page 11: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/11.jpg)
Mapping-Algorithmus I: Burrows-Wheeler-Transformation
• Umstrukturierung der Daten • Verringerter Speicherbedarf • Verkürzte Zugriffszeiten • Schnelleres Alignieren Beispiel: Mississippi
mississippi$
![Page 12: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/12.jpg)
Alle möglichen Rotationen erzeugen.
Mapping-Algorithmus I: Burrows-Wheeler-Transformation
![Page 13: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/13.jpg)
Sortierung der Zeilen in alphabetischer Reihenfolge.
Mapping-Algorithmus I: Burrows-Wheeler-Transformation
![Page 14: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/14.jpg)
Ausgabe der letzten Spalte. mississippi$ ipssm$pissii (4 i, 1 m, 2 p, 4 s)
Mapping-Algorithmus I: Burrows-Wheeler-Transformation
![Page 15: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/15.jpg)
• Durch die Information (4 i, 1 m, 2 p, 4 s) kann die erste Spalte rekonstruiert werden.
• Durch die Beziehung der beiden Spalten kann die Sequenz jeder Zeile rekonstruiert werden.
• Für jede Teilsequenz (read) können durch alphabetische Überprüfung schnell alle möglichen passenden Positionen gefunden werden.
Mapping-Algorithmus I: Burrows-Wheeler-Transformation
Die jeweils gleichen Buchstaben sind in der ersten und in der letzten Spalte gleich sortiert! Und zwar rückwärts!
![Page 16: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/16.jpg)
• Anzahl nötiger Schritte nur von read-Länge und Anzahl möglicher Zustände und nicht von der Länge der Referenzsequenz abhängig
• Extrem nützlich für Mapping an große Genome
Mapping-Algorithmus I: Burrows-Wheeler-Transformation
![Page 17: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/17.jpg)
Beispiel: Steckt die Zeichenabfolge „ims“ in der Ausgangssequenz? • Normale Vorgehensweise: positionsweise „ims“ an Ausgangssequenz entlangschieben • BWT: hinter „i“ kann „$“, „p“ oder „s“ kommen „ims“ ist nicht in der
Sequenz
Mapping-Algorithmus I: Burrows-Wheeler-Transformation
![Page 18: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/18.jpg)
• Temporäre Rekonstruktion relevanter Bereiche
• Für „ims“ bereits in zweiter Zeile fertig (p im Alphabet nach m)
Mapping-Algorithmus I: Burrows-Wheeler-Transformation
![Page 19: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/19.jpg)
• Temporäre Rekonstruktion relevanter Bereiche
• Für „ims“ bereits in zweiter Zeile fertig (p im Alphabet nach m)
Mapping-Algorithmus I: Burrows-Wheeler-Transformation
![Page 20: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/20.jpg)
Spliced Read: AATGTCGTACGTACGTCCTAGTTAAGTA Seeds: AATGTCG, TACGTAC, GTCCTAG, TTAAGTA Seed-and-extend:
TACGTAC TTAAGTA …ACGTACGTACGTCCgtctagtgacatgcataagTAGTTAAGTA…
Exon Intron Exon
Mapping-Algorithmus II: Seed-and-Extend
![Page 21: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/21.jpg)
Mapping-Algorithmus II: Seed-and-Extend
! Detektion übereinstimmender K-mere ! „Extend“ (unter Beachtung potenzieller
Exon-Exon-Grenzen)
![Page 22: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/22.jpg)
Wie lang sollte ein Seed mindestens sein um „unique“ zu mappen?
Mapping-Algorithmus II: Seed-and-Extend
![Page 23: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/23.jpg)
Reads, die Introns überspannen (spliced reads) können nicht gemappt werden Seed table: Nicht gemappte Reads werden in kürzere Sequenzen (seeds) unterteilt Seed-and-extend: Seeds werden gegen die Exongrenzen gemappt und bei einem Match zu beiden Seiten erweitert
Mapping-Algorithmus II: Seed-and-Extend
![Page 24: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/24.jpg)
Tools: BWT vs. Hash
![Page 25: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/25.jpg)
Dobin et al. 2013
Aber bitte ohne falsch-positive Mapping-Treffer!!
![Page 26: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/26.jpg)
Mapping-Output Das SAM-Format (binär: BAM) ist das wichtigste Dateiformat für Mapping-Daten
Optionaler Header
Read Name; Bitwise Flag; Referenzsequenz Name; Position; Quality Score
CIGAR String Mate Ref.seq; Mateposition; Insertgröße; Read Sequenz
![Page 27: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/27.jpg)
Frage 0: Read paired? Frage 1: Read mapped in proper pair? Frage 2: Read unmapped? Frage 3: Mate unmapped? Frage 4: Read reverse strand? Frage 5: Mate reverse strand? Frage 6: First in pair? Frage 7: Second in pair? Frage 8: Not primary alignment? Frage 9: Read fails platform/vendor quality checks? Frage 10: Read is PCR or optical duplicate? Frage 11: Supplementary alignment?
Was besagt die Bitwise Flag des Mapping-Outputs?
Ja = 1 Nein =0
https://broadinstitute.github.io/picard/explain-flags.html
Read Name; Bitwise Flag; Referenzsequenz Name; Position; Quality Score
![Page 28: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/28.jpg)
Bitwise Flag
Frage 0: Read paired? Frage 1: Read mapped in proper pair? Frage 2: Read unmapped? Frage 3: Mate unmapped? Frage 4: Read reverse strand? Frage 5: Mate reverse strand? Frage 6: First in pair? Frage 7: Second in pair? Frage 8: Not primary alignment? Frage 9: Read fails platform/vendor quality checks? Frage 10: Read is PCR or optical duplicate? Frage 11: Supplementary alignment?
Ja=1; Nein=0
https://broadinstitute.github.io/picard/explain-flags.html
Ja Ja Nein Nein Ja Ja Nein Ja Nein Nein Nein Nein
2^0=1 2^1=2 2^2=4 2^3=8 2^4=16 2^5=32 2^6=64 2^7=128 2^8=256 2^9=512 2^10=1024 2^11=2048
*1=1 *1=2 *0=0 *0=0 *1=16 *1=32 *0=0 *1=128 *0=0 *0=0 *0=0 *0=0
SUMME: 179
Alle obigen Informationen stecken in der bitwise flag 179!
![Page 29: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/29.jpg)
Ein Sonderfall: Mapping bei RNA-Seq
Exon Intron
RNA-Seq Read
![Page 30: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/30.jpg)
Lösung: Verwendung von „Splice-aware“ Mappern (STAR, TopHat, CLC usw.)
RNA-Seq Mapping
![Page 31: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/31.jpg)
Dobin et al. 2013
Splice Junction Mapping: Algorithmen im Vergleich
![Page 32: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/32.jpg)
Paired-end libraries
![Page 33: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/33.jpg)
Paired-end: Vorteile
![Page 34: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/34.jpg)
Nach dem Mapping: Quantifizierung und Normalisierung der
Expressionsstärke
RPKM = Gemappte reads innerhalb des Transkripts
Länge des Transkripts (Kb) x Gemappte reads insgesamt (Mio.)
![Page 35: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/35.jpg)
• Fragment: physischer DNA-Schnipsel aus einem Transkript
• Read: bioinformatischer Sequenzschnipsel
• Relevantester Unterschied: broken pairs ! FPKM: Fragment gefunden und voll gewertet ! RPKM: ein Teil gefunden und gewertet
RPKM vs. FPKM
# für RPKM: 6 # für FPKM: 3
# für RPKM: 4 # für FPKM: 3
![Page 36: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/36.jpg)
(Transcripts per Kilobase per Million)
Normalisierung der Expressionsstärke: TPM statt RPKM
rg: number of reads mapped to g rl: Readlänge flg: feature (Exon/Transkript) Länge von g T: Summe aller „transcripts sampled“ R: Summe aller gemappten Reads
• RPKM ist kein „Kuchenstück“: die Summe aller RPKMs ≠100% ! gibt nicht den Anteil des Transkripts pro eingesetzter mRNA wieder
• RPKMs teilweise schlecht untereinander vergleichbar wenn Transkripte generell länger oder kürzer sind
• ! anderer „Scaling factor“ sinnvoll:
• ! TPM ist proportional der relativen molaren Konzentration
statt
![Page 37: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/37.jpg)
Differenziell regulierte Gene der RNA-Seq Analyse
Genliste mit „fold-change“- Werten, die eine differenzielle Regulation auf mRNA-Ebene zeigen.
![Page 38: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/38.jpg)
Scatter Plot: Visuelle Darstellung differenziell
regulierter Gene der RNA-Seq Analyse
Expressionsstärke von Sample 1
Exp
ress
ions
stär
ke v
on S
ampl
e 2
![Page 39: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/39.jpg)
Biologische Interpretation der differenziell regulierten Gene
• Gibt es eine gemeinsame Assoziation mit bestimmten Zellkomponenten?
• Gibt es eine gemeinsame Assoziation mit bestimmten Funktionen, z.B. Schutz vor Sauerstoffradikalen?
• Gibt es Pathways, in denen viele der Gene vorkommen?
• Gibt es gemeinsame Regulatoren der Gene, z.B. stressinduzierbare Transkriptionsfaktoren?
![Page 40: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/40.jpg)
Aufspüren von Assoziation mit bestimmten biologischen Prozessen, Zell-Komponenten, und molekularen Funktionen
Biologische Interpretation: Gene Ontology Annotation
![Page 41: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/41.jpg)
Gene Ontology Annotation
• Jedes Gen wird in der Gene Ontology-Datenbank mit mehreren Schlagwörtern (=terms) versehen
• Diese sind vernetzt und stehen in verschiedenen Beziehungen zueinander (z.B. „part of“, „is a“, „regulates“)
! Zusammenfassung und Vernetzung von Genen zu biologisch sinnvollen Gruppen (~25 000 Eigenschaften)
![Page 42: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/42.jpg)
Enrichment von funktionell annotierten Genen in Datensätzen
Schmidt et al. 2017
Viele Tumorsuppressorgene des Datensatzes sind angereichert, aber handelt es dabei sich um eine signifikante Anreicherung? ! Fisher‘s Exact test: https://www.youtube.com/watch?v=udyAvvaMjfM
![Page 43: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/43.jpg)
Boyle et al. 2004
Enrichment von funktionell annotierten Genen in Datensätzen
Hypergeometrische Verteilung
![Page 44: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/44.jpg)
Gene Ontology Analysen
Aufspüren von Anreicherungen
http://cbl-gorilla.cs.technion.ac.il/help.html
![Page 45: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/45.jpg)
Gene Ontology-Listen in DAVID
RT = related term
![Page 46: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/46.jpg)
Biologische Interpretation der differenziell regulierten Gene
• Gibt es eine gemeinsame Assoziation mit bestimmten Zellkomponenten?
• Gibt es eine gemeinsame Assoziation mit bestimmten Funktionen, z.B. Schutz vor Sauerstoffradikalen?
• Gibt es Pathways, in denen viele der Gene vorkommen?
• Gibt es gemeinsame Regulatoren der Gene, z.B. stressinduzierbare Transkriptionsfaktoren?
![Page 47: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/47.jpg)
Input Genliste mit fold changes
Abgleich der “vorausgesagten Aktivität” von Genen eines aktivierten Fettsäure-Metabolismus (auf Literatur basierend) mit der eigenen Genliste und deren Regulationsrichtungen: Die Regulationsrichtung differenziell exprimierter Gene widerspricht meistens genau der Regulationsrichtung, die hier eine Verstärkung des Fettsäuremetabolismus anzeigen würde ! Der Fettsäuremetabolismus ist signifikant herabreguliert!
“Voraussagen” eines aktivierten Fettsäuremetabolismus
Enrichment von Genen in Pathways
![Page 48: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/48.jpg)
KEGG-Pathway Analysis
Schmidt et al. 2017
![Page 49: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/49.jpg)
Canonical pathway: IL6 signaling
Grün: upregulated gene in MB- Rot: downregulated gene in MB-
Enrichment von Genen in Pathways
![Page 50: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/50.jpg)
Detektion gemeinsamer Upstream regulators
Die mRNA des Transkriptionsfaktors selber muss nicht notwendigerweise hochreguliert sein, auch das Zusammenspiel mit interagierenden Kinasen etc. kann zu deren Aktivität beitragen.
Regulationsrichtung der Zielgene des Transkriptionsfaktors
![Page 51: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/51.jpg)
RNA-Seq Praxisteil
Screenshots und Einstellungen
![Page 52: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/52.jpg)
Anwendungsbeispiel: RNA Seq
Genom Transkriptom Proteom Interaktom
Gene identifizieren, Funktion bestimmen!
Wann und wie stark sind Gene aktiv?
25 000 Gene, aber > 500 000 Proteine?
Wie arbeiten die Proteine zusammen?
Gen-Knock-out
DNA-Chip EST-Sequenzierung RNASeq
Gleiches Genom, unterschiedliches Proteom
& Variom
![Page 53: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/53.jpg)
Myoglobin in seiner klassischen Rolle
• Exprimiert im Zytoplasma von Herzmuskeln und quergestreiften Muskeln
• Zuständig für den O2 Transport
• Dient als Kurzzeit O2 Speicher
• Detoxifiziert als Dioxygenase ROS und RNS
• Kann unter hypoxischen Bedingungen NO produzieren
![Page 54: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/54.jpg)
Myoglobin in Brustkrebs
Gorr et al, 2011
MB negative MB positive
MB immunostaining on breast tumors
• ~ 40% invasiver luminaler Brustkrebs-Tumore exprimieren MB endogen • ~ 350 mal mehr MB in Brustkrebs-Tumoren als in gesundem Brustepithel
![Page 55: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/55.jpg)
Kristiansen et al. 2010
• Kaplan Meier Analyse: Survival Function von 917 primären Brustkrebs-Erkrankungen
! MB-Expression korreliert mit einer milderen Prognose für betroffene Patienten
MB in Brustkrebs und die Folgen
![Page 56: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/56.jpg)
Mb Knockdown Kontrollzellen
• Wachstum; Herabregulation der MB-mRNAs
• Transfection von MDA-MB468 Zellen mit siRNA gegen MB
X
• Transfection von MDA-MB468 Zellen mit Kontroll-siRNA
• Wachstum; MB-Expression
• RNA-Isolation • Preparation von Sequenzier-Libraries • Illumina-Sequenzierung beider Transkriptome
! 29 Mio. Sequenz-Reads ! 34 Mio. Sequenz-Reads
Analyse von Brustkrebs-transkiptomen mit und ohne MB
![Page 57: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/57.jpg)
Reads per kb exon model and 1 million reads
Zur Erinnerung: RNA-Seq Überblick
![Page 58: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/58.jpg)
Kurs RNA-Seq
Der Einfluss der Myoglobinexpression auf Krebszellen: • Qualitätsbewertung und Nachbearbeitung von Illumina-Rohdaten • Erstellung von Qualitätsstatistiken • Importieren der Transkriptom-Datensätzen in die CLC-Workbench • Importieren eines annotierten Hsa-Referenzgenoms • Mapping der Transkriptomreads an das annotierte Hsa-Genom • Statistische Analyse, Identifizierung differenziell exprimierter Gene • Biologische Interpretation der RNA-Seq Analyse
![Page 59: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/59.jpg)
Ansicht unseres Mappings
![Page 60: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/60.jpg)
![Page 61: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/61.jpg)
Scr-Myoglobinausschnitt von Mapping, Referenzgenom und Genannotationen
![Page 62: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/62.jpg)
siMB- Myoglobinauschnitt von Mapping, Referenzgenom und Genannotationen
![Page 63: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/63.jpg)
Fold change von Myoglobin zwischen siMB und scr
![Page 64: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/64.jpg)
Statistische Auswertung: Scatter Plot
Expressionsstärke von Sample 1
Exp
ress
ions
stär
ke v
on S
ampl
e 2
![Page 65: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/65.jpg)
Unser Scatter Plot
![Page 66: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/66.jpg)
Unser Scatter Plot
![Page 67: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/67.jpg)
Kal et al.'s test (Z-test): Vergleich einzelner Proben gegeneinander (n=1) • Basierend auf der “Approximation of the binomial distribution by
the normal distribution” [Kal et al., 1999] • Proportions-basiert statt “raw count”-basiert, darum auch
geeignet, wenn ein Sample insgesamt viel höhere “Sum-of-counts” hat
• 'Proportions difference‘ für ganze Gruppen berechnet
• Zweiseitiger 'P-value‘, optional mit FDR und Bonferroni-Correction
Statistik zur Expressionsstärke: Z-Test
![Page 68: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/68.jpg)
Bonferroni corrected: The Bonferroni corrected p-values handle the multiple testing problem by controlling the 'family-wise error rate': the probability of making at least one false positive call. They are calculated by multiplying the original p-values by the number of tests performed. The probability of having at least one false positive among the set of features with Bonferroni corrected p-values below 0.05, is less than 5%. The Bonferroni correction is conservative: there may be many genes that are differentially expressed among the genes with Bonferroni corrected p-values above 0.05, that will be missed if this correction is applied. FDR (False discovery rate) corrected: Instead of controlling the family-wise error rate we can control the false discovery rate: FDR. The false discovery rate is the proportion of false positives among all those declared positive. We expect 5 % of the features with FDR corrected p-values below 0.05 to be false positive [Benjamini and Hochberg, 1995].
„Korrektur“ der Irrtumswahrscheinlichkeiten
![Page 69: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/69.jpg)
Hohe Differenz der Expressionsstärken + hohe Signifikanz
Ähnlich stark exprimierte Gene/ Transkripte + niedrige Signifikanz
Zunehmende Differenz der Expressionsstärken
Statistische Auswertung: Vulcano Plot
![Page 70: Methoden der Genomsequenzierung · WS2017/2018 MSc Modul 7A „Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- “ AG Hankeln Methoden der Genomsequenzierung:](https://reader033.vdocuments.pub/reader033/viewer/2022043020/5f3c99486bbb7255980228c5/html5/thumbnails/70.jpg)
Unser Vulcano Plot