vorhersage von rna-sekundärstrukturen inklusive pseudoknoten
DESCRIPTION
Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten. Markus Hartenfeller Vortrag im Rahmen des Seminars „Aktuelle Themen der Bioinformatik“. Übersicht. Einleitung Der Algorithmus von Rivas/Eddy Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten - PowerPoint PPT PresentationTRANSCRIPT
Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten
Markus Hartenfeller
Vortrag im Rahmen des Seminars
„Aktuelle Themen der Bioinformatik“
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 2
Übersicht
1. Einleitung
2. Der Algorithmus von Rivas/Eddy
3. Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten
4. Der Algorithmus von Reeder/Giegerich
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 3
Übersicht
1. Einleitung
2. Der Algorithmus von Rivas/Eddy
3. Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten
4. Der Algorithmus von Reeder/Giegerich
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 4
„simple“ Elemente der RNA-Sekundärstruktur
• gehorchen allesamt der „nesting convention“:
Zwei Basenpaare i, j und k, l (wobei i<j, k<l, i<k) zeigen eine der folgenden Konstellationen:
i<k<l<j i<j<k<l
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 5
Pseudoknoten
• Pseudoknoten sind all jene Basenpaar-Strukturen, die die nesting convention verletzen, z.B.:
einfachster Pseudoknoten
Pseudoknoten sind zwar im Vergleich zu anderen Sekundärstrukturen selten, dafür aber entscheidend für die 3-dimensionale Struktur
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 6
Wo kommen Pseudoknoten vor?
Beispiele des Vorkommens:
• ribosomale RNA
• selbstsplicende Gruppe- I -Introns
• 3´-Ende einiger Pflanzenviren-RNAs (Mimik)
• RNase P (processing des 5´-Endes von pre-tRNAs)
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 7
Pseudoknoten und Berechnungskomplexität
• Die vorhersagen beliebiger Pseudoknoten-Strukturen ist NP-vollständig, also wahrscheinlich nicht effizient lösbar
• Aktuelle Ansätze zur Vorhersage von Pseudoknoten machen daher Einschränkungen, um Laufzeit und Platzbedarf in polynomieller Größenordnung zu halten, sind also nicht universell
• frühere Vorhersage-Algorithmen (Nussinov, Zuker) konnten keinerlei Pseudoknoten vorhersagen und blenden diese völlig aus
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 8
Übersicht
1. Einleitung
2. Der Algorithmus von Rivas/Eddy
3. Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten
4. Der Algorithmus von Reeder/Giegerich
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 9
Der Algorithmus von Rivas/Eddy
• Basiert auf dynamischem Programmieren und experimentell bestimmten thermodynamischen Daten (Turner), ähnelt daher durchaus dem Zuker-Algorithmus
• Laufzeit: O(n6)
Speicherbedarf: O(n4)
• Ermittelt die thermodynamisch günstigste Sekundärstruktur (es wird ΔG berechnet wie bei Zuker)
• Zur didaktischen Vermittlung und vor allem auch als Entwurfshilfe wird auf Feynman-Diagramme zur Visualisierung zurückgegriffen
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 10
Feynman-Diagramme
Sekundästruktur-Interaktion (H-Brücke)
Backbone (Sequenz)
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 11
Zuker-Algorithmus in Diagramm-Repräsentation
• befüllt im wesentlich die beiden NxN-Matrizen wx und vx
• vx(i,j) enthält den Score der optimalen Struktur zwischen Position i und j, bei der i und j ein Basenpaar bilden (nur ≠ +∞, falls i und j überhaupt Basenpaar bilden können)
• wx(i,j) enthält den Score der optimalen Struktur zwischen Position i und j; dabei müssen i und j nicht zwangsläufig ein Basenpaar bilden
• vx wird benötigt, um die Werte für wx zu errechnen
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 12
Zuker-Algorithmus in Diagramm-Repräsentation
• Rekursion für vx:
• diagrammatische Repräsentation:
Erste Einschränkung
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 13
Zuker-Algorithmus in Diagramm-Repräsentation
• Rekursion für wx:
• diagrammatische Repräsentation:
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 14
Erweiterung durch Pseudoknoten
• Der Algorithmus von Rivas/Eddy erweitert den Zuker-Algorithmus um die Berechnung von Pseudoknoten
• Dazu werden zusätzlich zu wx und vx die vier Gap-Matrizen whx, vhx, yhx, zhx eingeführt. (Es handelt sich um NxNxNxN-Matrizen, woraus auch der Speicherbedarf von O(n4) des Verfahrens resultiert.)
Diagramme:
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 15
Der Algorithmus von Rivas und Eddy
• Die Gap-Matrizen dienen der Berechnung von Pseudoknoten, indem zwei Gapmatrizen mit „komplementären“ Gaps zusammengefügt werden:
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 16
Der Algorithmus von Rivas und Eddy
zweite Einschränkung
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 17
Der Algorithmus von Rivas und Eddy
zweite Einschränkung
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 18
Erste Einschränkung
• Die erste Einschränkung hat nichts mit der NP-Vollständigkeit des Pseudoknotenproblems zu tun, sonder begrenzt lediglich die Komplexität des Zuker-Algorithmus auf O(n3):
Alle Multiloops werden energetisch gleich bewertet,
egal wie viele Stems von ihnen abgehen. Es wird nicht
überprüft, ob eine Struktur mit mehr als 3 Stems existiert.
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 19
Zweite Einschränkung
• Die zweite, eben vorgestellte Einschränkung des Algorithmus dient dazu, die Berechnungskomplexität von exponentiellem auf polynomielles Niveau zu begrenzen.
Dadurch kann der Algorithmus allerdings nicht jeden beliebigen Pseudoknoten berechnen. (Es können aber alle zur Zeit des Entwurfs bekannten Pseudoknoten vorhergesagt werden!)
Es werden niemals mehr als zwei Gap-Matrizen auf
einmal miteinander kombiniert. In der Berechnung von
wx und vx sind je nur zwei Gap-Matrizen pro Rekursion
berücksichtigt.
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 20
Zweite Einschränkung
Das funktioniert:
(2 „parallele β-sheets“,einfache copy-language)
Das nicht:
(mehr als 2 „parallele β-sheets“)
eine Matrix durch
2 aufgelöst
eine Matrix durch
4 aufgelöst
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 21
Der Algorithmus von Rivas/Eddy
6 verschachtelte Laufvariable --> O(n6)
(gilt auch für anderen 3 Gap-Matrizen)
Die Berechnungen von vhx:
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 22
Der Algorithmus von Rivas/Eddy
Die Berechnungen von yhx:
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 23
Der Algorithmus von Rivas/Eddy
Die Berechnungen von zhx:
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 24
Der Algorithmus von Rivas/EddyDie Berechnungen von whx:
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 25
Der Algorithmus von Rivas/EddyDie Berechnungen von whx:
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 26
Der Algorithmus von Rivas und Eddy
• grober Aufbau: Was dient zur Berechnung von was innerhalb einer Rekursion?
zhx
yhx
whxvhx
Zeit innerhalb einer Rekursion
vx
wx
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 27
Der Algorithmus von Rivas und Eddy
• Aufbau: Was dient zur Berechnung von was?
zhx
yhx
whxvhx
vx
wx
Wert aus aktuellerRekusion
Wert aus ältererRekusion
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 28
Der Algorithmus von Rivas/Eddy
• Zusätzlich zu der Erweiterung des Zuker-Algorithmus um Pseudoknoten wurde noch thermodynamische Parameter für Dangles und Coaxial-Stacking (Walter et al.) hinzugefügt (keine zusätzliche Verschlechterung in Asymptotiken).
Diese werden in die Berechnungen aller 6 Matrizen eingebunden.
Coaxiales Stacking:
Zwei oder mehr überlagerte Stems
Dangles:Ungepaarte Basen in direkterNachbarschaft zu gepaarten
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 29
Erweiterung duch Stacking und Dangles
• Exemplarisch für wx:
StackingDangles
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 30
Ergebnisse des Algorithmus von Rivas/Eddy
• Mit dem Algorithmus können potentiell alle bisher bekannten
Pseudoknoten vorhergesagt werden• Obwohl der Suchraum entscheidend vergrößert wird, faltet der
Algorithmus auch relativ lange Sequenzen und solche ohne Pseudoknoten mit hoher Zuverlässigkeit (er tendiert also nicht zum Einfügen falsch-positiver Pseudoknoten).
• Ergebnisse bei Strukturen ohne Pseudoknoten sehr ähnlich zu denen von MFOLD (basierend auf Zuker-Algorithmus)
• Auf Grund der hohen Berechnungskomplexität können nur
Sequenzen bis zu einer Länge von ca. 140 untersucht werden!
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 31
Ergebnisse des Algorithmus von Rivas/Eddy
• tRNA´s:- RE: 15 von 24 völlig korrekt, die restlichen 9 zumindest in
Kleeblatt-Struktur- MFOLD: 14 von 24 völlig korrekt, nur 5 der restlichen 10 in
Kleeblatt-Struktur Verbesserung gegenüber MFOLD durch Integration von Stacking
• Virale RNAs:- 6 von 7 getesteten Pseudoknoten in t-RNA-ähnlichen Valinrezeptoren
der 3´-Region korrekt vorhergesagt
- In einem Ribozym des Hepatitis Delta Virus wurde der Pseudoknoten korrekt lokalisiert, es fehlte allerdings ein kleiner 2-Stem-Hairpin
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 32
Übersicht
1. Einleitung
2. Der Algorithmus von Rivas/Eddy
3. Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten
4. Der Algorithmus von Reeder/Giegerich
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 33
Eine Pseudoknoten-Grammatik
• Der vorgestellte Algorithmus sagt Pseudoknoten voraus, liefert aber kein komplettes Modell zur vollständigen Beschreibung von Pseudoknoten.
• Stochastische Grammatiken dagegen sind vollständige Wahrscheinlichkeits-Modelle (ähnlich zu HMMs)
• Sie erlauben es, Ausgaben mit Wahrscheinlichkeiten zu versehen, und damit auch z.B. verlässlichere suboptimale Ergebnisse zu produzieren.
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 34
Eine Pseudoknoten-Grammatik
• Die zuvor beschriebenen „simplen“ RNA-Sekundärstrukturen sind durch kontextfreie Grammatiken (CFG) vollständig beschreibbar, da sie der „nesting convention“ gehorchen. (Interaktionen zwischen Basenpositionen kreuzen nicht.)
• Pseudoknoten sind nicht durch normale CFGs beschreibbar, da sie kreuzende Korrelationen bedingen. Diese werden erst durch kontextsensitive Grammatiken (CSG) modelliert.
• Leider ist das generelle Parsen (also das Nachvollziehen der Entstehungsgeschichte eines Wortes durch eine Grammatik) von CSGs NP-vollständig
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 35
Eine Pseudoknoten-Grammatik
• Problem: Wir haben ein Problem, das eigentlich eine CSG benötigen würde, um es vollständig zu erfassen.
Damit können wir es aber von der Berechnungskomplexität her nicht mehr effizient behandeln.
• Lösung:Eine erweiterte CFG, die zusätzliche Nichtterminale und Regeln zur Reorganisation beinhaltet
Bemerkung: Es handelt sich damit formal weder um eine CFG noch um eine CSG!
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 36
Eine Pseudoknoten-Grammatik
• Eine normale CFG formal: G = (V, Σ, P, S)
• Die erweiterte CFG formal: G = (V, Σ, P, S, I, R)
wobei
- Σ* neben dem normalen leeren Wort ε noch ein zusätzliches leeres
„Lückenwort“ (‚hole‘-string) ^ enthält. ^ wird bei der Reorganisation zur
Trennung von Teilstrings benötigt, nach der Reorganisation wird es wie ε
ignoriert.
- I eine endliche Menge von zusätzlichen Nichtterminalen ist
- R eine endliche Menge von Reorganisationsregeln ist.
Diese werden erst nach der vollständigen Produktion des Wortes
angewendet
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 37
Einfaches Beispiel – die copy-language
• Zum besseren Verständnis des Ansatzes zunächst ein einfacheres Beispiel:
Die einfache copy-language enthält Wörter über einem Alphabet, die aus zwei identischen Teilwörter bestehen, die direkt miteinander konkateniert sind, z.B.:
AA, ABAB, AAABAAAABA, 0110201102, …
Formal: L = {ε, w ^ w | w є Σ*}
Diese Sprache kann nicht von einer CFG erzeugt werden und verlangt eigentlich nach einer CSG.
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 38
Einfaches Beispiel – die copy-language
• Eine erweiterte CFG, die die copy-language beschreibt:
V = {W, WH}
Σ = {a, b}
P = { W → WW | (WH x WH) | ε,
WH → a ^ a | b ^ b | (WH x WH) | ^ }
S = W
I = { ) , ( , x }
R = { (m1^m1´ x m2^m2´) m1m2^m1´m2´ }
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 39
Einfaches Beispiel – die copy-language
W → (WH x WH) → ((WH x WH) x (WH x WH)) → ((a ^ a x b ^ b) x (b ^ b x a ^ a))
(ab ^ ab x ba ^ ba) abba ^ abba
Produktionen
Reorganisation
Das erzeugte Wort: abbaabba
Mit der vorgestellten Grammatik für die einfache copy-languageerzeugt.
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 40
Die Formalismen von generellen erweiterten CFGs
• P = { A → α | A є V, α є (V(IV)* U Σ)*} z.B.: WxWxWaWaWxW
• R = {(σ) m | σ є (Σ U I)*, m є Σ*} z.B.: (b^b x a^a) ba^ba
Bemerkung: Die Produktionen ähneln sehr der Form einer CFG (es
wird nur von einem Nonterminal abgeleitet).
Ist I = Ø, dann ist α є (V U Σ)* und wir haben eine CFG.
Für uneingeschränkte Ableitungen A → α mit
α є (V(IV)* U Σ)* ist das Parsen sehr komplex und
wahrscheinlich NP-vollständig (wie bei CSGs, was wir
ja gerade mit der Einführung dieser erweiterten CFGs
vermeiden wollten). Was haben wir also gewonnen?
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 41
Die Einschränkung der erweiterten CFGs
Man muss (wieder einmal) den generellen Fall einschränken, um ein akzeptables Laufzeitniveau zu erreichen.
Der Schlüssel dazu ist folgende Beobachtung:
(V(IV)* U Σ)* = Un=0 (V(IV)n U Σ)*∞
Für n = 0 haben wir wieder eine normale CFG.
Wenn man n sinnvoll begrenzen, haben wir eine eingeschränkte erweiterte CFG, mit der wir überkreuzende Beziehungen bis zu einem der Beschränkung entsprechenden Grad modellieren können.
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 42
Die Einschränkung der erweiterten CFGs
Genau so ist es bei der vorgestellten copy-language realisiert, welche n bis 1 laufen läst, also:
α є (V U Σ)* U (VIV U Σ)*
Mit der selben Einschränkung (nur maximal ein Sonder-Nonterminal aus I pro Ableitungsschritt zuzulassen), läst sich eine Großzahl vorstellbarer Pseudoknoten-Interaktionen modellieren (genauer: alle bis dahin bekannten und von Rivas/Eddy vorhersagbaren).
Diese Einschränkung der Grammatik ist also die 1:1-Korrespondenz zu der Einschränkung des Algorithmus von Rivas/Eddy, in einer Rekursion nur die Kombination zweier Gap-Matrizen zu erlauben.
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 43
Die Pseudoknoten-Grammatik von Rivas/Eddy
• V = { W, WB, Vab, WH, VHabcd, IS1, IS2 }
• Σ = { a, c, g, u }• S = W
• I = { x, xL, xR, ), (, כ }
• R = { (m1^m1´ x m2^m2´) m1m2 ^ m1´m2´ ,
(m1^m1´ xL m2^m2´) m2m1m2´ ^ m1´ ,
(m1^m1´ xR m2^m2´) m1 ^ m2m1´m2´ ,
(m1^m1´ כ m2^m2´) m1m2 ^ m2´m1´ }
für mi , mi´ є Σ*
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 44
Die Pseudoknoten-Grammatik von Rivas/Eddy
P = {
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 45
Die Pseudoknoten-Grammatik von Rivas/Eddy
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 46
Die Pseudoknoten-Grammatik von Rivas/Eddy
IS1 → ε | s1 | s1 s2 | … | s1...smaxloop. ,
IS2 → ^ | s1...sk ^ | ^ s1...sk | s1...si-1 ^ si...sk }
für si є {a, c, g, u}, 1 ≤ i ≤ k, 1 ≤ k ≤ maxloop
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 47
Beispiel
gcagu
u
ac
uu
u
gg
ag
uacugc u
a
g
aa
a
u
→ (g IS2 c כ c^g) x (a IS2 u כ a^u)
→ (g caguu^uacug c כ c^g) x (a uuugg^agaaa u כ a^u)
g caguu c^g uacug c x a uuugg a^u agaaa u
gcaguucauuugga^guacugcuagaaau
W → WH x WH
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 48
Die Pseudoknoten-Grammatik von Rivas/Eddy
• Die vorgestellte Grammatik ist mehrdeutig, kann also zu einer gegebenen Sequenz mehrer Entstehungsgeschichten beschreiben
Dadurch können mehrere alternative Sekundärstrukturen in Betracht gezogen werden.
• Mit dieser Grammatik ist ein vollständiges probabilistisches Modell (sobald man sie in eine probabilistische Grammatik üüberführt) für die Klasse der durch sie modellierbaren Pseudoknoten und aller „simplen“ Sekundärstrukturen gegeben. Das Parsen durch den zuvor vorgestellten Algorithmus ist in polynomieller Zeit möglich.
• Durch sie werden vergleichende Analysen, strukturelle Homologie-Erkennung und Datenbankensuchen möglich.
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 49
Übersicht
1. Einleitung
2. Der Algorithmus von Rivas/Eddy
3. Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten
4. Der Algorithmus von Reeder/Giegerich
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 50
Der Algorithmus von Reeder/Giegerich
• Der Algorithmus von Reeder/Giegerich (RG) basiert wie der zuvor Vorgestellte von Rivas/Eddy (RE) auf dynamischem Programmieren und thermodynamischen Berechnungen.
• Verbesserung der Laufzeitkomplexität im Vergleich zu RE:
O(n6) O(n4)
• Verbesserung des Speicherplatzbedarfs:
O(n4) O(n2)
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 51
Der Algorithmus von Reeder/Giegerich
• RE kann zwar sehr komplexe Pseudoknoten behandeln, allerdings ist der Algorithmus wegen seiner hohen Laufzeitkomplexität auf Sequenzen bis zur Länge von ca. 140 Basen begrenzt.
- RNA der Länge 84: 47 min und 9,8 MB
- RNA der Länge 105: 235 min und 22,5 MB
Die Krux mit der hohen Laufzeitkomplexität:
Die sehr komplexen Pseudoknoten, für die RE durchaus ausgelegt wäre, treten fast ausschließlich erst in Sequenzen auf, die zu lang sind, um sie von RE bearbeiten zu lassen!
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 52
Der Algorithmus von Reeder/Giegerich
• RG setzt genau an dieser Stelle an:
Die Klasse der modellierbaren (vorhersagbaren) Pseudoknoten wird weiter eingeschränkt, um bessere Performance zu erreichen.
Dazu wird die Klasse der kanonisierten einfachen rekursiven Pseudoknoten eingeführt, auf welche sich RG in seiner Vorhersage beschränkt.
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 53
Der Algorithmus von Reeder/Giegerich
Die Abbildung zeigt einen einfachen Pseudoknoten.
Bei einfachen rekursiven Pseudoknoten (sr-PK) dürfendie ungepaarten Regionenu, v und w selbst Sekundär-Strukturen bilden, einschließlich einfacher rekursiver Pseudoknoten.Sie dürfen allerdings nicht untereinander oder außerhalb desKnotens interagieren.
einfacher Pseudoknoten
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 54
Der Algorithmus von Reeder/Giegerich
• Die Klasse der kanonisierten einfachen rekursiven Pseudoknoten (csr-PK):
Es werden 3 Kanonisierungsregeln eingeführt, die die Klasse der
sr-PK auf die der csr-PK beschränken.
Aber zunächst eine generelle Laufzeitbetrachtung eines Algorithmus basierend auf dynamischem Programmieren:
…..……………………………..…...…………………………..
i j k l m s o p
8 unabhängig Variablen i, j, k, l, m, s, o, p laufen (asymptotisch) über nPositionen → Laufzeit in O(n8)
1 na a´b b´wu v
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 55
Die Kanonisierung
1. Regel zur Kanonisierung:
Segmente a und a´ (b und b´) haben die gleiche Länge. Die Segmente die die Helices formen, enthalten also keine Bulges.
→ die Indizes m und o sind nicht mehr unabhängig von den
anderen, da
m = s - (j - i)
o = p - (l - k)
gilt.
→ von ehemals 8 sind noch 6 Variablen unabhängig
→ Laufzeit reduziert sich: O(n8) O(n6)
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 56
Die Kanonisierung
2. Regel zur Kanonisierung:
Helices a, a´ und b, b´ müssen maximale Länge unter den Regeln der Basenpaarung haben. Bereich v hat also minimale Länge.
Dazu werden die maximalen Stacklängen vor dem eigentlichen Algorithmus berechnet und in zwei Matrizen stacklength(i,s) bzw. stacklength(k,p) gespeichert.
Dadurch sind die beiden Indices j und l nicht mehr unabhängig und durch
j = i + stacklength(i,s)l = k + stacklength(k,p)
darstellbar.
Die Laufzeit reduziert sich: O(n6) O(n4)
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 57
Die Kanonisierung
3. Regel zur Kanonisierung:
Falls zwei maximale Helices überlappen würden (|v|<0), wird eine beliebige Stelle zwischen ihnen zur Trennung gewählt.
Verlängerung derHelices
v kann natürlich nicht kürzerals 0 sein.
Keine Laufzeitverbesserung,sondern Behandlung eines Sonderfalls von Regel 2.
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 58
Auswirkungen der Einschränkungen
• Viele der bekannten Pseudoknoten (Menge PK) scheinen einen Vertreter in csr-PK zu haben, der ihm in Struktur und Energie sehr ähnelt.
• Test von 212 Strukturen mit Pseudoknoten:
von sich aus in csr-PK
durch Erlauben von Bulgesder Länge 1 in csr-PK
durch csr-PK nicht modellierbar
gut durch eine Strukturin csr-PK approximierbar
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 59
Auswirkungen der Einschränkungen
Zwei Beispiele für Pseudoknoten, die von RG nicht direkt vorhergesagtwerden können (durchaus aber von Rivas/Eddy):
„kissing hairpins“ „triple helix interaction“
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 60
Ergebnisse im Vergleich
BP = # Basenpaare der ReferenzstrukturTP = # korrekt positiv vorhergesagter BasenpaareFP = # falsch positiv vorhergesagter Basenpaaresens. = TP/BP (sensitivity)sel. = TP/(FP+TP) (selectivity)K = # korrekt vorhergesagter PK-Helices / # PK-Helices in Referenzstruktur
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 61
Der Algorithmus von Reeder/Giegerich
Bemerkungen:
• Kann Sequenzen bis max. 1000 Basen bearbeiten (ca. 12h)
• Tendiert nicht dazu, zusätzliche Pseudoknoten einzufügen (wie auch RE)
• Weitere Verbesserung möglich durch genauere Energie-Modelle (gilt natürlich ebenso für RE), besonders für Multiloops und Pseudoknoten
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 62
Quellen
• „A Dynamic Programming Algorithm for RNA Structure Prediction Including Pseudoknots“, Elena Rivas and Sean R. Eddy, JMB 1999
• „The language of RNA: aformal grammar that includes pseudoknots“, Elena Rivas and Sean R. Eddy, Oxford Universtiy Press 2000
• „Design, implementation and evaluation of a practical pseudoknot folding algorithm based on thermodynamics“, Jens Reeder, Robert Giegerich, BMC Bioinformatics 2004
zusätzliche Bild-Quellen:• http://pps98.man.poznan.pl/assignment/projects/olejniczak/tert.htm
• http://www.techfak.uni-bielefeld.de/bcd/Siegen/mfold.html
• http://www.biomedcentral.com/1471-2105/5/104/figure/F1?highres=y
Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 63