vorhersage von rna-sekundärstrukturen inklusive pseudoknoten

Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller

Vortrag im Rahmen des Seminars

„Aktuelle Themen der Bioinformatik“

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 2

Übersicht

1. Einleitung

2. Der Algorithmus von Rivas/Eddy

3. Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten

4. Der Algorithmus von Reeder/Giegerich


Übersicht

1. Einleitung





„simple“ Elemente der RNA-Sekundärstruktur

• gehorchen allesamt der „nesting convention“:

Zwei Basenpaare i, j und k, l (wobei i<j, k<l, i<k) zeigen eine der folgenden Konstellationen:

i<k<l<j i<j<k<l


Pseudoknoten

• Pseudoknoten sind all jene Basenpaar-Strukturen, die die nesting convention verletzen, z.B.:

einfachster Pseudoknoten

Pseudoknoten sind zwar im Vergleich zu anderen Sekundärstrukturen selten, dafür aber entscheidend für die 3-dimensionale Struktur


Wo kommen Pseudoknoten vor?

Beispiele des Vorkommens:

• ribosomale RNA

• selbstsplicende Gruppe- I -Introns

• 3´-Ende einiger Pflanzenviren-RNAs (Mimik)

• RNase P (processing des 5´-Endes von pre-tRNAs)


Pseudoknoten und Berechnungskomplexität

• Die vorhersagen beliebiger Pseudoknoten-Strukturen ist NP-vollständig, also wahrscheinlich nicht effizient lösbar

• Aktuelle Ansätze zur Vorhersage von Pseudoknoten machen daher Einschränkungen, um Laufzeit und Platzbedarf in polynomieller Größenordnung zu halten, sind also nicht universell

• frühere Vorhersage-Algorithmen (Nussinov, Zuker) konnten keinerlei Pseudoknoten vorhersagen und blenden diese völlig aus


Übersicht

1. Einleitung





Der Algorithmus von Rivas/Eddy

• Basiert auf dynamischem Programmieren und experimentell bestimmten thermodynamischen Daten (Turner), ähnelt daher durchaus dem Zuker-Algorithmus

• Laufzeit: O(n6)

Speicherbedarf: O(n4)

• Ermittelt die thermodynamisch günstigste Sekundärstruktur (es wird ΔG berechnet wie bei Zuker)

• Zur didaktischen Vermittlung und vor allem auch als Entwurfshilfe wird auf Feynman-Diagramme zur Visualisierung zurückgegriffen


Feynman-Diagramme

Sekundästruktur-Interaktion (H-Brücke)

Backbone (Sequenz)


Zuker-Algorithmus in Diagramm-Repräsentation

• befüllt im wesentlich die beiden NxN-Matrizen wx und vx

• vx(i,j) enthält den Score der optimalen Struktur zwischen Position i und j, bei der i und j ein Basenpaar bilden (nur ≠ +∞, falls i und j überhaupt Basenpaar bilden können)

• wx(i,j) enthält den Score der optimalen Struktur zwischen Position i und j; dabei müssen i und j nicht zwangsläufig ein Basenpaar bilden

• vx wird benötigt, um die Werte für wx zu errechnen



• Rekursion für vx:

• diagrammatische Repräsentation:

Erste Einschränkung



• Rekursion für wx:

• diagrammatische Repräsentation:


Erweiterung durch Pseudoknoten

• Der Algorithmus von Rivas/Eddy erweitert den Zuker-Algorithmus um die Berechnung von Pseudoknoten

• Dazu werden zusätzlich zu wx und vx die vier Gap-Matrizen whx, vhx, yhx, zhx eingeführt. (Es handelt sich um NxNxNxN-Matrizen, woraus auch der Speicherbedarf von O(n4) des Verfahrens resultiert.)

Diagramme:


Der Algorithmus von Rivas und Eddy

• Die Gap-Matrizen dienen der Berechnung von Pseudoknoten, indem zwei Gapmatrizen mit „komplementären“ Gaps zusammengefügt werden:



zweite Einschränkung


Erste Einschränkung

• Die erste Einschränkung hat nichts mit der NP-Vollständigkeit des Pseudoknotenproblems zu tun, sonder begrenzt lediglich die Komplexität des Zuker-Algorithmus auf O(n3):

Alle Multiloops werden energetisch gleich bewertet,

egal wie viele Stems von ihnen abgehen. Es wird nicht

überprüft, ob eine Struktur mit mehr als 3 Stems existiert.


Zweite Einschränkung

• Die zweite, eben vorgestellte Einschränkung des Algorithmus dient dazu, die Berechnungskomplexität von exponentiellem auf polynomielles Niveau zu begrenzen.

Dadurch kann der Algorithmus allerdings nicht jeden beliebigen Pseudoknoten berechnen. (Es können aber alle zur Zeit des Entwurfs bekannten Pseudoknoten vorhergesagt werden!)

Es werden niemals mehr als zwei Gap-Matrizen auf

einmal miteinander kombiniert. In der Berechnung von

wx und vx sind je nur zwei Gap-Matrizen pro Rekursion

berücksichtigt.


Zweite Einschränkung

Das funktioniert:

(2 „parallele β-sheets“,einfache copy-language)

Das nicht:

(mehr als 2 „parallele β-sheets“)

eine Matrix durch

2 aufgelöst

eine Matrix durch

4 aufgelöst



6 verschachtelte Laufvariable --> O(n6)

(gilt auch für anderen 3 Gap-Matrizen)

Die Berechnungen von vhx:



Die Berechnungen von yhx:



Die Berechnungen von zhx:


Der Algorithmus von Rivas/EddyDie Berechnungen von whx:



• grober Aufbau: Was dient zur Berechnung von was innerhalb einer Rekursion?

zhx

yhx

whxvhx

Zeit innerhalb einer Rekursion

vx

wx



• Aufbau: Was dient zur Berechnung von was?

zhx

yhx

whxvhx

vx

wx

Wert aus aktuellerRekusion

Wert aus ältererRekusion



• Zusätzlich zu der Erweiterung des Zuker-Algorithmus um Pseudoknoten wurde noch thermodynamische Parameter für Dangles und Coaxial-Stacking (Walter et al.) hinzugefügt (keine zusätzliche Verschlechterung in Asymptotiken).

Diese werden in die Berechnungen aller 6 Matrizen eingebunden.

Coaxiales Stacking:

Zwei oder mehr überlagerte Stems

Dangles:Ungepaarte Basen in direkterNachbarschaft zu gepaarten


Erweiterung duch Stacking und Dangles

• Exemplarisch für wx:

StackingDangles


Ergebnisse des Algorithmus von Rivas/Eddy

• Mit dem Algorithmus können potentiell alle bisher bekannten

Pseudoknoten vorhergesagt werden• Obwohl der Suchraum entscheidend vergrößert wird, faltet der

Algorithmus auch relativ lange Sequenzen und solche ohne Pseudoknoten mit hoher Zuverlässigkeit (er tendiert also nicht zum Einfügen falsch-positiver Pseudoknoten).

• Ergebnisse bei Strukturen ohne Pseudoknoten sehr ähnlich zu denen von MFOLD (basierend auf Zuker-Algorithmus)

• Auf Grund der hohen Berechnungskomplexität können nur

Sequenzen bis zu einer Länge von ca. 140 untersucht werden!


Ergebnisse des Algorithmus von Rivas/Eddy

• tRNA´s:- RE: 15 von 24 völlig korrekt, die restlichen 9 zumindest in

Kleeblatt-Struktur- MFOLD: 14 von 24 völlig korrekt, nur 5 der restlichen 10 in

Kleeblatt-Struktur Verbesserung gegenüber MFOLD durch Integration von Stacking

• Virale RNAs:- 6 von 7 getesteten Pseudoknoten in t-RNA-ähnlichen Valinrezeptoren

der 3´-Region korrekt vorhergesagt

- In einem Ribozym des Hepatitis Delta Virus wurde der Pseudoknoten korrekt lokalisiert, es fehlte allerdings ein kleiner 2-Stem-Hairpin


Übersicht

1. Einleitung





Eine Pseudoknoten-Grammatik

• Der vorgestellte Algorithmus sagt Pseudoknoten voraus, liefert aber kein komplettes Modell zur vollständigen Beschreibung von Pseudoknoten.

• Stochastische Grammatiken dagegen sind vollständige Wahrscheinlichkeits-Modelle (ähnlich zu HMMs)

• Sie erlauben es, Ausgaben mit Wahrscheinlichkeiten zu versehen, und damit auch z.B. verlässlichere suboptimale Ergebnisse zu produzieren.



• Die zuvor beschriebenen „simplen“ RNA-Sekundärstrukturen sind durch kontextfreie Grammatiken (CFG) vollständig beschreibbar, da sie der „nesting convention“ gehorchen. (Interaktionen zwischen Basenpositionen kreuzen nicht.)

• Pseudoknoten sind nicht durch normale CFGs beschreibbar, da sie kreuzende Korrelationen bedingen. Diese werden erst durch kontextsensitive Grammatiken (CSG) modelliert.

• Leider ist das generelle Parsen (also das Nachvollziehen der Entstehungsgeschichte eines Wortes durch eine Grammatik) von CSGs NP-vollständig



• Problem: Wir haben ein Problem, das eigentlich eine CSG benötigen würde, um es vollständig zu erfassen.

Damit können wir es aber von der Berechnungskomplexität her nicht mehr effizient behandeln.

• Lösung:Eine erweiterte CFG, die zusätzliche Nichtterminale und Regeln zur Reorganisation beinhaltet

Bemerkung: Es handelt sich damit formal weder um eine CFG noch um eine CSG!



• Eine normale CFG formal: G = (V, Σ, P, S)

• Die erweiterte CFG formal: G = (V, Σ, P, S, I, R)

wobei

- Σ* neben dem normalen leeren Wort ε noch ein zusätzliches leeres

„Lückenwort“ (‚hole‘-string) ^ enthält. ^ wird bei der Reorganisation zur

Trennung von Teilstrings benötigt, nach der Reorganisation wird es wie ε

ignoriert.

- I eine endliche Menge von zusätzlichen Nichtterminalen ist

- R eine endliche Menge von Reorganisationsregeln ist.

Diese werden erst nach der vollständigen Produktion des Wortes

angewendet


Einfaches Beispiel – die copy-language

• Zum besseren Verständnis des Ansatzes zunächst ein einfacheres Beispiel:

Die einfache copy-language enthält Wörter über einem Alphabet, die aus zwei identischen Teilwörter bestehen, die direkt miteinander konkateniert sind, z.B.:

AA, ABAB, AAABAAAABA, 0110201102, …

Formal: L = {ε, w ^ w | w є Σ*}

Diese Sprache kann nicht von einer CFG erzeugt werden und verlangt eigentlich nach einer CSG.



• Eine erweiterte CFG, die die copy-language beschreibt:

V = {W, WH}

Σ = {a, b}

P = { W → WW | (WH x WH) | ε,

WH → a ^ a | b ^ b | (WH x WH) | ^ }

S = W

I = { ) , ( , x }

R = { (m1^m1´ x m2^m2´) m1m2^m1´m2´ }



W → (WH x WH) → ((WH x WH) x (WH x WH)) → ((a ^ a x b ^ b) x (b ^ b x a ^ a))

(ab ^ ab x ba ^ ba) abba ^ abba

Produktionen

Reorganisation

Das erzeugte Wort: abbaabba

Mit der vorgestellten Grammatik für die einfache copy-languageerzeugt.


Die Formalismen von generellen erweiterten CFGs

• P = { A → α | A є V, α є (V(IV)* U Σ)*} z.B.: WxWxWaWaWxW

• R = {(σ) m | σ є (Σ U I)*, m є Σ*} z.B.: (b^b x a^a) ba^ba

Bemerkung: Die Produktionen ähneln sehr der Form einer CFG (es

wird nur von einem Nonterminal abgeleitet).

Ist I = Ø, dann ist α є (V U Σ)* und wir haben eine CFG.

Für uneingeschränkte Ableitungen A → α mit

α є (V(IV)* U Σ)* ist das Parsen sehr komplex und

wahrscheinlich NP-vollständig (wie bei CSGs, was wir

ja gerade mit der Einführung dieser erweiterten CFGs

vermeiden wollten). Was haben wir also gewonnen?


Die Einschränkung der erweiterten CFGs

Man muss (wieder einmal) den generellen Fall einschränken, um ein akzeptables Laufzeitniveau zu erreichen.

Der Schlüssel dazu ist folgende Beobachtung:

(V(IV)* U Σ)* = Un=0 (V(IV)n U Σ)*∞

Für n = 0 haben wir wieder eine normale CFG.

Wenn man n sinnvoll begrenzen, haben wir eine eingeschränkte erweiterte CFG, mit der wir überkreuzende Beziehungen bis zu einem der Beschränkung entsprechenden Grad modellieren können.


Die Einschränkung der erweiterten CFGs

Genau so ist es bei der vorgestellten copy-language realisiert, welche n bis 1 laufen läst, also:

α є (V U Σ)* U (VIV U Σ)*

Mit der selben Einschränkung (nur maximal ein Sonder-Nonterminal aus I pro Ableitungsschritt zuzulassen), läst sich eine Großzahl vorstellbarer Pseudoknoten-Interaktionen modellieren (genauer: alle bis dahin bekannten und von Rivas/Eddy vorhersagbaren).

Diese Einschränkung der Grammatik ist also die 1:1-Korrespondenz zu der Einschränkung des Algorithmus von Rivas/Eddy, in einer Rekursion nur die Kombination zweier Gap-Matrizen zu erlauben.


Die Pseudoknoten-Grammatik von Rivas/Eddy

• V = { W, WB, Vab, WH, VHabcd, IS1, IS2 }

• Σ = { a, c, g, u }• S = W

• I = { x, xL, xR, ), (, כ }

• R = { (m1^m1´ x m2^m2´) m1m2 ^ m1´m2´ ,

(m1^m1´ xL m2^m2´) m2m1m2´ ^ m1´ ,

(m1^m1´ xR m2^m2´) m1 ^ m2m1´m2´ ,

(m1^m1´ כ m2^m2´) m1m2 ^ m2´m1´ }

für mi , mi´ є Σ*



P = {



IS1 → ε | s1 | s1 s2 | … | s1...smaxloop. ,

IS2 → ^ | s1...sk ^ | ^ s1...sk | s1...si-1 ^ si...sk }

für si є {a, c, g, u}, 1 ≤ i ≤ k, 1 ≤ k ≤ maxloop


Beispiel

gcagu

u

ac

uu

u

gg

ag

uacugc u

a

g

aa

a

u

→ (g IS2 c כ c^g) x (a IS2 u כ aû)

→ (g caguuûacug c כ c^g) x (a uuuggâgaaa u כ aû)

g caguu c^g uacug c x a uuugg aû agaaa u

gcaguucauuugga^guacugcuagaaau

W → WH x WH



• Die vorgestellte Grammatik ist mehrdeutig, kann also zu einer gegebenen Sequenz mehrer Entstehungsgeschichten beschreiben

Dadurch können mehrere alternative Sekundärstrukturen in Betracht gezogen werden.

• Mit dieser Grammatik ist ein vollständiges probabilistisches Modell (sobald man sie in eine probabilistische Grammatik üüberführt) für die Klasse der durch sie modellierbaren Pseudoknoten und aller „simplen“ Sekundärstrukturen gegeben. Das Parsen durch den zuvor vorgestellten Algorithmus ist in polynomieller Zeit möglich.

• Durch sie werden vergleichende Analysen, strukturelle Homologie-Erkennung und Datenbankensuchen möglich.


Übersicht

1. Einleitung





Der Algorithmus von Reeder/Giegerich

• Der Algorithmus von Reeder/Giegerich (RG) basiert wie der zuvor Vorgestellte von Rivas/Eddy (RE) auf dynamischem Programmieren und thermodynamischen Berechnungen.

• Verbesserung der Laufzeitkomplexität im Vergleich zu RE:

O(n6) O(n4)

• Verbesserung des Speicherplatzbedarfs:

O(n4) O(n2)



• RE kann zwar sehr komplexe Pseudoknoten behandeln, allerdings ist der Algorithmus wegen seiner hohen Laufzeitkomplexität auf Sequenzen bis zur Länge von ca. 140 Basen begrenzt.

- RNA der Länge 84: 47 min und 9,8 MB

- RNA der Länge 105: 235 min und 22,5 MB

Die Krux mit der hohen Laufzeitkomplexität:

Die sehr komplexen Pseudoknoten, für die RE durchaus ausgelegt wäre, treten fast ausschließlich erst in Sequenzen auf, die zu lang sind, um sie von RE bearbeiten zu lassen!



• RG setzt genau an dieser Stelle an:

Die Klasse der modellierbaren (vorhersagbaren) Pseudoknoten wird weiter eingeschränkt, um bessere Performance zu erreichen.

Dazu wird die Klasse der kanonisierten einfachen rekursiven Pseudoknoten eingeführt, auf welche sich RG in seiner Vorhersage beschränkt.



Die Abbildung zeigt einen einfachen Pseudoknoten.

Bei einfachen rekursiven Pseudoknoten (sr-PK) dürfendie ungepaarten Regionenu, v und w selbst Sekundär-Strukturen bilden, einschließlich einfacher rekursiver Pseudoknoten.Sie dürfen allerdings nicht untereinander oder außerhalb desKnotens interagieren.

einfacher Pseudoknoten



• Die Klasse der kanonisierten einfachen rekursiven Pseudoknoten (csr-PK):

Es werden 3 Kanonisierungsregeln eingeführt, die die Klasse der

sr-PK auf die der csr-PK beschränken.

Aber zunächst eine generelle Laufzeitbetrachtung eines Algorithmus basierend auf dynamischem Programmieren:

…..……………………………..…...…………………………..

i j k l m s o p

8 unabhängig Variablen i, j, k, l, m, s, o, p laufen (asymptotisch) über nPositionen → Laufzeit in O(n8)

1 na a´b b´wu v


Die Kanonisierung

1. Regel zur Kanonisierung:

Segmente a und a´ (b und b´) haben die gleiche Länge. Die Segmente die die Helices formen, enthalten also keine Bulges.

→ die Indizes m und o sind nicht mehr unabhängig von den

anderen, da

m = s - (j - i)

o = p - (l - k)

gilt.

→ von ehemals 8 sind noch 6 Variablen unabhängig

→ Laufzeit reduziert sich: O(n8) O(n6)


Die Kanonisierung


Helices a, a´ und b, b´ müssen maximale Länge unter den Regeln der Basenpaarung haben. Bereich v hat also minimale Länge.

Dazu werden die maximalen Stacklängen vor dem eigentlichen Algorithmus berechnet und in zwei Matrizen stacklength(i,s) bzw. stacklength(k,p) gespeichert.

Dadurch sind die beiden Indices j und l nicht mehr unabhängig und durch

j = i + stacklength(i,s)l = k + stacklength(k,p)

darstellbar.

Die Laufzeit reduziert sich: O(n6) O(n4)


Die Kanonisierung


Falls zwei maximale Helices überlappen würden (|v|<0), wird eine beliebige Stelle zwischen ihnen zur Trennung gewählt.

Verlängerung derHelices

v kann natürlich nicht kürzerals 0 sein.

Keine Laufzeitverbesserung,sondern Behandlung eines Sonderfalls von Regel 2.


Auswirkungen der Einschränkungen

• Viele der bekannten Pseudoknoten (Menge PK) scheinen einen Vertreter in csr-PK zu haben, der ihm in Struktur und Energie sehr ähnelt.

• Test von 212 Strukturen mit Pseudoknoten:

von sich aus in csr-PK

durch Erlauben von Bulgesder Länge 1 in csr-PK

durch csr-PK nicht modellierbar

gut durch eine Strukturin csr-PK approximierbar


Auswirkungen der Einschränkungen

Zwei Beispiele für Pseudoknoten, die von RG nicht direkt vorhergesagtwerden können (durchaus aber von Rivas/Eddy):

„kissing hairpins“ „triple helix interaction“


Ergebnisse im Vergleich

BP = # Basenpaare der ReferenzstrukturTP = # korrekt positiv vorhergesagter BasenpaareFP = # falsch positiv vorhergesagter Basenpaaresens. = TP/BP (sensitivity)sel. = TP/(FP+TP) (selectivity)K = # korrekt vorhergesagter PK-Helices / # PK-Helices in Referenzstruktur



Bemerkungen:

• Kann Sequenzen bis max. 1000 Basen bearbeiten (ca. 12h)

• Tendiert nicht dazu, zusätzliche Pseudoknoten einzufügen (wie auch RE)

• Weitere Verbesserung möglich durch genauere Energie-Modelle (gilt natürlich ebenso für RE), besonders für Multiloops und Pseudoknoten


Quellen

• „A Dynamic Programming Algorithm for RNA Structure Prediction Including Pseudoknots“, Elena Rivas and Sean R. Eddy, JMB 1999

• „The language of RNA: aformal grammar that includes pseudoknots“, Elena Rivas and Sean R. Eddy, Oxford Universtiy Press 2000

• „Design, implementation and evaluation of a practical pseudoknot folding algorithm based on thermodynamics“, Jens Reeder, Robert Giegerich, BMC Bioinformatics 2004

zusätzliche Bild-Quellen:• http://pps98.man.poznan.pl/assignment/projects/olejniczak/tert.htm

• http://www.techfak.uni-bielefeld.de/bcd/Siegen/mfold.html

• http://www.biomedcentral.com/1471-2105/5/104/figure/F1?highres=y

vorhersage von rna-sekundärstrukturen inklusive pseudoknoten

Documents