vorhersage von rna-sekundärstrukturen inklusive pseudoknoten

63
Vorhersage von RNA- Sekundärstrukturen inklusive Pseudoknoten Markus Hartenfeller Vortrag im Rahmen des Seminars „Aktuelle Themen der Bioinformatik“

Upload: scarlett-hayes

Post on 03-Jan-2016

28 views

Category:

Documents


1 download

DESCRIPTION

Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten. Markus Hartenfeller Vortrag im Rahmen des Seminars „Aktuelle Themen der Bioinformatik“. Übersicht. Einleitung Der Algorithmus von Rivas/Eddy Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller

Vortrag im Rahmen des Seminars

„Aktuelle Themen der Bioinformatik“

Page 2: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 2

Übersicht

1. Einleitung

2. Der Algorithmus von Rivas/Eddy

3. Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten

4. Der Algorithmus von Reeder/Giegerich

Page 3: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 3

Übersicht

1. Einleitung

2. Der Algorithmus von Rivas/Eddy

3. Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten

4. Der Algorithmus von Reeder/Giegerich

Page 4: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 4

„simple“ Elemente der RNA-Sekundärstruktur

• gehorchen allesamt der „nesting convention“:

Zwei Basenpaare i, j und k, l (wobei i<j, k<l, i<k) zeigen eine der folgenden Konstellationen:

i<k<l<j i<j<k<l

Page 5: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 5

Pseudoknoten

• Pseudoknoten sind all jene Basenpaar-Strukturen, die die nesting convention verletzen, z.B.:

einfachster Pseudoknoten

Pseudoknoten sind zwar im Vergleich zu anderen Sekundärstrukturen selten, dafür aber entscheidend für die 3-dimensionale Struktur

Page 6: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 6

Wo kommen Pseudoknoten vor?

Beispiele des Vorkommens:

• ribosomale RNA

• selbstsplicende Gruppe- I -Introns

• 3´-Ende einiger Pflanzenviren-RNAs (Mimik)

• RNase P (processing des 5´-Endes von pre-tRNAs)

Page 7: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 7

Pseudoknoten und Berechnungskomplexität

• Die vorhersagen beliebiger Pseudoknoten-Strukturen ist NP-vollständig, also wahrscheinlich nicht effizient lösbar

• Aktuelle Ansätze zur Vorhersage von Pseudoknoten machen daher Einschränkungen, um Laufzeit und Platzbedarf in polynomieller Größenordnung zu halten, sind also nicht universell

• frühere Vorhersage-Algorithmen (Nussinov, Zuker) konnten keinerlei Pseudoknoten vorhersagen und blenden diese völlig aus

Page 8: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 8

Übersicht

1. Einleitung

2. Der Algorithmus von Rivas/Eddy

3. Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten

4. Der Algorithmus von Reeder/Giegerich

Page 9: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 9

Der Algorithmus von Rivas/Eddy

• Basiert auf dynamischem Programmieren und experimentell bestimmten thermodynamischen Daten (Turner), ähnelt daher durchaus dem Zuker-Algorithmus

• Laufzeit: O(n6)

Speicherbedarf: O(n4)

• Ermittelt die thermodynamisch günstigste Sekundärstruktur (es wird ΔG berechnet wie bei Zuker)

• Zur didaktischen Vermittlung und vor allem auch als Entwurfshilfe wird auf Feynman-Diagramme zur Visualisierung zurückgegriffen

Page 10: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 10

Feynman-Diagramme

Sekundästruktur-Interaktion (H-Brücke)

Backbone (Sequenz)

Page 11: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 11

Zuker-Algorithmus in Diagramm-Repräsentation

• befüllt im wesentlich die beiden NxN-Matrizen wx und vx

• vx(i,j) enthält den Score der optimalen Struktur zwischen Position i und j, bei der i und j ein Basenpaar bilden (nur ≠ +∞, falls i und j überhaupt Basenpaar bilden können)

• wx(i,j) enthält den Score der optimalen Struktur zwischen Position i und j; dabei müssen i und j nicht zwangsläufig ein Basenpaar bilden

• vx wird benötigt, um die Werte für wx zu errechnen

Page 12: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 12

Zuker-Algorithmus in Diagramm-Repräsentation

• Rekursion für vx:

• diagrammatische Repräsentation:

Erste Einschränkung

Page 13: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 13

Zuker-Algorithmus in Diagramm-Repräsentation

• Rekursion für wx:

• diagrammatische Repräsentation:

Page 14: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 14

Erweiterung durch Pseudoknoten

• Der Algorithmus von Rivas/Eddy erweitert den Zuker-Algorithmus um die Berechnung von Pseudoknoten

• Dazu werden zusätzlich zu wx und vx die vier Gap-Matrizen whx, vhx, yhx, zhx eingeführt. (Es handelt sich um NxNxNxN-Matrizen, woraus auch der Speicherbedarf von O(n4) des Verfahrens resultiert.)

Diagramme:

Page 15: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 15

Der Algorithmus von Rivas und Eddy

• Die Gap-Matrizen dienen der Berechnung von Pseudoknoten, indem zwei Gapmatrizen mit „komplementären“ Gaps zusammengefügt werden:

Page 16: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 16

Der Algorithmus von Rivas und Eddy

zweite Einschränkung

Page 17: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 17

Der Algorithmus von Rivas und Eddy

zweite Einschränkung

Page 18: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 18

Erste Einschränkung

• Die erste Einschränkung hat nichts mit der NP-Vollständigkeit des Pseudoknotenproblems zu tun, sonder begrenzt lediglich die Komplexität des Zuker-Algorithmus auf O(n3):

Alle Multiloops werden energetisch gleich bewertet,

egal wie viele Stems von ihnen abgehen. Es wird nicht

überprüft, ob eine Struktur mit mehr als 3 Stems existiert.

Page 19: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 19

Zweite Einschränkung

• Die zweite, eben vorgestellte Einschränkung des Algorithmus dient dazu, die Berechnungskomplexität von exponentiellem auf polynomielles Niveau zu begrenzen.

Dadurch kann der Algorithmus allerdings nicht jeden beliebigen Pseudoknoten berechnen. (Es können aber alle zur Zeit des Entwurfs bekannten Pseudoknoten vorhergesagt werden!)

Es werden niemals mehr als zwei Gap-Matrizen auf

einmal miteinander kombiniert. In der Berechnung von

wx und vx sind je nur zwei Gap-Matrizen pro Rekursion

berücksichtigt.

Page 20: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 20

Zweite Einschränkung

Das funktioniert:

(2 „parallele β-sheets“,einfache copy-language)

Das nicht:

(mehr als 2 „parallele β-sheets“)

eine Matrix durch

2 aufgelöst

eine Matrix durch

4 aufgelöst

Page 21: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 21

Der Algorithmus von Rivas/Eddy

6 verschachtelte Laufvariable --> O(n6)

(gilt auch für anderen 3 Gap-Matrizen)

Die Berechnungen von vhx:

Page 22: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 22

Der Algorithmus von Rivas/Eddy

Die Berechnungen von yhx:

Page 23: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 23

Der Algorithmus von Rivas/Eddy

Die Berechnungen von zhx:

Page 24: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 24

Der Algorithmus von Rivas/EddyDie Berechnungen von whx:

Page 25: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 25

Der Algorithmus von Rivas/EddyDie Berechnungen von whx:

Page 26: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 26

Der Algorithmus von Rivas und Eddy

• grober Aufbau: Was dient zur Berechnung von was innerhalb einer Rekursion?

zhx

yhx

whxvhx

Zeit innerhalb einer Rekursion

vx

wx

Page 27: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 27

Der Algorithmus von Rivas und Eddy

• Aufbau: Was dient zur Berechnung von was?

zhx

yhx

whxvhx

vx

wx

Wert aus aktuellerRekusion

Wert aus ältererRekusion

Page 28: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 28

Der Algorithmus von Rivas/Eddy

• Zusätzlich zu der Erweiterung des Zuker-Algorithmus um Pseudoknoten wurde noch thermodynamische Parameter für Dangles und Coaxial-Stacking (Walter et al.) hinzugefügt (keine zusätzliche Verschlechterung in Asymptotiken).

Diese werden in die Berechnungen aller 6 Matrizen eingebunden.

Coaxiales Stacking:

Zwei oder mehr überlagerte Stems

Dangles:Ungepaarte Basen in direkterNachbarschaft zu gepaarten

Page 29: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 29

Erweiterung duch Stacking und Dangles

• Exemplarisch für wx:

StackingDangles

Page 30: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 30

Ergebnisse des Algorithmus von Rivas/Eddy

• Mit dem Algorithmus können potentiell alle bisher bekannten

Pseudoknoten vorhergesagt werden• Obwohl der Suchraum entscheidend vergrößert wird, faltet der

Algorithmus auch relativ lange Sequenzen und solche ohne Pseudoknoten mit hoher Zuverlässigkeit (er tendiert also nicht zum Einfügen falsch-positiver Pseudoknoten).

• Ergebnisse bei Strukturen ohne Pseudoknoten sehr ähnlich zu denen von MFOLD (basierend auf Zuker-Algorithmus)

• Auf Grund der hohen Berechnungskomplexität können nur

Sequenzen bis zu einer Länge von ca. 140 untersucht werden!

Page 31: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 31

Ergebnisse des Algorithmus von Rivas/Eddy

• tRNA´s:- RE: 15 von 24 völlig korrekt, die restlichen 9 zumindest in

Kleeblatt-Struktur- MFOLD: 14 von 24 völlig korrekt, nur 5 der restlichen 10 in

Kleeblatt-Struktur Verbesserung gegenüber MFOLD durch Integration von Stacking

• Virale RNAs:- 6 von 7 getesteten Pseudoknoten in t-RNA-ähnlichen Valinrezeptoren

der 3´-Region korrekt vorhergesagt

- In einem Ribozym des Hepatitis Delta Virus wurde der Pseudoknoten korrekt lokalisiert, es fehlte allerdings ein kleiner 2-Stem-Hairpin

Page 32: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 32

Übersicht

1. Einleitung

2. Der Algorithmus von Rivas/Eddy

3. Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten

4. Der Algorithmus von Reeder/Giegerich

Page 33: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 33

Eine Pseudoknoten-Grammatik

• Der vorgestellte Algorithmus sagt Pseudoknoten voraus, liefert aber kein komplettes Modell zur vollständigen Beschreibung von Pseudoknoten.

• Stochastische Grammatiken dagegen sind vollständige Wahrscheinlichkeits-Modelle (ähnlich zu HMMs)

• Sie erlauben es, Ausgaben mit Wahrscheinlichkeiten zu versehen, und damit auch z.B. verlässlichere suboptimale Ergebnisse zu produzieren.

Page 34: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 34

Eine Pseudoknoten-Grammatik

• Die zuvor beschriebenen „simplen“ RNA-Sekundärstrukturen sind durch kontextfreie Grammatiken (CFG) vollständig beschreibbar, da sie der „nesting convention“ gehorchen. (Interaktionen zwischen Basenpositionen kreuzen nicht.)

• Pseudoknoten sind nicht durch normale CFGs beschreibbar, da sie kreuzende Korrelationen bedingen. Diese werden erst durch kontextsensitive Grammatiken (CSG) modelliert.

• Leider ist das generelle Parsen (also das Nachvollziehen der Entstehungsgeschichte eines Wortes durch eine Grammatik) von CSGs NP-vollständig

Page 35: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 35

Eine Pseudoknoten-Grammatik

• Problem: Wir haben ein Problem, das eigentlich eine CSG benötigen würde, um es vollständig zu erfassen.

Damit können wir es aber von der Berechnungskomplexität her nicht mehr effizient behandeln.

• Lösung:Eine erweiterte CFG, die zusätzliche Nichtterminale und Regeln zur Reorganisation beinhaltet

Bemerkung: Es handelt sich damit formal weder um eine CFG noch um eine CSG!

Page 36: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 36

Eine Pseudoknoten-Grammatik

• Eine normale CFG formal: G = (V, Σ, P, S)

• Die erweiterte CFG formal: G = (V, Σ, P, S, I, R)

wobei

- Σ* neben dem normalen leeren Wort ε noch ein zusätzliches leeres

„Lückenwort“ (‚hole‘-string) ^ enthält. ^ wird bei der Reorganisation zur

Trennung von Teilstrings benötigt, nach der Reorganisation wird es wie ε

ignoriert.

- I eine endliche Menge von zusätzlichen Nichtterminalen ist

- R eine endliche Menge von Reorganisationsregeln ist.

Diese werden erst nach der vollständigen Produktion des Wortes

angewendet

Page 37: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 37

Einfaches Beispiel – die copy-language

• Zum besseren Verständnis des Ansatzes zunächst ein einfacheres Beispiel:

Die einfache copy-language enthält Wörter über einem Alphabet, die aus zwei identischen Teilwörter bestehen, die direkt miteinander konkateniert sind, z.B.:

AA, ABAB, AAABAAAABA, 0110201102, …

Formal: L = {ε, w ^ w | w є Σ*}

Diese Sprache kann nicht von einer CFG erzeugt werden und verlangt eigentlich nach einer CSG.

Page 38: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 38

Einfaches Beispiel – die copy-language

• Eine erweiterte CFG, die die copy-language beschreibt:

V = {W, WH}

Σ = {a, b}

P = { W → WW | (WH x WH) | ε,

WH → a ^ a | b ^ b | (WH x WH) | ^ }

S = W

I = { ) , ( , x }

R = { (m1^m1´ x m2^m2´) m1m2^m1´m2´ }

Page 39: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 39

Einfaches Beispiel – die copy-language

W → (WH x WH) → ((WH x WH) x (WH x WH)) → ((a ^ a x b ^ b) x (b ^ b x a ^ a))

(ab ^ ab x ba ^ ba) abba ^ abba

Produktionen

Reorganisation

Das erzeugte Wort: abbaabba

Mit der vorgestellten Grammatik für die einfache copy-languageerzeugt.

Page 40: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 40

Die Formalismen von generellen erweiterten CFGs

• P = { A → α | A є V, α є (V(IV)* U Σ)*} z.B.: WxWxWaWaWxW

• R = {(σ) m | σ є (Σ U I)*, m є Σ*} z.B.: (b^b x a^a) ba^ba

Bemerkung: Die Produktionen ähneln sehr der Form einer CFG (es

wird nur von einem Nonterminal abgeleitet).

Ist I = Ø, dann ist α є (V U Σ)* und wir haben eine CFG.

Für uneingeschränkte Ableitungen A → α mit

α є (V(IV)* U Σ)* ist das Parsen sehr komplex und

wahrscheinlich NP-vollständig (wie bei CSGs, was wir

ja gerade mit der Einführung dieser erweiterten CFGs

vermeiden wollten). Was haben wir also gewonnen?

Page 41: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 41

Die Einschränkung der erweiterten CFGs

Man muss (wieder einmal) den generellen Fall einschränken, um ein akzeptables Laufzeitniveau zu erreichen.

Der Schlüssel dazu ist folgende Beobachtung:

(V(IV)* U Σ)* = Un=0 (V(IV)n U Σ)*∞

Für n = 0 haben wir wieder eine normale CFG.

Wenn man n sinnvoll begrenzen, haben wir eine eingeschränkte erweiterte CFG, mit der wir überkreuzende Beziehungen bis zu einem der Beschränkung entsprechenden Grad modellieren können.

Page 42: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 42

Die Einschränkung der erweiterten CFGs

Genau so ist es bei der vorgestellten copy-language realisiert, welche n bis 1 laufen läst, also:

α є (V U Σ)* U (VIV U Σ)*

Mit der selben Einschränkung (nur maximal ein Sonder-Nonterminal aus I pro Ableitungsschritt zuzulassen), läst sich eine Großzahl vorstellbarer Pseudoknoten-Interaktionen modellieren (genauer: alle bis dahin bekannten und von Rivas/Eddy vorhersagbaren).

Diese Einschränkung der Grammatik ist also die 1:1-Korrespondenz zu der Einschränkung des Algorithmus von Rivas/Eddy, in einer Rekursion nur die Kombination zweier Gap-Matrizen zu erlauben.

Page 43: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 43

Die Pseudoknoten-Grammatik von Rivas/Eddy

• V = { W, WB, Vab, WH, VHabcd, IS1, IS2 }

• Σ = { a, c, g, u }• S = W

• I = { x, xL, xR, ), (, כ }

• R = { (m1^m1´ x m2^m2´) m1m2 ^ m1´m2´ ,

(m1^m1´ xL m2^m2´) m2m1m2´ ^ m1´ ,

(m1^m1´ xR m2^m2´) m1 ^ m2m1´m2´ ,

(m1^m1´ כ m2^m2´) m1m2 ^ m2´m1´ }

für mi , mi´ є Σ*

Page 44: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 44

Die Pseudoknoten-Grammatik von Rivas/Eddy

P = {

Page 45: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 45

Die Pseudoknoten-Grammatik von Rivas/Eddy

Page 46: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 46

Die Pseudoknoten-Grammatik von Rivas/Eddy

IS1 → ε | s1 | s1 s2 | … | s1...smaxloop. ,

IS2 → ^ | s1...sk ^ | ^ s1...sk | s1...si-1 ^ si...sk }

für si є {a, c, g, u}, 1 ≤ i ≤ k, 1 ≤ k ≤ maxloop

Page 47: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 47

Beispiel

gcagu

u

ac

uu

u

gg

ag

uacugc u

a

g

aa

a

u

→ (g IS2 c כ c^g) x (a IS2 u כ a^u)

→ (g caguu^uacug c כ c^g) x (a uuugg^agaaa u כ a^u)

g caguu c^g uacug c x a uuugg a^u agaaa u

gcaguucauuugga^guacugcuagaaau

W → WH x WH

Page 48: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 48

Die Pseudoknoten-Grammatik von Rivas/Eddy

• Die vorgestellte Grammatik ist mehrdeutig, kann also zu einer gegebenen Sequenz mehrer Entstehungsgeschichten beschreiben

Dadurch können mehrere alternative Sekundärstrukturen in Betracht gezogen werden.

• Mit dieser Grammatik ist ein vollständiges probabilistisches Modell (sobald man sie in eine probabilistische Grammatik üüberführt) für die Klasse der durch sie modellierbaren Pseudoknoten und aller „simplen“ Sekundärstrukturen gegeben. Das Parsen durch den zuvor vorgestellten Algorithmus ist in polynomieller Zeit möglich.

• Durch sie werden vergleichende Analysen, strukturelle Homologie-Erkennung und Datenbankensuchen möglich.

Page 49: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 49

Übersicht

1. Einleitung

2. Der Algorithmus von Rivas/Eddy

3. Eine „fast“ kontextfreie Grammatik zur Erzeugung von Sequenzen mit Pseudoknoten

4. Der Algorithmus von Reeder/Giegerich

Page 50: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 50

Der Algorithmus von Reeder/Giegerich

• Der Algorithmus von Reeder/Giegerich (RG) basiert wie der zuvor Vorgestellte von Rivas/Eddy (RE) auf dynamischem Programmieren und thermodynamischen Berechnungen.

• Verbesserung der Laufzeitkomplexität im Vergleich zu RE:

O(n6) O(n4)

• Verbesserung des Speicherplatzbedarfs:

O(n4) O(n2)

Page 51: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 51

Der Algorithmus von Reeder/Giegerich

• RE kann zwar sehr komplexe Pseudoknoten behandeln, allerdings ist der Algorithmus wegen seiner hohen Laufzeitkomplexität auf Sequenzen bis zur Länge von ca. 140 Basen begrenzt.

- RNA der Länge 84: 47 min und 9,8 MB

- RNA der Länge 105: 235 min und 22,5 MB

Die Krux mit der hohen Laufzeitkomplexität:

Die sehr komplexen Pseudoknoten, für die RE durchaus ausgelegt wäre, treten fast ausschließlich erst in Sequenzen auf, die zu lang sind, um sie von RE bearbeiten zu lassen!

Page 52: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 52

Der Algorithmus von Reeder/Giegerich

• RG setzt genau an dieser Stelle an:

Die Klasse der modellierbaren (vorhersagbaren) Pseudoknoten wird weiter eingeschränkt, um bessere Performance zu erreichen.

Dazu wird die Klasse der kanonisierten einfachen rekursiven Pseudoknoten eingeführt, auf welche sich RG in seiner Vorhersage beschränkt.

Page 53: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 53

Der Algorithmus von Reeder/Giegerich

Die Abbildung zeigt einen einfachen Pseudoknoten.

Bei einfachen rekursiven Pseudoknoten (sr-PK) dürfendie ungepaarten Regionenu, v und w selbst Sekundär-Strukturen bilden, einschließlich einfacher rekursiver Pseudoknoten.Sie dürfen allerdings nicht untereinander oder außerhalb desKnotens interagieren.

einfacher Pseudoknoten

Page 54: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 54

Der Algorithmus von Reeder/Giegerich

• Die Klasse der kanonisierten einfachen rekursiven Pseudoknoten (csr-PK):

Es werden 3 Kanonisierungsregeln eingeführt, die die Klasse der

sr-PK auf die der csr-PK beschränken.

Aber zunächst eine generelle Laufzeitbetrachtung eines Algorithmus basierend auf dynamischem Programmieren:

…..……………………………..…...…………………………..

i j k l m s o p

8 unabhängig Variablen i, j, k, l, m, s, o, p laufen (asymptotisch) über nPositionen → Laufzeit in O(n8)

1 na a´b b´wu v

Page 55: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 55

Die Kanonisierung

1. Regel zur Kanonisierung:

Segmente a und a´ (b und b´) haben die gleiche Länge. Die Segmente die die Helices formen, enthalten also keine Bulges.

→ die Indizes m und o sind nicht mehr unabhängig von den

anderen, da

m = s - (j - i)

o = p - (l - k)

gilt.

→ von ehemals 8 sind noch 6 Variablen unabhängig

→ Laufzeit reduziert sich: O(n8) O(n6)

Page 56: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 56

Die Kanonisierung

2. Regel zur Kanonisierung:

Helices a, a´ und b, b´ müssen maximale Länge unter den Regeln der Basenpaarung haben. Bereich v hat also minimale Länge.

Dazu werden die maximalen Stacklängen vor dem eigentlichen Algorithmus berechnet und in zwei Matrizen stacklength(i,s) bzw. stacklength(k,p) gespeichert.

Dadurch sind die beiden Indices j und l nicht mehr unabhängig und durch

j = i + stacklength(i,s)l = k + stacklength(k,p)

darstellbar.

Die Laufzeit reduziert sich: O(n6) O(n4)

Page 57: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 57

Die Kanonisierung

3. Regel zur Kanonisierung:

Falls zwei maximale Helices überlappen würden (|v|<0), wird eine beliebige Stelle zwischen ihnen zur Trennung gewählt.

Verlängerung derHelices

v kann natürlich nicht kürzerals 0 sein.

Keine Laufzeitverbesserung,sondern Behandlung eines Sonderfalls von Regel 2.

Page 58: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 58

Auswirkungen der Einschränkungen

• Viele der bekannten Pseudoknoten (Menge PK) scheinen einen Vertreter in csr-PK zu haben, der ihm in Struktur und Energie sehr ähnelt.

• Test von 212 Strukturen mit Pseudoknoten:

von sich aus in csr-PK

durch Erlauben von Bulgesder Länge 1 in csr-PK

durch csr-PK nicht modellierbar

gut durch eine Strukturin csr-PK approximierbar

Page 59: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 59

Auswirkungen der Einschränkungen

Zwei Beispiele für Pseudoknoten, die von RG nicht direkt vorhergesagtwerden können (durchaus aber von Rivas/Eddy):

„kissing hairpins“ „triple helix interaction“

Page 60: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 60

Ergebnisse im Vergleich

BP = # Basenpaare der ReferenzstrukturTP = # korrekt positiv vorhergesagter BasenpaareFP = # falsch positiv vorhergesagter Basenpaaresens. = TP/BP (sensitivity)sel. = TP/(FP+TP) (selectivity)K = # korrekt vorhergesagter PK-Helices / # PK-Helices in Referenzstruktur

Page 61: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 61

Der Algorithmus von Reeder/Giegerich

Bemerkungen:

• Kann Sequenzen bis max. 1000 Basen bearbeiten (ca. 12h)

• Tendiert nicht dazu, zusätzliche Pseudoknoten einzufügen (wie auch RE)

• Weitere Verbesserung möglich durch genauere Energie-Modelle (gilt natürlich ebenso für RE), besonders für Multiloops und Pseudoknoten

Page 62: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 62

Quellen

• „A Dynamic Programming Algorithm for RNA Structure Prediction Including Pseudoknots“, Elena Rivas and Sean R. Eddy, JMB 1999

• „The language of RNA: aformal grammar that includes pseudoknots“, Elena Rivas and Sean R. Eddy, Oxford Universtiy Press 2000

• „Design, implementation and evaluation of a practical pseudoknot folding algorithm based on thermodynamics“, Jens Reeder, Robert Giegerich, BMC Bioinformatics 2004

zusätzliche Bild-Quellen:• http://pps98.man.poznan.pl/assignment/projects/olejniczak/tert.htm

• http://www.techfak.uni-bielefeld.de/bcd/Siegen/mfold.html

• http://www.biomedcentral.com/1471-2105/5/104/figure/F1?highres=y

Page 63: Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten

Markus Hartenfeller - Vorhersage von RNA-Sekundärstrukturen inklusive Pseudoknoten 63