RNA - Falten & Finden

Transcript RNA - Falten & Finden

RNA
Falten & Finden
Übersicht:

RNA falten



Beispiele

Leptomonas collosoma

Bakteriophage 

Auswertung

Probability Profiling
Accessibility Plots
Samplegröße
Sfold




Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee

Vorgehen Schritt 1

Vorgehen Schritt 2
RNA finden
Volker Hähnke: RNA - Falten & Finden
2
Übersicht:

RNA falten



Beispiele

Leptomonas collosoma

Bakteriophage 

Auswertung

Probability Profiling
Accessibility Plots
Samplegröße
Sfold




Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee

Vorgehen Schritt 1

Vorgehen Schritt 2
RNA finden
Volker Hähnke: RNA - Falten & Finden
3
Sekundärstrukturen und deren Funktion

Ständig wiederkehrende Motive in
RNA-Struktur erkennbar

RNA besteht hauptsächlich aus
Kombinationen dieser Motive

Achtung:
keine Pseudoknoten
berücksichtigt
Volker Hähnke: RNA - Falten & Finden
4
Sekundärstrukturen und deren Funktion

RNA-Sekundärstrukturen wichtig für:





Katalyse (Ribozyme)
RNA-Splicing
Regulation der Translation
Interaktionen zwischen Nucleinsäuren
Sekundärstrukturen bestimmen auch die Tertiärstruktur
 korrekte Sekundärstruktur wichtig für korrekte Tertiärstruktur
 korrekte Sekundärstruktur wichtig für korrekte Funktion

Strukturbestimmung experimentell schwierig

Besonders für langkettige Nucleinsäuren
 rechnergestützte Strukturvorhersage extrem wichtig
Volker Hähnke: RNA - Falten & Finden
5
Übersicht:

RNA falten



Beispiele

Leptomonas collosoma

Bakteriophage 

Auswertung

Probability Profiling
Accessibility Plots
Samplegröße
Sfold




Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee

Vorgehen Schritt 1

Vorgehen Schritt 2
RNA finden
Volker Hähnke: RNA - Falten & Finden
6
Algorithmus - Grundidee

Annahme: Faltung nur in bestimmte Sekundärstrukturelemente

Ansatz verfolgt Minimierung der freien Energie

Energie (U):


Entropie (S):



Nimmt ab, wenn z.B. Bindungen ausgebildet werden
Maß für die „Unordnung“ eines Systems
Nimmt nach 2. Hauptsatz der Thermodynamik zu
Freie Energie (Helmholtz Energie, F): F = U – T*S

Setzt Entropie und Energie in Beziehung
Volker Hähnke: RNA - Falten & Finden
7
Algorithmus - Grundidee

Algorithmus arbeitet in 2 Schritten:

Schritt 1:



Untersucht bildbare Sekundärstrukturen der Sequenz (und ihre freie Energie)
Errechnet „Zustandssummen“ für Teilsequenzen
Schritt 2:


Errechnet mit Zustandssummen Gibbs-Boltzmann-Verteilung (Ws) der Strukturen
Wählt zufällige Kombination von Sekundärstrukturen aus
1)
*********************************
„Teilergebnisse“
2)
--______------_----_--_-_---Sammlung von Basenpaaren
Sekundärstruktur
Volker Hähnke: RNA - Falten & Finden
8
Algorithmus - Grundidee - Probleme

freien Energie für Sekundärstrukturen nur approximiert
 durch Änderungen andere Faltungen wahrscheinlicher

Tertiärstruktur (und Effekte) unberücksichtigt

Struktur mit minimaler freier Energie (MFE) muss nicht die reale sein

Realität suboptimal
Aber: Algorithmus sucht nicht unbedingt die wahrscheinlichsten Teilstrukturen aus
Volker Hähnke: RNA - Falten & Finden
9
Übersicht:

RNA falten



Beispiele

Leptomonas collosoma

Bakteriophage 

Auswertung

Probability Profiling
Accessibility Plots
Samplegröße
Sfold




Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee

Vorgehen Schritt 1

Vorgehen Schritt 2
RNA finden
Volker Hähnke: RNA - Falten & Finden
10
Algorithmus – Vorgehen (I)

Berechnen der „Boltzmann-Statistik“ („Gibbs-Boltzmann-Verteilung“) einer
Sekundärstruktur I
für eine gegebene Sequenz S
nach
  E (S , I ) 
exp
RT 

P( I ) 
U



E(S, I):
R:
U:
freie Energie der Sekundärstruktur für diese Sequenz
Gaskonstante
Zustandssumme aller zulässigen Sekundärstrukturen für S
  E (S , I ) 
U   exp
 RT 
I

Bedeutung: Wahrscheinlichkeit einer bestimmten Sekundärstruktur für eine
gegebene Sequenz unter Berücksichtigung aller möglichen Sekundärstrukturen
Volker Hähnke: RNA - Falten & Finden
11
Algorithmus – Vorgehen (I) – Defs.
Rij
5‘
1…
3‘
…..
…..
…..
i
j…

n:
Anzahl an Ribonukleotiden

Rij:
rk:
Teilsequenz von Nukleotid i bis Nukleotid j
Nukleotid an Position k, rk {A, C, G, U}
Iij:
IPij:
Sekundärstruktur für Rij, ri und rj paaren eventuell
Sekundärstruktur für Rij, ri und rj paaren miteinander



Volker Hähnke: RNA - Falten & Finden
n
1 ≤ i,j ≤ n
i≤k≤j
12
Algorithmus – Vorgehen (I)
Erinnerung:
  E (S , I ) 
U   exp
 RT 
I
Benötigt in:
  E (S , I ) 
exp
 RT 
P( I ) 
U
Teilsequenz

Zustandssummen für Rij:
Sek.-Strt.
mit Sekundärstruktur Iij:
  E ( Rij, Iij) 
u (i, j )   exp

RT

Iij
Sek.-Strt.
mit Sekundärstruktur IPij:
(i und j gepaart)
  E ( Rij, IPij ) 
up(i, j )   exp

RT

IPij

E(Rij, x):
R:
T:

Rekursive Berechnung durch Algo vom McCaskill


freie Energie der Sekundärstruktur x für Rij
Gaskonstante
310,15 K
Volker Hähnke: RNA - Falten & Finden
13
Algorithmus – Vorgehen (I)

Berechnung der u(i, j) bzw. up(i, j)…..

Mit u(1, n) kann Boltzmann-Verteilung (Ws) einer I1n für R1n berechnet werden
  E ( R1n , I1n ) 
exp

RT

P( I1n | R1n ) 
u (1, n)
Genutzt in Schritt 2
Sek.-Strt.
= S (Gesamtsequenz)
  E (S , I ) 
exp
RT 

P( I ) 
U
  E (S , I ) 
U   exp
 RT 
I
  E ( Rij, Iij) 
u (i, j )   exp

RT

Iij
Volker Hähnke: RNA - Falten & Finden
14
Übersicht:

RNA falten



Beispiele

Leptomonas collosoma

Bakteriophage 

Auswertung

Probability Profiling
Accessibility Plots
Samplegröße
Sfold




Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee

Vorgehen Schritt 1

Vorgehen Schritt 2
RNA finden
Volker Hähnke: RNA - Falten & Finden
15
Algorithmus – Vorgehen (II)
Rij
5‘
1…

i
…..
…..
…..
3‘
j…
n
Rij kann 5 verschiedene Zustände annehmen:
Volker Hähnke: RNA - Falten & Finden
16
Algorithmus – Vorgehen (II) – nötige Variablen(1)
  E (S , I ) 
exp
 RT 
P( I ) 
U

Ws, eine dieser 5 Möglichkeiten zu wählen (unbekannt, ob ri und rj paaren):
Strafe für Paarung AC bzw. GU
freie Energie für dangling 5‘
freie Energie für dangling 3‘
Array mit zuvor berechneten
Variablen
Zuerst h variieren, dann
zu den Positionen von h l
verändern
Volker Hähnke: RNA - Falten & Finden
17
Algorithmus – Vorgehen (II) – nötige Variablen(2)
  E (S , I ) 
exp
 RT 
P( I ) 
U

Bekannt, dass ri und rj paaren  Ws für die 5 möglichen Strukturen:
freie Energie eines Hairpin geschlossen von ri und rj
freie Energie des Stacking-Bp ri und rj
freie Energie eines Bulge bzw. Interior Loop
Möglichkeiten, zwischen h und
l einen Bulge bzw. Interior
Loop zu sampeln
Volker Hähnke: RNA - Falten & Finden
18
Algorithmus – Vorgehen (II)

Sampeln:



berechne die Struktur-Ws für Rij (mit den u(i,j) aus Schritt 1)
wähle über eine Zufallsvariable gemäß den berechneten Wahrscheinlichkeiten eine
Möglichkeit
Benutzt zwei Stacks


0
1
A: verwaltet Tupel (i, j, I) (noch zu faltendes Teilstück)
 Sequenz von Nukleotid i bis j
 I = 1: Nukeotid i und j bilden eine Bindung aus; I = 0: unbekannt, ob i und j paaren
B:
Wird durch Algorithmus gefüllt
 sammelt Basenpaare und ungepaarte Basen
 enthält nötige Informationen für Sekundärstruktur


Startzustand:

A enthält (1, n, 0)
Volker Hähnke: RNA - Falten & Finden
19
Algorithmus – Vorgehen (II)
Erinnerung:
A: ungefaltete Bereiche
B: Bindungsbeziehungen
I=0
1)
Start mit R1n (also (1, n, 0) auf Stack A), Paarung nicht bekannt
 bilde die P0, Pij, {Phi}, {Pil}, {Ps1h} für i = 1, j = n; wähle eine Möglichkeit
Mögliche Ergebnisse:
Keine Paarung, füge ungepaarte Basen von 1 bis n in Stack B ein
(1, n, 1) in Stack A einfügen
(h, n, 1) in Stack A einfügen
ungepaarte Basen 1 bis (h-1) in Stack B einfügen
(1, l, 1) & (l+1, n, 0) in Stack A einfügen
(h, l, 1) & (l+1, n, 0) in Stack A einfügen
Ungepaarte Basen von 1 bis (h-1) in Stack B einfügen
Volker Hähnke: RNA - Falten & Finden
20
Algorithmus – Vorgehen (II)
2)
Erinnerung:
A: ungefaltete Bereiche
B: Bindungsbeziehungen
Nimm nächstes Tupel (i, j, I) für Rij von Stack A
a) I = 0: verfahre wie im letzten Schritt: berechne die P-b) I = 1: i und j paaren, betrachte die QijH, QijS, QijBI, QijM
Füge die ungepaarten Basen in Stack B ein
Füge das schließende Basenpaar in Stack B ein
Nimm neues Tupel von Stack A
Füge das Basenpaar ij in Stack B ein
Füge (i+1, j-1, 1) in Stack A ein
Nimm neues Tupel von Stack A
Berechne die QhlBI, i < h,l, < j
Füge Basenpaar ij und ungepaarte Basen des Loops in Stack B ein
Füge (h, l, 1) in Stack A ein
Nimm neues Tupel von Stack A
Volker Hähnke: RNA - Falten & Finden
21
Algorithmus – Vorgehen (II)
1) Sampel das erste innere Basenpaar
(bilde die P--, wähle Möglichkeit, verfahre entsprechend)
…..
…..
2) Sampel das nächste Basenpaar
…..
…..
3) Wiederhole 2, bis alle abgearbeitet
Nimm neues Tupel von Stack A
Volker Hähnke: RNA - Falten & Finden
22
Stack A
Stack B
Algorithmus – Vorgehen(II)
Für jedes Basenpaar
innerhalb des MB-Loop

Sampling im Überblick:
Stack A leer?
Sampel
Basenpaar
I=0
Möglichkeiten der
Paarbildung bestimmt
Schritt 1
nimm (i, j, I) von A
I=1
Sampel
Loop
Volker Hähnke: RNA - Falten & Finden
Struktur bestimmt, zu der
Basenpaar zugehörig ist
23
Algorithmus – Vorgehen(II)


Samling-Schritt arbeitet, bis Stack A leer ist
Stack B enthält Angaben über Paarungen der n Basen in R1n

1 Sekundärstruktur
Wahrscheinlichkeit eines Struktur nimmt exponentiell mit wachsender freier
Energie ab (bedingt durch Boltzmann-Verteilung):




Mit hoher Wahrscheinlichkeit:
optimale MFE
Mit relativ hoher Wahrscheinlichkeit: gute (suboptimale) MFE
Mit geringer Wahrscheinlichkeit:
schlechte MFE
Sinnvoll: Sampling-Schritt mehrfach ablaufen lassen

statistisch repräsentatives Ergebnis
„Konsensus“-Struktur
Volker Hähnke: RNA - Falten & Finden
24
Übersicht:

RNA falten



Beispiele

Leptomonas collosoma

Bakteriophage 

Auswertung

Probability Profiling
Accessibility Plots
Samplegröße
Sfold




Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee

Vorgehen Schritt 1

Vorgehen Schritt 2
RNA finden
Volker Hähnke: RNA - Falten & Finden
25
Beispiele – Leptomonas collosoma

Faltung der „spliced leader“ RNA (SL RNA) von L. collosoma



Vorgehen:




56 nt lang
2 Sekundärstrukturen identifiziert (Funktion unbekannt)
Mit Schritt 1 die Ws der Substrukturen berechnet
1000 mal gesampelt
Entstandene Sekundärstrukturen verglichen
Ergebnis:



2 generelle Klassen
Klasse 1 mit 3 Unterklassen (A, B, C)
Klasse 2 mit 2 Unterklassen (A, B)
Volker Hähnke: RNA - Falten & Finden
26
Beispiele – Leptomonas collosoma

Klasse 1: Alle Unterklassen mit 2 identischen Helices


1: U 16 A38 , G17C 37 ,U 18 A36 , A19U 35 , G20C 34
2: U 22 A32 , C 23G 31 , A24U 30 , G 25C 29
Weitere 2 Helices gemeinsam
Unterschied in Hairpin
U 22 A32 , C 23G 31 , A24U 30 , G 25C 30
Quadratgröße = Häufigkeit
der Basenpaare in Samples
mfold(3.1)-Struktur
 MFE-Struktur
Volker Hähnke: RNA - Falten & Finden
27
Beispiele – Leptomonas collosoma

Klasse 2: Unterklassen erneut mit 2 identischen Helices

Unterklasse B mit zusätzlichem Stem am 5‘-Ende
Quadratgröße = Häufigkeit
der Basenpaare in Samples
Volker Hähnke: RNA - Falten & Finden
28
Beispiele – Leptomonas collosoma

Repräsentanten der Klasse 1:
identisch
mfold(3.1)-Struktur
Experimentell bestimmte
Faltungsart 1
 MFE-Struktur
Bis auf Fehlen der kurzen Helix
mit mfold-Struktur identisch
Volker Hähnke: RNA - Falten & Finden
29
Beispiele – Leptomonas collosoma

Repräsentanten der Klasse 2:
identisch
Experimentell
bestimmte Faltungsart 2
Volker Hähnke: RNA - Falten & Finden
30
Beispiele – Leptomonas collosoma

Gesamtübersicht Häufigkeiten der Klassen und deren Repräsentanten
• Tatsächliche Faltungsart 1
• mfold-Struktur (MFE)
• Leicht veränderte mfold-Struktur
(suboptimale MFE)
• Tatsächliche Faltungsart 2
 Tatsächliche Strukturen
mit geringer Ws
Volker Hähnke: RNA - Falten & Finden
31
Übersicht:

RNA falten



Beispiele

Leptomonas collosoma

Bakteriophage 

Auswertung

Probability Profiling
Accessibility Plots
Samplegröße
Sfold




Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee

Vorgehen Schritt 1

Vorgehen Schritt 2
RNA finden
Volker Hähnke: RNA - Falten & Finden
32
Beispiele – Bakteriophage 

Zwischen-Ergebnis aus Tests mit L. collosoma:
Algo erzeugt viele alternative Strukturen

Weitere Untersuchung mit Vorhersage von mRNA-Strukturen

Charakteristische Bereiche der cIII-mRNA des Bakteriophagen :


das Startcodon (AUG)
die Shine-Dalgarno-Sequenz

Kommt in 2 Konformationen vor

Vorgehen:


(0 bis 3)
(-13 bis -7)
nötig zur Translationsinitiierung
Sampling-Schritt 100 mal wiederholt
Die 100 erzeugten Strukturen von Hand betrachtet und charakterisiert
Volker Hähnke: RNA - Falten & Finden
33
Beispiele – Bakteriophage 


Struktur A: Shine-Dalgarno-Sequenz und Startcodon in Sekundärstrukturen keine Translation
Struktur B: Shine-Dalgarno-Sequenz und Startcodon zugänglich
Translation möglich
leftmost
stem
middle
stem
rightmost
stem
Volker Hähnke: RNA - Falten & Finden
34
Beispiele – Bakteriophage 

Ergebnis des Samplings:

89/100 Strukturen leichte Variationen von
Struktur A
 leftmost-Stem in 67/89 exakt
vorhergesagt
 rightmost-Stem in 72/89 nahezu exakt
vorhergesagt (gelegentlich 2
zusätzliche Paare)

3/100 Strukturen Variationen von Struktur B
zusätzliche Helix in SD-Sequenz enthalten

leftmost
stem
middle
stem
rightmost
stem
8 Strukturen, die weder an A noch an B
erinnern
Volker Hähnke: RNA - Falten & Finden
35
Übersicht:

RNA falten



Beispiele

Leptomonas collosoma

Bakteriophage 

Auswertung

Probability Profiling
Accessibility Plots
Samplegröße
Sfold




Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee

Vorgehen Schritt 1

Vorgehen Schritt 2
RNA finden
Volker Hähnke: RNA - Falten & Finden
36
Beispiele - Auswertung

Algorithmus erzeugt leicht suboptimale Faltungen, die nahe der MFE liegen

ABER: suboptimale Faltung ist nicht gleich tatsächlicher (suboptimaler) Faltung

Erklärung der Autoren: unbekannte Einflüsse der Tertiärstruktur für verantwortlich für
Stabilität

Besser geeignet zur Faltung von mRNA als für funktionelle RNA (z.B. spliced leader)
Volker Hähnke: RNA - Falten & Finden
37
Übersicht:

RNA falten



Beispiele

Leptomonas collosoma

Bakteriophage 

Auswertung

Probability Profiling
Accessibility Plots
Samplegröße
Sfold




Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee

Vorgehen Schritt 1

Vorgehen Schritt 2
RNA finden
Volker Hähnke: RNA - Falten & Finden
38
Probability Profiling

Einzelsträngige (ungepaarte) RNA-Regionen interagieren potentiell mit




DNA
RNA
Proteinen (z.B. in Translation)
Vorhersage dieser „accessible sites“ mit dem Sampling-Teil des Algorithmus

Erstellen von „Probability Profiles“ (Diagramme) der Weite W (in Nukleotiden)

An Position i wird die Ws aufgetragen, dass die Nukleotide i bis i+(W-1) ungepaart sind
(ergibt sich aus Multiplikation der Einzelwahrscheinlichkeiten (aus Statistik))

Zum Vergleich: ss-count; Statistik, in wieviel Prozent aller erzeugten Faltungen Base i
ungepaart war
Volker Hähnke: RNA - Falten & Finden
39
Probability Profiling - Beispiel

mRNA Homo sapiens -Glutamyl-Hydrolase

Nukleotide 0 – 60
Volker Hähnke: RNA - Falten & Finden
40
Probability Profiling - Beispiel

mRNA Homo sapiens -Glutamyl-Hydrolase

Nukleotide 1261 – 1322
Volker Hähnke: RNA - Falten & Finden
41
Probability Profiling - Ergebnis

MFE-Struktur gibt für Vorhersage von „accessible sites“ keine Hinweise


Da nur 1 Struktur die MFE-Struktur ist
Binäre Entscheidung: in 1 Struktur ist Base in Basenpaar oder nicht

ss-count: betrachtet nur Statistik eines Nukleotids, keine Aussage über nachfolgende

Probability Profile: verlässlichste Aussage der 3 Möglichkeiten

da Ws der nachfolgenden Paarungen berücksichtigt
Volker Hähnke: RNA - Falten & Finden
42
Probability Profiling für Loops

Bisher nur berücksichtig ob gepaart oder ungepaart

Sampling-Schritt gibt aber mit zurück, in welchem Loop-Typ sie enthalten sind
 Probability Profiling für bestimmte Loops möglich
Volker Hähnke: RNA - Falten & Finden
43
Probability Profiling für Loops

Loop-Probability-Profiles für Escherichia coli Alanin-tRNA
Hairpin
External
Bulge
Internal
Multi
Multi
„dangling“-3‘-Ende
aus Nukleotiden
Kleeblattstruktur der tRNA
Enthält keine Bulges oder Internal Loops
 dort keine Peaks
16% der gesampelten Strukturen haben einen einzelsträngigen Bereich,
der zwei gefaltete Domänen vebrindet
Volker Hähnke: RNA - Falten & Finden
44
Probability Profiling für Loops

Weitere Bedeutung des Hairpin-Loop-Profiles:

Höchster Peak  konserviertester Loop

HPlot-Ws der Basen des Anticodon-Loops:
 G34:
0,968
 G35:
0,961
 C36:
0,962
 Selbst wenn sich die restliches Struktur
nicht zum Kleeblatt faltet, bleibt diese
„accessible site“ erhalten

Untersuchung weiterer tRNAs interessant,
aber schwierig, da modifizierte Basen
vorhanden
Volker Hähnke: RNA - Falten & Finden
45
Übersicht:

RNA falten



Beispiele

Leptomonas collosoma

Bakteriophage 

Auswertung

Probability Profiling
Accessibility Plots
Samplegröße
Sfold




Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee

Vorgehen Schritt 1

Vorgehen Schritt 2
RNA finden
Volker Hähnke: RNA - Falten & Finden
46
Probability Profiling für Accessibility Plots



Probability Profiles geben Differenzierung zwischen gebunden / einzelsträngig
Nucleinsäuren müssen einzelsträngig sein, um zu interagieren
Probability Profiles überlagern, um Interaktion vorherzusagen


Target: Homo sapiens Glutamyl-Hydrolase mRNA
Antisense: insgesamt 1233 nt

Gute Zugänglichkeit zwischen
730 und 750 (target)

Zugängliche Bereiche müssen
nicht an gleichen Stellen liegen
Sollten aber gleich lang sein

Volker Hähnke: RNA - Falten & Finden
47
Übersicht:

RNA falten



Beispiele

Leptomonas collosoma

Bakteriophage 

Auswertung

Probability Profiling
Accessibility Plots
Samplegröße
Sfold




Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee

Vorgehen Schritt 1

Vorgehen Schritt 2
RNA finden
Volker Hähnke: RNA - Falten & Finden
48
Sampelgröße

Standardgröße: 1000 – repräsentativ!

Beispiel: Homo sapiens -Glutamyl-Hydrolase mRNA


1187 nt  ~10303 Sekundärstrukturen (Vergleich: ~1080 Atome im Universum)
2 Sammlungen von 1000 Samples erstellt

Für jede Sammlung ein Histogramm erstellt
Histogramme sind identisch

Probability Profiles erstellt:
nahezu deckungsgleich

Aber: keine einzige Struktur kommt doppelt vor
Volker Hähnke: RNA - Falten & Finden
49
Samplegröße - Histogramme
Volker Hähnke: RNA - Falten & Finden
50
Samplegröße - Probability Profiles
Volker Hähnke: RNA - Falten & Finden
51
Übersicht:

RNA falten



Beispiele

Leptomonas collosoma

Bakteriophage 

Auswertung

Probability Profiling
Accessibility Plots
Samplegröße
Sfold




Sekundärstrukturen und Funktion
Algorithmus zur RNA-Faltung von Ding und Lawrence

Grundidee

Vorgehen Schritt 1

Vorgehen Schritt 2
RNA finden
Volker Hähnke: RNA - Falten & Finden
52
Sfold

Algorithmus integriert in Paket Sfold
Erhältlich z.B. über sfold.wadsworth.org

Laufzeit des Algo:


Vergleich:
O(n³)
Eddy/Rivas:
Reeder/Giegerich:
O(n6)
O(n4)
Aber dafür mit Pseudoknoten
Sequenz
Länge (nt)
Zeit (sek)
Speicher (MB)
E. coli tRNAAla
76
1,48
14,6
H. sapiens BCRP mRNA
2418
3.505,86
149,2
H. sapiens ESR mRNA
6450
92.995,25
969,1
Vergleich von Rechenzeit und Speicherverbrauch beim Berechnen der Zustandssummen und anschließendem Sampeln von 1000 Strukturen
Volker Hähnke: RNA - Falten & Finden
53
Übersicht:

RNA falten

RNA finden





Motivation und Ansätze
Modelle

Prinzip

Parameterschätzung

Piktogramme
Algorithmus
Tests und Ergebnisse
Verbesserungen
Volker Hähnke: RNA - Falten & Finden
54
Übersicht:

RNA falten

RNA finden





Motivation und Ansätze
Modelle

Prinzip

Parameterschätzung

Piktogramme
Algorithmus
Tests und Ergebnisse
Verbesserungen
Volker Hähnke: RNA - Falten & Finden
55
Motivation & Ansätze

Gefaltete RNA funktionell bedeutsam



Steuerung der eigenen Translation
Funktion als tRNA
Ribozyme

Nicht alle RNA wird wie mRNA translatiert
Nicht alle Gene auf DNA codieren für Proteine
Einige kodieren auch für funktionelle nicht kodierende RNA (ncRNA)

Ziel: Gene auf DNA erkennen, die für ncRNA kodieren

Problem: entsprechende Gene bisher nicht einheitlich charakterisierbar


Volker Hähnke: RNA - Falten & Finden
56
Motivation & Ansätze

Maizel 1988:






Sekundärstruktur bestimmt Funktion
Funktionelle RNA muss also stabile Sekundärstruktur haben
Stabil = Minimum der freien Energie
Ergebnis Faltungsvorhersage weniger divers
Ergebnisse enttäuschend
Badger & Olsen 1999:




Anderes Gebiet: Identifizierung von codierenden Regionen in Bakterien
Arbeitet mit Alignments von Sequenzen
Nutzen BLASTN um Sequenzidentität zwischen 2 Species zu bestimmen
Programm CRITICA untersucht Mutationsmuster der gaplosen Bereiche


Mutationen, die AS nicht verändern (synonym):
Mutationen, die AS verändern:
+ Score
- Score
Volker Hähnke: RNA - Falten & Finden
57
Motivation & Ansätze

Rivas & Eddy 2001:



Aufbauend auf Idee von Badger & Olsen
Erweiterungen:
Probabilistisches Modell (Aussage mit Ws)
dritter zusätzlicher Zustand (funktionelle RNA)
Alignments mit Gaps zugelassen
Alignment nur teilweise relevant (irrelevante Flanken möglich)
Ziel: gegebene Sequenz klassifizieren in




Kodierend für Proteine
kodierend für ncRNA
Andere Bereiche
Ansatz findet ncRNA mit konservierter Struktur – Probleme:

Manche bekannte ncRNA-Gene nicht konserviert
Manche konservierte Bereiche nicht ncRNA-Gene

„ncRNA-Gen“ beschreibt Bereich mit konservierter Struktur, Funktionalität muss untersucht werden

Volker Hähnke: RNA - Falten & Finden
58
Motivation & Ansätze

Eingabe eines Alignments zweier verwandter Genome (DNA-Sequenzen)

Analyse der beobachteten Mutationen



Kodierend: Synonyme Mutationen (gleiche AS kodiert)
Funktionell: kompensierend, Struktur erhalten
Keins:
zufällige Mutation
AGTGCTAGCT
GATGCTAGCT
ncRNA?

Analyse:




Jeder Fall 1 Modell, das entsprechende Sequenzen baut
„Nachbau“ des Alignments mit den 3 Modellen
Ausgabe der Ws, dass Alignment einem Modell enstpringt
Modell mit höchster Ws gewinnt
Volker Hähnke: RNA - Falten & Finden
59
Übersicht:

RNA falten

RNA finden





Motivation und Ansätze
Modelle

Prinzip

Parameterschätzung

Piktogramme
Algorithmus
Tests und Ergebnisse
Verbesserungen
Volker Hähnke: RNA - Falten & Finden
60
Modelle - Prinzip

OTH (weder kodierend noch funktionell)

pair-HMM
pair-HMM
HMM
GTTAACTGAGTAACG
GTTAACTGAGTAACG
|xx|x|| || | |x| ||
GCAAGCTGAGTTACG


16 verschiedene Parameter:
pOTH(a,b) = Ws(a in Seq X, b in Seq Y)
Wahrscheinlichkeit des Alignments: Produkt der Ws der alignierten Positionen
Volker Hähnke: RNA - Falten & Finden
61
Modelle - Prinzip

COD (Gen kodierend für Proteine)



pair-HMM
Alignierte Sequenzen sollten für gleiches Protein kodieren
Synonyme Mutationen, AS-Sequenz unverändert
1 Ereignis

64 * 64 Parameter:





pCOD(a1a2a3, b1b2b3)
Emission erfolgt Codon für Codon
Gleichzeitig:
a1a2a3 in Sequenz X
b1b2b3 in Sequenz Y
GGT……
Sequenz X
GGA……
Sequenz Y
G
Ws des Alignments für einen Reading-Frame: Produkt der Doppel-Codon-Ws
Richtiger Reading-Frame nicht bekannt
Ws des Alignments:
P( XY | COD)   P( XY | f , COD) * P( f | COD)
f
f = Frame; P(f|COD) = 1/6
Volker Hähnke: RNA - Falten & Finden
62
Modelle - Prinzip

RNA (Gen kodierend für ncRNA)

pair Stochastic Context Free Grammar (pSCFG)
Mutation ändert Sekundärstruktur nicht
p
Von gleichenuPositionen zu gleichen
Positionen Watson-Crick-Paarung möglich
v

Abschnitte in Sek-Struktur:



16 * 16 Parameter
pRNA(aLaR, bLbR)
Ws (Emission eines Basenpaars in X, homologes Basenpaar in Y)
TTGTTCGAAAGAACG

Ungepaarte Abschnitte:

4 * 4 Parameter
Analog zu OTH-Modell
TTGACCGAAAGGTCG

Ws für ein Alignment mit Struktur s: Produkt aus
 pRNA(xixj, yiyj)
für gepaarten Positionen i,j
 pRNA(xk, yk)
für einzelsträngige Positionen k

Richtige Struktur nicht bekannt
Ws des Alignments:

pRNA(a, b)
P( XY | RNA)   P( XY | s, RNA) * P(s | RNA)
s
s = Sekundärstruktur
Volker Hähnke: RNA - Falten & Finden
63
Modelle - Prinzip

Problem bei RNA-Modell





Viertes Modell (IID) :



Erzeugt unabhängige Sequenzen
8 Parameter:
pX(a)
pY(b)
Klassifikation durch Likelihoods:




In COD-Modell alle Frames gleich wahrscheinlich
Gilt nicht für Sek-Strukturen in RNA-Modell
P(s|RNA) muss für jedes s berechnet werden
Gelöst durch früheren Algorithmus von Rivas und Eddy
Wahrscheinlichkeit des Modells gegeben die Daten
Bayes‘sche-Posteriori-Ws berechnet: a priori alle 3 Modelle gleich wahrscheinlich
Hohe RNA-posteriori-Ws: Alignment Kandidat für ncRNA-Gene
Beurteilung der Güte der Aussage durch log-odds-Score
Volker Hähnke: RNA - Falten & Finden
64
Übersicht:

RNA falten

RNA finden





Motivation und Ansätze
Modelle

Prinzip

Parameterschätzung

Piktogramme
Algorithmus
Tests und Ergebnisse
Verbesserungen
Volker Hähnke: RNA - Falten & Finden
65
Modelle - Parameterschätzung

4392 Emission-Ws zu bestimmen

Ideal: Trainings-Sets aus Alignments von





Keine genügend großen Trainings-Sets verfügbar
Mit zufällig erzeugten Sequenzen:





Real existierenden RNAs
Kodierende Genomregionen
Konservierte nicht kodierende Regionen
Sequenzen erzeugen
Mit Werten aus AS-Substitutionsmatrizen (BLOSUM62) Codon-Ws errechnen (pCOD)
Daraus Nucleotid-Substitutions-Ws des OTH-Modells errechnen
OTH-Ws mit Basenpaarhäufigkeiten kombinieren  RNA-Ws
48 Transitions-Ws


„von Hand“ erzeugt: Modelle generieren Sequenzen, mit realen verglichen
Suboptimale Methode, bisher aber keine Alternative
Volker Hähnke: RNA - Falten & Finden
66
Übersicht:

RNA falten

RNA finden





Motivation und Ansätze
Modelle

Prinzip

Parameterschätzung

Piktogramme
Algorithmus
Tests und Ergebnisse
Verbesserungen
Volker Hähnke: RNA - Falten & Finden
67
Modelle - Piktogramme

IID-Modell: erzeugt 2 unabhängige Sequenzen
Emittiert in Seq. X
X
S
K
T
F
Emittiert in Seq. Y
Y
Volker Hähnke: RNA - Falten & Finden
68
Modelle - Piktogramme

OTH-Modell: erlaubt lokale Alignments zwischen 2 Sequenzen
X
X: emittiert in X, Gap in Y
B
XY: emittiert
E in X und Y
FR
Y: emittiert in Y, Gap in X
XY
FL
Y
FJ
Volker Hähnke: RNA - Falten & Finden
F: „Flanking States“
O
69
Modelle - Piktogramme


COD-Modell: Alignment kodierender Bereiche eingebettet in unabhängige Bereiche
Neuer Typ von Zuständen: COD




Ermöglichen „indels“ (Insertionen oder Deletionen)
Kompensieren Verlust durch Shotgun-Sequenzierung & BLASTN (positions-unabhängig)
Emission von ungleichen (und überzähligen) AS-Anzahlen
Exemplarische Angabe der entsprechenden Ws:
C(3,3)
p3,3(a1a 2a3, b1b2b3)  pCOD (a1a 2a3, b1b2b3)
C(3,2)
p3, 2(a1a2a3, b1b2 _)   pCOD (a1a2a3, b1b2b3)
3 verschiedene Zustände
b3
C(3,4)
p3, 4(a1a 2a3, b1b2b3b4)  pCOD (a1a 2a3, b1b2b3) * pY (b4)
C(3,0)
p3,0(a1a2a3, ___)
p
COD
4 verschiedene Zustände
(a1a2a3, b1b2b3)
b1,b 2 ,b 3
Alle Möglichkeiten:
p,(a1…a,b1…b)
,  {0,2,3,4}; a,b {A,C,G,U}
Volker Hähnke: RNA - Falten & Finden
70
Modelle - Piktogramme

COD-Modell: Alignment kodierender Bereiche eingebettet in unabhängige Bereiche
C(3,0)
OB
B
E
OE
C(0,3)
OJ
Volker Hähnke: RNA - Falten & Finden
71
Modelle - Piktogramme

RNA-Modell: erzeugt ncRNA-Gene eingebettet in unabhängige Bereiche

Grammatik hat 3 verschiedene Zustände (nicht-Terminale):




V:
W:
WB:
Sequenzfragment, dessen Enden sicher gepaart sind
Sequenzfragment, dessen Enden eventuell gepaart sind
wie W, wird nur benutzt, um Multi-Loops zu starten
2 Arten von Emissionswahrscheinlichkeiten:


pRNA(s i  (aL , bL ), sj  (aR , bR ))
W B: identisch
bL………………….bR
 e xi   e  xi 
 Emissionszustand* NukleotidX
 y    y   Nukleotid-Vektor
Emissionvon gepaarten Nukleotiden in beide Sequenzen
e y  e  y
 Emissionszustand* NukleotidY
 i '    i ' 


Emission von ungepaarten Nukleotiden
 e x   0   1  1
 y    ,  ,  
e 
   1   0  1
x
Emission ja/nein

pRNA( s  (a, b))
aL………………….aR
x
Erzeugen Gaps im Alignment
Volker Hähnke: RNA - Falten & Finden
72
Modelle - Piktogramme

RNA-Modell: erzeugt ncRNA-Gene eingebettet in unabhängige Bereiche
OB
RNA
OE
OJ
Volker Hähnke: RNA - Falten & Finden
73
Übersicht:

RNA falten

RNA finden





Motivation und Ansätze
Modelle

Prinzip

Parameterschätzung

Piktogramme
Algorithmus
Tests und Ergebnisse
Verbesserungen
Volker Hähnke: RNA - Falten & Finden
74
Algorithmus - Vorgehen


Eingabe: paarweises Sequenz-Alignment von L alignierten Paaren
Scoring des Alignments:




OTH, COD (HMM):
Viterbi/Forward
Speicher: O(L)
RNA (SCFG):
CYK/Inside
Speicher: O(L²)
Für jedes Modell: Ws, dass Alignment von Modell generiert wurde
Zeit: O(L)
Zeit O(L³)
Alignment Klassifizieren (Bayes‘sche-Posteriori-Ws):

Annahme: P(Modeli) sind gleich
P(Modeli | XY ) 
Ws der Klasse bei
gegebenem Alignment
P( XY | Modeli ) * P(Modeli )
P( XY )
Ws des Alignments bei
verwendetem Modell
Ws des Modells
P( XY ) 
 P( XY | Model) * P(Model)
j
Ws des Alignments
j
i{RNA,COD ,OTH }
Volker Hähnke: RNA - Falten & Finden
75
Algorithmus - Ergebnis

Bilden von log-odds-Score zur Gütebeurteilung:




ld ( beobachtet / erwartet )
Aussage darüber, wie nahe Erwartung an beobachtetem Ereignis ist
Annahme: weder für Proteine noch ncRNA kodierend
Log-odds-Score von COD und RNA zu OTH bilden

2 Werte, als Koordinaten in Diagramm
Diagramm-Repräsentation der Information
(„Phase Diagram“)

3 verschiedene Fälle:




y>x
x>y
x<0
y>0
x>0
y<0



 P(COD | XY )
P( RNA | XY ) 


( x, y)   ld
, ld
P(OTH | XY ) 
 P(OTH | XY )
RNA
COD
OTH
Volker Hähnke: RNA - Falten & Finden
76
Übersicht:

RNA falten

RNA finden





Motivation und Ansätze
Modelle

Prinzip

Parameterschätzung

Piktogramme
Algorithmus
Tests und Ergebnisse
Verbesserungen
Volker Hähnke: RNA - Falten & Finden
77
Tests und Ergebnisse

Tests mit simulierten Daten:




Sinn: Daten im Voraus eindeutig klassifiziert, Leistungsfähigkeit beurteilbar
Jedes der 3 Modelle (OTH, RNA, COD) generiert 1000 200nt lange Alignments
Alle 300 Alignments durch Algorithmus bewertet und klassifiziert
Klassifizierung soll auf Mutationsmuster beruhen, nicht auf Sequenzidentität oder GapHäufigkeit



Spalten der Alignments zufällig neu zusammengesetzt
Sequenzidentität und Anzahl der Gaps beibehalten
Mutationsmuster, das Veränderung erklärt hat, zerstört
Darstellung in „Phase-Diagrams“
Volker Hähnke: RNA - Falten & Finden
78
Tests und Ergebnisse

Phase-Diagram der durch COD-erzeugten Alignments:
RNA
OTH
blau
rot
COD
= Klassifizierung der original Alignments
= Klassifizierung nach Shuffling
Volker Hähnke: RNA - Falten & Finden
79
Tests und Ergebnisse

Phase-Diagramm der durch RNA erzeugten Alignments
RNA
OTH
blau
rot
COD
= Klassifizierung der original Alignments
= Klassifizierung nach Shuffling
Volker Hähnke: RNA - Falten & Finden
80
Tests und Ergebnisse

Phase-Diagramm der durch OTH erzeugten Alignments:
RNA
OTH
blau
rot
COD
= Klassifizierung der original Alignments
= Klassifizierung nach Shuffling
Volker Hähnke: RNA - Falten & Finden
81
Tests und Ergebnisse

Tests an simulierten Genomen:


Sinn: Untersuchen der Tendenz zu „false Positives“, wenn COD und OTH dominieren
Erzeugen von 2 Pseudobakteriengenomen ohne funktionelle RNA:









2 Megabasen
normalverteilt um 900nt
normalverteilt um 100nt
1) 38,90%
2) 47,25%
3) 57,70%
Anzahl der false Positives:


Länge:
Länge kodierender Regionen:
Länge nichtkodierender Regionen:
~ 90% kodierend
GC-Gehalt:
1) 8
2) 14
3) 21
Erneute Analyse von Genomsatz 3 mit neuem Parametersatz: 1 false Positive
Sensitivität sinkt mit steigendem GC-Gehalt, kann angepasst werden
Volker Hähnke: RNA - Falten & Finden
82
Tests und Ergebnisse

Tests an realen Genomen



Sinn: Test unter realistischen Bedingungen
Analyse der Genome von Escherichia coli und Salmonella typhi (eng verwandt)
Bekannt:
115 RNA-Gene (22 rRNAs, 86 tRNAs, 7 andere)
4290 kodierende Gene

Genom aufgeteilt in 3 Bereiche:
115 RNA-Features (1% des Genoms)
4290 ORF-Features (88% des Genoms)
2367 intergene Sequenzen (11% des Genoms)

Jede der 3 „Sammlungen“ gegen Salmonella typhi aligniert, bewertet
Volker Hähnke: RNA - Falten & Finden
83
Tests und Ergebnisse
ncRNAs
ORFs
115
4290
33
3181
erkannt als RNA
33
20
erkannt als COD
-
2876
erkannt von alignierten
100%
90,4%
erkannt von gesamt
28,6%
67%
vorhanden
In Alignments


(>50nt, E < 0,01)
Problem: Blast lieferte nicht ausreichend viele signifikante Alignments
Von alignierten Sequenzen Großteil erkannt
Volker Hähnke: RNA - Falten & Finden
84
Übersicht:

RNA falten

RNA finden





Motivation und Ansätze
Modelle

Prinzip

Parameterschätzung

Piktogramme
Algorithmus
Tests und Ergebnisse
Einsatz und Verbesserung
Volker Hähnke: RNA - Falten & Finden
85
Einsatz & Verbesserung

Anwendungsgebiete:



Erkennen von Kandidaten für ncRNA; positiv identifizierte Regionen weiter untersuchen
Erkennen von für Proteine kodierende Regionen
Fehlerquellen und Verbesserungen:

Modelle für fixe evolutionäre Distanz (BLOSUM 62) passt nicht auf alle eingegebenen Daten

BLASTN zum Alignieren von positionsunabhängig evolvierten Sequenzen
Alignment mit Sankoff-Algorithmus sehr teuer: Zeit O(L6), Speicher O(L4)

Training mit zufällig erzeugten Daten nicht optimal
trainiertes System scheint RNA-Modell zu favorisieren

Verfahren sucht nach konservierter Sekundärstruktur
kann keine ncRNA erkennen, die nur sehr wenige Sekundärstrukturen ausbildet

Fehlklassifizierung von mRNA mit stark ausgebildeter Sekundärstruktur
z.B. zur Translationskontrolle
Volker Hähnke: RNA - Falten & Finden
86
Übersicht:

RNA falten

RNA finden

Quellen
Volker Hähnke: RNA - Falten & Finden
87
Quellen

A statistical sampling algorithm for RNA secondary structure
prediction; Nucleic Acids Research 31(24) S.7280-7301; Ding, Ye,Lawrence,
Charles E.; 2003

Noncoding RNA gene detection using comparative sequence analysis; BMC
Bioinformatics 2(8) Eddy, Sean R.,Rivas, Elena; 2001
Volker Hähnke: RNA - Falten & Finden
88
?
Volker Hähnke: RNA - Falten & Finden
89

RNA - Falten & Finden

Transcript RNA - Falten & Finden

Directory