varianzstabilisierung von genexpressionsdaten ewgenij proschak yusuf tanrikulu seminar:aktuelle...
TRANSCRIPT
Varianzstabilisierung von Genexpressionsdaten
Ewgenij ProschakYusuf Tanrikulu
Seminar: Aktuelle Themen der Bioinformatik27.05.2004
Organizer: Prof. Dr. D. MetzlerTutor: Lin Himmelmann
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
2
Inhalt
Problemstellung und GrundbegriffeModell nach ChenModell nach Huber
Fehlermodell nach Rocke und Durbin Transformation zur Varianzstabilisierung Parameterabschätzung
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
3
Problemstellung –Datenformat
Vorverarbeitete Daten, die in einer Matrix vorliegen
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
4
Problemstellung -Begriffsdefinition
Heteroskedastizität Varianz nicht konstant
Homoskedastizität Varianz konstant
Transformation
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
5
Problemstellung –Wieso ist das wichtig?
Signifikanz verringert sich mit wachsender Varianz
Ziel: Unterschiede in der Genexpressionsrate feststellen.
Problem: Wenn aber die Varianz zu hoch ist, kann man nicht genau sagen, ob es ein Unterschied oder eine varianzbedingte Schwankung ist.
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
6
Modell nach Chen
Annahme: Varianz steigt linear mit dem Erwartungswert.
Chen‘s Folgerung: Logarithmieren der Daten.
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
7
Modell nach Chen –Nachteile
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
8
Modell nach Chen –Nachteile
Singularität der Logarithmusfunktion bei 0.
Transformation von negativen Werten nicht möglich.
Kleine Werte werden nach der Transformation groß.
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
9
Modell nach Huber
Fehlermodell von R&D (2001)
FehlermodellR&D (2001)
TransformationTibshirani (1988)
Parameterabschätzung
LTS – Rousseuw &LeRoy (1987)
MLA – Murphy & Van der Vaart (2000)
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
10
Modell nach Huber –Fehlermodell von R&D
eY
Offset
Multiplikativer Fehler Additiver Fehler
Tatsächlicher Expressionslevel
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
11
Modell nach Huber –Fehlermodell von R&D
Die Fehlerterme η und ν sind voneinander unabhängig und normalverteilt um den Erwartungswert 0.
2
2
)(
0)(
)(
)(
sVar
E
seVar
meE
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
12
Modell nach Huber –Fehlermodell von R&D
Konsequenzen:
Quadratische Abhängigkeit der Varianz zum Erwartungswert
222)(
)(
ssYVar
mYE
32
21 )()()(
)(
ccucuvvYVar
uYE
kkkk
kk
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
13
Modell nach Huber –Fehlermodell von R&D
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
14
Modell nach Huber –Transformation
Delta-Methode = Taylor-Approximation von um
)( kYh)( kuh
y
duuvyh )(/1)(
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
15
Modell nach Huber –Vorteile der Transformation
Keine Singularität bei 0
Linearer Verlauf im Bereich der niedrigen Intensitäten
)arcsinh()( kiiikii ybayh
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
16
Modell nach Huber –Vorteile der Transformation
Maß für die unterschiedliche Expression
nkyhyhh kjjkiiijk ,..,1für )()(;
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
17
Modell nach Huber –Parameterabschätzung
)arcsinh()( kiiikii ybayh
Die Parameter müssen aus den Daten geschätzt werden
Methode: Maximum Likelihood Schätzer + LTS(Least Trimmed Sum of Squares)
Regression
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
18
Modell nach Huber –Parameterabschätzung
Modell nach der Transformation:
²)(0)(
für )(
ki
ki
kikkii
VarE
KkYh
K die Menge aller Gene ist, die gleichen Erwartungswertüber alle samples i aufweisen
k
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
19
Modell nach Huber –Parameterabschätzung
Die Wahrscheinlichkeitsfunktion soll maximiert werden:
Kk
d
ikkii
d
ikiik
kiiKk
d
i
kkii
yhdK
c
yhd
yhc
yh
1
22
1
1
)ˆ)((||
1ˆ
)(1ˆ
)('))((
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
20
Modell nach Huber –Parameterabschätzung
Logarithmieren der ML-Funktion und einsetzen von und führt zu:
k 2c
Kk
d
ikii
Kk
d
ikkii
dd
yhyhdK
babapll
11
2
11
))(log())ˆ)((log(2
),,..,,(
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
21
Modell nach Huber –Parameterabschätzung
Bestimmen der Menge K mit Least Trimmed Sum of Squares (LTS):
1. Schätze die Initialparameter über alle n Gene2. Sortiere die Gene nach dem Erwartungswert und teile
in 10 Quantile auf3. Berechne für alle Gene eines Quantils den
quadratischen Fehler und sortiere danach4. Verwende für die nächste Iteration das erste qlts-Anteil
der Gene, für qlts = geschätzter Anteil der nicht unterschiedlich exprimierten Gene.
27.05.2004 Varianzstabilisierung von Genexpressionsdaten
22
Ergebnisse
Ewgenij Proschak
The End
Yusuf Tanrikulu