varianzstabilisierung von genexpressionsdaten ewgenij proschak yusuf tanrikulu seminar:aktuelle...

Varianzstabilisierung von Genexpressionsdaten

Ewgenij ProschakYusuf Tanrikulu

Seminar: Aktuelle Themen der Bioinformatik27.05.2004

Organizer: Prof. Dr. D. MetzlerTutor: Lin Himmelmann

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

2

Inhalt

Problemstellung und GrundbegriffeModell nach ChenModell nach Huber

Fehlermodell nach Rocke und Durbin Transformation zur Varianzstabilisierung Parameterabschätzung


3

Problemstellung –Datenformat

Vorverarbeitete Daten, die in einer Matrix vorliegen


4

Problemstellung -Begriffsdefinition

Heteroskedastizität Varianz nicht konstant

Homoskedastizität Varianz konstant

Transformation


5

Problemstellung –Wieso ist das wichtig?

Signifikanz verringert sich mit wachsender Varianz

Ziel: Unterschiede in der Genexpressionsrate feststellen.

Problem: Wenn aber die Varianz zu hoch ist, kann man nicht genau sagen, ob es ein Unterschied oder eine varianzbedingte Schwankung ist.


6

Modell nach Chen

Annahme: Varianz steigt linear mit dem Erwartungswert.

Chen‘s Folgerung: Logarithmieren der Daten.


7

Modell nach Chen –Nachteile


8

Modell nach Chen –Nachteile

Singularität der Logarithmusfunktion bei 0.

Transformation von negativen Werten nicht möglich.

Kleine Werte werden nach der Transformation groß.


9

Modell nach Huber

Fehlermodell von R&D (2001)

FehlermodellR&D (2001)

TransformationTibshirani (1988)

Parameterabschätzung

LTS – Rousseuw &LeRoy (1987)

MLA – Murphy & Van der Vaart (2000)


10

Modell nach Huber –Fehlermodell von R&D

eY

Offset

Multiplikativer Fehler Additiver Fehler

Tatsächlicher Expressionslevel


11


Die Fehlerterme η und ν sind voneinander unabhängig und normalverteilt um den Erwartungswert 0.

2

2

)(

0)(

)(

)(

sVar

E

seVar

meE


12


Konsequenzen:

Quadratische Abhängigkeit der Varianz zum Erwartungswert

222)(

)(

ssYVar

mYE

32

21 )()()(

)(

ccucuvvYVar

uYE

kkkk

kk


13



14

Modell nach Huber –Transformation

Delta-Methode = Taylor-Approximation von um

)( kYh)( kuh

y

duuvyh )(/1)(


15

Modell nach Huber –Vorteile der Transformation

Keine Singularität bei 0

Linearer Verlauf im Bereich der niedrigen Intensitäten

)arcsinh()( kiiikii ybayh


16

Modell nach Huber –Vorteile der Transformation

Maß für die unterschiedliche Expression

nkyhyhh kjjkiiijk ,..,1für )()(;


17

Modell nach Huber –Parameterabschätzung

)arcsinh()( kiiikii ybayh

Die Parameter müssen aus den Daten geschätzt werden

Methode: Maximum Likelihood Schätzer + LTS(Least Trimmed Sum of Squares)

Regression


18


Modell nach der Transformation:

²)(0)(

für )(

ki

ki

kikkii

VarE

KkYh

K die Menge aller Gene ist, die gleichen Erwartungswertüber alle samples i aufweisen

k


19


Die Wahrscheinlichkeitsfunktion soll maximiert werden:

Kk

d

ikkii

d

ikiik

kiiKk

d

i

kkii

yhdK

c

yhd

yhc

yh

1

22

1

1

)ˆ)((||

1ˆ

)(1ˆ

)('))((


20


Logarithmieren der ML-Funktion und einsetzen von und führt zu:

k 2c

Kk

d

ikii

Kk

d

ikkii

dd

yhyhdK

babapll

11

2

11

))(log())ˆ)((log(2

),,..,,(


21


Bestimmen der Menge K mit Least Trimmed Sum of Squares (LTS):

1. Schätze die Initialparameter über alle n Gene2. Sortiere die Gene nach dem Erwartungswert und teile

in 10 Quantile auf3. Berechne für alle Gene eines Quantils den

quadratischen Fehler und sortiere danach4. Verwende für die nächste Iteration das erste qlts-Anteil

der Gene, für qlts = geschätzter Anteil der nicht unterschiedlich exprimierten Gene.


22

Ergebnisse

Ewgenij Proschak

The End

Yusuf Tanrikulu

varianzstabilisierung von genexpressionsdaten ewgenij proschak yusuf tanrikulu seminar:aktuelle...

Documents