varianzstabilisierung von genexpressionsdaten ewgenij proschak yusuf tanrikulu seminar:aktuelle...

Post on 06-Apr-2016

213 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Varianzstabilisierung von Genexpressionsdaten

Ewgenij ProschakYusuf Tanrikulu

Seminar: Aktuelle Themen der Bioinformatik27.05.2004

Organizer: Prof. Dr. D. MetzlerTutor: Lin Himmelmann

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

2

Inhalt

Problemstellung und GrundbegriffeModell nach ChenModell nach Huber

Fehlermodell nach Rocke und Durbin Transformation zur Varianzstabilisierung Parameterabschätzung

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

3

Problemstellung –Datenformat

Vorverarbeitete Daten, die in einer Matrix vorliegen

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

4

Problemstellung -Begriffsdefinition

Heteroskedastizität Varianz nicht konstant

Homoskedastizität Varianz konstant

Transformation

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

5

Problemstellung –Wieso ist das wichtig?

Signifikanz verringert sich mit wachsender Varianz

Ziel: Unterschiede in der Genexpressionsrate feststellen.

Problem: Wenn aber die Varianz zu hoch ist, kann man nicht genau sagen, ob es ein Unterschied oder eine varianzbedingte Schwankung ist.

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

6

Modell nach Chen

Annahme: Varianz steigt linear mit dem Erwartungswert.

Chen‘s Folgerung: Logarithmieren der Daten.

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

7

Modell nach Chen –Nachteile

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

8

Modell nach Chen –Nachteile

Singularität der Logarithmusfunktion bei 0.

Transformation von negativen Werten nicht möglich.

Kleine Werte werden nach der Transformation groß.

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

9

Modell nach Huber

Fehlermodell von R&D (2001)

FehlermodellR&D (2001)

TransformationTibshirani (1988)

Parameterabschätzung

LTS – Rousseuw &LeRoy (1987)

MLA – Murphy & Van der Vaart (2000)

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

10

Modell nach Huber –Fehlermodell von R&D

eY

Offset

Multiplikativer Fehler Additiver Fehler

Tatsächlicher Expressionslevel

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

11

Modell nach Huber –Fehlermodell von R&D

Die Fehlerterme η und ν sind voneinander unabhängig und normalverteilt um den Erwartungswert 0.

2

2

)(

0)(

)(

)(

sVar

E

seVar

meE

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

12

Modell nach Huber –Fehlermodell von R&D

Konsequenzen:

Quadratische Abhängigkeit der Varianz zum Erwartungswert

222)(

)(

ssYVar

mYE

32

21 )()()(

)(

ccucuvvYVar

uYE

kkkk

kk

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

13

Modell nach Huber –Fehlermodell von R&D

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

14

Modell nach Huber –Transformation

Delta-Methode = Taylor-Approximation von um

)( kYh)( kuh

y

duuvyh )(/1)(

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

15

Modell nach Huber –Vorteile der Transformation

Keine Singularität bei 0

Linearer Verlauf im Bereich der niedrigen Intensitäten

)arcsinh()( kiiikii ybayh

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

16

Modell nach Huber –Vorteile der Transformation

Maß für die unterschiedliche Expression

nkyhyhh kjjkiiijk ,..,1für )()(;

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

17

Modell nach Huber –Parameterabschätzung

)arcsinh()( kiiikii ybayh

Die Parameter müssen aus den Daten geschätzt werden

Methode: Maximum Likelihood Schätzer + LTS(Least Trimmed Sum of Squares)

Regression

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

18

Modell nach Huber –Parameterabschätzung

Modell nach der Transformation:

²)(0)(

für )(

ki

ki

kikkii

VarE

KkYh

K die Menge aller Gene ist, die gleichen Erwartungswertüber alle samples i aufweisen

k

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

19

Modell nach Huber –Parameterabschätzung

Die Wahrscheinlichkeitsfunktion soll maximiert werden:

Kk

d

ikkii

d

ikiik

kiiKk

d

i

kkii

yhdK

c

yhd

yhc

yh

1

22

1

1

)ˆ)((||

)(1ˆ

)('))((

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

20

Modell nach Huber –Parameterabschätzung

Logarithmieren der ML-Funktion und einsetzen von und führt zu:

k 2c

Kk

d

ikii

Kk

d

ikkii

dd

yhyhdK

babapll

11

2

11

))(log())ˆ)((log(2

),,..,,(

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

21

Modell nach Huber –Parameterabschätzung

Bestimmen der Menge K mit Least Trimmed Sum of Squares (LTS):

1. Schätze die Initialparameter über alle n Gene2. Sortiere die Gene nach dem Erwartungswert und teile

in 10 Quantile auf3. Berechne für alle Gene eines Quantils den

quadratischen Fehler und sortiere danach4. Verwende für die nächste Iteration das erste qlts-Anteil

der Gene, für qlts = geschätzter Anteil der nicht unterschiedlich exprimierten Gene.

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

22

Ergebnisse

Ewgenij Proschak

The End

Yusuf Tanrikulu

top related