varianzstabilisierung von genexpressionsdaten ewgenij proschak yusuf tanrikulu seminar:aktuelle...

23
Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar: Aktuelle Themen der Bioinformatik 27.05.2004 Organizer: Prof. Dr. D. Metzler Tutor: Lin Himmelmann

Upload: oskar-schmitt

Post on 06-Apr-2016

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

Varianzstabilisierung von Genexpressionsdaten

Ewgenij ProschakYusuf Tanrikulu

Seminar: Aktuelle Themen der Bioinformatik27.05.2004

Organizer: Prof. Dr. D. MetzlerTutor: Lin Himmelmann

Page 2: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

2

Inhalt

Problemstellung und GrundbegriffeModell nach ChenModell nach Huber

Fehlermodell nach Rocke und Durbin Transformation zur Varianzstabilisierung Parameterabschätzung

Page 3: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

3

Problemstellung –Datenformat

Vorverarbeitete Daten, die in einer Matrix vorliegen

Page 4: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

4

Problemstellung -Begriffsdefinition

Heteroskedastizität Varianz nicht konstant

Homoskedastizität Varianz konstant

Transformation

Page 5: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

5

Problemstellung –Wieso ist das wichtig?

Signifikanz verringert sich mit wachsender Varianz

Ziel: Unterschiede in der Genexpressionsrate feststellen.

Problem: Wenn aber die Varianz zu hoch ist, kann man nicht genau sagen, ob es ein Unterschied oder eine varianzbedingte Schwankung ist.

Page 6: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

6

Modell nach Chen

Annahme: Varianz steigt linear mit dem Erwartungswert.

Chen‘s Folgerung: Logarithmieren der Daten.

Page 7: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

7

Modell nach Chen –Nachteile

Page 8: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

8

Modell nach Chen –Nachteile

Singularität der Logarithmusfunktion bei 0.

Transformation von negativen Werten nicht möglich.

Kleine Werte werden nach der Transformation groß.

Page 9: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

9

Modell nach Huber

Fehlermodell von R&D (2001)

FehlermodellR&D (2001)

TransformationTibshirani (1988)

Parameterabschätzung

LTS – Rousseuw &LeRoy (1987)

MLA – Murphy & Van der Vaart (2000)

Page 10: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

10

Modell nach Huber –Fehlermodell von R&D

eY

Offset

Multiplikativer Fehler Additiver Fehler

Tatsächlicher Expressionslevel

Page 11: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

11

Modell nach Huber –Fehlermodell von R&D

Die Fehlerterme η und ν sind voneinander unabhängig und normalverteilt um den Erwartungswert 0.

2

2

)(

0)(

)(

)(

sVar

E

seVar

meE

Page 12: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

12

Modell nach Huber –Fehlermodell von R&D

Konsequenzen:

Quadratische Abhängigkeit der Varianz zum Erwartungswert

222)(

)(

ssYVar

mYE

32

21 )()()(

)(

ccucuvvYVar

uYE

kkkk

kk

Page 13: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

13

Modell nach Huber –Fehlermodell von R&D

Page 14: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

14

Modell nach Huber –Transformation

Delta-Methode = Taylor-Approximation von um

)( kYh)( kuh

y

duuvyh )(/1)(

Page 15: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

15

Modell nach Huber –Vorteile der Transformation

Keine Singularität bei 0

Linearer Verlauf im Bereich der niedrigen Intensitäten

)arcsinh()( kiiikii ybayh

Page 16: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

16

Modell nach Huber –Vorteile der Transformation

Maß für die unterschiedliche Expression

nkyhyhh kjjkiiijk ,..,1für )()(;

Page 17: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

17

Modell nach Huber –Parameterabschätzung

)arcsinh()( kiiikii ybayh

Die Parameter müssen aus den Daten geschätzt werden

Methode: Maximum Likelihood Schätzer + LTS(Least Trimmed Sum of Squares)

Regression

Page 18: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

18

Modell nach Huber –Parameterabschätzung

Modell nach der Transformation:

²)(0)(

für )(

ki

ki

kikkii

VarE

KkYh

K die Menge aller Gene ist, die gleichen Erwartungswertüber alle samples i aufweisen

k

Page 19: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

19

Modell nach Huber –Parameterabschätzung

Die Wahrscheinlichkeitsfunktion soll maximiert werden:

Kk

d

ikkii

d

ikiik

kiiKk

d

i

kkii

yhdK

c

yhd

yhc

yh

1

22

1

1

)ˆ)((||

)(1ˆ

)('))((

Page 20: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

20

Modell nach Huber –Parameterabschätzung

Logarithmieren der ML-Funktion und einsetzen von und führt zu:

k 2c

Kk

d

ikii

Kk

d

ikkii

dd

yhyhdK

babapll

11

2

11

))(log())ˆ)((log(2

),,..,,(

Page 21: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

21

Modell nach Huber –Parameterabschätzung

Bestimmen der Menge K mit Least Trimmed Sum of Squares (LTS):

1. Schätze die Initialparameter über alle n Gene2. Sortiere die Gene nach dem Erwartungswert und teile

in 10 Quantile auf3. Berechne für alle Gene eines Quantils den

quadratischen Fehler und sortiere danach4. Verwende für die nächste Iteration das erste qlts-Anteil

der Gene, für qlts = geschätzter Anteil der nicht unterschiedlich exprimierten Gene.

Page 22: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

27.05.2004 Varianzstabilisierung von Genexpressionsdaten

22

Ergebnisse

Page 23: Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr

Ewgenij Proschak

The End

Yusuf Tanrikulu