corso integrato di genetica -...

67
CORSO INTEGRATO DI GENETICA a.a. 2010-2011 Dr. Giovanni Malerba, [email protected] 11-11-2010 Analisi Genetica delle Malattie complesse

Upload: buimien

Post on 16-Feb-2019

214 views

Category:

Documents


0 download

TRANSCRIPT

CORSO INTEGRATO DI GENETICA

a.a. 2010-2011Dr. Giovanni Malerba, [email protected]

11-11-2010

Analisi Genetica delleMalattie complesse

R2=0.34 ... rimane da spiegare il 66% (1-0.34) del modello statistico (ossia si devono identificare altri fattori importanti)

UN MODELLOBody Mass Density & VDR

Fenotipo ~ F_GENETICO + F_AMBIENTALE + .. + + (F_GENETICO * F_AMBIENTALE)

Rischio di essere affettoDal 'Sì/No' si passa a stimare la probabilità di

essere Sì e di essere NO, oppure il rischio aumentato di un genotipo rispetto agli altri

ASMAfamiliarità, sesso ( ~età), fumo passivo, basso peso alla nascita, obesità, vivere in grandi aree urbane, inquinamento ambientale ..GPR154, IL1RN, ADAM33, IRAKM, ORMDL3

Diabete T2storia familiare, età, stile di vita sedentario, diabete in gravidanza, etnia, pressione sanguigna, colesterolo elevato, ..PPARG, KCNJ11, TCF7L2

IL MODELLO DI MALATTIACOMPLESSA

interazione

F_GENETICO * F_AMBIENTALECD14/-260 e livelli di endotossina

Eder et al., J Allergy Clin immunol 2005

L'attrezzatura del genetista delle malattie complesse

Associazione di un SINGOLO gene

Clonaggio posizionale

Associazione genomica (GWAS: SNP,CNV)

Geni della malattia complessa

TRASCRITTOMA

RISEQUENZIAMENTO (=sequenza del/dei gene/i – identificazione varianti rare)

Analisi dei PATHWAYNetwork di pathway

Metiloma (Epigenetica)

Metaboloma

Meta–Analisi (analsisi di tutti risultati per stimare al megliol'effetto del fattore genetico)

POLIMORFISMI e POPOLAZIONI

Alcuni aspetti della struttura del genoma e Il progetto HAPMAP

CaucasoidiCinesi (Beijing)Asiatici (Giapponesi- Tokio)Africani (Yoruba, Nigeria)

http://www.hapmap.org

FREQUENZE GENICHE

HAPMAP – Gene APOE

http://www.hapmap.org

HAPMAP

4 popolazioni: Caucasoidi, Cinesi, Giapponesi, Africani

3.1 milioni di SNP su tutto il genoma

Frequenza di ogni SNP per ogni popolazione

Aplotipi

Blocchi di Linkage Disequilibrium

http://www.hapmap.org

HAPMAP – Gene APOE

http://www.hapmap.org

HAPMAP3 - 2008

Draft Rel. 1 (May 2008)

Nature (2007) 449:p851

Nature (2005) 437:p1299

Reference

1.6 M (Affy 6.0 & Illumina 1M)

3.8 M(phase I+II)

1.1 MUnique QC+ SNPs

Broad & SangerPerlegenHapMap

International Consortium

Genotyping centers

1,115 samples (11 panels)

270 samples(4 panels)

269 samples(4 panels)

Samples & POP panels

Phase 3Phase 2Phase 1

label population sample # samples QC+ Draft 1ASW* African ancestry in Southwest USA 90 71

CEU*Utah residents with Northern and Western

European ancestry from the CEPH collection180 162

CHB Han Chinese in Beijing, China 90 82CHD Chinese in Metropolitan Denver, Colorado 100 70GIH Gujarati Indians in Houston, Texas 100 83JPT Japanese in Tokyo, Japan 91 82LWK Luhya in Webuye, Kenya 100 83MEX* Mexican ancestry in Los Angeles, California 90 71MKK* Maasai in Kinyawa, Kenya 180 171TSI Toscans in Italy 100 77YRI* Yoruba in Ibadan, Nigeria 180 163

1,301 1,115

* Population is made of family trios

HAPMAP3 - 2008

Gorlov et al., AJHG 2008

Frequenza di SNP in 2 DB

MAF = minor allele frequency

HAPMAP – Gene APOE

http://www.hapmap.org

HAPMAP Aplotipi & popolazioni

Aplotipi & popolazioniJPT + CHB

HAPMAP Aplotipi & popolazioni

A Deep Catalog of Human Genetic Variation

Sequenza dell'intero genoma: 1000 individui

http://www.1000genomes.org/page.php

1000 Genomes Project

Come studiare il fattore genetico nelle malattie

complesse?

Strategia?

Consiste nel formulare ipotesi (anche complesse) di correlazione tra determinati geni (i candidati) e la malattia che si vuole studiare. Si tratta in di geni che sono già noti per essere associati a meccanismi e fattori legati alla malattia e che codificano per proteine a cui si riconosce un ruolo nel meccanismo patogenetico.

APPROCCIO DEL GENE CANDIDATO

SCANSIONE GENOMICAConsiste nello studiare il maggior numero di marcatori possibile in modo da 'scandagliare' tutte le regioni cromosomiche al fine di identificare le regioni che correlano con la malattia. Permette di identificare nuovi geni dei quali non si sospettava l'associazione con meccanismi o fattori relati alla malattia.

Asthma: pathway

Vercelli D, 2008

Come studiare il fattore genetico nelle malattie

complesse?

Modalità?

ANALISI DI LINKAGE (studio attraverso la segregazione di marcatori del DNA)

ANALISI DI ASSOCIAZIONE

Linkage: alleli a diversi loci che si trovano vicini sullo stesso cromosoma e tendono a stare assieme a causa della ridotta probabilità di crossover (ricombinazione)

A-1 A-2

M-1 M-1

A-3 A-4

M-2 M-4

A-1 A-3

M-1 M-2

A-1 A-4

M-1 M-4

Linkage: cosegregazione degli alleli dei marcatori a causa della vicinanza dei marcatori stessi

A-1 A-2

M-2 M-2

A-3 A-4

M-4 M-1

A-1 A-3

M-2 M-4

A-1 A-4

M-2 M-1

Linkage: cosegregazione degli alleli dei marcatori a causa della vicinanza dei marcatori stessi

A-1 A-2

M-1 M-1

A-3 A-4

M-2 M-4

A-1 A-3

M-1 M-2

A-1 A-4

M-1 M-4

A-1 A-2

M-2 M-2

A-3 A-4

M-4 M-1

A-1 A-3

M-2 M-4

A-1 A-4

M-2 M-1

Linkage

Nell'esempio mostrato 2 loci si trovano sullo stesso cromosoma e sono molto vicini (freq di ricombinazione ridotta).

Mentre nella singola famiglia è possibile prevedere quale possa essere l'allele al locus M dato l'allele al locus A (linkage), non è possibile in generale (es. prendendo un individuo a caso nella popolazione) prevedere quale possa essere l'allele al locus M dato l'allele al locus A.

A-1 A-2

M N

A-3 A-4

N N

A-1 A-3

M N

A-2 A-4

N N

Linkage: cosegregazione degli alleli del marcatori con la malattia

Es. Autosomica dominante: il padre affetto trasmette al figlio affetto l'allele A-1, suggerendo che nelle vicinanze del marcatore A ci siano il gene della malattia.

Gene ignoto

Marcatore

A-1 A-2

M N

A-3 A-4

N N

A-1 A-3

M N

A-2 A-4

N N

Linkage non parametrico CONDIVISIONE ALLELICA

Gene ignoto

Marcatore

1 2

M N

3 4

N N

1 3

M N

1 4

M N

3 2

M N

4 4

N N

3 4

M N

3 4

M N

AFFECTED SIB-PAIR ANALYSIS

2

1

1

0

IBDSnS1

S1 S2 S3 S4

Padre Madre

figli (affetti)

media_IBD = 4/8(50%)

Sharing allelico

2

1

1

0

analisi di linkage

1 2 3 4

1 3 2 4

1 2 3 4

1 3 1 4

1 2 3 4

1 3 2 3

1 2 3 4

1 3 1 3(IBD=0) (IBD=1) (IBD=1) (IBD=2)

IBD

1 2 1 4

1 4 1 2(IBD=0)

ECCESSO DI CONDIVISIONE ALLELICA FRA FRATELLI AFFETTI: LINKAGE

La condivisione allelica viene espressa di diversi modi: come percentuale (%) oppure indicando la numero di volte che i fratelli condividono 2, 1 o 0 alleli. Il conteggio viene effettuato su un elevato numero di famiglie. La struttura base della famiglia prevede la presenza di padre, madre e 2 figli affetti (famiglia 'nucleare').

NOTA: Si riconoscono generalmente 2 tipi di linkage: - parametrico (basato sulla stima della freq di ricombinazione tra l'ignoto locus malattia e il marcatore in analisi. Si utilizza prevalentemente nello studio delle malattie mendeliane) - non-parametrico (basato sulla stima della condivisione allelica. Si utilizza nello studio dei fenotipi complessi)

2 1 0NO LINKAGE 25 50 25 50.00%LINKAGE 50 50 0 75.00%

Alleli CondivisiCondivisione

100 famiglie informative. Nel caso LINKAGE (esempio) si osserva un'aumentata condivisione allelica rispetto all'atteso nell'ipotesi di assenza di linkage tra il marcatore e il locus di suscettibilità (NO LINKAGE).

ECCESSO DI CONDIVISIONE ALLELICA FRA COPPIE DI FRATELLI AFFETTI: LINKAGE

AFFECTED SIB-PAIR ANALYSISMisura il grado di condivisione allelica (sharing allelico) in coppie di fratelli affetti (maschio – maschio, femmina – femmina, maschio – femmina). Il valore atteso, in assenza di linkage è 50%.E' una analisi di linkage (non parametrico).

Se il marcatore è in linkage con il locus 'malattia' allora le coppie di fratelli affetti presenteranno un eccesso di alleli condivisi (=quelli il linkage con il locus 'malattia', che sono stati trasmessi da uno o entrambi I genitori). E' possibile misurare lo sharing paterno, materno oppure, molto più spesso, quello combinato.

Il grado di condivisione allelica viene stimato studiando centinaia (migliaia) di famiglie con coppie di figli affetti

Asma nella popolazione ItalianaScansione cromosoma 5

Confrontare la frequenza del fattore genetico (alleli, genotipi o aplotipi) in un gruppo di individui affetti rispetto ad un gruppo di individui non affetti.

Lo studio di associazione caso-controllo può essere influenzato da diversi fattori come ad esempio il 'mescolamento' di più popolazioni.

La popolazione dei controlli dovrebbe essere scelta per essere il più possibile simile alla popolazione dei casi per tutti i possibili fattori confondenti (es. età, sesso, etnia, etc)

Studio di associazione

Studio di associazione

NON AFFETTO (controllo)

AFFETTO (caso)

è maggiormente frequente nei casi : ASSOCIAZIONE.

controlli

casi

A1 / A1 A1 / A2 A2 / A2 A1 A2CASI 70 120 10 260 140CONTROLLI 50 100 50 200 200

Conteggio dei genotipi e degli alleli in casi e controlli

Nell'esempio:i genotipi A1/A1 e A1/A2 sono più frequenti nei casi rispetto ai controlli

l'allele A1 è più frequente nei casi rispetto ai controlli

Con opportuni test è possibile verificare se la differenza possa ritenersi significativa e quindi concludere che il marcatore sia associato con la malattia

Linkage vs Associazione

ESEMPIO: una malattia genetica P causata da molte mutazioni diverse (g1, g2, g3, …) riferibili ad un solo e determinato gene G.

Nota: trattandosi di una malattia complessa è meglio riferirsi ad alleli associati ad un aumentato rischio di malattia.

Analisi di Linkage

Ogni famiglia potrebbe contenere un allele di rischio diverso dalle altre famiglie, sebbene il gene implicato sia sempre lo stesso (con una ”mutazione” diversa in ogni famiglia)

Tramite l'AdL parametrico si valuta se una particolare regione cromosomica (=a una distanza theta dal marcatore genetico che sto utilizzando) è trasmessa in accordo con il modello proposto (es. dominate, recessivo).

Linkage vs Associazione

Focalizzo l'attenzione sul fatto che il marcatore (e quindi la la regione cromosomica che lo contiente) segrega con la malattia.

Linkage: studia la segregazione dei marcatori all'interno delle famiglie. I marcatori possono essere caratterizzati nelle diverse famiglie da alleli diversi che segregano con la malattia (

Analisi di Linkage

Tramite i marcatori genetici l'AdL è in grado di identificare la regione cromosomica contenente il gene G sebbene ogni famiglia possieda una mutazione diversa (che, sempre in questo esempio, sarà identificata in un momento successivo tramite sequenziamento del gene G).

Linkage & Linkage Disequilibium

I Loci A e B si trovano su 2 cromosomi Locus A: 2 alleli (frequenza A1:0.4 ; A2: 0.6) Locus B: 2 alleli (frequenza B1:0.4 ; B2: 0.6)

Quale è la frequenza attesa degli individui con genotipo A1/A1 per il locus A e B1/B1 per il locus B?

Linkage & Linkage Disequilibium

Assumendo che le condizione di equilibrio previste da Hardy e Weinberg siano rispettate:

Freq_A1/A1 : 0.4 * 0.4 = 0.16 Freq_B1/B1 : 0.4 * 0.4 = 0.16 Freq_A1A1B1B1 :

Freq_B1/B1 * Freq_A1/A1 = 0.16*0.16 =0.0256 Considerando contemporaneamente 2 loci, la % di individui che

presentano un particolare genotipo può diventare piuttosto ridotta (~2.5% nell'esempio), sebbene gli alleli considerati presentino una frequenza elevata (40% nell'esempio).

Linkage & Linkage Disequilibium

A priori non possiamo sapere se 2 loci (marcatori) all'interno dello stesso gene, in una data popolazione, presentino (se entrambi polimorfici) una associazione assoluta, oppure siano in equilibrium (nella distribuzione degli alleli), oppure siano in una situazione intermedia.

Il progetto internazionale HAPMAP si è posto lo l'obiettivo di individuare il maggior numero di siti polimorfici comuni a diverse popolazioni e di stimare il grado di associazione tra i marcatori vicini (http://www.hapmap.org).

Linkage & Linkage Disequilibium

Associazionedei 2 loci

Equilibrium

A1/A1 A1/A2 A2/A2

B1/B1 0.0025 - -

B1/B2 - 0.095 -

B2/B2 - - 0.90

A1/A1 A1/A2 A2/A2

B1/B1 0.000006 0.00023 0.00237

B1/B2 0.00023 0.00902 0.0857

B2/B2 0.00237 0.0857 0.81

Linkage & Linkage Disequilibium

Associazionedei 2 loci

Equilibrium

A1/A1 A1/A2 A2/A2

M1/M1 0.0025 - -

M1/M2 - 0.095 -

M2/M2 - - 0.90

A1/A1 A1/A2 A2/A2

M1/M1 0.000006 0.00023 0.00237

M1/M2 0.00023 0.00902 0.0857

M2/M2 0.00237 0.0857 0.81

1 2 2 2

1 2 1 2

1 2 2 2

2 2 2 2

1 1 1 2

1 1 1 1

1 2 1 2

2 2 2 2

Allele 1 da padre Allele 2 da padre Allele 1 da madre Allele 2 da padreAllele 2 da madre

Non tutte le famiglie sono pienamente informative (=non posso stimare con precisione sia la condivisione paterna che la condivisione materna)

Nell'esempio, in tutti i casi informativi è possibile osservare uan condivisione allelica: a volte è condiviso l'allele 1 e a volte è condiviso l'allele 2.

LINKAGE

1 2 1 1

1 2 1 2

1 2 2 2

2 2 2 2

1 1 1 2

1 2 1 2

1 2 1 2

2 2 2 2

LINKAGE e Associazione

Non tutte le famiglie sono pienamente informative (=non posso stimare con precisione sia la condividione paterna che la condividione materna)

Nell'esempio, in tutti i casi informativi è possibile osservare una condivisione allelilca: è sempre condiviso l'allele 2 (LINKAGE DISEQUILIBRIUM tra l'allele di suscettibilità al locus 'malattia' e l'allele del marcatore)

Trasmission Disequilibrium Test (TDT)

-Scopo iniziale: Verificare l’esistenza di linkage con un marcatore localizzato vicino ad un gene candidato, nei casi dove una associazione con la malattia fosse stata trovata (1993).

- Negli studi caso/controllo (=di associazione) tra 2 loci può esserci associazione e non linkage (cause:admixture, stratificazione, etc).

-Il TDT e’ un test di associazione interno alla famiglia. E' valido anche quando non c’e’ evidenza a priori di linkage. Attualmente è utilizzato come test di associazione piuttosto che come test per il linkage.

A B B B

1 2

Caso Controllo ‘interno' della famiglia

A BALLELE:

Transmesso Non transmesso

A

B 20

20

100

100

TRASMESSONON

TRASMESSO

TDT

es.

AB

GWAS:STUDI DI

ASSOCIAZIONE SU SCALE GENOMICA

(DNA)

GWAS - caratteristiche● Dimensione del campione molto grande

(fino a 2000 casi, 20000 controlli)

● Alto livello di risoluzione● Nessuna ipotesi/conoscenza a priori● Replica dei risultati in un campione indipendente

Problematiche:● Grande quantità di dati● Controllo della qualità● Correzione per la possibile stratificazione del campione

● Statistica

● Dimensioni del II campione sufficiente● Dati indipendenti● Fenotipi simile se non identico● Popolazione simile● Dimostrazione di un effetto simile e nella stessa direzione (stesso allele, genotipo o aplotipo)

Replica dei risultati

● Identificazione degli SNP causali● Miglior uso del fenotipo ● Analisi con marcatori multipli● Identificazione di altre fonti di variabilità (CNV, varianti rare)

● Intregazione dell'informazione utilizzando altre 'omiche' (es. transcrittomica, matabolomica)

● Medicina personalizzata

Gwas - Nuove sfide

ESEMPIO DI GWAS: Bone-mineral-density loci

Nature Genetics 41, 1199 - 1206 (2009)

GWAS – BMD misurata in 2 distretti

Nature Genetics 41, 1199 - 1206 (2009)

GWAS – LOCI nuovi e già noti

Nature Genetics 41, 1199 - 1206 (2009)

GWAS – LOCI nuovi e già noti

Nature Genetics 41, 1199 - 1206 (2009)

Meta-Analisi per i loci identificati

Nature Genetics 41, 1199 - 1206 (2009)

BMD e numero di alleli di rischio

La distribuzione del numero di alleli di rischio portati da un individuo si avvicina alla curva a campana

Il valore di BMD (espresso in Z-score), in media, si riduce all'aumentare del numero di alleli di richio!! (ricorda il modello a soglia)

IL CASO DEI LIPIDI: varianti comuni e varianti rare Il rischio determinato tramite gli SNP potrebbe

sottostimare il rischio associato alle vere varianti causali

Es: 11 dei 30 geni attualmente associati a variazioni dei livelli di lipidi possono anche presentare degli alleli rari che sono associati a forme Mendeliane di dislipidemia (ABCA1, PCSKA9, LDLR): geni con varianti comuni associate ad effeti lievi possono anche portare varianti rare assocate a forti effetti

GWAS: Altezza

http://www.ncbi.nlm.nih.gov/pubmed/GWAS: Altezza

Representation of the connections between SNPs and corresponding genes for the 42 SNPs with GRAIL (p < 0.01). Thicker and redder lines imply stronger literature-based connectivity. [doi:10.1038/nature09410]

PATHWAYSPotenziali target