![Page 1: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/1.jpg)
Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik
Can Alkan
Bilgisayar Mühendisliği Bölümü,
Bilkent Üniversitesi, Ankara
![Page 2: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/2.jpg)
Genom nedir?
Bir canlının tüm DNA’sındaki kalıtımsal şifrelerin tamamı İnsan genomu 6 milyar baz çiftinden oluşur, anne
ve babadan 3’er milyar baz çifti gelir 4 çeşit baz: adenin (A), sitozin (C), guanin (G),
timin (T)
![Page 3: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/3.jpg)
Referans genomu Uluslararası İnsan Genomu Projesi (ABD, İngiltere, Çin, Japonya,
Almanya, Fransa) 8 bireyden oluşturulan 3 milyar baz çiftlik “referans genomu”
![Page 4: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/4.jpg)
İnsan genom çeşitliliği
1 bp 1 kromozom
Sık
lık
Tek Nükleotid Polimorfizm (TNP [SNP])
Kromozomal(trizomi/monozomi)
Kopya Sayısı Varyasyonu (KSV [CNV])ve Yapısal Varyasyon (YV [SV])
Değişken büyüklüğü
1 kbp 1 Mbp
Genetik farklılık türleri
Array-CGHKaryotipleme
Yeni nesil dizileme
SNP genotipleme/Sanger dizileme
1 bpV
erim
lilik
1 kbp 1 Mbp
Değişken büyüklüğü
Nasıl bulunur?
1 kromozom
![Page 5: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/5.jpg)
Tek nükleotidlik ve kısa değişimlerTNP: İnsanlar arasında tek nükleotidin değişimi ile oluşan farklarKısa indel: 1-50 baz uzunluğunda silinme ve eklenmeler
referans: C A C A G T G C G C - Tbirey: C A C C G T G - G C A T
substitüsyon silinme eklenme(TNP / SNP) (indel)
Kişi başına 3-4.5 milyon arası TNP, yaklaşık 500 bin kısa indel Birçoğu etkisizdir, bazıları genlerin ifade ettiği proteinleri etkiler
Nonsense mutasyon: Genin ifadesini durdurur (örn: Akdeniz anemisi) Missense mutasyon: İfade edilen proteini değiştirir (örn: ALS) Frameshift (indel): DNA kodunda kaymaya neden olup proteini değiştirir (örn:
hiperkolesterol)
![Page 6: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/6.jpg)
Kısa tekrar (mikrosatelit) polimorfizmi
Adli tıpta ve babalık testlerinde kullanılır Bazı hastalıklara yol açabilir:
Kırılgan X Sendromu (Fragile X Syndrome) Huntington hastalığı
Tekrar eden ardışık tekrarlardaki değişim
referans: C A G C A G C A G C A Gbirey: C A G C A G C A G C A G C A G
![Page 7: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/7.jpg)
Yapısal ve Kopya Sayısı VaryasyonuSİLİNME YENİ DİZİ EKLEME TRANSPOZON EKLEME
(deletion) (novel sequence ins.) (transposon insertion)
Alu/L1/SVA
ARDARDA KOPYA AYRIŞIK KOPYA(tandem duplication) (interspersed duplication)
İNVERSİYON TAŞINMA (inversion) (translocation)
Kopya SayısıVaryasyonu - KSV(copy number variation)
Dengeli Varyasyon(balanced rearrangement)
![Page 8: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/8.jpg)
Yapısal ve Kopya Sayısı Çeşitlilikleri
SilinmeÇevrilme (inversion)
Eklenme
‘Bireysel olarak ender, toplu olarak yaygın’
Kişi başına yaklaşık 15-20 milyon baz çiftini etkiler
Çoğunun etkisi yok ya da azdır, genlerin silinmesi ya da kesintiye uğraması durumunda hastalığa yol açabilir: Silinme: otizm, zeka geriliği,
Crohn hastalığı Kopyalanma: şizofreni, sedef
hastalığı Taşınma: CLL (lösemi) Transpozon: hemofili
Kidd et al., Nature, 2008
![Page 9: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/9.jpg)
Genomik farklılık keşif projeleri Uluslararası HapMap Projesi
4 toplumdan 270 birey İnsan Genomu Çeşitlilik Projesi (HGDP)
52 toplumdan 1050 birey Dizileme projeleri:
1000 Genom Projesi 26 toplumdan 2500 birey (planlanan)
İngiltere: UK100K (kontrol + nadir hastalık +yaygın hastalık)
Diğer bağımsız projeler: Güney Afrika, Kore, Hindistan, Japonya, İrlanda, Hollanda,
vb.
![Page 10: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/10.jpg)
Genom dizilemeÖrneklenengenom Rastgele parçalama
Eşli dizileme (paired-end seq.)
Dizi okuma (read) yerleştirmeReferansGenomu(İGP) Biyoenformatik analiz
Bulunan farklılıklar
Sonuçlar
Deneysel doğrulama
Baz başına10-100molekül
![Page 11: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/11.jpg)
Ekzom ya da tüm genom
Ekzom dizileme sadece protein kodlayan kısımları inceler Genomun %1.5’u Tek gen hastalıkları ve Mendel kalıtımına uyan hastalıklar için
genelde iyi sonuç verir > 80X kapsama gerekir (~40 milyon “read”)
Tüm genom dizileme ile intronlar, UTR’lar, promotörlerdeki hastalık nedeni mutasyonlar da bulunabilir Crohn hastalığı: McCarroll 2008, Bekpen 2009 ALS-FTD: Renton, 2011 > 30X kapsama gerekir (~1 milyar “read”)
![Page 12: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/12.jpg)
Biyoenformatik analizler
Tekrar dizileme (resequencing): elde bir referans genomu varsa karşılaştırılma yapılır (örn. insan, fare, şempanze, vs.) Parçacık yerleştirme (read mapping): Her parçacığın
referans genomuna mümkün olan en az değişiklik ile eşleştirilmesi
Yeni dizileme (de novo sequencing): referans genomu olmayan türlerin referans genomunun oluşturulmasında (örn: inci kefali, gibbon, pirinç, vb.)
![Page 13: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/13.jpg)
Tekrar dizileme analizi
Dizileme
parçacıklar
BWA, Bowtie, mrFAST, vb.
parçacık yerleştirme(read mapping)
TNP/indel keşfi Yapısal farklılık keşfi
GATK, samtools, vb.
VariationHunter, GenomeSTRiP, Delly, vb.
Yorumlama, veritabanı karşılaştırma, gen önceliklendirme
Annovar, snpEff, SIFT, vb. Ingenuity, DADA, vb.
Protein etkileşimi ve yolak analizi
![Page 14: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/14.jpg)
TNP VE KISA INDELLER
![Page 15: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/15.jpg)
Amaç
Referans genomuna hizalanmış kısa parçacıklar incelendiğinde görülen farklılıklardan gerçek TNP ve dizileme hatalarının ayırılması
TCTCCTCTTCCAGTGGCGACGGAAC CTCCTCTTCCAGTGGCGACAGAACG CTCTTCCAGTGGCGACGGAACGACC CTTCCAGTGGCGACGGAACGACCC CCAGTGGCGACTGAACGACCCTGGA CAGTGGCGACAGAACGACCCTGGAG
TNP?
Dizileme hatası
TCTCCTCTTCCAGTGGCGACGGAACGACCCTGGAGCCAAGTReferans
![Page 16: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/16.jpg)
Zorluklar
Dizileme hataları Tekrar ve duplikasyonlardaki paralog dizi
varyanları Hizalama hataları
TNP ve indellerin yanlış hizalanması Kısa ardışık tekrarlar Düzeltmek için Çoklu Dizi Hizalaması (ÇDH)
gerekir
![Page 17: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/17.jpg)
Başlıca TNP/indel tahmin programları Genome Analysis Tool Kit (GATK; Broad
Inst.) Samtools (Sanger Centre) PolyBayes (Boston College) SOAPsnp (BGI) VARiD (U. Toronto)
![Page 18: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/18.jpg)
TNP tahmin hataları ve filtreleme TNP tahminlerinde çok sayıda hata bulunur
Sistematik okuma hataları, parçacık yerleştirme ve hizalama hataları
Ham TNP tahminlerinde %5‐%20 arası yanlış bulgu olabilir “Sert” filtreler:
Okuma derinliği (çok az ve çok fazla derinlik) Alel dengesi Baz okuma kalitesi İplik meyli (strand bias) Kısa bölgelerde TNP sayısının fazlalığı
İstatistiksel filtreler: dbSNP, HapMap, mikrodizin verileri ile istatiksel skorlama VQSR: Variant Quality Score Recalibration (GATK programında)
![Page 19: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/19.jpg)
YAPISAL VE KOPYA SAYISI VARYASYONU
![Page 20: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/20.jpg)
Yapısal ve Kopya Sayısı VaryasyonuSİLİNME YENİ DİZİ EKLEME TRANSPOZON EKLEME
(deletion) (novel sequence ins.) (transposon insertion)
Alu/L1/SVA
ARDARDA KOPYA AYRIŞIK KOPYA(tandem duplication) (interspersed duplication)
İNVERSİYON TAŞINMA (inversion) (translocation)
Kopya sayısıVaryasyonu(copy number variation)
Dengeli Varyasyon(balanced rearrangement)
Otizm, Crohn’s
Hemofili
Şizofreni, sedef
Lösemi (CLL)
![Page 21: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/21.jpg)
Keşifteki zorluklar
790
283
128
5
634
278
84132
25
76130
5
Fosmid klonu eşli dizilemeEnd-sequence pair(N = 1,206)
42 milyon oligolu arrayCGH
Conrad et al., 2010(N = 1,128)
Affymetrix 6.0 TNP microdizinMcCarroll et al., 2008 (N = 236)
Silinme ve duplikasyonlar > 5 Kbp; aynı 5 kişinin genonumda
![Page 22: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/22.jpg)
YV için dizi sinyalleri Eşli dizi analizi (read pair – RP)
Tüm YV türleri Bulunan YV’lerin büyüklüğü ve yerlerinin kesinliği
eşler arasındaki mesafeye bağlı Dizileme derinliği analizi (read depth – RD)
Sadece silinme ve duplikasyonlar (KSV) Bulunan KSV’lerin başlangıç/bitiş yerleri yaklaşık
bulunur Ayrık dizi analizi (split read – SR)
Tekrarsız genomik bölgelerdeki tüm YV türleri Bulunan YV’lerin yerleri kesindir
Yerel ve genel de novo birleştirme Tekrarsız genomik bölgelerdeki tüm YV türleri Bulunan YV’lerin yerleri kesindir
![Page 23: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/23.jpg)
Bazı YV algoritmaları Silinme Eklenme İnversiyon Transpozon Duplikasyon MikrosatelitRPVariationHunter X Kısa X X XBreakDancer X KısaHYDRA X Kısa X XTangram X RDWSSD X XCNVnator X XRDXplorer X X SRPindel X KısaSPLITREAD X Kısa X X X XlobSTR XRP+SRDelly X KısaInvy XGenomeSTRiP X Kısa X ASCortex X XNovelSeq X
![Page 24: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/24.jpg)
1000 Genomes Projesinde YV
Approach Algorithm name Platform GenomesSV types discovered (size-range of
validated SVs in basepairs)SV
callsvalidated
FDR (PCR)
FDR (array)
FDR (hierar
ch.)Event-wise testing I llumina 6 DEL (200 - 221,800); DUP (200 - 415,700) 5,762 1,952 0 0.230 0.230
CNVnator I llumina 6 DEL (100 - 412,475) 17,036 2,361 - 0.142 0.142AB large indel tool SOLiD 1 DEL (67 - 83,391) 1,138 480 0.188 0.084 0.143AB large indel tool SOLiD 1 INS (448 - 2,213) 632 42 0.176 - 0.176
Spanner I llumina 6 TEINS (51 - 6,012) 2,013 179 0.022 - 0.022Spanner I llumina 6 DEL (50- 192,167) 4,718 3,619 0.100 0.033 0.087PEMer 454 1 DEL (941 - 960,004) 1,062 483 0.095 0.363 0.363
VariationHunter I llumina 6 DEL (52 - 498,738) 11,028 4,231 0.103 0.419 0.190BreakDancer I llumina 6 DEL (51 - 1,035,808) 5,973 3,587 0.115 0.145 0.121
N/ A I llumina 6 DEL (276 - 959,518) 3,419 2,584 0.136 0.085 0.121Mosaik 454 2 TEINS (300 - 6,000) 1,463 172 0.055 - 0.055Pindel I llumina 6 DEL (51 - 46,384) 3,879 2,960 0.201 0.127 0.189N/ A 454 1 DEL (51 - 703,404); INS (52 - 295) 32,187 3,845 0.545 0.519 0.543
SOAPdenovo I llumina 6 DEL (64 - 3,907) 160 55 0.531 0.531 0.497SOAPdenovo I llumina 6 INS (55 – 4,116) 3,894 22 0.810 - 0.810
Cortex I llumina 1 DEL(52- 39,512);DUP(83- 2,090) 2,787 896 0.415 0.415 0.410Cortex I llumina 1 INS(50- 828) 389 84 0.398 - 0.398
NovelSeq I llumina 6 INS (200 - 8,224) 657 30 0.791 - 0.791
IN Spanner I llumina 6 TANDUP (55- 64,230) 256 88 0.049 - 0.049
RD
PE
SR
AS
1000 Genomes Consortium, Nature, 2010
![Page 25: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/25.jpg)
Kapsamlı bir metot yok
486
43250
303
6855 (63%)
3223 (80%)
1772 (33%)
RPN=6
RDN=4
SRN=4
Kidd et al., Cell, 2010
1000 Genomes Projesi’ndekidoğrulanmış silinmeler
![Page 26: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/26.jpg)
Varyasyon keşfi – özet
Parçaçık hizalama: BWA, mrFAST, Bowtie TNP ve indel: GATK, samtools, SOAPsnp Yapısal:
Silinme, eklenme: VariationHunter, Delly, BreakDancer, GenomeSTRiP, Pindel, HYDRA...
İnversiyon: VariationHunter, Invy Transpozon: VariationHunter, Tangram Mikrosatelit: lobSTR, SPLITREAD, Pindel
http://seqanswers.com/wiki/SEQanswers
![Page 27: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/27.jpg)
Analiz yükü
Tüm genom: 100 GB ham (sıkışmış), 150 GB işlenmiş veri BWA hizalama: 30 CPU günü GATK ile SNP/indel (çok aşamalı): 10 CPU günü Yapısal varyasyon: 1 – 20 CPU günü
Ekzom: 50 GB ham (sıkışmış), 15 GB işlenmiş veri BWA hizalama: 1 CPU günü GATK ile SNP/indel (çok aşamalı): 15 CPU saati Yapısal varyasyon: 1-2 CPU günü
![Page 28: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/28.jpg)
Keşif sonrası
Yorumlama ve etkiler snpEff VAAST & pVAAST PolyPhen2 Annovar SIFT SNAP MutationTaster
Evrimsel korunum GERP phastCons
Protein etkileşimi ve yolaklar DADA, VAVIEN, vb.
Protein yolakları Ingeniuty, vb.
Cooper & Shendure, Nature Reviews Genetics, 12(9):628-40, 2011
![Page 29: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/29.jpg)
“İsviçre çakısı”: GEMINI
![Page 30: Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik](https://reader033.vdocuments.pub/reader033/viewer/2022061618/558b28b2d8b42afc258b4658/html5/thumbnails/30.jpg)
Özet
DNA dizileme ucuzlamakta: tüm genom ($1,500-$5,000), tüm ekzom ($800-$900).
Analiz için güçlü ve pahalı bilgisayar sistemleri gerekli Örn: 32 çekirdekli sistem ~$25,000; 90 TB depolama sistemi ~$25,000
Hemen her tür genetik varyasyon bulunabilir: Translokasyon ve inversiyon en zorları KSV tüm genom ile nispeten kolay, ekzom ile sınırlı
Varyant etkisi, haplotipleme (fazlama), akraba evliliklerinde homozigosite haritalama gibi ek analizler yapılabilir
Hastalık için nedensel varyantların bulunması “bilimden çok sanat”