biyoenformatikte veri analizi Üzerine bir uygulama(2014) bioinformatics for beginners: genes,...

1
Biyoenformatikte Veri Analizi Üzerine Bir Uygulama Proje Ekibi: Türkan Arıt Danışman: Doç. Dr. Çağın Kandemir Çavaş Amaç ve Kapsam Hedefler Veri Seti Moleküler Filogenetik Analiz yöntemlerinin araştırılması ve değerlendirilmesi. Gerçek veri setleri üzerinde DNA dizileri arasındaki farklılıkları belirlemek için kullanılan istatistikler ve mesafe ölçütlerinin araştırılması. Oluşturulan veri setleri üzerinde etkin Filogenetik Ağaç çıktılarının elde edilmesi. Projede biyolojik dizilerin birbirleriyle olan ili ş kileri göz önünde bulundurularak sınıflandırılmaları amaçlanmıştır. Bu kapsamda yapılan çalışmalar: Biyolojik dizilerin NCBI Genbank veri tabanından elde edilmesi. Literatürde yer alan sınıflandırıma algoritmalarının araştırılması ve kodlaması. Biyolojik dizilere ait Filogenetik Ağaçların elde edilmesidir. Endüstriyel alanda geni ş kullanım alanına sahip Lipaz enzimleri biyoteknolojik çalı ş malarda sıkça kullanılır. Projede Aktif oldukları sıcaklık aralıklarına göre termofilik ve mezofilik özellik gösteren Lipaz enzimlerinin termal kararlılıklarına göre sınıflandırılması hedeflenmiştir. Filogenetik Analiz Filogenetik Analiz, çeşitli organizma grupları arasındaki evrimsel ilişkinin araştırılmasıdır. Moleküler Filogenetik çalışmaları DNA ve protein dizilerinde meydana gelen de ğ i ş ikliklerin hızını ve karakterini belirlemeye yöneliktir. Analizin çıktısı evrimsel dallanma sürecinde organizmaların birbirleriyle olan yakınlık derecelerini gösteren bir Filogenetik Ağaçtır. Uygulama Evrimsel Hayat Ağacı Sonuç Öneriler Çalı ş manın ilerletilmesine yönelik, elde edilen a ğ açların görsel incelemeyle karşılaştırılması yerine, üretilen ağaçların kalitesini de ğ erlendirmek için bootstrap yöntemi kullanılması önerilebilir. Çalışma sonucunda uzaklık tabanlı hizalama içermeyen Filogenetik Analiz yöntemleri uygulamalı olarak çalışılmıştır. Oluşturulan veri seti üzerinde herhangi bir ön işlem adımı uygulanmadan uzaklık tabanlı bir yöntem olan k-mer Natural Vector Yöntemi kullanılarak enzimler üzerinde fonksiyonel bir özelliğe göre başarılı bir kümeleme sonucu elde edilmiştir. Kaynakça Amiri, S., Dinov, D. (2016) “Comparison of genomic data via statistical distribution," Journal of Theoretical Biology 318-327 Choudri, Supratim. (2014) Bioinformatics for beginners: genes, genomes, molecular evolution, databases and analytical tools. Amsterdam: Elsevier Liu LW, Li DB, Bai FL (2012). A relative Lempel-Ziv complexity: Application to comparing biological sequences. Chem Phys Lett 530, 107-112 Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis (2 bas.). Cold Spring Harbor Laboratory Press. 0-87969-608-7. Royter M, Schmidt M, Elend C, Höbenreich H, Schäfer T, Bornscheuer UT, et al. Thermostable lipases from the extreme thermophilic anaerobic bacteria Thermoanaerobacter thermohydrosulfuricus SOL1 and Caldanaerobacter subterraneus subsp. tengcongensis. Extremophiles. 2009;13:769–83. Genomik diziler {A,T,G,C} kategorik değerlerini içeren bir liste gibi depolanır. Dolayısıyla kategorik diziler arasındaki benzerlik ilişkilerinin incelenebilmesi için istatistiksel analiz yöntemlerinden faydalanılır. Ardışık en bazın oluşturduğu alt diziler k-mer olarak adlandırılır. Yöntemde alt dizi dağılımlarını temsil eden normalize edilmi ş merkezi moment vektörleri elde edilir. Kosinüs benzerli ğ inden yararlanılarak vektörler arasındaki uzaklıklar hesaplanır. Veri setinde k-mer Natural Vector Yöntemi ile elde edilen uzaklık matrisi. Oluşturulan uzaklık matrisinde Neighbor Joining Kümeleme Algoritması kullanılarak elde edilen Filogenetik Ağaç. Aynı bakterilerden alınan proteaz enzimine ait diziler eklenerek oluşturulan veri setinde k-mer Natural Vector yöntemi kullanılarak elde edilen Filogenetik Ağaç. K-mer Natural Vector Yöntemi

Upload: others

Post on 06-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Biyoenformatikte Veri Analizi Üzerine Bir Uygulama(2014) Bioinformatics for beginners: genes, genomes, molecular evolution, databases and analytical tools. Amsterdam: Elsevier •

Biyoenformatikte Veri Analizi Üzerine Bir UygulamaProje Ekibi: Türkan Arıt

Danışman: Doç. Dr. Çağın Kandemir Çavaş

Amaç ve Kapsam

Hedefler

Veri Seti

• Moleküler Filogenetik Analiz yöntemlerinin araştırılması ve değerlendirilmesi.

• Gerçek veri setleri üzerinde DNA dizileri arasındaki farklılıkları belirlemek için kullanılan istatistikler ve mesafe ölçütlerinin araştırılması.

• Oluşturulan veri setleri üzerinde etkin Filogenetik Ağaç çıktılarının elde edilmesi.

Projede biyolojik dizilerin birbirleriyle olan i l işkileri göz önünde bulundurularak sınıflandırılmaları amaçlanmıştır. Bu kapsamda yapılan çalışmalar: • Biyolojik dizilerin NCBI Genbank veri

tabanından elde edilmesi. • Literatürde yer alan sınıflandırıma

algoritmalarının araştırılması ve kodlaması. • Biyolojik dizilere ait Filogenetik Ağaçların

elde edilmesidir.

Endüstriyel alanda geniş kullanım a l a n ı n a s a h i p L i p a z e n z i m l e r i biyoteknolojik çalışmalarda sıkça kullanılır. Projede Aktif oldukları sıcaklık aralıklarına göre termofilik ve mezofil ik özell ik gösteren Lipaz enzimlerinin termal kararlılıklarına göre sınıflandırılması hedeflenmiştir.

Filogenetik Analiz

Filogenetik Analiz, çeşitli organizma grupları arasındaki evrimsel ilişkinin araştırılmasıdır. Moleküler Filogenetik çalışmaları DNA ve prote in d iz i ler inde meydana ge len değ iş ikl iklerin hızını ve karakterini belirlemeye yöneliktir. Analizin çıktısı evrimsel dallanma sürecinde organizmaların birbirleriyle olan yakınlık derecelerini gösteren bir Filogenetik Ağaçtır.

Uygulama

Evrimsel Hayat Ağacı

Sonuç

Öneriler

Çalışmanın ilerletilmesine yönelik, elde edilen ağaçların görsel incelemeyle karşılaştırılması yerine, üretilen ağaçların kalitesini değerlendirmek için bootstrap yöntemi kullanılması önerilebilir.

Çalışma sonucunda uzaklık tabanlı hizalama içermeyen Filogenetik Analiz yöntemleri uygulamalı olarak çalışılmıştır. Oluşturulan veri seti üzerinde herhangi bir ön işlem adımı uygulanmadan uzaklık tabanlı bir yöntem olan k-mer Natural Vector Yöntemi kullanılarak enzimler üzerinde fonksiyonel bir özelliğe göre başarılı bir kümeleme sonucu elde edilmiştir.

Kaynakça• Amiri, S., Dinov, D. (2016) “Comparison of genomic

data via statistical distribution," Journal of Theoretical Biology 318-327

• Choudri, Supratim. (2014) Bioinformatics for beginners: genes, genomes, molecular evolution, databases and analytical tools. Amsterdam: Elsevier

• Liu LW, Li DB, Bai FL (2012). A relative Lempel-Ziv complexity: Application to comparing biological sequences. Chem Phys Lett 530, 107-112

• Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis (2 bas.). Cold Spring Harbor Laboratory Press. 0-87969-608-7.

• Royter M, Schmidt M, Elend C, Höbenreich H, Schäfer T, Bornscheuer UT, et al. Thermostable lipases from the extreme thermophilic anaerobic bacteria Thermoanaerobacter thermohydrosulfuricus SOL1 and Caldanaerobacter subterraneus subsp. tengcongensis. Extremophiles. 2009;13:769–83.

Genomik diziler {A,T,G,C} kategorik değerlerini içeren bir liste gibi depolanır. Dolayısıyla kategorik diziler arasındaki benzerlik ilişkilerinin incelenebilmesi için istatist iksel anal iz yöntemlerinden faydalanılır. Ardışık en bazın oluşturduğu alt diziler k-mer olarak adlandırılır. Yöntemde alt dizi dağılımlarını temsil eden normalize edilmiş merkezi moment v e k t ö r l e r i e l d e e d i l i r. K o s i n ü s benzerliğinden yararlanılarak vektörler arasındaki uzaklıklar hesaplanır.

Veri setinde k-mer Natural Vector Yöntemi ile elde edilen uzaklık matrisi.

Oluşturulan uzaklık matrisinde Neighbor Joining Kümeleme Algoritması kullanılarak

elde edilen Filogenetik Ağaç.

Aynı bakterilerden alınan proteaz enzimine ait diziler eklenerek oluşturulan veri setinde k-mer Natural Vector yöntemi kullanılarak

elde edilen Filogenetik Ağaç.

K-mer Natural Vector Yöntemi