mikrobik toplulular için 16s rrna gen dizilimi analizi...

12
Mikrobik Toplulular için 16S rRNA gen dizilimi analizi için QIIME kullanımı QIIME “Quantitative Insight into Microbial Ecology” kelimelerin baş harflerini temsil eder, “çaym” diye okunur. Mikrobiyom analizi yapmak için geliştirilmiş bir yazılımdır. QIIME ile 9 farklı mikrobik topluluğun 16S DNA verisi analiz edilebilir. QIIME'in kullanımı aslında bazı komutların terminal ekranınya yazılıp metinsel ve grafiksel çıktıların izlenmesinden ibarettir. Bazı temel linux komutlarının bilinmesi yeterlidir. Windows kullanıcıları için QIIME Virtual Box aracılığı ile kurulur. 1. Virtual Box' ı indirin. http://www.virtualbox.org/ . 2. En son QIIME Virtual Box image dosyasını şu linkten indirebilirsiniz. http://qiime.org/home_static/dataFiles.html Not 1: QIIME Virtual Box yanlızca 64 bit platformlarda destekleniyor. Not 2: Bu dosya sıkıştırılmış bir dosyadır, açmak için zip, rar gibi programa ihtiyacınız olacak. Dosya 1GB'tan büyüktür ve indirilmesi uzun zaman alabilir. 3. Virtual Box'ı çalıştırın ve “Yeni” butonuna tıklayarak yeni bir makine oluşturun. Bu makineye “QIIME” ismini verin. İşletim sistemi olarak Ubuntu (64 bit ) versiyonunu seçin. 4. RAM kısmına geldiğinizde en az 1024 MB'a ihityacınız olacağı için bunu seçin. 5. “Use Selected Hard drive” ı seçerek bilgisayarda az önce indirdiğiniz QIIME image dosyasını bulun. 6. “Finish” butonuna tıklayarak QIIME adlı sanal makinenizi kurulumunu tamamlayın. Video anlatımlar için: https://youtu.be/ZDEF3gtS7cE https://www.youtube.com/watch?v=njw31zxnPtI PROTOKOL 1 : Ayrıştırma (Demultiplexing) Mikrobiyom analizinin ilk adımıdır. Mikrobiyomdan elde edilen 16S DNA dizileri bilinen 9 mikrobik topluluk cinsinden ifade edilir. Buna demultiplexing adı verilir. 1. Virtual Box 'da kurulu olan QIIME sanal makinesini çalıştırınız. 2. 16S DNA dizisini sıralamak(sequencing) için gerekli bir kaç dosya indirilmelidir. Bunun için aşağıdaki adımları takip edin. Terminali açınız. “Greengenes 16S alignment and lanemask” dosyası dizileri sıralamak için ve veriyi temizlemek için kullanılacak. İndirmek için şunları yazınız. ( wget'den sonra bir boşluk olacak ve hepsi tek satırda olacak. Enter'a basarak indirme işlemini başlatınız.) wget http://greengenes.lbl.gov/Download/Sequence_Data/Fasta_data_files/core_set_aligned.fasta.imputed Daha sonra şunu yazınız ve enter'a basınız: wget http://greengenes.lbl.gov/Download/Sequence_Data/lanemask_in_1s_and_0s 3. Örnek verisetini indirelim, sıkıştırılmış dosyaan çıkaralım ve o klasöre gidelim. wget http://bmf.colorado.edu/QIIME/qiime_tutorial-v1.3.0.zip unzip qiime_tutorial-v1.3.0.zip

Upload: doandang

Post on 17-Apr-2019

227 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mikrobik Toplulular için 16S rRNA gen dizilimi analizi ...ayazagan.com/dataask/wp-content/uploads/2016/08/QIIME_ile... · referans veritabanları kullanılarak bu dizilerin taksonomik

Mikrobik Toplulular için 16S rRNA gen dizilimi analizi için QIIME kullanımı

QIIME “Quantitative Insight into Microbial Ecology” kelimelerin baş harflerini temsil eder, “çaym”

diye okunur. Mikrobiyom analizi yapmak için geliştirilmiş bir yazılımdır. QIIME ile 9 farklı

mikrobik topluluğun 16S DNA verisi analiz edilebilir. QIIME'in kullanımı aslında bazı komutların

terminal ekranınya yazılıp metinsel ve grafiksel çıktıların izlenmesinden ibarettir.

Bazı temel linux komutlarının bilinmesi yeterlidir.

Windows kullanıcıları için QIIME Virtual Box aracılığı ile kurulur.

1. Virtual Box' ı indirin. http://www.virtualbox.org/.

2. En son QIIME Virtual Box image dosyasını şu linkten indirebilirsiniz.

http://qiime.org/home_static/dataFiles.html Not 1: QIIME Virtual Box yanlızca 64 bit platformlarda destekleniyor.

Not 2: Bu dosya sıkıştırılmış bir dosyadır, açmak için zip, rar gibi programa ihtiyacınız olacak. Dosya

1GB'tan büyüktür ve indirilmesi uzun zaman alabilir. 3. Virtual Box'ı çalıştırın ve “Yeni” butonuna tıklayarak yeni bir makine oluşturun. Bu

makineye “QIIME” ismini verin. İşletim sistemi olarak Ubuntu (64 bit ) versiyonunu seçin.

4. RAM kısmına geldiğinizde en az 1024 MB'a ihityacınız olacağı için bunu seçin.

5. “Use Selected Hard drive” ı seçerek bilgisayarda az önce indirdiğiniz QIIME image

dosyasını bulun.

6. “Finish” butonuna tıklayarak QIIME adlı sanal makinenizi kurulumunu tamamlayın.

Video anlatımlar için: https://youtu.be/ZDEF3gtS7cE

https://www.youtube.com/watch?v=njw31zxnPtI

PROTOKOL 1 : Ayrıştırma (Demultiplexing)

Mikrobiyom analizinin ilk adımıdır. Mikrobiyomdan elde edilen 16S DNA dizileri bilinen 9

mikrobik topluluk cinsinden ifade edilir. Buna demultiplexing adı verilir.

1. Virtual Box 'da kurulu olan QIIME sanal makinesini çalıştırınız.

2. 16S DNA dizisini sıralamak(sequencing) için gerekli bir kaç dosya indirilmelidir. Bunun

için aşağıdaki adımları takip edin.

Terminali açınız. “Greengenes 16S alignment and lanemask” dosyası dizileri sıralamak

için ve veriyi temizlemek için kullanılacak. İndirmek için şunları yazınız. ( wget'den

sonra bir boşluk olacak ve hepsi tek satırda olacak. Enter'a basarak indirme işlemini

başlatınız.)

wget http://greengenes.lbl.gov/Download/Sequence_Data/Fasta_data_files/core_set_aligned.fasta.imputed

Daha sonra şunu yazınız ve enter'a basınız:

wget http://greengenes.lbl.gov/Download/Sequence_Data/lanemask_in_1s_and_0s

3. Örnek verisetini indirelim, sıkıştırılmış dosyaan çıkaralım ve o klasöre gidelim.

wget http://bmf.colorado.edu/QIIME/qiime_tutorial-v1.3.0.zip

unzip qiime_tutorial-v1.3.0.zip

Page 2: Mikrobik Toplulular için 16S rRNA gen dizilimi analizi ...ayazagan.com/dataask/wp-content/uploads/2016/08/QIIME_ile... · referans veritabanları kullanılarak bu dizilerin taksonomik

cd qiime_tutorial-v1.3.0

Bu klasörün içinde dosyalar şunlardır:

Diziler (.fna) : Bunlar FASTA formatındaki dizi dosyasıdır.

Kalite Skorları (.qual) : Bunlar FASTA formatındaki diziler için kalite skorlarını gösteren

dosyadır.

Mapping Dosyası (Tab-delimited.txt) : Bu dosya kullanıcı tarafından oluşturulur. Veri

analizi yapabilmek için gerekli tüm bilgileri içerir. Bir Mapping Dosyası en azından şu

bilgileri içermelidir.

Örneklerin isimleri (Alfanümerik karakterlerden oluşur - A-Z, 0-9 ve . )

Her örnek için için barkod dizi

Diziyi çoğaltmak için kullanılan linker/primer dizi

Açıklama kolonu

Genel olarak örneklerle ilgili tüm metadata bu dosya da olmalıdır. (sağlık durumu,

örnek alınan lokasyon vb gibi..) ya da outlier'ları incelerken faydalı olabilecek başka

bilgiler ( örneğin, örnek alındığı zaman hasta hangi ilaçları kullanıyordu gibi..)

Örnek bir Mapping Dosyası : Fasting_Map.txt

4. Mapping dosyasının formatı doğru formatta olmalıdır. İleride daha büyük problemlere yol

açacağı için bu hatalar düzeltilmeden devam edilmemelidir. Bu dosyanın formatını kontrol

etmek için check_id_map.py adlı hazır bir phyton scripti vardır. İsmi “Fasting_Map.txt”

olan yukarıdaki dosyanın formatını aşağıdaki kodu terminale yazarak kontrol edelim.

check_id_map.py -m Fasting_Map.txt -o mapping_output

Bu kod mapping_output adlı klasöre bir log dosyası oluşturur. Buradan dosyadaki hatalar

incelenebilir.

5. Örneklere ayrıştırılmış okumaları eşleştirelim. Bu adımda kalite filtreleme de yapılır,

düşük kaliteli ve anlaşılmaz olan okumalar filtrelenir. Bu işler için split_libraries.py

scripti kullanılır. Bu kod ile çeşitli parametreler kullanılabilir. Şimdiki örnek için

varsayılan paramtereleri kullanacağız:

(minimum quality score = 25,

minimum/maximum length = 200/1000,

error-correcting golay 12 nucleotide barcodes,

no ambiguous base calls,

no mismatches allowed in the primer sequence)

Terminale şunu yazalım:

split_libraries.py -m Fasting_Map.txt -f Fasting_Example.fna -q Fasting_Example.qual -o split_library_output

Page 3: Mikrobik Toplulular için 16S rRNA gen dizilimi analizi ...ayazagan.com/dataask/wp-content/uploads/2016/08/QIIME_ile... · referans veritabanları kullanılarak bu dizilerin taksonomik

Bu kod çalıştırıldığında split_library_output klasörüne 3 dosya oluşturulur.

split_library_log.txt: İşlem için bir özet verir. Her örnek için okuma sayısını ve kalite

filtrelemede silinen okumaları içerir.

histograms.txt : Ayrıştırmadan önce ve sonrakki okuma sayısını gösterir.

seqs.fna: Fasta formatında bir dosyadır. Her dizinin başına nereden örneklendiği bilgisi

vardır. Başlık kısmında okumanın ismi ve barkod kodlamadaki hatalar ve düzeltilmiş hali

yeralır. Bu dosyanının içeriği aşağıdaki gibidir:

>PC.634_1 FLP3FBN01ELBSX orig_bc=ACAGAGTCGGCT

new_bc=ACAGAGTCGGCT

bc_diffs=0

CTGGGCCGTGTCTCAGTCCC…

>PC.634_2 FLP3FBN01EG8AX orig_bc=ACAGAGTCGGCT

new_bc=ACAGAGTCGGCT

bc_diffs=0

TTGGACCGTGTCTCAGTTCCAATGT…

>PC.354_3 FLP3FBN01EEWKD orig_bc=AGCACGAGCCTA

new_bc=AGCACGAGCCTA

bc_diffs=0

TTGGGCCGTGTCTCA…

PROTOKOL 2 : OTU Seçimi, Taksonomi Belirlenmesi, Phylogeny çıkarımı ve OTU tablo oluşturulması

Okumalar içindeki dizi benzerliklerine göre Operational Taxonomic Unit (OTU) denilen gruplar

oluşturulur. OTU'lar içindeki dizilerden tüm otu dizilerini temsil edecek bir temsilci dizi seçilir.

Dolayısıyla tüm o grup içindeki diziler yerine temsilci olan dizi analizlerde kullanılır. Ayrıca,

referans veritabanları kullanılarak bu dizilerin taksonomik kimlikler belirlenir, filogenetik ağaç

oluşturulur, Her otu'nun mikrobiyom verisindeki bolluklarını gösteren otu tablosu oluşturulur.

1. Bunları için pick_otus_through_otu_table.py scripti kullanılır. Bu script aşağıda listenenen

bir dizi kodu çalıştırır.

a) OTU' ları seç. (pick_otus.py)

◦ OTU demek taksonomik olarak birbirlerine yakın olan diziler grubudur. Örneğin %97

benzer olan diziler biraraya getirilir. Otu'lar doğrudan insanların bildiği bir türü ifade

etmiyor. Mikrobiyom çalışmalarında otu'ların nasıl tanımlanması gerektiği ve neyi

temsil ettikleri hala aktif bir araştırma konusudur.

b) Her otu için temsilci diziyi seç. (pick_rep_set.py)

◦ Bu adımda iki tane yeni dosya oluşturulur. Log dosyası (seqs_rep_set.log) ve her otu için

seçilmiş temsilci dizileri içeren fasta formatlı dosya (seqs_rep_set.fasta). Diziler otu'nun

ismi ile yeniden isimlendirilmiştir.

>0 PC.636_424

CTGGGCCGTATCTCAGTCCCAATGTGGCCGGTCGACCTCTC….

>1 PC.481_321

TTGGGCCGTGTCTCAGTCCCAATGTGGCCGTCCGCCCTCTC….

c) Temsilci dizi setine taksonomi ata. (assign_taxonomy.py)

◦ Bu adımda mikrobiyom örneğindeki mikrobik soylar belirlenir. Varsayılan olarak QIIME

Page 4: Mikrobik Toplulular için 16S rRNA gen dizilimi analizi ...ayazagan.com/dataask/wp-content/uploads/2016/08/QIIME_ile... · referans veritabanları kullanılarak bu dizilerin taksonomik

RDP (Ribosomal Database Project) sınıflandırıcısını kullanır. Bazı otu'lar için bakteriyel

türler atanabileceği gibi bazıları için ise sadece bakterial domain atanabilir.

◦ Taksonomi dosyasının ilk satırlarını görebilmek için terminale şu yazılır:

head otus/rdp_assigned_taxonomy/seqs_rep_set_tax_assignments.txt

Taksonomi atanmış örnek dosya aşağıdaki gibidir. Otu id'si, temsilci dizi id'si, atanan

taksonomi ve bu atamanın güven değeri sırasıyla dosyada görülür.

d) Temsilci dizileri sırala (align). (align_seqs.py)

▪ Sıralama iki türlü yapılabilir: De novo ve ya Referans Veritabanları yardımıyla.

▪ MUSCLE adlı program ile de novo sıralama yapılır. PyNAST gibi sıralama araçları

da kullanılabilir. Küçük çaplı çalışmalar için her iki yöntem de kullanılabilir.

1000'den fazla dizi içeren çalışmalarda de nova çok yavaş olur. PyNAST daha tercih

edilir. QIIME akışındaki bilgisayarı en fazla zorlayacak olan kısım da burasıdır.

PyNAST kullanılırken (QIIME'de varsayılan sıralama yöntemidir),

„core_set_aligned.fasta.imputed‟ isimli greengrass dosyası varsayılan olarak

kullanılır. Sıralama yapıldıktan sonra otus/pynast_aligned_seqs/ klasörü içine bir

log dosyası bir de sıralanmış dizi dosyası oluşturulur.

e) Filogenetik ağaç oluşturulmadan gereksiz olacak boşlukları temizle. (filter_alignment.py)

Bu iş için genelde lanemask_in_1s_and_0s.txt dosyası varsayılan olarak kullanılır.

Filtrelenmiş dosya otus/pynast_aligned_seqs/ klasörü içine oluşturulur.

f) Filogenetik ağacı oluştur. (make_phylogeny.py)

Yukarıda oluşturulan filtrelenmiş dosya üzerinden filogenetik ağaç oluşturulur.

Otus/ klasöründeki rep_set.tre adında bir dosyada ağaç yapısı oluşur. Bu dosya FigTree gibi

ağaç görüntülüleme programları ile görüntülenebilir.

Örnek olarak,

Metin olarak görüntülemek için terminale şu kodu yazınız:

less otus/rep_set.tre

Bitirmek için ise “q”'ye basınız.

g) Otu tablosunu oluştur (make_otu_table.py)

a) ve c) aşamaları birleştirilerek, her örnekteki otu bolluk değerlerinin anlamlı taksonomik

belirteçlerle gösterildiği bir tablo oluşturulur.

Otu tablosunu oluşturmak için split_libraries.py kodunun çıktısı olan seqs.fna dosyasını

Page 5: Mikrobik Toplulular için 16S rRNA gen dizilimi analizi ...ayazagan.com/dataask/wp-content/uploads/2016/08/QIIME_ile... · referans veritabanları kullanılarak bu dizilerin taksonomik

kullanarak şu kodu çalıştırın:

pick_otus_through_otu_table.py -i split_library_output/seqs.fna -o otus

pick_otus_through_otu_table.py scriptinin çıktısı otus/ klasörü içindeki otu_table.txt 'dir.

Bu dosyanın ilk kolonu otu numarasını, son kolonu da taksonomik bilgiyi belirtir.

otu_table.txt dosyasının istatistiksel özeti için terminale şunu yazınız:

per_library_stats.py -i otus/otu_table.txt

Kodun çıktısı şu şekildedir: Num samples: 9

Seqs/sample summary: Min: 146

Max: 150

Median: 148.0

Mean: 148.111111111

Std. dev.: 1.4487116456

Median Absolute Deviation: 1.0

Seqs/sample detail:

PC.355: 146

PC.481: 146

PC.636: 147 ....

OTU Tablosu için Sıcaklık Haritası

QIIME, otu tablosunu görselleştirecek bir resim üretebiliyor. Bunun için

make_otu_heatmap_html.py scripti kullanılır. Terminale şu kod yazılır:

make_otu_heatmap_html.py -i otus/otu_table.txt -o otus/OTU_Heatmap/

otus/OTU_Heatmap/ klasöründe bir html dosyası oluşturulur. Bu resim her otu'nun

örneklerde ne kadar bulunduğunu gösterir. Daha fazla bilgi için herhangi bir bölmenin

üzerine gelmek yeterlidir.

Aşağıdaki resimde örnekler ve otuların matris gösterimi görülmektedir. Resimde toplam otu

sayısı 5 veya daha fazla olan OTU'lar görüntülenir. Örneğe katkıda bulunmalarına göre

OTU'lar renklendirilmiştir. Mavi renk o örnekteki o otunun düşük oranda bulunduğunu,

kırmızı yüksek oranda bulunduğunu gösterir.

Page 6: Mikrobik Toplulular için 16S rRNA gen dizilimi analizi ...ayazagan.com/dataask/wp-content/uploads/2016/08/QIIME_ile... · referans veritabanları kullanılarak bu dizilerin taksonomik

Taksonomi butonuna tıklandığında, taksonomni bilgisini içeren harita görüntülenir.

Farklı taksonomik seviyeler için de otu'ları gruplayabiliriz. Bunun için

summarize_taxa_through_plots.py scripti kullanılır. Aşağıdaki kod çalıştırıldığında

wf_taxa_summary/Taxa_Charts klasörüne dizilerin taksonomik değerlere göre gruplandığı yeni

tablolar oluşturulur.

Terminale şunu yazınız:

summarize_taxa_through_plots.py -i otus/otu_table.txt -o wf_taxa_summary -m Fasting_Map.txt

Tabloları görüntülemek için taxa_summary_plots/ klasöründeki area_charts.html dosyasını açınız.

Örneğin, mikrobik topluluğun içinde bulunduğu her filum'un görecelli bolluk değerlerini gösteren

tablo:

Page 7: Mikrobik Toplulular için 16S rRNA gen dizilimi analizi ...ayazagan.com/dataask/wp-content/uploads/2016/08/QIIME_ile... · referans veritabanları kullanılarak bu dizilerin taksonomik

PROTOKOL 3 : Alfa Çeşitlilik (alpha diversity) ve Seyreltme Eğrileri (rarefraction curves)

Bu protokolde topluluklar arasındaki farklılıklar ölçülecek ve seyreltme eğrileri oluşturulacak. Bu

protoku işletmek için Protokol 2'de oluşturulan otu tablosu ve filogenetik ağaç gereklidir.

1. Alpha Çeşitlilik işakışını çalışır.

Topluluk içindeki çeşitliliği ölçmek için alfa, topluluklar arası çeşitliliği ölçmek için beta

çeşitliliği kullanılır. Alfa çeşitlilik için alpha_rarefaction.py scripti kullanılacak.

a) Seyreltilmiş otu tablolarını oluştur. (multiple_rarefactions.py)

b) Her seyreltilmiş otu tablosu için, alfa değerlerini hesapla (alpha_diversity.py)

Bu kod ile birden fazla txt dosyası oluşturulur. Bu dosyalar wf_arare/alpha_div/

klasöründedir.

c) Alfa değerlerini karşılaştır. (collate_alpha.py)

wf_arare/alpha_div_collated/ klasörü içinde kullanılan her bir alfa çeşitlilik metriği için

tek bir matriks oluşturulur. Yukarıdaki birden fazla dosya karşılaştırılıp tek matriks haline

getirilir.

d) Alfa çeşitliliği seyretlme grafiklerini çizdir. (make_rarefaction_plots.py)

Bu adımda bir mapping dosyası ve rarefraction dosyaları alınır ve rarefraction eğrileri

oluşturulur.

wf_arare/alpha_rarefaction_plots/rarefaction_plots.html dosyası oluşturulur.

wf_arare/alpha_rarefaction_plots/average_plots/ klasörü içinde her metrik ve kategori için

ortalama grafikler bulunur. alpha_rarefaction_plots/html_plots/ klasörü içinde html

sayfasında kullanılan resimler bulunur.

Bu iş akışı farklı parametreler ile de çalıştırılabilir. Varsayılan parametreleri görmek için

Page 8: Mikrobik Toplulular için 16S rRNA gen dizilimi analizi ...ayazagan.com/dataask/wp-content/uploads/2016/08/QIIME_ile... · referans veritabanları kullanılarak bu dizilerin taksonomik

terminale şunu yazınız:

alpha_diversity.py -h

Alfa çeşitlilik metrikleri virgül ile ayrılmış şekilde belirlenmelidir. [default:PD_whole_tree,chao1,observed_species]

Farklı parametreler tanımlanarak bir dosya oluşturulabilir Shannon index gibi yeni bir

metrik tanımlanacak ise terminale şu yazılır:

echo “alpha_diversity:metrics shannon,PD_whole_tree,chao1,observed_species” > alpha_params.txt

Daha sonra iş akışı çalıştırılır. -i ile otu tablosu, -t ile filogenetik ağaç dosyası, -p ile de

oluşturulan parametre dosyası çağırılır.

alpha_rarefaction.py -i otus/otu_table.txt -m Fasting_Map.txt -p alpha_params.txt -t otus/rep_set.tre -o wf_arare/

Bu kod çalıştırıldıktan sonra wf_arare/rarefaction/ klasöründe rarefraction_##_#.txt adıyla

bir çok txt dosyası oluşur. İlk sayı seti örneklenen dizi sayısını, son sayı seti tekrarlama

sayısını gösterir.

Rarefraction tabloları uzaklık metriğini hesaplamak için temel oluşturur. Bu örnekler

arasındaki çeşitli taxa bolluklarına bakılarak farklılıklar ortaya koyulur.

QIIME içerisinde tanımlanmış bir çok metrik vardır. Herbirinin farklı avantajları ve

dezavantajları vardır. QIIME varsayılan olarak 3 metrik kullanır.

Chaol metric: Türlerin çokluklarını ölçer.

The Observed Speices metric: Örnekte bulunan tek otu'ları sayar.

Pylogenetic Distance (PD_whole_tree): Bir filogenetik ağaç kullanarak filogenetik

uzaklık hesaplar.

Yukarıda oluşturulan alpha_params.txt dosyasındaki Shannon metriği: Gözlenen

otu bolluklarını ve yokluklarını hesaba katarak uzaklık hesaplar.

2. Rarefraction Grafiklerini izle

wf_arare/alpha_rarefaction_plots/rarefaction_plots.html dosyasını açınız.

metric PD_whole_tree ve Treatment kategorisini seçiniz.

Page 9: Mikrobik Toplulular için 16S rRNA gen dizilimi analizi ...ayazagan.com/dataask/wp-content/uploads/2016/08/QIIME_ile... · referans veritabanları kullanılarak bu dizilerin taksonomik

PROTOKOL 4 : Beta Çeşitlilik (beta diversity) ve Beta Çeşitlilik Eğrileri

Bu protokol 9 mikrobik topluluk arasındaki farklılığı hesaplamak için, PCoA (principle coordinates

analysis ) grafikleri oluşturmak için ve bu toplulukları arasındaki ilişkiyi ifade eden uzaklık

histogramını oluşturmak içindir. Bu protokol için Protokol 2'de üretilen bir otu tablosu ve

filogenetik ağaç gereklidir.

1. Beta Çeşitlilik iş akışını çalıştır.

Beta çeşitlilik mikrobik toplulukların bileşimine göre toplulukları karşılaştırır, aralarındaki

farklılıkları ölçer. Bu sürecin en önemli çıktısı örneklerin aralarında uzaklıkları gösteren

“uzaklık matrisi” dir. Bu matrisdeki veri PcoA analizi ve hiyerarşik kümeleme yöntemleri

ile görselleştirilebilir. Alfa çeşitlilikteki gibi Beta için de farklı metrikler vardır. Buradaki

örnekte varsayılan metrik olan ağırlıklı ve ağırlıksız (weighted -unweighted) unifrac ile Beta

çeşitlilik ölçülecektir. Bunun için jackknifed_beta_diversity.py scripti kullanılacaktır. Bu

script aşağıdaki adımları takip eder.

a) Otu tablosundan Beta çeşitlilik uzaklık matrisini hesapla. (beta_diversity.py)

b) Uzaklık matrisinden UPGMA ağacını kur. (upgma_cluster.py)

c) Seyrekleştirilmiş otu tablosunu oluştur. (multiple_rarefactions.py)

d) Seyrekleştirilmiş otu tablosundan uzaklık matrisini hesapla. (beta_diversity.py)

e) Seyrekleştirilmiş uzaklık tablosundan UPGMA ağacını oluştur. (upgma_cluster.py)

f) UPGMA ağaçlarını karşılaştır ve ağaç node'ları için jackknife destek (support) değerini

hesapla. (tree_compare.py – consensus_tree.py)

g) Her bir seyreltilmiş uzaklık matrisi için temel bileşenleri (principle coordinates) hesapla.

(principal_coordinates.py)

h) Her bir seyreltilmiş uzaklık matrisi ile temel bileşenleri karşılaştır. (make_3d_plots.py -

make_2d_plots.py)

Bu analizi yapmak için terminale şunu yazınız.

jackknifed_beta_diversity.py -i otus/otu_table.txt -t otus/rep_set.tre -m Fasting_Map.txt -o wf_jack -e 110

2. Jackknife destekleyen bir ağaç oluştur ve sonucu görüntüle.

UPGMA (Unweighted Pair Group Method with Arithmetic mean), ortalama bağlantı

(average linkage) 'yı kullanan hiyerarşik kümeleme metotudur. Bu ağaç, beta_diversity.py

scripti tarafından oluşturulan uzaklık matrisini yorumlamak için kullanılabilir. a) ve b)

aşamasında örneklerle ilişkili netwick formatında ağaç

wf_jack/unweighted_unifrac/otu_table_upgma.tre dosyası olarak oluşturulur.

c)-f) aşaması süresince, dizileme sonucunun güvenilir (robust) olduğunu test etmek için jackknife

analizi yapılır. Dizilerin bir alt kümesi seçilir ve bu set üzerinden UPGMA ağacı oluşturulur ve tüm

veriyi temsil eden ağaç ile karşılaştırılır. Bu bir çok rastgele alt küme için yapılır ve daha tutarlı

dallara sahip bir ağaç oluşturulur.

İlk jackknife otu tablosu tüm veri üzerinden oluşturulmuştur. Bu tutorial'da, her örnek

başlangıçta 146-150 arasında diziye sahiptir. Rastgele altküme seçimi için her örnekten 110

dizi seçilmiştir (en küçük örnekteki dizilerin %75'i). Çalıştırılan scripte bu parametre -e ile

belirlenmiştir.

Page 10: Mikrobik Toplulular için 16S rRNA gen dizilimi analizi ...ayazagan.com/dataask/wp-content/uploads/2016/08/QIIME_ile... · referans veritabanları kullanılarak bu dizilerin taksonomik

Daha fazla jackknife iterasyonu daha iyi sonuçlar verir fakat programın çalışması da daha

uzun sürer. QIIME varsayılan olarak 10 jackknife iterasyonu yapar. Yukarıdaki iş akışı ile

hem weighted unifrac hem de unweighted unifrac için 10'ar tane uzaklık matrisi oluşturulur.

wf_jack/unweighted_unifrac/rare_dm/ ve wf_jack/weighted_unifrac/rare_dm/ klasörlerinde

bu matris dosyaları görülebilir. Bunların herbiri UPGMA hiyerarşik kümeleme için temel

oluşturur. Bu kümelemeler wf_jack/unweighted_unifrac/rare_upgma/ ve

wf_jack/weighted_unifrac/rare_upgma/ klasörlerinde görülebilir.

10 uzaklık matrisin UPGMA kümelemesi, 9 mikrobik topluluğun 10 hiyerarşik kümesine

dönüşür. Her hiyerarşik küme, random bir alt küme için oluşturulmuştur. Bunlar tüm veriyi

kullanarak oluşturulan UPGMA ile karşılaştırılırken, wf_jack/unweighted_unifrac/ ,

upgma_cmp/ ve wf_jack/weighted_unifrac/upgma_cmp/ klasörlerine 3 dosya oluşturulur:

master_tree.tre: jackknife_named_nodes.tre dosyasıyla aynıdır. UPGMA

kümelemedeki dallar için tekil bir isim atanmıştır.

jackknife_named_nodes.tre

jackknife_support.txt: Verilen bir iç dal ne sıklıkla jackknife UPGMA kümelerinde,

tüm veri kullanarak oluşturulan UPGMA kümeleri ile aynı alt örneklere sahip

olduğunu açıklar. 0.5 değeri, jackknife verisinin yarısının o dalı desteklediğini, 1.0

değeri tam destek anlamına gelir.

Jackknife_named_nodes.tre FigTree ağaç görselleştirme programı ile görüntlenebilir.

Bunun yanında bir bootstrapped ağacı QIIME'in make_bootstrapped_tree.py scriptini

çalıştırarak görüntülenebilir.

Terminale şunu yazınız:

make_bootstrapped_tree.py -m

wf_jack/unweighted_unifrac/upgma_cmp/master_tree.tre -s

wf_jack/unweighted_unifrac/upgma_cmp/jackknife_support.txt -o

wf_jack/unweighted_unifrac/upgma_cmp/jackknife_named_nodes.pdf

Oluşturulan pdf dosyasını şöyle açabilirisniz:

gnome-open wf_jack/unweighted_unifrac/upgma_cmp/jackknife_named_nodes.pdf

Aşağıda 9 mikrobik topluluğun bootstrap-destekli hiyerarşik kümelemesi gösterilmektedir.

İç dallar renklendirilmiştir. Kırmızı renk %75-100 desteği, sarı renk %50-75 desteği, yeşil

renk ise <%25 desteği ifade eder. PC.354 ve PC.593 birlikte kümelenmiştir, fakat bu küme

için yüksek bir güven değeri yoktur. Diğer PC.6xx örnekler birlikte kümelenmiştir ve

yüksek güven değeri vardır.

Page 11: Mikrobik Toplulular için 16S rRNA gen dizilimi analizi ...ayazagan.com/dataask/wp-content/uploads/2016/08/QIIME_ile... · referans veritabanları kullanılarak bu dizilerin taksonomik

3. Jackknife destekli PCoA grafiklerini inceleme

g) ve h) adımlarında PCoA grafikleri elde edilir. g) ve h) adımlarındaki iterasyonlar

karşılaştırılabilir. QIIME bu değişimi PCoA grafiğinde örneklerin etrafında elipsoidler

olarak gösterir.

wf_jack/unweighted_unifrac/3d_plots/ klasörüne gidin.

pcoa_unweighted_unifrac_rarefaction_110_0_3D_PCoA_plots.html dosyasını açın.

„Treatment_unscaled‟ ' seçin.

Aşağıda görüldüğü gibi varsayılan olarak ilk üç boyut çizilir. Diğer kombinasyonlar

“Views:Choose viewing axes” seçeneğinden görüntülenebilir. İlk 10 component

“Views:Parallel coordinates” seçeneği ile izlenebilir.

Referans

Justin Kuczynski, Jesse Stombaugh, William Anton Walters, Antonio González, J. Gregory Caporaso, and Rob Knight, Using QIIME to analyze 16S rRNA gene sequences from Microbial Communities, 2011.

Page 12: Mikrobik Toplulular için 16S rRNA gen dizilimi analizi ...ayazagan.com/dataask/wp-content/uploads/2016/08/QIIME_ile... · referans veritabanları kullanılarak bu dizilerin taksonomik