bİyoİnformatİk: laboratuarda sekanslarin...

48
B B İ İ YO YO İ İ NFORMAT NFORMAT İ İ K: K: LABORATUARDA SEKANSLARIN LABORATUARDA SEKANSLARIN TOPLANMASI VE DEPOLANMASI TOPLANMASI VE DEPOLANMASI Ayhan YILMAZ Ayhan YILMAZ

Upload: ngongoc

Post on 11-Mar-2019

237 views

Category:

Documents


0 download

TRANSCRIPT

BBİİYOYOİİNFORMATNFORMATİİK:K:LABORATUARDA SEKANSLARIN LABORATUARDA SEKANSLARIN TOPLANMASI VE DEPOLANMASITOPLANMASI VE DEPOLANMASI

Ayhan YILMAZAyhan YILMAZ

Sunum TaslaSunum Taslağığı

DNADNA’’NIN SEKANSLANMASININ SEKANSLANMASIGenomikGenomik SekanslamaSekanslamaShotgunShotgun SekanslamaSekanslamaEksprese Olan Genlerin Eksprese Olan Genlerin cDNAcDNA KKüüttüüphanelerini phanelerini SekanslamaSekanslamaDDİİZZİİLERLERİİN VERN VERİİTABANLARINA KABULTABANLARINA KABULÜÜSekansSekansıın Don DoğğruluruluğğuuDDİİZZİİLERLERİİN BN BİİLGLGİİSAYARDA SAKLANMASISAYARDA SAKLANMASIASCII ve ASCII ve HexadecimalHexadecimalSEKANS FORMATLARISEKANS FORMATLARIBBİİR SEKANS FORMATINI DR SEKANS FORMATINI DİĞİĞERERİİNE DNE DÖÖNNÜÜŞŞTTÜÜRMEKRMEKREADSEQ Sekans FormatlarREADSEQ Sekans Formatlarıı ArasArasıındaki Dndaki Döönnüüşşüümmüü SaSağğlarlarSekans FormatlarSekans Formatlarıınnıın Dn Döönnüüşşttüürrüülmesi ilmesi iççin GCG Programlarin GCG ProgramlarııÇÇOKLU SEKANS FORMATLARIOKLU SEKANS FORMATLARIBBİİR SEKANS VERR SEKANS VERİİTABANINDA BTABANINDA BİİLGLGİİNNİİN SAKLANMASIN SAKLANMASIVeri TabanVeri Tabanıı TipleriTipleriVeri TabanVeri Tabanıı EriErişşim Programim Programıı Olan Olan ENTREZENTREZ’’inin KullanKullanıımmııSpesifik Bir Sekans Elde EtmeSpesifik Bir Sekans Elde Etme

GiriGirişş

Bu sunum DNA molekBu sunum DNA moleküüllerinin sekanslarllerinin sekanslarıınnıı toplamada ve bilgisayar toplamada ve bilgisayar dosyalardosyalarıında depolamada kullannda depolamada kullanıılan metotlarlan metotlarıı öözetlemektedir.zetlemektedir.Bir kere bilgisayara girdimi artBir kere bilgisayara girdimi artıık sekanslar k sekanslar ççeeşşitli metotlarla analiz itli metotlarla analiz edilebilir.edilebilir.AyrAyrııca uzun molekca uzun moleküüllerin sekanslarllerin sekanslarıı kkıısa moleksa moleküüllerin sekanslarllerin sekanslarıınnıın n birlebirleşştirilmesiyle kolayca yaptirilmesiyle kolayca yapıılabilir. labilir. BirleBirleşştirilmitirilmişş sekanslar DNA kaynasekanslar DNA kaynağığı ( organizma ), gen ismi ve ( organizma ), gen ismi ve araaraşşttıırrııccııssıı gibi belirtici gibi belirtici öözelliklerle beraber bir bilgisayar dosyaszelliklerle beraber bir bilgisayar dosyasıında nda saklansaklanıır. r. Sekans ve aksesuarSekans ve aksesuarıı ardardıından bir veritabanndan bir veritabanıına girilir. na girilir. Bu yBu yööntem onlarntem onlarıı ööyle organize eder ki yle organize eder ki öözel olanlar ileride kullanzel olanlar ileride kullanıım m iiççin bir veritabanin bir veritabanıı araaraşşttıırma programrma programıı taraftarafıından elde edilebilir. ndan elde edilebilir. Ne yazNe yazıık ki k ki ççooğğu sekans analiz programu sekans analiz programıı bir sekans dosyasbir sekans dosyasıındaki ndaki bilginin bilginin öözel bir formatta depolanmaszel bir formatta depolanmasıına ihtiyana ihtiyaçç duyar.duyar.Bu programlarBu programlarıı kullanmak ikullanmak iççin bu formatlarin bu formatlarıın farkn farkıında olmak ve bir nda olmak ve bir formatformatıı didiğğerine derine döönnüüşşttüürebilmek gerekir.rebilmek gerekir.

DNADNA’’NIN SEKANSLANMASININ SEKANSLANMASI

SangerSanger metodu?metodu?

StratejiStrateji

chromosomechromosome walkingwalking !!

GenomikGenomik SekanslamaSekanslama

cloneclone byby cloneclone sequencingsequencingshotgunshotgun sequencingsequencing

ShotgunShotgun SekanslamaSekanslama

YukarYukarııdaki daki shotgunshotgun sekanslamasekanslama stratejisi insan genomu stratejisi insan genomu gibi tekrar dizileri olan genomlara gibi tekrar dizileri olan genomlara uygulanabilirmiuygulanabilirmi??EEğğer farkler farklıı kromozomalkromozomal bböölgelerden tlgelerden tüüreyen DNA reyen DNA fragmentlerifragmentleri aynaynıı dizide tekrarlara sahipse onlar dizide tekrarlara sahipse onlar overlapoverlapediyorlarmediyorlarmışış ggöörrüünnüürler. rler. Tamamen yeni bir Tamamen yeni bir shotgunshotgun yaklayaklaşışımmıında nda CeleraCeleraGenomicsGenomics 2 2 kbkb ( k( kıısa ), 10 sa ), 10 kbkb ( orta ) ve BAC veya 100 ( orta ) ve BAC veya 100 kbkb ( uzun ) uzunlukta DNA ( uzun ) uzunlukta DNA fragmentlerininfragmentlerinin uuççlarlarıınnıısekanslsekanslııyoryor. . BirBirççok sayok sayııda okuma daha sonra bilgisayar tarafda okuma daha sonra bilgisayar tarafıından ndan birlebirleşştiriliyor.tiriliyor.Bu Bu metodmetod oldukoldukçça ya yüüksek derecede tekrarlksek derecede tekrarlıı bböölgelerin lgelerin ççııkarkarıılmaslmasıından sonra ndan sonra DrosophilaDrosophila melanogastermelanogaster’’iningenomunun birlegenomunun birleşştirilmesinde kullantirilmesinde kullanııldldıı ve ayrve ayrııca ca insaninsangenomunun genomunun öönemli bir knemli bir kıısmsmıınnıın birlen birleşştirilmesinde de tirilmesinde de kullankullanııldldıı..

DDİİZZİİLERLERİİN VERN VERİİTABANLARINA KABULTABANLARINA KABULÜÜ--11

AraAraşşttıırrııccıılarlarıın yeni elde ettikleri dizilerini don yeni elde ettikleri dizilerini doğğrudan Uluslar arasrudan Uluslar arasııNNüükleotid Dizi Veritabankleotid Dizi Veritabanıı İşİşbirlibirliğğinin bir inin bir üüyesi olan yesi olan NationalNational CenterCenterforfor BiotechnologyBiotechnology InformationInformation ( NCBI ) ( ki ( NCBI ) ( ki GenBankGenBank’’ıı= = http://www.http://www.ncbincbi..nlmnlm..nihnih.gov.gov yyöönetir ), netir ), JaponyanJaponyanıınn DNA DNA veribankasveribankasııolan DDBJ ( olan DDBJ ( http://www.http://www.ddbjddbj..nignig..acac..jpjp ) veya Avrupa Molek) veya Avrupa Moleküüler ler Biyoloji LaboratuarBiyoloji Laboratuarıı olan EMBL / EBI Nolan EMBL / EBI Nüükleotid Sekans Veritabankleotid Sekans Veritabanıı ( ( http://www.http://www.emblembl__heidelbergheidelberg.de.de ) gibi yerlere kabul ettirmeleri ) gibi yerlere kabul ettirmeleri teteşşvik edilir.vik edilir.NCBI yeni giriNCBI yeni girişşleri gleri göözden gezden geççirir ve istenildiirir ve istenildiğğinde mevcut olanlarinde mevcut olanlarııupdateupdate eder. eder. Bir veritabanBir veritabanıı kabul numaraskabul numarasıı ( ki sekans( ki sekansıı yayyayıınlamak inlamak iççin gerekli ) in gerekli ) sasağğlanlanıır.r.Yeni sekanslar gYeni sekanslar güünlnlüük k GenBankGenBank, EMBL ve DDBJ veritabanlar, EMBL ve DDBJ veritabanlarııtaraftarafıından dendan değğiişştirilir.tirilir.

DDİİZZİİLERLERİİN VERN VERİİTABANLARINA KABULTABANLARINA KABULÜÜ--22

SekanslarSekanslarıı kabul ettirmenin en yeni ve en basit yolu kabul ettirmenin en yeni ve en basit yolu http://www.http://www.ncbincbi..nlmnlm..nihnih.gov/.gov/ web sitesinde web form sayfasweb sitesinde web form sayfasıı olan olan BankItBankItile yapmaktile yapmaktıır. r. Sekansa ayrSekansa ayrııca ca mRNAmRNA babaşşlanglangııçç ve kodlayve kodlayııccıı bböölgeler gibi bilgide eklenebilir lgeler gibi bilgide eklenebilir ( ( annotationannotation yapmak ).yapmak ).Kabul ettirilen form Kabul ettirilen form GenBankGenBank formatformatıına dna döönnüüşşttüürrüüllüür ve arar ve araşşttıırrııccııya gya göözden zden

gegeççirmesi iirmesi iççin gin göönderilir ve ardnderilir ve ardıından ndan GanBankGanBank’’aa eklenir.eklenir.Kabul ettirmek iKabul ettirmek iççin diin diğğer bir yer bir yööntem PCntem PC’’lerde ve UNIX lerde ve UNIX makinelarmakinelarıındanda

yyüürrüüyen yen SequinSequin ( ( öönceden nceden AuthorinAuthorin olarak adlandolarak adlandıırrııllıırdrdıı ) kullanarak ) kullanarak yapmaktyapmaktıır.r.Bu program kolayca kullanBu program kolayca kullanıılan bir grafik lan bir grafik arayarayüüzz sasağğlar ve lar ve genomikgenomik sekans sekans

bilgisi gibi bbilgisi gibi büüyyüük k kabkabüüllerilleri idare edebilir. idare edebilir. http://www.http://www.ncbincbi..nlmnlm..nihnih.gov/.gov/SequinSequin//indexindex.html.html ‘‘de tande tanıımlanmmlanmışış ve ve ggöösterilmisterilmişştir ve tir ve ncbincbi..nlmnlm..nihnih.gov.gov//sequinsequin/ / ‘‘den herhangi bir FTP tarafden herhangi bir FTP tarafıından ndan elde edilebilir. elde edilebilir. TamamlanmTamamlanmışış dosyalar ayrdosyalar ayrııca ca gbgb__subsub@@ncbincbi..nlmnlm..nihnih..govgov’’aa ee--mail ile mail ile ggöönderilebilir veya bir diskette nderilebilir veya bir diskette GenBankGenBank SubmissionsSubmissions NationalNational CenterCenter forforBiotechnologyBiotechnology InformationInformation, , NationalNational LibraryLibrary of of MedicineMedicine, , BldgBldg.38A, .38A, RoomRoom8N8N--803, 803, BethesdaBethesda, Maryland 20894 USA adresine , Maryland 20894 USA adresine postalanabilinirpostalanabilinir..

SekansSekansıın Don Doğğruluruluğğuu--11

GenBankGenBank ve dive diğğer veritabanlarer veritabanlarıına na kabkabüüldenlden öönce dizinin nce dizinin dodoğğruluruluğğunun detaylunun detaylıı bir kontrolbir kontrolüü yoktur.yoktur.SSıık sk sıık bir dizi bir dergide makale olarak yayk bir dizi bir dergide makale olarak yayıınlandnlandığıığızaman kabul edilir ve zaman kabul edilir ve editoryaleditoryal tarafstarafsıız hakemlik iz hakemlik işşlemi lemi taraftarafıından belirli bir kontrol seviyesi sandan belirli bir kontrol seviyesi sağğlanlanıır. Bununla r. Bununla birlikte bir birlikte bir ççok dizi yayok dizi yayıınlanmaksnlanmaksıızzıın veya yayn veya yayıından ndan öönce nce kabul ettirilir. kabul ettirilir. İİnsan genom projesi veya model organizmalarnsan genom projesi veya model organizmalarıın genom n genom projeleri gibi bprojeleri gibi büüyyüük k sekanslamasekanslama projesi yapan projesi yapan laboratuarlarda proje paraslaboratuarlarda proje parasıınnıı veren ajans 10 veren ajans 10 kbkb babaşışına 1 na 1 muhtemel hata muhtemel hata şşeklinde belirli bir doeklinde belirli bir doğğruluk seviyesi ister.ruluk seviyesi ister.Bu doBu doğğruluk seviyesi dizi karruluk seviyesi dizi karşışılalaşşttıırmalarrmalarıı, kal, kalııp p araaraşşttıırmalarrmalarıı ve ve translasyontranslasyon gibi gibi ççooğğu sekans analiz u sekans analiz uygulamalaruygulamalarıı iiççin yeterlidir. in yeterlidir.

SekansSekansıın Don Doğğruluruluğğuu--22

ESTEST’’lerinlerin tek tetek teşşebbebbüüs s sekanslamalarsekanslamalarıınnıı yapan diyapan diğğer laboratuarlarda er laboratuarlarda hata oranhata oranıı daha ydaha yüüksek olabilir ksek olabilir öörnerneğğin 100in 100’’de 1 ve bu hatalde 1 ve bu hatalııtantanıımlanan bazlarmlanan bazlarıı, , insertinsert ve ve deletdelet olan bazlarolan bazlarıı da ida iççerir.erir.BBööylece ylece GenBankGenBank ve dive diğğer veritabanlarer veritabanlarıında EST dizilerini nda EST dizilerini ççevirirken evirirken yanlyanlışış baz yanlbaz yanlışış aminoasidiaminoasidi verebilir.verebilir.Bununla birlikte en kBununla birlikte en kööttüü problem baz problem baz insersiyoninsersiyon veya veya delesyonlardelesyonlarııççererççeve kaymalareve kaymalarıına sebep olur ve bir protein dizisiyle karna sebep olur ve bir protein dizisiyle karşışılalaşşttıırma rma ( ( alignmentalignment ) ) ççok zor olur.ok zor olur.Hata eHata eğğilimli diilimli diğğer bir veritabaner bir veritabanıı dizi tipi dizi tipi HIVHIV’’ninnin protein kprotein kııllııffıındaki ndaki bböölgeler gibi bir lgeler gibi bir patojenikpatojenik organizmanorganizmanıın n immunolojikimmunolojik varyantvaryantıınnıın n sekans sekans fragmentidirfragmentidir..Bu kadar dBu kadar düüşşüük dok doğğruluk seviyesi teruluk seviyesi teşşhis gibi bazhis gibi bazıı amaamaççlar ilar iççin in uygun olabilmesine karuygun olabilmesine karşışıllıık evrimsel analizler gibi daha detaylk evrimsel analizler gibi daha detaylııanalizler ianalizler iççin bin bööyle dizi yle dizi fragmentlerininfragmentlerinin dodoğğruluruluğğu belirlenmelidir.u belirlenmelidir.

DDİİZZİİLERLERİİN BN BİİLGLGİİSAYARDA SAKLANMASISAYARDA SAKLANMASI--11

Bir sekans analiz programBir sekans analiz programıındaki bir sekans dosyasndaki bir sekans dosyasıınnıı kullanmadan kullanmadan öönce bilgisayar sekans dosyalarnce bilgisayar sekans dosyalarıınnıın sadece sekans karakterlerini n sadece sekans karakterlerini iiççerdierdiğğini ve metin editini ve metin editöörleri tarafrleri tarafıından kullanndan kullanıılan lan öözel karakterleri zel karakterleri iiççermediermediğğini garanti etmek ini garanti etmek öönemlidir.nemlidir.Bir sekans dosyasBir sekans dosyasıınnıı Word Word ProcessorProcessor ile ile editedit etme etme ööyle deyle değğiişşiklikler iklikler sokar ki bir kisokar ki bir kişşi metin ile veya ASCII dosyalari metin ile veya ASCII dosyalarıı ( ( keyboardkeyboard’’dada olan olan şşekliyle ) ile sade ekliyle ) ile sade ççalalışıışırken dikkatli olmasrken dikkatli olmasıı gerekir.gerekir.ÇÇooğğu metin editu metin editöörleri normal olarak standart ASCII karakterlerine rleri normal olarak standart ASCII karakterlerine ek olarak kontrol karakterlerini de iek olarak kontrol karakterlerini de iççeren metin dosyalareren metin dosyalarıı yaratyaratıır.r.Bu kontrol karakterleri sadece metin editBu kontrol karakterleri sadece metin editöör programlarr programlarıı taraftarafıından ndan tantanıınabilir. nabilir. BBööyle kontrol karakterlerini iyle kontrol karakterlerini iççeren sekans dosyalareren sekans dosyalarıı dodoğğru bir ru bir şşekilde ekilde analiz edilmeyebilir.analiz edilmeyebilir.EditEditöörler genellikle dosyalarrler genellikle dosyalarıı sadece standart ASCII karakterleriyle sadece standart ASCII karakterleriyle saklamaysaklamayıı sasağğlar ve bu dosyalar lar ve bu dosyalar ççooğğu sekans analiz programu sekans analiz programıı iiççin in uygun olacaktuygun olacaktıır.r.

ASCII ve ASCII ve HekzadesimalHekzadesimal

Bilgisayarlar sekans bilgisini Bilgisayarlar sekans bilgisini tesbihtesbih taneleri denilen ( ki bilgisayar terminalinde taneleri denilen ( ki bilgisayar terminalinde ggöösterilen dizilere benzer ) basit sekans karakter dizileri sterilen dizilere benzer ) basit sekans karakter dizileri şşeklinde depolar.eklinde depolar.Her bir karakter Her bir karakter bytebyte denilen ikili kod halinde en kdenilen ikili kod halinde en küçüüçük bellek biriminde depolank bellek biriminde depolanıır. r. Her bir Her bir bytebyte 8 bitten olu8 bitten oluşşur ve ur ve herbirherbir bit 0 ve 1 bit 0 ve 1 şşeklinde bir deeklinde bir değğere sahiptir bere sahiptir bööylece ylece 255 kombinasyon olu255 kombinasyon oluşşturabilir ( 26=256 ).turabilir ( 26=256 ).Kural olarak bu kombinasyonlarKural olarak bu kombinasyonlarıın n ççooğğu onlaru onlarıın ASCII en ASCII eşşiti denilen iti denilen öözgzgüül bir tanl bir tanııma ma sahiptir.sahiptir.BazBazıı ASCII deASCII değğerleri erleri keyboardkeyboard karakterleri olarak tankarakterleri olarak tanıımlanmlanıırken dirken diğğerleri erleri öözgzgüül kontrol l kontrol karakterleri olarak tankarakterleri olarak tanıımlanmlanıır r öörnerneğğin bir satin bir satıırrıın sonunun sinyali gibi ( bir satn sonunun sinyali gibi ( bir satıır r besleyicisi ve bir tabesleyicisi ve bir taşışıyyııccıı ddöönnüüşş ) veya metnin tam bir dosya sonu ( dosya sonu ) veya metnin tam bir dosya sonu ( dosya sonu karakteri ) gibi. karakteri ) gibi. Sadece ASCII karakterlerinden oluSadece ASCII karakterlerinden oluşşan bir dosyaya ASCII dosyasan bir dosyaya ASCII dosyasıı denir. denir. Uygun olmasUygun olmasıı iiççin bin büüttüün ikili den ikili değğerler erler hexadecimalhexadecimal format ile format ile yazyazıılabilirkilabilirki bu bizim bu bizim decimaldecimal format ( 0, 1, 2,.......,9 ) artformat ( 0, 1, 2,.......,9 ) artıı harfler ( A,B,....F )harfler ( A,B,....F )’’ e kare karşışıllıık gelir.k gelir.BBööylece ylece hexadecimalhexadecimal 0F ikili 0000 11110F ikili 0000 1111’’e ve e ve decimaldecimal 1515’’e kare karşışıllıık gelir ve FF ikili 1111 k gelir ve FF ikili 1111 1111 ve 1111 ve decimaldecimal 255255’’e kare karşışıllıık gelir. k gelir. Bir DNA dizisi genellikle bilgisayarda bu ikili formatta bir 8Bir DNA dizisi genellikle bilgisayarda bu ikili formatta bir 8--bit kelime serileri gibi bit kelime serileri gibi okunur ve depolanokunur ve depolanıır.r.Bir protein dizisi Bir protein dizisi aminoamino asit harflerinin ikili formuna karasit harflerinin ikili formuna karşışıllıık gelen 8k gelen 8--bitlik kelime bitlik kelime serileri gibi gserileri gibi göörrüünnüür.r.

DDİİZZİİLERLERİİN BN BİİLGLGİİSAYARDA SAKLANMASISAYARDA SAKLANMASI--22

ÇÇooğğu sekans analiz programlaru sekans analiz programlarıı ayrayrııca bir DNA veya protein sekans ca bir DNA veya protein sekans dosyasdosyasıınnıın standart bir ASCII dosyasn standart bir ASCII dosyasıı olarak deolarak değğil ayril ayrııca dosyanca dosyanıın FASTA n FASTA formatformatıı gibi gibi öözel bir formatta olmaszel bir formatta olmasıına ihtiyana ihtiyaçç duyar.duyar.Bilgisayarda pencerelerin kullanBilgisayarda pencerelerin kullanıımmıı bbööyle problemleri basitleyle problemleri basitleşştirdi tirdi çüçünknküü bir bir

kimse nadiren bir pencereden ( kimse nadiren bir pencereden ( öörnerneğğin ENTREZ web sitesinde yin ENTREZ web sitesinde yüürrüüyen bir yen bir web web browserbrowserıı penceresi ) bir diziyi kopyalamak zorundadpenceresi ) bir diziyi kopyalamak zorundadıır ve dir ve diğğer bir er bir pencereye yappencereye yapışışttıırrıır ( r ( öörnerneğğin bir in bir translasyontranslasyon programprogramıına ).na ).A, T, G, C gibi dA, T, G, C gibi döört baz sembolrt baz sembolüüne ek olarak ne ek olarak NomenclatureNomenclature CommitteeCommittee of of thethe InternationalInternational UnionUnion of of BiochemistryBiochemistry bir bir nnüükleikkleik asit dizisindeki kesin ve asit dizisindeki kesin ve aaççıık olmayan bazlark olmayan bazlarıı temsil eden standart bir kod gelitemsil eden standart bir kod gelişştirdi. Kodlar Tablo tirdi. Kodlar Tablo 2.12.1’’de listelenmide listelenmişştir.tir.Proteinlerin bilgisayar analizi iProteinlerin bilgisayar analizi iççin in üçüç harfli harfli aminoamino asit kodlarasit kodlarıı yerine tek harfli yerine tek harfli kodlarkodlarıı kullanmak daha uygundur.kullanmak daha uygundur.ÖÖrnerneğğin in GenBankGenBank DNA sekans DNA sekans entrilerientrileri tek harf kodundan olutek harf kodundan oluşşan an transletransle bir bir

dizi idizi iççerir.erir.Standart tek harf Standart tek harf aminoamino asit kodu birleasit kodu birleşşik uluslar arasik uluslar arasıı bir komite tarafbir komite tarafıından ndan

oluoluşşturuldu ve Tablo 2.2turuldu ve Tablo 2.2’’de gde göösterilmektedir.sterilmektedir.EEğğer sadece bir er sadece bir aminoamino asitinasitin ismi ismi öözel bir harfle bazel bir harfle başşlarsa o zaman o harf larsa o zaman o harf

kullankullanıılrlr. . ÖÖrnerneğğin C in C sisteinsistein iiççin. Diin. Diğğer durumlarda seer durumlarda seççilen harf fonetik olarak ilen harf fonetik olarak benzerdir. benzerdir. ÖÖrnerneğğin R in R arjininarjinin. Alfabede yak. Alfabede yakıın da olabilir n da olabilir öörnerneğğin K in K lizinlizin iiççin.in.

SEKANS FORMATLARISEKANS FORMATLARI

Sekans analiz Sekans analiz softwaresoftware’’ii yyüürrüüttüürken rken karkarşışılalaşşttığıığımmıız en bz en büüyyüük zorluk farklk zorluk farklııprogramlar tarafprogramlar tarafıından farklndan farklıı sekans sekans formatlarformatlarıınnıın kullann kullanııllııyor olmasyor olmasııddıır.r.Bu formatlarBu formatlarıın hepsi standart ASCII n hepsi standart ASCII

dosyalardosyalarııddıır fakat onlar farklr fakat onlar farklıı bilgi tiplerinin bilgi tiplerinin bulunmasbulunmasıınnıı ve sekansve sekansıın kendisinin n kendisinin bulundubulunduğğunu iunu işşaret eden belirli karakter aret eden belirli karakter ve kelimelerin varlve kelimelerin varlığıığında farklnda farklıılalaşışır. r.

1. 1. GenBankGenBank DNA Sekans DNA Sekans EntrisiEntrisi

2. Avrupa Molek2. Avrupa Moleküüler Biyoloji ler Biyoloji LaboratuvarLaboratuvarıı ( EMBL ) ( EMBL ) Veri KVeri Küüttüüphanesi Formatphanesi Formatıı

3. FASTA Sekans Format3. FASTA Sekans Formatıı

4. 4. NationalNational BiomedicalBiomedical ResearchResearch FoundationFoundation / / Protein Protein InformationInformation ResourceResource Sekans FormatSekans Formatıı

5. Stanford 5. Stanford ÜÜniversitesi / niversitesi / IntelligeneticsIntelligenetics Sekans Sekans FormatFormatıı

6. Genetik Bilgisayar Grubu ( GCG ) Sekans Format6. Genetik Bilgisayar Grubu ( GCG ) Sekans Formatıı

7. 7. NationalNational BiomedicalBiomedical ResearchResearch VakfVakfıı / Protein / Protein InformationInformation ResourceResource’’dandan Elde edilen Sekans Elde edilen Sekans

DosyasDosyasıınnıın Formatn Formatıı

8. Genetik Veri 8. Genetik Veri ÇÇevresi ( GDE ) Sekans Formatevresi ( GDE ) Sekans Formatıı

BBİİR SEKANS FORMATINI DR SEKANS FORMATINI DİĞİĞERERİİNE NE DDÖÖNNÜÜŞŞTTÜÜRMEKRMEK

READSEQ Sekans FormatlarREADSEQ Sekans Formatlarıı ArasArasıındaki Dndaki DöönnüüşşüümmüüSaSağğlar.lar.READSEQ Tablo 2.3READSEQ Tablo 2.3’’de gde göösterilen bir DNA veya protein sterilen bir DNA veya protein sekans dosyalarsekans dosyalarıında herhangi bir formatnda herhangi bir formatıı tanuyabilirtanuyabilir, , formatformatıı belirler ve alternatif formatta yeni bir dosya belirler ve alternatif formatta yeni bir dosya yazar.yazar.Bu Bu formatlatdanformatlatdan bazbazıılarlarıı ççoklu sekans hizalamasoklu sekans hizalamasıı ve ve filogenetikfilogenetik analiz gibi analiz gibi öözel analiz tipleri izel analiz tipleri iççin kullanin kullanııllıır.r.seq1 ve seq2 gibi iki DNA sekans seq1 ve seq2 gibi iki DNA sekans öörnerneğği ii iççin bu in bu formatlarformatlarıın gn göörrüünnüümmüü Tablo 2.4Tablo 2.4’’de gde göösterilmisterilmişştir.tir.READSEQ, READSEQ, http://http://dotdot.imgen..imgen.bcmbcm..tmctmc.edu:9331/.edu:9331/seqseq--utilutil//readseqreadseq.html.html de de BaylorBaylor CollegeCollege of of MedicineMedicine’’ninninsitesinden veya sitesinden veya ftp.ftp.biobio..indianaindiana.edu/.edu/molbiomolbio//readsqreadsq veya veya ftp.ftp.bioindianabioindiana.edu/.edu/molbiomolbio//macmac da isimsiz bir da isimsiz bir FTPFTP’’dendenuygun dosyalara ulauygun dosyalara ulaşşmak imak iççin eriin erişşilebilir.ilebilir.

BBİİR SEKANS FORMATINI DR SEKANS FORMATINI DİĞİĞERERİİNE NE DDÖÖNNÜÜŞŞTTÜÜRMEKRMEK

UNIX makinesi iUNIX makinesi iççin diin diğğer bir sekans er bir sekans ddöönnüüşşttüürme programrme programııhttp://http://biowebbioweb..pasteurpasteur..frfr//docsdocs//seqioseqio//seqioseqio..htmlhtml de tande tanıımlanmmlanmışışttıır ve r ve downloaddownload iiççin in http://www.http://www.cscs..ucdavisucdavis.edu/~~.edu/~~gusfieldgusfield//seseqioqio.html.html de mevcuttur.de mevcuttur.

Sekans FormatlarSekans Formatlarıınnıın Dn Döönnüüşşttüürrüülmesi ilmesi iççin GCG in GCG ProgramlarProgramlarıı

““fromfrom”” programlarprogramlarıı GCG formatGCG formatıındaki sekans dosyalarndaki sekans dosyalarıınnııisimlendirilmiisimlendirilmişş formata, formata, ““toto”” programlarprogramlarıı da alternatif da alternatif formatformatıı GCG formatGCG formatıına dna döönnüüşşttüürrüür. r. GerGerççek program isimleri boek program isimleri boşşluk olmadan gluk olmadan göösterilmisterilmişştir.tir.GenBankGenBank ve EMBL formatlarve EMBL formatlarıına dna döönnüüşşttüüren programlar ren programlar yoktur.yoktur.FROMEMBL,FROMFASTA,FROMGENBANK,FROMIG,FROMFROMEMBL,FROMFASTA,FROMGENBANK,FROMIG,FROMPIR,FROMSTADEN,TOFASTA,TOIG,TOPIR,TOSTADENPIR,FROMSTADEN,TOFASTA,TOIG,TOPIR,TOSTADEN

AyrAyrııca GCG programlarca GCG programlarıı aaşşaağığıdaki sekans formatlama daki sekans formatlama programlarprogramlarıınnıı iiççerir: (1) GETSEQ, erir: (1) GETSEQ, remoteremote bir PCbir PC’’den den aldaldığıığı basit bir ASCII dosyasbasit bir ASCII dosyasıınnıı GCG formatGCG formatıına na ddöönnüüşşttüürrüür. (2) REFORMAT, r. (2) REFORMAT, editedit edilmiedilmişş bir GCG bir GCG dosyasdosyasıınnıı formatlar ve ayrformatlar ve ayrııca dica diğğer fonksiyonlarer fonksiyonlarıı da vardda vardıır r ( 3 ) SPEW, bir GCG sekans dosyas( 3 ) SPEW, bir GCG sekans dosyasıınnıı bir ASCII dosyasbir ASCII dosyasııolarak olarak remoteremote bir PCbir PC’’ye gye göönderir.nderir.

ÇÇOKLU SEKANS FORMATLARIOKLU SEKANS FORMATLARI

YukarYukarııda listelenen sekans formatlarda listelenen sekans formatlarıınnıın n ççooğğu aynu aynııbilgisayar dosyasbilgisayar dosyasıında nda ççoklu sekanslaroklu sekanslarıı ardardaardarda saklamak saklamak iiççin kullanin kullanıılabilir.labilir.İİstisnalar GCG ve sadece tekli sekanslar istisnalar GCG ve sadece tekli sekanslar iççin tasarlanan in tasarlanan ham sekans formatlarham sekans formatlarııddıır. r. GCG aGCG aşşaağığıda tanda tanıımlandmlandığıığı gibi alternatif bir gibi alternatif bir ççoklu sekans oklu sekans formatformatıına sahiptir.na sahiptir.

AyrAyrııca ca ççoklu sekanslar ioklu sekanslar iççin in öözellikle tasarlanzellikle tasarlanııp p hizalanmalarhizalanmalarıınnıı ggööstermek veya stermek veya filogenetikfilogenetik analiz gibi analiz gibi ççoklu sekans analiz tiplerini uygulamak ioklu sekans analiz tiplerini uygulamak iççin kullanin kullanıılabilen labilen formatlar vardformatlar vardıır. r. PAUP durumunda program MSA formatPAUP durumunda program MSA formatıınnıı kabul eder ve kabul eder ve NEXUS formatNEXUS formatıına dna döönnüüşşttüürrüür.r.

BBİİR SEKANS VERR SEKANS VERİİTABANINDA BTABANINDA BİİLGLGİİNNİİN N SAKLANMASISAKLANMASI

YukarYukarııdaki bilgi daki bilgi relasyonelrelasyonel bir veri tabanbir veri tabanıında bulunan hemen hemen nda bulunan hemen hemen benzer benzer şşekilde tabular bir formda organize edilmiekilde tabular bir formda organize edilmişştir.tir.EEğğer birisi ber birisi büüyyüük bir tablo hayal edip her bir satk bir tablo hayal edip her bir satıırrıınnıın her bir sekans n her bir sekans entrisinientrisini iiççerdierdiğğini hayal ederse o zaman her bir sini hayal ederse o zaman her bir süütun yukartun yukarııdaki daki bilgi tiplerinden birisini her bir sekans ibilgi tiplerinden birisini her bir sekans iççin iin iççerir ve her bir serir ve her bir süütun tun ALAN olarak adlandALAN olarak adlandıırrııllıır.r.Son sSon süütun sekanslartun sekanslarıı iiççerir. erir. Bu alanlarBu alanlarıın n herbirindeherbirinde bir bilgi indeksi yapmak bir bilgi indeksi yapmak ççok kolaydok kolaydıır ve r ve bbööylece bir ylece bir searchsearch taramastaramasıı indeks boyunca bindeks boyunca büüttüün olun oluşşumlarumlarıın yerini n yerini belirler.belirler.Hatta akraba sekanslar bile Hatta akraba sekanslar bile ççapraz referanslapraz referanslııddıır. Ayrr. Ayrııca bir veri ca bir veri tabantabanıındaki bilgi dindaki bilgi diğğer bir veri tabaner bir veri tabanıındaki ile ndaki ile ççapraz olarak apraz olarak referanslreferanslııddıır.r.DNA, protein ve referans veritabanlarDNA, protein ve referans veritabanlarıınnıın hepsi n hepsi ççapraz olarak apraz olarak referanslreferanslııddıır ve br ve bööylece onlar arasylece onlar arasıında hareket etmek kolayca nda hareket etmek kolayca babaşşararııllıır ( r ( ENTREZENTREZ’’ee bak ).bak ).

Veri TabanVeri Tabanıı TipleriTipleri

BazBazıılarlarıı!!

ENTREZENTREZ

Veri TabanVeri Tabanıı EriErişşim Programim Programııhttp://http://ncbincbi..nlmnlm..nihnih.gov/.gov/EntrezEntrez

Spesifik Bir Sekans Elde EtmeSpesifik Bir Sekans Elde Etme

YukarYukarııdaki kurallardaki kurallarıı izleseniz bile spesifik bir gen veya protein dizisini izleseniz bile spesifik bir gen veya protein dizisini elde etmek zor olabilir elde etmek zor olabilir çüçünknküü GenBankGenBank veri tabanveri tabanıındaki sekans ndaki sekans saysayııssıınnıın n ççok olmasok olmasıı ve onlarve onlarıı indekslemenin kompleks bir problem indekslemenin kompleks bir problem olmasolmasııddıır.r.ŞŞu anda mevcut olan sekanslara ihtiyau anda mevcut olan sekanslara ihtiyaçç duyan projeler iduyan projeler iççin NR veri in NR veri tabanlartabanlarıı araaraşşttıırrıılmallmalııddıır.r.DiDiğğer projeler daha iyi ker projeler daha iyi küür edilen ve r edilen ve annotasyonannotasyon yapyapıılan protein lan protein sekans veri tabanlarsekans veri tabanlarıı olan PIR ve olan PIR ve SwissProtSwissProt’’unun mevcudiyetinden mevcudiyetinden faydalanabilirler. faydalanabilirler. GenproGenpro veri tabanveri tabanıındaki protein sekanslarndaki protein sekanslarıı DNA dizilerinin otomatik DNA dizilerinin otomatik olarak olarak translasyonuylatranslasyonuyla yaratyaratıılmlmışışttıır. r. mRNAmRNA dizilerinin dizilerinin cDNAcDNAkopyalarkopyalarıından okundundan okunduğğu zaman onlar gu zaman onlar güüvenilir bir sekans savenilir bir sekans sağğlarlar ( larlar ( translasyonaltranslasyonal babaşşlanglangııçç noktasnoktasıına belirli bir miktar belirsizlik na belirli bir miktar belirsizlik olmasolmasıına rana rağğmen ). men ). BirBirççok protein sekansok protein sekansıı şşimdi imdi genomikgenomik dizilerin dizilerin translasyonuylatranslasyonuylaekzonlarekzonlarıı tahmin ederek tahmin edilmektedir. Btahmin ederek tahmin edilmektedir. Bööylece protein ylece protein sekans sekans entrilerininentrilerinin orijininin belirlenmesine ihtiyaorijininin belirlenmesine ihtiyaçç vardvardıır ve er ve eğğer er onlar bir onlar bir cDNAcDNA sekanssekansıından dendan değğillerse o genin bir illerse o genin bir cDNAcDNA kopyaskopyasıınnıısekanslamaksekanslamak ve elde etmek gerekli olabilir.ve elde etmek gerekli olabilir.

TeTeşşekkekküürler!rler!