Gen bulma

Gen bulma, genomik DNA'da biyolojik olarak işlevsel olan dizileri algoritmik olarak tespit etmekle ilgili hesaplamalı biyolojinin bir sahasıdır. İşlevsel dizilerden kastedilen genelde protein kodlayıcı genler olmakla beraber, RNA genleri ve düzenleyici bölgeler de dahil edilir. Bir organizmanın genomu dizilendikten sonra bu genomun anlaşılabilmesi için ilk ve en önemli adım gen bulmadır.

"Gen bulma", başlangıçta canlı hücre ve organizmalar üzerinde yapılan zor deneylere dayalıydı. Çeşitli farklı genler arasındaki homolog rekombinasyon oranlarının istatistik analizi ile onların belli bir kromozom üzerindeki sırasını belirlenebilirdi. Bu tür pek çok deneyin sonuçları birleştirilerek bilinen genlerin yaklaşık konumlarını birbirlerine bağıl olarak gösteren bir genetik harita oluşturulabilirdi. Günümüzde genomların kapsamlı şekilde dizilenmesi ve güçlü bilgisayarların varlığı sayesinde gen bulma artık büyük oranda bir berimsel problem olarak tanımlanabilmektedir.

Bir dizinin işlevsel olduğunu belirlemek ile o genin (veya genin ürününün) işlevinin ne olduğunu belirlemek farklıdır. İkincisini yapabilmek için hâlâ gen nakavt ve diğer yöntemlerin kullanıldığı in vivo deneyler gerekmektedir, ama biyoenformatik bilimi geliştikçe bir genin sadece dizisine dayanarak onun işlevini tahmin etmek artan oranda mümkün olmaktadır.

Dışsal yaklaşımlar

Dışsal (haricî veya kanıta dayalı) gen bulma sistemlerinde, hedef genomda mesajcı RNA (mRNA) veya protein ürün dizileriyle uyumlu diziler aranır. Bir mRNA dizisine dayanarak onu transkripsiyon yoluyla üretecek bir genomik DNA dizisini bulmak basit bir işlemdir. Bir protein dizisinden başlayıp, genetik kodu kullanarak protein dizisini ters çevirisini yapmak ve onu kodlamış olabilecek DNA dizilerinin bir kümesini üretmek mümkündür. Aday DNA dizileri belirlendikten sonra hedef genomu arayıp onunla (kısmen veya tüm olarak, tam veya eksik olarak) eşleşen bölgeler bulmak nispeten basit bir algoritmik problemdir. BLAST bu amaç için yaygın kullanılan bir programdır.

Bilinen bir mRNA veya protein ile yüksek derecede benzerlik olması incelenen genomdaki bir bölgenin protein-kodlayıcı bir gen içerdiğinin kuvvetli bir kanıtıdır. Ancak, bu yaklaşımın sistematik olarak uygulanabilmesi için mRNA ve protein ürünlerinin önceden kapsamlı şekilde dizilenmiş olmasını gerektirir ki bu masraflı bir girişimdir. Bu yaklaşımın bir diğer zorluğu daha vardır, kompleks organizmalardaki genlerin ufak bir altkümesi belli bir anda ve belli bir hücre tipinde ifade edildiği için, kültürlenmiş hücre tipleri durumunda, çoğu gen hakkındaki mRNA veya protein bilgisi mevcut değildir. Dolayısıyla bir kompleks organizmadaki çoğu gen hakkında bu tür bilgilerin elde edilmesi için yüzlerce, hatta binlerce hücre tipinin üzerinde çalışılması gerekebilir. Örneğin, bazı insan genleri gelişim sırasında sadece embriyo veya fetus sırasında ifade edilir, bunların araştırılması ayrıca etik nedenlerden de zordur.

Tüm bu zorluklara rağmen, gerek insan gerek fare ve maya gibi biyolojideki diğer önemli model organizmalar için kapsamlı transkript ve protein dizi veritabanları üretilmiştir. Örneğin Refseq veritabanı pek çok türe ait transkript ve protein dizisi içerir, Ensembl sistemi tüm bu bulguları insan ve diğer canlıların genomları üzerinde haritalar. Ancak, bu veritanlarının hem eksik hem de önemli miktarda hatalı veri içeriyor olmaları muhtemeldir.

Ab initio yaklaşımlar

Genler hakkında dışsal kanıt elde etmenin masraf ve zorluğu nedeniyle, Ab initio (temel ilkelerden yola çıkan) gen bulma yöntemlerine de başvurmak gereklidir. Bu yaklaşım ile genomik DNA dizisinin kendisi, protein kodlayıcı genlere özgü belirtilerin varlığı için sistematik olarak taranır. Bu belirtiler kabaca sinyal ve içerik olarak sınıflandırılabilir: sinyal belirtiler yakında bir genin olduğuna işaret eden spesifik dizilerdir, içeriksel belirtiler ise protein kodlayıcı dizilerin istatistik özellikleridir. Daha doğru bir ifade ile, ab initio gen bulma yöntemlerinin gen öngörü (öndeyi) yöntemleri olduğunu söylenebilir, çünkü öne sürülen bir genin işlevsel olduğunun kesinleşebilmesi için dışsal kanıta gerek vardır.

Prokaryotların genomlarında genlerin spesifik ve nispeten iyi anlaşılmış promotör dizileri (sinyaller) vardır, Pribnow kutusu ve transkripsiyon faktörü bağlanma yeri gibi ve bunların sistematik olarak tespiti kolaydır. Ayrıca, protein kodlayıcı bir dizi tek parçalı bir açık okuma çerçevesinden oluşur, bunun uzunluğu da çoğu zaman yüzlerce veya binlerce nükleotit uzunluktadır. Dur kodonlarının görülme sıklığı göz önüne alınırsa bu uzunlukta bir açık okuma çerçevesi, gen bulmak bakımından oldukça bilgi verici bir belirti sayılır (genetik koddaki 64 kodondan üçü dur kodonu olduğuna göre rastgele bir dizi için yaklaşık her 20-25 kodonda bir veya her 60-75 nükleotitte bir dur kodonu bulunması beklenebilir). Üstelik, protein kodlayıcı DNA dizilerinde bazı periodiklikler ve başka istatistik özellikler vardır ve bu uzunlukta dizilerde bunların görülmesi kolaydır. Bu özellikler prokaryot genlerinin bulunmasını nispeten kolay kılar, iyi tasarlanmış berimsel sistemler yüksek doğruluk oranlarına ulaşabilir.

Ökaryotlarda Ab initio gen bulma, özellikle insan gibi karmaşık organizmalarda, çeşitli nedenlerden dolayı çok daha zordur. Birincisi, bu canlıların genomlarındaki promotör ve diğer düzenleyici sinyaller prokaryotlardakine kıyasla daha karmaşıktır ve daha az anlaşılabilmiştir, bu yüzden bunların güvenilir şekilde tanınması daha zordur. Ökaryotik gen bulucularının tespit ettiği iki klasik sinyal CpG adaları ve poli(A) kuyruğu için bağlanma yeridir.

İkincisi, ökaryotik hücrelerin kullandığı uçbirleştirme mekanizmaları nedeniyle, genomdaki tipik bir protein kodlayıcı dizi birkaç parçaya (eksonlara) ayrılmış durumdadır, bunlarına arasında ise protein kodlamayan diziler (intronlar) yer alır. (Uçbirleştirme yerlerinin tespiti, ökaryotik gen bulucularının tespit ettikleri sinyallerden biridir.) İnsan genomundaki tipik bir protein kodlayıcı gende belki bir düzine eksona bölünmüş olabilir, bunların her birinin uzunluğu iki yüz nükleotitin altındadır ve bazılarının uzunluğu 20-30 nükleotit kadar dahi olabilir. Dolayısıyla, periyodiklik ve protein kodlayıcı DNA'nın diğer içeriksel özelliklerinin tespiti ökaryotlarda çok daha zordur.

Hem prokaryotik hem ökaryotik genomlar için olan gelişmiş gen bulucuları, çeşitli farklı sinyal ve içerik ölçümlerinden elde edilen bilgileri birleştirmek için karmaşık olasılıksal modeller kullanır, gizli Markov modelleri (GMM) gibi. GLIMMER sistemi prokaryotlar için yaygın kullanılır ve yüksek derecede doğruluk gösterir. GeneMark bir diğer popüler programdır. Ökaryotik ab initio gen bulma sistemleri, bunlara karşın, sadece sınırlı derecede başarı göstermiştir: GENSCAN ve geneid programları bunlara örnek verilebilir. SNAP gen bulucusu, Genscan gibi GMM-tabanlıdır, üzerinde eğitilmemiş olduğu bir genom dizisi üzerinde çalışmanın doğuracağı sorunların üstesinden gelerek için farklı organizmalara daha uyumlu olmaya çalışır.^[1] mSplicer,^[2] CONTRAST,^[3] veya mGene^[4] gibi bazı programlar destek vektör makinası gibi makine öğrenimi tekn'kler' de kullanırlar, daha başarılı bir gen öngörüsü için. Gizli Markov destek vektör makinaları veya şartlı rastgele alanlar (conditional random field) kullanan ayırdedici modeller (discriminative model) kurarak doğru bir gen öngörü skor fonksiyonu öğrenmeye çalışırlar.

Diğer sinyaller

Gen öngörüsü için kullanılan, dizi analizi ile türetilmiş sinyallere örnek olarak, k-li istatistikler, psödo-sayı olarak kodlanmış DNA dizilerinin Fourier dönüşümü ve Z-eğrisi parametreleri sayılabilir.^[5]

Dizi içinde doğrudan yer almayan sinyallerin gen öngörüsüne daha iyileştirebileceği öne sürülmüştür. Örneğin, düzenleyici motiflerin tespitinde ikincil yapının kullanımı rapor edilmiştir.^[6] Ayrıca, RNA ikincil yapısının uçbirleçtirme yeri tespitine yardım ettiği öne sürülmüştür.^[7]^[8]^[9]^[10]

Karşılaştırmalı genomik yaklaşımlar

Pek çok canlı türünün genomlarının tamamı dizilenmiş olduğu için, gen bulma araştırmalarında gelecek vadeden bir saha, karşılaştırmalı genomiktir. Bu yaklaşımın varsayımı, gen ve diğer işlevsel bölgelerdeki mutasyon hızının, doğal seleksiyon güçleri nedeniyle genomun geri kalanına kıyasla daha yavaş olduğudur, çünkü işlevsel bölgelerdeki mutasyonların organizmaya zarar verici olma olasılıkları daha yüksektir, diğer yerlerdeki mutasyonlara oranla. Evrimsel olarak birbiriyle ilişkili türlerin genomları karılaştırılarak dizilerin korunumu yönündeki bu evrimsel eğilim görülebilir. Bu yaklaşım ilk olarak fare ve insan genomlarında kullanılmıştır, SLAM, SGP ve Twinscan/N-SCAN gibi programlarla.

Karşılaştırmalı gen bulma yönteminin bir diğer uygulaması, bir genoma ait yüksek kaliteli bilgi notları (annotation) bir diğer genoma aksettirilmesidir. Bunu yapan başlıca programlar arasında Projector, GeneWise ve GeneMapper sayılabilir. Bu tür teknikler artık tüm genomların bilgi notlandırlması merkezî bir rol oynamaktadır.

Kaynakça

^ Korf I. (14 Mayıs 2004). "Gene finding in novel genomes". BMC Bioinformatics. Cilt 5. ss. 59-67. doi:10.1186/1471-2105-5-59. PMID 15144565.
^ Rätsch; ve diğerleri. (23 Şubat 2007). "Improving the C. elegans genome annotation using machine learning". PLoS Computational Biology. 3 (2). ss. e20. doi:10.1371/journal.pcbi.0030020. PMID 17319737.
^ Gross; ve diğerleri. (20 Aralık 2007). "CONTRAST: A Discriminative, Phylogeny-free Approach to Multiple Informant De Novo Gene Prediction". Genome Biology. 8 (12). ss. R269. doi:10.1186/gb-2007-8-12-r269. PMID 18096039.
^ Schweikert; ve diğerleri. (19 Mayıs 2009). "mGene.web: A Web Service for Accurate Computational Gene Finding". Nucleic Acids Research.
^ Saeys Y, Rouzé P, Van de Peer Y (2007). "In search of the small ones: improved prediction of short exons in vertebrates, plants, fungi and protists". Bioinformatics. 23 (4). ss. 414-420. doi:10.1093/bioinformatics/btl639. PMID 17204465. 24 Mayıs 2009 tarihinde kaynağından arşivlendi. Erişim tarihi: 14 Eylül 2010.
^ Hiller M, Pudimat R, Busch A, Backofen R (2006). "Using RNA secondary structures to guide sequence motif finding towards single-stranded regions". Nucleic Acids Res. 34 (17). ss. e117. doi:10.1093/nar/gkl544. PMID 16987907. Şablon:Entrez Pubmed.
^ Patterson DJ, Yasuhara K, Ruzzo WL (2002). "Pre-mRNA secondary structure prediction aids splice site prediction". Pac Symp Biocomput. ss. 223-234. Şablon:Entrez Pubmed.
^ Marashi SA, Goodarzi H, Sadeghi M, Eslahchi C, Pezeshk H (2006). "Importance of RNA secondary structure information for yeast donor and acceptor splice site predictions by neural networks". Comput Biol Chem. 30 (1). ss. 50-57. doi:10.1016/j.compbiolchem.2005.10.009. Şablon:Entrez Pubmed.
^ Marashi SA, Eslahchi C, Pezeshk H, Sadeghi M (2006). "Impact of RNA structure on the prediction of donor and acceptor splice sites". BMC Bioinformatics. Cilt 7. s. 297. doi:10.1186/1471-2105-7-297. Şablon:Entrez Pubmed.
^ Rogic, S (2006). "The role of pre-mRNA secondary structure in gene splicing in Saccharomyces cerevisiae 30 Mayıs 2009 tarihinde Wayback Machine sitesinde arşivlendi.". PhD Dissertation, University of British Columbia.

Dış bağlantılar

http://www.geneprediction.org 15 Ocak 2020 tarihinde Wayback Machine sitesinde arşivlendi.
http://www.genefinding.org 30 Aralık 2019 tarihinde Wayback Machine sitesinde arşivlendi.
https://web.archive.org/web/20050305091432/http://www.binf.ku.dk/users/krogh/genefinding.html
https://web.archive.org/web/20070219211807/http://www.swbic.org/links/1.4.3.2.php
https://web.archive.org/web/20070206214758/http://bio.math.berkeley.edu/slam/
Hesaplamalı gen tanıma hakkında bibliyografya14 Mayıs 2008 tarihinde Wayback Machine sitesinde arşivlendi.
geneid 13 Aralık 2009 tarihinde Wayback Machine sitesinde arşivlendi.
SGP2 19 Mart 2021 tarihinde Wayback Machine sitesinde arşivlendi.
http://cbcb.umd.edu/software/glimmer26 Ağustos 2011 tarihinde Wayback Machine sitesinde arşivlendi.
http://cbcb.umd.edu/software/GlimmerHMM18 Ağustos 2011 tarihinde Wayback Machine sitesinde arşivlendi.
https://web.archive.org/web/20080908011830/http://bio.math.berkeley.edu/genemapper/
https://web.archive.org/web/20061116041807/http://www.genomethreader.org/
GENSCAN
Twinscan/N-SCAN
CHEMGENOME 14 Mart 2010 tarihinde Wayback Machine sitesinde arşivlendi.
GeneMark 26 Eylül 2010 tarihinde Wayback Machine sitesinde arşivlendi.
Gismo
mGene 25 Ağustos 2010 tarihinde Wayback Machine sitesinde arşivlendi.
StarORF 21 Şubat 2011 tarihinde Wayback Machine sitesinde arşivlendi.

[1] Korf I. (14 Mayıs 2004). "Gene finding in novel genomes". BMC Bioinformatics. Cilt 5. ss. 59-67. doi:10.1186/1471-2105-5-59. PMID 15144565.

[2] Rätsch; ve diğerleri. (23 Şubat 2007). "Improving the C. elegans genome annotation using machine learning". PLoS Computational Biology. 3 (2). ss. e20. doi:10.1371/journal.pcbi.0030020. PMID 17319737.

[3] Gross; ve diğerleri. (20 Aralık 2007). "CONTRAST: A Discriminative, Phylogeny-free Approach to Multiple Informant De Novo Gene Prediction". Genome Biology. 8 (12). ss. R269. doi:10.1186/gb-2007-8-12-r269. PMID 18096039.

[4] Schweikert; ve diğerleri. (19 Mayıs 2009). "mGene.web: A Web Service for Accurate Computational Gene Finding". Nucleic Acids Research.

[Saeys2007-5] Saeys Y, Rouzé P, Van de Peer Y (2007). "In search of the small ones: improved prediction of short exons in vertebrates, plants, fungi and protists". Bioinformatics. 23 (4). ss. 414-420. doi:10.1093/bioinformatics/btl639. PMID 17204465. 24 Mayıs 2009 tarihinde kaynağından arşivlendi. Erişim tarihi: 14 Eylül 2010.

[Hiller2006-6] Hiller M, Pudimat R, Busch A, Backofen R (2006). "Using RNA secondary structures to guide sequence motif finding towards single-stranded regions". Nucleic Acids Res. 34 (17). ss. e117. doi:10.1093/nar/gkl544. PMID 16987907. Şablon:Entrez Pubmed.

[Patterson2002-7] Patterson DJ, Yasuhara K, Ruzzo WL (2002). "Pre-mRNA secondary structure prediction aids splice site prediction". Pac Symp Biocomput. ss. 223-234. Şablon:Entrez Pubmed.

[Marashi2006a-8] Marashi SA, Goodarzi H, Sadeghi M, Eslahchi C, Pezeshk H (2006). "Importance of RNA secondary structure information for yeast donor and acceptor splice site predictions by neural networks". Comput Biol Chem. 30 (1). ss. 50-57. doi:10.1016/j.compbiolchem.2005.10.009. Şablon:Entrez Pubmed.

[Marashi2006b-9] Marashi SA, Eslahchi C, Pezeshk H, Sadeghi M (2006). "Impact of RNA structure on the prediction of donor and acceptor splice sites". BMC Bioinformatics. Cilt 7. s. 297. doi:10.1186/1471-2105-7-297. Şablon:Entrez Pubmed.

[Rogic2006-10] Rogic, S (2006). "The role of pre-mRNA secondary structure in gene splicing in Saccharomyces cerevisiae 30 Mayıs 2009 tarihinde Wayback Machine sitesinde arşivlendi.". PhD Dissertation, University of British Columbia.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]