Geniş veri setlerinden anlamlı ve doğru bilgilerin çıkarılması biyoinformatik çalışmalarında önemli bir unsurdur. Karşılaşılan en önemli zorluklardan biri, kanser ile ilişkili olan genomik işaretçilerin tespitidir. Bu problemin çözümü için kullanılan genom dizilimlerinin sayısallaştırılması ve dizilimlerden öznitelik çıkarımı, sorunun çözümünde oldukça etkilidir. DNA dizilimlerinin sayısallaştırılması için literatürde var olan çeşitli yöntemler kullanılmaktadır. Öznitelik çıkarımında da, önceki çalışmalarda, belirli istatistiksel parametreler hesaplanmakta ve bu parametreler üzerinden bir ayrım gerçekleştirilmektedir. Ayrıca, hesaplanan parametreler uzmanın tecrübesine dayalı olarak seçilmektedir. Bu çalışmada önerilen yaklaşımda ise, yeni bir haritalama yöntemi olan Entropi tabanlı sayısal haritalama ile DNA dizilimleri sayısal sinyallere dönüştürülmüş ve daha sonra sayısallaştırılan DNA dizilimlerinden Evrişimsel Sinir Ağları (ESA) kullanılarak öznitelik çıkarımı yapılmıştır. ESA modelleri kullanarak yapılan öznitelik çıkarma işleminde sistem, veriden kendisi öznitelik çıkarmaktadır. Daha sonra ESA modellerinden elde edilen öznitelikler Destek Vektör Makinesi (DVM) ve k-En yakın komşu algoritması (k-NN) ile sınıflandırılmıştır. Bu çalışmada, yukarıda bahsedilen her iki yaklaşım kullanılarak DNA dizilerinden göğüs kanseri ve sağlıklı gen dizilimi gruplarının sınıflandırması için yeni bir yöntem önerilmektedir. Önerilen yöntem ile ulaşılan sınıflandırma doğruluğu %85.97’dir. Elde edilen sonuçlar, derin öğrenmenin genom analizinde genlerin sınıflandırılması, yeni genlerin bulunması gibi uygulamalarda etkili bir yöntem olabileceğini göstermektedir.
The extract of meaningful and accurate information from the wide data sets is an important element in bioinformatics studies. One of the most important challenges faced is the detection of genomic indicators associated with cancer. The numerization of the genome ranges used to solve this problem and the extract of the properties from the ranges are very effective in solving the problem. There are several methods in literature that are used to numerize DNA ranges. In particular, in previous studies, certain statistical parameters are calculated and a distinction is made through these parameters. Also, the calculated parameters are selected based on the experience of the expert. In the approach proposed in this study, entropic-based numeric maping, a new method of maping, transformed DNA sequencing into numeric signals and subsequently digitalized DNA sequencing with the use of Evolutionary Neural Networks (ESA). In the process of identification using the ESA models, the system extracts identification from the data itself. Subsequently, the properties obtained from ESA models were classified by the Support Vector Machine (DVM) and the k-Last Neighbor's Algorithm (k-NN). In this study, a new method is proposed for the classification of breast cancer and healthy genetic sorting groups from DNA series using both the above approaches. The classification accuracy achieved by the recommended method is 85.97%. The results obtained show that deep learning can be an effective method in applications such as the classification of genes in the genom analysis, the discovery of new genes.
Alan : Mühendislik
Dergi Türü : Ulusal
Benzer Makaleler | Yazar | # |
---|
Makale | Yazar | # |
---|