Çizge katıştırma ve fenotip benzerlik tabanlı hibrit gen önceliklendirme yöntemi

Yükleniyor...
Küçük Resim

Tarih

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Gebze Teknik Üniversitesi, Lisansüstü Eğitim Enstitüsü

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Genetik hastalıkların teşhisi için kullanılan gen önceliklendirme bilgisayar mühendisliği ve genetik bilimi disiplinlerinin odak noktasındaki güncel ve gelişmekte olan bir araştırma konusudur. Gen önceliklendirme çok sayıda gen arasından hastalığa neden olma olasılığı en yüksek genleri belirlemeyi amaçlar. Bu alanda benzerlik tabanlı veya katıştırma tabanlı yöntemler üzerinde çalışılmıştır. Bu tez kapsamında, çizge katıştırma ve fenotip benzerlik tekniklerini birleştirerek gen önceliklendirme başarımını arttırmak hedeflenmektedir. Bu amaçla GRATE (Gene Ranking by Averaging Top gene-related phenotype scores using HPO Embeddings / HPO Katıştırmalarını Kullananarak En İyi Fenotip Puanlarının Ortalamasını Alan Gen Sıralaması) ismi verilen yeni bir hibrit yöntem önerilmiştir. GRATE'in diğer katıştırma tabanlı yöntemlerden farkı, doğrudan gen ve fenotip katıştırmaları arasında karşılaştırma yapmak yerine, fenotip kümesi karşılaştırması kullanmasıdır. GRATE'in doğruluk oranını arttırmak amacıyla "Average-N" ve "IC-N" adını verdiğimiz iki yeni teknik uygulanmaktadır. Average-N tekniğinde her bir hasta fenotipinin gen benzerliği hesaplanırken, gen-ilişkili fenotip kümesindeki en yüksek puana sahip N fenotip dikkate alınmaktadır. IC-N stratejisinde ise, Average-N yaklaşımına ek olarak benzerlik değerleri bilgi içeriği (Information Content) değerleri ile ağırlıklandırılmaktadır. GRATE'de HPO içindeki hiyerarşik yapı ve fenotip terimlerinin gen anotasyonları kullanılarak katıştırma oluşturulmaktadır. GRATE, ClinVar gönderimlerinden elde edilen iki veri kümesi üzerinde test edilerek başarımını güncel yöntemlerle karşılaştırılmıştır. Sonuçlar, çalışma kapsamında geliştirilen yöntemin literatürdeki yöntemlerden daha iyi başarım gösterdiğini ortaya koymaktadır. Ayrıca, GRATE küme karşılaştırması yapması sayesinde yüksek açıklanabilirlik sağlamaktadır. Yüksek açıklanabilirlik, sonuçların alanın uzmanları tarafından daha kolay doğrulanmasını sağlar. Bu özellikleri ile, geliştirilen bu hibrid gen önceliklendirme yöntemi, kritik genlerin tespit edilmesi ile genetik hastalıkların teşhisine önemli ölçüde katkıda bulunacaktır.

The gene prioritization for diagnosing genetic diseases is a current and evolving research topic at the intersection of computer engineering and genetic science disciplines. The gene prioritization aims to identify genes with the highest probability of causing a disease among numerous genes. In this field, phenotype similarity-based or embedding-based methods have been studied. This thesis aims to improve gene prioritization performance by combining graph embedding and phenotype similarity techniques. For this purpose, a new hybrid method called GRATE (Gene Ranking by Averaging Top gene-related phenotype scores using HPO Embeddings) is proposed. The difference between GRATE and other embedding-based methods is that it uses phenotype set comparison instead of directly comparing gene and phenotype embeddings. To increase the accuracy rate of GRATE, two new techniques called "Average-N" and "IC-N" are applied. In the Average-N technique, when calculating the gene similarity of each patient phenotype, the N phenotypes with the highest scores in the gene-related phenotype set are considered. In the IC-N strategy, in addition to the Average-N approach, similarity values are weighted with information content (IC) values. In GRATE, embeddings are created using the hierarchical structure within HPO and the phenotype-gene associations. GRATE was tested on two datasets obtained from ClinVar submissions, and its performance was compared with current methods. The results show that the method developed within the scope of the study performs better than the methods in the literature. Additionally, GRATE provides high explainability due to its set comparison approach. High explainability allows for easier verification of results by domain experts. With these features, this hybrid gene prioritization method will contribute significantly to the diagnosis of genetic diseases by identifying critical genes.

Açıklama

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Onay

İnceleme

Ekleyen

Referans Veren