Automated somatic variant refinement from RNA sequencing data

Yükleniyor...
Küçük Resim

Tarih

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Gebze Teknik Üniversitesi, Lisansüstü Eğitim Enstitüsü

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Kanser, dünya çapında ikinci ana ölüm nedenidir ve kanser hastalarının sayısının her yıl artması beklenmektedir. Kanserin ana nedeni somatik mutasyonların elde edilmesi olarak kabul edilir. Somatik mutasyonlar, bir kanser hastasının tümör örneğinde meydana gelen ancak eşleşen normal örnekte meydana gelmeyen mutasyon türüdür. Yeni nesil sekanslama teknolojilerinin ortaya çıkmasıyla, bir kanser hastasının tümör ve normal örneklerinin yüksek verim ve kalitede sekanslanması sağlanmıştır. Kanser hastalarının teşhisi ve doğru terapi fırsatlarının geliştirilmesi için, somatik mutasyonların doğru tanımlanması klinik çalışmalar açısından da çok önemlidir. Literatürde somatik mutasyonları tanımlamayı amaçlayan birçok araç geliştirilmiştir, ancak farklı araçlar tarafından çağrılan varyantlar arasındaki uyumun düşük olduğu gözlemlenmektedir. Somatik varyant çağırma, sekanslama artefaktları, hizalama artefaktları, tümör normal kontaminasyonu ve tümör heterojenliği nedeniyle zorlu bir süreçtir. Farklı araçlar tarafından tespit edilen yanlış pozitif varyantları ortadan kaldırmak için, IGV gibi görselleştirme araçları kullanarak her bir varyantı manuel olarak incelemek gerekmektedir. Somatic varyant çağırma araçlarından elde edilen varyantları incelemek amacıyla için gereken bu manuel inceleme süreci, zaman ve emek tüketen bir süreçtir. Son zamanlarda yapılan bir çalışma, manuel iyileştirme sürecini belirlenmiş kurallar ve etiketler tanımlayarak standartlaştırılmıştır. Bu tezin amacı, standardize edilmiş kurallar çerçevesinde farklı araçlar tarafından çağrılan yanlış varyantları ortadan kaldırmak için manuel inceleme sürecini otomatize eden bir makine öğrenme modeli geliştirmektir. Geliştirilen otomatize model, kanser hastalarını daha kısa sürede daha yüksek doğrulukta teşhis etme olanağı sağlayarak manuel çabaların azaltılmasına fayda sağlayacaktır.

Cancer is the second main cause of death worldwide and the number of cancer patients is expected to increase each year. The main cause of cancer is considered as the acquisition of somatic mutations. Somatic mutations are the type of mutations that occur in the tumor sample of a cancer patient but not in the matching normal sample. With the advent of next generation sequencing technologies, the sequencing of tumor and normal samples of a cancer patient in high throughput and high quality have been enabled. For diagnosis of cancer patients and the development of correct therapeutic opportunities, the accurate identification of somatic mutations is crucial in clinical settings. There are many existing tools in literature that aim to identify somatic mutations, but the called variants by different tools show low concordance. Somatic variant calling is a challenging process due to sequencing artifacts, alignment artifacts, tumor-normal contamination and tumor heterogeneity. To eliminate the false positive variants that have been detected by different tools, a visualization tools such as IGV have been employed to examine each variant manually. This manual inspection process to refine the somatic variants called by different tools, is a time and labor consuming process. A recent study standardized this manual refinement process by introducing established rules and tags. This aim of this thesis is to develop a machine learning model that would automate the manual inspection process to eliminate false variants called by the tools by following the standardized rules. The developed automated model will provide the opportunity to diagnose cancer patients with higher accuracy in a shorter time frame and provide benefits by the reducing the manual efforts.

Açıklama

Anahtar Kelimeler

Biyomühendislik, Bioengineering

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Onay

İnceleme

Ekleyen

Referans Veren