Syllable-based approach with deep learning methods on Turkish diacritic restoration

Acar, Öznur

Syllable-based approach with deep learning methods on Turkish diacritic restoration

dc.contributor.advisor	Akgül, Yusuf Sinan
dc.contributor.author	Acar, Öznur
dc.date.accessioned	2025-10-29T09:32:24Z
dc.date.issued	2024
dc.department	Enstitüler, Lisansüstü Eğitim Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalı
dc.description.abstract	İnternetin yaygınlaşması ve teknolojinin hızla ilerlemesi nedeniyle birden fazla dilde mevcut olan dijital metinlerin miktarı sürekli artmaktadır. Ancak klavye düzenleri ve alfabelerdeki farklılıklar nedeniyle birçok aksan işareti yok veya yanlış kullanılıyor, bu da okumayı zorlaştırabiliyor. Bu kusurlara rağmen kelime anlamlarını doğru bir şekilde yorumlamak için doğal dil işlemeyi gerektiren uygulamalar bu konuda zorluk yaşamaktadır. Mevcut araştırma, çeşitli dilleri kapsayan çok sayıda doğal dil işleme (NLP) uygulamasının temel bir bileşeni olan aksan restorasyonuna (DR) odaklanmaktadır. Türkçenin anlam açısından güçlü hece duyarlılığı dikkate alınarak bu çalışmada hece temelli çift yönlü dönüştürücü yapı geliştirilmiştir. Modelin performansını daha da arttırmak için hece ve kelime yapısı kısıtlamaları ve kuralları eğitim seti üzerinde başarılı bir şekilde kodlanmıştır. Model eğitimi sırasında verilere bu yapısal kısıtlamaların ve kuralların eklenmesiyle, modelin anlambilimi öğrenme yeteneği özellikle geliştirildi. Sonuç olarak, çalışmanın sonuçları, önerilen modelin konfigürasyonunun iyileştirilmesiyle mümkün olan ve daha önceki kelime tabanlı ve karakter tabanlı araştırmaların sonuçlarını geride bırakan dikkate değer ilerlemeyi vurgulamaktadır. %99,02 gibi dikkat çekici bir doğruluk oranına ulaştık. Spesifik olarak, belirsiz kelimeleri çözmedeki %97,06'lık son derece yüksek doğruluk oranı, başarılı anlamsal öğrenmenin göstergesiydi. Bu başarı, çeşitli dillerde NLP uygulamalarını geliştirme potansiyelini vurguluyor ve aksan restorasyonu alanında önemli bir kilometre taşını temsil ediyor.
dc.description.abstract	The amount of digital text available in multiple languages is constantly expanding due to the widespread usage of the Internet and the quick advancement of technology. However many diacritical marks are absent or misused due to variations in keyboard layouts and alphabets, which can make reading difficult. Applications requiring natural language processing to accurately interpret word meanings in spite of these flaws are challenged by this. The present investigation centers on diacritic restoration (DR), an essential component of numerous natural language processing (NLP) applications spanning various languages. Given Turkish's strong syllable sensitivity in meaning, a syllable-based bidirectional transformer structure has been developed in this work. To further enhance the model's performance, the syllable, and word structure restrictions and rules were successively coded on the training set. By introducing these structural restrictions and rules into the data during model training, the model's ability to learn semantics was particularly enhanced. As a result, the study's conclusions emphasize the notable advancement made possible by refining the configuration of the suggested model, surpassing the results of previous word-based and character-based research. We achieved a remarkable 99.02% accuracy rate. Specifically, the extremely high accuracy rate of 97.06% in resolving ambiguous words indicated successful semantic learning. This accomplishment highlights the potential for enhancing NLP applications across a range of languages and represents a significant milestone in the field of diacritic restoration.
dc.identifier.endpage	94
dc.identifier.startpage	1
dc.identifier.uri	https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=UjlM15wKZGQW6TLC0pvCt4lCzXs81jbpF-caztJg_35Li8zNh-4kG7fAWh2KOt-8
dc.identifier.uri	https://hdl.handle.net/20.500.14854/3275
dc.identifier.yoktezid	891705
dc.institutionauthor	Acar, Öznur
dc.language.iso	en
dc.publisher	Gebze Teknik Üniversitesi, Lisansüstü Eğitim Enstitüsü
dc.relation.publicationcategory	Tez
dc.rights	info:eu-repo/semantics/openAccess
dc.snmz	KA_TEZ_20251020
dc.subject	Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol
dc.subject	Computer Engineering and Computer Science and Control
dc.title	Syllable-based approach with deep learning methods on Turkish diacritic restoration
dc.title.alternative	Türkçe diakritik restorasyonu konusunda derin öğrenme yöntemleriyle hece tabanlı yaklaşım
dc.type	Master Thesis

Koleksiyon

Lisansüstü Eğitim Enstitüsü Tez Koleksiyonu

Syllable-based approach with deep learning methods on Turkish diacritic restoration

Dosyalar

Koleksiyon