Quantitative ways of measuring natural language change through time and location

Yükleniyor...
Küçük Resim

Tarih

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Gebze Teknik Üniversitesi, Lisansüstü Eğitim Enstitüsü

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Birbirini izleyen nesiller boyunca diller gelişmiştir, yeni diller ve lehçelere dallanmıştır; yeni kelimeler ortaya çıkmış, telaffuzlar değişmiş ve morfoloji gelişmiştir. Bir dilde ikame edilmiş sözcükleri bulmak ve benzer dillerin benzerliklerini bilmek, dillerin gelişimini incelemenin temel taşını oluşturmuştur. Doğu dillerinde paralel korporanın azlığı bu dilleri incelemedeki zorluğu ortaya çıkarmıştır. Dillerin gelişimini inceleyen mevcut yaklaşımlar ya paralel korporaya dayanmıştır ya da yüksek başarım gösterememiştir. Bu çalışmanın amacı gözetimsiz öğrenmeyle paralel korpora kullanmadan kelime ikamesini ve diller arası benzerliği otomatik olarak tespit eden etkin bir sistem oluşturmaktır. Kelime ikamesini keşfetmek ve zamana dayalı kelime vektör uzayları ile zamandan bağımsız evrensel kelime vektör uzayının nasıl hizalanacağını öğretmek için basit ve etkin sözlük tabanlı doğrulama yöntemi ile çekişmeli eğitim prosedürünü kullandık. Ayrıca, tek dilli metinler üzerinde eğitilmiş n-gram modellere dayanarak diller arası benzerliği kestirdik. Önerilen modellerimizi Türk dilleri ve Arap lehçelerine uyguladık. Türk dil gelişiminin son 100 yıllık döneminde en çok değişen dönemleri bulmanın yanı sıra sözcük ikamelerini de belirledik. Ayrıca Türk dilleri ve Arap lehçeleri için tam bağlantılı benzerlik çizgeleri oluşturduk. Bir ısı haritasında benzerlikleri görselleştirdik ve bunu diller arası benzerliğe coğrafi dağılımın etkisini gösteren bir harita sunduk.

Over successive generations, languages have evolved, with new languages and dialects branching out; new words emerge, pronunciations vary, and morphology develops. The process of finding substituted words in a language, as well as knowing how similar languages are, is the cornerstone of studying the development of languages. The challenge in studying Eastern languages occupies in the scarcity of parallel corpora. Current approaches that study the development of languages are either based on parallel corpora or are not of high quality. The goal of this work is to build an effective system that automatically detects word substitution and inter-language similarity using unsupervised learning, i.e., without parallel corpora. To discover word substitution, we employ an adversarial training procedure to learn how to align between time-based word embeddings spaces and time-independent global word embeddings space with a simple and effective dictionary-based validation method. Furthermore, we estimate the inter-language similarity based on the perplexity of n-gram models that trained on monolingual texts. We apply our proposed models on Turkic languages and Arabic dialects. We identify word substitutions, in addition to finding the most changed periods during the last 100-years stage of Turkish language development. Moreover, we create fully connected similarity graphs for Turkic languages and Arabic dialects. We visualize the similarities in a heatmap, and we present a map showing the inter-language similarity and the influence of the geographical distribution.

Açıklama

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Onay

İnceleme

Ekleyen

Referans Veren