Keyword extraction from speech data using center based clustering

Yükleniyor...
Küçük Resim

Tarih

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Gebze Teknik Üniversitesi, Lisansüstü Eğitim Enstitüsü

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Bu çalışmada doğal dil işlemenin temel konularından olan sesin metne dönüşümü ve metin üzerinden anahtar kelimelerin bulunması üzerine çalışılmıştır. Konuşma tabanlı uygulamalardan alınan ses dosyalarının metne çevrilmesi ve sonrasında elde edilen metinler üzerinden anahtar kelime analizi yapılarak içeriğin otomatik olarak etiketlenmesi amaçlanmıştır. Geliştirilen sistem uçtan uca çevrimiçi olup konuşmadan metne model eğitimi, veri toplanması ve etiketlenmesi, elde edilen metin üzerinden anahtar kelimelerin çıkarılmasını sağlayan modelin ve bu modeli uçtan uca çalıştıran sistemleri kapsamaktadır. Konuşmadan metne çevrimi için, transformer tabanlı özel modeller, önceden eğitilmiş modeller (VOSK, Wav2Vec 2.0), çevrimiçi online model (Google Speech 2 Text) modelleri kullanılmış ve birbirleriyle kıyaslanmıştır. Anahtar kelime çıkarma modeli için, çevrimiçi çalışan ve Türkçe sonuç üretebilen RAKE, YAKE!, TF/IDF modelleri ile kendi geliştirdiğimiz anahtar kelime bulma modeli kıyaslanmış ve sonuçları irdelenmiştir. Bu çalışmanın ana katkıları, kelime içeriğini olduğu gibi kullanmak yerine, kelime köklerinin hesaplanması sonrasında puanlama yapılması, çokça geçen fiillerin ve fiil gruplarının cezalandırılması, birden fazla aday kümede dinamik olarak işlem yapabilmek için yeni bir dinamik küme seçim algoritması kullanılmasıdır. Kullanılan farklı konuşmadan metne model skorlarının anahtar kelime çıkarım modeline etkileri gösterilmiştir. Geliştirdiğimiz anahtar kelime çıkarma modeli düşük skorlu konuşma metinlerinde de diğer yöntemlere göre iyi sonuçlar üretmektedir. Ayrıca, sistemin kıyaslanması için insanlar tarafından etiketlenen bir veri seti oluşturuldu. Sistemin ölçeklenebilir olması için de geliştirilen tüm servisler sanallaştırmaya uygun olarak yazılmış böylece docker üzerinden çalışacak hale gelmiştir.

In this work, one of the main subjects of natural language processing, the conversion of speech to text and the extraction of keywords from the text were studied. It is aimed to convert the audio files taken from speech-based applications into text and then automatically label the content by making keyword analysis on the obtained texts. The developed system is online end-to-end and includes speech-to-text model training, data collection and labeling, the model that provides the extraction of keywords from the obtained text, and systems that run this model end-to-end. Transformer-based custom models, pre-trained models (VOSK, Wav2Vec 2.0), online model (Google Speech 2 Text) models were used and compared with each other for speech-to-text conversion. For the keyword extraction model, the RAKE, YAKE!, TF/IDF models that work online and produce Turkish results are compared with the keyword finding model we have developed and the results are examined. The main contributions of this work are, instead of using raw content, use of word roots before calculating any scores, penalization of verbs and verb groups, a naïve dynamic cluster selection algorithm is used to select multiple clusters. The effects of the different speech-to-text model scores used on the keyword extraction model are shown. The keyword extraction model we developed produces better results than other methods in low-score speech texts. Also, a benchmarking dataset was created which was labeled by humans. All services developed for the system to be scalable have been written in accordance with virtualization so that they will run over docker.

Açıklama

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Onay

İnceleme

Ekleyen

Referans Veren