Fotoğraftan bağlam bazlı geometri uyumlu doküman oluşturma

Yükleniyor...
Küçük Resim

Tarih

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Gebze Teknik Üniversitesi, Lisansüstü Eğitim Enstitüsü

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Kağıt dokümanlar bazı alanlarda halen vazgeçilmez olsa da, dokümanları dijital ortama aktarıp saklamak kişi ve kurumlara bazı avantajlar sağlamaktadır. Tarayıcılar bu amaçla sıkça kullanılan araçlardır ve kaliteli belge görüntüleri sağlarlar. Fakat her ihtiyaç anında bir tarayıcı bulunamaz. Günümüzde kaliteli kamera barındıran mobil cihazlar da dokümanları dijital ortama aktarmak için sıkça kullanılmaktadırlar. Bu cihazlarla dokümanları fotoğraflamak çok pratik olsa da, kaliteli doküman görüntüsü elde etmek zordur. Perspektif, aydınlatma problemleri yada dokümanın uygun olmayan fiziksel durumu gibi nedenlerle ideal doküman görüntüsü oluşturulamaz. Geometrik bozulmaların düzeltilmesi, fotoğraflanan dokümanın 3B yapısının tahminini gerektirir. Çalışmada sinir ağlarını kullanarak dokümanın 3B şeklinin tahminini yapan yeni bir yaklaşım sunulmuştur. 3B tahmin, fotoğraf üzerinde geometrik bilgilere sahip olmayı gerektirir. Modellenen sinir ağları görüntünün bağlamından geometrik bilgiler çıkararak 3B şeklin yapılandırılmasını sağlamaktadır. Böylece ideal doküman geometrisine ulaşılır. Diğer problem, aydınlatma koşullarına bağlı olarak dokümanın düzensiz tonlamalarla görüntülenmesidir. Düzensiz tonlamaların giderilip metin ve arka-planın ayrıştırılması için segmentasyon gereklidir. Bu maçla ilk olarak bir "yerel uyarlamalı eşikleme algoritması" uygulanmıştır. İkinci olarak ise, popüler bir sinir ağı olan SegNet modelini temel alan bir bölütleme algoritması gerçekleştirilmiştir. Sinir ağlarının eğitiminde gerçekte karşılaşılan fotoğraflama koşullarını yansıtan veriler kullanılmıştır. Bundan dolayı yöntem çok çeşitli koşullar altında elde edilmiş fotoğraflara uygulanabilmektedir. Uygulamanın başarısını ölçmek için yapılan deneyler ve bir ticari uygulama ile yapılan karşılaştırma yöntemin başarılı çalıştığını göstermiştir.

Although paper documents are still indispensable in some areas, transferring and storing documents provide advantages to users. Scanners are frequently used devices for this purpose and provide quality document images. However, we don't have a chance to find a scanner whenever we need it. Nowadays, mobile devices with quality cameras are also frequently used to digitize documents. Although photographing documents with these devices is very practical, it is difficult to obtain a quality document image. The quality document image cannot be created due to perspective or lighting problems. The rectification of geometric distortions requires an estimation of the 3D shape of the photographed document. In this study, a new approach that predicts the 3D shape using neural networks is introduced. Estimating the 3D shape requires having geometric information on the photo. Modeled networks extract geometric information from the context of the document image and 3D shape is created. Besides, the documents are photographed in undesirable tones, depending on the lighting conditions. Segmentation is required to separate text and background. To this purpose, an adaptive thresholding algorithm and an algorithm based on the SegNet model was applied separately. Data reflecting actual document conditions were used to train the neural networks. Therefore, the method can be applied to images that are photographed from varying perspectives and creased in many different ways. Experiments to measure the success of the studies and comparison with a commercial application shows that the method works well.

Açıklama

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control, Makine Öğrenmesi, Bilgisayarla Görme, Konvolüsyonel Sinir Ağları, Segmentasyon, Doküman Oluşturma, Machine Learning, Computer Vision, Convolutional Neural Network, Segmentation, Document Reconstruction

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Onay

İnceleme

Ekleyen

Referans Veren