Web sayfalarının otomatik olarak sınıflandırılması üzerine yaklaşımlar ve örnek simülasyon uygulaması

Yükleniyor...
Küçük Resim

Tarih

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Gebze Yüksek Teknoloji Enstitüsü, Lisansüstü Eğitim Enstitüsü

Erişim Hakkı

info:eu-repo/semantics/closedAccess

Özet

İnternet aracılığı ile ulaşılabilen zengin bilgi kaynaklan, günümüz araştırmacılarına cazip bir veri arama ortamı sunmaktadır. Büyük bölümü WWW (World Wide Web), üzerinde olan erişilebilir bilgi kaynakları, sayılarının inanılmaz derecede yüksek olması nedeni ile sınıflandırıldıktan sonra kişilere sunulmaktadır. İlk zamanlarda insan aracılığı ile yapılan sınıflandırma, günümüzde doküman sayısının çok hızlı bir şekilde artması dolayısıyla otomatik olarak yapılır hale gelmiştir. Bunun için, bazı ön tanımlı kelimeler yardımı ile web sayfalan sınıflandırılmaktadır. Yaygın olarak kullanılan metin sınıflandırma teknikleri, düz metin belgelerinin sınıflandırılmasında kullanılmaktadır. İnternet ortamı tarafından sunulan link, title ve paragraf başlıkları gibi daha zengin yapıların avantajları, bu teknikler aracılığı ile kullanılamamaktadır. Oysa bu kaynaklar web sayfalarının sınıflandırılmasında büyük kolaylıklar sağlamaktadır.. Bu uygulama sonucunda ortaya çıkarılan analizler ile web sayfalarının otomatik olarak sınıflandırılmasında oldukça yaygın olarak kullanılan ve internet ortamının yukarıda bahsedilen avantajlarını kullanabilen algoritmalar ile geliştirilmiş bir simülasyon uygulaması yazılmıştır. Eğitim sayfalarının ve anahtar kelimelerin doğru seçimi ve eşik seviyesinin doğru tespiti ile beraber otomatik sınıflandırmanın başarılı sonuçlar ürettiği sonucuna varılmıştır. Simülasyon uygulaması spidering prosesini gerçekleştiren bir program ile beraber kullanıldığı taktirde tüm bir siteyi dolaşarak daha doğru sonuçlar verecektir. Anahtar Kelimeler : Web Sayfalarının Sınıflandırılması, KNN ve Centroid Algoritmaları, Web Madenciliği

Today's rich information resources - reached by the help of internet - present a very good searching environment. Since most of them are on the WWW (World Wide Web), because of the unbelievable huge numbers, they are presented to the people after the classification. In the first days of the classification issue, it is handled by people manually, but since the number of documents have increased very rapidly by the time, it is now handled automatically by the software. The first step of this process, it is to define the web sites by the help of predefined words. Widely used text categorization techniques are used in the classification of flat documents. The advantages of using enhanced structures like links, titles, paragraph headers could not be classified by the techniques. In fact, these resources play very important role in the classification of the web pages. By the workouts and analysis results obtained from this application, a simulation program is written by using the advantages of the above algorithms that are widely used in automatic classification of web sites. It is determined that this simulation application has produced successful results by correct selection of training pages and features, threshold levels. If the simulation program is used together with spidering process, it will yield better correct results by surfing the whole website.

Açıklama

Bu tezin, veri tabanı üzerinden yayınlanma izni bulunmamaktadır. Yayınlanma izni olmayan tezlerin basılı kopyalarına Üniversite kütüphaneniz aracılığıyla (TÜBESS üzerinden) erişebilirsiniz.

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control, Web Pages Classification, KNN and Centroid Algorithms, Web Mining

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Onay

İnceleme

Ekleyen

Referans Veren