Web sayfalarının otomatik olarak sınıflandırılması üzerine yaklaşımlar ve örnek simülasyon uygulaması
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
İnternet aracılığı ile ulaşılabilen zengin bilgi kaynaklan, günümüz araştırmacılarına cazip bir veri arama ortamı sunmaktadır. Büyük bölümü WWW (World Wide Web), üzerinde olan erişilebilir bilgi kaynakları, sayılarının inanılmaz derecede yüksek olması nedeni ile sınıflandırıldıktan sonra kişilere sunulmaktadır. İlk zamanlarda insan aracılığı ile yapılan sınıflandırma, günümüzde doküman sayısının çok hızlı bir şekilde artması dolayısıyla otomatik olarak yapılır hale gelmiştir. Bunun için, bazı ön tanımlı kelimeler yardımı ile web sayfalan sınıflandırılmaktadır. Yaygın olarak kullanılan metin sınıflandırma teknikleri, düz metin belgelerinin sınıflandırılmasında kullanılmaktadır. İnternet ortamı tarafından sunulan link, title ve paragraf başlıkları gibi daha zengin yapıların avantajları, bu teknikler aracılığı ile kullanılamamaktadır. Oysa bu kaynaklar web sayfalarının sınıflandırılmasında büyük kolaylıklar sağlamaktadır.. Bu uygulama sonucunda ortaya çıkarılan analizler ile web sayfalarının otomatik olarak sınıflandırılmasında oldukça yaygın olarak kullanılan ve internet ortamının yukarıda bahsedilen avantajlarını kullanabilen algoritmalar ile geliştirilmiş bir simülasyon uygulaması yazılmıştır. Eğitim sayfalarının ve anahtar kelimelerin doğru seçimi ve eşik seviyesinin doğru tespiti ile beraber otomatik sınıflandırmanın başarılı sonuçlar ürettiği sonucuna varılmıştır. Simülasyon uygulaması spidering prosesini gerçekleştiren bir program ile beraber kullanıldığı taktirde tüm bir siteyi dolaşarak daha doğru sonuçlar verecektir. Anahtar Kelimeler : Web Sayfalarının Sınıflandırılması, KNN ve Centroid Algoritmaları, Web Madenciliği
Today's rich information resources - reached by the help of internet - present a very good searching environment. Since most of them are on the WWW (World Wide Web), because of the unbelievable huge numbers, they are presented to the people after the classification. In the first days of the classification issue, it is handled by people manually, but since the number of documents have increased very rapidly by the time, it is now handled automatically by the software. The first step of this process, it is to define the web sites by the help of predefined words. Widely used text categorization techniques are used in the classification of flat documents. The advantages of using enhanced structures like links, titles, paragraph headers could not be classified by the techniques. In fact, these resources play very important role in the classification of the web pages. By the workouts and analysis results obtained from this application, a simulation program is written by using the advantages of the above algorithms that are widely used in automatic classification of web sites. It is determined that this simulation application has produced successful results by correct selection of training pages and features, threshold levels. If the simulation program is used together with spidering process, it will yield better correct results by surfing the whole website.









