Web sayfalarının gizli anlam analizi yaklaşımıyla otomatik olarak sınıflandırılması
Özet
Bilgisayar ve ağ teknolojisinin hızlı gelişimi İnternet?in popülaritesini arttırmaktadır. İnternet üzerindeki bilgi miktarının devasa artışı ve web sayfalarının barındırdığı gürültülü bilginin çeşitliliği nedeniyle web sayfalarının içerik sınıflandırması doğal metin sınıflandırmasına göre daha karmaşık ve zordur. Geleneksel bilgi alma metotları dokümanların sınıflandırılabilmesi için terimlerin doküman içerisinde bulunmasını kullanır fakat bunun sonucunda genellikle ilgisiz web sayfaları sonuç olarak döndürülür. Bu çalışmada, web sayfalarını etkili bir şekilde sınıflandırabilmek için Gizli Anlam Analiz temelli otomatik web sayfası sınıflandırma algoritması geliştirilmiştir. Algoritmanın son aşamasında Destek Vektör Makinesi yardımıyla sınıfları birbirinden ayıran eğri çizilmiştir. Ayrıca başarı ve performansı etkileyen terim ağırlıklandırma ve özellik uzayının yüksek boyutluluk problemine çözüm sağlayan özellik seçim yöntemleri üzerinde çalışılmıştır. Deneysel sonuçlar önerilen sınıflandırma algoritmasının etkinliğini göstermiştir ve dokümanların iyi temsil edildiği bir terim - doküman matrisinin sınıflandırma performansını geliştirdiğini saptamıştır. The fast development on the computer and network technology has increased the popularity of Web. Due to the gigantic increase in the amount of information on the web and a large variety of noisy information embedded in Web pages, Web page classification is getting more sophisticated and difficult than pure-text classification. Traditional information retrieval methods use terms occurring in document to determine the class of the document, but the retrieve usually results in unrelated web pages. In this study, Latent Semantic Analysis based automatic web page classification algorithm developed in order to effectively classify web pages. The curve separates the document classes plotted by the Support Vector Machine in the final step of the algorithm. We also study on the feature weighting and the feature selection methods which are used to reduce the size of the feature space. The experimental results demonstrate that the proposed classification algorithm robust and effectively classify the documents, moreover, the results demonstrate that the better the representation of the documents by term - document matrix results in the better classification.