Gizli anlamsal analiz ile metin sınıflandırma

Deniz, Emre

Gizli anlamsal analiz ile metin sınıflandırma

Dosyalar

476596.pdf (1.37 MB)

Tarih

2017

Yazarlar

Deniz, Emre

Yayıncı

Kırıkkale Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Günümüzde, çoğunluğu metinsel veriler olmak üzere birçok veri kaynağından bilgi elde edilebilmektedir. Spesifik bir konuda aradığımız bilgiyi elde etmek için tüm dokümanları incelemek mümkün değildir. Verileri otomatik olarak sınıflandırmak, istediğimiz verilere ulaşmada önemli bir avantaj sağlar. Gizli Anlamsal Analiz (LSA), Tekil Değer Ayrışımını (SVD) kullanarak bir vektör uzayındaki terimler ve dokümanlar arasındaki gizli yapıyı ortaya çıkaran yöntemlerden biridir. Dokümanların dizinlenmesi, otomatik özetlenmesi ve anahtar kelimelerinin belirlenmesi gibi çalışmalarda kullanılan LSA, yapısı itibari ile metin sınıflandırma alanında da kullanılabilir. Bu çalışmada Reuters veri tabanındaki metinsel veriler kullanılarak LSA ile metin sınıflandırması gerçekleştirilmiştir. Reuters veri tabanından alınan beş sınıfa ait metinsel verilerin terim-sınıf matrisi oluşturulmuştur. Elde edilen terim-sınıf matrisine SVD uygulanarak rank- yaklaşımına göre anlamsal uzay elde edilmiştir. Bu anlamsal uzaydaki terim ve terimlerin ait olduğu sınıfların konumları temel alınarak sınıfı önceden bilinen dokümanların kosinüs benzerliğine göre ait olabileceği sınıflar listelenmiştir. Yapılan testler sonucunda elde edilen bulgular incelendiğinde önerilen sınıflama yönteminin büyük oranda doğru sonuçlar çıkardığı gözlemlenmiştir ve mevcut sınıflandırma yöntemlerine alternatif olabileceği görülmüştür.
Today, information can be obtained from many data sources, most of which are textual data. In a specific matter, it is not possible to examine all the documents in order to obtain the information we seek. Classifying the data automatically provides an important advantage in reaching the data we want. Latent Semantic Analysis(LSA) is one of the methods that reveals the latent structure between documents and terms in a vector space using Singular Value Decomposition(SVD). The LSA used in studies such as indexing of documents, automatic summarization and determination of key words documents, can also be used in text classification field by structure. In this study, text classification with LSA was performed using textual data from Reuters database. The term-class matrix of the textual data of the five classes taken from the Reuters database was constructed.The semantic space is obtained according to rank-k approximation by applying SVD to the obtained term-class matrix. Based on the positions of the classes to which the terms and terms in this semantic space belong, the classes to which the previously known documents belong can be classified according to cosine similarity. When the findings obtained from the tests conducted are examined, it is observed that the proposed classification method has resulted in correct results.

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control, Doppler, Doppler ; Patoloji, Pathology ; Polipler, Polyps ; Ultrasonografi, Ultrasonography

Bağlantı

https://hdl.handle.net/20.500.12587/17032

Koleksiyon

Fen Bilimleri Enstitüsü Tez Koleksiyonu

Detaylı Öğe Kaydı

Gizli anlamsal analiz ile metin sınıflandırma

Dosyalar

Tarih

Yazarlar

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Erişim Hakkı

Özet

Açıklama

Anahtar Kelimeler

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Bağlantı

Koleksiyon