Alternatif düşük ranklı matris ayrışımı ile gizli anlamsal dizinleme

Horasan, Fahrettin

dc.contributor.advisor	Erbay, Hasan
dc.contributor.author	Horasan, Fahrettin
dc.date.accessioned	2021-01-16T19:12:43Z
dc.date.available	2021-01-16T19:12:43Z
dc.date.issued	2018
dc.identifier.uri	https://hdl.handle.net/20.500.12587/17009
dc.description	YÖK Tez ID: 512706	en_US
dc.description.abstract	Kullanım alanı sürekli genişleyen bilgisayarlar tarafından dijital ortamda depolanan verilerin boyutları günden güne büyümektedir. Ancak bu veriler işlenmediği ya da analiz edilmediği sürece sadece bir arşivden ibarettir. Bu nedenle, istatistikçiler, ekonomistler, iş planlayıcıları, reklam analistleri ve iletişim mühendisleri gibi birçok sektör çalışanları bu depolanan verilerden anlamlı bilgiler elde etmek amacıyla sürekli araştırma ve geliştirme yapmaktadırlar. Araştırmacılar temel olarak büyük veri yığınlarından genel bir sonuca ulaşma, bilinen ya da bilinmeyen problemleri bulma, bu problemleri çözme, problem çözüm yöntemleri geliştirme, yapılabilecek bir değişikliğin etkisini tahmin etme, işlem ve deneylerini zamandan ve veri kaynaklarından bağımsız olarak yapabilmenin yollarını araştırmaktadırlar. Bu çalışmada ise, devasa doküman yığını içerisinden istenilen dokümanlara ve/veya bilgilere doğru bir şekilde erişmeyi amaçlamayan bilgiye erişim sistemlerinden biri olan Gizli Anlamsal Dizinleme (GAD) yönteminde kullanılan Tekil Değer Ayrışımına (TDA) alternatif bir düşük ranklı matris ayrışımı önerilmektedir. GAD modelinde, doküman yığını içerisindeki her bir terim ve bu terimleri içeren dokümanlar lineer cebir yöntemleri ile sayısallaştırılarak bir vektör uzayında temsil edilmektedir. Vektör uzayının elde edilmesinde kullanılan genel yöntem ise TDA'dır. Ancak TDA ile gerçekleştirilen bu işlemin hesaplama ve hafıza açısından çok maliyetli olması araştırmacıları alternatif yöntemlere yönlendirmektedir Düşük ranklı matris ayrışımı olarak önerilen Kesik ULV Ayrışımı ile (K-ULVA) vektör uzayının elde edilme sürecindeki maliyet TDA'ya göre daha düşüktür. Ayrıca, doküman yığınına eklenecek yeni dokümanların temsili için yapılan blok güncelleme sürecinin kolay ve maliyetinin az olması K-ULVA'nın bir diğer avantajıdır. K-ULVA ve TDA ile yapılan iki ayrı GAD sistemini karşılaştırılmak amacıyla bilgiye erişim çalışmalarında yaygın olarak kullanılan veri setleri tercih edilmiştir. Son olarak, bir bot yazılımı kullanarak Türkçe haber sayfalarından elde edilen haber metinleri ile Türkçe bir veri seti geliştirilmiş ve bu iki GAD sisteminin bu veri seti üzerindeki performansı da gözlemlenmiştir. Yapılan incelemeler sonucunda K-ULVA ve TDA tabanlı dizinleme modellerinin tüm veri setlerindeki başarılarının oldukça benzer olduğu görülmüştür. K-ULVA yönteminin blok güncelleme yöntemindeki kolaylığı ve maliyetinin az olması sebebiyle TDA yöntemine iyi alternatif matris ayrışımı olduğu sonucuna varılmıştır.	en_US
dc.description.abstract	The size of the data stored in the digital environment is increasing day by day by the ever-expanding use of computers. However, this data is only an archive, unless it is processed or analyzed. For this reason, many sector employees, such as statisticians, economists, business planners, advertising analysts and communications engineers, are constantly researching and developing to obtain meaningful information from these stored data. Researchers are basically looking for ways to reach a general outcome from large data sets, finding known or unknown problems, solving these problems, developing problem-solving methods, estimating the effect of a possible change, and performing operations and experiments independently from data sources. In this work, we propose an alternative low rank matrix decomposition for Singular Value Decomposition (SVD) which is used in the latent semantic indexing (LSI) method, which is one of the information retrieval systems that does not intend to access the desired documents and / or information from the gigantic collection of documents. In the LSI model, each term in the collection of documents and documents containing these terms are represented in a vector space by being digitized by linear algebra methods. The general method used to obtain the vector space is SVD. However, this process performed by the SVD is very costly in terms of calculation and memory, which diverts researchers to alternative methods. The cost of obtaining the vector space with Truncated ULV Decomposition (T-ULVD), which is proposed as a low-rank matrix decomposition , is lower than TDA. Another advantage of K-ULVA is that the block updating process for the representation of new documents to be added to the collection of documents is easy and low cost. In order to compare two different LSI systems with T- ULVD and SVD, data sets commonly used in information retrieval studies have been preferred. Finally, a Turkish data set has been developed with news texts from Turkish news pages using a bot software and the performance of these two LSI systems on this data set are also observed. Based on the experiments, it is seen that the success of K-ULVA and TDA-based indexing models in all data sets are very similar. Because of the simplicity and low cost of the T-ULVD method in the block updating method, it is the result of a good alternative matrix decomposition to the SVD method.	en_US
dc.language.iso	tur	en_US
dc.publisher	Kırıkkale Üniversitesi	en_US
dc.rights	info:eu-repo/semantics/openAccess	en_US
dc.subject	Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol	en_US
dc.subject	Computer Engineering and Computer Science and Control ; Bilim ve Teknoloji	en_US
dc.subject	Science and Technology	en_US
dc.subject	Eğitim	en_US
dc.subject	Education ; Eğitim düşüncesi	en_US
dc.subject	Education thought ; Eğitim tarihi	en_US
dc.subject	Educational history ; Eğitim yönetimi	en_US
dc.subject	Educational administration ; Turhan, Mümtaz	en_US
dc.subject	Turhan, Mümtaz ; Türk eğitim sistemi	en_US
dc.subject	Turkish education system ; Ülken, Hilmi Ziya	en_US
dc.subject	Ülken, Hilmi Ziya	en_US
dc.title	Alternatif düşük ranklı matris ayrışımı ile gizli anlamsal dizinleme	en_US
dc.title.alternative	Latent semantic indexing with alternate low rank matrix approximation	en_US
dc.type	doctoralThesis	en_US
dc.contributor.department	KKÜ, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Anabilim Dalı	en_US
dc.identifier.startpage	1	en_US
dc.identifier.endpage	96	en_US
dc.relation.publicationcategory	Tez	en_US

Bu öğenin dosyaları:

Ad:: 512706.pdf
Boyut:: 2.269Mb
Biçim:: PDF
Açıklama:: Tam Metin/Fulltext

Göster/Aç

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Doktora Tez Koleksiyonu [25]

Basit öğe kaydını göster

Alternatif düşük ranklı matris ayrışımı ile gizli anlamsal dizinleme

Bu öğenin dosyaları:

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

İlgili Öğeler

Üniversite tercih aşamasındaki ortaöğretim son sınıf öğrencilerinin üniversite tercihini etkileyen faktörler üzerine bir araştırma ﻿

Lisansüstü Öğrencilerinin Bilimsel Araştırmaya İlişkin Yeterlikleri ve Araştırmaya Yönelik Kaygılarının Çeşitli Değişkenler Açısından İncelenmesi ﻿

Üniversite Öğrencilerinin Örgütsel İmaj Algıları ﻿

Üniversite tercih aşamasındaki ortaöğretim son sınıf öğrencilerinin üniversite tercihini etkileyen faktörler üzerine bir araştırma

Lisansüstü Öğrencilerinin Bilimsel Araştırmaya İlişkin Yeterlikleri ve Araştırmaya Yönelik Kaygılarının Çeşitli Değişkenler Açısından İncelenmesi

Üniversite Öğrencilerinin Örgütsel İmaj Algıları