Büyük veride HADOOP ve mapreduce uygulanması ve HDFS'ye alternatif dosya sistemi geliştirilmesi

Yükleniyor...
Küçük Resim

Tarih

2018

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Kırıkkale Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Hadoop, dağıtılmış dosyalarda çok miktarda veri depolamayı sağlayan bir dosya sistemine, Hadoop Dağıtık Dosya Sistemine (HDFS) sahiptir ve iş yükünü ve depolamayı paralel hale getirerek hesaplamaları gerçekleştirmek ve büyük miktarda veri işlemek için MapReduce programlama modelini kullanmaktadır. Ayrıca hem bireylerin hem de kuruluşların büyük verileri kullanmaları için, herhangi bir veri depolama ve işleme tesislerine yatırım yapmayı ortadan kaldıran bulut bilişim teknolojisi de geliştirilmiştir. Bulut bilişim ihtiyaca göre ölçeklenebilen, anında kullanıma hazır hizmet sağlayıcılardan oluşan internet ortamını ifade etmektedir. Verilerin internet ortamında saklanması ve internet vasıtasıyla işlenmesi çeşitli güvenlik ve gizlilik sorunlarını gündeme getirmektedir. Bu tez kapsamında öncelikle büyük veri kavramı ayrıntılı olarak incelenmiştir. Daha sonra bir ana, üç bağımlı düğüm olarak dört düğüm ile bir hadoop kümesi oluşturulmuş ve kümenin performansı test edilmiştir. Düğüm, çoğaltma (replica), harita (map) ve indirgeme (reduce) sayısında, girdi dosyalarının ve HDFS blok boyutunda değişiklikler uygulanarak çeşitli testler yapılmıştır. Sonuç olarak, hadoopun büyük dosyaları işlemek için tasarlanan ve çok sayıda küçük dosya ile çalışırken performans sıkıntısı çeken, ayrıca kümeyi yöneten tek bir ana düğümle çalışan dosya sistemine sahip olduğu gözlemlenmiştir. Son olarak, buna alternatif bir sistem önerilmiştir. Bu sistem ile şifreleme teknikleri kullanılarak güvenlik sıkıntısı çözülmüş ve dosya yapılandırılmasında birden fazla blok boyutu kullanılarak küçük ve büyük dosyaların depolanması kolaylaştırılmıştır. Ayrıca sistem tek bir ana düğüme bağlı olmayıp birden fazla sunucu ile çalışmakta ve düğümsel problemi ortadan kaldırmaktadır.
Hadoop has Hadoop Distributed File System, a file-system that allows you to store large amounts of data in distributed files and uses the MapReduce programming model to perform calculations by making workload and storage parallel and to process large amounts of data.In addition, cloud computing technology has been developed that removes investment in any data-storage and processing facilities for both individuals and organizations to use large amounts of data.Cloud computing refers to an internet environment consisting of ready-to-use service providers that can be scaled according to their needs.The storage of data on the internet and processing by means of internet brings various security and confidentiality problems.In this thesis firstly the concept of bigdata is examined in detail.Then, hadoop cluster with four nodes as one master and three slaves was created and the performance of the cluster was tested.Various tests have been done by applying changes in node, replica, map-reduce numbers and in different sizes with input files and HDFS block size.As a result, Hadoop has been observed to have file-system that is designed to handle large files and has performance bottlenecks when working with many small files, and also running on single main node that manages the cluster.Finally, alternative system has been proposed.With this system, security problem is solved by using encryption techniques and it is facilitated to store small and large files by using more than one block-size in file-configuration.In addition, the-system is not connected to single master-node but works with multiple servers and thus removes the node problem.

Açıklama

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control, , , , ,

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye