Elektronik belge yönetim sistemi geliştirilmesi ve küçük boyutlu dosyalardan oluşan büyük verinin depolanması için dağıtık dosya sistemi tasarımı
Özet
Kurum ve kuruluşların işleyişleri ile ilgili işlemler sonucu ortaya big data (büyük veri) diye adlandırılan, klasik veri yönetme ve depolama yöntemleri ile depolanamayan ve sürdürülemeyen bir büyüklükte veri ortaya çıkmaktadır. Bu büyük veri, kuruluşların işlem hacminin büyük olması, ortaya çıkan elektronik belgelerin kalitesinin iyi olması ve bilişim teknolojisi aygıtlarının eskiye göre maliyetinin daha düşük olması nedeniyle kullanılabilirlik oranının artmasından kaynaklanmaktadır. Ortaya çıkan büyük veri, klasik depolama yöntemleri yerine performansı ve küçük-orta ölçekli birimler için maliyeti daha düşük olan farklı yöntemlerle yönetilmektedir. Bu çalışmada, orta ölçekli bir kuruluş için dağıtık, hybrid bir dosya yönetim sistemi tasarlanmıştır. İlk önce Elektronik Belge Yönetim Sistemi (EBYS) geliştirilmiş, daha sonra, bu yazılımın ortaya çıkarttığı veriyi yönetecek olan dağıtık dosya sistemi tasarlanmıştır. Yeni tasarlanan dosya sistemi yaygın kullanılan diğer dosya sistemleri ile karşılaştırılmıştır. Tasarlanan sistemi, diğer sistemlerden ayıran en büyük özellik sunucusuz çalışıyor olmasıdır. Diğer sistemlerde bulunan ve sunucu gibi çalışan name node, head node veya server node tasarlanan sistemde bulunmamaktadır. Bu sayede sisteme süreklilik kazandırılmakta, bir data node birden fazla istemci programa hizmet verebilmekte, en uygun yük dengeleme yapılabilmektedir. Sistemde dağıtık olarak kullanılan veri bloğu bunch olarak adlandırılmıştır. Bir bunch 10 MB büyüklüğündedir. Tasarlanan sistemde sadece replica node ve data node kullanılmış, data node sayısı dört olarak belirlenmiştir. Bu değer, yatay ölçeklenebilirlik sayesinde sınırsız olarak arttırılabilmektedir. Bir data bloğu üç replica node 'ta tutulmakta, bu sayede veri güvenliği sağlanmaktadır. İlave olarak, sistemin güvenliği hem IP'ler kontrol edilerek hem de data node'lara gönderilen veriler şifrelenerek sağlanmaktadır. Tasarlanan dağıtılmış dosya sisteminin performansı diğer dosyalama sistemleri ile karşılaştırıldığında, İşletim Sisteminin dosya sistemine göre %74 daha iyi performans göstermiştir. Aynı şekilde, ilişkisel veri tabanı programına göre %80 ve NoSQL sisteme göre %97 daha iyi performans değerleri ortaya çıkmıştır. Tasarlanan sistem sayesinde, kurumların maliyeti, iş yükü ve teknoloji ihtiyaçları en aza indirilecektir. Tasarlanan sistem iyi bir performansa sahip, ölçeklenebilir, bazı node'larda hata oluşması durumunda bile çalışmasını sürdürebilir, name node olmayan, güvenli ve düşük maliyetli bir sistem olmuştur. As a result of the operations related to the operation of institutions and organizations, large data is generated which can not be stored and stored with conventional data management and storage methods called big data. The large transaction volume of these organizations is due to the fact that the quality of the resulting electronic data is good and therefore the data volume is large and the usability rate is increased due to the lower cost of information technology devices compared to the old ones. The resulting big data is now managed by different methods, with lower performance for small and medium-sized units, instead of classical storage methods. We designed a distributed, hybrid file management system for a medium-sized organization. First we developed Electronic Record Management System (ERMS). We then designed the distributed file system. We have compared the newly designed file system with other commonly used file systems. The main difference between the system and other systems is that it works without a server. There aren't a name node, a head node, or a server node running as a server as that are other systems. In the system, a data node can serve more than one client program. In this way, the optimum load balancing can be done. The data block used in the system is called bunch, and a bunch of 10 MB in size. Only replica nodes and data nodes are used in the system. The number of data nodes is 4. With this horizontal scalability, unlimited values can be increased. A data block is kept at 3 replica nodes. In this way, data security is provided. In addition, the security of the system is ensured both by controlling the IPs and by encrypting the data sent to the data nodes. The designed distributed file system performance was 74% better than the operating system's file system when compared to other filing systems. Likewise, performance scores of 80% and 97% better than those of the relational database program and the NoSQL system, respectively. Thanks to the system, the cost, workload and technology needs of the institutions will be minimized. The system has been a safe, low-cost system, a good performance, scalable, non-name-node, which can continue to function even in the event of some node failure.