Diyabet hastalığının makine öğrenmesi algoritmaları ile en iyi doğru tahmininin elde edilmesi
Özet
Diyabet oranı dünya genelinde hızla artmaktadır. Türkiye Diyabet Vakfı Başkanı'nın yaptığı açıklamaya göre; dünyada 450 milyon kişi diyabetle mücadele etmektedir. Türkiye'de ise bu rakam 10 milyon kişi üzerinde olup, diyabetli nüfus açısından bu rakam dünya ortalamasının yaklaşık 2 katı kadar bir değere tekabül etmektedir. Bunun yanı sıra, Türkiye Avrupa'da diyabetin en hızlı artış gösterdiği ülkedir. 2015 yılı verilerine göre, Türkiye'de her 12 kişiden biri diyabetlidir. Diyabetin erken tespiti sayesinde yaşam tarzı değişikliklerinin başlatılması ve uygun koruyucu önlemler alınması, diyabetin başlangıcını önlemeye veya ertelemeye yardımcı olmaktadır. Geçmişten günümüze kadar yapılan bilimsel çalışmalar sonucunda, pre-diyabet ve tip 2 diyabetin erken teşhis problemi olduğu kanıtlanmıştır. Bu bağlamda diyabet teşhisi için kolay, hızlı ve doğru tanı koyma araçlarına ihtiyaç duyulmaktadır. Erken diyabet teşhisi için makine öğrenimi algoritmalarına dayalı kolay, hızlı ve hassas bir tahmin aracı geliştirmek gerekmektedir. Bu çalışmada kullanılan veri seti, Türkiye'deki diyabetli ve diyabetik olmayan hastaların sağlık profillerinden oluşmaktadır. Hastaların 10 farklı özelliği giriş değişkeni olarak seçilmiş olup, sonuç değişkeni olarak da hasta olup olmadığına ait değerler kullanılmıştır. Deneklerin diyabetik durumun tahmin edilebilmesi için elde edilen veriler, 7 farklı makine öğrenmesi algoritması kullanılarak işleme tabi tutulmuştur. Toplam 2657 adet denekten 1860 adedi algoritmanın eğitimi için kullanılmış olup, kalan 797 veri adedi ise algoritmanın test edilmesi için ayrılmıştır. Diyabet tahmin modelinin geliştirilebilmesi için açık kaynak kodlu Orange programı kullanılmıştır. Algoritmanın doğruluğunu optimize edebilmek için farklı kombinasyonlar, gizli düğüm sayısı ve beklenti maksimizasyonu (EM) iterasyonları uygulanmıştır. Yapay sinir ağı algoritmasının, %97.2'lik doğru tahmin başarısıyla en iyi başarıyı elde ettiği tespit edilmiştir. İkinci ve üçüncü en iyi başarı ise %96.9 ve %96'lık doğru tahmin başarı oranlarıyla lojistik regresyon ve random forest ile elde edilmiştir. Bu çalışma, yüksek doğrulukta diyabetik ve diyabetik olmayan bireyleri tanımlamak için son derece hassas bir makine öğrenme tahmin aracını tanımlamaktadır. Bu yöntem, hastanelerde veya diyabet önleme programlarında geniş çaplı tarama için kullanılabilir. The rate of diabetes is increasing worldwide rapidly. According to the statement made by the President of Turkey Diabetes Foundation, 450 million people in the world are fighting against diabetes. This number is over 10 million people in Turkey and this number is about twice that of the world average for diabetes population. Furthermore, Turkey is the country that showed the most rapid increase of diabetes in Europe. According to the data 2015 year, one in every 12 people is diabetes in Turkey. Thanks to early detection of diabetes, various prevention are taken by people like a lifestyle change. In this way, the beginning of diabetes is prevented or delayed by doctors. As a result of scientific research, pre-diabetes and Type II diabetes have been proven to be an early detection problem. Therefore; simple, quick, correct diabetes diagnostic tools are required for the diagnosis of diabetes. Machine learning algorithms are used in prediction of diagnostic tools. The data set of this study have data of diabetic and non-diabetic patient. 10 different characteristics of patients are selected as input variables. Diabetic or non-diabetic patients data used as output variables. Data required to predict diabetic condition been tried to with 7 different learning algorithms. 1860 data are used for algorithm training from the total of 2657 data and the remaining 797 data is reserved for testing. Orange programming are used for the development of the diabetes prediction model. Different combinations, number of hidden nodes, expectation maximization iterations are used for optimize the accuracy of the algorithm. Artificial neural networks algorithm is the most successful of all with successful prediction of 97.2%. Logistic regression and random forest are the second and third best success with successful prediction of %96.9 and %96. This study defines machine learning prediction tool for diabetic and non-diabetic patients. This method can be used for wide screening in hospital or diabetes prevention programs.