Rahim ağzı kanserinin veri madenciliği yöntemleri ile sınıflandırılması
Abstract
Rahim ağzı kanseri, kanser vakaları içerisinde dünya çapında en yaygın dördüncü vakadır. Kanser vakalarının da hızla artmasıyla yapılacak doğru ve hızlı tespit büyük önem taşımaktadır. Rahim ağzı kanseri ile ilgili birçok araştırmacı veri madenciliği, derin öğrenme gibi yöntemlerle çalışmalar yürütmektedir. Bu sayede risk faktörlerinin kolayca tespit edilerek değerlendirilmesi ve tanısal doğruluğun arttırılması sağlanmaktadır. Bu tez çalışmasında, California University Irvine (UCI) veri kümesi koleksiyonundan alınan "Cervical Cancer (Risk Factors) Data Set" bazı veri madenciliği sınıflandırma yöntemleri ile incelenmiştir. Veri setinde 0 ve 1 mantıksal (boolean) değerlerle ifade edilen iki farklı sınıf çalışma boyunca normal ve hasta olarak belirtilmiştir. Veri setinde normal kişi sayısının fazla olup hasta kişi sayısının düşük olmasından kaynaklanan dengesizlik durumunu gidermek için SMOTE uygulanmıştır. Bu çalışmada doğruluk kriterine ek olarak duyarlılık yani hasta kayıtları doğru sınıflandırma başarısı da dikkate alınmıştır. Sonuçlar Destek Vektör Makinesi (DVM) algoritmasının Naive Bayes ve J48 Karar Ağacı algoritmalarına göre daha başarılı olduğunu ve hastalığın teşhisinde Citology hedef değişkenine göre Biopsy hedef değişkeni ile daha başarılı sonuçlar elde edildiğini göstermiştir. Cervical cancer is the fourth most common cancer worldwide. Accurate and rapid detection to be made with the rapid increase in cancer cases is of great importance. Many researchers about cervical cancer are conducting studies such as data mining and deep learning. In this way, risk factors are easily identified and evaluated and diagnostic accuracy is increased. In this thesis, "Cervical Cancer (Risk Factors) Data Set" which is obtained from California University Irvine (UCI) data set collection is examined with some data mining classification methods. In the data set, two different classes, expressed as boolean values 0 and 1, were identified as normal and patient throughout the study. In the data set, SMOTE was applied to eliminate the imbalance caused by the high number of normal people and the low number of patients In this study, in addition to the accuracy criteria, the accuracy of accurate classification of patient records known as sensitivity was also considered. The results showed that the Support Vector Machine (SVM) algorithm was more successful than Naive Bayes and J48 Decision Tree algorithms and that the results of the diagnosis were better than the Citology target variable with the Biopsy target variable.
URI
Bu tezin, veri tabanı üzerinden yayınlanma izni bulunmamaktadır. Yayınlanma izni olmayan tezlerin basılı kopyalarına üniversite kütüphaneniz aracılığı ile (TÜBESS üzerinden) erişebilirsiniz.https://hdl.handle.net/20.500.12587/17018