How to cite: Şahin A, Özcan N, Nur G. Ovarian cancer prediction using pca, k-pca, ica and random forest. Akıllı Sistemler ve Uygulamaları Dergisi (Journal of Intelligent Systems with Applications) 2021; 4(2): 103-108.
Full Text: PDF, in English.
Total number of downloads: 738
Title: Ovarian Cancer Prediction Using PCA, K-PCA, ICA and Random Forest
Abstract: Ovarian cancer, which is the most common in women and occurs mostly in the post-menopausal period, develops with the uncontrolled proliferation of the cells in the ovaries and the formation of tumors. Early diagnosis is very difficult and in most cases, it is a type of cancer that is in advanced stages when first diagnosed. While it tends to be treated successfully in the early stages where it is confined to the ovary, it is more difficult to treat in the advanced stages and is often fatal. For this reason, it has been focused on studies that predict whether people have ovarian cancer. In our study, we designed a RF-based ovarian cancer prediction model using a data set consisting of 49 features including blood routine tests, general chemistry tests and tumor marker data of 349 real patients. Since the data set containing too many dimensions will increase the time and resources that need to be spent, we reduced the dimension of the data with PCA, K-PCA and ICA methods and examined its effect on the result and time saving. The best result was obtained with a score of 0.895 F1 by using the new smaller-sized data obtained by the PCA method, in which the dimension was reduced from 49 to 6, in the RF method, and the training of the model took 18.191 seconds. This result was both better as a success and more economical in terms of time spent during model training compared to the prediction made over larger data with 49 features, where no dimension reduction method was used. The study has shown that in predictions made with machine learning models over large-scale medical data, dimension reduction methods will provide advantages in terms of time and resources by improving the prediction results.
Keywords: Dimension reduction; machine learning; ovarian cancer; random forest
Başlık: PCA, K-PCA, ICA ve Random Forest Kullanarak Yumurtalık Kanserinin Tahmini
Özet: Kadınlarda en sık rastlanan ve çoğunlukla menopoz sonrası dönemde ortaya çıkan yumurtalık kanseri, yumurtalıklardaki hücrelerin kontrol dışı çoğalması ve tümör oluşturması ile gelişir. Erken tanısı oldukça zordur ve çoğu durumda ilk tanı konduğunda ileri evrelerde olan bir kanser türüdür. Yumurtalık ile sınırlı olduğu erken evrelerde başarılı bir şekilde tedavi edilmeye yatkınken ileri evrelerde tedavisi daha zordur ve sıklıkla ölümcül olmaktadır. Bu nedenle kişilerin yumurtalık kanseri olup olmadığının tahminini yapan çalışmalar üzerine yoğunlaşılmıştır. Biz de çalışmamızda 349 gerçek hastaya ait kan rutin testi, genel kimya testi ve tümör belirteci verilerini içeren 49 özellikten oluşan veri setini kullanarak Random Forest tabanlı yumurtalık kanseri tahmin modeli tasarladık. Veri setinin çok fazla boyut içermesi harcanması gereken zaman ve kaynakları arttıracağı için PCA, K-PCA ve ICA yöntemleri ile verinin boyutunu azaltıp sonuca ve zaman tasarrufuna etkisini inceledik. Boyutun 49’dan 6’ya düşürüldüğü PCA yöntemi ile elde edilen daha küçük boyutlu yeni verinin RF yönteminde kullanılmasıyla, 0.895 F1 puanı ile en iyi sonuç elde edilmiştir ve modelin eğitimi 18.191 saniye sürmüştür. Bu sonuç, hiçbir boyut azaltma yönteminin kullanılmadığı dolayısıyla 49 özelliğe sahip daha büyük boyutlu veri üzerinden yapılan tahminden hem başarı olarak daha iyi hem de model eğitimi sırasında geçen zaman açısından daha tasarruflu olmuştur. Çalışma büyük boyutlara sahip medikal veriler üzerinden makine öğrenmesi modelleri ile yapılacak tahminlerde, boyut azaltma yöntemlerinin tahmin sonuçlarını iyileştirerek zaman ve kaynaklar açısından avantaj sağlayacağını göstermiştir.
Anahtar kelimeler: Boyut azaltma; makine öğrenmesi; yumurtalık kanseri; rastgele orman