PERBANDINGAN ALGORITMA RANDOM FOREST DAN LOGISTIC REGRESSION DALAM PREDIKSI PENYAKIT DIABETES

Zidan Januri Zumantara, Budi Sudrajat, Hasta Herlan Asymar

Abstract


This study aims to compare the performance of the Random Forest and Logistic Regression machine learning algorithms in predicting diabetes using the Pima Indians Diabetes dataset from Kaggle. The dataset contains data on 768 adult female patients with eight health indicators and a target outcome variable indicating diabetes status. This quantitative study uses a comparative approach. The research stages include initial data analysis, preprocessing (zero-value cleaning), splitting the data into 70% training and 30% test, model development, evaluation using accuracy, precision, recall, and F1-score metrics, and feature analysis. The results show that Random Forest achieved 75% accuracy and Logistic Regression 74%. Random Forest also slightly outperformed Logistic Regression in precision, recall, and F1-score. This study differs from previous research in that it not only focused on evaluation metrics but also analyzed the most influential features. The analysis results show that Glucose is the most dominant indicator in Random Forest, while DiabetesPedigreeFunction is the most influential in Logistic Regression. These findings provide additional insight into the key risk factors in diabetes prediction.

Penelitian ini bertujuan membandingkan performa algoritma machine learning Random Forest dan Logistic Regression dalam memprediksi penyakit diabetes dengan menggunakan dataset Pima Indians Diabetes dari Kaggle. Dataset berisi 768 data pasien wanita dewasa dengan delapan indikator kesehatan serta variabel target Outcome yang menunjukkan status diabetes. Penelitian ini merupakan penelitian kuantitatif dengan pendekatan komparatif, tahapan penelitian meliputi analisis data awal, pra-pemrosesan berupa pembersihan nilai nol, pembagian data menjadi 70% training dan 30% testing, pembangunan model, evaluasi menggunakan metrik accuracy, precision, recall, dan F1-score, serta analisis fitur penting. Hasil menunjukkan bahwa Random Forest memperoleh akurasi 75% dan Logistic Regression 74%. Random Forest juga sedikit lebih unggul pada precision, recall, dan F1-score dibanding Logistic Regression. Perbedaan penelitian ini dengan penelitian terdahulu adalah tidak hanya berfokus pada metrik evaluasi, tetapi juga menambahkan analisis fitur paling berpengaruh. Hasil analisis menunjukkan bahwa Glucose merupakan indikator paling dominan pada Random Forest, sedangkan DiabetesPedigreeFunction paling berpengaruh pada Logistic Regression. Temuan ini memberikan pemahaman tambahan mengenai faktor risiko utama dalam prediksi penyakit diabetes.


Full Text:

PDF

References


Fasnuari, H. A. D., Yuana, H., & Chulkamdi, M. T. (2022). Application of K-Nearest Neighbor Algorithm For Classification of Diabetes Mellitus. Case Study : Residents of Jatitengah Village. Antivirus : Jurnal Ilmiah Teknik Informatika, 16(2), 133–142. https://doi.org/10.35457/antivirus.v16i2.2445

Lalla, N. N., & Rumatiga, J. (2022). Type instability of Blood Glucose Levels in Type II Diabetes Mellitus Patients. Jurnal Ilmiah Kesehatan Sandi Husada, 11(2), 473–479. https://doi.org/10.35816/jiskh.v11i2.816

Oktaviana, A., Wijaya, D. P., Pramuntadi, A., & Heksaputra, D. (2024). Prediksi Penyakit Diabetes Melitus Tipe 2 Menggunakan Algoritma K-Nearest Neighbor (K-NN). MALCOM: Indonesian Journal of Machine Learning and Computer Science, 4(3), 812–818. https://doi.org/10.57152/malcom.v4i3.1268

Rachmawati, F. S., Sau, G. V. O., Syah, M. F., Effendy, D. S., Muchtar, F., Bahar, H., Lestari, H., & Tosepu, R. (2025). Edukasi Melalui Infografis Dengan Gaya Hidup dan Pola Makan Dalam Mencegah Diabetes. IJCD : Indonesian Journal of Community Dedication, 3(2), 318–327. https://doi.org/10.61214/ijcd.v3i2.783

Setyawan, N. H., & Wakhidah, N. (2025). Analisis Perbandingan Metode Logistic Regression, Random Forest, Gradient Boosting Untuk Prediksi Diabetes. JIPI : Jurnal Ilmiah Penelitian Dan Pembelajaran Informatika, 10(1), 150–162. https://doi.org/10.29100/jipi.v10i1.5743

Siridion, S. T., & Siregar, B. (2024). Analisis Klasifikasi Diagnosa Penyakit Diabetes Melitus Berdasarkan Komparasi Algoritma Supervised Learning. Mutiara: Multidiciplinary Scientifict Journal, 2(3), 1006–1014. https://doi.org/10.57185/mutiara.v2i2.159

Syahri, A., Fariha, U., Afandi, R., & Nurliyana, I. (2024). Comparison of Logistic Regression, Random Forest and Adaboost Algorithms for Diabetes Mellitus Classification. IJATIS: Indonesian Journal of Applied Technology and Innovation Science, 1(1), 41–46. https://doi.org/10.57152/ijatis.v1i1.1116

Yuniarti, T., Haryanto, B. A. H., Kalpikawati, A. B., Aryawati, R. N., Khasanah, N. H., Annisa, A. S., Rofiah, R., & Safitri, Y. (2025). Promosi Kesehatan dan Implementasi Pemberian Kapsul Habbatusauda Untuk Mencegah Diabetes Melitus. Jurnal Pengabdian Komunitas, 4(1), 1–9. https://jurnalpengabdiankomunitas.com/index.php/pengabmas/article/view/234




DOI: https://doi.org/10.56486/jeis.vol6no1.998

Article Metrics

Abstract view : 24 times
PDF - 5 times

Refbacks

  • There are currently no refbacks.


Copyright (c) 2026 Zidan Januri Zumantara

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

TERINDEKS OLEH :

Â