Penerapan Model CRISP-DM pada Analisis Pendapatan Menggunakan Metode Klasifikasi
Keywords:
Model CRISP-DM, Prediksi Pendapatan, Klasifikasi Pendapatan, KlasifikasiAbstract
Di era globalisasi ini, prediksi klasifikasi pendapatan dibutuhkan untuk membantu pemerintah dalam mengalokasikan sumber daya untuk berbagai layanan publik, pembangunan infrastruktur, kesehatan, pendidikan, dan program sosial lainnya. Dengan memahami pola pendapatan dan kebutuhan masyarakat, pemerintah dapat merencanakan dan mendistribusikan anggaran secara lebih efektif dan efisien, serta memastikan bahwa layanan dan program yang disediakan tepat sasaran dan memberikan manfaat maksimal bagi masyarakat. Data Census Income mencakup berbagai atribut demografis dan ekonomi, termasuk usia, jenis kelamin, pendidikan, status pernikahan, pekerjaan, ras, jam kerja per minggu, dan asal negara. Penelitian ini menggunakan teknik machine learning untuk mengklasifikasikan individu berdasarkan tingkat pendapatan mereka, apakah di atas atau di bawah $50.000 per tahun. Metode klasifikasi yang digunakan meliputi Logistic Regression, K-Nearest Neighbors (KNN), dan Naive Bayes. Penelitian ini menggunakan sebanyak 30.162 data dengan pembagian 80% sebagai data latih dan 20% sebagai data tes. Hasil penelitian menunjukkan akurasi untuk Logistic Regression sebesar 81%, KNN sebesar 79%, dan Naive Bayes sebesar 77%. Hasil penelitian juga menunjukkan bahwa faktor-faktor seperti tingkat pendidikan, jam kerja per minggu, dan jenis pekerjaan memiliki pengaruh signifikan terhadap pendapatan individu. Temuan ini dapat membantu pemerintah dan pembuat kebijakan dalam merumuskan strategi untuk mengurangi kesenjangan pendapatan dan meningkatkan kesejahteraan ekonomi masyarakat. Dapat disimpulkan bahwa penggunaan Logistic Regression terbukti paling akurat dalam memprediksi pendapatan.