Pada case ini, kami menggunakan metode CRISP-DM dalam pemecahan masalah.
Permasalahan yang dihadapi oleh Home Credit adalah risiko churn, yaitu pelanggan yang kemungkinan besar akan meninggalkan layanan Home Credit atau melunasi pinjaman mereka tidak sesuai dari jangka waktu yang diharapkan. Untuk menghadapi permasalahan ini, diperlukan analisis Churn Prediction untuk faktor-faktor yang dapat menyebabkan churn, sehingga Home Credit dapat menyusun langkah-langkah dapat diambil untuk mencegah churn dan memastikan pertumbuhan bisnis yang berkelanjutan.
Dataset | Deskripsi |
---|---|
application_{train/test} | The main training and testing data with information about each loan application at Home Credit. Every loan has its own row and is identified by the feature SK_ID_CURR . The training application data comes with the TARGET indicating 0: the loan was repaid or 1: the loan was not repaid. |
bureau | Data concerning client's previous credits from other financial institutions. Each previous credit has its own row in bureau, but one loan in the application data can have multiple previous credits. |
bureau_balance | Monthly data about the previous credits in bureau. Each row is one month of a previous credit, and a single previous credit can have multiple rows, one for each month of the credit length. |
installments_payments | Payment history for previous loans at Home Credit. There is one row for every made payment and one row for every missed payment. |
credit_card_balance | Monthly data about previous credit cards clients have had with Home Credit. Each row is one month of a credit card balance, and a single credit card can have many rows. |
pos_cash_balance | Monthly data about previous point of sale or cash loans clients have had with Home Credit. Each row is one month of a previous point of sale or cash loan, and a single previous loan can have many rows. |
previous_application | previous applications for loans at Home Credit of clients who have loans in the application data. Each current loan in the application data can have multiple previous loans. Each previous application has one row and is identified by the feature SK_ID_PREV . |
Penjelasan lengkap tetang EDA
Pada tahap modeling, kami menguji beberapa model yang belum di hyperparameter tuning seperti logistic regression
, decision tree
, naive bayes
, random forest classifier
, extreme gradient boost
, KNN
dan LighGBM
. Setelah model tersebut diuji, kami melakukan evaluasi secara menyeluruh dan didapatkan tiga model dengan akurasi yang relevan diantaranya :
Model | Akurasi(%) | AUC ROC (%) |
---|---|---|
LightGBM |
73.02 | 89.98 |
KNN |
82.07 | 89.09 |
Extreme Gradient Boost |
86.3 | 85.66 |
Akurasi terbaik pada Model LightGBM yaitu memiliki akurasi sebesar 73.02% dan AUC ROC sebesar 89.98% sehingga menjadi model terbaik
Melalui model LightGBM, didapatkan beberapa fitur yang paling berpengaruh, tidak adanya kecondongan dalam salah satu fitur, mengindikasikan model yang cukup stabil
Hasil deployment dapat dilihat pada DASHBOARD ini
Untuk memudahkan Home Credit dalam menganalisis customer, dapat menggunakan pengelompokkan churn berdasarkan kuartil sebagai berikut :
Kuartil | Deskripsi |
---|---|
0-25 | Enggange them (sebanyak 11.9%) |
26-50 | Almost gone (sebanyak 17.7%) |
51-75 | Need to attention (sebanyak 34.5%) |
76-10 | Un healthy customer (sebanyak 32.6%) |
Berdasarkan pengelompokkan churn diatas, kami dapat menentukan rekomendasi penanganan yang tepat untuk customer churn sebagai berikut:
- Engage Them Churn Rate 0-25%, Hubungi pelanggan, berikan insentif, berikan pelayanan optimal
- Rekomendasi Almost Gone Churn Rate 26-50%, Memikat kembali pelanggan, mengedepankan keunggulan nilai unik, mengajukan permintaan umpan balik
- Rekomendasi Need Attention Churn Rate 51-75%, Melakukan komunikasi proaktif, menawarkan program loyalitas, meningkatkan layanank
- Rekomendasi Unhealthy Customer Churn Rate 76-100%, Membuat strategi khusus, sediakan manajer akun, melakukan penyelidikan yang komprehensif
Dapat dilihat, bahwa terdapat beberapa chapter dan memiliki fungsinya sendiri. Chapter - chapter ini terbentuk karena kurangnya RAM yang terdapat pada google colab dan RAM local pada saat menjalankan program. Berikut adalah penjelasan dari beberapa chapter :
File | Deskripsi |
---|---|
Chapter_1 | Dataset : application_{train/test}, bureau, bureau_balance, credit_card_balance Fungsi : Menyeseleksi feature , encoding, membuat feature engineer pada dataset app_train, bureau, bureau_balance, credit_card_balance. Kemudian bureau dan credit_card_balance dilakuakn agregasi berdasarkan rata-ratanya (mean) berdasarkan |
Chapter_2 | Dataset : installments_payments, pos_cash_balance, previous_application, Dataset dari Chapter_1 Fungsi : Menyeseleksi feature , encoding, membuat feature engineer pada dataset installments_payments, pos_cash_balance. Kemudian dataset dilakuakn agregasi berdasarkan rata-ratanya (mean) berdasarkan |
Chapter_3 | Dataset : Dataset dari Chapter_2 Fungsi : Menyeleksi Feature berdasarkan feature importance yang memiliki nilai 0.0 menggunakan LightGBM. Setelah dilakukan seleksi feature, feature akan melalui tahap handle missing value dan data didownload untuk dilanjut chapter_4 |
Chapter_4 | Dataset : Dataset dari Chapter_2 Fungsi : Dilakukan beberapa modeling tanpa hyper parameter untuk melihat akurasi mana yang terbaik. |
Chapter_5 | Dataset : Dataset dari Chapter_2 Fungsi : Dilakukan beberapa modeling hyper parameter pada 3 model yang terbaik untuk melihat akurasi mana yang terbaik. Setelah didapat model terbaik, kemudiam model tersebut dicari ROC - AUC dan feature importancenya, seta dilakukan prediksi terdapat data test yang sudah displit. |