Home Credit Default Risk

Pada case ini, kami menggunakan metode CRISP-DM dalam pemecahan masalah.

Business Understanding

Permasalahan yang dihadapi oleh Home Credit adalah risiko churn, yaitu pelanggan yang kemungkinan besar akan meninggalkan layanan Home Credit atau melunasi pinjaman mereka tidak sesuai dari jangka waktu yang diharapkan. Untuk menghadapi permasalahan ini, diperlukan analisis Churn Prediction untuk faktor-faktor yang dapat menyebabkan churn, sehingga Home Credit dapat menyusun langkah-langkah dapat diambil untuk mencegah churn dan memastikan pertumbuhan bisnis yang berkelanjutan.

Data Understanding

Dataset

Dataset	Deskripsi
application_{train/test}	The main training and testing data with information about each loan application at Home Credit. Every loan has its own row and is identified by the feature `SK_ID_CURR`. The training application data comes with the TARGET indicating 0: the loan was repaid or 1: the loan was not repaid.
bureau	Data concerning client's previous credits from other financial institutions. Each previous credit has its own row in bureau, but one loan in the application data can have multiple previous credits.
bureau_balance	Monthly data about the previous credits in bureau. Each row is one month of a previous credit, and a single previous credit can have multiple rows, one for each month of the credit length.
installments_payments	Payment history for previous loans at Home Credit. There is one row for every made payment and one row for every missed payment.
credit_card_balance	Monthly data about previous credit cards clients have had with Home Credit. Each row is one month of a credit card balance, and a single credit card can have many rows.
pos_cash_balance	Monthly data about previous point of sale or cash loans clients have had with Home Credit. Each row is one month of a previous point of sale or cash loan, and a single previous loan can have many rows.
previous_application	previous applications for loans at Home Credit of clients who have loans in the application data. Each current loan in the application data can have multiple previous loans. Each previous application has one row and is identified by the feature `SK_ID_PREV`.

Relationship

Exploratory Data Analysis (EDA)

Penjelasan lengkap tetang EDA

Data Prepocesing

Modeling dan Evaluasi

Modeling

Pada tahap modeling, kami menguji beberapa model yang belum di hyperparameter tuning seperti logistic regression, decision tree, naive bayes, random forest classifier, extreme gradient boost, KNN dan LighGBM. Setelah model tersebut diuji, kami melakukan evaluasi secara menyeluruh dan didapatkan tiga model dengan akurasi yang relevan diantaranya :

Model	Akurasi(%)	AUC ROC (%)
`LightGBM`	73.02	89.98
`KNN`	82.07	89.09
`Extreme Gradient Boost`	86.3	85.66

Akurasi terbaik pada Model LightGBM yaitu memiliki akurasi sebesar 73.02% dan AUC ROC sebesar 89.98% sehingga menjadi model terbaik

Feature Importance

Melalui model LightGBM, didapatkan beberapa fitur yang paling berpengaruh, tidak adanya kecondongan dalam salah satu fitur, mengindikasikan model yang cukup stabil

Deployment

Hasil deployment dapat dilihat pada DASHBOARD ini

Hasil Prediksi

Untuk memudahkan Home Credit dalam menganalisis customer, dapat menggunakan pengelompokkan churn berdasarkan kuartil sebagai berikut :

Kuartil	Deskripsi
0-25	Enggange them (sebanyak 11.9%)
26-50	Almost gone (sebanyak 17.7%)
51-75	Need to attention (sebanyak 34.5%)
76-10	Un healthy customer (sebanyak 32.6%)

Rekomendasi

Berdasarkan pengelompokkan churn diatas, kami dapat menentukan rekomendasi penanganan yang tepat untuk customer churn sebagai berikut:

Engage Them Churn Rate 0-25%, Hubungi pelanggan, berikan insentif, berikan pelayanan optimal
Rekomendasi Almost Gone Churn Rate 26-50%, Memikat kembali pelanggan, mengedepankan keunggulan nilai unik, mengajukan permintaan umpan balik
Rekomendasi Need Attention Churn Rate 51-75%, Melakukan komunikasi proaktif, menawarkan program loyalitas, meningkatkan layanank
Rekomendasi Unhealthy Customer Churn Rate 76-100%, Membuat strategi khusus, sediakan manajer akun, melakukan penyelidikan yang komprehensif

Instruction

Dapat dilihat, bahwa terdapat beberapa chapter dan memiliki fungsinya sendiri. Chapter - chapter ini terbentuk karena kurangnya RAM yang terdapat pada google colab dan RAM local pada saat menjalankan program. Berikut adalah penjelasan dari beberapa chapter :

File	Deskripsi
Chapter_1	Dataset : application_{train/test}, bureau, bureau_balance, credit_card_balance Fungsi : Menyeseleksi feature , encoding, membuat feature engineer pada dataset app_train, bureau, bureau_balance, credit_card_balance. Kemudian bureau dan credit_card_balance dilakuakn agregasi berdasarkan rata-ratanya (mean) berdasarkan `SK_ID_CURR` , sedangkan untuk bureau_balance dilakuakn agregasi berdasarkan rata-ratanya (mean) berdasarkan `SK_ID_BUREAU`. Setelah dilakukan agregasi ditiap dataset, maka tiap dataset tersebut akan di merge ke app_train berdasarkan `SK_ID_CURR`. Kemuadian dataset didownload untuk dilanjut chapter_2
Chapter_2	Dataset : installments_payments, pos_cash_balance, previous_application, Dataset dari Chapter_1 Fungsi : Menyeseleksi feature , encoding, membuat feature engineer pada dataset installments_payments, pos_cash_balance. Kemudian dataset dilakuakn agregasi berdasarkan rata-ratanya (mean) berdasarkan `SK_ID_CURR`. Setelah dilakukan agregasi ditiap dataset, maka tiap dataset tersebut akan di merge ke app_train berdasarkan `SK_ID_CURR`. Kemuadian dataset didownload untuk dilanjut chapter_3
Chapter_3	Dataset : Dataset dari Chapter_2 Fungsi : Menyeleksi Feature berdasarkan feature importance yang memiliki nilai 0.0 menggunakan LightGBM. Setelah dilakukan seleksi feature, feature akan melalui tahap handle missing value dan data didownload untuk dilanjut chapter_4
Chapter_4	Dataset : Dataset dari Chapter_2 Fungsi : Dilakukan beberapa modeling tanpa hyper parameter untuk melihat akurasi mana yang terbaik.
Chapter_5	Dataset : Dataset dari Chapter_2 Fungsi : Dilakukan beberapa modeling hyper parameter pada 3 model yang terbaik untuk melihat akurasi mana yang terbaik. Setelah didapat model terbaik, kemudiam model tersebut dicari ROC - AUC dan feature importancenya, seta dilakukan prediksi terdapat data test yang sudah displit.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Home Credit Default Risk

Business Understanding

Data Understanding

Dataset

Relationship

Exploratory Data Analysis (EDA)

Data Prepocesing

Modeling dan Evaluasi

Modeling

Feature Importance

Deployment

Hasil Prediksi

Rekomendasi

Instruction

Files

README.md

Latest commit

History

README.md

File metadata and controls

Home Credit Default Risk

Business Understanding

Data Understanding

Dataset

Relationship

Exploratory Data Analysis (EDA)

Data Prepocesing

Modeling dan Evaluasi

Modeling

Feature Importance

Deployment

Hasil Prediksi

Rekomendasi

Instruction