KOMPARASI 5 METODE ALGORITMA
KLASIFIKASI DATA MINING PADA PREDIKSI
KEBERHASILAN PEMASARAN PRODUK LAYANAN PERBANKAN
Sari
Dewi Manjemen Informatika AMIK BSI Pontianak Akademi Manajemen dan Ilmu
Komputer Bina Sarana Informatika
Jl.Abdurahman Saleh No 18, Pontianak sari.sre@bsi.ac.id
Abstract-
Utilization data mining in banking marketing strategy is very effective.
Prospective customer seg-mentation is one of the processes carried out in the
banking marketing strategy. To support the results of the success rate of
telemarketing personnel to market the product in its role of banking services
that the process requires a prospective customer data, then data mining support
is very important in the classification of the prospective customers of the
bank so that it can predict the degree of success in product marketing such
services. Based on mapping studies of support data mining on prospective
customers to come is no classification algorithms are often used for the
classification of a borrower among others Neural Network, Naive Bayes, Dececion
Tree, K-NN and Logistic Regreesion, of this algorithm can result from the
evaluation process by using Cross Validation, confusion matrix, ROC Curve and
TTest to determine the classification of data mining algo-rithms are the most
accurate in predicting success in product mar-keting telemarketing services
from the bank to do trials in the Neural Network algorithm was more accurate
with an accuracy of 89.71% the AUC value of 0872, this may be a comparison of
data mining classi-fication Seeing AUC values of the five methods, then five
groups of classification algorithms including both because of its AUC value
between 0.80-1.00.
Keywords:
Comparison of data mining, decision tree, naive Bayes, neural network, knn,
logistic regression
Intisari-
Pemanfaatan data mining dalam strategi pemasaran perbankan sangat efektif.
Segmentasi calon nasabah merupakan salah satu proses yang dilakukan dalam
strategi pemasaran perbankan. Untuk
mendu-kung hasil dari tingkat keberhasilan tenaga telemarketing dalam
peran-nya untuk memasarkan produk layanan perbankan yang prosesnya membutuhkan data-data calon nasabah
ini, maka dukungan data mining
sangat
berperan penting dalam klasifikasi calon nasabah bank sehinga dapat memprediksi
tingkat keberhasilan dalam pemasaran produk layanan tersebut. Berdasar-kan
pemetaan penelitian mengenai dukungan data mining pada calon nasabah didapat ada algoritma
klasifikasi yang sering digunakan untuk klasifikasi calon nasabah antara lain Neural Network, Naive Bayes,
Decision Tree, K-NN dan Logistic Regreesion, dari algoritma ini di dapat hasil
dari proses evaluasi dengan menggunakan Cross Valida-tion, confusion matrix,
ROC Curve dan T-Test untuk mengetahui algoritma klasifikasi data mining yang
paling akurat dalam prediksi keberhasilan telemarketing dalam pemasaran produk
layanan bank dari uji coba yang di lakukan
maka algoritma Neural Network lah
yang lebih akurat dengan akurasi 89,71% dengan nilai AUC 0.872,hal ini dapat menjadi perbandingan data mining klasifikasi Melihat
nilai AUC dari kelima metode tersebut yaitu NN, DC, Naive Bayes , K-NN dan LR,
maka lima algoritma tersebut termasuk
kelompok klasi-fikasi baik karena nilai AUC-nya antara 0.80-1.00.
kata kunci:
decesion tree, komparasi data mining, naive
bayes, neural network, k-n,
logistic regreesion.
PENDAHULUAN
Pemasaran
adalah suatu proses tentang pengembangan produk, periklanan, distribusi dan penjualan (Zhang,
2008) .proses pemasalan sangan erat kaitan nya dengan peran
telemarketing,Telemarketing merupakan sebuah cara baru dalam bidang pemasaran
yang menggunakan teknologi telekomunikasi sebagai bagian dari pemasaran yang
teratur dan terstuktur. Telemarketing (pemasaran jarak jauh) adalah penggunaan
telepon dan pusat panggilan untuk menarik prospek, menjual kepada pelanggan
yang telah ada dan menyediakan layanan dengan mengambil pesanan dan menjawab
pertanyan melalui telepon. Telemarketing membantu perusahaan dalam meningkatkan
pendapatan, mengurangi biaya penjualan, meningkatkan kepuasan pelanggan,
Penawaran melalui jalur Telemarketing memberikan solusi bagi nasabah yang
memiliki keterbatasan jarak serta waktu untuk tetap dapat melakukan transaksi
atas program perlindungan yang dibutuhkan baik perlindungan bagi nasabah
sendiri ataupun anggota keluarga
Dukungan
data mining pada pemasaran adalah
pada marketing research dan
Business Intelligence. Dalam mengoptimasisasi proses pemasaran
diperlukan suatu strategi sehingga dapat digunakan untuk meningkatkan
keunggulan kompetetif, Data mining dalam strategi pemasaran menggunakan salah satunya menggunakan database marketing untuk melakukan proses pencarian pengetahuan baru
guna mendukung pengambilan
keputusan,
Oleh
karena itu, penelitian inifokus pada pemanfaatan data mining untuk memprediksi
tingkat keberhasilan telemarketing bank dalam mencari calon nasabah bank dari
berbagai produk layanan perbankan, sehingga dapat diketahui apakah calon nasabah yang bersangkutan merupakan
nasabah yang berpotensi menjadi nasabah kredit
yang produktif atau tidak di liat dari penelitian sebelumnya algoritma
yang di pakai adalah Decision Tree di gunakan untuk memecahkan masalah tersebut
, oleh karna itu penulis ingin menguji algoritma klasifikasi lain apakah
tingkat akurasinya lebih baik atau di bawah nilai dari decesion tree.
Untuk
menangani permasalahan tersebut, maka akan
dibandingkan beberapa algoritma yaitu pohon keputusan C4.5, naive bayes, neural network, Logistic
Regreesion dan K-NN untuk mengetahui
algoritma mana yang lebih akurat dalam memprediksi Tingkat keberhasilan
telemarketing dalam layanan produk perbankan
BAHAN DAN METODE
Pengusaha di bidang jasa perbankan
sangat menikmati fasilitas atau kemudahan yang diberikan oleh Pemerintah
melalui kebijakan deregulasi tersebut. Bank-bank swasta baru bermunculan,
bank-bank yang sudah ada menambah kantor cabang, kantor cabang pembantu maupun
kantor kasnya. Ekspansi dan pembukaan kantor-kantor bank ini disamping
memerlukan sejumlah tenaga kerja yang tidak sedikit, juga membutuhkan strategi
pemasaran yang jitu dalam upaya menarik dana pihak ketiga untuk menyimpan
uangnya di bank tersebut dan di pihak lain berusaha menyalurkan kredit yang
disediakan ke pihak ketiga baik perorangan maupun perusahaan.
Dalam
penulisan penelitian ini, penulis menggunakan buku, prosiding, dan jurnal
sebagai referensi untuk menjelaskan model algoritma Decesion tree, Neural
Network, Logistic Reegresion, K-NN, Naive Bayes.
A.
Neural Network
Neural Network (Jaringan Saraf Tiruan)
adalah prosesor tersebar paralale yang sangat besar dan memiliki kecenderungan
untuk menyimpan pengetahuan yang bersifat pengalaman dan membuatnya siap untuk
digunakan (puspitaningrum, 2006). NN ini merupakan sistem adaptif yang dapat
merubah strukturnya untuk memecahkan masalah berdasarkan informasi eksternal
maupun internal yang mengalir melalui jaringan tersebut. Secara sederhana NN
adalah sebuah alat pemodelan data statistik non-linear. NN dapat digunakan
untuk memodelkan hubungan yang kompleks antara input dan output untuk menemukan
pola-pola pada data. Neuron juga terdiri dari satu output. Outputnya adalah
terbentuk dari pengolahan dari berbagai input oleh neuron-neuron (shukla,
2010).
B.
Decision Tree
Decision tree sendiri merupakan metode
klasifikasi dan prediksi yang sangat kuat dan banyak di minati (Wu, 2009) .
Dalam decision tree ini data yang berupa
fakta dirubah menjadi sebuah pohon keputusan yang berisi aturan dan tentunya
dapat lebih mudah dipahami dengan bahasa alami. Model pohon keputusan banyak
digunakan pada kasus data dengan output yang bernilai diskrit . Walaupun tidak
menutup kemungkinan dapat juga digunakan untuk kasus data dengan atribut
numeric.
C.
Naive Bayes
Naïve Bayes merupakan sebuah model klasifikasi statistik yang dapat digunakan
untuk memprediksi probabilitas keanggotaan suatu kelas. Naïve Bayes didasarkan
pada teorema bayes yang memiliki kemampuan klasifikasi serupa dengan decision
tree dan neural network. Teknik Naïve Bayes (NB) adalah salah satu bentuk
sederhana dari Bayesian yang jaringan untuk klasifikasi. Sebuah jaringan
Bayes dapat dilihat sebagai
diarahkan sebagai tabel dengan distribusi probabilitas gabungan
lebih dari satu set diskrit dan variabel stokastik (Liao, 2007) Metode ini
penting karena beberapa alasan, termasuk berikut. Hal ini sangat mudah untuk
membangun, tidak perlu ada yang rumit Parameter estimasi skema berulang. Ini
berarti dapat segera diterapkan untuk besar Data set. Sangat mudah untuk
menafsirkan, sehingga pengguna tidak terampil dalam teknologi classifier dapat
memahami mengapa itu adalah membuat klasifikasi itu membuat. Dan, sangat
penting, hal itu sering sangat baik: Ini mungkin bukan classifier terbaik dalam
setiap diberikan aplikasi, tetapi biasanya
dapat diandalkan untuk menjadi kuat dan melakukan dengan sangat baik
(Wu, 2009).
D.
K-Nearest Neighbor
Algoritma k-nearest neighbor (k-NN atau
KNN) adalah sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan
data pembelajaran yang jaraknya paling dekat dengan objek tersebut, Ketepatan
algoritma k-NN ini sangat dipengaruhi oleh ada atau tidaknya fiturfitur yang
tidak relevan, atau jika bobot fitur tersebut tidak setara dengan relevansinya
terhadap klasifikasi. Riset terhadap algoritma ini sebagian besar membahas
bagaimana memilih dan memberi bobot terhadap fitur, agar performa klasifikasi
menjadi lebih baik,menurut (Wu, 2009 ) KNN juga merupakan contoh teknik lazy learning, yaitu teknik yang menunggu
sampai pertanyaan (query) datang agar sama dengan data training.
E.
Logistic Regreesion.
Regresi logistik (Logistic regression)
adalah bagian dari analisis regresi yang digunakan ketika variabel dependen
(respon) merupakan variabel dikotomi. Variabel dikotomi biasanya hanya terdiri
atas dua nilai (Santosa, 2007) yang mewakili kemunculan atau tidak adanya suatu
kejadian yang biasanya diberi angka 0 atau 1.
Tidak seperti regresi linier biasa,
regresi logistik tidak mengasumsikan hubungan antara variabel independen
dan dependen secara linier.
Ada beberapa penelitian yang menggunakan
komparasi algoritma klasifikasi untuk mengukur akurasi terhadap dataset
marketing bank:
1.
Could Decision trees Improve the Classification Accuracy and Interpretability
of Loan Granting Decision? penelitian
yang dilakukan (Zurada,2010). Yang melakukan komparasi dari beberapa metode
diantaranya adalah regresi logistik(LR), jaringan saraf (NN), dasar fungsi
jaringan saraf radial (RBFNN), SVM, CBR, dan pohon keputusan (DTs). Dari semua
model ternyata tingkat klasifikasi akurasi yang mengungguli adalah Decision
trees, DTs tidak hanya mengklasifikasikan lebih baik dari model-model yang lain
tapi juga memiliki pengetahuan dalam membentuk aturan yang mudah ditafsirkan,
masuk akal dalam menjelaskan tentang alasan penolakan pinjaman.
2
Comparing decision trees with logistic regression for credit risk analysis (Satchidananda & Simha, 2006). Penelitian
ini membandingkan dua model algoritma untuk analisa resiko kredit, yaitu Pohon
Keputusan dan Regresi Logistik. Data diambil dari dua bank yang berbeda,
kemudian untuk mengelompokkan kasus positif dan negatif maka dilakukan
klustering data dengan menggunakan k-means. Hasil analisa dari masing-masing
model dikomparasi dan kemudian
diukur,kemudian didapatkan bahwa algoritma pohon keputusan mempunyai tingkat
akurasi yang tinggi dibandingkan algoritma regresi logistik.
Pengumpulan Data
Penulis
Memilih metode yang akan digunakan pada saat pengujian data. Metode yang
dipilih, berdasarkan penelitian yang terdahulu. Penulis menggunakan Metode
Algoritma Decesion Tree, Neural Network.
Evaluasi dan Validasi Hasil
1. Cross Validation
Cross
Validation merupakan salah satu teknik untuk menilai/memvalidasi keakuratan
sebuah model yang dibangun berdasarkan dataset tertentu. Validation juga
merupakan pengujian standar yang dilakukan untuk memprediksi error rate.
2.
Confusion Matrix
Confusion
matrix adalah suatu metode yang biasanya digunakan untuk melakukan perhitungan
akurasi pada konsep data mining. Rumus ini melakukan perhitungan dengan 4
keluaran, yaitu: recall, precision, acuraccy dan error rate.Evaluasi model
klasifikasi didasarkan pada pengujian untuk memperkirakan obyek yang benar dan
salah (Wu, 2009)
3. ROC Curve
ROC
curves merupakan salah satu cara melakukan analisa terhadap model classifier
yang telah dibuat. Penggunaan ROC curves adalah untuk menentukan parameter
model yang dinginkan sesuai dengan karakteristik dari model classifier
yang Metode klasifikasi bisa dievaluasi
berdasarkan kriteria seperti tingkat akurasi, kecepatan, kehandalan, skabilitas
dan interpretabilitas (Vecellis, 2009).
4.
Validasi
Menurut
(Gurenescu,2011) Diperlukan cara yang sistematis untuk mengevaluasi kinerja
suatu metoda. Evaluasi klasifikasi didasarkan pada pengujian pada obyek benar
dan salah ,menurut (Ian.H,2011) Validasi data digunakan untuk menentukan jenis
terbaik dari skema belajar yang digunakan, berdasarkan data pelatihan untuk
melatih skema pembelajaran untuk memaksimalkan penggunaan data .
HASIL DAN PEMBAHASAN
Hasil
dari pengujian model yang dilakukan adalah membandingkan algoritma mana yang
lebih akurat dan memperbesar akurasi dengan menggunakan T-Test pada Algoritma
pada framework RapidMiner dengan desain model berikut ini:
a. Hasil AUC Algoritma Neural Network
Kurva
ROC yang dihasilkan berdasarkan pengujian data pada gambar di atas, menunjukan
bahwa ada peningkatan pada akurasi
menggunakan
Neural Network sebesar 89.71% dan AUC sebesar 0.872
b. Hasil AUC K-NN
Kurva
ROC yang dihasilkan berdasarkan pengujian data pada gambar di atas, menunjukan
bahwa ada peningkatan pada akurasi menggunakan K-NN sebesar 84.70% dan AUC
sebesar 0.962.
c. Hasil AUC Naive Bayes
Kurva
ROC yang dihasilkan berdasarkan pengujian data pada gambar di atas, menunjukan
bahwa ada peningkatan pada akurasi menggunakan Naïve Bayes sebesar 87.79% dan
AUC sebesar 0.854
d. Hasil AUC Logistic Regresion
Kurva
ROC yang dihasilkan berdasarkan pengujian data pada gambar di atas, menunjukan
bahwa ada peningkatan pada akurasi menggunakan Logistic Regreesion sebesar
89.32% dan AUC sebesar 0.992.
e. Hasil AUC Decision Tree
Kurva
ROC yang dihasilkan berdasarkan pengujian data pada gambar di atas, menunjukan
bahwa ada peningkatan pada akurasi menggunakan Dececion Tree sebesar 89.10% dan
AUC sebesar 0.9.
A. Pengujian dengan T-Test
Pengujian
T-Test ini akan menguji algoritma Klasifikasi ini agar mendapatkan nilai yang
terbaik,dimana dalam pengujian tersebut sampai mendapatkan nilai terkecil ≤
0,05 dinyatakan sebagai hasil uji yang terbaik (Santoso. S:2010).
1.
Hasil T-test antara algoritma Decision Tree dengan Neural Network
Analisis Hasil Komparasi
Berdasarkan
dari analisi pengujian masingmasing metode diatas maka dapat dirangkumkan
hasilnya seperti Tabel berikut
Melihat
hasil perhitungan yang terangkum pada Tabel diatas dengan menerapkan
klasifikasi performance keakurasian AUC maka diperoleh
hasilpenelitian yaitu, terdapat dua metode yang merupakan kategori Good Clasification yaitu untuk metode LR dengan nilai AUC 0.993,
K-NN dengan nilai AUC 0.962 dan ,metode Dececion Tree
dengan UAC 0.959 dan metode
algoritma NN dengan AUC 0.872 dan metode naïve bayes yang termasuk
kategori Fair Clasification dengan nilai
AUC 0.854.
Berdasarkan
Tabel di atas juga dapat di lihat bahwa nilai akurasi untuk metode aloritma
klasifikasi yang terbaik adalah Algoritma Neural Network memiliki Akurasi yang
lebih tinggi dengan nilai 89.71% dibandingan dengan 4 algoritma lain nya
sedangkan di urutan ke dua yaitu logistic Regreesion dengan akurasi 89.32 %
lalu Dececion Tree dengan nilai 89.10% lalu disusul dengan algoritma K-NN
dengan nilai 87.79% dan yang terakhir algoritma Naive Bayes dengan Nilai
84.70%.
KESIMPULAN
Dalam penelitian
ini dilakukan pembuatan model
menggunakan algoritma Klasifikasi
yaitu Neural Network, Naive Bayes, Decesion Tree, K-NN, dan Logistic
Regreesion menggunakan data
pemasararan pada Bank. Algoritma Neural Network memiliki Akurasi yang
lebih tinggi dengan nilai 89.71% dibandingan dengan 4 algoritma lain nya
sedangkan di urutan ke dua yaitu logistic Regreesion dengan akurasi 89.32 %
lalu Dececion Tree dengan nilai 89.10% lalu disusul dengan algoritma K-NN
dengan nilai 87.79% dan yang terakhir algoritma Naive Bayes dengan Nilai
84.70%. Dengan demikian algoritma Neural network dapat memberikan pemecahan untuk permasalahan
dalam mengidentifikasi Tingkat keberhasilan Telemarketing pada pemasaran
Bank .
Pada
kasus Prediksi Tingkat Keberhasilan Telemarketing Bank menggunakan Algoritma Klasifikasi data Mining
dapat diterapkan pada data calon nasabah
yang dihubungi untuk memprediksi keberhasilan pemasaran pada bank.
Berdasarkan data set yang penelitian
gunakan ini terbukti bahwa algoritma Neural Network ternyata lebih akurat bila dibandingkan
dengan algoritma klasifikasi lain nya. Hal ini terlihat dari hasil evaluasi
yang telah dilakukan. Dengan hasil ini, menunjukkan bahwa Neural Network
merupakan metode yang cukup baik dalam prediksi data sehingga dapat memberikan hasil untuk permasalahan identifikasi calon
nasabah.
Untuk
keperluan penelitian lebih lanjut mengenai komparasi metode klasifikasi data
mining dengan menggunakan data additional bank Ini maka disarankan untuk
melakukan penyeleksian atribut, dikarenakan
Atribut pday dalam metode algoritma tidak berpengaruh (hal ini di
karenakan nilai nya sama) sehingga bisa dianalisa lebih lanjut apakah atribut tersbut diperlukan atau tidak. Penelitian semacam ini dapat
dikembangkan pada unit bisnis serupa atau yang lainnya. Penelitian ini dapat
dikembangkan dengan algoritma yang lain misalkan saja dengan metode statistik
lainnya seperti Support Vector Machine.
DAFTAR PUSTAKA
Diyah,
Puspitaningrum. 2006. Pengantar Jaringan Syaraf Tiruan, Penerbit Andi, Yogyakarta.
Gurenescu,
2011, Data maning : Concept and Techniques. Verlag berlin Heidelberg:
Springer.
Ian
H. Witten, frank Eibe, and Mark A. Hall, Data Mining: Practical Machine
Learning Tools and Techniques, 3rd ed., Asma Stephan and Burlington, Eds.
United States
Liao.
2007. Recent Advances in Data Mining of
Enterprise Data: Algorithms and Application . Singapore: World Scientific
Publishing
Santosa,
B. 2007. Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Jogyakarta: Graha Ilmu.
Shukla,
A. Tiwari, R., & Kala, R. 2010. Real
Life Application of Soft Computing. Taylor and Francis Groups, LLC.
Vercellis,
C. 2009. Business Intelligent: Data
Mining and Optimization for Decision Making. Southern Gate: John Willey &
Sons Inc.
Wu,
Xindong & Kumar, Vipin. 2009. The Top Ten Algorithms in Data Mining. Boca
Raton: CRC Press
Zhang,
Guazhen, Zhou, faming, etl., 2008,
Knowledge creation in marketing based on data mining, Intelligent
Computation Technology and Automation (ICICTA), 2008 International Conference
on Page(s): 782 – 786
http://ejournal.nusamandiri.ac.id/ejurnal/index.php/techno/article/view/266
http://ejournal.nusamandiri.ac.id/ejurnal/index.php/techno/article/view/266
Tidak ada komentar:
Posting Komentar