Dec 14

Metode Klasifikasi Fuzzy RFM

Analisa RFM

Analisa RFM terdiri dari tiga dimensi, yaitu (Tsiptsis dan Chorianopoulos, 2009) :

  1. Recency, yaitu rentang waktu (dalam satuan hari, bulan, tahun) dari transaksi terakhir yang dilakukan oleh konsumen sampai saat ini.
  2. Frequency, yaitu jumlah total transaksi atau jumlah rata-rata transaksi dalam satu periode.
  3. Monetary, yaitu jumlah rata-rata nilai pembelian konsumen dalam suatu satuan waktu.

Sharp RFM

Metode sharp RFM mendeskripsikan atribut recency, frequency, dan monetary dengan variabel linguistik (Zumstein, 2007). Sebagai contoh, atribut recency dideskripsikan dengan bahasa natural  long ago (lama) dan very recent (baru saja). Atribut frequency dideskripsikan dengan bahasa natural rare (jarang)dan frequent (sering). Sedangkan atribut monetary dideskripsikan dengan bahasa natural low value (rendah)dan high value (tinggi). Konteks dari masing-masing atribut didefinisikan sebagai berikut :

  1. Domain atribut recency didefinisikan dalam rentang [0, 730] hari. Rentang nilai ini dibagi menjadi dua kelas yang ekuivalen, yaitu [0, 365] hari untuk variable linguistik very recent dan [366, 730] hari untuk long ago.
  2. Domain atribut frequency didefinisikan dalam rentang [0, 100]. Rentang nilai ini dibagi menjadi dua kelas yang ekuivalen, yaitu [0, 9] untuk variable linguistik rare dan [10, 100] untuk frequent.
  3.  Domain atribut monetary didefinisikan dalam rentang [0, 200] euro. Rentang nilai ini dibagi menjadi dua kelas yang ekuivalen, yaitu [0, 99] euro untuk variable linguistik low value dan [100, 200] euro untuk high value.

Pada Tabel 1, delapan kelas (C1 sampai C8) didefinisikan menggunakan atribut RFM dan variabel linguisik. Untuk setiap kelas ditentukan nilai (score) yang bergantung dari besarnya nilai recency, frequency, dan monetary. Semakin tinggi nilai recency, frequency, dan monetary dari konsumen, semakin tinggi juga nilai (score) yang diperoleh.

Class

RFM attributes, (equivalence classes) and terms

Scores

Recency

Frequency

Monetary value

Days last purchases

Term

Number of purchases

Term

Ø turnover

Term

C1

[0, 365]

Very recent

[10, 100]

Frequent

[0, 99]

Low value

70 p

C2

[0,365]

Very recent

[0, 9]

Rare

[0, 99]

Low value

40 p

C3

[366, 730]

Long ago

[10, 100]

Frequent

[0, 99]

Low value

30 p

C4

[366, 730]

Long ago

[0, 9]

Rare

[0, 99]

Low value

0 p

C5

[0, 365]

Very recent

[10, 100]

Frequent

[100.200]

High value

100 p

C6

[0,365]

Very recent

[0, 9]

Rare

[100.200]

High value

60 p

C7

[366, 730]

Long ago

[10, 100]

Frequent

[100.200]

High value

50 p

C8

[366, 730]

Long ago

[0, 9]

Rare

[100.200]

High value

20 p

 

 

Pada Tabel 2 dibawah ini diberikan contoh nilai recency, frequency, dan monetary dari empat konsumen. Nilai yang diperoleh oleh masing-masing konsumen diberikan berdasarkan ketentuan pada Tabel 1 di atas.

Customer

Class

RFM attributes, (equivalence classes) and terms

Scores

Recency

Frequency

Monetary value

Days last purchases

Term

Number of purchases

Term

Ø turnover

Term

Smith

C3

378

Long ago

11

Frequent

92

Low value

30 p

Ford

C4

723

Long ago

7

Rare

12

Low value

0 p

Brown

C5

342

Very recent

13

Frequent

117

High value

100 p

Miller

C5

14

Very recent

38

Frequent

193

High value

100 p

Dari hasil Tabel 2 di atas terlihat bahwa meskipun Smith dan Brown memiliki nilai monetary yang tidak jauh berbeda, keduanya diklasifikasikan ke dalam kelas yang berbeda. Di lain pihak, Miller diklasifikasikan ke dalam kelas yang sama dengan Brown meskipun unjuk kerja Brown lebih baik daripada Miller. Kekurangan metode sharp RFM disempurnakan dalam fuzzy RFM menggunakan konsep himpunan fuzzy dan fungsi keanggotaan (Zumstein, 2007). Dengan klasifikasi menggunakan metode fuzzy RFM, nilai (score) dari masing-masing konsumen dapat diperhitungkan dengan lebih akurat dan lebih baik (Tabel 3).

Class

Corresponding membership functions

to each class

Mnorm (Oi | Ck)

Fuzzy Calculated RFM Score

Ford

Smith

Brown

Miller

Ford

Smith

Brown

Miller

C1

μvery recent

μfrequent

μlow value

70

0

0

0.14902

0.12810

0

10.43

8.97

0

C2

μvery recent

μrare

μlow value

40

0

0

0.13051

0.09641

0

5.22

3.86

0

C3

μlong ago

μfrequent

μlow value

30

0.42857

0.42857

0.17340

0.11167

12.86

5.20

3.35

0

C4

μlong ago

μrare

μlow value

0

0.57143

0.57143

0.15235

0.08296

0

0

0

0

C5

μvery recent

μfrequent

μhigh value

100

0

0

0.09708

0.17521

0

9.71

17.52

100

C6

μvery recent

μrare

μhigh value

60

0

0

0.8360

0.13427

0

5.02

8.06

0

C7

μlong ago

μfrequent

μhigh value

50

0

0

0.11456

0.15395

0

5.73

7.70

0

C8

μlong ago

μrare

μhigh value

20

0

0

0.09948

0.11732

0

1.99

2.35

0

Total

1

1

1

1

12.86

43.3

51.81

100

Dari hasil Tabel 3 di atas, terlihat bahwa penilaian menggunakan metode fuzzy RFM memberikan hasil yang lebih baik dibandingkan metode sharp RFM. Dalam metode fuzzy RFM, indikator yang penting dalam menentukan klasifikasi adalah derajat keanggotaan dari kelas-kelas yang berbeda dan nilai total dari metode fuzzy RFM. Perbandingan antara metode sharp RFM dengan fuzzy RFM ditunjukkan melalui Gambar berikut ini

(a) Sharp RFM dan (b) Fuzzy RFM

Dec 14

Ukuran Validitas Cluster

Sejak konsep himpunan fuzzy diperkenalkan oleh Zadeh pada tahun 1965, konsep fuzzy clustering banyak dikembangkan dan diterapkan. Dalam konsep fuzzy clustering, suatu data dapat menjadi anggota dari beberapa cluster sekaligus menurut derajat keanggotaannya (Wu dan Yang, 2005). Proses clustering dalam algoritma fuzzy clustering selalu mencari solusi terbaik untuk parameter yang telah didefinisikan. Namun solusi terbaik ini belum tentu dapat menentukan deskripsi terbaik dari struktur data. Dalam hal ini jumlah cluster yang ditentukan atau bentuk cluster mungkin tidak sesuai dengan data. Untuk menentukan jumlah cluster yang paling optimal dan dapat memvalidasi apakah partisi fuzzy yang diterapkan dalam proses clustering sesuai dengan data, digunakan indeks pengukuran validitas cluster (Balasko, ____).

Berikut ini adalah beberapa metode pengukuran validitas cluster yang umumnya digunakan untuk algoritma fuzzy clustering(Wu dan Yang, 2005) :

Partition Coefficient

Partition Coefficient (PC)merupakan metode yang mengukur jumlah cluster yang mengalami overlap. Indeks PC mengukur validitas cluster dengan rumus sebagai berikut :

Dimana :
c          = jumlah cluster
N         = jumlah data
μij        = derajat keanggotaan data ke-j pada cluster ke-i
PC(c)   = nilai indeks PC pada cluster ke-c

Nilai PC berada dalam batas  .

Pada umumnya jumlah cluster yang paling optimal ditentukan dari nilai PC yang paling besar

Modified Partition Coefficient

Partition  Coefficient cenderung mengalami perubahan yang monoton terhadap beragam nilai c (jumlah cluster). Modifikasi dari indeks PC (Modified Partition Coefficient/MPC) dapat mengurangi perubahan yang monoton tersebut. dan didefinisikan dengan rumus berikut:

Dimana :
c                      = jumlah cluster
MPC(c)           = nilai indeks MPC pada cluster ke-c

Nilai MPC berada dalam batas 0 ≤ PC(c) ≤ 1. Pada umumnya jumlah cluster yang optimal ditentukan dari nilai MPC yang paling besar

Classification Entropy

Classification Entropy (CE)merupakan metode yang mengukur tingkat kekaburan (fuzzyness) dari partisi cluster. Indeks CE mengukur validitas cluster dengan rumus sebagai berikut :

Dimana :
c          = jumlah cluster
N         = jumlah data
μij        = derajat keanggotaan data ke-j pada cluster ke-i
CE(c)   = nilai indeks CE pada cluster ke-c

Nilai CE berada dalam batas 0 ≤ CE(c) ≤ log2c. Pada umumnya jumlah cluster yang optimal ditentukan dari nilai PE yang paling kecil

Dec 14

Metode Fuzzy Subtractive Clustering

Fuzzy Subtractive Clustering

Dasar dari metode Fuzzy Subtractive Clustering adalah ukuran densitas (potensi) titik-titik data dalam suatu ruang (variabel). Konsep dasar dari metode Fuzzy Subtractive Clustering adalah menentukan daerah-daerah dalam suatu variabel yang memiliki densitas tinggi terhadap titik-titik di sekitarnya. Titik dengan jumlah tetangga terbanyak akan dipilih untuk menjadi pusat kelompok. Titik yang sudah dipilih menjadi pusat kelompok ini kemudian akan dikurangi densitasnya. Selanjutnya akan dipilih titik lain yang menjadi tetangga terbanyak untuk dijadikan pusat kelompok yang lain. Hal ini akan dilakukan berulang-ulang sampai semua titik teruji. Metode fuzzy subtractive clustering tergolong metode unsupervised clustering dimana jumlah pusat cluster tidak diketahui. Metode ini menggunakan data sebagai kandidat dari pusat cluster, sehingga beban komputasi tergantung dari jumlah data dan tidak bergantung dari dimensi data. Jumlah pusat cluster yang dicari ditentukan melalui proses iterasi untuk mencari titik-titik dengan jumlah tetangga terbanyak.

Menghitung Densitas Suatu Titik

Apabila terdapat n buah data yaitu x1, x2, …, xndan dengan menganggap bahwa data-data tersebut sudah dalam keadaan normal, maka densitas suatu titik dapat dihitung dengan persamaan (Gelley, 2000) :

Dimana
Dk       = Densitas titik ke-k
xk          = titik ke-k
ra        = konstanta positif.

Dengan demikian, suatu titik data akan memiliki densitas yang besar jika titik tersebut memiliki banyak tetangga. Setelah menghitung densitas tiap-tiap titik, maka titik dengan densitas tertinggi akan terpilih menjadi pusat kelompok. Misalkan xc1 adalah titik yang terpilih menjadi pusat kelompok dan Dc1 adalah ukuran densitasnya, selanjutnya densitas dari titik-titik di sekitarnya akan dikurangi dengan persamaan (Gelley, 2000) :

Dimana rb adalah konstanta positif. Hal ini berarti bahwa titik-titik yang berada dekat dengan pusat kelompok xc1 akan mengalami pengurangan densitas secara besar-besaran. Hal ini akan berakibat titik-titik tersebut memiliki kemungkinan yang kecil untuk menjadi pusat kelompok berikutnya. Nilai rb menunjukkan suatu lingkungan yang mengakibatkan titik-titik berkurang ukuran densitasnya. Nilai rb diperoleh dari persamaan :

Biasanya squashfactor bernilai 1,5. Dengan demikian rb bernilai lebih besar dibandingkan ra.

Setelah densitas tiap-tiap titik diperbaiki, selanjutnya akan dicari pusat kelompok yang kedua, yaitu xc2. Setelah xc2 diperoleh, ukuran densitas tiap titik data akan diperbaiki kembali. Langkah-langkah ini dilakukan berulang-ulang sampai semua titik teruji. Pada implementasinya, bisa digunakan 2 bilangan sebagai faktor pembanding, yaitu accept ratio dan reject ratio. Apabila hasil bagi antara potensi tertinggi suatu titik data dengan potensi tertinggi yang pertama kali diperoleh pada iterasi pertama lebih besar daripada accept ratio, maka titik data tersebut diterima sebagai pusat kelompok baru. Apabila hasil bagi antara potensi tertinggi suatu titik data dengan potensi tertinggi yang pertama kali diperoleh pada iterasi pertama lebih kecil daripada accept ratio namun lebih besar daripada reject ratio, maka titik data tersebut baru akan diterima sebagai pusat kelompok yang baru jika titik tersebut terletak pada jarak yang cukup jauh dengan pusat kelompok yang lainnya. Namun, jika hasil bagi antara potensi tertinggi suatu titik data dengan potensi tertinggi yang pertama kali diperoleh pada iterasi pertama lebih kecil daripada accept ratio maupun reject ratio, maka titik tersebut tidak akan diperhitungkan lagi untuk menjadi pusat kelompok yang baru.

Dec 14

Metode Fuzzy C-Means Clustering

Metode Fuzzy C-Means Clustering pertama kali dikenalkan oleh Jim Bezdek pada tahun 1981 (Jain dkk, 1999). Fuzzy C-Means adalah salah satu teknik pengelompokkan data yang mana keberadaan tiap titik data dalam suatu kelompok (cluster)ditentukan oleh derajat keanggotan. Metode Fuzzy C-Means termasuk metode supervised clustering dimana jumlah pusat cluster ditentukan di dalam proses clustering. Algoritma dari fuzzy c-means adalah sebagai berikut (Yan, 1994) :

Input Data

Input data yang akan dikelompokkan, yaituX, berupa matrix berukuran n x m (n=jumlah sampel data, m=atribut setiap data). Xij data sampel ke-i (i=1,2,…n), atribut ke-j (j=1,2,..m).

Tentukan Jumlah Cluster

Tentukan jumlah cluster (c), pangkat untuk matriks partisi (w), maksimum iterasi (MaxIter), error terkecil yang diharapkan (ξ), fungsi objektif awal (Po=0), dan iterasi awal (t=1).

Bangkitkan Nilai Random

Bangkitkan bilangan random ηik, i=1,2,…n; k=1,2,…c sebagai elemen matrik partisi awal U.

Hitung Pusat Cluster ke-k

Hitung pusat cluster ke-k: , dengan k=1,2,…,c; dan j=1,2,…,m, menggunakan persamaan berikut  (Yan, 1994) :dengan :

Vkj      = pusat cluster ke-k untuk atribut ke-j
ηik      = derajat keanggotaan untuk data sampel ke-i pada cluster ke-k
xij     = data ke-i, atribut ke-j

Hitung Fungsi Objektif

Hitung fungsi objektif pada iterasi ke-t menggunakan persamaan berikut (Yan, 1994)  :
dengan:
Vkj       = pusat cluster ke-k untuk atribut ke-j
ηik       = derajat keanggotaan untuk data sampel ke-i pada cluster ke-k
xij      = data ke-i, atribut ke-j
Pt      = fungsi objektif pada iterasi ke-t

Hitung Perubahan Matriks

Hitung perubahan matriks partisi menggunakan persamaan berikut (Yan, 1994)  :

Dengan I = 1,2,…,n; dan k=1,2,…c.
Dimana :
Vkj      = pusat cluster ke-k untuk atribut ke-j
ηik      = derajat keanggotaan untuk data sampel ke-i pada cluster ke-k
xij     = data ke-i, atribut ke-j

Cek Kondisi berhenti

Jika :

ATAU

maka berhenti. Jika tidak: t=t+1, ulangi langkah ke-4.

Dec 14

Hard Clustering dan Fuzzy Clustering

Hard Clustering dan Fuzzy Clustering

Metode pengelompokan klasik (hard clustering) berdasarkan pada teori himpunan klasik, yang menentukan bahwa sebuah objek dapat menjadi anggota atau bukan anggota dari suatu cluster. Fuzzy clustering memperbolehkan suatu objek untuk menjadi anggota dari beberapa cluster sekaligus dengan derajat keanggotaan yang berbeda-beda. Derajat keanggotaan berada di antara rentang 0 dan 1. Jadi, dataset X dapat dipartisi menjadi c fuzzy subset. Di dalam situasi riil, fuzzy clustering memiliki hasil yang lebih natural dibandingkan dengan hard clustering.

Ilustrasi Hard Clustering VS Fuzzy Clustering

Ilustrasi perbedaan antara hard clustering dan fuzzy clustering ditunjukkan melalui gambar berikut ini.

Dec 14

Clustering

Clustering

Pengelompokan (clustering) merupakan teknik yang sudah cukup dikenal dan banyak digunakan untuk mengelompokkan data/objek ke dalam kelompok data (cluster) sehingga setiap cluster memiliki data yang mirip dan berbeda dengan data yang berada dalam cluster lain. Jika diberikan himpunan data yang berjumlah terhingga, yaitu X, maka permasalahan clustering dalam X adalah mencari beberapa pusat cluster yang dapat memberikan ciri kepada masing-masing cluster dalam X.

Contoh Proses Clustering

Gambar di bawah ini menunjukkan contoh sederhana dari proses clustering, dimana 3 cluster di dalam data dapat teridentifikasi dengan mudah.

Kriteria kemiripan yang digunakan dalam kasus ini adalah jarak (dalam kasus ini jarak geometris). Proses ini disebut distance-based clustering. Cara lain untuk melakukan clustering adalah conceptual clustering. Dalam conceptual clustering, objek dikelompokkan berdasarkan kecocokannya menurut konsep deskriptif.