LAPORAN
KLUSTERING DATA
Nama Kelompok:
- Hendriyanto 14.01.53.0117
- Ahmad Fuad 14.01.53.0118
- Rahmad Bayu Sejati 14.01.53.0133
UNIVERSITAS STIKUBANK (UNISBANK)
SEMARANG
2018
BAB I
PENDAHULUAN
- Deskripsi Permasalahan
Menentukan Centroid (Titik Pusat) setiap kelompok pada data peduduk miskin dan data pendidikan yang diambil dari nilai ratarata (Means) semua nilai data pada setiap fiturnya. Jika M menyatakan jumlah data pada suatu kelompok, i menyatakan fitur ke-i dalam sebuah kelompok.
- Rumusan masalah
- Berapa banyak centroid yang terbentuk dari hasil penelitian ?
- Bagaimana hasil data cluster dari hasil peneltian?
BAB II
TINJAUAN PUSTAKA
- Klustering
Pada dasarnya clustering terhadap data adalah suatu proses untuk mengelompokkan sekumpulan data tanpa suatu atribut kelas yang telah didefinisikan sebelumnya, berdasarkan pada prinsip konseptual clustering yaitu memaksimalkan dan juga meminimalkan kemiripan intra kelas. Misalnya, sekumpulan obyek-obyek komoditi pertama-tama dapat di clustering menjadi sebuah himpunan kelas-kelas dan lalu menjadi sebuah himpunan aturan-aturan yang dapat diturunkan berdasarkan suatu klasifikasi tertentu.
Proses untuk mengelompokkan secara fisik atau abstrak obyek-obyek ke dalam bentuk kelas-kelas atau obyek-obyek yang serupa, disebut dengan clustering atau unsupervised classification. Melakukan analisa dengan clustering, akan sangat membantu untuk membentuk partisi-partisi yang berguna terhadap sejumlah besar himpunan obyek dengan didasarkan pada prinsip "divide and conquer" yang mendekomposisikan suatu sistem skala besar, menjadi komponen-komponen yang lebih kecil, untuk menyederhanakan proses desain dan implementasi. Perbedaan utama antara Clustering Analysis dan klasifikasi adalah bahwa Clustering Analysis digunakan untuk memprediksi kelas dalam format bilangan real dan pada format katagorikal atau Boolean.
- Klustering Data
Data Clustering merupakan salah satu metode data mining yang bersifat tanpa arahan (unsupervised). Ada dua jenis data clustering yang sering dipergunakan dalam proses pengelompokan data yaitu hierarchical dataclustering dan non-hierarchical dataclustering. K-Means merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster/kelompok. Metode ini mempartisi data ke dalam cluster/kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain. Adapun tujuan dari data clustering ini adalah untuk meminimalisasikan objective function yang diset dalam proses clustering, yang pada umumnya berusaha meminimalisasikan variasi di dalam suatu cluster dan memaksimalisasikan variasi antar cluster. Data clustering menggunakan metode K-Means ini secara umum dilakukan dengan algoritma dasar sebagai berikut: 1. Tentukan jumlah cluster 2. Alokasikan data ke dalam cluster secara random 3. Hitung centroid (rata-rata) dari data yang ada di masing-masing cluster 4. Alokasikan masing-masing data ke centroid (rata-rata) terdekat 5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan nilai pada objective function yang digunakan di atas nilai threshold yang ditentukan.
- Hierarchical Clustering
Pada algoritma clustering, data akan dikelompokkan menjadi cluster-cluster berdasarkan kemiripan satu data dengan yang lain. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu cluster dan meminimumkan kesamaan antar anggota cluster yang berbeda [6, 9].
Kategori algoritma clustering yang banyak dikenal adalah Hierarchical Clustering. Hierarchical Clustering adalah salah satu algoritma clustering yang dapat digunakan untuk meng-cluster dokumen (document clustering). Dari teknik hierarchical clustering, dapat dihasilkan suatu kumpulan partisi yang berurutan, dimana dalam kumpulan tersebut terdapat:
- Cluster – cluster yang mempunyai poin – poin individu. Cluster – cluster ini berada di level yang paling bawah.
- Sebuah cluster yang didalamnya terdapat poin – poin yang dipunyai semua cluster didalamnya. Single cluster ini berada di level yang paling atas.
Hasil keseluruhan dari algoritma hierarchical clustering secara grafik dapat digambarkan sebagai tree, yang disebut dengan dendogram. Tree ini secara grafik menggambarkan proses penggabungan dari cluster – cluster yang ada, sehingga menghasilkan cluster dengan level yang lebih tinggi [9]. Gambar 1 adalah contoh dendogram.
Gambar 1. Dendogram [6]
- Agglomerative Hierarchical Clustering
Metode ini menggunakan strategi disain Bottom-Up yang dimulai dengan meletakkan setiap obyek sebagai sebuah cluster tersendiri (atomic cluster) dan selanjutnya menggabungkan atomic cluster – atomic cluster tersebut menjadi cluster yang lebih besar dan lebih besar lagi sampai akhirnya semua obyek menyatu dalam sebuah cluster atau proses dapat pula berhenti jika telah mencapai batasan kondisi tertentu [6]. Metode Agglomerative Hierarchical Clustering yang digunakan pada penelitian ini adalah metode AGglomerative NESting (AGNES). Cara kerja AGNES dapat dilihat pada gambar 1.
Adapun ukuran jarak yang digunakan untuk menggabungkan dua buah obyek cluster adalah Minimum Distance [6], yang dapat dilihat pada persamaan 1.
Dimana |p – p’| jarak dua buah obyek p dan p’.
- Algoritma Cosine Distance
Metode cosine distance merupakan metode yang digunakan untuk menghitung similarity (tingkat kesamaan) antar dua buah obyek [6]. Pada penelitian ini obyek Berikut adalah persamaan dari metode Cosine Distance :
Pada penelitian ini obyek v1 dan v2 adalah dua buah dokumen yang berbeda.
- Kmeans
K-means merupakan salah satu algoritma clustering [1]. Tujuan algoritma ini yaitu untuk membagi data menjadi beberapa kelompok. Algoritma ini menerima masukan berupa data tanpa label kelas. Hal ini berbeda dengan supervised learning yang menerima masukan berupa vektor (x1 , y1) , (x2 , y2) , …, (xi , yi), di mana xi merupakan data dari suatu data pelatihan dan yi merupakan label kelas untuk xi [2].
Pada algoritma pembelajaran ini, komputer mengelompokkan sendiri data-data yang menjadi masukannya tanpa mengetahui terlebih dulu target kelasnya[1]. Pembelajaran ini termasuk dalam unsupervised learning. Masukan yang diterima adalah data atau objek dan k buah kelompok (cluster) yang diinginkan. Algoritma ini akan mengelompokkan data atau objek ke dalam k buah kelompok tersebut. Pada setiap cluster terdapat titik pusat (centroid) yang merepresentasikan cluster tersebut.
K-means ditemukan oleh beberapa orang yaitu Lloyd (1957, 1982), Forgey (1965) , Friedman and Rubin (1967) , and McQueen (1967) [1]. Ide dari clustering pertama kali ditemukan oleh Lloyd pada tahun 1957, namun hal tersebut baru dipublikasi pada tahun 1982. Pada tahun 1965, Forgey juga mempublikasi teknik yang sama sehingga terkadang dikenal sebagai Lloyd-Forgy pada beberapa sumber
BAB III
METODE PENELITIAN
- Objek penelitian
Data Penduduk Misikin dan Data Pendidikan Wilayah Jawa Tengah
- Metode pengumpulan Data
- Data primer
data yang dikumpulkan dan diolah sendiri oleh peneliti langsung dari subjek atau objek penelitian.
- Data sekunder
data yang didapatkan tidak secara langsung dari objek atau subjek penelitian.
- Alur Penelitian
BAB IV
HASIL DAN PEMBAHASAN
- Table Data Penduduk Miskin Wilayah Jawa Tengah
- Tabel Data Pendidikan Wilayah Jawa Tengah
- Inisialisasi Data Penduduk Miskin Secara Random
- Inisialisasi Data Pendidikan
- Menghitung Centroid Setiap Cluster
(Data Penduduk Miskin)
(Data Pendidikan)
- Hasil Centroid Setiap Cluster
(Data Penduduk Miskin)
(Data Pendidikan)
BAB V
KESIMPULAN DAN REKOMENDASI
- Kesimpulan
Hasil dari clustering data yang didapat dari data penduduk miskin dan data pendidikan disimpulkan bahwa Data penduduk miskin memiliki hasil cluster tertinggi 246,775 dan terendah 80,3308, sedangkan data pendidikan hasil cluster tertinggi centroid x 33,5833 dan centroid y 13864,0833 dan data terendah centroid x 14,6364 dan centroid y 6966,6364.
- Rekomendasi
Adapun saran yang dapat penulis sampaikan kepada kita semua yaitu agar selalu mencari tahu apa yang belum kita tahu. Dengan kata lain mencari ilmu sebagai bekal dimasa depan.
Daftar Pustaka
- https://id.wikipedia.org/wiki/K-means