Selasa, 16 Januari 2018

KLUSTERING DATA

LAPORAN
KLUSTERING DATA
H:\download\logo_unisbank.jpg
Nama Kelompok:
  1. Hendriyanto         14.01.53.0117
  2. Ahmad Fuad        14.01.53.0118
  3. Rahmad Bayu Sejati     14.01.53.0133

UNIVERSITAS STIKUBANK (UNISBANK)
SEMARANG
2018




BAB I
PENDAHULUAN
    1.  Deskripsi Permasalahan
Menentukan Centroid (Titik Pusat) setiap kelompok pada data peduduk miskin dan data pendidikan yang diambil dari nilai ratarata (Means) semua nilai data pada setiap fiturnya. Jika M menyatakan jumlah data pada suatu kelompok, i menyatakan fitur ke-i dalam sebuah kelompok.
    1.  Rumusan masalah
  1. Berapa banyak centroid  yang terbentuk dari hasil penelitian ?
  2. Bagaimana hasil data cluster dari hasil peneltian?





















BAB II
TINJAUAN PUSTAKA
    1.  Klustering
Pada dasarnya clustering terhadap data adalah suatu proses untuk mengelompokkan sekumpulan data tanpa suatu atribut kelas yang telah didefinisikan sebelumnya, berdasarkan pada prinsip konseptual clustering yaitu memaksimalkan dan juga meminimalkan kemiripan intra kelas. Misalnya, sekumpulan obyek-obyek komoditi pertama-tama dapat di clustering menjadi sebuah himpunan kelas-kelas dan lalu menjadi sebuah himpunan aturan-aturan yang dapat diturunkan berdasarkan suatu klasifikasi tertentu.   
Proses untuk mengelompokkan secara fisik atau abstrak obyek-obyek ke dalam bentuk kelas-kelas atau obyek-obyek yang serupa, disebut dengan clustering atau unsupervised classification. Melakukan analisa dengan clustering, akan sangat membantu untuk membentuk partisi-partisi yang berguna terhadap sejumlah besar himpunan obyek dengan didasarkan pada prinsip "divide and conquer" yang mendekomposisikan suatu sistem skala besar, menjadi komponen-komponen yang lebih kecil, untuk menyederhanakan proses desain dan implementasi. Perbedaan utama antara Clustering Analysis dan klasifikasi adalah bahwa Clustering Analysis digunakan untuk memprediksi kelas dalam format bilangan real dan pada format katagorikal atau Boolean.  
    1.  Klustering Data
Data Clustering merupakan salah satu metode data mining yang bersifat tanpa arahan (unsupervised). Ada dua jenis data clustering yang sering dipergunakan dalam proses pengelompokan data yaitu hierarchical dataclustering dan non-hierarchical dataclustering. K-Means merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster/kelompok. Metode ini mempartisi data ke dalam cluster/kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain.  Adapun tujuan dari data clustering ini adalah untuk meminimalisasikan objective function yang diset dalam proses clustering, yang pada umumnya berusaha meminimalisasikan variasi di dalam suatu cluster dan memaksimalisasikan variasi antar cluster. Data clustering menggunakan metode K-Means ini secara umum dilakukan dengan algoritma dasar sebagai berikut: 1. Tentukan jumlah cluster 2. Alokasikan data ke dalam cluster secara random 3. Hitung centroid (rata-rata) dari data yang ada di masing-masing cluster 4. Alokasikan masing-masing data ke centroid (rata-rata) terdekat 5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan nilai pada objective function yang digunakan di atas nilai threshold yang ditentukan.  

    1.  Hierarchical Clustering
    Pada algoritma clustering, data akan dikelompokkan menjadi cluster-cluster berdasarkan kemiripan satu data dengan yang lain. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu cluster dan meminimumkan kesamaan antar anggota cluster yang berbeda [6, 9].
    Kategori algoritma clustering yang banyak dikenal adalah Hierarchical Clustering. Hierarchical Clustering adalah salah satu algoritma clustering yang dapat digunakan untuk meng-cluster dokumen (document clustering). Dari teknik hierarchical clustering, dapat dihasilkan suatu kumpulan partisi yang berurutan, dimana dalam kumpulan tersebut terdapat:
  1. Cluster – cluster yang mempunyai poin – poin individu. Cluster – cluster ini berada di level yang paling bawah.
  2. Sebuah cluster yang didalamnya terdapat poin – poin yang dipunyai semua cluster didalamnya. Single cluster ini berada di level yang paling atas.
    Hasil keseluruhan dari algoritma hierarchical clustering secara grafik dapat digambarkan sebagai tree, yang disebut dengan dendogram. Tree ini secara grafik menggambarkan proses penggabungan dari cluster – cluster yang ada, sehingga menghasilkan cluster dengan level yang lebih tinggi [9]. Gambar 1 adalah contoh dendogram.

Gambar 1. Dendogram [6]

    1. Agglomerative Hierarchical Clustering
        Metode ini menggunakan strategi disain Bottom-Up yang dimulai dengan meletakkan setiap obyek sebagai sebuah cluster tersendiri (atomic cluster) dan selanjutnya menggabungkan atomic cluster – atomic cluster tersebut menjadi cluster yang lebih besar dan lebih besar lagi sampai akhirnya semua obyek menyatu dalam sebuah cluster atau proses dapat pula berhenti jika telah mencapai batasan kondisi tertentu [6]. Metode Agglomerative Hierarchical Clustering yang digunakan pada penelitian ini adalah metode AGglomerative NESting (AGNES). Cara kerja AGNES dapat dilihat pada gambar 1.
        Adapun ukuran jarak yang digunakan untuk menggabungkan dua buah obyek cluster adalah Minimum Distance [6], yang dapat dilihat pada persamaan 1.

...(1)
    Dimana |p – p’| jarak dua buah obyek p dan p’.

    1. Algoritma Cosine Distance
    Metode cosine distance merupakan metode yang digunakan untuk menghitung similarity (tingkat kesamaan) antar dua buah obyek [6]. Pada penelitian ini obyek Berikut adalah persamaan dari metode Cosine Distance :

           ................ (2)
    Pada penelitian ini obyek v1 dan v2 adalah dua buah dokumen yang berbeda.
    1. Kmeans
K-means merupakan salah satu algoritma clustering [1]. Tujuan algoritma ini yaitu untuk membagi data menjadi beberapa kelompok. Algoritma ini menerima masukan berupa data tanpa label kelas. Hal ini berbeda dengan supervised learning yang menerima masukan berupa vektor (­x­1 , y1) , (­x­2 , y2) , …, (­x­i , yi), di mana xi merupakan data dari suatu data pelatihan dan yi merupakan label kelas untuk xi [2].
Pada algoritma pembelajaran ini, komputer mengelompokkan sendiri data-data yang menjadi masukannya tanpa mengetahui terlebih dulu target kelasnya[1]. Pembelajaran ini termasuk dalam unsupervised learning. Masukan yang diterima adalah data atau objek dan k buah kelompok (cluster) yang diinginkan.  Algoritma ini akan mengelompokkan data atau objek ke dalam k buah kelompok tersebut. Pada setiap cluster terdapat titik pusat (centroid) yang merepresentasikan cluster tersebut.
K-means ditemukan oleh beberapa orang yaitu Lloyd (1957, 1982), Forgey (1965) , Friedman and Rubin (1967) , and McQueen (1967) [1]. Ide dari clustering pertama kali ditemukan oleh Lloyd pada tahun 1957, namun hal tersebut baru dipublikasi pada tahun 1982. Pada tahun 1965, Forgey juga mempublikasi teknik yang sama sehingga terkadang dikenal sebagai Lloyd-Forgy pada beberapa sumber

   


BAB III
METODE PENELITIAN

    1.  Objek penelitian
Data Penduduk Misikin dan Data Pendidikan Wilayah Jawa Tengah
    1. Metode pengumpulan Data
  1. Data primer
    data yang dikumpulkan dan diolah sendiri oleh peneliti langsung dari subjek atau objek penelitian.
  1. Data sekunder
    data yang didapatkan tidak secara langsung dari objek atau subjek penelitian.
    1. Alur Penelitian











BAB IV
HASIL DAN PEMBAHASAN
  1. Table  Data Penduduk Miskin Wilayah Jawa Tengah











  1. Tabel Data Pendidikan Wilayah Jawa Tengah


  1. Inisialisasi Data Penduduk Miskin Secara Random
  1. Inisialisasi Data Pendidikan

  1. Menghitung Centroid Setiap Cluster
(Data Penduduk Miskin)






(Data Pendidikan)
  1. Hasil Centroid Setiap Cluster

(Data Penduduk Miskin)
(Data Pendidikan)









BAB V
KESIMPULAN DAN REKOMENDASI
  1. Kesimpulan
Hasil    dari clustering data    yang    didapat     dari data penduduk miskin dan data pendidikan disimpulkan bahwa Data penduduk miskin memiliki hasil cluster tertinggi 246,775 dan terendah 80,3308, sedangkan data pendidikan hasil cluster tertinggi centroid x 33,5833 dan centroid y 13864,0833 dan data terendah centroid x 14,6364 dan centroid y 6966,6364.
  1. Rekomendasi
Adapun saran yang dapat penulis sampaikan kepada kita semua yaitu agar selalu mencari tahu apa yang belum kita tahu. Dengan kata lain mencari ilmu sebagai bekal dimasa depan.



















Daftar Pustaka

  1. https://id.wikipedia.org/wiki/K-means


Klasifikasi

LAPORAN KLASIFIKASI
H:\download\logo_unisbank.jpg
Nama Kelompok:
  1. Hendriyanto         14.01.53.0117
  2. Ahmad Fuad        14.01.53.0118
  3. Rahmad Bayu Sejati     14.01.53.0133

UNIVERSITAS STIKUBANK (UNISBANK)
SEMARANG
2018





BAB I
PENDAHULUAN
    1.  Deskripsi Permasalahan
    Badan Kepegawaian Daerah merupakan Badan Pemerintah yang berperan sebagai Penyelenggaraan Pengadaan dan Seleksi Calon Pegawai serta penempatan pegawai di lingkungan Pemerintah Kabupaten Banjarnegara. Salah satu tugas dan wewenang BKD atas pelaksaan tugas kedinasan yang diberikan oleh Pemerintah Kabupaten Banjarnegara untuk melahirkan pegawai yang memiliki kemampuan baik dan kompeten di bidangnya yaitu dengan cara menyelenggarakan pelayanan umum bidang pengembangan pegawai, mutasi, pengangkatan dan kepangkatan, dalam rangka pelaksanaan urusan pemerintah bidang kepegawaian yang ditentukan dalam menjalankan tugas pengadaan dan manajemen kepegawaian sesuai formasi yang dibutuhkan setiap unit/organisasi badan.
Melihat jumlah penduduk yang cukup padat (rasio beban kerja) dan pelamar luar daerah yang melamar, Pemerintah belum bisa memberi kepastian tentang jumlah Pegawai Negeri Sipil yang dibutuhkan dan yang harus direkrut kemudian diangkat setiap tahunnya masih belum dapat dihitung secara baik.Oleh sebab itu, alasan mengapa Pelaksanaan Pengadaan Pegawai, Mutasi dan Penempatan Pegawai di Lingkungan Pemerintah Kabupaten Banjarnegara diadakan.Salah satunya, berita dari tahun ke tahun dan opini yang beredar di kalangan masyarakat, penerimaan pegawai masih diwarnai kegiatan daerahisme, nepotisme, kolusi, spoil, sehingga kualitas SDM-PNS yang diterima sebagi pegawai masih rendah. Sebagai langkah dan solusi yang diajukan sebagai penyelesaian terhadap uraian diatas maka penulis tertarik untuk mengklasifikasi suatu permasalahan sistem data mining yang mudah digunakan dan dapat menyajikan informasi relevan dan akurat yaitu mengklasifikasi data mining untuk menampilkan informasi penerimaan seleksi calon pegawai negeri sipil 2014 pada Badan Kepegawaian Daerah Kabupaten Banjarnegara menggunakan algoritma Decision tree C4.5. Sehingga pelaksanaan pengadaan CPNS dapat berjalan sesuai prosedur yang ditetapkan oleh pemerintah. Sertadapat diketahui kriteria kriteria apa saja yang dibutuhkan dalam Pelaksanaan Pegadaan dan Seleksi Calon Pegawai Negeri Sipil di Lingkungan Pemerintah Kabupaten Banjarnegara sebagai bahan klasifikasi.
Data Mining sendiri memiliki beberapa algoritma, salah satunya yaitu Decission Tree yang merupakan metode klasifikasi yang paling terkenal, mudah dan banyak diimplementasi di berbagai bidang karena sederhana, serta memiliki kemampuan akurasi yang baik untuk mengklasifikasi gundukan data yang teramat banyak. Klasifikasi merupakan proses menemukan kumpulan pola atau fungsi-fungsi yang mendeskripsikan dan memisahkan kelas data satu dengan lainnya, untuk dapat digunakan untuk memprediksi data yang belum memiliki kelas data tertentu. Jadi secara singkat, klasifikasi adalah proses untuk membedakan/memisahkan kelas.
    1.  Rumusan masalah
  1. Bagaimana tingkat akurasi teknik klasifikasi data mining dengan algoritma C4.5 dalam pengimplementasian metode decision tree terhadap data penerimaan CPNS 2014?
  2. Bagaimana hasil data akurasi dari hasil peneltian?


BAB II
TINJAUAN PUSTAKA
    1.  Klasifikasi
Klasifikasi adalah salah satu bentuk dari teknik atau metode data mining yang termasuk dalam kategori predictive mining yaitu suatu teknik yang dapat digunakan untuk meramalkan atau memprediksi kecenderungan data di masa depan. Proses yang terjadi dalam klasifikasi adalah proses penggolongan data ke dalam variabel target atau variabel tujuan dengan membangun sebuah model penyelesaian dengan memperhatikan atribut yang paling berpengaruh.
Klasifikasi masuk ke dalam supervised induction, dimana pengujian yang memanfaatkan kumpulan pengujian dari record dan atribut yang terklasifikasi untuk menentukan output dan kelas tambahan. Salah satu contoh algoritmanya adalah decision tree yang terkenal dan mudah dalam implementasinya ke dalam bentuk grafik.  
    1. Metode Klasifikasi
Metode Algoritma Klasifikasi Penelitian ini menyebutkan 4 (empat) metode algoritma klasifikasi yang cenderung digunakan dalam pengembangan DM, yaitu: 1) C45, metode ini menjadi pilihan pertama yang sering digunakan dalam pengembangan DM karena kecepatan dalam pengklasifikasian pohon keputusan disamping dapat mengkonstruksi pengklasifikasian dengan aturan-aturan yang lain. 2) k-NN, beberapa hal yang menjadi perhatian dalam penggunaan algoritma ini adalah penggunaan pilihan k, jika k sangat kecil maka akan mengakibatkan noise. Sebaliknya jika terlalu besar dapat meyebabkan N dengan banyak kelas yang harus diklasifikasikan. Tetapi kesederhanaan metode menjadi nilai lebih sehingga menjadi pilihan banyak developer DM selain itu, algoritma ini mudah untuk dipahami dan diimplementasikan dalam tekniknya. Penelitian ini menyatakan bahwa banyak peneliti berpendapat bahwa algoritma ini lebih baik dari SVM berdasarkan skema pengklasifikasiannya. 3) Naive Bayes, penelitian tersebut menyimpulkan bahwa metode algoritma Naive Bayes memiliki keunggulan untuk pengembangan DM, yaitu kemudahan konstruksinya dan tidak membutuhkan parameter skema pengulangan yang kompleks sehingga mudah dalam membaca data dalam jumlah yang besar. Hal ini terjadi karena desain rancangan penuntunan klasifikasi terhadap data. Selain itu, metode ini dinyatakan sebagai algoritma yang mempunyai sifat simplicity, elegance dan robustness. 4) CART, penerapan metode algoritma ini banyak digunakan dalam berbagai bidang yang membutuhkan pengolahan data yang komprehensif. Hanya saja mekanismenya terdiri dari beberapa tahap yang bertingkat meliputi automatic class balancing, automatic missing, value handling dan allows for cost-sensitive learning, dynamic feature construction dan probability tree estimation sehingga tingkat kompleksitas menjadi pertimbangan para peneliti pemula. Hasil akhirnya adalah gambaran atribut berdasarkan prioritas kebutuhan proses.
    1.  Komponen Klasifikasi
Komponen-komponen utama dari proses klasifikasi antara lain :

  1. Kelas, merupakan variable tidak bebas yang merupakan label dari hasil klasifikasi.

  1. Prediktor, merupakan variable bebas suatu model berdasarkan dari karakteristik atribut data yang diklasifikasi,

  1. Set data pelatihan, merupakan sekumpulan data lengkap yang berisi kelas dan predictor untuk dilatih agar model dapat mengelompokan ke dalam kelas yang tepat. Contohnya adalah grup pasien yang telah di-test terhadap serangan jantung, grup pelanggan di suatu supermarket, dan sebagainya.

Set data uji, berisi data-data baru yang akan dikelompokan oleh model guna mengetahui akurasi dari model yang telah dibuat.

BAB III
METODE PENELITIAN

    1.  Objek penelitian
Data CPNS 2014
    1. Metode pengumpulan Data
  1. Data primer
    data yang dikumpulkan dan diolah sendiri oleh peneliti langsung dari subjek atau objek penelitian.
  1. Data sekunder
    data yang didapatkan tidak secara langsung dari objek atau subjek penelitian.
    1. Alur Penelitian

C:\Users\Galih Jatmiko Putro\AppData\Local\Microsoft\Windows\INetCache\Content.Word\alur.jpg




BAB IV
HASIL DAN PEMBAHASAN
  1. Table  Data Pelamar CPNS 2014

  1. Konversi Data
Proses konversi data asli pelamar menjadi sebuah bilangan bulat untuk mempermudah matlab untuk melakukan proses klasifikasi.
Konversi data ini merupakan proses penting dalam perhitungan dalam sistem yang dibangun agar memudahkan pengkodean dalam pembuatan sistem.
  1. Table  Keterangan table konversi data
  1. Implementasi Antarmuka
Tampilan pada gambar merupakan tampilan utama yang menampilkan menu-menu yang dapat diakses oleh user. Desain sistem yang digunakan yaitu menggunakan aplikasi Matlab yang mendukung pengoperasian data mining.
  1. Proses Data Training dan Data Testing
Dalam proses data mining terdapat tahap yang harus dilakukan untuk pengolahan suatu data, yaitu tahap data training dan data testing. Training set digunakan oleh algoritma klassifikasi sebagai bentuk model classifier dalam bentuk pohon keputusan.
Testing set digunakan untuk mengukur classifier sejauh mana akurat melakukan klasifikasi dengan tepat. Algoritma C4.5 akan menghasilkan pola data yang diproses guna memberikan informasi dan trend dari data tersebut. Sedangkan data testing digunakan untuk mengukur sejauh mana pohon keputusan yang dibentuk berhasil melakukan klasifikasi dengan benar.
  1. Pengujian Rules Terhadap Data Calon Siswa
Pengujian terhadap validitas sistem bertujuan untuk mengetahui apakah solusi yang dihasilkan oleh pohon keputusan tersebut valid atau tidak. Rules tersebut dikatakan valid jika jumlah dan nama pelamar yang dinyatakan lulus BKD dengan data set.

Pembagian data set ke dalam dua bagian , yaitu data training dan data testing. Pengujian dilakukan tiga kali dengan jumlah data training dan data testing yang berbeda. Uraiannya sebagai berikut :
  1. Data training 90% dan data testing 10%
  1. Data training 80% dan data testing 20%
  2. Data training 70% dan data testing 30%
Pengujian










Gambar : Hasil Data Testing 10%
Pada  tabel  berikut,  data  dengan perbandingan  90%  :  10%  memiliki  nilai
akurasi  sebesar  0.75,    precision  sebesar 0.375, recall sebesar 0.75 dan f-measure 0.5.
Tabel  Evaluasi dan Validasi
Gambar Pohon Keputusan uji
BAB V
KESIMPULAN DAN REKOMENDASI
  1. Kesimpulan
Hasil    penelitian    yang    didapat    dari permasalahan yang dikembangkan disimpulkan bahwa pengimplementasian metode decision tree terhadap data penerimaan CPNS 2014 memiliki tingkat akurasi yang baik dalam menyelesaikan solusi klasifikasi dengan memanfaatkan teknik klasifikasi data mining dengan algoritma C4.5.
Hasil dari pengujian , didapatkan akurasi dari pengujian sebanyak 75% dari dataset. Sebanyak 250 pelamar yang dibagi menjadi 225 pelamar / 90% menjadi data training dan 25 pelamar / 10% menjadi data testing. Kemudian dibuatlah pohon keputusan dengan sistem yang dibangun, hubungannya untuk lebih memastikan dan mengetahui aturan atau rules yang diperoleh dari perhitungan metode yang digunakan. Jadi dengan demikian metode decision tree merupakan metode yang sesuai dalam hal penyelesaian studi kasus penerimaan calon pegawai negeri sipil 2014.   
  1. Rekomendasi
Adapun saran yang dapat penulis sampaikan kepada kita semua yaitu agar selalu mencari tahu apa yang belum kita tahu. Dengan kata lain mencari ilmu sebagai bekal dimasa depan.













Daftar Pustaka

  1. Jurnal : KLASIFIKASI DATA MINING UNTUK PENERIMAAN SELEKSI CALON PEGAWAI NEGERI SIPIL 2014 MENGGUNAKAN ALGORITMA DECISION TREE C4.5.Rendragraha Kumara. Catur Supriyanto.