Data Mining: Pengenalan

Sekilas tentang Data Mining

Aktivitas yang dilakukan organisasi menghasilkan model bisnis yang bervariasi. Dalam mendukung model bisnis yang dikembangkan, organisasi akan mengumpulkan data perihal aktivitas dan transaksi yang dikelolanya. Data yang terkumpul tersebut diharapkan dapat membantu dalam melihat kesehatan organisasi dan pengambilan keputusan dikemudian hari. Aktivitas yang dilakukan tersebut lebih dikenal dengan data mining.

Data

Data yang dikelola oleh organisasi akan sangat berbeda bergantung kepada skala usahanya. Skala usaha yang kecil tentu saja cukup dengan berkas spreadsheet yang dengan mudahnya dapat diolah dengan perangkat lunak di desktop PC. Skala usaha menengah tentu saja memerlukan sistem basis data dan dashboard real-time yang dengan mudah dapat dilihat oleh manajemen. Dan skala usaha besar tentu saja butuh pendekatan yang lebih dalam tata kelola datanya. Dengan skenario yang berbeda-beda ini pendekatan pengelolaan data dan metode analisis data saja yang mungkin berbeda.

Data yang tersimpan oleh organisasi akan tersimpan sepanjang hayat organisasi berdiri, mulai dari awal berdiri hingga saat ini. Namun seringkali untuk melihat kesehatan organisasi dan pengambilan keputusan, data yang digunakan tidaklah dari awal, mungkin hanya tahun lalu dan tahun sebelumnya serta tentu saja data tahun berjalan. Data yang sebelum itu bisa dikatakan hanya memenuhi ruang kosong media penyimpanan.

Perusahaan skala menengah dan besar yang sudah berdiri bertahun-tahun tentunya memiliki skala data yang lumayan cukup mengisi media penyimpanan. Sebagian besar hanya akan tertumpuk sebagai arsip dan bukti sejarah perkembangan perusahaan, tidak terpakai, dan menghabiskan sumber daya basis data yang telah dibangun. Namun apakah harus dibuang? Mungkin yang perlu dilakukan adalah melihat data dari metode yang berbeda, salah satu yang sedang hype adalah data mining.

Data Mining

Data Mining
Data mining

Dalam wikimedia, Penggalian Data, adalah kegiatan mengeksplorasi pola yang menarik dari data dalam jumlah besar. Pola yang menarik adalah pola yang implisit, temuan yang tidak dapat disepelekan, benar-benar baru dan berguna bagi kelangsungan organisasi. Dalam penyajiannya, perlu ada presentasi yang dapat dengan mudah dipahami dan tidak bias. Untuk kegiatan prediksi, perlu adanya ukuran derajat kepastian tertentu.

Latar Belakang

Perkembangan yang pesat di bidang pengumpulan data dan teknologi penyimpanan, menghasilkan basis data yang terus menumpuk hingga seringkali tidak dilihat lagi karena terlampau besar. Data yang tersimpan terlalu panjang karena dibangun dari awal organisasi berdiri hingga kini. Pada beberapa kondisi, data dianggap tidak menarik karena perubahan kondisi aktivitas organisasi yang kekinian.

Meskipun banyak ungkapan menyatakan bahwa keputusan perlu berdasarkan data, seringkali keputusan dibuat tidak berdasarkan data. Banyak keputusan lahir dimulai dari intuisi para pembuat keputusan dan data yang dibentuk adalah untuk menguatkan kesimpulan dari intuisi tersebut. Kondisi ini mendorong lahirnya cabang ilmu data mining.

Proses Data Mining

Analisis data dalam data mining utamanya adalah otomasi, mengingat: data yang terlalu banyak, dimensi data terlalu besar, dan data terlalu kompleks untuk dianalisis manual. Sehingga metodologi yang ditawarkan membuat kerangka kerja ekstraksi pola sebagai sebuah proses berurutan.

data mining process

Proses ektraksi pola dimulai dari gol atau tujuan yang ingin dicapai dalam organisasi. Misalkan, bisnis transportasi tentunya perlu mempertimbangkan dukungan lebih armada pada jalur yang ramai dan waktu sibuk.

Setelah ditetapkan tujuan, berikutnya adalah menentukan data apa yang bisa dijadikan parameter dalam mengidentifikasi kebutuhan pengalokasian armada pada jalur dan waktu yang tepat. Beberapa data yang bisa digunakan misalnya adalah banyaknya antrian pesanan, lama pemesan menunggu, dan jumlah penumpang yang naik dari masing-masing titik penjemputan.

Penyiapan data merupakan fase terpenting dan membutuhkan waktu dalam keseluruhan proses. Kesiapan data yang dibutuhkan dalam model sesuai dengan hasil identifikasi tidak selalu tersedia. Kunci dalam penyiapan data ini adalah komunikasi antara pemilik bisnis, pengolah data (atau kerennya data engineer) dan analis (kerennya data scientist) yang baik sehingga hasil model tidak bias.

Pengembangan model berdasarkan data yang telah disiapkan merupakan pengambilan kesimpulan dengan masukan parameter dari data maupun melalui pola data yang muncul saat ekstraksi. Kesimpulan yang dilaporkan dapat menjadi 2 (dua) buah dokumen yaitu usulan model pendukung keputusan yang digunakan dalam bisnis dan evaluasi terhadap data pembentuk.

Hasil kesimpulan dipresentasikan dalam perangkat yang digunakan dalam bisnis, misal dashboard bagi pengambil keputusan atau inputan dan pengolahan data bagi pengembangan model lebih lanjut. Model pendukung keputusan yang digunakan dalam bisnis tentunya akan melihat keterbatasan model sesuai data pembentuknya. Dengan keterbatasan yang ada, pengambil keputusan akan menentukan ekspektasinya terhadap model yang dikembangkan.

Kerangka Kerja

Proses lebih lanjut yang perlu di lakukan adalah menentukan standar baku yang akan diadopsi dalam proses penggalian data (data mining) ini.

Menentukan standar baku bukanlah sebuah kekangan dalam mengembangkan sesuatu produk namun lebih kepada acuan baku sehingga SOP (Standard Operating Procedures) yang baku dapat ditetapkan untuk masing-masing jabatan yang tersedia. Perkembangan dan pengembangan kerangka kerja dapat disesuaikan dengan kondisi hirearki organisasi.

CRISP DM

CRISP DM: Cross-industry Standard Process Data Mining

Pada tahun 1996 EU (Uni Eropa) mengembangkan sebuah proyek yang didanai oleh ESPRIT tahun 1997 dimana proyek ini mengembangkan CRISP-DM yang dipimpin oleh 5 (lima) perusahaan besar, yaitu: Integral Solutions Ltd (ISL), Teradata, Daimler AG, NCR Corporation dan perusahaan asuransi OHRA. Masing-masing perusahaan itu mengembangkan dan menerapkan metodologi sesuai dengan

CRISP-DM banyak digunakan di berbagai industri karena fleksibilitasnya memberikan banyak manfaat dalam menyelesaikan beragam masalah dalam penerapan data mining. Satu-satunya kekurangan mungkin adalah tidak adanya pedoman manajemen proyek dalam mengelola aktivitas dan memantau proses. Fleksibilitas yang menjadi daya tarik penerapan adalah tidak adanya batasan indutri yang dapat mengadopsi, perangkat dan aplikasi yang digunakan juga diserahkan kepada masing-masing organisasi.

Ingin membaca lebih lanjut, silakan unduh dokumen.

Penerapan Data Mining

Menerapkan data mining pada organisasi saat ini merupakan new normal atau kebiasaan baru yang perlu dipertimbangkan untuk diadopsi sejak dini. Dengan data yang melimpah dan teknologi yang selalu terhubung, adopsi semakin mudah dan proses dapat mendekati real-time. Tidak ada yang lebih baik dari pada mengetahui kesehatan organisasi saat ini dan sesegera mungkin.

Penerapan penggalian data hendaknya dimulai dari yang paling mudah untuk membiasakan organisasi mengelola data dan menerapkan informasi sesuai dengan kondisi data. Beberapa catatan yang bisa disimpulkan saat ini yaitu:

  • Kebutuhan pemangku kepentingan yang paling sederhana, misal: alokasi trayek bus.
  • Identifikasi data yang dibutuhkan, misal: kapasitas, isi, jam keberangkatan, asal trayek, antrian penumpang, posisi terkini, tujuan akhir trayek.
  • Pengolahan data yang selalu memberikan informasi kondisi data.
  • Pengembangan model yang selalu memperhatikan kondisi data.
  • Evaluasi terhadap model maupun kebutuhan data serta masukan kepada pemangku kepentingan.
  • Penerapan kebutuhan dengan pertimbangan kondisi data, misal pengembangan dashboard trayek berdasar kondisi bus yang tersedia.

Misal ditemukan adanya ketimpangan pembagian hasil berdasar jumlah penumpang kepada pegawai yakni supir trayek menjadi insight atau informasi tambahan untuk mengembangkan model dan masukan pertimbangan pemangku kepentingan yang masuk dalam evaluasi model. Pengembangan lebih lanjut dengan model yang menggunakan pembagian hasil akan menghasilkan produk model baru yaitu model pembagian hasil trayek kepada pengemudi dengan kebutuhan data baru. Proses akan berputar sedemikian rupa sebagai aliran yang terus berputar dengan temuan pola baru dan kebutuhan baru.

Note: catatan ini dibuat setelah 4 (empat) tahun hanya tersimpan di laci dan contoh ingat saat ngobrol curhat dengan pengemudi perjalanan solo-jogja dimana penumpang hanya penulis sendiri.

Ditulis untuk B2B.Web.ID oleh YHT

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *