Kamis, 12 Agustus 2010

st2 part3


3. METODOLOGI

3.1.  Bahan dan Alat

Bahan atau objek yang digunakan penelitian adalah buah jeruk keprok segar varietas Pontianak dengan tingkat mutu pasar domistik dan SNI.
Peralatan penelitian sebagaimana pada Gambar 1, dalam penelitian ini digunakan perangkat keras: Kamera CCD (Model: OC-305 D (Digital video camera), Input: DC 12 v/120 MA,Output: AL/1.0 VP-P/75 ohm,Manufacture technology Japan), Perangkat komputer (personal computer, Processor Intel PIII, RAM visipro 128 MB, VGA Card 8 MB AGP onboard), 4  buah lampu penerang (5 W / 220 V / 50 Hz), Timbangan dijital (METTLER PM-48000), Rheometer (model  CR-300), Refraktometer digital (Atago model PR-201 (0-60%)). Perangkat lunak : program yang ditulis dalam Borland Delphi 7.0 dan Visual Basic 6.0. under Windows XP.























Gambar 1. Rangkaian perangkat keras untuk analisis pengolahan citra

3.2.  Prosedur Penelitian

[1]   Pengambilan Citra
Sebelum diambil citranya terlebih dahulu buah jeruk keprok tersebut dibersihkan, selanjutnya diambil citranya menggunakan kamera CCD dengan sistem pengolahan citra (image processing). Citra yang diambil berlatar belakang hitam dan,putih seperti terlihat pada Gambar 2.

                 
                           
Gambar 2. Pengambilan citra 2 latar belakang buah jeruk keprok : (a) latar belakang putih  (b) latar belakang hitam.

Buah jeruk keprok diletakkan di atas kain hitam  dan putih sebagai latar belakang dan terfokus oleh kamera CCD dengan jarak 18.2 cm. Sedangkan lampu penerang yang ditutupi dengan kertas karton diletakkan pada ketinggian 35.5 cm di atas buah jeruk keprok dengan sudut pencahayaan 350 supaya dapat memberikan pencahayaan yang cukup.
[2]   Perekaman Citra
Citra buah jeruk keprok direkam dengan ukuran : 400 x 300 piksel dengan tingkat intensitas cahaya RGB berukuran: 256.
Berikutnya citra buah jeruk keprok yang telah direkam, disimpan dalam file dengan extensi file TIFF berukuran 149 KB, untuk selanjutnya dikonversikan menjadi file berextensi BMP berukuran 351 KB.
[3]   Olah Citra Tekstur
Dengan tekstur akan didapat informasi citra untuk memprediksi kondisi buah jeruk keprok dari sifat permukaannya. Sebelum dilakukan perhitungan nilai tekstur,  objek terlebih dahulu dibuat grayscale dengan cara merata-ratakan nilai RGB, sebagaimana pada Gambar 3.

       
Gambar 3.   Tampilan proses dalam pengolahan citra dengan grafiks intensitas RGB tiap piksel Original.

[4]   Analisis Ambang Batas
Parameter utama dalam analisis ambang batas adalah standar deviasi dan rata-rata. Apabila dua parameter utama tidak menunjukkan nilai perbedaan setiap kelompok secara signifikan, maka metode ambang batas tidak bias digunakan untuk membedakan suatu kelompok tertentu, termasuk kelompok kelas mutu jeruk keprok.
[5]   Model Jaringan Syaraf Tiruan
Model JST yang dibangun adalah model untuk penentuan mutu, sebagaimana pada Gambar 4. Model JST yang diterapkan merupakan multi layer yang terdiri-dari tiga lapis. Adapun komponen-komponen dalam ketiga lapisan pada model mutu tersebut adalah sebagai berikut: (1) Lapisan masukan, merupakan hasil dari pengolahan citra dijital pada buah jeruk keprok segar dengan 4 parameter tekstur, yaitu: featur kontras, featur homogenitas, featur energi, featur entropi dan kontras. (2) Lapisan tersembunyi, sebagai lapisan proses atau pembanding antara lapisan input dan lapisan output yang menghasilkan nilai pembobot diantara unit lapisan-lapisan tersebut. (3) Lapisan keluaran, terdiri-dari empat unit keluaran mutu, hubungan antara kombinasi keluaran dengan mutu ditunjukkan pada Tabel 1.

 















Gambar 4. Model JST: yang digunakan untuk menentukan kelompok mutu buah jeruk keprok.





Tabel 1.   Hubungan kombinasi keluaran JST dengan mutu buah jeruk keprok.


Keluaran
Mutu
 Kelas

O1

O2
A
0
0
B
0
1
C
1
0
Reject
1
1















statistik part 2


2.1     Jaringan Syaraf Tiruan (JST)
Model JST yang umum digunakan adalah berdasarkan algoritma backpropagation dengan menggunakan fungsi sigmoid sebagai fungsi transfer jaringan. Berdasarkan studi Wang, bahwa lebih baik kinerja JST bila memiliki tiga lapisan, yaitu: lapisan masukan, lapisan tersembunyi dan lapisan keluaran. [4]
Adapun algoritma pelatihan backpropagation [2] adalah sebagai berikut:
[1]   Inisialisasi pembobot
Pembobot awal dipilih secara acak (random), kemudian setiap sinyal input diberikan ke dalam noda pada lapisan masukan, lalu sinyal akan dikirim ke noda pada lapisan tersembunyi selanjutnya.
[2]   Perhitungan nilai aktivasi
Setiap noda pada lapisan tersembunyi, dihitung nilai net inputnya dengan cara menjumlahkan seluruh hasil perkalian antara noda input dengan pembobotnya sesuai dengan persamaan berikut.
                                          (5)
Dimana: p=indeks pasangan input-output yang dipilh dari set pelatihan, NetLp i=net input dari noda ke-i pada lapisan L yang berhubungan dengan pasangan ke-p, output noda ke-j pada lapisan L dikurangi satu (L-1) berhubungan dengan pasangan ke-p dan Wij=pembobot yang berhubungan noda ke-j pada lapisan  (L-1) dengan noda ke-i  pada lapisan ke L.
Jika setiap noda pada lapisan ini telah menerima nilai net input, langkah selanjutnya adalah memasukkan nilai net input setiap noda ke dalam fungsi sigmoid sebagai berikut:
                                              (6)

[3]   Perbaikan nilai pembobot
Nilai output dari setiap noda pada output layer hasil perhitungan pada jaringan dibandingkan dengan nilai target yang diberikan. Galat dihitung berdasarkan hubungan antara nilai output jaringan dengan nilai target yang dihitung sesuai dengan persamaan  sebagai berikut:
                                              (7)
dimana: Ep=nilai galat pasangan ke-p, Opi=nilai output noda ke-i untuk pasangan ke-p, Tpi=nilai target ke-i pada pasangan ke-p, Algoritma ini memperkecil galat dengan cara perambatan balik. Pada setiap lapisan dilakukan perubahan pembobot dengan menggunakan perhitungan matematika yang disebut dengan metode delta rule. Perubahan pembobot yang didapatkan sesuai dengan persamaan  sebagai berikut:
                                           (8)
dimana: perubahan nilai pembobot pWij pada pasangan ke-p, *konstanta laju pelatihan (learning rate) dan galat output ke-i pada lapisan L untuk pasangan ke-p.
Galat pada noda output dihitung sesuai dengan persamaan  sebagai berikut:
                          (9)
Galat pada noda dalam lapisan tersembunyi adalah sesuai dengan persamaan (17) berikut ini:
    (10)
dimana: galat noda pada satu lapisan di depan lapisan L untuk pasangan ke-p dan Wki=pembobot dari noda ke-i pada lapisan didepannya, nilai laju pelatihan harus dipilih antara 0 sampai dengan 0.9. Laju pelatihan menentukan kecepatan pelatihan sampai sistem mencapai keadaan optimal.
Prinsip dasar algoritma backpropagation adalah  memperkecil galat hingga mencapai minimum global. Minimum lokal adalah dimana galat sistem turun akan tetapi bukan merupakan solusi yang baik bagi jaringan tersebut. Pemilihan nilai  laju pelatihan sangat penting karena jika nilainya besar akan membuat sistem jaringan melompati nilai minimum lokalnya dan akan berosilasi sehingga tidak mencapai konvergensi. Sebaliknya nilai laju pelatihan yang kecil menyebabkan sistem jaringan terjebak dalam minimum lokal dan memerlukan waktu yang lama selama proses pelatihan. Untuk menghindari keadaan tersebut maka ditambahkan suatu nilai konstanta momentum antara 0 sampai dengan 0.9 pada sistem tersebut, dengan demikian nilai laju pelatihan dapat ditingkatkan dan osilasi pada sistem dapat diminimumkan. Perubahan nilai pembobot setelah dilakukan penambahan konstanta memontum sesuai dengan persamaan  sebagai berikut:
        (11)
dimana: perubahan nilai pembobot baru pada pasangan ke-p, perubahan nilai pembobot lama pada pasangan ke-p dan konstanta momentum.
Penyesuaian nilai pembobot diberikan sesuai pada persamaan  sebagai berikut:
                                                                               (12)
dimana: nilai pembobot baru pada pasangan   ke-p dannilai pembobot lama pada pasangan   ke-p.
[4]   Pengulangan (Iterasi)
Pengulangan kembali ke tahap [2] dan [3]. Keseluruhan proses ini dilakukan secara berulang-ulang dan setiap perulangan mencakup pemberian pasangan nilai input-output, perhitungan nilai aktivasi dan perubahan nilai pembobot.
Kinerja jaringan dapat dinilai berdasarkan nilai RMS Error (Root Mean Square Error) pada proses generalisasi terhadap contoh data input-output baru, adapun persamaan RMS Error adalah:
                                       (13)
Dimana:
Y=nilai prediksi jaringan
T=nilai target yang diberikan pada jaringan
n=jumlah contoh data pada set validasi

statistik 2


1.    PENDAHULUAN


Andil Indonesia sebagai salah satu negara pemasok jeruk keprok segar dunia masih sangat kecil yakni kurang dari satu persen pasokan dunia.[1] Kecilnya pasokan Indonesia terhadap pasar dunia akibat kemampuan suplai terbatas dan tidak kontinyu serta kualitas produksi yang masih rendah. Upaya untuk meningkatkan daya saing komoditas jeruk keprok diperlukan penanganan  secara terpadu, terutama pada penanganan pasca panen sehingga kualitas produk dapat dioptimalkan dan memperpanjang daya simpan produk. Penanganan terpadu tersebut tentunya perlu muatan teknologi alsintan yang terdiri dari alat panen (pemetik), mesin pengkelasan (grader), mesin prosesing berupa pemeras buah jeruk (squeezer) dan pengemasan. Penerapan teknologi ini diharapkan dapat mendorong berkembangnya agribisnis di pedesaan sehingga juga dapat meningkatkan pendapatan petani dan terciptanya lapangan kerja baru serta menambah pendapatan negara melalui ekspor komoditas jeruk keprok yang berkualitas.
Dalam pengkelasan mutu diperlukan metode evaluasi yang paling tepat dengan tidak merusak buah. Metode pengkelasan mutu dengan  tidak merusak buah adalah dengan pendekatan pengolahan citra, salahsatu parameter olahan citra dalam pengkelasan adalah tekstur. Sedangkan metode evaluasi ketepatan pengkelasan mutu, dilakukan evaluasi pendekatan ambang batas statistik dan jaringan syaraf tiruan (JST).
Tujuan penelitian ini adalah evaluasi yang paling tepat dalam penentuan tingkat mutu jeruk keprok dengan pendekatan ambang batas statistik dan jaringan syaraf tiruan menggunakan parameter tekstur.

2. LANDASAN TEORI

2.1     Tekstur
Tekstur akan didapat informasi citra untuk memprediksi kondisi objek dari sifat permukaannya. Pengukuran tekstur dilakukan dengan menggunakan empat features yang terdiri dari  energi, kontras, homogenitas dan entropi . [3]
Energi berfungsi untuk mengukur konsentrasi pasangan gray level pada matriks co-occurance, persamaan energi adalah sebagai berikut :
                                                (1)
Dimana; i dan j adalah sifat keabuan dari resolusi 2 piksel yang berdekatan dan p (i,j) adalah frekuensi relatif matriks dari resolusi 2 piksel yang berdekatan.
Kontras berfungsi untuk mengukur perbedaan lokal dalam citra, persamaan kontras adalah sebagai berikut:
                          (2)
Dimana; i dan j adalah sifat keabuan dari resolusi 2 piksel yang berdekatan, p (i,j) adalah frekuensi relatif matriks dari resolusi 2 piksel yang berdekatan, n adalah Perbedaan absolut i dan j, dan Ng adalah jumlah sifat keabuan yang berbeda.
Homogenitas berfungsi untuk mengukur kehomogenan variasi gray level lokal dalam citra, persamaan homogenitas adalah sebagai berikut:
                                    (3)
Dimana: i dan j adalah sifat keabuan dari resolusi 2 piksel yang berdekatan dan p (i,j) adalah frekuensi relatif matriks dari resolusi 2 piksel yang berdekatan.
Entropi berfungsi untuk mengukur keteracakan dari distribusi perbedaan local dalam citra, persamaan entropi adalah sebagai berikut:
                            (4)
Dimana: i dan j adalah sifat keabuan dari resolusi 2 piksel yang berdekatan dan p (i,j) adalah frekuensi relatif matriks dari resolusi 2 piksel yang berdekatan.

Selasa, 10 Agustus 2010

DATA MINING


DATA MINING


Pengertian Data Mining

Data Mining memang salah satu cabang ilmu komputer yang relatif baru. Dan sampai sekarang orang masih memperdebatkan untuk menempatkan data mining di bidang ilmu mana, karena data mining menyangkut database, kecerdasan buatan (artificial intelligence), statistik, dsb. Ada pihak yang berpendapat bahwa data mining tidak lebih dari machine learning atau analisa statistik yang berjalan di atas database. Namun pihak lain berpendapat bahwa database berperanan penting di data mining karena data mining mengakses data yang ukurannya besar (bisa sampai terabyte) dan disini terlihat peran penting database terutama dalam optimisasi query-nya.

Banyak istilah yang digunakan untuk menunjukkan proses data mining (contoh : knowledge discovery, knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, dll).
Untuk dapat memberikan pemahaman tentang data mining, penulis akan mencoba menguraikan urutan fakta yang terjadi, agar dapat memberikan persepsi tersendiri. Berikut ini adalah beberapa fakta yang terjadi :
-          Banyak sekali organisasi, baik dari dunia bisnis ataupun pemerintah berurusan dengan sejumlah sumber informasi dan juga pengelolaan basis data informasi tersebut, dan bukan tidak mungkin termasuk di dalamnya kebutuhan akan pembangunan data warehouse dalam skala besar.
-          Dan seringkali data yang tersimpan tidak dapat secara langsung di analisa dengan metode metode statistik standar. Hal ini disebabkan karena adanya beberapa rekord yang hilang ataupun juga karena data nya dalam dimensi ukuran kualitatif dan bukan kuantitatif.
-          Karena tingkat pertumbuhan ukuran basis data yang sangat cepat, bahkan terkadang sistem administrator nya sendiri pun mengalami kendala untuk mengetahui informasi yang terkandung di dalamnya atau sekedar mengetahui hubungannya dengan pertanyaan pertanyaan yang timbul.
-          Akan menjadi suatu keuntungan tersendiri apabila suatu organisasi mempunyai cara untuk “menggali” sumber informasi nya yang berupa basis data yang besar, sehingga dapat diketahui informasi yang penting dan juga pola pola yang kemungkinan terkandung di dalamnya.
-          Sekarang terdapat beberapa metodologi data mining yang kemungkinan dapat berguna untuk menganalisa sumber sumber data dalam rangka menemukan pola dan tren terbaru.

Lalu apakah data mining itu? Apakah memang berhubungan erat dengan dunia pertambangan…. tambang emas, tambang timah, dsb. Definisi sederhana dari data mining adalah ekstraksi informasi atau pola yang penting atau menarik dari data yang ada di database yang besar. Dalam jurnal ilmiah, data mining juga dikenal dengan nama Knowledge Discovery in Databases (KDD).

Sesuai yang tercantum dalam buku “Advances in Knowledge Discovery dan Data mining” terdapat definisi sebagai berikut:
Knowledge discovery (data mining) in databases (KDD) adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah (valid), baru (novel), dapat bermanfaat (potentially usefull), dapat dimengerti (ultimately understandable)[2].

Istilah data mining dan knowledge discovery in databases (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda akan tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut:
  1. Data Selection
Pemilihan (seleksi) data daru sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
  1. Pre-processing/ Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD.
Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi).
Juga dilakukan proses enrichment, yaitu  proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.


  1. Transformation
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data
  1. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
  1. Interpretation/ Evaluation
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut dengan interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.

Proses KDD secara garis besar memang terdiri dari 5 tahap seperti yang telah dijelaskan sebelumnya. Akan tetapi, dalam proses KDD yang sesungguhnya, dapat saja terjadi iterasi atau pengulangan pada tahap tahap tertentu. Pada setiap tahap dalam proses KDD, seorang analis dapat saja kembali ke tahap sebelumnya. Sebagai contoh, pada saat coding atau data mining, analis menyadari proses cleaning belum dilakukan dengan sempurna, atau mungkin saja analis menemukan data atau informasi baru untuk “memperkaya” data yang sudah ada.

Gambar 1. Tahapan proses KDD


KDD mencakup keseluruhan proses pencarian pola atau informasi dalam basis data, dimulai dari pemilihan dan persiapan data sampai representasi pola yang ditemukan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Data mining merupakan salah satu komponen dalam KDD yang difokuskan pada penggalian pola tersembunyi dalam basis data.

Kehadiran data mining dilatar belakangi dengan problema data explosion yang dialami akhir-akhir ini dimana banyak organisasi telah mengumpulkan data sekian tahun lamanya (data pembelian, data penjualan, data nasabah, data transaksi dsb.). Hampir semua data tersebut dimasukkan dengan menggunakan aplikasi komputer yang digunakan untuk menangani transaksi sehari-hari yang kebanyakan adalah OLTP (On Line Transaction Processing). Bayangkan berapa transaksi yang dimasukkan oleh hypermarket semacam Carrefour atau transaksi kartu kredit dari sebuah bank dalam seharinya dan bayangkan betapa besarnya ukuran data mereka jika nanti telah berjalan beberapa tahun. Pertanyaannya sekarang, apakah data tersebut akan dibiarkan menggunung, tidak berguna lalu dibuang, ataukah kita dapat me-‘nambang’-nya untuk mencari ‘emas’, ‘berlian’ yaitu informasi yang berguna untuk organisasi kita. Banyak diantara kita yang kebanjiran data tapi miskin informasi.

Jika Anda mempunyai kartu kredit, sudah pasti Anda bakal sering menerima surat berisi brosur penawaran barang atau jasa. Jika Bank pemberi kartu kredit Anda mempunyai 1.000.000 nasabah, dan mengirimkan sebuah (hanya satu) penawaran dengan biaya pengiriman sebesar Rp. 1.000 per buah maka biaya yang dihabiskan adalah Rp. 1 Milyar!! Jika Bank tersebut mengirimkan penawaran sekali sebulan yang berarti 12x dalam setahun maka anggaran yang dikeluarkan per tahunnya adalah Rp. 12 Milyar!! Dari dana Rp. 12 Milyar yang dikeluarkan, berapa persenkah konsumen yang benar-benar membeli? Mungkin hanya 10 %-nya saja. Secara harfiah, berarti 90% dari dana tersebut terbuang sia-sia.

Persoalan di atas merupakan salah satu persoalan yang dapat diatasi oleh data mining dari sekian banyak potensi permasalahan yang ada. Data mining dapat menambang data transaksi belanja kartu kredit untuk melihat manakah pembeli-pembeli yang memang potensial untuk membeli produk tertentu. Mungkin tidak sampai presisi 10%, tapi bayangkan jika kita dapat menyaring 20% saja, tentunya 80% dana dapat digunakan untuk hal lainnya.

Lalu apa beda data mining dengan data warehouse dan OLAP (On-line Analytical Processing)? Secara singkat bisa dijawab bahwa teknologi yang ada di data warehouse dan OLAP dimanfaatkan penuh untuk melakukan data mining. Gambar dibawah menunjukkan posisi dari masing-masing teknologi :



Gambar 2. Data Mining dan Teknologi Database lainnya

Dari gambar diatas terlihat bahwa teknologi data warehouse digunakan untuk melakukan OLAP, sedangkan data mining digunakan untuk melakukan information discovery yang informasinya lebih ditujukan untuk seorang Data Analyst dan Business Analyst (dengan ditambah visualisasi tentunya). Dalam prakteknya, data mining juga mengambil data dari data warehouse. Hanya saja aplikasi dari data mining lebih khusus dan lebih spesifik dibandingkan OLAP mengingat database bukan satu-satunya bidang ilmu yang mempengaruhi data mining, banyak lagi bidang ilmu yang turut memperkaya data mining seperti: information science (ilmu informasi), high performance computing, visualisasi, machine learning, statistik, neural networks (jaringan syaraf tiruan), pemodelan matematika, information retrieval dan information extraction serta pengenalan pola. Bahkan pengolahan citra (image processing) juga digunakan dalam rangka melakukan data mining terhadap data image/spatial.

Dengan memadukan teknologi OLAP dengan data mining diharapkan pengguna dapat melakukan hal-hal yang biasa dilakukan di OLAP seperti drilling/rolling untuk melihat data lebih dalam atau lebih umum, pivoting, slicing dan dicing. Semua hal tersebut diharapkan nantinya dapat dilakukan secara interaktif dan dilengkapi dengan visualisasi.

Data mining tidak hanya melakukan mining terhadap data transaksi saja. Penelitian di bidang data mining saat ini sudah merambah ke sistem database lanjut seperti object oriented database, image/spatial database, time-series data/temporal database, teks (dikenal dengan nama text mining), web (dikenal dengan nama web mining) dan multimedia database.

Meskipun gaungnya mungkin tidak seramai seperti ketika Client/Server Database muncul, tetapi industri-industri seperti IBM, Microsoft, SAS, SGI, dan SPSS terus gencar melakukan penelitian-penelitian di bidang data mining dan telah menghasilkan berbagai software untuk melakukan data mining:
·        Intelligent Miner dari IBM. Berjalan di atas sistem operasi AIX, OS/390, OS/400, Solaris dan Windows NT. Dijual dengan harga sekitar US$60.000. Selain untuk data IBM juga mengeluarkan produk Intelligent Miner untuk teks. Web site:
www.software.ibm.com/data/iminer/fortext
www-4.inm.com/software/data/iminer/fordata/index.html
·        Microsoft juga telah menambahkan fasilitas data mining di Microsoft SQL Server 2000
·        Enterprise Miner dari SAS. Berjalan di atas sistem operasi AIX/6000, CMS, Compaq Tru64 UNIX, HP-UX, IRIX, Intel ABI, MVS, OS/2, Open VMS Alpha, Open VMS Vax, Solaris, dan Windows. Web site: www.sas.com
·        MineSet dari Silicon Graphics. Berjalan di atas sistem operasi Windows 9x/NT dan IRIX. Dijual per seat seharga US$995, server (Windows NT) seharga US$35.000 dan untuk IRIX dijual US$50.000. Web site: www.sgi.com/software/mineset
·        Clementine dari SPSS. Berjalan di atas sistem operasi UNIX dan Windows NT. Web site: www.spss.com/software/clementine

Beberapa penelitian sekarang ini sedang dilakukan untuk memajukan data mining diantaranya adalah peningkatan kinerja jika berurusan dengan data berukuran terabyte, visualisasi yang lebih menarik untuk user, pengembangan bahasa query untuk data mining yang sedapat mungkin mirip dengan SQL. Tujuannya tidak lain adalah agar end-user dapat melakukan data mining dengan mudah dan cepat serta mendapatkan hasil yang akurat.

Penerapan Data Mining

Sebagai cabang ilmu baru di bidang computer, cukup banyak penerapan yang dapat dilakukann oleh Data Mining. Apalagi ditunjang ke-kaya-an dan ke-anekaragam-an berbagai bidang ilmu (artificial intelligence, database, statistik, pemodelan matematika, pengolahan citra dsb.) membuat penerapan data mining menjadi makin luas. Di bidang apa saja penerapan data mining dapat dilakukan?
Analisa Pasar dan Manajemen
Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan seperti transaksi kartu kredit, kartu anggota club tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi tentang gaya hidup publik.

Beberapa solusi yang bisa diselesaikan dengan data mining diantaranya:
o       Menembak target pasar
Data mining dapat melakukan pengelompokan (clustering) dari model-model pembeli dan melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang diinginkan seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan membeli dan karakteristik lainnya.
o       Melihat pola beli pemakai dari waktu ke waktu
Data mining dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu. Sebagai contoh, ketika seseorang menikah bisa saja dia kemudian memutuskan pindah dari single account ke joint account (rekening bersama) dan kemudian setelah itu pola beli-nya berbeda dengan ketika dia masih bujangan.
o       Cross-Market Analysis
Kita dapat memanfaatkan data mining untuk melihat hubungan antara penjualan satu produk dengan produk lainnya. Berikut ini saya sajikan beberapa contoh:
1.    Cari pola penjualan Coca Cola sedemikian rupa sehingga kita  dapat mengetahui barang apa sajakah yang harus kita sediakan untuk meningkatkan penjualan Coca Cola?
2.    Cari pola penjualan IndoMie sedemikian rupa sehingga kita dapat mengetahui barang apa saja yang juga dibeli oleh pembeli IndoMie. Dengan demikian kita bisa mengetahui dampak jika kita tidak lagi menjual IndoMie.
o       Profil Customer
Data mining dapat membantu Anda untuk melihat profil customer/pembeli/nasabah sehingga kita dapat mengetahui kelompok customer tertentu suka membeli produk apa saja.
o       Identifikasi Kebutuhan Customer
Anda dapat mengidentifikasi produk-produk apa saja yang terbaik untuk tiap kelompok customer dan menyusun faktor-faktor apa saja yang kira-kira dapat menarik customer baru untuk bergabung/membeli.
o       Menilai Loyalitas Customer
VISA International Spanyol menggunakan data mining untuk melihat kesuksesan program-program customer loyalty mereka. Anda bisa lihat di www.visa.es/ingles/info/300300.html
                         
o       Informasi Summary
Anda juga dapat memanfaatkan data mining untuk membuat laporan summary yang bersifat multi-dimensi dan dilengkapi dengan informasi statistik lainnya.
Analisa Perusahaan dan Manajemen Resiko
o       Perencanaan Keuangan dan Evaluasi Aset
Data Mining dapat membantu Anda untuk melakukan analisis dan prediksi cash flow serta melakukan contingent claim analysis untuk mengevaluasi aset. Selain itu Anda juga dapat menggunakannya untuk analisis trend.
o       Perencanaan Sumber Daya (Resource Planning)
Dengan melihat informasi ringkas (summary) serta pola pebelanjaan dan pemasukan dari masing-masing resource, Anda dapat memanfaatkannya untuk melakukan resource planning.
o       Persaingan (Competition)
1.    Sekarang ini banyak perusahaan yang berupaya untuk dapat melakukan competitive intelligence. Data Mining dapat membantu Anda untuk memonitor pesaing-pesaing Anda dan melihat market direction mereka.
2.    Anda juga dapat melakukan pengelompokan customer Anda dan memberikan variasi harga/layanan/bonus untuk masing-masing grup.
3.    Menyusun strategi penetapan harga di pasar yang sangat kompetitif. Hal ini diterapkan oleh perusahaan minyak REPSOL di Spanyol dalam menetapkan harga jual gas di pasaran.
Telekomunikasi
Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual (dilayani oleh orang). Tujuannya tidak lain adalah untuk menambah layanan otomatis khusus untuk transaksi-transaksi yang masih dilayani secara manual. Dengan demikian jumlah operator penerima transaksi manual tetap bisa ditekan minimal.
Keuangan
Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data mining untuk me-nambang trilyunan dari berbagai subyek seperti property, rekening bank dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang mencurigakan (seperti money laundry). Mereka menyatakan bahwa hal tersebut akan susah dilakukan jika menggunakan analisis standar. Anda bisa lihat di www.senate.gov/~appropriations/treasury/testimony/sloan.htm. Mungkin sudah saatnya juga Badan Pemeriksa Keuangan Republik Indonesia menggunakan teknologi ini untuk mendeteksi aliran dana BLBI.
Asuransi
Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi layanan kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi. Hasilnya? Mereka berhasil menghemat satu juta dollar per tahunnya. Anda bisa lihat di www.informationtimes.com.au/data-sum.htm. Tentu saja ini tidak hanya bisa diterapkan untuk asuransi kesehatan, tetapi juga untuk berbagai jenis asuransi lainnya.
Olah Raga
IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA (jumlah shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing (competitive advantage) untuk tim New York Knicks dan Miami Heat.
Astronomi
Jet Propulsion Laboratory (JPL) di Pasadena, California dan Palomar Observatory berhasil menemukan 22 quasar dengan bantuan data mining. Hal ini merupakan salah satu kesuksesan penerapan data mining di bidang astronomi dan ilmu ruang angkasa. Anda bisa lihat di www-aig.jpl.nasa.gov/public/mls/news/SKICAT-PR12-95.html.
Internet Web Surf-Aid
IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web khususnya yang berkaitan dengan pemasaran guna melihat prilaku dan minat customer serta melihat ke-efektif-an pemasaran melalui Web.

Dengan melihat beberapa aplikasi yang telah disebutkan di atas, terlihat sekali potensi besar dari penerapan Data Mining di berbagai bidang. Bahkan beberapa pihak berani menyatakan bahwa Data Mining merupakan salah satu aktifitas di bidang perangkat lunak yang dapat memberikan ROI (return on investment) yang tinggi. Namun demikian, perlu diingat bahwa Data Mining hanya melihat keteraturan atau pola dari sejarah, tetapi tetap saja sejarah tidak sama dengan masa datang. Contoh: jika orang terlalu banyak minum Coca Cola bukan berarti dia pasti akan kegemukan, jika orang terlalu banyak merokok bukan berarti dia pasti akan kena kanker paru-paru atau mati muda. Bagaimanapun juga data mining tetaplah hanya alat bantu yang dapat membantu manusia untuk melihat pola, menganalisis trend dsb. dalam rangka mempercepat pembuatan keputusan. Kapankah data mining akan banyak digunakan di Indonesia? Kita tunggu saja.







TRANSLATE