MAKALAH DATA MINING
SISTEM MANAJEMEN BASIS DATA
Disusun oleh :
Febri Mahdalena 14.12.0149
Putri Elok Fitriandini 14.12.0152
Kelas :
Sistem Informasi 14 B
PROGRAM STUDI SISTEM INFORMASI
SEKOLAH TINGGI MANAJEMEN INFORMATIKA
KOMPUTER
AMIKOM PURWOKERTO
2014
KATA PENGANTAR
Puji syukur kehadirat Tuhan
Yang Maha Esa yang telah memberikan taufik dan hidayahnya, sehingga kami mampu
menyelesaikan makalah ini dengan judul “ Data
Mining“.
Namun penyusun menyadari
bahwa dalam penyusunan makalah ini masih
jauh dari kesempurnaa. Maka dari itu penyusun mengharapkan saran dan kritik
yang sifatnya membangun kesempurnaan
makalah ini.
Dalam penyusunan makalah ini
tidak lepas dari berbagai pihak. Dari itu penyusun menyampaikan rasa
terimakasih kepada semua pihak yang telah membantu sehinnga makalah ini dapat
diselesaikan tepat pada waktunya.
Semoga makalah ini
bermanfaat bagi penulis pada khususnya dan bagi pembaca pada umumnya.
DAFTAR ISI
HALAMAN
JUDUL.......................................................................................................... i
KATA
PENGANTAR........................................................................................................ ii
DAFTA
R ISI..................................................................................................................... iii
BAB
I PENDAHULUAN.................................................................................................. 1
A. Latar
Belakang........................................................................................... ......... 1
B. Tujuan......................................................................................................... ......... 1
C. Rumusan
Masalah....................................................................................... ......... 2
BAB
II PEMBAHASAN.......................................................................................... ......... 3
A. Pengertian
Data Mining....................................................................................... 3
B. Fungsi
dan Tujuan Data Mining................................................................. ......... 3
1. Fungsi
Data Mining....................................................................................... 3
2. Tujuan
Data Mining.............................................................................. ......... 4
C. Penerapan
Data Mining........................................................................................ 5
D. Metodologi
Data Mining..................................................................................... 6
E. Proses
Data Mining.............................................................................................. 7
F. Teknik
Data Mining.................................................................................... ......... 8
BAB
III PENUTUP............................................................................................................ 13
A. Kesimpulan.......................................................................................................... 13
B. Saran.................................................................................................................... 13
DAFTAR
PUSTAKA............................................................................................... ......... 14
BAB 1
PENDAHULUAN
A.
Latar Belakang
Penyimpanan
dokumen secara digital berkembang dengan pesat seiring meningkatnya penggunaan komputer. Kondisi tersebut
memunculkan masalah untuk mengakses informasi yang diinginkan secara akurat dan cepat. Oleh karena itu, walaupun
sebagian besar dokumen digital tersimpan
dalam bentuk teks dan berbagai algoritma yang efisien untuk pencarian teks
telah dikembangkan, teknik pencarian
terhadap seluruh isi dokumen yang tersimpan bukanlah solusi yang tepat mengingat pertumbuhan ukuran
data yang tersimpan umumnya. Pencarian informasi (Information Retrieval) adalah salah satu cabang ilmu yang
menangani masalah ini yang bertujuan untuk
membantu pengguna dalam menemukan informasi yang relevan dengan kebutuhan mereka dalam waktu singkat. Aplikasi
pencarian informasi yang telah ada salah satunya adalah web mining untuk pencarian berdasarkan kata
kunci dengan teknik clustering. Selain itu, pada dokumen dilakukan juga
text mining dan perhitungan jumlah kata, dari jumlah kata tersebut dilakukan
pengklusteran dengan metode CLHM (Centroid
Linkage Hierarchical Method). Untuk jumlah klusternya, pemakai tidak
mengetahui berapa jumlah yang tepat untuk mengklusterkan dokumen-dokumen
tersebut. Untuk itu, dipakailah metode Hill
Climbing yang bertugas untuk melakukan identifikasi terhadap pergerakan
varian dari tiap tahap pembentukan kluster dan menganalisa polanya sehingga
jumlah kluster akan terbentuk secara otomatis. Penggunaan text mining, pengklusteran dengan CLHM dan
proses Hill Climbing Automatic Clustering
sangat memudahkan pemakai karena menghasilkan kluster secara otomatis dan tepat
dengan waktu yang cepat.
B. Tujuan
1. Untuk
memenuhi tugas mata kuliah Sistem Manajemen Basis Data.
2. Untuk
mengetahui lebih luas tentang Data Mining.
3. Untuk
menambah pengetahuan.
C. Rumusan
Masalah
1. Apa
yang dimaksud dengan Data Mining ?
2. Apa
fungsi dan tujuan dari Data Mining ?
3. Bagaimana
penerapan Data Mining dalam kehidupan?
BAB II
PEMBAHASAN
A. Pengertian Data Mining
Banyak
sekali definisi mengenai apa itu data mining. Data mining merupan suatu alat
yang memungkinkan para pengguna untuk mengakses secara cepat data dengan jumlah
yang besar. Pengertian yang lebih khusus dari data mining, yaitu suatu alat dan
aplikasi menggunakan analisis statistik pada data. Data mining adalah suatu
proses ekstraksi atau penggalian data dan informasi yang besar, yang belum
diketahui sebelumnya, namun dapat dipahamidan berguna dari database yang besar
serta digunakan untuk membuat suatu keputusanbisnis yang sangat penting. Data
mining menggambarkan sebuah pengumpulan teknik-teknik dengan tujuan untuk
menemukan pola-pola yang tidak diketahui pada data yang telah dikumpulkan. Data
mining memungkinkan pemakai menemukan pengetahuan dalam data database yang
tidak mungkin diketahui keberadaanya oleh pemakai.
Data mining merupakan proses semi otomatik yang
menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine
learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan
potensial dan berguna yang tersimpan di dalam database besar. (Turban et al,
2005 ). Data mining adalah bagian dari proses KDD ( Knowledge
Discovery in Databases) yang terdiri dari beberapa tahapan seperti
pemilihan data, pra pengolahan, transformasi, data mining, dan evaluasi
hasil (Maimon dan Last, 2000). KDD secara umum juga dikenal sebagai pangkalan
data.
B. Fungsi dan
Tujuan Data Mming
1.
Fungsi
Data mining
Data Mining mengidentifikasi fakta- fakta
atau kesimpulan-kesimpulan yang di sarankan berdasarkan penyaringan melalui
data untuk menjelajahi pola-pola atau anomali-anomali data. Data Mining
mempunyai 5 fungsi:
a.
Classification
Classification, yaitu menyimpulkan definisi-definisi
karakteristik sebuah grup. Contoh: pelanggan-pelanggan perusahaan yang telah
berpindah kesaingan perusahaan yang lain.
b.
Clustering
Clustering, yaitu mengindentifikasikan
kelompok-kelompok dari barang-barang atau produk-produk yang mempunyai karakteristik
khusus(clustering berbeda dengan classification, dimana pada clustering tidak
terdapat definisi-definisi karakteristik awak yang di berikan pada waktu
classification.)
c.
Association
Association, yaitu mengidentifikasikan
hubungan antara kejadian-kejadian yang terjadi pada suatu waktu, seperti
isi-isi dari keranjang belanja.
d.
Sequencing
Hampir sama dengan association, sequencing
mengidentifikasikan hubungan-hubungan yang berbeda pada suatu periode waktu
tertentu, seperti pelanggan-pelanggan yang mengunjungi supermarket secara
berulang-ulang.
e.
Forecasting
Forecasting memperkirakan nilai pada masa
yang akan datang berdasarkan pola-pola dengan sekumpulan data yang besar,
seperti peramalan permintaan pasar.
2.
Tujuan
Data Mining
Tujuan data mining antara lain:
a. Explanatory
Untuk menjelaskan beberapa kondisi
penelitian, seperti mengapa penjualan truk pick up meningkat di colorado.
b. Confirmatory
Untuk mempertegas hipotesis, seperti halnya
2 kali pendapatan keluarga lebih suka di pakai untuk membeli peralatan keluarga,
di bandingkan dengan satu kali pendapatan keluarga.
c. Exploratory
Menganalisis data untuk hubungan yang baru
yang tidak di harapkan, seperti halnya pola apa yang cocok untuk kasus
penggelapan kartu kredit.
C.
Penerapan
Data Mining
Dalam bidang apasaja data mining dapat
diterapkan? Berikut beberapa contoh bidang penerapan data mining:
-
Analisa pasar dan manajemen
Solusi yang dapat di
selesaikan dengan Data Mining, diantaranya: Menembak target pasar, Melihat pola
beli pemakai dari waktu ke waktu, Cross-Market analysis, Profil Customer,
Identifikasi kebutuhan Customer, Menilai loyalitas Customer, Informasi Summary.
a. Analisa
Perusahaan dan Manajemen resiko
Solusi yang dapat
diselesaikan dengan data mining diantaranya: Perencanaan keuangan dan evaluasi aset,
perencanaan sumber daya (resource planning), persaingan (competition).
b. Telekomunikasi
Sebuah perusahaan
telekomunikasi menerapkan data mining untuk melihat dari jutaan transaksi yang
masuk, transaksi mana sajakah yang masih harus ditangani secara manual
c. Keuangan
Financial Crimes
Enforcement Network di Amerika Serikat baru-baru ini menggunakan data mining
untuk menambang triliyunan dari berbagai subyek seperti property, rekening bank
dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan
yang mencurigakan (Seperti money laundry)
d. Asuransi
Australian Health
Insurance Commision menggunakan data mining untuk mengidentifikasi layanan
lesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta
asuransi.
e. Olahraga
IBM Advanced Scout
menggunakan data mining untuk menganalisis statistik permainan NBA ( jumlah
shots blocked, assists dan fouls ) dalam rangka mencapai keunggulan bersaing (
competitive advantage ) untuk tim New York Knicks dan Miami Heat.
D.
Metodologi
Data Mining
sebagai salah satu
bagian dari sistem informasi, data mining menyediakan perencanaan dari ide
hingga implementasi akhir. Komponen-komponen dari rencana data mining adalah
sebagai berikkut.
1. Analisa
Masalah (Analyzing the Problem)
Data
asal atau data sumber harus bisa ditaksir untuk dilihat apakah data tersebut
memenuhi kriteria data mining.
Kualitas
kelimpahan data adalah faktor utama untuk memutuskan apakah data tersebut cocok
dan tersedia sebagau tambahan. Hasil yang diharapkan dari dampak data mining
harus dengan hati-hati dimengerti dan dipastikan bahwa data yang diperlukan
membawa informasi yang bisa diekstrak.
2. Mengekstrak
dan Membersihkan Data (Extracting dan Cleansing The Data)
Data
pertama kli diekstrak dari data aslinya, seperti dari OLTP basis data, text
file, Microsoft Acces Database, dan bahkan dari spreadsheet, lalu data tersebut
diletakan dalam data warehouse yang mempunyai sruktur yang sesuai dengan data
model secara khas.
Data Transformation Service (DTS) dipakai
untuk mengekstrak dan membersihkan data dari tidak konsistennya dan tidak
kompatibelnya dengan format yang sesuai.
3. Validitas
Data (Validating the Data)
Sekali data telah
diekstrak dan dibersihkan, ini adalh latihan yang bagus untuk menelusuri model
yang telah kita ciptakan untuk memastikan bahwa semua data yang ada adalah data
sekarang dan tetap.
4. Membuat
dan Melatih Model (Creatig and Training the Model)
Ketika algoritma
diterapkan pada model, struktur telah dibangun. Hal ini sangatlah penting pada
saat ini untuk melihat data yang telah
dibangun untuk memastikan bahwa data tersebut
menyerupai fakta di dalam data sumber.
5. Query
Data dari Model Data Mining (Querying the Model Data)
Ketika model yang
telah cocok diciptakan dan dibangun, data yang telah dibuat tersedia untuk
mendukung keputusan. Hal ini biasanya melibatkan penulisan front end query
aplikasi dengan program aplikasi/suatu program basis data.
6. Evaluasi
Validitaas dari Mining Model (Maintaining the Validity of the Data Mining
Model)
Setelah moddel data
mining terkumpul, lewat bebrapa waktu, karakteristik data awal seperti
granularitas dan validitas mungkin berubah. Karena model data mining dapat
terus berubah seiring perkembangan waktu.
E.
Proses
Data Mining
Fase-fase dimulai
dari data mentah dan berakhir dengan pengetahuan atau informasi yang telah
diolah, yang didapatkan sebagai hasil dari tahapan-tahapan berikut:
a. Data
Cleansing, juga dikenal sebagai data cleansing, ini adalah sebuah fase dimana
data-data tidak lengkap, mengndung error dan tidk konsisten dibuang dari
koleksi data, sehingga data yang telah bersih relevan dapat digunakan untuk
diproses ulang untuk penggalian pengetahuan(discovery knowledge)
b. Data
Integration, pada tahap ini terjadi integrasi data,dimana sumber-sumber data
yang berulang(multiple data), file-file yang berulang(multiple file), dapat
dikombinasikan dan digabungkan kedalam suatu sumber.
c. Data
Selection, pada langkah ini, data yang relevan terhadap analisis dapat dipilih
dan diterima dari koleksi data yang ada.
d. Data
Transformation, juga dikenal sebagai data consolidation. Pada tahap ini, dimana
data-data yang telah terpilih, ditransformasikan kedalam bentuk-bentuk yang
cocok untuk prosedur penggalian (meaning proedure) dengan cara melakukan
normalisasi dan agregasi data.
e. Data
Mining, tahap ini adalah tahap yang paling penting, dengan menggunakan
teknik-teknik yang diaplikasikan untuk mengekstrak pola-pola potensial yang
berguna.
f. Pattern
Evaluation, pada tahap ini, pola-pola menarik dengan jelas mempresentasikan
pengetahuan telah diidentifikasi berdasarkan measure yang telah diberikan.
g. Knowledge
Representation, ini merupakan tahap terakhir dimana pengetahuan yang telah
ditemukan secara visual ditampilkan kepada user.Tahap penting ini menggunakan
teknik visualisasi untuk membantu user dalam mengerti dan
menginterpresentasikan hasil dari data mining.
F.
Teknik
Data Mining
Sebelum mengetahui
teknik-teknik yang dapat digunakan dalam data mining terdapat empat operasi
yang dapat dihubungkan dengan data mining sebagai berikut.
a. Predictive
modeling, ada dua teknik yang dapat dilakukan dalam predictive modeling, yaitu:
·
Classification
Digunakan untuk
membuat dugaan awal tentang class yang spesifik untuk setiap record dalam
database dari satu setnilai class yang mungkin
·
Value Prediction
Digunakan untuk
memperkirakan nilai numeric yang kontinu yang trasosiasi dengan record
database. Teknik ini menggunakan teknik statistic klasik dari linier regression
dan nonlinier regression.
b. Database
segmentation
Tujuan dabase
segmentation adalah untuk mempartisi database menjadi sejumlah segmen, cluster,
atau record yang sama, dimana record tersebut diharapkan homogen.
c. Link
analysis
Tujuan link analysis
adalah untuk membuat hubungan antara record yang individual atau sekumpulan
record dalam database. Aplikasi pada link analysis meliputi product affinity
analysis, direct marketing, dan stock price movement.
d. Deviation
detection
Teknik ini sering
kali merupakan sumber dari penemuan yang benar karena teknik ini
mengidentifikasi outlier yang mengekspresikan deviasi dari ekspektasi yang
telah diketahui sebelumnya. Operasi ini dapat ditampilkan menggunakan teknik
statistik dan visualisasi.
Aplikasi deviation
detection misalnya pada deteksi penipuan dalam penggunaan kartu kredit dan
klaim asuransi, quality control, dan defect tracing.
Dalam data mining
terdapat dua tipe teknik yaitu:
1. Teknik
Klasik (Classical Technique) yang terdiri atas:
a. Statistic
Statistik adalah
cabang ilmu matematika yang mempelajari tentang sekumpulan dan deskripsi data
yang akan digunakan dalam membuat laporan tentang informasi yang penting agar
seseorang dapat membuat keputusan yang berguna. Salah satu keuntungan statistik
adalah menampilkan database dalam tampilan ber-level tinggi yang menyediakan
informasi-informasi yang berguna tanpa perlu mengerti setiap record secara
detail.
b. Nearest
Neighbour
Teknik prediksi
pengelompokan dan nearest neighbour merupakan teknik yang tertua yang digunakan
dalam data mining. Nearest neighbour merupakan teknik prediksi yang hampir sama
dengan pengelompokan, untuk memperkirakan apakah nilai prediksi ada dalam satu
record, mencari kesamaan nilai prediktor didalam basis data historis dan
menggunakan nilai prediksi dari record yang “Terdekat” untuk tidak
membagi-bagikan record.
c. Pengelompokan
(Clustering)
Pengelompokan
merupakan metode yang mengklasifikasikan data kedalam kelompok-kelompok
berdasarkan kriteria masing-masing data. Biasanya,teknik ini dipakai untuk
memberikan pengguna akhir sebuah gambaran level atas dari apa yang telah
terjadi didalam basis data. Pengelompokan terkadang digunakan untuk segmentasi.
2. Teknik
generasi selanjutnya (The Next Generation Technique)
Decision Tree (Pohon Keputusan)
Pohon keputusan
merupakan model prediktif yang dapat digambarkan seperti pohon, dimana setiap
node didalam struktur pohon tersebut mewakili sebuah pertanyaan yang digunakan
untuk menggolongkan data. Struktur ini dapat digunakan untuk membantu
memperkirakan kemungkinan nilai setiap atribut data.
Beberapa hal menarik
tentang tree:
a. Tree
ini membagi data pada setiap cabangnya tanpa kehilangan data sedikit pun.
Jumlah total record pada node parent sama dengan jumlah total record yang ada
node children.
b. Sangat
mudah dimengerti bagaimana sebuah model dibangun, kebalikan dengan model dari
neural network atau dari statistik standar.
c. Mudah
untuk menggunakan model ini jika kita mempunyai target pelanggan yang
sepertinya tertarik dengan penawaran marketing.
Dari perspektif
bisnis, decision tree dapat dilihat sebagai pembuatan segmentasi dari data set
yang orisinil. Segmentasi ini dilakukan untuk beberapa alasan tertentu,
misalnya untuk prediksi dari beberapa potong informasi penting. Meskipun
decision tree sendiri dan algoritma yang membuat decision tree itu mungkin saja
sangat kompleks, namun hasil yang ditampilkan dengan cara yang mudah dimengerti
sangat membantu untuk pengguna bisnis. Decision tree sering kali dikembangkan
untuk statistican dalam mengotomatisasi proses menentukan field mana dari
database mereka yang benar-benar berguna untuk terkorelasi dengan masalh
tertentu yang sedang mereka usahakan untuk mengerti. Karena itu, algoritma
decision tree cenderung mengotomatisasi seluruh proses pembuatan hipotesis dan
kemudian melakukan validasi yang lebih komplit dalam cara yang lebih
terintegrasi dibanding dengan teknik data mining lainnya.
Decision tree biasanya digunakan untuk berbagai kebutuhan:
a. Eksplorasi
Teknologi decision
tree dapat digunakan untuk eksplorasi data set dan masalah bisnis. Hal ini
biasanya dilakukan dengan mencari predictor dan nilai yang dipilih untuk setiap
bagian/cabang dari tree tersebut.
b. Preprocessing
data
Teknologi ini juga
dapat digunakan untuk mengolah daan memproses data yang dapat digunakan pada
algoritma lain, misalnya neural network, nearest neighbour, dan lain-lain. Hal
itu karena algoritma lain memerlukan waktu yang relatif lama untuk dijalankan
jika terdapat jumlah predictor dalam jumlah besar untuk digunakan sebagai model
sehingga teknik decision tree biasanya digunakan pada tahap pertama data mining
untuk menciptakan subset yang berguna dari predictor baru kemudian hasil
tersebut akan dapat dimasukkan pada teknik data miing yang lain.
c. Prediksi
Para analis
menggunakan teknik ini untuk membangun sebuah model prediktif yang efektif.
Decision tree mempunyai beberapa keuntungan sebagai berikut :
a. Decision
tree mudah dimengerti dan diinterprestasikan.
b. Penyiapan
data untuk decision tree adalahutama dan tidak dibutuhkan.
c. Decision
tree dapat mengatasi, baik data nominal maupun kategorial.
d. Decision
tree merupakan model white box.
e. Decision
tree dapat melakukan validasi terhadap model dengan tes statistik. Hal itu akan
memungkinan untuk menghitung reliabilitad model.
Decision tree meruakan teknik yang kuat, dapat bekerja
baik dengan data yang besar dalam waktu yang singkat.
PENUTUP
A.
Kesimpulan
Pada
proses Data Mining hal yang paling penting adalah pada tahap “Data Mining”
dengan menggunakan teknik-teknik yang diaplikasikan untuk mengekstrak pola-pola
potensial yang berguna.
B.
Saran
Berikut adalah saran yang mungkin
perlu dilakukan dalam pengembangan selanjutnya dimasa yang akan datang terhadap
aplikasi data mining dengan
metode clustering:
·
Dimasa yang akan datang
dalam pengembangan selanjutnya, guna lebih memaksimalkan pendukung keputusan
yang akan diambil, misalkan untuk kepentingan memudahkan kegiatan promosi bisa
ditambahkan sebuah fasilitas berupa fasilitah pengiriman email kepada customer
·
Dalam studi kasus ini, item
yang digunakan sebagai data proses dalam pembentuk sebuah cluster hanya
didasarkan pada satu item saja yaitu pembacaan frekuensi id customer yang
ada ditabel transaksi berdasarkan id customer yang ada ditabel customer.
Pada pengembangan selanjutnya disarankan untuk pengambilan data proses tidak
hanya berdasarkan satu item saja, mungkin juga bisa dilakukan dengan pembacaan
lebih dari satu item. Misalnya id barang ataupun total harga yang dibayarkan
untuk transaksinya, sehingga bisa diketahui barang apa saja yang biasa dibeli customer
pada sebuah klaster maupun besarnya jumlah total harga yang dibayarkan oleh
customer terhadap transaksi yang dilakukannya. Dengan demikian klaster
yang dibentuk tidak hanya tiga klaster tapi mungkin lebih dari pada itu dan
informasi yang didapatkanpun menjadi lebih banyak.
DAFTAR PUSTAKA
Indrajani,S.Kom.,MM.(2011).Pengantar dan Sistem Basis Data.PT Elex
Media Komputindo,Jakarta.
https://www.google.com/search?q=proses+data+mining
Tidak ada komentar:
Posting Komentar