HEALTHCARE DATAMINING
Download
Report
Transcript HEALTHCARE DATAMINING
HEALTHCARE
DATAMINING
JUNTA ZENIARJA, M.KOM, M.CS
Outline
1.
Pengenalan Data Mining
a.
Data Mining
b.
Peran Utama Data Mining
c.
Mengenal Rapidminer 6 Studio
d.
Algoritma Data Mining
Mengenal Rapidminer Studio 6.0.8
Rapidminer
Sebuah lingkungan untuk machine learning, data mining, text
mining dan predictive analytics.
Machine learning
Salah satu disiplin ilmu dari Computer Science yang mempelajari
bagaimana membuat komputer/mesin mempunyai suatu kecerdasan.
Data mining
Proses mengekstrak pola-pola dari data set yang besar dengan
mengombinasikan metoda statistika, kecerdasan buatan dan
database.
Rapidminer
Text mining
Mirip
dengan text analytics, yaitu proses untuk mendapatkan
informasi bermutu tinggi dari teks.
Predictive analytics
Teknik-teknik
statistika yang menganalisa fakta masa kini dan
masa lalu untuk memprediksi kejadian di masa depan.
Rapidminer
Open source berlisensi AGPL (GNU Affero General Public License)
versi 3.
Dimulai pada 2001 oleh Ralf Klinkenberg, Ingo Mierswa, dan Simon
Fischer di Artificial Intelligence Unit dari University of Dortmund.
Di-host oleh SourceForge sejak 2004.
Peringkat satu sebagai tool data mining untuk proyek nyata pada
poll oleh KDnuggets, sebuah koran data-mining, pada 2010-2011.
Rapidminer
Menyediakan prosedur data mining dan machine learning
termasuk: ETL (extraction, transformation, loading), data
preprocessing, visualisasi, modelling dan evaluasi.
Proses data mining tersusun atas operator-operator yang nestable,
dideskripsikan dengan XML, dan dibuat dengan GUI.
Ditulis dalam bahasa pemrograman Java.
Mengintegrasikan proyek data mining Weka dan statistika R.
Instalasi
Rapidminer :
Rapidminer Studio
Rapidminer Server
Registrasi sebagai member / akun baru untuk mendownload :
Yang belum registrasi => https://rapidminer.com/download-rapidminer/
Yang sudah registrasi => https://rapidminer.com/my-account/
Fitur Rapidminer Studio 6.0.8
Advanced analytics
for big data
Open and Extensible
Predictions with
application templates
Runs on all major platforms
and operating systems.
Terminologi Dasar
Atribut dan atribut target
Atribut: karakteristik atau fitur dari data yang menggambarkan sebuah proses
atau situasi.
ID,
atribut biasa.
Atribut target: atribut yang menjadi tujuan untuk diisi oleh proses data mining.
Label,
cluster, weight.
Peran atribut (attribute role)
Label, cluster, weight, ID, biasa
Terminologi Dasar
Tipe nilai (value type)
nominal: nilai secara kategori
numeric: nilai numerik secara umum
integer: bilangan bulat
real: bilangan nyata
text: teks bebas tanpa struktur
binominal: nominal dua nilai
polynominal: nominal lebih dari dua nilai
date_time: tanggal dan waktu
date: hanya tanggal
time: hanya waktu
Terminologi Dasar
Data dan metadata
Data menyebutkan obyek-obyek dari sebuah konsep.
Ditunjukkan
Metadata menggambarkan karakteristik dari konsep tersebut.
Ditunjukkan
sebagai baris dari tabel.
sebagai kolom dari tabel.
Modelling
Penggunaan metoda data mining terhadap data.
Hasilnya disebut model.
Desain Proses Analisa
Fleksibilitas dan fungsionalitas
Sangat fleksibel untuk mendefinisikan proses analisa secara visual dengan
GUI.
Meliputi lebih dari 500 fungsionalitas data mining dalam bentuk operatoroperator.
Skalabilitas
Mulai versi 4.6 ~ .. fokus utama pada skalabilitas untuk data ukuran besar.
Konsep view untuk data mirip seperti database.
Transformasi data on-the-fly tanpa copy.
100 juta data set bukanlah data yang besar.
Desain Proses Analisa
Format data
Terhubung
sangat baik dengan berbagai sumber data: Oracle,
IBM DB2, Microsoft SQL Server, MySQL, PostgreSQL, Ingres, Excel,
Access, SPSS, CSV files dan berbagai format lain.
Bersama-sama
dengan
operator-operator
untuk
data
preprocessing, bisa digunakan juga sebagai tool ETL
(extraction, transformation, loading) dengan hasil yang
menakjubkan.
Perspektif dan View
Sebuah perspektif berisi pilihan elemen-elemen GUI, yang disebut view,
yang dapat dikonfigurasi secara bebas.
Elemen-elemen ini dapat diatur bagaimanapun juga sesuka kita.
Tiga perspektif:
Perspektif selamat datang (welcome perspective).
Perspektif desain (design perspective).
Perspektif hasil (result perspective).
Perspektif dan View
Referensi
1.
Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine
Learning Tools and Techniques 3rd Edition, Elsevier, 2011
2.
Santosa Budi, Teknik Pemanfaatan Data Untuk Keperluan Bisnis, Graha Ilmu,
2007
3.
Slide Materi Romi Satrio Wahono (www.ilmukomputer.com)
18