HEALTHCARE DATAMINING

Download Report

Transcript HEALTHCARE DATAMINING

HEALTHCARE
DATAMINING
JUNTA ZENIARJA, M.KOM, M.CS
Outline
1.
Pengenalan Data Mining
a.
Data Mining
b.
Peran Utama Data Mining
c.
Mengenal Rapidminer 6 Studio
d.
Algoritma Data Mining
Mengenal Rapidminer Studio 6.0.8
Rapidminer

Sebuah lingkungan untuk machine learning, data mining, text
mining dan predictive analytics.

Machine learning


Salah satu disiplin ilmu dari Computer Science yang mempelajari
bagaimana membuat komputer/mesin mempunyai suatu kecerdasan.
Data mining

Proses mengekstrak pola-pola dari data set yang besar dengan
mengombinasikan metoda statistika, kecerdasan buatan dan
database.
Rapidminer

Text mining
 Mirip
dengan text analytics, yaitu proses untuk mendapatkan
informasi bermutu tinggi dari teks.

Predictive analytics
 Teknik-teknik
statistika yang menganalisa fakta masa kini dan
masa lalu untuk memprediksi kejadian di masa depan.
Rapidminer

Open source berlisensi AGPL (GNU Affero General Public License)
versi 3.

Dimulai pada 2001 oleh Ralf Klinkenberg, Ingo Mierswa, dan Simon
Fischer di Artificial Intelligence Unit dari University of Dortmund.

Di-host oleh SourceForge sejak 2004.

Peringkat satu sebagai tool data mining untuk proyek nyata pada
poll oleh KDnuggets, sebuah koran data-mining, pada 2010-2011.
Rapidminer

Menyediakan prosedur data mining dan machine learning
termasuk: ETL (extraction, transformation, loading), data
preprocessing, visualisasi, modelling dan evaluasi.

Proses data mining tersusun atas operator-operator yang nestable,
dideskripsikan dengan XML, dan dibuat dengan GUI.

Ditulis dalam bahasa pemrograman Java.

Mengintegrasikan proyek data mining Weka dan statistika R.
Instalasi


Rapidminer :

Rapidminer Studio

Rapidminer Server
Registrasi sebagai member / akun baru untuk mendownload :

Yang belum registrasi => https://rapidminer.com/download-rapidminer/

Yang sudah registrasi => https://rapidminer.com/my-account/
Fitur Rapidminer Studio 6.0.8
Advanced analytics
for big data
Open and Extensible
Predictions with
application templates
Runs on all major platforms
and operating systems.
Terminologi Dasar

Atribut dan atribut target

Atribut: karakteristik atau fitur dari data yang menggambarkan sebuah proses
atau situasi.
 ID,

atribut biasa.
Atribut target: atribut yang menjadi tujuan untuk diisi oleh proses data mining.
 Label,

cluster, weight.
Peran atribut (attribute role)

Label, cluster, weight, ID, biasa
Terminologi Dasar

Tipe nilai (value type)
 nominal: nilai secara kategori
 numeric: nilai numerik secara umum
 integer: bilangan bulat
 real: bilangan nyata
 text: teks bebas tanpa struktur
 binominal: nominal dua nilai
 polynominal: nominal lebih dari dua nilai
 date_time: tanggal dan waktu
 date: hanya tanggal
 time: hanya waktu
Terminologi Dasar

Data dan metadata

Data menyebutkan obyek-obyek dari sebuah konsep.
 Ditunjukkan

Metadata menggambarkan karakteristik dari konsep tersebut.
 Ditunjukkan

sebagai baris dari tabel.
sebagai kolom dari tabel.
Modelling

Penggunaan metoda data mining terhadap data.

Hasilnya disebut model.
Desain Proses Analisa


Fleksibilitas dan fungsionalitas

Sangat fleksibel untuk mendefinisikan proses analisa secara visual dengan
GUI.

Meliputi lebih dari 500 fungsionalitas data mining dalam bentuk operatoroperator.
Skalabilitas

Mulai versi 4.6 ~ .. fokus utama pada skalabilitas untuk data ukuran besar.

Konsep view untuk data mirip seperti database.

Transformasi data on-the-fly tanpa copy.

100 juta data set bukanlah data yang besar.
Desain Proses Analisa

Format data
 Terhubung
sangat baik dengan berbagai sumber data: Oracle,
IBM DB2, Microsoft SQL Server, MySQL, PostgreSQL, Ingres, Excel,
Access, SPSS, CSV files dan berbagai format lain.
 Bersama-sama
dengan
operator-operator
untuk
data
preprocessing, bisa digunakan juga sebagai tool ETL
(extraction, transformation, loading) dengan hasil yang
menakjubkan.
Perspektif dan View

Sebuah perspektif berisi pilihan elemen-elemen GUI, yang disebut view,
yang dapat dikonfigurasi secara bebas.


Elemen-elemen ini dapat diatur bagaimanapun juga sesuka kita.
Tiga perspektif:

Perspektif selamat datang (welcome perspective).

Perspektif desain (design perspective).

Perspektif hasil (result perspective).
Perspektif dan View
Referensi
1.
Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine
Learning Tools and Techniques 3rd Edition, Elsevier, 2011
2.
Santosa Budi, Teknik Pemanfaatan Data Untuk Keperluan Bisnis, Graha Ilmu,
2007
3.
Slide Materi Romi Satrio Wahono (www.ilmukomputer.com)
18