Materi 3. Pengantar Sistem Temu Kembali Informasi

Download Report

Transcript Materi 3. Pengantar Sistem Temu Kembali Informasi

Pengantar Sistem Manajemen Data,
Informasi, dan Pengetahuan
Muhammad Nasar
Outline
• Information system (overview)
• Information retreival
Overview Sistem Informasi
1. Sistem Temu Kembali Informasi (Information
Retrieval System - IRS)
2. Sistem Manajemen Basis Data (Data Base
Management System – DBMS),
3. Sistem Informasi Manajemen (Management
Information System – MIS),
4. Sistem Pendukung Keputusan (Decision Support
System - DSS), dan
5. Sistem Kecerdasan Buatan (Artificial Intelligent
System - AI).
Flatform sebuah sistem informasi
Overview Sistem Informasi
[1] Information Retrieval System - IRS
• Berhubungan dengan
– Representasi (gambaran)
– Storage (penyimpanan)
– Organisasi, dan
– Akses ke informasi
• Tujuan /fokus
– Pencarian informasi yang relevan
(akan dikenalkan)
Overview Sistem Informasi
[2] Data Base Management System – DBMS
• Merupakan sistem yang didisain untuk memanipulasi dan mengurus basis
data.
• Data yang tersimpan dalam basis data dinyatakan dalam bentuk unsurunsur data yang spesifik dan tersimpan dalam tabel-tabel.
• Setiap satuan data, atau disebut record (cantuman) terdiri dari ruas-ruas
(fields) yang berisi nilai yang menunjukkan karakteristik yang spesifik atau
atribut yang mengidentifikasikan satuan data yang dimaksud.
• Proses yang berkaitan dengan manajemen basis data meliputi
penyimpanan, temu kembali, updating atau deletion, proteksi dari
kerusakan, dan kadang-kadang mencakup transimi data.
• Output dapat mengandung record individual, sebagian record, tabel, atau
bentuk susunan data yang lain dari basis data. Informasi yang ditemukan
berisi cantuman-cantuman yang pasti sesuai dengan permintaan.
Overview Sistem Informasi
[3] Management Information System – MIS
• Sistem Informasi Manajemen adalah sistem
yang didisain untuk kebutuhan manajemen,
untuk mendukung fungsi-fungsi dan aktivitas
manajemen pada suatu organisasi.
• Oleh karena itu, jenis data dan fungsi-fungsi
operasi disesuaikan dengan kebutuhan
manajemen.
Overview Sistem Informasi
[4] Decision Support System – DSS
• Sistem Pendukung Keputusan
menggambarkan operasi-operasi spesifik
dalam satuan-satuan informasi yang
homogen.
• Bertujuan untuk bahan pengambilan
keputusan
Overview Sistem Informasi
[5] Artificial Intelligent System – AI
• antara lain sistem pakar, permainan
komputer (games), logika fuzzy, jaringan
syaraf tiruan dan robotika.
Overview Sistem Informasi
[5] Keuntungan AI
• Memungkinkan orang awam bisa mengerjakan pekerjaan
para ahli.
• Bisa melakukan proses secara berulang secara otomatis.
• Menyimpan pengetahuan dan keahlian para pakar.
• Meningkatkan output dan produktivitas.
• Meningkatkan kualitas.
• Mampu mengambil dan melestarikan keahlian para pakar
(terutama yang termasuk keahlian langka).
• Mampu beroperasi dalam lingkungan yang berbahaya.
IRS vs DBMS vs AI
• Perbedaan utama terletak pada objek data masing-masing
sistem informasi
• Persamaan : dokumen pada umumnya tekstual
• Pertanyaan ?
Information Retrieval System - IRS
Sekilas sejarah (1)
Pra Internet
• Berawal di Perpustakaan, sekitar tahun 1952
• Mulai diteliti sejak 1961.
– Mulai disadari bahwa sistem temu kembali informasi memiliki peran
khusus dalam kegiatan perpustakaan / ilmu pengetahuan.
– Tidak sekedar menyimpan buku dan menyajikan katalog
Information Retrieval System - IRS
Sekilas sejarah (2)
Era Internet
• Tahun 80-90an : internet masih sangat sederhana
• Tahun 2006 : > 25 milyar halaman web, > 1,3 milyar
gambar, > 1 milyar pesan
• Berbagai kebutuhan informasi
–
–
–
–
Mencari topik tertentu / informasi spesifik
Mencari jawaban dari suatu pertanyaan
Mencari informasi dalam bahasa berbeda
dll
Contoh-contoh penerapan IRS
• Conventional (katalog perpustakaan)
– Pencarian dengan kata kunci, judul, penulis, dll.
• Text-based (Google, Yahoo, ASK).
– Pencarian dengan kata kunci (keyword). Pencarian terbatas
menggunakan query dalam bahasa alami.
• Multimedia (Youtube)
– Pencarian dengan penampilan visual (bentuk, warna, gerak,…)
• Sistem jawaban pertanyaan (AskJeeves, Answerbus)
– Pencarian dalam bahasa alami (terbatas)
• Lainnya:
– IR lintas-bahasa, music retrieval
Information Retrieval System - IRS
• Konsep dasar
– Indexing
– Searching / matching
– Perangkingan relevansi bds keyword query
Model matematika nya
• dimana Q = pertanyaan (queri), D = dokumen,
n = jumlah dokumen, 2n = jumlah kemungkinan
himpunan bagian dari dokumen yang ditemukan.
• Sistem temu-kembali akan mengambil salah satu dari
kemungkinan tersebut.
[2] Indexing
• Berfungsi menghasilkan database index
• Merupakan proses persiapan sehingga
dokumen siap untuk di-retrive.
Tahap-tahap dalam proses indexing
• Parsing
– Pengambilan kata-kata (term) dari tumpukan dokumen
– Menghapus karakter tanda baca
– Mengubah kumpulan term menjadi lowercase.
• Stopword Removal
– Pembuangan kata seperti : tetapi, yang, sedangkan, dan sebagainya.
• Stemming
– Pembuangan prefix dan sufix suatu kata bentukan menjadi kata dasar.
• Term Weighting
– Pemberian bobot setiap term di dalam dokumen.
Algoritma stemming
• Contoh stemming bahasa Indonesia
Masalah pada Stemming
• Understemming,
– Pemotongan terlalu sedikit, misalnya
‘pengorbanan’ menjadi ‘korbanan’
• Overstemming
– Pemotongan terlalu banyak, misalnya ‘mencapai’
menjadi ‘capa’
• More info about stemming
– http://tartarus.org/~martin/PorterStemmer/
[2] Searching / matching
• Penemuan kembali informasi (dokumen) yang relevan
terhadap query yang diberikan
• Tidak semua dokumen yang diambil (retrieved) sesuai dengan
keinginan user (relevant).
Bagian-bagian IRS
Text Operations (operasi terhadap teks) meliputi pemilihan katakata dalam query maupun dokumen (term selection) dalam
pentransformasian dokumen atau query menjadi terms index
(indeks dari kata-kata).
Indexing (pengindeksan), membangun
Query formulation
basis data(formulasi
indeks terhadap query)
dari koleksi dokumen. Dilakukan
yaitu
terlebih
memberi
dahulu
bobot
sebelum
pada indeks kata-kata
pencarian dokumen dilakukan.
query.
Ranking (perangkingan), mencari dokumendokumen yang relevan terhadap query dan
mengurukan dokumen tersebut berdasarkan
kesesuaiannya dengan query.
Operator query (1)
• Model boolean
– AND, OR dan NOT
– tanda kurung () untuk menentukan scope operator
• Kekurangan
– Hasil pencarian dokumen berupa himpunan
– Sulit melihat dokumen yang paling relevan atau agak relevan (partial
match).
– Hasilnya kaku, menyulitkan pengguna yang tidak mengerti tentang
ekpresi boolean
Operator query (2)
• Model ruang vektor (1)
– Kelebihan : query dapat berupa sekumpulan katakata / kalimat
– Misalkan terdapat sejumlah n kata yang berbeda.
Kata-kata ini akan membentuk ruang vektor yang
memiliki dimensi sebesar n.
– Setiap kata i diberikan bobot sebesar wi.
– Baik dokumen maupun query direpresentasikan
sebagai vektor berdimensi n.
Operator query (2)
• Model ruang vektor (2)
– Misalkan terdapat 3 buah kata (T1, T2 dan T3), 2
buah dokumen (D1 dan D2) serta sebuah query Q.
Masing-masing bernilai :
• D1 = 2T1+3T2+5T3
• D2 = 3T1+7T2+0T3
• Q = 0T1+0T2+2T3
Operator query (2)
• Model ruang vektor (3)
– Maka representasi grafis ketiga vektor tsb adalah
Operator query (2)
• Model ruang vektor (4)
– Representasi dalam bentuk matrik kata-dokumen
D1
D2
:
:
Dm
T1 T2 ….
w11 w21 …
w12 w22 …
:
:
:
:
w1m w2m …
Tn
wn1
wn2
:
:
wnm
Operator query (3)
• Model Pembobotan Kata
– Salah satu cara untuk memberi bobot terhadap
suatu kata adalah memberikan nilai jumlah
kemunculan suatu kata (term frequency) sebagai
bobot
– Prinsipnya, semakin besar kemunculan suatu kata
dalam dokumen akan memberikan nilai
kesesuaian yang semakin besar
– Silahkan pelajari lebih lanjut,
http://en.wikipedia.org/wiki/Tf-idf
Parameter pengujian
1. Precision (ketepatan)
– Precision ialah perbandingan jumlah dokumen relevan yang
didapatkan sistem dengan jumlah seluruh dokumen yang terambil
oleh sistem baik relevan maupun tidak relevan.
– precision = Jumlah dokumen yang relevan dengan query dan terambil.
jumlah seluruh dokumen yang terambil
2. Recall (kelengkapan/perolehan)
– Recall ialah perbandingan jumlah dokumen relevan yang didapatkan
sistem dengan jumlah seluruh dokumen relevan yang ada dalam
koleksi dokumen (terambil ataupun tak terambil sistem).
– recall = Jumlah dokumen yang relevan dengan query dan terambil
jumlah seluruh dokumen relevan dalam koleksi dokumen
Parameter pengujian
3. Interpolate Average Precision (IAP)
– Pengukuran performansi dengan mempertimbangkan aspek
keterurutan atau rangking.
– Dapat dilakukan dengan interpolasi antara precision dan recall.
– IAP akan mencatat semua dokumen yang relevan dan urutan dokumen
tersebut pada hasil IRS dan menghitung nilai precisionnya.
Contoh
• Misal terdapat 10 buah dokumen hasil perangkingan berdasarkan
suatu query. Misalkan diketahui terdapat 4 buah dokumen relevan
berdasarkan query tadi, tiga diantaranya ditemukan yaitu pada
rangking 1, 4 dan 5.
• Maka perhitungan recall precision adalah
Rangking
1
2
3
4
5
6
7
8
9
10
Relevan
Ya
Tidak
Tidak
Ya
Ya
Tidak
Tidak
Tidak
Tidak
Tidak
Precision = 1 / 1 = 1
Recall = 1 / 4 = 0.25
Precision = 2 / 4 = 0.5
Recall = 2 / 4 = 0.5
Precision =3 / 5 = 0.6
Recall = 3 / 4 = 0.75
simpulan
• semakin tinggi ketepatan (precison), semakin
rendah perolehan (recall).
Beberapa teknik meningkatkan
performansi IRS
• Relevance Feedback (RF),
– ada tanda/input/klik dari user untuk memperbaiki
query
• Query Expansion (QE),
– tidak ada tanda (sistem secara automatis
memperbaiki query)
Contoh teknik QE
Refer to
•
•
•
•
•
http://en.wikipedia.org/wiki/Information_retrieval
http://en.wikipedia.org/wiki/Vector_space_model
http://www.cse.unt.edu/~rada/CSCE5200/
http://tartarus.org/~martin/PorterStemmer/
http://en.wikipedia.org/wiki/Tf-idf
Pertanyaan?