pertemuan ke 4

Download Report

Transcript pertemuan ke 4

Pertemuan ke-3
StopList dan Stemming
yasmi afrizal
[email protected]
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
Sistem Temu-kembali Informasi
Sistem temu-kembali informasi pada prinsipnya adalah
suatu sistem yang sederhana. Misalkan ada sebuah
kumpulan dokumen dan seorang user yang
memformulasikan sebuah pertanyaan (request atau
query). Jawaban dari pertanyaan tersebut adalah
sekumpulan dokumen yang relevan dan membuang
dokumen yang tidak relevan. Secara matematis hal
tersebut dapat dituliskan sebagai berikut :
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
indexing
Sistem temu-kembali informasi pada dasarnya dibagi
dalam dua komponen utama yaitu sistem
pengindeksan (indexing) yang menghasilkan basis
data sistem dan temukembali yang merupakan
gabungan dari user interface dan look-up-table.
• Indexing merupakan sebuah proses untuk melakukan
pengindeksan terhadap kumpulan dokumen yang
akan disediakan sebagai informasi kepada pemakai.
Proses pengindeksan bisa secara manual ataupun
secara otomatis.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
Tahapan Pengindeksan
• Parsing Dokumen yaitu proses pengambilan
kata-kata dari kumpulan dokumen.
• Stoplist yaitu proses pembuangan kata
buang seperti: tetapi, yaitu, sedangkan,
dan sebagainya.
• Stemming yaitu proses penghilangan/
pemotongan dari suatu kata menjadi
bentuk dasar. Kata “diadaptasikan” atau
“beradaptasi” mejadi kata “adaptasi”
sebagai istilah.
• Term Weighting dan Inverted File yaitu
proses pemberian bobot pada istilah.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
Teknik pembobotan
1. Teknik pembobotan berdasarkan frekuensi
kemunculan istilah pada satu dokumen. Teknik
pembobotan ini cukup sederhana dimana bobot
suatu istilah pada sebuah dokumen berdasarkan
jumlah kemunculannya pada dokumen tersebut.
2. Teknik pembobotan berdasarkan rumus yaitu:
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
.....Teknik pembobotan
• Dimana :
•
•
Wik adalah bobot istilah k pada dokumen i.
tfik merupakan frekuensi dari istilah k dalam
dokumen i.
• n adalah jumlah dokumen dalam kumpulan
dokumen.
•
dfk adalah jumlah dokumen yang mengandung
istilah k.
•
Max j tf ij adalah frekuensi istilah terbesar pada
satu dokumen.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
teknik temu-kembali informasi
Ada beberapa teknik temu-kembali
informasi yang telah dikembangkan
yaitu teknik Boolean sederhana dan
teknik Boolean berperingkat serta
teknik Extended Boolean
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
Teknik Boolean
•
•
•
Teknik Boolean merupakan suatu cara dalam mengekspresikan
keinginan pemakai ke sebuah kueri dengan mamakai operatoroperator Boolean yaitu : “and”, “or”, dan “not”. Adapun
maksud dari operator “and” adalah untuk menggabungkan
istilah-istilah kedalam sebuah ungkapan, dan operator “or”
adalah untuk memperlakukan istilah-istilah sebagai sinonim,
sedangkan operator “not” merupakan sebuah pembatasan.
Teknik Boolean sederhana, kueri diproses sesuai dengan
operator yang digunakan dan menampilkan dokumen
berdasarkan urutan dokumen ditemukan.
Teknik Boolean berperingkat, dokumen diperingkat
berdasarkan bobot dari dokumen. Adapun pembobotan dari
masing-masing dokumen berdasarkan aturan sebagai berikut :
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
...Komponen Sistem IR
Dimana dA menyatakan bobot istilah A pada dokumen D. Bobot
istilah ini didapat dari hasil proses Indexing. Min(dA,dB) berarti
bahwa sebuah dokumen di retrieve dengan bobot sebesar nilai
terkecil dari bobot-bobot istilah yang dipunyainya.
Max(dA,dB) berarti bahwa sebuah dokumen di retrieve dengan
bobot sebesar nilai terbesar dari bobot-bobot istilah yang
dipunyainya.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
Teknik Extended Boolean
Teknik Extended Boolean berdasarkan p-norm model
merupakan pengembangan lebih lanjut dari model
Boolean. Teknik ini memakai operator yangdikomputasi
berdasarkan rumus Savoy, sebagai berikut :
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
Sistem Pencarian Web
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
Area Terkait
• Manajemen Basis Data
• Ilmu Perpustakaan dan Informasi
• Kecerdasan Buatan
• Pemrosesan bahasa alamai
• Pembelajaran Mesin
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Relevansi
• Relevansi merupakan suatu judgment
(keputusan) subyektif dan dapat didasarkan
pada:
– topik yang tepat.
– waktu (informasi terbaru).
– otoritatif (dari suatu sumber terpercaya).
– kebutuhan informasi dari pengguna.
• Kriteria relevansi utama: suatu sistem IR
sebaiknya (harus) memenuhi kebutuhan
informasi pengguna.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Pencarian Keyword
• Ide paling sederhana dari
relevansi: apakah string query
ada di dalam dokumen (kata
demi kata, verbatim)?
• Ide yang lebih fleksibel: Berapa
sering kata-kata di dalam query
muncul di dalam dokumen,
tanpa melihat urutannya (bag of
words)?
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Masalah dengan Keyword
• Mungkin tidak meretrieve dokumen relevan
yang menyertakan synonymous terms.
– “restaurant” vs. “café”
– “NDHU” vs. “National Dong Hwa
University”
• Mungkin meretrieve dokumen tak-relevan
yang menyertakan ambiguous terms.
– “bat” (baseball vs. mamalia)
– “Apple” (perusahaan vs. buah-buahan)
– “bit” (unit data vs. perilaku menggigit)
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Bukan Sekedar Keyword
• Kita akan mendiskusikan dasar-dasar IR
berbasis keyword, tetapi…
– Fokus pada perluasan dan pengembangan
terakhir untuk mendapatkan hasil
terbaik.
• Kita akan membahas dasar-dasar
pembangunan sistem IR yang efisien,
tetapi…
– Fokus pada algoritma dan kemampuan
dasar, bukan masalah sistem yang
memungkinkan pengembangan ke
database ukuran industri.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
IR Cerdas
• Memanfaatkan pengertian atau makna dari
kata yang digunakan.
• Melibatkan urutan kata di dalam query.
• Beradaptasi dengan pengguna berdasarkan
pada feedback, langsung atau tidak
langsung.
• Memperluas pencarian dengan term terkait.
• Mengerjakan pemeriksaan
ejaaan/perbaikan tanda pengenal
otomatis.
• Memanfaatkan Otoritas dari sumber
informasi.
Jurusan Teknik Informatika
Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Indeks
• Sistem IR jarang mencari koleksi dokumen secara
langsung. Berdasarkan pada koleksi dokumen,
dibangun sebuah index. Pengguna mencari index
tersebut.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Indexing Otomatis
• Tujuan dari automatic indexing adalah
membangun index dan meretrieve informasi
tanpa intervensi manusia.
• Ketika informasi yang dicari adalah teks,
metode automatic indexing akan sangat
efektif.
• Penelitian automatic indexing fundamental
dimulai oleh Gerald Salton, Professor of
Computer Science di Cornell & mahasiswa
Pasca-Sarjananya (Sistem SMART).
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
IR dari Koleksi Besar
• Information retrieval dari koleksi sangat besar
bersandar pada:
– Jumlah computer power yang besar untuk
mengerjakan algoritma sederhana terhadap
jumlah data yang sangat banyak.
• komputasi kinerja-tinggi
– Pemahaman pengguna terhadap informasi dan
kemampuan dari sistem.
• Interaksi manusia - komputer
• Machine-learning banyak digunakan untuk
mendapatkan kinerja terbaik.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Searching & Browsing
• Orang dalam perulangan
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
IR dari Koleksi Dokumen Teks
• Kategori utama dari metode:
– Ranking kemiripan terhadap query (vector space
model).
– Pencocokan exact (Boolean).
– Ranking berdasarkan tingkat kepentingan
dokumen (PageRank)
– Kombinasi beberapa metode
• Contoh: Web search engine, seperti Google & Yahoo,
menggunakan metode kombinasi, berdasarkan pada
pendekatan pertama dan ketiga, dengan kombinasi
exact dipilih menggunakan machine learning
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Istilah Penting
• Information retrieval: sub-bidang ilmu
komputer yang berurusan dengan
penemuan kembali dokumen (khususnya
teks) terotomatis berdasarkan pada content
dan contextnya.
• Searching: Pencarian informasi spesifik di
dalam badan informasi. Hasilnya adalah
sehimpunan hit.
• Browsing: Eksplorasi tak-terstruktur dari
badan informasi.
• Linking: Berpindah dari satu item ke item
lain mengikuti link (sambungan) seperti
rujukanUniversitas
(referensi).
Jurusan Teknik Informatika
Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
...Istilah
• Query: Suatu string teks, menggambarkan
informasi yang sedang dicari pengguna. Setiap
kata dari query dinamakan search term.
• Query dapat berupa search term tunggal, string
dari term, frase atau ekspresi tertentu
menggunakan simbol khusus, misalnya regular
expression.
• Pencarian Full text: Metode yang
membandingkan query dengan setiap kata di
dalam teks, tanpa membedakan fungsi dari
berbagai kata.
• Pencarian Bidang : Metode pencarian pada
bidang struktural atau bibliografis spesifik,
seperti penulis atau judul.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
...Istilah
• Corpus: Koleksi dokumen yang diindeks dan
dijadikan target pencarian.
• Daftar kata: Himpunan semua term yang digunakan
dalam indeks untuk suatu corpus (dikenal sebagai
vocabulary file).
• Pada pencarian full text, word list adalah semua term
di dalam corpus, stop words dihapus. Term- term
terkait dikombinasi dengan stemming.
• Controlled vocabulary: Metode indexing dimana
word list bersifat tetap. Term-term dari vocabulary
tersebut dipilih untuk mendeskripsikan setiap
dokumen.
• Keyword: Nama untuk term-term dalam word list,
terutama dengan controlled vocabulary
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Mengurutan & Ranking Hit
• Ketika pengguna men-submit suatu query ke sistem
IR, sistem mengembalikan sehimpunan hit. Pada
koleksi dokumen besar, himpunan hit akan sangat
besar.
• Nilai untuk pengguna sering tergantung pada urutan
hit ditampilkan.
• Tiga metode utama:
– Mengurutkan hit, misal berdasarkan tanggal
– Meranking hit berdasarkan kemiripan antara
query dan dokumen
– Meranking hit berdasarkan kepentingan dari
dokumen
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
IR Berbasis Teks
• Sebagian besar metode ranking didasarkan pada
model ruang vektor (vector space model).
• Sebagian besar metode pencocokan (matching)
didasarkan ada operator Boolean.
• Metode Web search mengkombinasikan model ruang
vektor dengan ranking berdasarkan pada tingkat
kepentingan dokumen.
• Banyak sistem (dalam praktek) menggabungkan fiturfitur dari beberapa pendekatan.
• Pada bentuk dasar, semua pendekatan menganggap
kata sebagai token terpisah, dengan usaha minimal
untuk memahami kata-kata secara linguistik.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Frekuensi Kata
• Observasi: Beberapa kata lebih umum
daripada yang lain.
• Statistika: Koleksi sangat besar dari
dokumen teks tak-terstruktur mempunyai
karakteristik statistik serupa. Statistik ini:
– Mempengaruhi efektifitas dan efisiensi
dari struktur data yang digunakan untuk
mengindeks dokumen
– Banyak model retrieval memanfaatkannya
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
...Frekuensi Kata
• Contoh: Contoh berikut ini diambil dari :
– Jamie Callan, Characteristics of Text,
1997
– 19 Juta kata sampel
– Slide berikut memperlihatkan 50 kata
yang paling umum, diranking (r)
berdasarkan frekuensinya (f).
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
...Frekuensi Kata
Pertemuan ke-2
Distribusi Ranking Frekuensi
• Untuk semua kata di dalam suatu dokumen, untuk setiap
kata w
– f adalah frekuensi munculnya w
– r ranking dari w disusun menurut frekuensi. (kata yang
paling umum muncul mempunyai rank =1)
Pertemuan ke-2
ContohFrekuensi Rank
• Slide berikut memperlihatkan katakata di dalam data Callan yang telah
dinormalisasi. Dalam contoh ini:
– r adalah ranking dari kata w dalam
sampel.
– f adalah frekuensi kata w di dalam
sampel.
– n adalah jumlah total kemunculan
kata di dalam sampel.
Pertemuan ke-2
...Contoh Ranking Frekuensi