Pertemuan ke-3

Download Report

Transcript Pertemuan ke-3

Pertemuan ke-3
StopList dan Stemming
yasmi afrizal
[email protected]
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
Hukum Zipf
• Jika kata-kata di dalam suatu koleksi
diranking, r, berdasarkan frekuensinya,
f, maka memenuhi relasi:
r × (f/n) = c
dimana n adalah jumlah kemunculan
kata di dalam koleksi, 19 juta dalam
contoh.
• Koleksi berbeda mempunyai konstanta c
berbeda.
• Dalam teks bahasa Inggris, c sekitar 0.1.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
Metode Hukum Zipf
• Stop lists: Abaikan kata-kata yang sangat
sering (upper cut-off). Digunakan oleh
hampir semua sistem.
• Significant words: Abaikan kata yang
paling sering dan paling sedikit (upper and
lower cut- off). Jarang digunakan.
• Term weighting: Berikan bobot berbeda
untuk term-term berdasarkan pada
frekuensinya, kata- kata yang paling sering
dibobot kurang. Digunakan oleh hampir
semua metode perankingan.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
Pandangan Logik Dokumen
• Representasi dokumen dipandang
sebagai suatu continuum (rangkaian
kesatuan).
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
Arsitektur Sistem IR
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
Arsitektur IR: Contoh
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
Komponen Sistem IR
• Operasi Teks membentuk kata-kata indeks
(token)
– Tokenization (pemisahan kata)
– Penghapusan Stopword (seperti ‘the’, ‘of’, …)
– Stemming (mengubah kata-kata berbeda ke
bentuk akarnya)
• Indexing membangun suatu inverted index dari
kata ke penunjuk dokumen.
– Pemetaan dari kata kunci ke Id dokumen.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
...Komponen Sistem IR
• Searching meretrieve dokumen-dokumen yang
mengandung token query yang diberikan dari
inverted index.
• Ranking memberikan score kepada semua
dokumen yang diretrieve sesuai dengan
relevance metric.
• User Interface menangani interaksi dengan
pengguna:
– Input query dan output dokumen.
– Feedback relevansi
– Visualisasi hasil.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
...Komponen Sistem IR
• Operasi Query mentransformasi query untuk
meningkatkan retrieval:
– Query expansion menggunakan thesaurus.
– Query transformation menggunakan feedback
relevansi.
– Optimisasi query untuk meningkatkan kinerja.
(kurang penting daripada dalam sistem data
retrieval)
• Pertanyaan: bagaimana menambahkan suatu
komponen personalisasi ke sistem IR?
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
Pencarian Web
• Aplikasi IR terhadap dokumen pada WWW
• Perbedaan:
– Ukuran – lebih dari 25 milyar dokumen diindeks
pada Google, terus bertambah
– Perubahan dokumen tidak dapat dikendalikan.
– Harus menghimpun corpus dokumen dengan
menjaring (spidering) web.
– Dapat mengeksploitasi informasi layout struktural
dalam HTML (XML).
– Dapat mengeksploitasi struktur link dari web
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
Sistem Pencarian Web
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-3
Area Terkait
• Manajemen Basis Data
• Ilmu Perpustakaan dan Informasi
• Kecerdasan Buatan
• Pemrosesan bahasa alamai
• Pembelajaran Mesin
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Relevansi
• Relevansi merupakan suatu judgment
(keputusan) subyektif dan dapat didasarkan
pada:
– topik yang tepat.
– waktu (informasi terbaru).
– otoritatif (dari suatu sumber terpercaya).
– kebutuhan informasi dari pengguna.
• Kriteria relevansi utama: suatu sistem IR
sebaiknya (harus) memenuhi kebutuhan
informasi pengguna.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Pencarian Keyword
• Ide paling sederhana dari
relevansi: apakah string query
ada di dalam dokumen (kata
demi kata, verbatim)?
• Ide yang lebih fleksibel: Berapa
sering kata-kata di dalam query
muncul di dalam dokumen,
tanpa melihat urutannya (bag of
words)?
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Masalah dengan Keyword
• Mungkin tidak meretrieve dokumen relevan
yang menyertakan synonymous terms.
– “restaurant” vs. “café”
– “NDHU” vs. “National Dong Hwa
University”
• Mungkin meretrieve dokumen tak-relevan
yang menyertakan ambiguous terms.
– “bat” (baseball vs. mamalia)
– “Apple” (perusahaan vs. buah-buahan)
– “bit” (unit data vs. perilaku menggigit)
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Bukan Sekedar Keyword
• Kita akan mendiskusikan dasar-dasar IR
berbasis keyword, tetapi…
– Fokus pada perluasan dan pengembangan
terakhir untuk mendapatkan hasil
terbaik.
• Kita akan membahas dasar-dasar
pembangunan sistem IR yang efisien,
tetapi…
– Fokus pada algoritma dan kemampuan
dasar, bukan masalah sistem yang
memungkinkan pengembangan ke
database ukuran industri.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
IR Cerdas
• Memanfaatkan pengertian atau makna dari
kata yang digunakan.
• Melibatkan urutan kata di dalam query.
• Beradaptasi dengan pengguna berdasarkan
pada feedback, langsung atau tidak
langsung.
• Memperluas pencarian dengan term terkait.
• Mengerjakan pemeriksaan
ejaaan/perbaikan tanda pengenal
otomatis.
• Memanfaatkan Otoritas dari sumber
informasi.
Jurusan Teknik Informatika
Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Indeks
• Sistem IR jarang mencari koleksi dokumen secara
langsung. Berdasarkan pada koleksi dokumen,
dibangun sebuah index. Pengguna mencari index
tersebut.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Indexing Otomatis
• Tujuan dari automatic indexing adalah
membangun index dan meretrieve informasi
tanpa intervensi manusia.
• Ketika informasi yang dicari adalah teks,
metode automatic indexing akan sangat
efektif.
• Penelitian automatic indexing fundamental
dimulai oleh Gerald Salton, Professor of
Computer Science di Cornell & mahasiswa
Pasca-Sarjananya (Sistem SMART).
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
IR dari Koleksi Besar
• Information retrieval dari koleksi sangat besar
bersandar pada:
– Jumlah computer power yang besar untuk
mengerjakan algoritma sederhana terhadap
jumlah data yang sangat banyak.
• komputasi kinerja-tinggi
– Pemahaman pengguna terhadap informasi dan
kemampuan dari sistem.
• Interaksi manusia - komputer
• Machine-learning banyak digunakan untuk
mendapatkan kinerja terbaik.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Searching & Browsing
• Orang dalam perulangan
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
IR dari Koleksi Dokumen Teks
• Kategori utama dari metode:
– Ranking kemiripan terhadap query (vector space
model).
– Pencocokan exact (Boolean).
– Ranking berdasarkan tingkat kepentingan
dokumen (PageRank)
– Kombinasi beberapa metode
• Contoh: Web search engine, seperti Google & Yahoo,
menggunakan metode kombinasi, berdasarkan pada
pendekatan pertama dan ketiga, dengan kombinasi
exact dipilih menggunakan machine learning
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Istilah Penting
• Information retrieval: sub-bidang ilmu
komputer yang berurusan dengan
penemuan kembali dokumen (khususnya
teks) terotomatis berdasarkan pada content
dan contextnya.
• Searching: Pencarian informasi spesifik di
dalam badan informasi. Hasilnya adalah
sehimpunan hit.
• Browsing: Eksplorasi tak-terstruktur dari
badan informasi.
• Linking: Berpindah dari satu item ke item
lain mengikuti link (sambungan) seperti
rujukanUniversitas
(referensi).
Jurusan Teknik Informatika
Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
...Istilah
• Query: Suatu string teks, menggambarkan
informasi yang sedang dicari pengguna. Setiap
kata dari query dinamakan search term.
• Query dapat berupa search term tunggal, string
dari term, frase atau ekspresi tertentu
menggunakan simbol khusus, misalnya regular
expression.
• Pencarian Full text: Metode yang
membandingkan query dengan setiap kata di
dalam teks, tanpa membedakan fungsi dari
berbagai kata.
• Pencarian Bidang : Metode pencarian pada
bidang struktural atau bibliografis spesifik,
seperti penulis atau judul.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
...Istilah
• Corpus: Koleksi dokumen yang diindeks dan
dijadikan target pencarian.
• Daftar kata: Himpunan semua term yang digunakan
dalam indeks untuk suatu corpus (dikenal sebagai
vocabulary file).
• Pada pencarian full text, word list adalah semua term
di dalam corpus, stop words dihapus. Term- term
terkait dikombinasi dengan stemming.
• Controlled vocabulary: Metode indexing dimana
word list bersifat tetap. Term-term dari vocabulary
tersebut dipilih untuk mendeskripsikan setiap
dokumen.
• Keyword: Nama untuk term-term dalam word list,
terutama dengan controlled vocabulary
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Mengurutan & Ranking Hit
• Ketika pengguna men-submit suatu query ke sistem
IR, sistem mengembalikan sehimpunan hit. Pada
koleksi dokumen besar, himpunan hit akan sangat
besar.
• Nilai untuk pengguna sering tergantung pada urutan
hit ditampilkan.
• Tiga metode utama:
– Mengurutkan hit, misal berdasarkan tanggal
– Meranking hit berdasarkan kemiripan antara
query dan dokumen
– Meranking hit berdasarkan kepentingan dari
dokumen
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
IR Berbasis Teks
• Sebagian besar metode ranking didasarkan pada
model ruang vektor (vector space model).
• Sebagian besar metode pencocokan (matching)
didasarkan ada operator Boolean.
• Metode Web search mengkombinasikan model ruang
vektor dengan ranking berdasarkan pada tingkat
kepentingan dokumen.
• Banyak sistem (dalam praktek) menggabungkan fiturfitur dari beberapa pendekatan.
• Pada bentuk dasar, semua pendekatan menganggap
kata sebagai token terpisah, dengan usaha minimal
untuk memahami kata-kata secara linguistik.
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
Frekuensi Kata
• Observasi: Beberapa kata lebih umum
daripada yang lain.
• Statistika: Koleksi sangat besar dari
dokumen teks tak-terstruktur mempunyai
karakteristik statistik serupa. Statistik ini:
– Mempengaruhi efektifitas dan efisiensi
dari struktur data yang digunakan untuk
mengindeks dokumen
– Banyak model retrieval memanfaatkannya
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
...Frekuensi Kata
• Contoh: Contoh berikut ini diambil dari :
– Jamie Callan, Characteristics of Text,
1997
– 19 Juta kata sampel
– Slide berikut memperlihatkan 50 kata
yang paling umum, diranking (r)
berdasarkan frekuensinya (f).
Jurusan Teknik Informatika Universitas Ahmad Dahlan
Semester Ganjil 2010/2011
Pertemuan ke-2
...Frekuensi Kata
Pertemuan ke-2
Distribusi Ranking Frekuensi
• Untuk semua kata di dalam suatu dokumen, untuk setiap
kata w
– f adalah frekuensi munculnya w
– r ranking dari w disusun menurut frekuensi. (kata yang
paling umum muncul mempunyai rank =1)
Pertemuan ke-2
ContohFrekuensi Rank
• Slide berikut memperlihatkan katakata di dalam data Callan yang telah
dinormalisasi. Dalam contoh ini:
– r adalah ranking dari kata w dalam
sampel.
– f adalah frekuensi kata w di dalam
sampel.
– n adalah jumlah total kemunculan
kata di dalam sampel.
Pertemuan ke-2
...Contoh Ranking Frekuensi