Transcript Document

BBY 220 - Bilgi Erişim İlkeleri
Güven KÖSE
Hacettepe Üniversitesi
[email protected]
yunus.hacettepe.edu.tr/~gkose/
1
Ders Planı
Giriş, Bilgi Erişimin Tarihçesi
Bilgi Erişim Sorunu ve Kavramları
Bilgi Erişim Sistemlerinin Bileşenleri:İçerik Belirteçleri, Belgeler,
Sorgular
Erişim Fonksiyonları: Boolean Model, Vektör Uzayı Modeli, Dil
Modeli
Bilgi Erişim Sistemlerinde Etkinlik ve Performans Değerlendirme
Arama Motorları ve Bilgiye Erişim
Arama Motorlarında Web Tarama ve Dizinleme İşlemleri
Link Analizi
İlgililik Geri Bildirimi
Sorgu Genişletme Teknikleri
Gizli Anlam Dizinleme ve Ontolojiler
2
Ders Kitabı ve Yardımcı Kaynaklar
Salton, G. and McGill, M.J. Introduction to Modern Information
Retrieval. New York: McGraw-Hill, 1983.
Baeza-Yates, R. and Ribeiro. Modern Information Retrieval, BaezaYates and Ribeiro, Addison Wesley, 1999.
Christopher D. Manning, Prabhakar Raghavan and Hinrich
Schütze, Introduction to Information Retrieval, Cambridge
University Press. 2008. (Tam Metin)
Tonta, Y., Bitirim, Y. ve Sever, H. Türkçe Arama Motorlarında
Performans Değerlendirme. (Performance Evaluation of Turkish
Search Engines). Ankara: Total Bilişim Ltd. Şti., 2002. xvi, 152 s.
(ISBN 975 92923-0-0). (Tam Metin)
Konuyla ilgili makaleler
3
Değerlendirme
Ara Sınav (%40)
Final (%60)
4
Bilgi Toplumuna Giden Yol
Güç Süre (yıl)
Tarım Devrimi insan
1000
Sanayi Devrimi makine
300
Bilgi Devrimi
bilgi
100
Toffler (1981)
5
Bilginin Değişen Rolü
• Tarım Toplumunda bilgi sorun çözmede
yardımcı olan kritik bir “girdi” idi
• Sanayi Toplumunda ticari bir ürün, en
temel ekonomik kaynak, “kalkınmanın can
damarı” haline gelen bilgi “çözümün”
kendisi oldu.
• Bilgi Toplumunda ise yaratılabilecek,
iletilebilecek, depolanabilecek sınırsız bilgi
giderek bir “sorun” haline gelmeye başladı.
(http://discovery.cofc.edu/about.html).
6
Bilgi Teknolojisi Dünyayı Nasıl Değiştiriyor?
• Eşli, aygıttan aygıta ağ bağlantısı
• Her aygıt ve uygulamada kesin yerel
mekan bilgisi de gömülü
• Mobil cihazlarla bilgiye zaman ve
makandan bağımsız erişim
sağlanabiliyor
Source: Gage, 2002
7
Bilgi . . .
• Bilgi depolama ortamları
– beyin, kültürel birikim, “dış” ortamlar
• Bilgi iletim ortamı
– dağıtık ağlar: 14 saniyede Kongre
Kütüphanesi’nin içeriğini bir yerden bir yere
iletmek mümkün
• Bilgi işleme ortamları
– beyin, bilgisayarlar, insanlardan daha “akıllı”
makineler, “yapay beyin”
8
Depolama Maliyetleri
Depolama Fiyatları (1992-2023)
1.000.000,0
100.000,0
Fiyatlar her yıl %45 düşüyor
1 Gigabyte (USD)
1 Terabyte (USD)
1.000,0
421 USD
100,0
10,0
1,0
0,42 USD
0,1
0,0
19
92
19
93
19
94
19
95
19
96
19
97
19
98
19
99
20
00
20
01
20
02
20
03
20
04
20
05
20
06
20
07
20
08
20
09
20
10
20
11
20
12
20
13
20
14
20
15
20
16
20
17
20
18
20
19
20
20
20
21
20
22
20
23
Maliyet (USD)
10.000,0
Yıl
Kaynak: http://www.berghell.com/whitepapers/Storage%20Costs.pdf
10
İletim Maliyetleri
2010
8 Mbps = $19
1 Mbps = $2,4
Kaynak: ULAKBİM Faaliyet Raporu, 2003 (www.ulakbim.gov.tr/hakkimizda/faaliyet/faaliyet03.uhtml)
11
Bilgi Patlaması - 2002
• 5 Exabyte (5 x 1018 byte)
• 2002’de dünyada üretilen yeni bilgi miktarı (5
x 1018 byte)
• 5 Exabyte’lık bilgi = 37,000 yeni Kongre
Kütüphanesi!
• “Yüzey web”de yaklaşık 100 milyar belge
var (1670 Terabyte) var
• “Derin web”de 550 milyar belge var(dı)
(91857 Terabyte)
Kaynak: BrightPlanet & Lyman and Varian
12
Bir Exabyte (EB) ne kadar büyük?
1,000 bytes OR 103bytes
2 Kilobytes: A Typewritten page.
Kilobyte (KB)
100 Kilobytes: A low-resolution photograph.
1,000,000 bytes OR 106 bytes
1 Megabyte: A small novel OR a 3.5 inch floppy disk.
2 Megabytes: A high-resolution photograph.
5 Megabytes: The complete works of Shakespeare.
10 Megabytes: A minute of high-fidelity sound.
100 Megabytes: 1 meter of shelved books.
Megabyte (MB)
500 Megabytes: A CD-ROM.
1,000,000,000 bytes OR 109 bytes
1 Gigabyte: a pickup truck filled with books.
20 Gigabytes: A good collection of the works of Beethoven.
Gigabyte (GB)
100 Gigabytes: A library floor of academic journals.
1,000,000,000,000 bytes OR 1012 bytes
1 Terabyte: 50000 trees made into paper and printed.
2 Terabytes: An academic research library.
10 Terabytes: The print collections of the U.S. Library of Congress.
Terabyte (TB)
400 Terabytes: National Climactic Data Center (NOAA) database.
1,000,000,000,000,000 bytes OR 1015 bytes
1 Petabyte: 3 years of EOS data (2001).
2 Petabytes: All U.S. academic research libraries.
Petabyte
(PB)
20 Petabytes: Production of hard-disk drives in 1995.
200 Petabytes: All printed material.
1,000,000,000,000,000,000 bytes OR 1018 bytes
Exabyte
(EB)
2 Exabytes: Total volume of information generated in 1999.
5 Exabytes: All words ever spoken by human beings.
Kaynak: How much information 2003, Tablo 1.1
13
Bilgi Artışı
Tablo 1. 2002’de dünyada üretilen özgün dijital bilgi üretimi. İyimser
tahminlerde bilginin dijital olarak tarandığı varsayıldı, alt tahminlerde dijital
içeriğin sıkıştırıldığı varsayıldı.
Depolama ortamı
2002
Üst
tahmin
(Terabyte
olarak)
2002
Alt
tahmin
(Terabyte
olarak)
19992000 Üst
tahmin
1,634
327
1,200
240
%36
Film
420,254
76,69
431,690
58,209
%-3
Manyetik
5187130
3,416,230
2,779,760
2,073,760
%87
103
51
81
29
%28
5,609,121
3,416,281
3,212,731
2,132,238
%74.5
Kâğıt
Optik
TOPLAM
19992000 Alt
tahmin
%
Değişim
Üst
tahminler
Kaynak: Lyman ve Varian
14
Bilgi Miktarı
• 5,4 Exabyte (milyar x milyar byte: 54
milyar Economist dergisinin içeriğine eşit)
• ABD’de her yıl 80 milyar fotoğraf çekiliyor
• 2 milyar röntgen filmi çekiliyor
• Günde 610 milyar e-posta mesajı
gönderiliyor
• Her yıl 15 trilyon sayfa yazıcılardan çıktı
alınıyor
15
5 Exabayt  161 Exabayt
http://www.emc.com/about/destination/digital_universe/pdf/Expanding_Digital_Universe_IDC_WhitePaper_022507.pdf
16
Depolama Kapasitesi
http://www.emc.com/about/destination/digital_universe/pdf/Expanding_Digital_Universe_IDC_WhitePaper_022507.pdf
17
Web 2.0 Nedir?
Source: http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html
18
Web 2.0 Tanımı
• Yaratıcılığı artırmayı, bilgi paylaşımını ve
en önemlisi kullanıcılar arasındaki
işbirliğini amaçlayan Web teknolojisi ve
web tasarımı.
• Sosyal ağ siteleri, wiki’ler, günlükler
(blogs) ve folksonomiler gibi Web tabanlı
toplulukların ve barındırılan hizmetlerin
gelişmesi ve evrimleşmesi
Kaynak: http://en.wikipedia.org/wiki/Web_2.0
19
Web 2.0 Özellikleri
•
•
•
•
•
•
•
Platform olarak Web
Kullanıcı katılımı yoluyla ortak akıl
Dinamik içerik
Paketlenmiş yazılım yerine hizmetler
Hafif programlama modelleri
Web standartları ve ölçeklenebilirlik
Zengin kullanıcı deneyimi
• açıklık
• özgürlük
Kaynak: O’Reilly (2005); http://en.wikipedia.org/wiki/Web_2.0
20
Dijital Vatandaşlık Testi
1. Bunu okuyabilir misiniz? “kdz n colleG? ms em? U2 cn lrn txtN”
2. Ipod’unuz (çocuklarınız ya da torunlarınızın değil) var mı?
3. Wii’ı denediniz mi? En çok hangi oyunu beğendiniz?
Sonradan
4. Akıllı telefon kullanıyor musunuz (yani, e-posta,
video, fotoğraf özellikleri
vatandaşlığa
Göçmenler
olan …)?
Yerliler
kabul
Fosiller
5. Anında mesaj (IM) kullanıyor musunuz? Blog kullanıyor
edilenler musunuz?
Blog’dan ne öğreniyorsunuz?
6. “Lonely Girl 15”in kim olduğunu biliyor musunuz?
7. TV olmadan0-1
TV programlarını2-7
izlemek için üç popüler
8-10yol önerebilir
11-12
misiniz?
8. Hiç Starbucks’ta WiFi kullandınız mı?
9. “Mashup” sitelerinin önemini biliyor musunuz? Mash Up yarışmasına
katıldınız mı?
10. MID ne demektir?
11. Sharepoint mi yoksa Wiki mi daha fazla işbirliği olanağı sağlar?
Aralarındaki fark nedir?
Kaynak: Fred Stein, Digital Immigrants, Digital Natives and the Information Age
21
21
Dijital Yerliler
•
•
•
•
Bilgiye hızlı erişim
Paralel işleme
Metin yerine grafik
Rastgele erişim
(hipermetin)
• Sürekli ağ üzerinde
• Oyunlar
22
Dijital Göçmenler
23
Dijital Göçmenler – Dijital Yerliler Örneği
Dijital göçmen-dijital yerli spektrumunda neredesiniz?
Dijital Göçmenler
Web’e
bağlı
taşınabilir
MP3 çalar
E-posta/adi
“Bağlantılı
olma”yı varsayar ve gerektirir
posta
İsteklere cevap verirler
kavramıyla
mücadele
Gezgin
sosyal yazılım kullanırlar
halinde; Wiki
veya blog’lar
hakkında
hiçbir fikri
yok
Kablosuz
resim ve
TV
telefonları
hoşlanırlar?
Anında
bağlantılılık
DY’ler niçin Sosyal Ağlardan
DY’ler niçin Sosyal Bookmark’ları kullanırlar?
Kablosuz
Tamamen bağlı…..
haritalı el
…tamamen dijital
bilgisayarları
…birden çok görevi yapabilir …
…tamamen gezgin (veri, görüntü, ses)
...”Uzunçalar”/“plak” nedir bilmezler
• Bilgiyi
kişiselleştirm
ek için
Mashup’ları
kullanıyor;
• Uygulamalar
için “Pipes “ı
kullanıyor
• Web’i
kişiselleştirm
ek için RSS
kullanıyor
Kablosuz
telefon
bilgisayar
oluyor
(Eposta,
Web
IM . Video
Dijitalvs)Yerli
24
Kaynak: Fred Stein, Digital Immigrants, Digital Natives
and the Information Age
24
Bilgi kaynakları + İnsanların bilgi
kaynaklarıyla ve birbirleriyle ilişkileri
• Google’ın misyonu “dünyanın içeriğini
düzenlemek”, sosyal ağlarınki ise “dünyanın
insanlarını”
• Bilgi erişim artık sadece bilgi kaynakları
merkezli olmamalı, insanlar arasındaki ilişkilere
de odaklanmalı (kaynak merkezli –ilişki merkezli
yaklaşım) (Lagoze, 2000)
• Kişiselleştirme
• Tavsiye sistemleri
• Standart içerikle kullanıcının yarattığı içeriğin
birleştirilmesi
• Web 3.0: Social semantic Web
25
Bilgi Erişim Tanımı
• “bilgi toplama, sınıflama,
kataloglama, depolama, büyük
miktardaki verilerden arama
yapma ve bu verilerden
istenen bilgiyi kısa sürede
üretme (veya gösterme)
tekniği ve süreci”
26
Bilgi Erişim Sorunu
• Wells, “World Encyclopedia” (1936)
• Bush, “As we may think,” Atlantic Monthly, (1945)
– Memex (memory expansion)
•
•
•
•
•
•
•
•
•
“bilgi erişim” (IR) teriminin ilk kez kullanımı (Calvin Mooers, 1952)
Otomatik dizinleme – KWIC/KWOC (Luhn, 1958)
Boole modeli (Lockheed, 1960’lar)
Mantıksal model (Mooers, Cooper & Maron, Van Rijsbergen, 1960- )
Olasılık modeli (Maron-Kuhns, 1960; Robertson-Jones, 1976;
Robertson-Maron-Cooper, 1982; Croft, 1979 )
Vektör uzayı modeli (Gerard Salton, 1961)
İstatistiksel ağırlıklandırma (tf*idf, 1970’ler)
Dil modelleri (Ponte-Croft, 1998)
Performans ölçümleri
– Cranfield, Medlars, SMART, STAIRS, TREC, 1960- (Cleverdon, Lancaster,
Salton, Blair-Maron, Harman)
27
Bilgi Erişimin Entellektüel Temelleri
• Sistem felsefesi
• Bilim felsefesi
• Dil felsefesi
28
Dil Felsefesi ve Bilgi Erişim
• Bilgi düzenleme ve bilgi erişim de dil
kullanımının özel bir türü
• Sistematik dizinleme (J. Otto Kaiser)
• Dilbilimsel yapılar
– Sözdağarı
– Anlambilim
– Sözdizimi
• Kataloglama, sınıflama, dizinleme
29
Sınıflama Kuramı
•
•
•
•
•
Sınıflama dile dayanıyor
Dil belirsizlikler içeriyor
Kavramlar üzerinde anlaşma sağlamak zor
Domates “meyve” mi “sebze” mi?
“Alternatif tıp” hangi konuya girer?
– Felsefe?
– Din?
– Sağlık ve tıp?
30
Bilgi Erişimin Temel İkilemi
• “Hakkında bilgi bulmak
için bilmediğin bir şeyi
tanımlama gereği”
(Hjerrpe)
31
İdeal Bilgi Erişim Sistemi
Kullanıcı açısından bakıldığında ideal bir bilgi erişim sisteminin:
1) Derlem üzerindeki bütün bilgi ya da belgeye erişim sağlaması,
2) Arama sonuçlarının çok hızlı bir biçimde sunması,
3) Erişilen bütün sonuçların güncel olması,
4) Arama sonucu erişilen bütün belgelerin sorgu ile ilgili olması,
5) Derlem üzerinde sorgu ile ilgili bütün ilgili belgelere erişilebilmesi,
6) Sorgu ile en ilgili belgelerin erişim çıktısında en üstte daha az
ilgililerin ise daha alt sıralarda yer alması
gereksinimlerini yerine getirmesi beklenir.
32
İdeal Bilgi Erişim Sistemi
Ancak pratikte, kullanıcıların bilgi ihtiyaçlarını ifade etmek için
seçtikleri terimlerle belgelerdeki terimlerin eşleştirilmesi mantığı
üzerinde çalışan günümüz popüler bilgi erişim sistemlerinin bu
gereksinimlerin tamamını ya da pek çoğunu aynı anda yerine
getirmesinin imkansız olduğu söylenebilir.
Başka bir deyişle, bir ya da iki arama kelimesi ile kullanıcılar bilgi
erişim sistemlerinin mucize yaratmasını beklemektedirler.
33
İdeal Bilgi Erişim Sistemi
Pratikte ideal bilgi erişim sistemini gerçekleştirmek olanaksız gibi
görünse de, kullanıcı gereksinimlerini mümkün olduğunca fazla
karşılayacak sistemlerin geliştirilmesi için yoğun çalışmalar
yapılıyor.
Bunlardan bazıları:
• Farklı bilgi erişim sistemlerinin birleştirilmesi (meta search),
• Kişiselleştirilmiş arama (personalized search),
• Anlamsal arama (semantic search), Web 3.0,
• Doğal dil işleme araçlarının kullanılması (Natural Language
Processing) ve farklı diller için yerelleştirmeler
• Soru
yanıtlama
sistemleri
(question
answering)
http://www.answers.com  what is the capital of turkey?
• Çoklu ortam bilgi erişim sistemleri (multimedia retrieval)
• Konu tespit ve takip sistemleri (topic detection and tracking)
34
Bilgiye Erişim ve Veriye Erişim Arasındaki Fark
Bilgiye Erişim
Veriye Erişim
35
Bilgi Erişim Sistemleri İşlevsel Mimarisi
ön yüz
arka yüz
ön yüz
Bir bilgi erişim sisteminin
temel bileşenleri:
1. Bir belge derlemi (ya
da bu belgeleri temsil
eden içerik belirteçlerini
içeren tutanaklar),
2. Kullanıcıların sorgu
cümleleri,
3. Kullanıcıların sorgu
cümlelerinde yer alan
terimlerle derlemdeki
belgelere verilen terimleri
karşılaştırarak ilgili
belgeleri belirlemek için
kullanılan bir erişim kuralı
(Tonta, Bitirim, ve Sever, 2002)
36
Bilgi Erişim Sistemleri İşlevsel Mimarisi
Bilgi ihtiyacı (veya kullanıcı sorgusu): Bilgi ihtiyacı bir düz metinle (doğal
dille) ifade edilebileceği gibi dizin terimleri ve aralarındaki ilişkiler ("ve",
"veya", "ve-değil", "ise/eğer", vb.) çerçevesinde de tanımlanabilir.
Erişim çıktısı: Eldeki sorgu ifadesinin belgeler ile eşleştirilmesiyle oluşturulur.
Yani sistemin, belge derlemi (koleksiyonu) içinde sunulan sorgu ifadesi ile
ilgili olduğunu "düşündüğü" belgeleri topladığı havuza (ya da “küme”ye)
erişim çıktısı adını vermekteyiz.
Erişim çıktısındaki belgeler kullanıcı bilgi ihtiyacına yakınlık derecesine göre
azalan sırada sıralanırlar.
Geri Bildirim: Sistem tarafından döndürülen belge çıktısının kullanıcının bilgi
ihtiyacını karşılamaktan uzak olduğu durumlarda, kullanıcı geribildirim
sürecini başlatarak daha kaliteli bir belge çıktısı elde etmek isteyebilir.
37
Bilgiye Erişim Süreci
(Baeza-Yates ve Ribiero-Neto, 1999)
38
Belge Erişim Sisteminin Mantıksal Düzenlemesi
Belgeler
Kullanıcılar
Dizinleme
Gömü Sözlük
Sorgu
formülasyonu
Dizin
tutanakları
Erişim
kuralı
Formel sorgu
cümlesi
Kaynak: Maron, 1984
39
Web İçin Örnek Bilgi Erişim Mimarisi
40
İçerik Terimleri ve Belge Gösterimi
(Dinçer, 2004)
41
İçerik Terimleri ve Belge Gösterimi
(Baeza-Yates ve Ribiero-Neto, 1999)
42
Düze Metin Olmayan Belgelerde Durum Nedir?
Düz Metin (Plain Text): Dosya içerisinde karakterler
yazıldıkları biçimde (ASCII) olarak saklanırlar (*.txt).
Diğer Metin Biçimleri: Karakterler dosya içerisinde özel bir
biçimde (format) tutulur. Bu tür verileri okumak için özel
uygulamalar gerekir.
doc  Word
pdf  Acrobat Reader
xls  Microsoft Excel
ppt  Microsoft Powerpoint
Düz metin olmayan belgelerin dizinlenebilmesi için düz
metne çevrilmesi gerekir (pars).
43
Düze Metin Olmayan Belgelerde Durum Nedir?
44
Metin Ön İşleme Nedir?
• Belge düz metne çevrilir,
• Metin içerisindeki tüm noktalama ve özel işaretler çıkarılır,
• Metin içerisindeki bütün harfler küçük harfe çevrilir,
• Birden fazla olan boşluklar atılır ve kelimeler ayıklanır
45
Türkçe Durma Kelimeleri (Stop Words) Listesi
46
İngilizce Durma Kelimeleri Listesi
47
Durma Kelimeleri Listesi Nasıl Oluşturulur?
Elimizde bulunan 1000 adet belgeden kelimelerin kullanılma
sıklıkları ile ilgili bir istatistik çıkarılmış. Buna göre bazı
kelimelerin sıklıkları şu şekildedir:
Ve  2542 adet
Veya 2030 adet
Başkent  1200 adet
Ankara  950 adet
Bilgisayar 12 adet
Algoritma 3 adet
Durma kelimeleri neler olabilir?
48
Durma Kelimeleri Listesi Nasıl Oluşturulur?
• Sınırlı alanlarda çalışılıyor ise alana özel durma kelimelerinin
belirlenmesi gerekir.
Örneğin, derlem bilgisayar grafiği ile ilgili makalelerden
oluşuyorsa bilgisayar ve grafik gibi kelimelerin ayırt edici
özelliği yoktur.
• Eğer derlem çok büyük ise (İnternet gibi) dil için durma
kelimeleri listesi elde edilmelidir.
49
Durma Kelimeleri Listesi Nasıl Oluşturulur?
X ekseni: tekil kelimeler
Y ekseni: kelimenin geçtiği doküman sayısı
Hangi kelimeler durma kelimeleridir? (%80 kuralı)
50
Gövdeleme (stemming)
•Kök: Kelimenin her türlü ek (yapım ve çekim) çıkarıldıktan
sonra kalan anlamlı bölümüdür.
Kelime: yaptırmak
Kök: yap
• Gövde: İsim ve fiil köklerinden yapım ekleriyle türetilmiş
kelime.
Kelime: Evli (ev-li), sevdirmek (sev-dir-mek).
51
Gövdeleme (stemming)
Gövdeleme: Belge içerisindeki içerik belirteçlerinde (ya da
kelimelerde) yapım eklerinin tutulup, çekim eklerinin
çıkarılması anlamına gelir.
• İçerik belirteçlerinde gövdeleme yapılması sorgular ve
belgeler arasındaki kesişme olasılığını artırdığı için bilgi
erişimde başarıma olumlu etkisi olduğu düşünülmektedir.
•Örneğin, 3 farklı belgede geçen 3 kelime: D1 numarama,
D2  numarası, D3 numaram olsun.
Eğer sorgu olarak “numara” kelimesi yollanırsa BES 3
dokümanı da eşleştiremez
Gövdeleme yapılması durumunda:
D1 numara D2  numara D3  numara Sorgu  numara
52
Gövdeleme (stemming) nasıl yapılır?
Sözlük tabanlı yöntemler
Ek atma tabanlı yöntemler
53