Transcript Document
BBY 220 - Bilgi Erişim İlkeleri Güven KÖSE Hacettepe Üniversitesi [email protected] yunus.hacettepe.edu.tr/~gkose/ 1 Ders Planı Giriş, Bilgi Erişimin Tarihçesi Bilgi Erişim Sorunu ve Kavramları Bilgi Erişim Sistemlerinin Bileşenleri:İçerik Belirteçleri, Belgeler, Sorgular Erişim Fonksiyonları: Boolean Model, Vektör Uzayı Modeli, Dil Modeli Bilgi Erişim Sistemlerinde Etkinlik ve Performans Değerlendirme Arama Motorları ve Bilgiye Erişim Arama Motorlarında Web Tarama ve Dizinleme İşlemleri Link Analizi İlgililik Geri Bildirimi Sorgu Genişletme Teknikleri Gizli Anlam Dizinleme ve Ontolojiler 2 Ders Kitabı ve Yardımcı Kaynaklar Salton, G. and McGill, M.J. Introduction to Modern Information Retrieval. New York: McGraw-Hill, 1983. Baeza-Yates, R. and Ribeiro. Modern Information Retrieval, BaezaYates and Ribeiro, Addison Wesley, 1999. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. (Tam Metin) Tonta, Y., Bitirim, Y. ve Sever, H. Türkçe Arama Motorlarında Performans Değerlendirme. (Performance Evaluation of Turkish Search Engines). Ankara: Total Bilişim Ltd. Şti., 2002. xvi, 152 s. (ISBN 975 92923-0-0). (Tam Metin) Konuyla ilgili makaleler 3 Değerlendirme Ara Sınav (%40) Final (%60) 4 Bilgi Toplumuna Giden Yol Güç Süre (yıl) Tarım Devrimi insan 1000 Sanayi Devrimi makine 300 Bilgi Devrimi bilgi 100 Toffler (1981) 5 Bilginin Değişen Rolü • Tarım Toplumunda bilgi sorun çözmede yardımcı olan kritik bir “girdi” idi • Sanayi Toplumunda ticari bir ürün, en temel ekonomik kaynak, “kalkınmanın can damarı” haline gelen bilgi “çözümün” kendisi oldu. • Bilgi Toplumunda ise yaratılabilecek, iletilebilecek, depolanabilecek sınırsız bilgi giderek bir “sorun” haline gelmeye başladı. (http://discovery.cofc.edu/about.html). 6 Bilgi Teknolojisi Dünyayı Nasıl Değiştiriyor? • Eşli, aygıttan aygıta ağ bağlantısı • Her aygıt ve uygulamada kesin yerel mekan bilgisi de gömülü • Mobil cihazlarla bilgiye zaman ve makandan bağımsız erişim sağlanabiliyor Source: Gage, 2002 7 Bilgi . . . • Bilgi depolama ortamları – beyin, kültürel birikim, “dış” ortamlar • Bilgi iletim ortamı – dağıtık ağlar: 14 saniyede Kongre Kütüphanesi’nin içeriğini bir yerden bir yere iletmek mümkün • Bilgi işleme ortamları – beyin, bilgisayarlar, insanlardan daha “akıllı” makineler, “yapay beyin” 8 Depolama Maliyetleri Depolama Fiyatları (1992-2023) 1.000.000,0 100.000,0 Fiyatlar her yıl %45 düşüyor 1 Gigabyte (USD) 1 Terabyte (USD) 1.000,0 421 USD 100,0 10,0 1,0 0,42 USD 0,1 0,0 19 92 19 93 19 94 19 95 19 96 19 97 19 98 19 99 20 00 20 01 20 02 20 03 20 04 20 05 20 06 20 07 20 08 20 09 20 10 20 11 20 12 20 13 20 14 20 15 20 16 20 17 20 18 20 19 20 20 20 21 20 22 20 23 Maliyet (USD) 10.000,0 Yıl Kaynak: http://www.berghell.com/whitepapers/Storage%20Costs.pdf 10 İletim Maliyetleri 2010 8 Mbps = $19 1 Mbps = $2,4 Kaynak: ULAKBİM Faaliyet Raporu, 2003 (www.ulakbim.gov.tr/hakkimizda/faaliyet/faaliyet03.uhtml) 11 Bilgi Patlaması - 2002 • 5 Exabyte (5 x 1018 byte) • 2002’de dünyada üretilen yeni bilgi miktarı (5 x 1018 byte) • 5 Exabyte’lık bilgi = 37,000 yeni Kongre Kütüphanesi! • “Yüzey web”de yaklaşık 100 milyar belge var (1670 Terabyte) var • “Derin web”de 550 milyar belge var(dı) (91857 Terabyte) Kaynak: BrightPlanet & Lyman and Varian 12 Bir Exabyte (EB) ne kadar büyük? 1,000 bytes OR 103bytes 2 Kilobytes: A Typewritten page. Kilobyte (KB) 100 Kilobytes: A low-resolution photograph. 1,000,000 bytes OR 106 bytes 1 Megabyte: A small novel OR a 3.5 inch floppy disk. 2 Megabytes: A high-resolution photograph. 5 Megabytes: The complete works of Shakespeare. 10 Megabytes: A minute of high-fidelity sound. 100 Megabytes: 1 meter of shelved books. Megabyte (MB) 500 Megabytes: A CD-ROM. 1,000,000,000 bytes OR 109 bytes 1 Gigabyte: a pickup truck filled with books. 20 Gigabytes: A good collection of the works of Beethoven. Gigabyte (GB) 100 Gigabytes: A library floor of academic journals. 1,000,000,000,000 bytes OR 1012 bytes 1 Terabyte: 50000 trees made into paper and printed. 2 Terabytes: An academic research library. 10 Terabytes: The print collections of the U.S. Library of Congress. Terabyte (TB) 400 Terabytes: National Climactic Data Center (NOAA) database. 1,000,000,000,000,000 bytes OR 1015 bytes 1 Petabyte: 3 years of EOS data (2001). 2 Petabytes: All U.S. academic research libraries. Petabyte (PB) 20 Petabytes: Production of hard-disk drives in 1995. 200 Petabytes: All printed material. 1,000,000,000,000,000,000 bytes OR 1018 bytes Exabyte (EB) 2 Exabytes: Total volume of information generated in 1999. 5 Exabytes: All words ever spoken by human beings. Kaynak: How much information 2003, Tablo 1.1 13 Bilgi Artışı Tablo 1. 2002’de dünyada üretilen özgün dijital bilgi üretimi. İyimser tahminlerde bilginin dijital olarak tarandığı varsayıldı, alt tahminlerde dijital içeriğin sıkıştırıldığı varsayıldı. Depolama ortamı 2002 Üst tahmin (Terabyte olarak) 2002 Alt tahmin (Terabyte olarak) 19992000 Üst tahmin 1,634 327 1,200 240 %36 Film 420,254 76,69 431,690 58,209 %-3 Manyetik 5187130 3,416,230 2,779,760 2,073,760 %87 103 51 81 29 %28 5,609,121 3,416,281 3,212,731 2,132,238 %74.5 Kâğıt Optik TOPLAM 19992000 Alt tahmin % Değişim Üst tahminler Kaynak: Lyman ve Varian 14 Bilgi Miktarı • 5,4 Exabyte (milyar x milyar byte: 54 milyar Economist dergisinin içeriğine eşit) • ABD’de her yıl 80 milyar fotoğraf çekiliyor • 2 milyar röntgen filmi çekiliyor • Günde 610 milyar e-posta mesajı gönderiliyor • Her yıl 15 trilyon sayfa yazıcılardan çıktı alınıyor 15 5 Exabayt 161 Exabayt http://www.emc.com/about/destination/digital_universe/pdf/Expanding_Digital_Universe_IDC_WhitePaper_022507.pdf 16 Depolama Kapasitesi http://www.emc.com/about/destination/digital_universe/pdf/Expanding_Digital_Universe_IDC_WhitePaper_022507.pdf 17 Web 2.0 Nedir? Source: http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html 18 Web 2.0 Tanımı • Yaratıcılığı artırmayı, bilgi paylaşımını ve en önemlisi kullanıcılar arasındaki işbirliğini amaçlayan Web teknolojisi ve web tasarımı. • Sosyal ağ siteleri, wiki’ler, günlükler (blogs) ve folksonomiler gibi Web tabanlı toplulukların ve barındırılan hizmetlerin gelişmesi ve evrimleşmesi Kaynak: http://en.wikipedia.org/wiki/Web_2.0 19 Web 2.0 Özellikleri • • • • • • • Platform olarak Web Kullanıcı katılımı yoluyla ortak akıl Dinamik içerik Paketlenmiş yazılım yerine hizmetler Hafif programlama modelleri Web standartları ve ölçeklenebilirlik Zengin kullanıcı deneyimi • açıklık • özgürlük Kaynak: O’Reilly (2005); http://en.wikipedia.org/wiki/Web_2.0 20 Dijital Vatandaşlık Testi 1. Bunu okuyabilir misiniz? “kdz n colleG? ms em? U2 cn lrn txtN” 2. Ipod’unuz (çocuklarınız ya da torunlarınızın değil) var mı? 3. Wii’ı denediniz mi? En çok hangi oyunu beğendiniz? Sonradan 4. Akıllı telefon kullanıyor musunuz (yani, e-posta, video, fotoğraf özellikleri vatandaşlığa Göçmenler olan …)? Yerliler kabul Fosiller 5. Anında mesaj (IM) kullanıyor musunuz? Blog kullanıyor edilenler musunuz? Blog’dan ne öğreniyorsunuz? 6. “Lonely Girl 15”in kim olduğunu biliyor musunuz? 7. TV olmadan0-1 TV programlarını2-7 izlemek için üç popüler 8-10yol önerebilir 11-12 misiniz? 8. Hiç Starbucks’ta WiFi kullandınız mı? 9. “Mashup” sitelerinin önemini biliyor musunuz? Mash Up yarışmasına katıldınız mı? 10. MID ne demektir? 11. Sharepoint mi yoksa Wiki mi daha fazla işbirliği olanağı sağlar? Aralarındaki fark nedir? Kaynak: Fred Stein, Digital Immigrants, Digital Natives and the Information Age 21 21 Dijital Yerliler • • • • Bilgiye hızlı erişim Paralel işleme Metin yerine grafik Rastgele erişim (hipermetin) • Sürekli ağ üzerinde • Oyunlar 22 Dijital Göçmenler 23 Dijital Göçmenler – Dijital Yerliler Örneği Dijital göçmen-dijital yerli spektrumunda neredesiniz? Dijital Göçmenler Web’e bağlı taşınabilir MP3 çalar E-posta/adi “Bağlantılı olma”yı varsayar ve gerektirir posta İsteklere cevap verirler kavramıyla mücadele Gezgin sosyal yazılım kullanırlar halinde; Wiki veya blog’lar hakkında hiçbir fikri yok Kablosuz resim ve TV telefonları hoşlanırlar? Anında bağlantılılık DY’ler niçin Sosyal Ağlardan DY’ler niçin Sosyal Bookmark’ları kullanırlar? Kablosuz Tamamen bağlı….. haritalı el …tamamen dijital bilgisayarları …birden çok görevi yapabilir … …tamamen gezgin (veri, görüntü, ses) ...”Uzunçalar”/“plak” nedir bilmezler • Bilgiyi kişiselleştirm ek için Mashup’ları kullanıyor; • Uygulamalar için “Pipes “ı kullanıyor • Web’i kişiselleştirm ek için RSS kullanıyor Kablosuz telefon bilgisayar oluyor (Eposta, Web IM . Video Dijitalvs)Yerli 24 Kaynak: Fred Stein, Digital Immigrants, Digital Natives and the Information Age 24 Bilgi kaynakları + İnsanların bilgi kaynaklarıyla ve birbirleriyle ilişkileri • Google’ın misyonu “dünyanın içeriğini düzenlemek”, sosyal ağlarınki ise “dünyanın insanlarını” • Bilgi erişim artık sadece bilgi kaynakları merkezli olmamalı, insanlar arasındaki ilişkilere de odaklanmalı (kaynak merkezli –ilişki merkezli yaklaşım) (Lagoze, 2000) • Kişiselleştirme • Tavsiye sistemleri • Standart içerikle kullanıcının yarattığı içeriğin birleştirilmesi • Web 3.0: Social semantic Web 25 Bilgi Erişim Tanımı • “bilgi toplama, sınıflama, kataloglama, depolama, büyük miktardaki verilerden arama yapma ve bu verilerden istenen bilgiyi kısa sürede üretme (veya gösterme) tekniği ve süreci” 26 Bilgi Erişim Sorunu • Wells, “World Encyclopedia” (1936) • Bush, “As we may think,” Atlantic Monthly, (1945) – Memex (memory expansion) • • • • • • • • • “bilgi erişim” (IR) teriminin ilk kez kullanımı (Calvin Mooers, 1952) Otomatik dizinleme – KWIC/KWOC (Luhn, 1958) Boole modeli (Lockheed, 1960’lar) Mantıksal model (Mooers, Cooper & Maron, Van Rijsbergen, 1960- ) Olasılık modeli (Maron-Kuhns, 1960; Robertson-Jones, 1976; Robertson-Maron-Cooper, 1982; Croft, 1979 ) Vektör uzayı modeli (Gerard Salton, 1961) İstatistiksel ağırlıklandırma (tf*idf, 1970’ler) Dil modelleri (Ponte-Croft, 1998) Performans ölçümleri – Cranfield, Medlars, SMART, STAIRS, TREC, 1960- (Cleverdon, Lancaster, Salton, Blair-Maron, Harman) 27 Bilgi Erişimin Entellektüel Temelleri • Sistem felsefesi • Bilim felsefesi • Dil felsefesi 28 Dil Felsefesi ve Bilgi Erişim • Bilgi düzenleme ve bilgi erişim de dil kullanımının özel bir türü • Sistematik dizinleme (J. Otto Kaiser) • Dilbilimsel yapılar – Sözdağarı – Anlambilim – Sözdizimi • Kataloglama, sınıflama, dizinleme 29 Sınıflama Kuramı • • • • • Sınıflama dile dayanıyor Dil belirsizlikler içeriyor Kavramlar üzerinde anlaşma sağlamak zor Domates “meyve” mi “sebze” mi? “Alternatif tıp” hangi konuya girer? – Felsefe? – Din? – Sağlık ve tıp? 30 Bilgi Erişimin Temel İkilemi • “Hakkında bilgi bulmak için bilmediğin bir şeyi tanımlama gereği” (Hjerrpe) 31 İdeal Bilgi Erişim Sistemi Kullanıcı açısından bakıldığında ideal bir bilgi erişim sisteminin: 1) Derlem üzerindeki bütün bilgi ya da belgeye erişim sağlaması, 2) Arama sonuçlarının çok hızlı bir biçimde sunması, 3) Erişilen bütün sonuçların güncel olması, 4) Arama sonucu erişilen bütün belgelerin sorgu ile ilgili olması, 5) Derlem üzerinde sorgu ile ilgili bütün ilgili belgelere erişilebilmesi, 6) Sorgu ile en ilgili belgelerin erişim çıktısında en üstte daha az ilgililerin ise daha alt sıralarda yer alması gereksinimlerini yerine getirmesi beklenir. 32 İdeal Bilgi Erişim Sistemi Ancak pratikte, kullanıcıların bilgi ihtiyaçlarını ifade etmek için seçtikleri terimlerle belgelerdeki terimlerin eşleştirilmesi mantığı üzerinde çalışan günümüz popüler bilgi erişim sistemlerinin bu gereksinimlerin tamamını ya da pek çoğunu aynı anda yerine getirmesinin imkansız olduğu söylenebilir. Başka bir deyişle, bir ya da iki arama kelimesi ile kullanıcılar bilgi erişim sistemlerinin mucize yaratmasını beklemektedirler. 33 İdeal Bilgi Erişim Sistemi Pratikte ideal bilgi erişim sistemini gerçekleştirmek olanaksız gibi görünse de, kullanıcı gereksinimlerini mümkün olduğunca fazla karşılayacak sistemlerin geliştirilmesi için yoğun çalışmalar yapılıyor. Bunlardan bazıları: • Farklı bilgi erişim sistemlerinin birleştirilmesi (meta search), • Kişiselleştirilmiş arama (personalized search), • Anlamsal arama (semantic search), Web 3.0, • Doğal dil işleme araçlarının kullanılması (Natural Language Processing) ve farklı diller için yerelleştirmeler • Soru yanıtlama sistemleri (question answering) http://www.answers.com what is the capital of turkey? • Çoklu ortam bilgi erişim sistemleri (multimedia retrieval) • Konu tespit ve takip sistemleri (topic detection and tracking) 34 Bilgiye Erişim ve Veriye Erişim Arasındaki Fark Bilgiye Erişim Veriye Erişim 35 Bilgi Erişim Sistemleri İşlevsel Mimarisi ön yüz arka yüz ön yüz Bir bilgi erişim sisteminin temel bileşenleri: 1. Bir belge derlemi (ya da bu belgeleri temsil eden içerik belirteçlerini içeren tutanaklar), 2. Kullanıcıların sorgu cümleleri, 3. Kullanıcıların sorgu cümlelerinde yer alan terimlerle derlemdeki belgelere verilen terimleri karşılaştırarak ilgili belgeleri belirlemek için kullanılan bir erişim kuralı (Tonta, Bitirim, ve Sever, 2002) 36 Bilgi Erişim Sistemleri İşlevsel Mimarisi Bilgi ihtiyacı (veya kullanıcı sorgusu): Bilgi ihtiyacı bir düz metinle (doğal dille) ifade edilebileceği gibi dizin terimleri ve aralarındaki ilişkiler ("ve", "veya", "ve-değil", "ise/eğer", vb.) çerçevesinde de tanımlanabilir. Erişim çıktısı: Eldeki sorgu ifadesinin belgeler ile eşleştirilmesiyle oluşturulur. Yani sistemin, belge derlemi (koleksiyonu) içinde sunulan sorgu ifadesi ile ilgili olduğunu "düşündüğü" belgeleri topladığı havuza (ya da “küme”ye) erişim çıktısı adını vermekteyiz. Erişim çıktısındaki belgeler kullanıcı bilgi ihtiyacına yakınlık derecesine göre azalan sırada sıralanırlar. Geri Bildirim: Sistem tarafından döndürülen belge çıktısının kullanıcının bilgi ihtiyacını karşılamaktan uzak olduğu durumlarda, kullanıcı geribildirim sürecini başlatarak daha kaliteli bir belge çıktısı elde etmek isteyebilir. 37 Bilgiye Erişim Süreci (Baeza-Yates ve Ribiero-Neto, 1999) 38 Belge Erişim Sisteminin Mantıksal Düzenlemesi Belgeler Kullanıcılar Dizinleme Gömü Sözlük Sorgu formülasyonu Dizin tutanakları Erişim kuralı Formel sorgu cümlesi Kaynak: Maron, 1984 39 Web İçin Örnek Bilgi Erişim Mimarisi 40 İçerik Terimleri ve Belge Gösterimi (Dinçer, 2004) 41 İçerik Terimleri ve Belge Gösterimi (Baeza-Yates ve Ribiero-Neto, 1999) 42 Düze Metin Olmayan Belgelerde Durum Nedir? Düz Metin (Plain Text): Dosya içerisinde karakterler yazıldıkları biçimde (ASCII) olarak saklanırlar (*.txt). Diğer Metin Biçimleri: Karakterler dosya içerisinde özel bir biçimde (format) tutulur. Bu tür verileri okumak için özel uygulamalar gerekir. doc Word pdf Acrobat Reader xls Microsoft Excel ppt Microsoft Powerpoint Düz metin olmayan belgelerin dizinlenebilmesi için düz metne çevrilmesi gerekir (pars). 43 Düze Metin Olmayan Belgelerde Durum Nedir? 44 Metin Ön İşleme Nedir? • Belge düz metne çevrilir, • Metin içerisindeki tüm noktalama ve özel işaretler çıkarılır, • Metin içerisindeki bütün harfler küçük harfe çevrilir, • Birden fazla olan boşluklar atılır ve kelimeler ayıklanır 45 Türkçe Durma Kelimeleri (Stop Words) Listesi 46 İngilizce Durma Kelimeleri Listesi 47 Durma Kelimeleri Listesi Nasıl Oluşturulur? Elimizde bulunan 1000 adet belgeden kelimelerin kullanılma sıklıkları ile ilgili bir istatistik çıkarılmış. Buna göre bazı kelimelerin sıklıkları şu şekildedir: Ve 2542 adet Veya 2030 adet Başkent 1200 adet Ankara 950 adet Bilgisayar 12 adet Algoritma 3 adet Durma kelimeleri neler olabilir? 48 Durma Kelimeleri Listesi Nasıl Oluşturulur? • Sınırlı alanlarda çalışılıyor ise alana özel durma kelimelerinin belirlenmesi gerekir. Örneğin, derlem bilgisayar grafiği ile ilgili makalelerden oluşuyorsa bilgisayar ve grafik gibi kelimelerin ayırt edici özelliği yoktur. • Eğer derlem çok büyük ise (İnternet gibi) dil için durma kelimeleri listesi elde edilmelidir. 49 Durma Kelimeleri Listesi Nasıl Oluşturulur? X ekseni: tekil kelimeler Y ekseni: kelimenin geçtiği doküman sayısı Hangi kelimeler durma kelimeleridir? (%80 kuralı) 50 Gövdeleme (stemming) •Kök: Kelimenin her türlü ek (yapım ve çekim) çıkarıldıktan sonra kalan anlamlı bölümüdür. Kelime: yaptırmak Kök: yap • Gövde: İsim ve fiil köklerinden yapım ekleriyle türetilmiş kelime. Kelime: Evli (ev-li), sevdirmek (sev-dir-mek). 51 Gövdeleme (stemming) Gövdeleme: Belge içerisindeki içerik belirteçlerinde (ya da kelimelerde) yapım eklerinin tutulup, çekim eklerinin çıkarılması anlamına gelir. • İçerik belirteçlerinde gövdeleme yapılması sorgular ve belgeler arasındaki kesişme olasılığını artırdığı için bilgi erişimde başarıma olumlu etkisi olduğu düşünülmektedir. •Örneğin, 3 farklı belgede geçen 3 kelime: D1 numarama, D2 numarası, D3 numaram olsun. Eğer sorgu olarak “numara” kelimesi yollanırsa BES 3 dokümanı da eşleştiremez Gövdeleme yapılması durumunda: D1 numara D2 numara D3 numara Sorgu numara 52 Gövdeleme (stemming) nasıl yapılır? Sözlük tabanlı yöntemler Ek atma tabanlı yöntemler 53