Wprowadzenie - Katedra Informatyki > Home

Download Report

Transcript Wprowadzenie - Katedra Informatyki > Home

W. Bartkiewicz
Wprowadzenie do budowy usług
informacyjnych
Wykład 1. Zagadnienia wstępne
Literatura
• Manning C.D., Raghavan P, Shütze H., An introduction to
information retrieval, Cambridge University Press, 2007.
• Baeza-Yates R., Ribeiro-Neto B., Modern information
retrieval, Addison Wesley, 1999.
• Weiss S.M., Indurkhya N., Zhang T., Damerau F.J., Text mining.
Predictive methods for analyzing unstructured information,
Springer. 2005.
• Baldi P., Frasconi P., Smyth P., Modeling the Internet and the
Web, Wiley, 2003.
• Chen Ch., Information visualization. Beyond the horizon,
Springer, 2006.
• Chakrabarti S., Mining the Web. Discovering Knowledge from
Hypertext Data, Morgan Kaufmann, 2005.
Literatura
• Kłopotek M.A., Inteligentne wyszukiwarki internetowe,
Akademicka Oficyna Wydawnicza Exit, 2001.
• Wakulicz-Deja A., Podstawy systemów wyszukiwania informacji,
Akademicka Oficyna Wydawnicza PLJ, 1995.
• Abiteboul S., Buneman P., Suciu D., Dane w sieci WWW – od
relacji do modelu semistrukturalnego i XML, Mikom, 2001.
• Garcia-Molina H., Ullman J.D., Widom J., Implementacja
systemów baz danych, WNT, 2003.
Informacja vs dane
• Usługi informacyjne – programy przetwarzające informacje, dla
dostarczenia funkcji wyższego rzędu.
• Informacja to zinterpretowane dane.
• Dane przeznaczone są do przetwarzania maszynowego:
– Źródła danych mają ściśle określoną strukturę,
– Relacyjne bazy danych, pliki rekordów itp.,
– Znany musi być ich schemat –semantyka każdego elementu danych jest
ściśle określona.
• Ale informacja przeznaczona jest dla człowieka.
– Ludzie doskonale przetwarzają informację niestrukturalną, mającą postać
ogólnie nazywaną „dokumentem”,
– Dokumenty: teksty, strony webowe i multimedia (grafika, dźwięk, film),
– Dane (informacje) niestrukturalne nie mają określonego schematu
informacji.
Źródła strukturalne i niestrukturalne
w 1996
160
140
120
100
Niestrukturalne
Strukturalne
80
60
40
20
0
Rozmiar danych
Znaczenie rynkowe
Źródło: Manning, Raghavan, Shütze, An Introduction to Information Retrieval
Źródła strukturalne i niestrukturalne
w 2006
160
140
120
100
Niestrukturakne
Strukturalne
80
60
40
20
0
Rozmiar danych
Znaczenie rynkowe
Źródło: Manning, Raghavan, Shütze, An Introduction to Information Retrieval
Informacja vs dane
• Nawet jeśli przechowywane dane mają charakter strukturalny, to dla
usług informacyjnych wyższego rzędu dostępne są często w postaci
niestrukturalnej informacji.
• Dokumenty słabo ustrukturalizowane.
– Strony HTML,
– Teksty podzielone na rozdziały, z wyodrębnionym tytułem, autorami,
bibliografią, streszczeniem, itp.
• Dokumenty semistrukturalne.
– XML.
Usługi informacyjne
• Ludzkość gromadziła informacje niemal od zarania swoich dziejów.
Początkowo oczywiście informacja zapisywana była na różnego
rodzaju nośnikach tradycyjnych – tabliczkach glinianych, papirusach,
pergaminie, papierze, itp. oraz gromadzona w ręcznie obsługiwanych
zbiorach – archiwach oraz bibliotekach.
• Dla sprawnego zarządzania często obszernymi zasobami informacji,
niezbędne było więc wypracowanie najrozmaitszych metod
organizowania, porządkowania i wyszukiwania poszczególnych
zapisków (dokumentów).
– Tak więc, co dziś może wydawać się nieco zaskakujące, korzeni
współczesnej informatyki w dużej mierze szukać należy w archiwistyce i
bibliotekoznawstwie.
Usługi informacyjne
• Aby umożliwić odnalezienie niezbędnej informacji w obszernej
przestrzeni informacyjnej, stosuje się zazwyczaj różnego rodzaju
systemy klasyfikujące (katalogujące), pozwalające na uporządkowanie
informacji w obrębie całej kolekcji lub pojedynczego dokumentu.
• Jedną z pierwszych metod organizacji informacji była alfabetyzacja,
czyli klasyfikowanie fragmentów informacji zgodnie porządkiem
alfabetycznym.
– Alfabetyzacja została prawdopodobnie po raz pierwszy zastosowana przez
greckich bibliotekarzy już w trzecim stuleciu p.n.e. w słynnej bibliotece
Aleksandryjskiej w Egipcie.
Usługi informacyjne
• Płaskie struktury organizacji informacji są zazwyczaj niewystarczające
przy dużych rozmiarach przestrzeni informacyjnej.
• Aby sprawnie lokalizować poszczególne jej elementy stosuje się na
ogół pewne hierarchie informacyjne, pozwalające na stopniową
klasyfikację dokumentu do coraz bardziej szczegółowych podgrup na
kolejnych poziomach.
• Również w przypadku organizacji hierarchicznej informacji, początków
należy szukać w starożytności.
– Podział tekstu na księgi, te z kolei na rozdziały stosowany był powszechnie
w literaturze antycznej.
– Pewne elementy klasyfikacji informacji w ramach hierarchii tematycznych
wskazuje się dla przykładu w „Historii naturalnej” Pliniusza Starszego
(zmarł w 79 roku n.e.), czy też w „Nocach Attyckich” Aulusa Gelliusa
(około 160 roku n.e.)
Usługi informacyjne
• W pełniejszym jednak zakresie o systemach klasyfikacji tematycznej w
dużych kolekcjach dokumentów, można mówić jednak dopiero w
czasach zdecydowanie późniejszych.
– Jako jeden z pierwszych przykładów wymienia się tu system
klasyfikacyjny wymyślony przez Tomasza Jeffersona, na potrzeby jego
biblioteki w Monticello, która stała się później zalążkiem słynnej Biblioteki
Kongresu Stanów Zjednoczonych.
– W drugiej połowie dziewiętnastego wieku natomiast opracowany został
przez Melvila Dewey’a System Klasyfikacji Dziesiętnej, który stanowi do
dziś podstawę klasyfikacji tematycznej w wielu bibliotekach
• Organizowanie informacji systemy klasyfikacji, oparte na
różnorodnych strukturach hierarchicznych, stosowane jest również we
współczesnych zasobach informacyjnych.
Usługi informacyjne
• Alternatywną metodą wspomagania przeszukiwania dużych zasobów
informacyjnych, również stosowaną do dziś, jest tworzenie różnego
rodzaju indeksów.
• Początkowo, w starożytnym Rzymie przez indeks rozumiano dołączany
do zwoju papirusu pokrowiec, zawierający tytuł i czasami nazwisko
autora. Pozwalał on na określenie zawartości bez konieczności
przeglądania samego zwoju.
• Stąd też samo słowo indeks zaczęło oznaczać po prostu tytuł pracy.
Stopniowo, mniej więcej w ciągu I wieku n.e., znaczenie słowa indeks
rozszerzone zostało na spis treści, czasami również z krótkimi
streszczeniami poszczególnych rozdziałów.
Usługi informacyjne
• Indeks w obecnym tego słowa znaczeniu, składający się z słów
kluczowych oraz informacji o ich położeniu w dokumencie (lub w
obrębie całej kolekcji) pojawia jednak się dopiero po wynalezieniu
druku.
– W starożytnych tekstach, zapisywanych na rulonach, trudno było nawet
określić liczbowe wskaźniki położenia. Nie było przecież stron,
niepraktycznie byłoby również posługiwać się numerem wiersza.
– Dopiero w przypadku dokumentów drukowanych w setkach i tysiącach
egzemplarzy, możemy mówić o powtarzalności dokumentu. Kopie
przepisywane ręcznie, jeśli chodzi o położenie poszczególnych
fragmentów tekstu, mogły różnić się między sobą dosyć wyraźnie.
• Indeksy we współczesnym tego słowa znaczeniu rozwinęły się więc w
okresie między drugą połową XV wieku, a wiekiem XVII, w którym
kompilowane były już dosyć powszechnie.
– Początkowo słowa kluczowe w indeksie porządkowane były jedynie
według pierwszej litery, pełna alfabetyzacja stała się obowiązująca w
XVIII wieku.
Usługi informacyjne
• Wyszukiwanie informacji
• Przeglądanie i nawigacja w obszernych, złożonych przestrzeniach
informacyjnych
• Filtrowanie i rekomendacja
• Organizowanie skojarzeniowe zbiorów informacji
• Wizualizacja zasobów informacyjnych
• Zaawansowane usługi informacyjne
– Ekstrakcja wiedzy i informacji
– Wnioskowanie w oparciu o bazę informacji. Systemy odpowiedzi na
zapytania, rozumowania opartego na przypadkach
– Sumaryzacja (streszczanie) dokumentów i zbiorów informacji
– Generowanie powiązań między dokumentami
– Automatyczne tłumaczenie
Technologie
•
•
•
•
•
Wyszukiwanie informacji
Klasyfikacja dokumentów
Grupowanie dokumentów
Eksploracja tekstu
Eksploracja sieci web
Wyszukiwanie informacji –
Skanowanie tekstu
• Wyszukiwanie pełnotekstowe – znajdowanie wszystkich dokumentów,
które zawierają podany przez użytkownika łańcuch znaków.
• Dokładne i przybliżone algorytmy dopasowania wzorca.
• Jako opis dokumentu tworzy się specjalne drzewo indeksujące, tzw.
drzewo przedrostkowe i przyrostkowe (wiele rodzajów – np. trie, PAT,
Patricia, itp.), pozwalające na szybkie wyszukiwanie wzorca tekstowego.
• Wady:
– Dotyczy wyłącznie dokumentów tekstowych i do pewnego stopnia HTML.
– Nawet dla dokumentów tekstowych z powodu heterogenicznego charakteru
Internetu, trudno czasami pobrać tekst (różne formaty).
– Tekst może być niedostępny podczas wyszukiwania.
– Opiera się wyłącznie na dopasowaniu wzorca. Brak możliwości
zastosowania podejścia semantycznego.
Wyszukiwanie informacji –
Wyszukiwanie oparte na cechach
• Zamiast indeksować cały tekst zapamiętujemy pewne cechy dokumentu,
oddające w pewien sposób jego treść.
– W dużym stopniu eliminuje to wady podejścia pełnotekstowego.
– Proces pozyskiwania cech dokumentów nazywamy indeksowaniem.
• Typowe cechy – wszystkie rodzaje dokumentów.
– Słowa kluczowe (termy) – pojedyncze słowa lub grupy słów. Dotyczy nie
tylko dokumentów tekstowych!
– Kategorie tematyczne.
– Kategorie taksonomiczne (hierarchie tematów).
• Dokumenty tekstowe:
– Analiza współautorstwa.
– Analiza cytowania.
• Dokumenty HTML – analiza połączeń (linków).
• Cechy specyficzne dokumentów multimedialnych.
• Cechy całych dokumentów i indeksowanie pól strukturalnych.
Wyszukiwanie informacji –
Ocena działania
• Dokładność wyszukiwania:
dokumentów relewantnych.
Odsetek
wszystkich
wyszukanych
– Zmiana parametrów metod wyszukiwania pozwala zwykle zwiększać
dokładność, ale kosztem umieszczenia w zbiorze wynikowym wielu
dokumentów nierelewantnych.
• Precyzja wyszukiwania: Odsetek dokumentów relewantnych w zbiorze
wynikowym.
Wyszukany
Nie wyszukany
Relewantny
tp
fn
Nierelewantny
fp
tn
Dokładność R = tp/(tp + fn)

Precyzja

P = tp/(tp + fp)