Indeksowanie danych w katalogu bibliotecznym

Download Report

Transcript Indeksowanie danych w katalogu bibliotecznym

Indeksowanie danych
w katalogu bibliotecznym
Spotkanie Polskiej Grupy Użytkowników Systemu VTLS/Virtua,
Gdańsk, 5 czerwca 2014
przygotowała: Iwona Wiśniewska
Centrum NUKAT
Plan
1.
2.
3.
4.
5.
6.
O indeksowaniu...
iPortal vs. Chamo
Ujednolicenie zasad - pierwsze podejście
Chamo rules 
Fasety
Dane, dane…
Indeksowanie dziś to głównie nazwanie procesów związanych z wyszukiwaniem
w Internecie.
To dzięki indeksowaniu wyszukiwarka internetowa może podać wynik
dokumentów w bardzo krótkim czasie.
Funkcje indeksowania:
1. analiza treści (tekstu) i budowa odpowiedniego indeksu,
2. gromadzenie metadanych o dokumentach i ich zbiorach, umieszczanie
danych w elektronicznych bazach.
klasyfikowanie
tematowanie
indeksowanie
baz
bibliograficznych
pełnotekstowe
Indeksowanie – proces składający się z czynności charakteryzowania i
znakowania dokumentu w celu późniejszego wyszukania dokumentów
zapytania użytkownika. W odróżnieniu od klasyfikowania indeksowanie nie
dokumentów według cech porządkujących charakterystyki wyszukiwawczej.
(wg Olgierda Unguriana, Encyklopedia współczesnego bibliotekarstwa polskiego, Wrocław 1976)
Client VIRTUA i CHAMO – możliwe indeksowanie rozłączne
iPortal
Wyszukiwanie – indeksy, słowa kluczowe, filtry
CHAMO
Wyszukiwanie – słowa kluczowe, fasety, filtry, indeksy
http://193.0.118.54:8080/search/query?theme=test
• Katalog NUKAT – zasady indeksowanie ustalone jeszcze przed
uruchomieniem katalogu centralnego przez Annę Paluszkiewicz ; w roku
informatyków propozycja ujednolicenia zasad
„W celu efektywnego wyszukiwania dane we wszystkich bazach muszą być jednakowo
Dla każdej kategorii wyszukiwawczej należy ustalić zestaw
indeksowanych pól i podpól (…)”
Padzińskiego i Doroty Tkaczyk „Wirtualny Katalog Lubelskich Bibliotek Naukowych”)
http://centrum.nukat.edu.pl/images/stories/file/szkolenia/materialy_warszt/informatycy_2008/Wirtualny_katalog_lubelski.pd
• Katalogi lokalne – indywidualne (lub lokalne) zasady indeksowania ; brak
ujednoliconych reguł ; często indeksowanie oferowane przez producenta
Kategorie zdefiniowane (Category Name)
Kategorie definiowane przez
użytkownika (6XXX – User defined)
Author
Title
Publisher
Series Title
Subject
Notes
Numery kontrolne, np. 020, 022, 024
Pola kodowane, np. 039, 047, 048
Pole 260 $a i $e
Pola dodatkowych uwag, np. 502, 540
Pole 752
Pola związków dla wydawnictw ciągłych
Pola lokalne, np. 592, 593, 594, 901, 902, 976,
977, 980
Pole 856 $u i $q
Name
Personal/Corporate/Conference Name
Author-Name Personal/Name Corporate/Name Conference
Author.Title
Title Uniform
Music-Key
MeSH Subject/Local Subject
ISBN/ISSN
Date/Time Last Modified
Local Number
Identifier-Standard
UCD Classification
No. National Bibliographie
Dlaczego nikt nie uwzględnia kategorii ‚ Anywhere’ (atrybut 1035)?
Skutki rozbieżnych zasad indeksowania
Nowe zasady indeksowania wymuszają:
 planowana zmiana interfejsu katalogu centralnego (Chamo),
 wprowadzenie faset,
 rozszerzenie dostępnych filtrów,
 wzrost liczby rekordów w bazie, wiele informacji w nich zawartych jest niedostępnych dla użytkowników
„Organizujemy, bo potrzebujemy wyszukiwać.”
Problemy dotyczące ustawienia faset
 Wyświetlanie tylko 50 pierwszych pozycji rankingu wystąpień, a co jeśli właściwy dokument to ten z 51 pozycji rankingowej?
 Zasadność istnienia fasety AUTOR. Czy do wyszukiwania wg nazwy nie służą hasła?
 Kolejność wyświetlania w fasetach w przypadku takiej samej liczby wystąpień w rekordach – wg kodów z pola 008 a nie pełnej
nazwy języka (zob. faseta JĘZYK)
Jakość danych a indeksowanie
 Informacje zawarte w rekordach bibliograficznych mają wpływ na efektywność wyszukiwania.
 Znaczenie zyskują dane umieszczone w odpowiednich polach i podpolach. Brak struktury, porządku, organizacji sprawia, że
szukana treść staje się albo niezmiernie trudna do pozyskania, albo bezużyteczna, bo zupełnie nie daje się jej wyszukać.
 Wartości w polach stałej długości niegdyś pomijane lub wypełniane dowolnie trzeba zweryfikować, bo inaczej będą zupełnie
nieprzydatne wraz z uruchomieniem Chamo.
 Uporządkowania wymagają także pola zmiennej długości.
 Znaczenie ma sformalizowanie, jak największej liczby danych. „Punkty dostępu są integralnym elementem narzędzi dostępu
do zasobów.”
Może należy wrócić do problemu ujednolicenia zasad indeksowania – jeśli nie we wszystkich
bibliotekach uczestniczących we współkatalogowaniu, to przynajmniej w bibliotekach
wykorzystujących to samo oprogramowanie?
Przegląd katalogów prezentowanych w Chamo wydaje się zmuszać do rozważenia powyższej
propozycji…
Zapraszam do dyskusji!
DZIĘKUJĘ ZA UWAGĘ!
Iwona Wiśniewska
[email protected]