Indeksowanie danych w katalogu bibliotecznym
Download
Report
Transcript Indeksowanie danych w katalogu bibliotecznym
Indeksowanie danych
w katalogu bibliotecznym
Spotkanie Polskiej Grupy Użytkowników Systemu VTLS/Virtua,
Gdańsk, 5 czerwca 2014
przygotowała: Iwona Wiśniewska
Centrum NUKAT
Plan
1.
2.
3.
4.
5.
6.
O indeksowaniu...
iPortal vs. Chamo
Ujednolicenie zasad - pierwsze podejście
Chamo rules
Fasety
Dane, dane…
Indeksowanie dziś to głównie nazwanie procesów związanych z wyszukiwaniem
w Internecie.
To dzięki indeksowaniu wyszukiwarka internetowa może podać wynik
dokumentów w bardzo krótkim czasie.
Funkcje indeksowania:
1. analiza treści (tekstu) i budowa odpowiedniego indeksu,
2. gromadzenie metadanych o dokumentach i ich zbiorach, umieszczanie
danych w elektronicznych bazach.
klasyfikowanie
tematowanie
indeksowanie
baz
bibliograficznych
pełnotekstowe
Indeksowanie – proces składający się z czynności charakteryzowania i
znakowania dokumentu w celu późniejszego wyszukania dokumentów
zapytania użytkownika. W odróżnieniu od klasyfikowania indeksowanie nie
dokumentów według cech porządkujących charakterystyki wyszukiwawczej.
(wg Olgierda Unguriana, Encyklopedia współczesnego bibliotekarstwa polskiego, Wrocław 1976)
Client VIRTUA i CHAMO – możliwe indeksowanie rozłączne
iPortal
Wyszukiwanie – indeksy, słowa kluczowe, filtry
CHAMO
Wyszukiwanie – słowa kluczowe, fasety, filtry, indeksy
http://193.0.118.54:8080/search/query?theme=test
• Katalog NUKAT – zasady indeksowanie ustalone jeszcze przed
uruchomieniem katalogu centralnego przez Annę Paluszkiewicz ; w roku
informatyków propozycja ujednolicenia zasad
„W celu efektywnego wyszukiwania dane we wszystkich bazach muszą być jednakowo
Dla każdej kategorii wyszukiwawczej należy ustalić zestaw
indeksowanych pól i podpól (…)”
Padzińskiego i Doroty Tkaczyk „Wirtualny Katalog Lubelskich Bibliotek Naukowych”)
http://centrum.nukat.edu.pl/images/stories/file/szkolenia/materialy_warszt/informatycy_2008/Wirtualny_katalog_lubelski.pd
• Katalogi lokalne – indywidualne (lub lokalne) zasady indeksowania ; brak
ujednoliconych reguł ; często indeksowanie oferowane przez producenta
Kategorie zdefiniowane (Category Name)
Kategorie definiowane przez
użytkownika (6XXX – User defined)
Author
Title
Publisher
Series Title
Subject
Notes
Numery kontrolne, np. 020, 022, 024
Pola kodowane, np. 039, 047, 048
Pole 260 $a i $e
Pola dodatkowych uwag, np. 502, 540
Pole 752
Pola związków dla wydawnictw ciągłych
Pola lokalne, np. 592, 593, 594, 901, 902, 976,
977, 980
Pole 856 $u i $q
Name
Personal/Corporate/Conference Name
Author-Name Personal/Name Corporate/Name Conference
Author.Title
Title Uniform
Music-Key
MeSH Subject/Local Subject
ISBN/ISSN
Date/Time Last Modified
Local Number
Identifier-Standard
UCD Classification
No. National Bibliographie
Dlaczego nikt nie uwzględnia kategorii ‚ Anywhere’ (atrybut 1035)?
Skutki rozbieżnych zasad indeksowania
Nowe zasady indeksowania wymuszają:
planowana zmiana interfejsu katalogu centralnego (Chamo),
wprowadzenie faset,
rozszerzenie dostępnych filtrów,
wzrost liczby rekordów w bazie, wiele informacji w nich zawartych jest niedostępnych dla użytkowników
„Organizujemy, bo potrzebujemy wyszukiwać.”
Problemy dotyczące ustawienia faset
Wyświetlanie tylko 50 pierwszych pozycji rankingu wystąpień, a co jeśli właściwy dokument to ten z 51 pozycji rankingowej?
Zasadność istnienia fasety AUTOR. Czy do wyszukiwania wg nazwy nie służą hasła?
Kolejność wyświetlania w fasetach w przypadku takiej samej liczby wystąpień w rekordach – wg kodów z pola 008 a nie pełnej
nazwy języka (zob. faseta JĘZYK)
Jakość danych a indeksowanie
Informacje zawarte w rekordach bibliograficznych mają wpływ na efektywność wyszukiwania.
Znaczenie zyskują dane umieszczone w odpowiednich polach i podpolach. Brak struktury, porządku, organizacji sprawia, że
szukana treść staje się albo niezmiernie trudna do pozyskania, albo bezużyteczna, bo zupełnie nie daje się jej wyszukać.
Wartości w polach stałej długości niegdyś pomijane lub wypełniane dowolnie trzeba zweryfikować, bo inaczej będą zupełnie
nieprzydatne wraz z uruchomieniem Chamo.
Uporządkowania wymagają także pola zmiennej długości.
Znaczenie ma sformalizowanie, jak największej liczby danych. „Punkty dostępu są integralnym elementem narzędzi dostępu
do zasobów.”
Może należy wrócić do problemu ujednolicenia zasad indeksowania – jeśli nie we wszystkich
bibliotekach uczestniczących we współkatalogowaniu, to przynajmniej w bibliotekach
wykorzystujących to samo oprogramowanie?
Przegląd katalogów prezentowanych w Chamo wydaje się zmuszać do rozważenia powyższej
propozycji…
Zapraszam do dyskusji!
DZIĘKUJĘ ZA UWAGĘ!
Iwona Wiśniewska
[email protected]