Transcript GND - hbz

Die Gemeinsame Normdatei (GND)
im hbz-Verbund
Einführung
Silke Tölle
Gliederung
 Worum geht es eigentlich?
 das GND-Format
 GND in Aleph
 Indexierung
 Redaktionsvereinbarungen
 Ausblick
2
Gliederung
 Worum geht es eigentlich?
 das GND-Format
 GND in Aleph
 Indexierung
 Redaktionsvereinbarungen
 Ausblick
3
Worum geht es eigentlich?
 Aufhebung heterogene Datenhaltung
 Aufhebung Formatunterschiede
Normdateien
 Aufhebung unterschiedlicher
Ansetzungsregeln Formal- u.
Sacherschließung
 Zusammenführung zu einer modernen,
web-fähigen Normdatei (Semantic Web)
4
Suchprobleme
Peking / Olympische
SWD:
Spiele 2008
GKD:
Olympic Games <29,
2008, Beijing>
5
Ausgangssituation
Regelwerk
RAK-WB,
Resource
RAK
Description
Musik
and
Access
RSWK
Normdateien
PND
Titeldaten
GKD
SWD
Normdaten
EST Musik
Format
MAB PND
MAB
MARCSWD
21
MAB
GKD
Authority
PICA-MAB
Aleph-MAB
als Internformat
6
Zielsituation
Vereinbarung eines
Gemeinsamen
Normdatenformats
(GNF)
einheitliche
Übergangsregeln
Zusammenführung
der Normdateien
Onlineredaktionsverfahren
Umsetzung der
bestehenden
Normdateien
Updateverfahren
7
Die GND-Gruppe
(DNB und Verbünde)
GBV
HBZ
OBV
KOBV
GND
BVB
HEBIS
DNB
SWB
für eine Gemeinsame Normdatei
8
Gliederung
 Worum geht es eigentlich?
 das GND-Format
 GND in Aleph
 Indexierung
 Redaktionsvereinbarungen
 Ausblick
9
Datenmodell
 Theorie: Entity–Relationship–Modell (ERM)
 Entitäten haben Attribute und
Beziehungen zu anderen Entitäten
 Beziehungen werden durch Codes näher
definiert
 Modulare Datenstruktur (Unterfelder)
 GND in sich ein semantisches Netz
10
Anforderungen an das Format
 Einheitliche Struktur bisher unterschiedlicher
Normdatenformate für PND, GKD, SWD und EST
 Dateninhalte der Normdateien bleiben erhalten
 Eindeutigkeit eines Datensatzes wird
gewährleistet
 keine redundanten Datensätze (FE/SE)
 Nach Produktionsstart: für eine Übergangszeit
Redundanzen im Kontext „Körperschaften“
 Relationen zwischen Entitäten
 IDN-Verknüpfung bei Relationen
 Weitestgehende Auflösung der komplexen
Strukturen bei Mehrgliedrigkeit
11
Die entwickelten Datenformate
Austauschformat:
GND-MARC-Format in MARC 21 Authority
Erfassungsformat:
GND-Aleph-Format
weitgehend an MARC21 orientiert
zusätzlich Aleph-spezifischen Feldern
(katalogisierungsergonomischen Gründe)
Wiedergabe im Aleph-Erfassungsleitfaden
(ELF) auf den hbz-Webseiten und in den
Hilfefenstern
12
Terminologie
Bisherige Terminologie
 Ansetzungsform
 Homonymenzusatz /
Ordnungshilfe
 Verweisung
 Relation
GND-Terminologie
 Bevorzugter Name
(Individualname)
bzw.
bevorzugte Benennung
(Sachbegriff)
 Identifizierender Zusatz
 abweichender Name /
abweichende Benennung
 Beziehung
13
Grundstruktur
Feldnummern
0XX
1XX
2XX
3XX
4XX
Nummern, Codes,
Notationen
Bevorzugter Name/
Bevorzugte Benennung
Komplexe
Schlagworthinweise (HWS)
Heading Information
Abweichender Name/
Abweichende Benennung
Entitäten
Personen
X00
Personennamen
X00
Körperschaften
X10
Kongresse
X11
Geografika
X51
5XX
Beziehungen
6XX
Bemerkungen
Werke
7XX
Bevorzugter Name in
anderem Datenbestand
Sachbegriffe
9XX
Lokale Angaben
X30|X1X
14
X50
Grundstruktur
Bevorzugter Name
1XX
Personen
X00
110 – Bevorzugter
Name der Körperschaft
Personennamen
X00
Körperschaften
X10
410 – Abweichender Name der Körperschaft
4XX
Kongresse
X11
Relationen/Beziehungen 500 – in Beziehung stehende Person
Werke
X30
510
–
in
Beziehung
stehende
Körperschaft
5XX
Sachbegriffe
X50
Bevorzugte Namen aus 710 – Bevorzugter Name aus anderen
Geografika
anderen Datenbeständen Datenbeständen
(z.B. LoC) X51
Namensvarianten
7XX
15
Wichtige Felder Bereich
Nummern/Codierungen
FMT
Format
001/035 $a Identifikationsnummer
005
Datum
043
Ländercode
065
Systematik
093
Entitätencodierung
095
Level
097
Satztyp
098
Teilbestandskennzeichen
16
Die Entitäten - Strukturen
Entität = Satztyp
Unterf.
Format (FMT)
Personennamen
n
p
PN
Personen
p
p/P
PF, PS
Körperschaften
b
k
KF, KS
Kongresse
f
e
VF, VS
Geografika
g
g
GG, GS, GF
Werke (Titel)
u
t
MS, MF, TS, TF
Sachschlagwort
s
s
SA
17
Feld FMT: Format
Feld 098: Teilbestandskennzeichen
 Feld 098 steuert das Format
 f = Formalerschließung
 s = Sacherschließung
 TBK „s“ dominiert TBK „f“ bei der
Formatbildung
 Format relevant bei Altdatennutzung und
Personennamensätzen in PSW
 Sacherschließung ergänzt TBK bei
bestehenden Sätzen („Adelung“)
 korrekte TBK bereits in Schablonen
18
Feld 093: Entitätencodierung
 für alle Satztypen (Entitäten)
verpflichtend (außer für Satztyp „n“)
 innerhalb eines Satztypes Unterscheidung
verschiedener Entitätengruppen
 Beispiele s. Erfassungsleitfaden
19
Feld 043: Ländercode
 verpflichtend außer für Satztyp „n“
 wenn Erfassung LC nicht möglich: Code „ZZ“ als
Platzhalter
 max. 4 LC
 Angabe des hierarchischen LC
 bei Deutschland, Österreich, die Schweiz, Tibet und
Südtirol Erfassung d. „Bundesländer“ (Gliedstaaten )
 Ausnahme: bei Personen nur für Tibet
 abgeschl. Körperschaften, Kongresse, Geografika u.
verstorbene Personen: aktueller + zeitlich
zutreffender Code (XA-DXDE und XA-AAAT für FE
zusätzlich zugelassen)
20
Beziehungen –
allgemeine Sachverhalte
 Beziehungen von der betrachteten
Entität zu anderen Entitäten werden in
Kategorie 5XX abgelegt.
 Darstellung des Entitätentyps der in
Beziehung stehenden Entität durch 2.
und 3. Position der Feldnummer
21
Darstellung von Beziehungen in
der GND
 Typisierung der Beziehung erfolgt durch
Codierungen in Unterfeld $4
 Verknüpfung von in Beziehung stehenden
Daten mittels IDN in Unterfeld $9
 Zeitangaben werden im Feld 548
strukturiert abgelegt
22
Codierung in Unterfeld $4
 Codierung im Unterfeld $4 erfolgt in allen
Satzarten
 bei Beziehungen (5XX)
 bei alternativen Formen: Art der alternativen
Form
 aber: viele Codes gelten nur für bestimmte
Satzarten.
 in den 5XX-Feldern ist die Vergabe eines $4Codes Pflicht
 Codes in ELF, Liste der $4-Codierungen
(DNB-Seite) und über Strg + F8
23
Beispiel Beziehung
Attribute
100 $p Braun, Gerhard
550 $s Biologe $4 berc
$9 (DE-588)…
Codierung
Beziehung
150 $s Biologe
450 $s Diplombiologe
550 $s Naturwissenschaftler
$4 obal $9 (DE-588)…
24
abweichende Namen / Benennungen
 abweichende Namen bzw. abweichende
Benennungen nur für dieselbe Entität
Altdaten enthalten noch (in vielen
Fällen) mehrgliedrige abweichende
Namen / Benennungen
 Möglichkeit der Erläuterung der
Verweisung durch Codierung
 110 $k Bäcker-Innung Hamburg
 410 $k Bäcker-Innung Hamburg $b Vorstand
$4 spio
25
Identifikationsnummern
 Neue GND-Normsätze

Neue GND-ID + ein ISIL-Präfix
 Migrierte GND-Normsätze:
 Bisherige Norm-ID wird zur GND-ID + ISIL-Präfix
(001 $a + 035 $a)
 Bisherige Norm-ID ohne Präfix: Feld 970 $a
 Alte regionale und überregionale IDs: 039 $z + 960 $a
 Beispiel:
001
035
039
960
970
$a(DE-588)100020836
$a(DE-588)100020836
$z(DE-588a)100020836
$a HP12345678
$a 100020836
 Präfix = ISIL: DE-588 [GND], DE-588a [PND],
DE-588b [GKD], DE-588c [SWD]
26
Titel in der GND
 Werke der Musik aus EST-Datei des DMA
und Werktitel der SWD enthalten
 Aufbau im Format
 Verfasser- und Urheberwerke: Feld 100, 110,
111 (und 400, 410,411) in $t …
 Sachtitelwerke in 130, 430
 derzeit nur Nutzung der Werktitel der SWD
durch Sacherschließer
 Nutzung der Werke der Musik aus EST-Datei
des DMA Nachfolgeprojekt
 Beispiel: „Goethe: Faust“ + „Jahrbuch der
Kinderliteratur“
27
Gliederung
 Worum geht es eigentlich?
 das GND-Format
 GND in Aleph
 Indexierung
 Redaktionsvereinbarungen
 Ausblick
28
Bewährtes übernehmen
 Vorhalten einer vollständigen Kopie der
Quelldatei der DN in Aleph
 Datei HBZ18
 Synchronisierung Online-Schnittstelle und
Harvester
 Katalogisierungshilfen
 Schablonen je Entität getrennt nach FE/SE
 F3-Listen (Berufe, Personen, Körperschaften
usw.)
 Hilfen
 Strg + F8-Listen, Feldhilfen
29
Anbindung Titel / Normdaten
 Verlinkung Titel/Normdatensatz mittels
Strg+F3
 100/800ff Index PPE
 200/802ff Index PKO
 902 ff Index PSW
 ID führt auch unabhängig von Text der
Ansetzungsform zur korrekten
Verknüpfung
 Unterfelder des Normdatensatzes werden
im Aleph-Internformat der Titel
wiedergegeben (Erweiterung der MAB-UF)
 s. Dokument „GND-Unterfelder in MAB-Titeln“
30
GND-Verlinkung -1Titel vor GND
100 $a Lynch, David $9 119035316 $b [Hrsg.]
Titel mit GND
100 $p Lynch, David $d 1946- $9 (DE-588)119035316 $b [Hrsg.]
GND
neu: Komplexe Unterfeldstrukturen
neu: Verknüpfung nur über ID
Titel mit GND
902 $p Lynch, David $d 1946- $9 (DE-588)119035316
GND
Titel vor GND
902 $p Lynch, David $9 119035316
31
Gliederung
 Worum geht es eigentlich?
 das GND-Format
 GND in Aleph
 Indexierung
 Redaktionsvereinbarungen
 Ausblick
32
Indexierung HBZ18
 bisher: Entitäten auf drei Libraries verteilt
 Konsequenz: spezifische Suche in eigener
Library
 neu: alle Entitäten in Library HBZ18
enthalten
 Konsequenzen:
 gemeinsame Indizes für alle Entitäten
 spezifische Indizes für einzelne Entitäten
 Indizes für Sacherschließung umfassen auch
Formalerschließungs-Entitäten (Kennzeichnung
durch FMT)
 Indexstruktur = Formatstruktur Aleph
 Indexeintrag besteht aus verschiedenen Unterfeldern
33
Die Entitäten - Strukturen
Entität = Satztyp
Unterf.
Format (FMT)
Personennamen
n
p
PN
Personen
p
p/P
PF, PS
Körperschaften
b
k
KF, KS
Veranstaltungen
f
e
VF, VS
Geografika
g
g
GG, GS, GF
Werke (Titel)
u
t
MS, MF, TS, TF
Sachschlagwort
s
s
SA
34
Die Entitäten – Indexierung GND
Entitätentyp
Personennamen
Personen
Körperschaften
Veranstaltungen
Geografika
Werke (Titel)
Sachschlagwort
Index Entität.-Gruppen
Phrasenindex
PPE
Wortindex
WPE
Phrasenindex
PKO
Wortindex
WKO
Phrasenindex
PSW
Wortindex WSW
Index Entität.
WPE, PPT
WPI, PPT
WKS, PKT
WCO, PCT
WGE, PGE
WTI, PET
WSS, PSS
Alle Entitäten - WRD
35
Wort-Indizes
 Wortindizes enthalten:
 für die Entitäten: wpe, wpi, wks, wco, wge
und wss enthalten keine Titel
 für Beziehungen zwischen Entitäten (5XX)
wpb, wkb, wcb, wsb, wgb enthalten keine
Titel
 Titel enthalten in:
 wsw (aus 1XX $t und aus 130/430/730)
 wti (aus 1XX $t und aus 130/430/730)
 wtb (aus 5XX $t)
 wrd enthält Titel aus 1XX $t und aus 130/430
und 5XX $t
36
Inhalte und Struktur der
Phrasenindizes
 Phrasenindizes über mehrere Entitäten:
 Inhalte aus Felder zu bevorzugten Namen und
abweichenden Namen und Namen anderer
Datenbestände
 Bildung zusätzlicher Sucheinstiege zur
Erhaltung des Suchkomforts trotz Wegfall von
Verweisungen
 spezielle Phrasenindizes für einzelne
Entitäten enthalten auch Titel
 GEN: enthält alle Entitäten, aber keine
zusätzlichen Sucheinstiege, FMT und Level
37
Zusätzliche Sucheinstiege
 Bildung virtueller Felder aus 5XX zur
Erzeugung notwendiger Indexeinträge
 Ortssitze bei Körperschaften (z.B. bei TSV)
 früher Homonymenzusätze bei Personen
 mehrgliedrige Verweisungen der
Sacherschließung
 Achtung: nur Auswertung des bevorzugten
Namens der Beziehung
38
Beispiel virtuelle Felder Person
39
Beispiel virtuelle Felder Körperschaft
40
Anzeige der Browseindizes
 Anzeige aller Unterfelder, mit Ausnahme
von $v
 strukturiert durch Pipe-Zeichen
 führende/doppelte Pipe-Zeichen aufgrund
begrenzter
Anzeigekonfigurationsmöglichkeiten (virtuelle
Sucheinstiege)
 zusätzlich Format und Level jeweils hinter
der ID
41
Wissenswertes und Tipps zur
Recherche – 1 –
 Sortierung in Indizes:
 AUT: alle Unterfelder inkl. Lebensdaten und
FMT
 BIB: keine Sortierung der Lebensdaten (nur
Anzeige)
 kombinierte Einträge aus mehreren
Entitäten: nur Ansetzungsformen werden
verwendet
 Organe Gebietskörperschaften: Italien /
Ministero
 Werktitel: Čajkovskij …: Schwanensee
42
Wissenswertes und Tipps zur
Recherche – 2 –
 Positionierung in Phrasenindizes bei langen
„Indexlisten“ (Berücksichtigung von Titeln)
 „Lösung“: Suche mit „Mitteltext“
 Achtung: Performance wird berücksichtigt
 Nutzung der Codierungen: Suche über das
„Begriffsumfeld“
 Index PSW: Personen zusätzlich ohne
Lebendaten indexiert
 können in Browseindex ignoriert werden, d.h.
sind nicht zu nutzen
43
Sonstige Indizes
 Datum
 getrennt für Mailbox, Ersterfassung, Korrektur
(WMD, WDE, WDK)
 Bibl.-Kennz.
 getrennt nach Mailbox, Bibl. Ersterfassung,
Bibl. Korrektur (WMA, WBE, WBK)
 Satztyp, Format, Entitätencodierung, TBK
 WTY, WFT, WEC, WTK
 Titeldaten: Index PGI, indexiert GND-IDs
aus $9
 Funktion Suche mit GND-IDs in Titeldaten
 Funktion Lokalisieren aus HBZ18
44
Gliederung
 Worum geht es eigentlich?
 das GND-Format
 GND in Aleph
 Indexierung
 Redaktionsvereinbarungen
 Ausblick
45
Rahmenbedingung Redaktionskonzept
Rahmenbedingung: prinzipiell Erhalt der
Redaktionskonzepte aus PND, GKD, SWD
 Primärdatei GND liegt bei der DNB
 Spiegel der GND in hbz-Verbunddatenbank
 alle Arbeiten in der GND direkt in der
Primärdatei via Onlineschnittstelle
Normdatei (ONS)
 gleiche Kommunikationswege wie in alten
drei Normdateien
46
Grundlagen
 Neuaufnahmen
 Nutzung der ONS für Neuaufnahmen
 keine Anlage regionaler Normdatensätze
 Korrekturen
 je nach Berechtigung selbst durchführen oder
per Korrekturantrag (s. Folgefolie)
 Formalerschließung: Entitäten Körperschaften,
Geografika, Kongresse Meldung an „DE-1“ via
Mailboxfeld (901)
 andere Korrekturanträge per Redaktionssatz
47
Berechtigungen
 GND-Level  Aleph-Level
 GND-Level 3 = Aleph-Level 60
 GND-Level 1 oder 2 = Aleph-Level 90
 GND-Level 4 – 8 = Aleph-Level 50
 Berechtigungen Level 3
 Korrekturberechtigungen für alle Sätze mit
Level 3 und niedriger
 Korrekturberechtigungen für Sätze mit Level
1 und 2: alle Felder mit Ausnahme von 1XX,
Idenitfiern, Datum/Inst.
Ersterfassung/Korrektur, Level, Satztyp,
Redaktionsfeld Umlenkungen etc.
48
Dubletten
 bestehende Verbundvereinbarungen
gelten weiter
 mit Einführung der GND „Auflösung“
bestehender regionaler Normdatensätze
 „nur“ noch überregionale Dubletten vh.
 Zusammenführung alter regionaler Sätze auf
überregionale + Umhängung der Titel
 Kennzeichnung der Sätze: Feld 960 enthält
die IDN der Verlierersätze
49
Zusammenführungen
 altes UML-Verfahren entfällt für
Bibliotheken
 Umlenkungsanträge:
 generell per Redaktionssatz
 Verknüpfung über Feld 023g
 Formalerschließung Entitäten Körperschaften,
Geografika, Kongresse: Meldung an „DE-1“
bei Zuständigkeit (vgl. Verbundvereinbarung)
50
Altdatennutzung
 Nutzung in den Titeldaten
 FE: Nutzung des eigenen Bestandes, außer
bei Geografika (dort GS)
 SE: Nutzung des eigenen Bestandes
 bei Personensätzen der FE: TBK setzen
 Nutzung innerhalb der Normdaten
(Beziehungen)
 Feld 510 und 511 mit
Formalerschließungssätzen verknüpfen (KF,
VF)
 Feld 551 Sacherschließungssatz verknüpfen
(GS)
51
Altdatenbearbeitung im Mai 2012
 Neuaufnahmen
 Korrekturen und Ergänzungen außer des
bevorzugten Namens
aber:
 keine Korrektur des bevorzugten Namens
 keine Umlenkungen
 keine Löschungen
52
Altdatenbearbeitung im Juni 2012
 Neuaufnahmen
 alle Korrekturen und Ergänzungen *
 Umlenkungen *
 Löschungen *
 * Einschränkung: Mit den zu bearbeitenden
Normsätzen dürfen nicht mehr als 100 Titel
verknüpft sein.
 Ende Juni: systematische intellektuelle
Zusammenführung der TOP 500 sowie
maschinelles Match-&Merge-Verfahren
53
Parallele Entitäten
 Auflösung von GKD-Splits und
Zusammenführung
 Namensänderung von Körperschaften
(Wegfall Split bei Änderung identifizierende
Zusätze)
 Namensänderungen von
Gebietskörperschaften (Wegfall Split Kreis /
Landkreis)
 Zusammenführung GKD / SWD
 bei Satztyp b und f gewinnt der GKD-Satz
 bei Satztyp g gewinnt der SWD-Satz
 Match & Merge erst ca. Ende Juni
54
Gliederung
 Worum geht es eigentlich?
 das GND-Format
 GND in Aleph
 Indexierung
 Redaktionsvereinbarungen
 Ausblick
55
Migrationsablauf
ab 5. April 2012:
Redaktionsschluss überregionale
Normdateien und Migration DNB
Sperrung der überregionalen
Normdatei(en), auch über ONS
keine Änderungen mehr in hbzNormdateien mehr möglich
Hintergrund: überregionale Sätze können
wg. Ausfall der ONS nicht bearbeitet
werden, regionale Sätze werden nicht
migriert
56
Migrationsablauf
19. April 2012
Lieferung der migrierten GND an die
Verbünde
Öffnung der überregionalen GND, jedoch
nur über direktem PICA-Zugriff
ab 20. April 2012 Migration Verbund-DB
weiterhin keine Änderungen innerhalb der
hbz-Normdateien
HBZ10, HBZ11 und HBZ12 sind
eingefroren
Aufbau der GND noch nicht erfolgt
57
Migrationsablauf
ab ca. 17. KW mehrtägige Downtime
 keine Katalogisierung möglich
 Rechercheumlenkung erfolgt
ab ca. 2. Mai 2012
GND-Produktionsstart im hbz-Verbund
vollständige Migration der hbzVerbunddatenbank
Ausnahme: HBZ02 wird nachfolgend
migriert
58
Unterlagen
Präsentation zur Einführung
Anwendungsbestimmungen (AWB)
= Kommentar zu den Übergangsregeln
Erfassungsleitfaden (ELF)
= Format
auf hbz-Homepage unter:
http://www.hbz-nrw.de/
angebote/verbunddatenbank/dienstleistungen/normdateien/gnd
59
Unterlagen
Übergangsregeln
= Ergänzung zu den RAK
Liste der Codierungen in Unterfeld 4
Auswahl der jeweils häufigsten: AlephGND Erfassungsleitfaden
Entitätencodierungen
auf DNB-Homepage unter:
http://www.dnb.de/DE/Standardisierung/Normdaten/GND/gnd
_node.html
60
Welche Unterlagen fehlen noch?
 Dokument zur Indexierung
 GND-Handbuch kompakt (hbz-Version)
 Verbundvereinbarungen
 Beispielsammlung
61
Informationen zur GND im hbz
 Tests und Schulungen erfolgen im hbzSchulungssystem „triton9“
 Verbindungsparameter werden per versioncheck
ausgeliefert bzw. für Aleph-Systeme per Mail
mitgeteilt
 Inhalte:
 HBZ18 komplett
 HBZ01 nicht migriert, nicht passend zur
HBZ18
 HBZ02 teilmigriert (nicht zu testen)
 Accounts werden per Mail mitgeteilt
62
… und dann kann es losgehen
Viel Erfolg!
63
 Vielen Dank für Ihre Aufmerksamkeit!
 Fragen, Anregungen, Fehlermeldungen?
 Kontakt: gnd-kat<at>hbz-nrw.de