Posch-Alpenwort

Download Report

Transcript Posch-Alpenwort

go!digital
Korpus der Zeitschrift des Deutschen und
Österreichsichen Alpenvereins
Claudia
Posch,
[email protected]
Gegründet
im Jahr
1669, ist die Universität Innsbruck heute mit mehr als 28.000 Studierenden und über 4.000 Mitarbeitenden die größte und
wichtigste Forschungs- und Bildungseinrichtung in Westösterreich. Alle weiteren Informationen finden Sie im Internet unter: www.uibk.ac.at.
Gerhard Rampl, [email protected]
Seite 1
go!digital
Projektidee: spezialisiertes Korpus des ZAV
• Digitalisierung
und
korpuslinguistische
Erschließung
alpinistischer Texte
• Inspiriert durch das Korpus: Text&Berg digital (Volk/Bubenhofer,
Zürich); www.textberg.ch (=Parallelkorpus)
• Vielfältige linguistische Analysemethoden: Wie wird über die
Berge geschrieben?
Bubenhofer, N. ; Volk, M. ; Klaper, D. ; Weibel, M. ; Wüest, D. (Hrsg.): Text+Berg-Korpus
(Release 147_v03) : Institut für Computerlinguistik, Universität Zürich, 2013.
Seite 2
go!digital
Partner
Martin Achrainer, Oesterreichischer Alpenverein (OeAV), Archiv & Geschichte d. OeAV &
Alpenarchiv
Günter Mühlberger, Abteilung für Digitalisierung & Elektronische Archivierung (DEA),
Institut für Germanistik Innsbruck
Karlheinz Mörth, Institut für Corpuslinguistik und Texttechnologie (ICLTT), ÖAW
Noah Bubenhofer, TU Dresden, Institut für Germanistik, Professur für Angewandte
Linguistik,Projektleiter Text+Berg digital
Gerald Hiebl, Universität Innsbruck, Arbeitsbereich Vermessung und Geoinformation
Neue PartnerInnen
Martin Volk, Institut für Computerlinguistik, Universität Zürich
Michel Généreux, Verena Lyding, Egon W. Stemle
Institut for Specialized Communication and Multilingualism, EURAC – Bozen
Seite 3
go!digital
Quellen
Zeitschrift des Deutschen und Oesterreichischen Alpenvereins (1872 – 1942)
Zeitschrift des Oesterreichischen Alpenvereins (1949 – today)
• ca. 150 – max. 500 Seiten pro Band
• ca. 38.000 Buchseiten
• wissenschaftliche Beiträge, Expeditions- und Besteigungsberichte,
Routenbeschreibungen, Beschreibungen von Bergen und Gebirgen,
Alpinliteratur
• kleine Textsorten werden ausgeklammert (e.g. Karten, Kleinanzeigen, usw.)
Seite 4
go!digital
Vorarbeiten
• Oktober 2013: Gastvortrag von N. Bubenhofer in Innsbruck
Daten schürfen am Textberg. Linguistische Analysen zum
Sprechen übers Bergsteigen.
• Workshop zum Wissenstransfer
• Übergabe des Text&Berg Korpus und XML Daten zu
Testzwecken
• ZAV – in TIF, PDF und FineReader Format auf ALO
• Rudimentäre Metadatenauszeichnung
• Neuscan mit FineReader 11
• Pilotprojekt mit zwei Testbänden 1885, 1985
Seite 5
go!digital
Projektstart
15. Oktober
Inst. f. Sprachen und Literaturen, Abt.
Sprachwissenschaft:
Mag. Daniela Feistmantl, Mag. Irina Windhaber
Abt. Digitalisierung & Elektronische Archivierung (DEA),
Inst. f. Germanistik, Uni IBK
Dipl.-Ing. Sebastian Colutto
Seite 6
FEP Functional Extension Parser
Digitalisierung & Elektronische Archivierung (DEA)
Seite 7
Seite 8
Seite 9
Seite 10
Seite 11
go!digital
Projekt Ziel 1: Datenexport
•
•
•
•
Datenstruktur + Metadaten
Datenexport in unterschiedliche Formate
TEI-Konform mit den CLARIN-standards
Für Integration in die corpus_shell (ICLTT)
Seite 12
go!digital
Projektziel 2: linguistische Annotation
•
•
•
•
Tokenisierung
SBD
Annotierung
NER
• Trainierter TreeTagger und Lexikon von
Text&Berg verwendbar
Seite 13
Projektziel 3: NER und Publikation des Korpus
• Verbesserung der NER mittels vorhandener
Namendatenbanken
• Integration in Ontologien (CIDOC)
• IMS Open Corpus Workbench (CWB): CQP-web
• corpus_shell (ICLTT)
Seite 14
go!digital
Weitere Möglichkeiten
• Weitere Textverbesserungen durch
Crowdsourcing Deutsches Textarchiv, SACKOKOS)
• OeAV garantiert auch die Verwendung
weiterer Daten/OeAV Archivalien
Seite 15
go!digital
Weitere Ziele
Kritische Diskursanalyse:
Topoi, Intensivierer,
Personalpronomina Intensivierer,
Geokollokationen
Onomastik:
Bergnamenforschung,
Mikrotoponymie
Seite 16