電子資源組織標準: TEI and TEI Header

Download Report

Transcript 電子資源組織標準: TEI and TEI Header

電子資源組織標準:
TEI and TEI Header
課程名稱:資訊組織研究
授課教師:張迺貞教授
097153104 邱亦秀(報告人)
097153114 劉惠珍
097153118 陳瑩
Agenda






What’s TEI
文字資料的類型
TEI Guideline
TEI Header
TEI Lite
TEI的應用
What is TEI?




Text Encoding Initiative
founded in 1987
develop guidelines for encoding machine-readable
texts in the humanities and social sciences
由三個學術團體組成:



電腦與人文協會(the Association for Computers and the
Humanities)
計算語言學協會(the Association for Computational
Linguistics)
文學與語言計算協會(the Association for Literary and
Linguistic Computing)
文字資料的類型

原始資料為電子檔:*.doc、*.txt

由實體資料轉製之電子檔:

古籍、手稿、拓片、佛典

詩歌、散文、劇本、小說

碑文、墓誌銘
TEI Guidelines

版本

TEI: P5 Guidelines

officially released on Nov, 2007

Latest version: 1.2.0 (released on Nov,2008)

a major revision of the Guidelines that offers
many new and improved features
TEI: P5 Guidelines 特色(一)

增加適用的資料類型:如手稿、多媒體
資料、圖片等

改善與簡化部分元素的使用方式:如
<sic>、<corr>只要二擇一使用

改善連結機制,使文本更容易互相連結

最主要的改變在處理語言和字集
TEI: P5 Guidelines 特色(二)

加強XML語言的功能,在TEI文件可使
用其他的XML標籤:如MathML

可以把TEI文件嵌進其他XML文件:例
如METS和MODS的紀錄

建立更容易使用的客製化環境:
ROMA for P5 http://tei.oucs.ox.ac.uk/Roma/
TEI 結構
<tei>
<teiHeader>…</teiHeader>
<text>
<front>… </front>
<body>…</body>
<back>…</back>
</text>
</tei>
TEI Header
TEI文件必備
1.
fileDesc (檔案描述) 包含對文件的完整書目敘述
2.
encodingDesc (編碼描述) 記錄電子文件和其ㄧ個
或多個文件來源之間的關係。
3.
profileDesc (背景描述) 提供文件非書目性方面的
細節描述,特別是所使用的語言及次要語言、在何
種情況下製作、參與人員及其環境背景。
4.
revisionDesc (版本描述) 概述檔案的修訂歷史。
TEI Header: fileDesc
1. <fileDesc>檔案描述 – TEI Header必備

titleStmt (題名與作者描述) 關於作品標題與內容責任歸屬者

editionStmt (版本描述) 與文件相關之版本資訊
extent (檔案大小)文件儲存在某載體時的大小(任何適用的單位)
publicationStmt (出版描述) 文件的出版或發行資訊
seriesStmt (叢集描述) 若出版品隸屬於某叢書,描述於此
notesStmt (附註描述) 收集其他書目描述中所未記載的部份
sourceDesc 提供所製電子文件其來源文件的書目描述





TEI Header: fileDesc
<teiHeader>
<fileDesc>
<titleStmt>… </titleStmt> 題名
<editionStmt>…</editionStmt>
<extent>… </extent>
<publicationStmt>… </publicationStmt> 出版資訊
<seriesStmt>… </seriesStmt>
<notesStmt>… </notesStmt>
<sourceDesc>… </sourceDesc> 來源
</fileDesc>
</teiHeader>
TEI Header: encodingDesc
2. <encodingDesc>編碼描述

projectDesc (計畫描述) 詳述目標或目的,以及其他關於檔案匯集或收
集程序的資訊

samplingDecl (取樣宣告) 說明建立文集或文選時文件取樣的方式
editorialDecl (編輯實行宣告) 編輯原則與細節
tagsDecl (標誌宣告) 提供關於應用在XML文件中的標誌的詳細資訊
refsDecl (參照宣告) 標明本文件與某一個權威參照標準的關係
classDecl (分類宣告) 定義在文件中他處所使用之任何分類碼
appInfo (應用資訊) 編製TEI檔案時的應用記錄





TEI Header: profileDesc
3. <profileDesc>背景描述

creation 關於文件建置的資訊

langUsage (使用語言) 描述文件中使用的語言、次要語言、語
域、方言等

textClass (分類用詞) 匯集以標準分類架構、索引典等來描述文
件性質或主題的資訊

<keywords>通常是用LCSH

<classCode>通常是用排架號或分類號
TEI Header: revisionDesc
4. <revisionDesc>版本描述

revisionDesc (修訂描述) 概述修訂歷史

change 內容變更或修正的狀況
TEI Lite

127 tags
TEI Lite is a DTD that includes a small
subset of the whole TEI system, selected to
include the most commonly used elements.
It was designed to demonstrate the
mechanism for TEI customization and its
usefulness, but it has been widely adopted
as a simple TEI application and is currently
the most widely used subset of the TEI.
符合90% TEI使用社群中90%的需求

http://www.tei-c.org/Guidelines/Customization/Lite/


TEI Lite 版本

Current TEI Lite: P5
http://www.tei-c.org/release/doc/tei-p5exemplars/html/teilite.doc.html

TEI Lite P4 is still supported
文件被譯為多國語言:
中文 (by 中央研究院後設資料工作組) 、法
文、義大利文、日文、俄文、西班牙文
Projects Using the TEI
http://www.tei-c.org/Activities/Projects/

American Memory from the Library of
Congress



Host: Library of Congress
URL:
http://memory.loc.gov/ammem/index.html
Chinese Buddhist Electronic Text
Association – CBETA 中華電子佛典協會

URL: http://www.cbeta.org/
結語

中文資料TEI,標示(markup)文件時:

考慮文化:直書橫書、抬頭、避忌的寫法

考慮文體:對聯、迴文詩
須集合中文的語言學家、文學家、文獻學
家…

重頭做一次!
參考資料






TEI: Text Encoding Initiative
http://www.tei-c.org/index.xml
TEI: Projects Using the TEI
http://www.tei-c.org/Activities/Projects/
TEI: P5 Guidelines
http://www.tei-c.org/Guidelines/P5/
TEI P5: Guidelines for Electronic Text Encoding and
Interchange: 2 The TEI Header
http://www.tei-c.org/release/doc/tei-p5-doc/zh-tw/html/HD.htm
TEI: TEI Lite
http://www.tei-c.org/Guidelines/Customization/Lite/
TEI Lite 中文譯稿
http://metadata.teldap.tw/standard/rarebook/TEI921224/index
_c.htm
參考資料




David Mertz(2003) 。 XML 問題: TEI -- 文本編碼規範。上網日
期:2008年11月30日,檢自:
http://www.ibm.com/developerworks/cn/xml/xmatters/part30/index.html
趙慧勤(2001) 。網絡信息資源組織—TEI頭標。現代圖書情報
技術,84,55-59
杜正民(2002,12月)。簡介Matadata於佛教電子文獻的應用
-以TEI與DC實務作業為主。佛教圖書館館訊,32, 26-40
林翠娟 (2000年1月29日)。《會議報導》:「PNC 2000年數
位典藏與TEI」研討會報導(三):第一場:數位典藏及資訊共
享的遠景(謝清俊教授)(下) 。計算中心通訊,第 17 卷 03
期