會議簡報 - 文獻處理實驗室

Download Report

Transcript 會議簡報 - 文獻處理實驗室

Slide 1

成立缺字工作小組討論會
莊德明 2007.03.08
中央研究院資訊科學研究所
Email:[email protected]
URL:http://www.sinica.edu.tw/~cdp


Slide 2

議程
參考資料簡介
討論事項
臨時動議

2


Slide 3

參考資料
附件一:缺字問題臨時提案─漢籍全文主題小
組於2006年10月提出
附件二:缺字問題處理方案─資訊所文獻處理
實驗室提出
附件三:數位典藏1、2月份工作小組合併會議
記錄提案五(第五、六頁)
附件四:本會議召開前的相關討論
附件五:金文工作室缺字問題報告
附件六:缺字處理討論會議記錄

3


Slide 4

缺字問題臨時提案─問題
資訊所漢字構形資料庫BIG5碼轉Unicode碼之
轉檔速度過慢,影響各單位缺字更新。
缺乏共同造字平台,各單位自行向資訊所回報
新增缺字,無法與其他單位分享互換已新增之
缺字,形成重複作業之資源浪費。
國內尚無統一的缺字處理規範,各單位缺字編
碼亦不同,使得標準分立,資料無法交流互通。

4


Slide 5

缺字問題臨時提案─建議
增加人力與經費,協助資訊所莊德明先生加速
漢字構形資料庫轉檔速率。
新增國內單一且權威之缺字處理單位:
訂定缺字處理規範
建立缺字之造字、查詢共同平台,整合國內缺字作
業。
開辦缺字相關工作坊或研習,以供各單位進修學習。
推廣國際通用之缺字處理標準,例如TEI,以便國
際資料交換。
建議由莊德明先生負責

5


Slide 6

缺字問題臨時提案─建議(續)
與現有的漢文電腦缺字處理國際單位合
作,或是籌劃成立一個國際組織,邀請
歐美、日本、韓國及大陸等地專家學者
共同討論缺字問題,並研發缺字處理之
資訊技術,達成國際交流與合作的目標。

6


Slide 7

缺字問題處理方案─目標
擬結合行政院主計處電子處理資料中心,處理
中文電腦的缺字問題。
新增字的申登仍請主計處電子處理資料中心持
續負責,並納入CNS11643中文標準交換碼全
字庫。
中研院資訊所建置的漢字構形資料庫應納入
CNS11643中文標準交換碼全字庫的字。
國際間的漢字交流活動及標準的建立,仍應透
過主計處電子處理資料中心及中央標準局來進
行。
7


Slide 8

缺字問題處理方案─工作項目
協助中研院及數位典藏各子計畫向主計處電子
處理資料中心登記新字。
協助主計處電子處理資料中心建立字形的結構
表達式(構字式)。
善用漢字的知識結構,開發古今漢字的查詢系
統。
建立CNS11643中文標準交換碼及構字式的對
應。
開發可同時處理CNS11643中文標準交換碼及
構字式的應用程式。
8


Slide 9

缺字問題處理方案─人力
程式設計師1人,負責古今漢字查詢系統
的開發及維護。
資料整理人員2人,負責字形分析及協助
數位典藏各子計畫申登新字。
臨時人員數名,合0.5人。
以上人力合計3.5人。

9


Slide 10

數位典藏1、2月份工作小組合
併會議記錄提案五─說明
本計畫第一期執行時為因應缺字問題,曾決定
採用資訊所謝清俊、莊德明兩位先生研發的漢
字構形資料庫及其輸入系統,效果良好。
但於網際流通時,需使用端先行下載該系統,
否則無法順利閱讀。本計畫之目標既在藉由網
際網路創造數位知識內容,則缺字能否順利閱
讀,成為數位典藏流通成敗之關鍵。語言典藏
第二期計畫,除缺字外,更有特殊音標符號問
題,需一併解決。
10


Slide 11

數位典藏1、2月份工作小組合
併會議記錄提案五─說明(續)
目前可能方案有二。一為繼續採用漢字
構形資料庫及輸入系統。但總計畫必須
推廣此一系統,使之成為網際標準。另
一為與目前主流之網際標準(如Unicode)
合作,採行其標準,以方便流通。如採
前一案,其推廣成本,恐將不菲。如採
後一案,則所有缺字均將重新處理,代
價亦昂。如何之處,提請討論。
11


Slide 12

提案五:林富士委員意見
目前我們採用莊德明還有謝清浚先生他們開發
的漢字功能資料庫,這個部分我們可以用構字
呈現,可以把好幾個附部件湊在一起,可是無
法在網路呈現那個字拼起來的字型,一長串的
構字式,還是沒有辦法在網路上看到已經構成
字的那個字,雖然我們在這邊寫說下載該系統
好像就能夠閱讀,但事實上不是,即使下載了
系統,看到的是一大片的構字符號加上那些構
字的部件。
如果想在網路上能快速呈現,這個問題真是當
務之急。希望會議上有個明確的工作進程,否
則在三月結案時結果慘不忍睹。
12


Slide 13

提案五:陳克健委員意見
莊先生有提出解決方案,評估後需要新增加四
個助理,可惜國科會否決,認為數位典藏已有
計畫,所以技術人員的經費沒有下文。目前技
術分項下面有兩個子計畫,處理缺字所屬的子
計畫到現在都還沒有通過,有方案無經費無人
員是目前情況。除了建構,維持字型資料庫需
要長期性計畫,解決燃眉之急短期需要相關各
所每年有兩三人支援更新資料庫。

13


Slide 14

提案五:劉總主持人意見
劉總主持人:助理問題,相關系所可以
提高額度內容,可以簽呈,否則要提到
院長那邊,還要審查。可以去跟莊先生
商量,請會同史語所、語言所,每個所
提一人,都不會超過100萬,可以直接進
行。請莊老師跟陳克健老師討論處理方
式,可能可以先從網路呈現方式解決,
再去解決unicode環境的改善。
14


Slide 15

提案五:決議
請史語所、語言所與資訊所提出申請,
各所經費不超過100萬元,並呈請副院長
辦公室批准支應。

15


Slide 16

召開缺字問題協調會─陳克健老師
短長程缺字問題及解決方案。
成立工作小組。請各所推派一名所代表,
數名工作人員及聯絡人。
協調如何向副院長申請支援經費。
規畫定期工作會議。

16


Slide 17

召開缺字問題協調會─莊德明
先和史語所、語言所討論,確定經費及
人力編制,並開始徵人,以成立工作小
組。
待工作小組成立,再召開全院的缺字會
議;否則會議召開後,仍無人力來處理
問題。

17


Slide 18

成立工作小組─莊德明
若以決議中每年不超過三百萬的經費,
可增聘四個助理或工讀生。
新聘的助理不管編制在哪一所,第一年
都應該在資訊所工作,以成立缺字工作
小組。

18


Slide 19

成立工作小組─莊德明
缺字工作小組第一到第二年的主要工作
全面清查全院的缺字,並將缺字收錄到漢字構形資
料庫,同時做好將這些缺字登錄到CNS 11643國家
標準碼的準備。
發展漢字構形資料庫網路版,同時改進網頁缺字的
處理技術。

缺字工作小組第三到第四年的主要工作
結合行政院主計處電子處理資料中心,整合漢字構
形資料庫及CNS 11643國家標準碼。

缺字工作小組的後續工作
結合行政院主計處電子處理資料中心,共同處理國
內的缺字問題。
19


Slide 20

金文工作室的缺字問題
計算中心協助開發的系統目前無法處理
構字式。
數位典藏技術分項DAAL 小組開發的網
頁缺字處理程式,無法即時處理網頁中
的大量構字式。

20


Slide 21

語言所的缺字問題
簡帛計畫使用自己的造字處理缺字,已
造缺字近三千個,這些缺字如何轉成構
字式?
閩南語計畫的缺字則尚未處理,應如何
處理?

21


Slide 22

討論事項
工作目標
人力編制
任務分配
近程工作目標及要點

22


Slide 23

感謝您的參與