戏剧译本的平行语料库制作

Download Report

Transcript 戏剧译本的平行语料库制作

戏剧译本的平行语料库制作
孟 留 军
淮 北 师 范 大 学
2011-8-4
选用剧本:
剧本Long Day’s Journey Into
Night Eugene O’Neil
译文:
人民出版社和三联书店出版的
译文

1 清洁文本

把空格、空行、怪异的字符都去掉。
2 用Editpad pro 来检查文本文件的代码属性
表面上看还是TXT文件,但其
代码已经变了。注意保存。
3 TMT tools把TXT文件转成TMX文件。(自动对齐)
所用软件:text2tmx
Text to TMX的选项设置





底部:
在Text to TMX 选项卡上。
顶部:
source text file: ZH-Chinese→→ ENEnglish; 戏剧原文是英文。
Target Text File: EN-English→→ ZHChinese;译文是中文的两个版本。



设置好后,分别打开各自源文件和译文文件,
单击go,一次对齐生成一个文件,共生成两
个文件。
注意:text2tmx.exe文件需要和生成的*.tmx
文件需要在同一目录下。而且其所在路径中
或子目录名中不能出现中文。否则生成文件
中出现的中文可能是乱码。
可用editpad pro软件,打开对齐文件,看其
是否正确。一般来说,对于戏剧文件本来讲,
对齐的正确度不高,需要人工调整。
4 机助人工校准



CTexT® Alignment Interface 2.0
D:\workshop\Tools\autoalignerliangmaocheng
有时会看到该两行的内容,却出现在了一行
上。需用到分割字段,光标停在断开处→右
键→split→弹出对话框→OK。







连线:分别不间断地单击两个序号,该两序
号就可连线。
断线:连线后,再分别不间断地单击两个序
号,该两序号就可断线。
Save alignments: 会存成四文个文件。分别
指出已完成和未完成、源语和目标语的情况。
ALIGN.renmin_source
ALIGN.renmin_target
NOTALIGN.renmin_source
NOTALIGN.renmin_target
5 对于多译本,要做修改,一
个译本时则不需要了。





用editpadpro 打开一个译本文件e-c sanlian1.tmx,为了显示三列,即一列英文,两列中
文,需要做下面改动。
<tuv xml:lang=“ZH”> “ZH”替换成”CN”。
Replace all按钮;此操作要在文件合并前做。
目的:
以免用软件打开合并文件时,出现两个译文
重合,只显示一个译文的情况。
6 Text merger:






D:\workshop\4-txt2tmx
text2tmx.exe(与
上文转换和自动对齐的软件相同)
需要装Java。
D:\workshop\Tools\06运行环境
Java_jdk1_5_0_08-windows-i586-p.exe
底部:TMX merger选项卡:
Choose TMX Files ,同时选定两个*.tmx文件。
合并后,文件类型没变,还是*.tmx文件。
第6步时可能的出错


有时可能出现TMX merger missing,其原因
是在D:\workshop\4-txt2tmx 目录下,除了
text2tmx.exe外,少了一个文件:
TMXMerger-1.0,即屏幕显示的TMXmerger
missing. 要把原来目录下的TMXMerger-1.0
文件也拷到text2tmx.exe的同一目录下。即
可运行。
7 Olifant –paraconc 使用该软件打开
合并后的文件,进行显示
8 进行检索
可以把’XYZ’换成所需的内容,
如’Well’。注意是区分大小写。

谢
谢