WPS在语料双语对齐中的应用——以26年新年贺词为例
导语:想让时政文献双语学习事半功倍?本文以2026年《中国日报》新年贺词为范本,手把手教你从文本下载、格式整理到句级对齐、文本导出的全流程操作,用实用工具破解翻译学习难题,让双语文本处理不再复杂!
2026年来临,《中国日报》如期发布2026年的双语新年贺词,详情见:2026年新年贺词。以上双语文本是段落对齐,考虑将其进行句级对齐,便于后期作为时政文献翻译范本进行学习和深入研究。
经过分析,可以按照文本下载——格式整理——文本对齐——文本导出等四个步骤进行,采用“金山收藏助手”浏览器插件和tmxaligner文本对齐工具。
一、文本下载
这一步可以通过复制粘贴网页中的文本,也可以通过在Edge浏览器中安装一个叫“金山收藏助手”的插件来实现(安装方法可网上搜索)。安装完插件后,可在新年贺词所在页面,点击顶部蓝色剪刀图标,轻松把网页的内容保存在线文档。
图1:采用金山收藏助手下载网页双语文本
采用这种方法可以有效保留网页文本的段落格式、图片等富文本信息,有效避免因复粘贴带来的字符缺失、排版混乱等问题,也能化解网页内容不允许复制的难题。
二、格式整理
下载完双语文本,通过点击智能文档左上角的“下载”,把文档下载到桌面并命名为“新年贺词.docx”。接着,删除其中无用的图片和链接等信息,再通过ctrl+A全选文档,点击“清除格式”(如下图)可以快速删除文档中的冗余格式信息。
图2:在WPS中清除文本格式
对于文本中可能存在的段前空格和空段,可以利用WPS当中的“文字排版”——“删除”——“删除空段”或“空格”来清理,最终确保双语段落对齐文档中无空段、无软回车、段前段后无空格。
图3:在WPS当中清除空段
三、文本对齐
我们把格式整理好的新年贺词文本导入到对齐软件tmxaligner、雪人CAT或者Abby Aligner进行句级对齐,这里我们以tmxaligner为例。tmxaligner是一款支持34种文档格式,46种语言的强大在线对齐工具。此工具支持免费在线对齐,导出需要额外支付费用。
网址:https://www.tmxmall.com/aligner/home
图4:清除上一次的对齐结果
在弹出的“打开最近一次保存的对齐结果”对话框中点击“不用,谢谢”,清除网页缓存,进入到对齐界面。
选择“单语对齐”,点击文件名旁边的文件夹图标,选中放在桌面的双语文档“新年贺词.docx”。
图5:导文双语文本
接下来在弹窗中点击“开始调整”,即可快速实现句级对齐。也可以在文本导入后,点击左上角的“对齐”按钮实现文本对齐。
图6:在tmxaligner中对齐双语文本
对齐成功后,会弹窗提醒“对齐成功”。为了辅助句级对齐,绿色和黄色序号用于区分执行过对齐操作的不同段落,方便使用者在检查环节重点校对句对拆分的准确性。
图7:核对tmxaligner中对齐后的结果
四、文本导出
在核对文本对齐无误后,可以点击左上角“导出”,选择导出格式和文件名,最后点“确定”可将对齐文本导出。
图8:导出双语对齐后的文本
五、结语
对齐技术与工具的研究始终是语料库语言学、计算语言学以及自然语言处理领域的核心课题。双语文本句级对齐作为语料库技术的关键环节,起着承上启下的重要作用,为语料库检索、术语抽取、模型训练、译文对比学习以及翻译策略分析等工作提供了重要支撑。
tmxaligner对齐以源文为导向,分句通常以汉语句号为基准。鉴于中文句子较长且信息密度较高,汉译英时往往采用语序调整和句子拆分的翻译方法,因而会出现中英一对多的情况。
若后续将其应用于翻译记忆库,可进一步对汉语长句进行切分,并修改对应的英文内容,从而有效提高CAT工具中翻译记忆库应用时的匹配率。
更多精彩推文,请见以下链接:
https://www.kdocs.cn/l/ckbnQ4H0SlgU