机器翻译的悖论
[ 2011年4月7日 ]
Tags: 机器翻译 翻译悖论
机器翻译研究是“字本位与中文信息处理”和“字本位与中文信息处理的基础”的通俗叫法,是 自然语言处理 (Natural Language Processing) 的一个分支,与计算语言学(Computational Linguistics ) 自 然 语 言 理 解 ( Natural , Language Understanding) 之间存在着密不可 分的关系. 步入 21 世纪以来,随着国际互联网 (Internet) 的迅猛发展和世界经济一体化的 加速,网络信息急剧膨胀,国际交流日益频 繁, 如何克服语言障碍已经成为国际社会共 同面对的问题. 由于人工翻译的方式远远不 能满足需求, 利用机器翻译技术协助人们快 速获取信息,已经成为必然的趋势. 这两个层面的研究都证明试图借鉴国外计算语言学和人工智能所采用的“基于‘英文信息处理’的直接形式化”方法的词本位与中文信息处理和知识工程(如:机器翻译)遭遇了这样一个悖论,即:
一方面,(因为翻译工作量源源不断靠人是难以胜任的)自动翻译必须在中文信息处理及其知识表达和英文信息处理及其知识表达同时过关之后才能实现。事实上两者本身目前均未过关。何况“基于‘英文信息处理’的直接形式化”方法,对中文信息处理而言,实质上是“间接而又间接的形式化”。国际商业机器公司 (IBM) 的研究人员提出的. 统计机器翻译的基本思想是:从理论上说, 这种模型只考虑了词与词之间的线性关系, 没有考虑句子的结构. 这在两种语言的语序 如果在考虑 相差较大时效果可能不会太好. 语言模型和翻译模型时将句法结构或语义 结构考虑进来,应该会得到更好的结果. 统计方法的兴起缘于上世纪九十年代 以来互联网的广泛应用, 整个社会的信息呈 现爆炸趋势,机器翻译的需求凸显.
另一方面,中文信息处理及其知识表达如果要采用国外英文信息处理和知识工程的直接形式化方法,就势必先要把中文翻译成英文或基于英语的计算机编程语言以及相应的谓词逻辑符号;计算机语言无法完全描述实际语言组合中 无限丰富的规则. 而作为经验主义范畴, 后面两者属于基 于语料库的方法,其典型缺点是数据稀疏. 也就是说,由于语言的无限性,任何高性能 的计算机都无法统计出所有短语的使用情况,总是会存在疏漏. 随着这些方法的各自缺陷逐步为人们 所认知,自上世纪 90 年代以来,机器翻译 系统的实现越来越多地集成了不同的方法 和策略,基于单一方法的产品越来越少.其中最具有代表性的无疑是尼伦伯格提出的 多引擎机器翻译系统,即系统中集成多种机器翻译的实现方法, 每种方法构成的翻译模块作为一个引擎,多个引擎协同配合,共同 完成翻译工作. 我们判断:在今后的机器翻译研究中, 多种方法互相借鉴, 互相融合的趋势会越来 越明显. 基于规则的方法与基于语料库的方 法相结合,机器翻译与翻译记忆相结合,很 可能是今后研究发展的主流方向.
机器翻译的开发瓶颈可归结为以下 几个方面: 1.汉语言中存在一些不利于机器翻译 的特点 将表达灵活多变的汉语通过机器自动 翻译的方式转化为语法逻辑严谨的英语, 在词法、句法和语义三个层面上都存在诸多不 利因素. 词法层面上,汉语中存在很多兼类词, 离合词,组合词和多义词,要实现它们的正 确翻译,仅仅根据词性,词义执行词的转换 是远远不够的,还需要从语义方面加以理 解,大大增加了系统的开发难度。
文章由翻译公司 上海翻译公司人员编辑
一方面,(因为翻译工作量源源不断靠人是难以胜任的)自动翻译必须在中文信息处理及其知识表达和英文信息处理及其知识表达同时过关之后才能实现。事实上两者本身目前均未过关。何况“基于‘英文信息处理’的直接形式化”方法,对中文信息处理而言,实质上是“间接而又间接的形式化”。国际商业机器公司 (IBM) 的研究人员提出的. 统计机器翻译的基本思想是:从理论上说, 这种模型只考虑了词与词之间的线性关系, 没有考虑句子的结构. 这在两种语言的语序 如果在考虑 相差较大时效果可能不会太好. 语言模型和翻译模型时将句法结构或语义 结构考虑进来,应该会得到更好的结果. 统计方法的兴起缘于上世纪九十年代 以来互联网的广泛应用, 整个社会的信息呈 现爆炸趋势,机器翻译的需求凸显.
另一方面,中文信息处理及其知识表达如果要采用国外英文信息处理和知识工程的直接形式化方法,就势必先要把中文翻译成英文或基于英语的计算机编程语言以及相应的谓词逻辑符号;计算机语言无法完全描述实际语言组合中 无限丰富的规则. 而作为经验主义范畴, 后面两者属于基 于语料库的方法,其典型缺点是数据稀疏. 也就是说,由于语言的无限性,任何高性能 的计算机都无法统计出所有短语的使用情况,总是会存在疏漏. 随着这些方法的各自缺陷逐步为人们 所认知,自上世纪 90 年代以来,机器翻译 系统的实现越来越多地集成了不同的方法 和策略,基于单一方法的产品越来越少.其中最具有代表性的无疑是尼伦伯格提出的 多引擎机器翻译系统,即系统中集成多种机器翻译的实现方法, 每种方法构成的翻译模块作为一个引擎,多个引擎协同配合,共同 完成翻译工作. 我们判断:在今后的机器翻译研究中, 多种方法互相借鉴, 互相融合的趋势会越来 越明显. 基于规则的方法与基于语料库的方 法相结合,机器翻译与翻译记忆相结合,很 可能是今后研究发展的主流方向.
机器翻译的开发瓶颈可归结为以下 几个方面: 1.汉语言中存在一些不利于机器翻译 的特点 将表达灵活多变的汉语通过机器自动 翻译的方式转化为语法逻辑严谨的英语, 在词法、句法和语义三个层面上都存在诸多不 利因素. 词法层面上,汉语中存在很多兼类词, 离合词,组合词和多义词,要实现它们的正 确翻译,仅仅根据词性,词义执行词的转换 是远远不够的,还需要从语义方面加以理 解,大大增加了系统的开发难度。
文章由翻译公司 上海翻译公司人员编辑
相关文章:
发布:xiuzhu1023 | 分类:翻译热点新闻 | 评论:0 | 引用:0 | 浏览: