当前位置:首页 > 专题范文 > 公文范文 >

HNC基本句类表示式汉英机器翻译中应用研究(完整)

时间:2022-10-18 18:05:09 来源:网友投稿

下面是小编为大家整理的HNC基本句类表示式汉英机器翻译中应用研究(完整),供大家参考。

HNC基本句类表示式汉英机器翻译中应用研究(完整)

 

 HNC 基本句类表示式在汉英机器翻译中的应用研究

 神经机器翻译是一种将源语言信号通过计算机自动翻译成目标语言信号的过程。最早由 Sutskever 等人于 2014 年提出,该论文采用长短期记忆(Long Short-Term Memory)神经网络 [2] 训练机器翻译模型,并采用门开关的方式解决了神经网络训练时的梯度消失和梯度爆炸问题。目前主流的神经机器翻译有基于循环神经网络 [3] 、卷积神经网络 [4] 和 Transformer 等多种方式。Transformer 由 Vaswain 等人 [5] 在 2017 年提出,由于该模型引入的注意力机制(Attention)能够捕捉到待译文本的全局信息进而提升了机器翻译的效果,使得该模型成为了最受欢迎的机器翻译模型。但是 Transformer 模型在处理文本时存在一些弊端,例如缺乏语言学知识的融入,对待译句子的注意力采取平均分配的原则,因此其翻译质量的提升依然是有限的。针对以上问题,本文提出了一种对 HNC 基本句类中的语义块表示式进行边界识别的方法,在构建汉英机器翻译模型时融入句类知识提高翻译质量。首先,对符合 HNC 理论的七大句类的句子进行分词和词性标注,根据词性标注的结果进行句类分析,然后再由句类表示式对整个句子的语义块表示式进行边界识别。最后将每个边界划分后的对象单独计算注意力和词向量计算的注意力进行相加,输入到 Transformer 模型中进行训练。

 1 HNC 相关理论介绍 1.1HNC 句类知识 汉语是世界上最复杂的语言之一,因此许多语法关系理论,例如费尔莫尔 [6] 提出的、经典的用于分析英语的格语法无法完全适应汉语复杂的语言现象,而 HNC 理论通过以概念联想脉络为主线,建立大脑模拟感知自然语言表述模式的方法更好的去理解和表达了汉语自然语言中的现象。HNC 语言理解技术主要从概念、句类、语境单元和语境框架 4 个层级进行,概念层和句类分析层级是 HNC 理解技术的基础 [7] 。

 HNC 理论建立了能够表述语句语义的表示式,即 57 组基本表示式,分别是作用、过程、转移、效应、关系、状态和判断七大句类及其所有的子句表示式。事实证明,无限的自然语言现象可以利用有限 HNC 的句类表示式来表达,同时基本句类又是混合和复合句类构成的基础,因此解决基本句的翻译问题是解决其它句类翻译不可绕过的前提。

 1.2 语义块 语义块是句子下一级语义的构成单位,是句子语义构成的直接成分,而不是间接成分。语义块可以用来写出句类的表示式,是短语和词概念所无法替代的。从构成上来讲语义块比较灵活,可以是一个词也可以是一个短语,既可以分离成两个不相邻的成分,也可以融合在一起。根据对句子基本语义信息重要程度的不同,语义块可以分为主语义块和辅语义块。主语义块又可以分为对象语义块(B)、作用这语义块(A)、特征语义块(E)和内容语义块(C)4 种基元类型,其中 B、A、C 统称为广义对象语义块。

 句子的句类一般可以由 E 块来进行确定,因此 E 块在解决基本句类翻译问题上起着至关重要的作用。E 块在概念上不仅仅等于一个术语动词,而是一个结构体:由核心部分 Ek 和上装(QE),下装(HE)组成。

 E=上装+Ek+下装 上装、下装是特征语义块的说明部分。上装的语义类有五种:分别是基本判断逻辑修饰、时态修饰、语言逻辑修饰、属性修饰和动词前加成分 qv [8] 。

 下装分为两类,一是动词后的属性修饰成分;二是对 E 块基本特性的说明:

 对于 E 块和 Ek 而言,都有分离现象。正是这种分离现象为我们处理汉语句子翻译时提供了很好的语义块表示式边界识别的功能,为机器学习表示式的位置信息提供了便利。

 2 基本句类表示式边界识别 2.1 边界识别流程 HNC 理论共有七大句类和 57 种基本句类。这 57 种句类中的大部分句类可以通过 E 块就确定和划分对应的句类。因此我们首先要做的是识别句子中所含的 E 块,然后是具体句类的划分,最后由句类表示式对整个句子的语义块表示式进行边界识别。例如:

 基本作用句:XJ=A+X+B

 张三|打断了|李四的胳膊 我们首先找到该句中的 E 块为“打断了”,然后通过语义网络概念节点表 [8] 确定其属于基本作用句。最后根据 E 块的边界和基本作用句句类表示式,很容易得出张三就是作用者 A,李四的胳膊就是对象 B。

 其余稍微复杂的句类,例如:

 一般转移句:T0J=TA+T0+TB+TC

 张三|提供给了|李四|一份材料 我们首先对 E 块进行识别,然后依据 E 块确定该句的句类为一般转移句,由句类的表示式确定 E 块后面应有接收者 TB 和接收内容 TC,因此句子中的“李四”为接收者 TB,“一份材料”为接收内容 TC。因此确定了语义块表示式的边界识别结果。如果一个 E 块对应两个以上的句类表示式,应先假设其中一种,

 然后按照表示式尝试对应句子中具体内容,对应失败则排除该句类,尝试下一个,确定最终的句类表示式。为了能让机器自动识别基本句类的边界,为后续的机器翻译提供可靠信息,具体的识别流程如图 1 所示:

  图 1

 HNC 基本句类表示式边界识别流程图 2.2 边界识别方法 虽然 E 块不等于动词,且含义远远比动词要丰富,但是因为基本句类只含有一个 E 块,因此我们在基本句类的处理中可以依靠分词和动词的词性识别来区分 E 块,这样更简单快捷,然后再通过 HNC 理论的语义网络概念节点表进行最终的分析和确认。以上述基本作用句为例,我们采用国内主流的 Jieba 分词对“张三打断了李四的胳膊”进行分词和词性标注,采用精确模式,得到以下标注结果:

 张三 nr 打断 v 了 ul 李四 nr 的 uj 胳膊 n 其中 nr 为人名,v 为动词,ul 为时态助词,uj 为结构助词的,n 为名词。

 经过人工制定的规则确定,该句中的 E 块是动词“打断”和时态助词“了”,从 HNC 理论的语义网络概念节点表中可查的“打断了”为一般作用句。由基本作用句的句类表示式可知,张三为作用者 A,李四的胳膊为对象 B。此时再判断 A 和 B 符合一般作用句假设,因此基本句类边界确认为:张三|打断了|李四的胳膊。当一句话中 E 块上装分离时,例如“政府必须对物价进行调控”:

 政府 n 必须 d 对 p 物价 n 进行 v 调控 vn 这里的“必须”就是“调控”的上装。由上装的语义类可知,该上装属于基本判断逻辑修饰。此时的基本句类边界识别为:

 政府|必须|对物价|进行调控| 我们把句子按照以上边界分割成了四块。

 3 融合边界识别结果的神经机器翻译模型 3.1Transformer 模型 由谷歌提出的基于自注意力的 Transformer 模型一经问世就在机器翻译领域中取得了重大的成功。该模型采取了一种新的自注意力机制完成对序列信号的特征提取,计算公式如下:

 

推荐访问:机器翻译 汉英 完整

相关推荐