1200字范文 > 「自然语言处理(NLP)论文推送」（中文诗歌生成）上下文增强Transformer【ACL 微

「自然语言处理(NLP)论文推送」（中文诗歌生成）上下文增强Transformer【ACL 微

时间：2023-05-12 17:28:36

来源：AINLPer微信公众号
编辑: ShuYini
校稿: ShuYini
时间: -8-24

引言

本次给大家分享的是今年腾讯微信AI团队入选ACL的两篇文章，第一篇文章主要是针对中文诗歌生成的问题，介绍中文现代诗歌生产的修饰控制编码器，该编码器具有隐喻、拟人化等修辞功能。第二篇文章主要是针对递归神经网络RNNs在全局信息建模上的不足，提出了一种全局上下文增强的深度转换架构（美其名曰：GCDT）。其在NER、Chunking上都得到了比较好的结果。

PS：欢迎关注AINLPer微信公众号，论文解读会每日更新，等你来看。

First Blood

TILE:Rhetorically Controlled Encoder-Decoder for Modern Chinese Poetry Generation

Contributor :WeChat AI（微信AI团队）

Paper:/anthology/P19-1192

Code:None

文章摘要

为了将修辞学应用到中文汉语诗歌的生成上，本文提出了一种用于现代汉语诗歌生成的修辞控制编码器。我们的模型依赖于一个连续的潜在变量修辞控制器在编码器中捕获各种修辞模式，然后结合基于修辞的混合物，生成现代汉语诗歌。在隐喻、人格化、自动化的评估方面，我们的模型相比于最先进的基线具有很大的优势，并且人工评估显示，我们的模型生成的诗歌在流畅性、连贯性、意义和修辞美学方面都优于基本方法。

本文三大看点

1、提出的第一个同时使用隐喻和拟人产生现代中国诗歌的作品，并且在提高诗歌美学方面具有很强的优势。

2、提出了一种新颖的隐喻和拟人生成模型。

3、大量的实验表明，我们的模型在自动评估和人工评估方面都优于目前的水平

修辞模型介绍

在介绍模型之前，我们首先形式化生成任务。输入是K个用户提供的关键字{wk}k=1K\{w_k\}^{K}_{ k =1}{wk}k=1K来指定的诗歌主题。期望输出是由n行{Li}i=1n\{L_i\}^{n}_{ i=1}{Li}i=1n组成的一首诗。因为我们采用sequence-to-sequence框架和生成一个逐行诗,这个任务可以扮演一个文本生成,需要重复一行一行的输出，行与行之间具有连贯性且与主题相关，即要考虑到之前i−1i−1i−1行L1:−1L_{1:−1}L1:−1 和主题关键词w1:Kw_{1: K}w1:K。为了控制修辞模式，修辞标签r可以作为用户的输入，也可以作为基于上下文的自动预测值。因此，诗歌行生成的任务可以形式化如下：如上所述，将修辞模型融入到诗句中，需要控制修模型的使用方式以及记忆语境主题信息。为此，我们首先提出了两种条件可变的自编码模型来有效地控制什么时候生成修辞格句子，以及使用哪种修辞格模式。第一个模型是手动控制CVAE模型(MCCVAE)。它接收用户的输入信号作为修辞来生成诗歌中的当前句子，用于用户可控制的诗歌生成任务。第二种模型是自动控制CVAE (ACCVAE)，它自动预测什么时候使用合适的修辞形式，并根据上下文信息生成当前的句子。整体的模型架构如下图所示：针对上图，作者对手动控制CVAE模型(MCCVAE)、自动控制模型CVAE (ACCVAE)、主题记忆组件、修辞控制编码器做了详细的公式推导和介绍，有兴趣的小伙伴可以下载论文看一下。

主要实验结果

机器评估结果对比：人工评估结果对比：

实际生产效果对比：

Double Kill

TILE:GCDT: A Global Context Enhanced Deep Transition Architecture

for Sequence Labeling

Contributor :北京交通大学&&微信AI团队

Paper:/pdf/1906.02437.pdf

Code:None

文章摘要

目前最先进的序列标记系统通常基于递归神经网络(RNNs)家族。然而，RNNs连续隐藏状态之间的浅连接和全局信息建模的不足限制了这些模型的潜在性能。在本文中，我们试图解决这些问题，并因此提出了一个全局上下文增强的深度转换架构，用于序列标记GCDT。我们在句中的每个位置加深状态转换路径，并进一步使用从整个句中学习到的全局表示来分配每个标记。在两个标准序列标记任务上的实验表明，在只给出训练数据和单词嵌入(Glove)的情况下，我们的GCDT在CoNLL03 NER任务上取得了91.96 F1的成绩，在CoNLL2000分块任务上取得了95.43 F1的成绩，在相同的设置下，GCDT的表现优于最佳报告结果。此外，通过利用BERT作为一个额外的资源，我们得到了最好的结果，在NER上的结果是93.47 F1以及在Chunking上的结果为97.30 F1。

本篇文章三大看点

1、首先介绍了用于序列标记的深度转换体系结构，并在句子级别使用全局上下文表示(GCDT)进一步增强了它。

2、在NER和Chunking这两个主要任务上，GCDT的性能显著优于以前的系统。此外，通过利用BERT作为额外资源来增强GCDT，我们报告了这两个任务的最新进展。

3、对GCDT中的全局上下文表示、模型复杂性和各种组件的影响进行了详细的研究。

GCDT模型介绍

整体的GCDT结构图如下图所示：

Token Represention

给定一个句子X=x1,x2，…，XNX = {x1,x2，…，XN}X=x1,x2，…，XN使用N个token，我们的模型首先通过连接三个主要嵌入来捕获每个token表示xtx_txt 1、其中字符级嵌入ctc_tct是由卷积神经网络实现的

2、从Glove2初始化的查找表中得到预先训练的词嵌入wtw_twt

3、全局上下文嵌入g是从双向DT中提取。

全局嵌入g是通过全局上下文编码器的所有隐藏状态{h1g,h2g，⋅⋅⋅，hNg}\{h^{g}_1,h^{g}_2，···，h^{g}_N \}{h1g,h2g，⋅⋅⋅，hNg}上的平均池计算得到的(图1中右侧部分)。为简便起见，我们可以将“DT”作为增强门控递归单元(GRU Chung et al.， )，关于DT的更多细节将在下一节中描述。因此g的计算如下:

序列标签编码器

然后，将连接的token嵌入xtx_txt输入序列标记编码器中。

序列标签解码器

考虑到这句话中的第t个单词，将序列标记编码器hth_tht的输出以及过去嵌入yt−1y_{t - 1}yt−1的标签的输出输入解码器，然后将解码器sts_tst的输出转换为ltl_tlt，在标签词汇表上进行最终的softmax。在形式上，将单词xtx_txt的标号预测为概率方程。从上面的过程和结构图可以看出，GCDT首先沿着顺序轴用DT编码全局上下文，用于丰富token表示。在每个时间步，我们使用序列标记解码器联合编码过去的标签信息，而不是求助于CRF。此外，我们使用波束搜索算法来推断测试时标签的最可能序列。