本篇文章2187字,读完约5分钟

最近,国际ai顶级学术会议ACL 2021 ( Annual Meeting OFTHEASS OCIATIOS Orcomputation Allinguistics )公布了论文录用结果。 新闻网站“伏羲”上有三个研究被收录在这次的acl中。 文案包括自然语言生成、无监督文案显示学习等方向,相关技术已经应用于游戏、文创、智慧文旅等领域。

“三篇论文入选AI顶会ACL,网易伏羲展现NLP硬实力”

acl由国际计算语言学协会主办,是自然语言解决( nlp )和计算语言学行业最高水平的学术会议,中国计算机学会) ccf )列为a级国际学术会议,涵盖语言分解、新闻提取、机器翻译和自动问答等各个行业。 此次acl共收到3350篇论文投稿,其中主会议论文采用率为21.3%。

“三篇论文入选AI顶会ACL,网易伏羲展现NLP硬实力”

( ai高层会议acl 2021发表,新闻网站伏羲被选为三篇论文) ) ) )。

除了三篇收录论文外,新闻网站“伏羲”提交的演示论文“demo paper”也受到评论的关注。 这篇论文首先探讨手游《遇上逆水寒》中使用的大宋傀儡剧的玩法。

傀儡剧起源于汉代,又名偶像剧。 在游戏中,ai就像傀儡,但玩家却是拉丝操纵的木偶师。 根据玩家输入的短语,ai可以自动编写故事,并与玩家一起创作剧本。

据了解,大宋傀儡游戏是中文行业首次采用大规模预训练语言模式的开放域复制游戏,吸纳了新闻网络伏羲的诸多算法创新。 另一方面,新闻网站伏羲通过设定剧情目标、任务奖励等玩法创新方法,一方面避免了游戏中ai编剧的滥用,另一方面在模型压缩、推理加速等多个阶段进行创新,也可以比较有效地降低在线服务的价格。 目前,新闻网站伏羲利用更大规模的预训练语言模式,不断优化这种玩法,给玩家带来更好的体验。

“三篇论文入选AI顶会ACL,网易伏羲展现NLP硬实力”

(紫色对话框是新闻网站的伏羲ai的自动制作)

以下为/ S2// S2/ACL 2021/S2 /新闻网/ S2// S2 /伏羲//S2/:。

1、/ S2// S2 /开放Meva:[/S2// S2/]一个判断开放故事生成指标的基准

/ S2// S2// S2 /开放meva:Abenchmarkforevaluatingopen-Endedstorygenerationmetrics

在自然语言生成( nlg )行业,如何客观准确地评价ai自动生成的拷贝的质量是一个大领域的课题。

目前,判断nlg系统有人工判断和指标自动判断两种方法。 相比之下,人工判断在准确性和比较有效性方面更胜一筹,自动判断指标在价格和效率方面更具特色。 随着nlg的高速发展,现有的判断方法越难以满足领域的痛点,也产生了一系列判断nlg系统质量的新做法。

“三篇论文入选AI顶会ACL,网易伏羲展现NLP硬实力”

由于没有标准化的基准数据集,全面测量指标的能力和不同指标的性能都极其困难。 为此,新闻网伏羲与清华大学黄民烈老师团队合作提出了比较自动判断指标的基准数据集openmeva。 通过openmeva,可以全面判断与开放式故事比较的自动判断指标的性能,包括自动生成指标与人的判断的关联性、对不同模型输出和数据集的泛化能力、故事展开的连贯性能力、对扰动的稳健性等。

“三篇论文入选AI顶会ACL,网易伏羲展现NLP硬实力”

/ S2// S2 /

2、“人工位置新闻的其余部分为/ S2// S2/MLM/S2// S2//预训模型动态词矢量传递”

/ S2// S2// S2 /定位Artefactspropagatethroughmaskedlanguagemodelembeddings /S2/]

拷贝显示学习是指将拷贝字符串显示转换为计算机可以解决的分布式显示的过程。 文案展示了学习是基于深度学习的自然语言解决的基础,良好的文案展示了能够大幅提高算法的效果。

本研究基于maskedlanguagemodel ( Maskedlanguagemodel ),从预训练语言模型中提取各层副本的分布式表示,发现bert和roberta的隐藏状态向量中存在异常神经元

( sst-2和qqp数据集上bert-base各层的平均向量)

为了研究这个问题的根源,新闻网络的伏羲引入了神经元级分解方法。 这种方法表明,引起编码器原始矢量空之间各向异性的主要原因异常值与“位置嵌入”( position embedding )捕获的新闻密切相关。

通过截断这些异常值,可以提高各向量的相似度。 剪切的向量可以更准确地区别词义,而且采用平均池化( mean pooling )可以得到更好的语句嵌入。

/ S2// S2 /

3、/ S2// S2 /语句级和/ S2 /篇/ S2// S2 /级的/ S2// S2/

/ S2// S2// S2// S2 /长期建筑敏感性-级别和发现-级别相干性[/S2/]

(事先培训任务的示意图)

ai自动生成一致的长拷贝本身是一个非常困难的任务。 像故事生成这样开放的副本生成任务更加困难。

关于句子内部的连贯性,现有的大规模语言模型虽然很粗俗,但整体上保持生成副本的连贯性仍然非常困难。 这是因为,从语境上来看,难以捕捉超过token水平共现的高级意义和故事结构。

在本研究中,新闻网伏羲和清华大学黄民烈老师团队合作提出了一个较长的文案生成模型,在解码过程中可以在句子层面和文章层面表达语境。 通过两个预训练任务,模型通过预测句子之间的语义相似性,区分正常和混乱句子的顺序来学习特征。 实验表明,在复制一致性方面,该模型优于现有最先进的基线模型。

“三篇论文入选AI顶会ACL,网易伏羲展现NLP硬实力”

标题:“三篇论文入选AI顶会ACL,网易伏羲展现NLP硬实力”

地址:http://www.bjzghzbx.com.cn/bftt/11327.html