雷锋网(公众号:雷锋网) AI科技评论了解到,北京时间12月10日,预训练模型界的“MVP”百度ERNIE,在自然语言处理领域权威数据集GLUE中荣登榜首,并以9个任务平均得分首次突破90大关刷新该榜单历史,超越微软MT-DNN-SMART、谷歌T5、ALBERT等一众国际顶级预训练模型的表现。

因此,吸引了谷歌、Facebook、微软等国际顶尖公司以及斯坦福大学、卡耐基·梅隆大学等顶尖大学参加。GLUE排行榜的效果,在一定程度上成为了衡量各机构自然语言处理预训练技术水平最重要的指标之一。 

综合来看,ERNIE新模型沿着持续学习语义理解框架,进一步优化了现有的学习任务,并新增了面向任务类型的预训练,最后通过对训练数据、模型参数结构的精细调整,取得了显著的效果提升,在GLUE榜单成功突破90大关!

雷锋网原创文章,。详情见转载须知。

据百度介绍,ERNIE 2.0 持续学习的语义理解框架,能够支持增量引入不同角度的自定义预训练任务,通过多任务学习对模型进行训练更新,每当引入新任务时,该框架可在学习该任务的同时,不遗忘之前学到过的信息。 

动态边界掩码算法,首先通过假设检验从海量数据中筛选高置信度词对,并计算词对间的互信息。以词对的互信息及其统计量为基础,计算样本中词与词之间的紧密度。掩码时以该紧密度作为概率分布进行动态的边界采样。这种动态边界掩码的方式既兼顾了ERNIE 1.0对知识单元进行建模的能力,又提升了片段的多样性。 

这里需要多说一句,相较于谷歌BERT,百度的ERNIE做到了后来居上。如果持续关注,会发现百度在自然语言处理领域有非常深厚的积累,其研究成果也已经辐射至不同领域。从百度近期的一系列产品发布中也可得以一窥,ERNIE预训练技术在百度诸多产品和技术场景的广泛应用,例如百度搜索、小度音箱、信息流推荐等。

通用语言理解评估基准GLUE是自然语言处理领域最权威的排行榜之一,是由纽约大学、华盛顿大学、谷歌DeepMind等机构联合推出,以其涵盖大量不同类型的NLP任务,包括自然语言推断、语义相似度、问答匹配、情感分析等9大任务,成为衡量自然语言处理研究进展的行业标准。 

2019年11月13日,法院受理了尹某的再审申请,尹某主张因该案第8起案件度过了20年“冤狱生活”,并要求检方对是否开始再审提出意见。此后,检察机关从警方手中接过该案件的调查记录等资料,在进行研究的过程中,检方掌握了过去调查中出现严重错误的情况。12月11日,检方表示将开始着手调查该案件。

其中B(Begin)代表了一个片段的起始,I(Inside)代表当前位置应与上文最近出现的B位置组成片段。以图中句子为例,动态边界掩码算法以词对间的紧密度进行边界采样,动态的构造出了待掩码的片段候选。

众AI公司纷纷发力预训练领域,相继发布了XLNet、RoBERTa、ALBERT、T5等预训练模型。在此过程中,百度也先后发布了ERNIE 1.0、ERNIE 2.0,在16个中英数据集上曾取得过当时的SOTA。 

我们期待百度在AI 技术发展上,能够更进一步。

指代消解预训练任务示意图

此次,百度ERNIE登顶,成为首个突破90大关的模型。此外,通过榜单,我们可以看到,ERNIE在CoLA、SST-2、QQP、WNLI等数据集上也达到了SOTA水平。相对BERT的80.5的成绩,ERNIE提升近10个点,效果还是相当显著的。 

从GLUE排行榜上来看,BERT使用预训练加微调的方式,相对过往的基线成绩大幅提升各子任务的效果,首次突破了80大关。XLNet、RoBERTa、T5、MT-DNN-SMART等模型平均分数分布在88-89分范围,作为对比,人类水平是87.1。 

李春宰连环杀人案发生于1986年至1991年间,涉及10起案件。其中第8起案件与其他几起案件稍有不同,被认定为模仿犯罪。韩国警方已于当年破获并抓获凶手尹某。

2018年底以来,以BERT为代表的预训练模型大幅提升了自然语言处理任务的基准效果,取得了显著技术突破,基于大规模数据的预训练技术在自然语言处理领域变得至关重要。 

下图展示了不同掩码算法的差异:

同时,为了对第8起案件现场的体毛进行鉴定,检方还向法院申请了提交文件的命令和委托鉴定。

此外,模型在训练数据和结构上也做了调整。在预训练的数据使用上,模型针对论坛对话数据进一步精细化建模。对话数据相对篇章文本数据具有很强的结构性,相同回复对应的 Query 往往语义比较相似。模型充分利用了对话间语义关系,帮助ERNIE更好地建模语义相关性,在QQP等文本匹配任务上效果提升明显;在模型结构上,相对开源ERNIE 2.0 Large模型使用了更大的参数。 

词汇级信息预训练上,百度研发团队提出了基于互信息的动态边界掩码算法 (Dynamic Boundary Masking),改进了ERNIE 1.0中基于短语和实体等Knowledge Masking的掩码算法,这类算法需依赖短语和实体标注工具,从而导致Mask单元多样性差、语义片段覆盖度低等问题。 

检察机关称,对于伪造国科调鉴定书和对尹某进行残酷行为的经过等,需要进一步查明真相的部分,计划在今后开始再审程序时,采取申请证人等一切可能的方案,查明真相。

指代消解的目标是识别篇章中的代词指向哪个名词短语的问题。模型基于无监督语料构造了指代消解任务,将句子中重复出现的某个名词短语随机替为句子中的其他名词短语,让模型去预测替换后的句子是否和原句相同。该任务会显著提升模型的指代关系预测能力。 

在向法院提交的意见书中,检方表示,以发现了证明尹某无罪的新证据(李春宰供述)、掌握了调查机关工作人员职务犯罪(非法监禁及加害行为)、判决尹某为真凶的决定性证据国立科学调查研究院的鉴定书是伪造的等情况为由,进行再审是合理的。

此前,被锁定为华城连环杀人案件嫌犯的李春宰,承认了包括10起连环杀人案在内的14起杀人案件,以及30多起性犯罪案件,其中更是包括第8起案件。当时因该起案件被判无期徒刑的尹某表示,自己是在警方的强制调查下,做了虚假的陈述。

据雷锋网了解,此次登顶的模型主要基于ERNIE 2.0持续学习语义理解框架下的系列优化。

百度研发团队通过ERNIE持续学习框架进一步优化了通用词汇级知识学习和面向任务类型的预训练,最终在通用语义表示能力上取得了显著提升。 

为了更好提升应用任务效果,模型在通用预训练的基础上,还新增了面向指定任务类型的预训练任务。该模型首次将无监督指代消解作为预训练任务,