中文NLP领域的里程碑!百度正式发布NLP预训练模型ERNIE

NLP(自然语言处理)被誉为人工智能“皇冠上的明珠”,其发展备受学术界和产业界关注,而今 NLP 领域再次迎来突破!

2019年3月,百度提出知识增强的语义表示模型 ERNIE(Enhanced Representation through kNowledge IntEgration),并发布了基于 PaddlePaddle 的开源代码与模型。

ERNIE 模型在中文 NLP 任务上表现非凡,在多个公开的中文数据集上进行了效果验证,包括语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理各类任务上,均超越了语义表示模型 BERT 的效果。

近年来,基于海量无监督文本的深度神经网络预训练模型大幅提升了各个 NLP 基准任务的效果。早期的工作聚焦于上下文无关的词向量建模,而之后提出的 Cove、ELMo、GPT 等模型,构建了语句级的语义表示迁移模型。去年10月提出的 BERT 模型,测试效果表现尤佳。

但不难发现,无论是稍早提出的 Cove、Elmo、GPT, 还是能力更强的 BERT 模型,其建模对象主要聚焦在原始语言信号上,较少利用语义知识单元建模。这个问题在中文方面尤为明显,例如,BERT 在处理中文语言时,通过预测汉字进行建模,模型很难学出更大语义单元的完整语义表示。

设想如果能够让模型学习到海量文本中蕴含的潜在知识,势必会进一步提升各个 NLP 任务效果。因此百度提出了基于知识增强的 ERNIE 模型。

ERNIE 模型通过建模海量数据中的实体概念等先验语义知识,学习真实世界的语义关系。具体来说,ERNIE 模型通过对词、实体等语义单元的掩码,使得模型学习完整概念的语义表示。相较于 BERT 学习原始语言信号,ERNIE 直接对先验语义知识单元进行建模,增强了模型语义表示能力。

举个例子:

Learned by BERT:哈 [mask] 滨是 [mask] 龙江的省会,[mask] 际冰 [mask] 文化名城。

Learned by ERNIE:[mask] [mask] [mask] 是黑龙江的省会,国际 [mask] [mask] 文化名城。

在 BERT 模型中,通过“哈”与“滨”的局部共现,即可判断出“尔”字,模型没有学习“哈尔滨”本身的任何知识。而 ERNIE 通过学习词与实体的表达,使模型能够建模出“哈尔滨”与“黑龙江”的关系,学到“哈尔滨”是“黑龙江”的省会以及“哈尔滨”是个冰雪城市。

ERNIE 模型本身保持基于字特征输入建模,使得模型在应用时不需要依赖其他信息,具备更强的通用性和可扩展性。相对词特征输入模型,字特征可建模字的组合语义,例如建模红色、绿色、蓝色等表示颜色的词语时,通过相同字的语义组合学到词之间的语义关系。

为验证 ERNIE 的知识学习能力,研究者利用几道有趣的填空题对模型进行了考察。实验将段落中的实体知识去掉,让模型推理其答案。

可以看到 ERNIE 在基于上下文知识推理能力上表现的更加出色。

ERNIE 模型在多个公开中文数据集上进行了效果验证,与 BERT 模型相比,在自然语言推断 XNLI 任务测试集准确率提升 1.2PP,语义相似度 LCQMC 任务测试集准确率提升 0.4PP,命名实体识别 MSRA-NER 任务测试集 F1 提升 1.2PP,情感分析 ChnSentiCorp 任务测试集准确率提升 1.1PP,问答匹配 NLPCC-DBQA 任务测试集 MRR 提升 0.5PP。详细实验数据见 ERNIE 开源项目(点击“阅读原文”即可查看):

https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE

随着大数据和基于神经网络的深度学习的发展,NLP 发展进入到新阶段,成为巨头们抢滩的重要战场。百度在自然语言处理领域有着深厚积累,以“理解语言,拥有智能,改变世界”为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户。

未来,百度将以不断精进的 NLP 技术让机器更好地理解真实世界,在认知能力层面取得更大突破,让复杂的世界更简单!

也许你还喜欢

俄乌法建设新高科技生产园区,用于多

导读:据aviaport.ru网站6月22日报道,俄罗斯乌法工业联合体(俄罗斯联合发动机公司下属企业

中国唯一一位图灵奖获得者,是怎么看

今天 AI 的突破应用,其实是基础科学结下的果。 作者:Decode 邮箱:oudi@pingwest.com 202

全聚合物电池将成本降低90%,生产过

更重要的是这种电池在破损时不会有起火风险,公司已经敲定了第一个客户 撰文 / 马晓蕾

依图科技创始人朱珑:AI芯片算力万倍

钛媒体快讯 | 7月10日消息:在2020世界人工智能大会(WAIC)行业趋势主题论坛上,上海依图网络

何积丰院士:智能制造仍面临AI无法解

人工智能的发展给教育、医疗、零售、制造业等领域带来改变,但同时也伴生了网络安全的问

西门子:正寻求为中国电动车提供充电

上海世界人工智能大会期间,西门子中国执行副总裁、西门子大中华区智能基础设施集团总经

空客放弃内部生产发动机短舱,遭遇法

导读:路透社6月23日报道,欧洲飞机制造商空客公司计划撤销在内部生产空客A320neo客机短舱

千亿欧元投资级别的绿氢战略,能让欧

Forbes/GETTY IMAGE 图 欧盟7月8日通过一份雄心勃勃的战略规划将氢能投资确立为疫情后

“直播带货”须诚信丨滹沱夜话

滹沱夜话 “直播带货”须诚信 □ 簇 实 近日,我市出台了新媒体电商直播示范城市行动方

B站回应快舟十一号首飞失利 发射计

2020-07-10 15:22:55 作者:吴晓宇 中关村在线消息:北京时间7月10日消息,今天中午12时17