百度智珠夺冠:在知识图谱领域百度持续领先

fy6每天发布大量与生活相关的资讯平台

fy6每天发布大量与生活相关的资讯平台

知识图谱作为推动互联网和人工智能发展的核心驱动力,已成为当前人工智能研究的最前沿。在刚刚结束的 CCKS 2019“知识图谱问答”大赛中,百度智珠团队以 F1 Score 0.73545的好成绩夺冠,再次确立了百度在知识图谱领域的领先优势。fy6每天发布大量与生活相关的资讯平台

fy6每天发布大量与生活相关的资讯平台

CCKS 全国知识图谱与语义计算大会是中国中文信息学会语言与知识计算专业委员会主办的专注于知识图谱与语义计算领域的高水平学术盛会。目前 CCKS 每年的参会人数在中国知识图谱与语义计算领域是全国最多的,参赛的单位都是国内相关领域的顶尖学术机构(如清华、北大、中科院等)和领军企业(包括百度、阿里、华为、小米等)。fy6每天发布大量与生活相关的资讯平台

在知识图谱问答项目中,高手如云,包括华为、网易、大连理工大学、苏州大学等全球知名企业和高校研究院所队伍的参与。百度智珠团队凭借多年在知识图谱领域的积累,深入分析图谱问答系统的难点,秉持技术创新,最终以基于答案语义排序的方案斩获第一名。fy6每天发布大量与生活相关的资讯平台

fy6每天发布大量与生活相关的资讯平台

▲图1 百度智珠团队荣获 CCKS 2019 知识图谱问答第一名fy6每天发布大量与生活相关的资讯平台

百度智珠团队,致力于将百度多年积累的知识图谱构建及应用能力赋能企业,协助企业打造面向行业的知识图谱及知识应用。百度智珠将多模态知识理解、知识图谱构建、多模态智能搜索等多种能力整合为统一的企业知识管理智能平台,为企业组织、应用、管理自有知识和第三方知识融合,形成统一、智能、易用的知识管理系统,提供强有力的技术支撑。fy6每天发布大量与生活相关的资讯平台

fy6每天发布大量与生活相关的资讯平台

本次知识图谱问答评测任务全称是基于中文知识图谱的自然语言问答,简称 CKBQA (Chinese Knowledge Base Question Answering)。即输入一句中文问题,问答系统从给定知识库中选择若干实体或属性值作为该问题的答案。fy6每天发布大量与生活相关的资讯平台

知识图谱问答是自然语言处理领域当前最热门的研究方向之一,是互联网知识获取的新入口,也是搜索引擎和对话系统等行业的关键技术,吸引了工业界和学术界大量的关注。fy6每天发布大量与生活相关的资讯平台

fy6每天发布大量与生活相关的资讯平台

本次评测任务在去年的开放领域问答的基础上,增加了适量规模的金融专业领域的问题,这就要求问答系统不仅要具备处理开放领域的浅层问题的能力,还必须具备处理领域知识的深层问题的能力。fy6每天发布大量与生活相关的资讯平台

本次评测主要有两大挑战:fy6每天发布大量与生活相关的资讯平台

首先,本次评测是在开放领域的问答,问题覆盖面广,综合难度更高。从问题的分类看,问题集涉及的领域是多样的,包括金融、文学、电影、游戏、生活甚至常识等多种领域;从知识库的量级来看,测评的知识库包含千万级别实体、亿级别的边、百万级别的实体类型,大大增加了知识语义理解难度;从问题的难度角度看,本次评测既包括简单问题,也包括复杂问题,而且需要多个三元组回答的问题占了50%以上的比例。fy6每天发布大量与生活相关的资讯平台

其次,本次评测增加了金融领域的问题,因此对深层的领域知识理解提了更高要求。与开放领域图谱相比,专业领域知识的广度更窄、实体粒度更细;同时推理的链路更长、应用的复杂性更大。fy6每天发布大量与生活相关的资讯平台

针对以上挑战,百度智珠团队提出端到端的核心实体链接与子图编码的语义匹配算法系统来解决。第一步,基于子串匹配和命名实体识别等方法识别问题中的指称;第二步,对指称召回的实体进行打分,选择出问题的核心实体,即实体链接;第三步,定义多种子图召回模板,召回核心实体大量的子图;第四步,对每个子图抽取字面匹配度、浅层语义匹配、深度语义匹配度等特征,排序得到答案。fy6每天发布大量与生活相关的资讯平台

▲图2 系统框架流程:指称识别 → 实体链接 → 模板匹配 → 路径排序fy6每天发布大量与生活相关的资讯平台

百度智珠团队在实现这一过程中,引入了两个创新方法,分别是:端到端的核心实体链接与子图编码的语义匹配算法。fy6每天发布大量与生活相关的资讯平台

▲图3 模块细节:实体链接和路径排序fy6每天发布大量与生活相关的资讯平台

实体链接组件把问题中提及的实体链接到了知识库,并识别问题的核心实体。为了提高链接的精度,链接组件综合考虑了实体的子图与问题的匹配度、实体的流行度、指称正确度等多种特征,最后利用 LambdaRank 算法对实体进行排序,得到得分最高的实体。fy6每天发布大量与生活相关的资讯平台

子图排序组件目标是从多种角度计算问题与各个子图的匹配度,最后综合多个匹配度的得分,得到出得分最高的答案子图。fy6每天发布大量与生活相关的资讯平台

针对千万级的图谱,百度智珠团队采用了自主研发的策略来进行子图生成时的剪枝,综合考虑了召回率、精确率和时间代价等因素,从而提高子图排序的效率和效果。fy6每天发布大量与生活相关的资讯平台

针对开放领域的子图匹配,采用字面匹配函数计算符号化的语义相似,应用 word2vec 框架计算浅层的语义匹配,最后应用 BERT 算法做深度语义对齐。fy6每天发布大量与生活相关的资讯平台

除此之外,方案还针对具体的特征类型的问题进行一系列的意图判断,进一步提升模型在真实的问答场景中的效果和精度,更好地控制返回的答案类型,更符合真实的问答产品的需要。fy6每天发布大量与生活相关的资讯平台

中文知识图问答任务,是衡量机器理解人类语言综合水平和知识的重要方式。CKBQA 知识图谱评测取得的成绩,将有力推动问答技术和产品的发展。fy6每天发布大量与生活相关的资讯平台

同时,图谱问答技术将落地到下一代搜索引擎和对话系统等行业中,为数亿的用户提供更精准的问答服务。fy6每天发布大量与生活相关的资讯平台

本次大会为知识图谱在专业领域的技术突破带来更开放的思维空间和更广阔的研究视野。未来,百度智珠团队也将继续秉持开放学习、协同创新的理念,积极把握相关学术、产业交流机会,与 AI 各界展开更广泛、更深入的探讨与合作,加快 AI 技术落地,努力为行业带来更高效的智能化解决方案。fy6每天发布大量与生活相关的资讯平台

也许你还喜欢

ups不间断电源原理分析

当前在电源市场上,所销售的电源类型较多,不同类型的电源,相应的功能与作用有所不同。在超

空间背景音乐怎么添加图文教程分享

怎样免费添加QQ空间背景音乐其实步骤也不多,很简单,主要有以下几个步骤,详情如下

万能转换器破解版怎么用?具体操作方

万能格式转换器是一款功能强大的格式转换软件,音频、视频、图片、光驱设备都可以通过万

rmvb转mp4格式转换器图文教程

在我们日常娱乐和日常工作中,现在网络上一些高清的视频一般都是rmvb格式的,而一些播放设

支付宝网络系统异常怎么解决

支付宝支付出现网络系统异常是因为IE浏览器设置Internet选项不恰当而导致的,去重新设置

win10蓝牙驱动破解版安装图文教程

win10蓝牙驱动怎么安装?请看下面具体操作方法。

微孔抛光镜面加工计数详解

一般来说,对于小孔微孔进行抛光,传统的加工方法可能会导致孔洞磨损,或者加工效果不理想。

短视频内容管理助手有哪些?怎么好用

随着短视频的普及,越来越多的人开始将大量的时间和精力投入到短视频的制作和分享中。因

模具设计学习知识分享

今天,我想谈谈我在模具设计CAD方面的一些心得体会。作为一个从事这个行业多年的工程师,

seo优化排名软件详细介绍

1. SEMrush SEMrush,一款广受好评的SEO神器,被誉为业内最佳的SEO分析工具。功能包括全