机器人看图说话能力比肩人类!中国AI超越微软,打破世界纪录

天下网商记者 黄天然6tP每天发布大量与生活相关的资讯平台

每个人都有这样的回忆,小时候语文老师教我们看图说话,许多小朋友脑洞大开,说出来的答案让人啼笑皆非。实际上,看图说话的能力在年幼时期需要训练,而对于大一点孩子来说就不成问题了。如今,机器人也能做到看图说话了。6tP每天发布大量与生活相关的资讯平台

近日,来自中国AI在这项能力上已经打破了世界纪录。在第二届全球AI视觉对话竞赛(Visual Dialogue Challenge)中,阿里AI击败了微软、首尔大学等十支参赛队伍,一举获得冠军。6tP每天发布大量与生活相关的资讯平台

6tP每天发布大量与生活相关的资讯平台

阿里AI在视觉对话竞赛中得冠6tP每天发布大量与生活相关的资讯平台

会“看图说话”的AI有多聪明?

这场视觉对话竞赛由美国佐治亚理工大学、Facebook人工智能实验室(FAIR)等机构联合全球视觉技术领域顶级学术会议CVPR发起,是目前视觉对话领域最权威的竞赛之一。6tP每天发布大量与生活相关的资讯平台

该竞赛要求参赛的AI在看完近万张图片后,回答出人类对于任一图片任一内容的提问。这要求AI不仅能够描述出图片中内容的概况,还要经得起人类对图片各种细节的追问。比如,在一张撑着雨伞的人物图片中,说出伞是什么颜色的,有多少人在图中,附近有什么物品和建筑物等等信息。6tP每天发布大量与生活相关的资讯平台

6tP每天发布大量与生活相关的资讯平台

视觉对话中AI可以从容应对人类提问(左为AI、右为人类)6tP每天发布大量与生活相关的资讯平台

竞赛结果显示,阿里AI以74.57%的准确率获得冠军,将上一届比赛的纪录提高了16.82%,并且超过微软AI的64.78%的准确率。而在相同的数据集中,人类的准确率仅为64.27%,AI甚至胜过了人类。6tP每天发布大量与生活相关的资讯平台

传统的视觉AI主要针对目标的检测和识别,但对复杂场景中目标之间的逻辑关系理解、推理能力较弱,无法回答表达图片对象直接关系的复杂问题,也难以将图片信息转化为人类理解的语言输出。6tP每天发布大量与生活相关的资讯平台

这意味着,要实现视觉对话能力,传统的视觉AI在学会“看图”之后,还要有一种语言模型来支撑它“说话”。阿里AI的突破就在于提出了“递归探索对话模型”。6tP每天发布大量与生活相关的资讯平台

6tP每天发布大量与生活相关的资讯平台

视觉对话AI与用户交流图像内容6tP每天发布大量与生活相关的资讯平台

这一模型通过标注信息学习出模仿人类认知复杂场景的思维方式,能识别图片里的实体以及它们之间的关系,推理出图片所描述的事件内容,并通过对上下文进行有效建模,综合集成了图像识别、关系推理与自然语言理解三大能力,能理解人类提出的问题及真实意图,给出自然准确的回复。 6tP每天发布大量与生活相关的资讯平台

视觉对话能力让AI迈上新台阶

AI能“看图说话”,这样的应用其实距离我们并不遥远,微软之前推出了一款年龄测试工具How-old.net ,曾经刷爆微博和朋友圈,所应用的就是这一技术的应用。6tP每天发布大量与生活相关的资讯平台

6tP每天发布大量与生活相关的资讯平台

目前微软还开放了能“看图说话”的AI系统,用户进入官网www.captionbot.ai 上传图片,稍等一会,就能看到系统对于图片的描述。其准确率虽然不低但依旧有待提升,以一张曾经广为流传的黑人问号表情图片为例,AI很快给出了客观的回答:“我觉得这是篮球队员尼克·杨露出牙齿微笑。”6tP每天发布大量与生活相关的资讯平台

6tP每天发布大量与生活相关的资讯平台

AI视觉对话识别图片信息6tP每天发布大量与生活相关的资讯平台

以“看图说话”为代表的视觉对话是近年来快速崛起的AI研究方向,目的在于教会机器用自然语言与人类讨论视觉内容,这能够使机器拥有了对真实视觉世界的理解与推断能力,也意味着AI的认知能力将迈上新的台阶。6tP每天发布大量与生活相关的资讯平台

可以预见,这项技术未来将被应用在人机交互诸多场景:6tP每天发布大量与生活相关的资讯平台

在火灾、地震后在废墟中寻找幸存者的救援机器人,能够代替人类之眼,深入危险的现场,及时、高效地综合指挥指令和场景信息作出行动。6tP每天发布大量与生活相关的资讯平台

6tP每天发布大量与生活相关的资讯平台

视觉对话技术有望人类提高地震救援效率6tP每天发布大量与生活相关的资讯平台

视障人士可以通过提问AI,理解图像中的内容,了解自身所处的周围环境,为其生活起居带来更多的便利。6tP每天发布大量与生活相关的资讯平台

无人驾驶车辆也可以在行驶中通过视觉对话,更加准确理解人类意图征询人类的意见,让乘客的乘坐体验更好。6tP每天发布大量与生活相关的资讯平台

6tP每天发布大量与生活相关的资讯平台

正如《2001太空漫游》《流浪地球》等科幻大片中无障碍的人机对话系统所描绘的那样,拥有智能视觉对话能力的AI随着技术的不断突破,正在向我们走来。6tP每天发布大量与生活相关的资讯平台

也许你还喜欢

ups不间断电源原理分析

当前在电源市场上,所销售的电源类型较多,不同类型的电源,相应的功能与作用有所不同。在超

空间背景音乐怎么添加图文教程分享

怎样免费添加QQ空间背景音乐其实步骤也不多,很简单,主要有以下几个步骤,详情如下

万能转换器破解版怎么用?具体操作方

万能格式转换器是一款功能强大的格式转换软件,音频、视频、图片、光驱设备都可以通过万

rmvb转mp4格式转换器图文教程

在我们日常娱乐和日常工作中,现在网络上一些高清的视频一般都是rmvb格式的,而一些播放设

支付宝网络系统异常怎么解决

支付宝支付出现网络系统异常是因为IE浏览器设置Internet选项不恰当而导致的,去重新设置

win10蓝牙驱动破解版安装图文教程

win10蓝牙驱动怎么安装?请看下面具体操作方法。

微孔抛光镜面加工计数详解

一般来说,对于小孔微孔进行抛光,传统的加工方法可能会导致孔洞磨损,或者加工效果不理想。

短视频内容管理助手有哪些?怎么好用

随着短视频的普及,越来越多的人开始将大量的时间和精力投入到短视频的制作和分享中。因

模具设计学习知识分享

今天,我想谈谈我在模具设计CAD方面的一些心得体会。作为一个从事这个行业多年的工程师,

seo优化排名软件详细介绍

1. SEMrush SEMrush,一款广受好评的SEO神器,被誉为业内最佳的SEO分析工具。功能包括全