向现有算法宣战!麻省理工、IBM合推新型数据集,“为计算机视觉黄金时代做准备”丨独家专访

需要提示的是,这里的最好或最强指的不是某一个模型,而是一类高性能的视觉模型。

麻省理工学院计算机科学与人工智能实验室 (CSAIL) 和大脑、心智与机器中心 (CBMM) 的研究科学家 Andrei Barbu,是该研究的通讯作者,也是该项目的主持人之一。 他在接受 DeepTech 专访时表示,“我们需要一个数据集能够具有典型意义地表示你在现实生活中看到的东西,没有这个东西,谁还有信心做计算机视觉?我们怎么能说计算机视觉已经为黄金时代和关乎安全的关键应用做好了准备?”

Andrei Barbu 还表示,ObjectNet 可以向全球研究者分享,“只要联系我们,我们将发送给你。”(网站:https://objectnet.dev/)

图 | ImageNet(来源:ImageNet)

人工智能使用由神经元层组成的神经网络在大量的原始数据中寻找规律。比如,在看过成百上千张椅子的照片之后,它学会了椅子的形状。

斯坦福大学每年都会举行一个比赛,邀请谷歌、微软、百度等 IT 企业使用 ImageNet 测试他们的系统运行情况。每年一度的比赛也牵动着各大巨头公司的心弦。

ImageNet 由世界上顶尖的计算机视觉专家李飞飞参与建立,她在一次演讲中提到,要让冰冷的机器读懂照片背后的故事,就需要让机器像婴儿一样看过足够多的“训练图像”。

ImageNet 从 Flickr 和其他社交媒体网站上下载了接近 10 亿张图片,2009 年,ImageNet 项目诞生了,含有近 1500 万张照片的数据库, 涵盖了 22000 种物品。

图 | ImageNet 创建者之一李飞飞(来源:Wikipedia)

但是,当这些模型真正进入到生活中时,它们的性能会显著下降,这就给自动驾驶汽车和其他使用计算机视觉的关键系统带来了安全隐患。

AI 公司 Vicarious 的联合创始人 Dileep George 曾表示:“这表明我们在 ImageNet 上花费了大量资源来进行过拟合。”过度拟合是指过于紧密或精确地匹配特定数据集的结果,以致于无法拟合其他数据或预测未来的观察结果。

与 ImageNet 随意收集的照片不同,ObjectNet 上面提供的照片是有特殊背景和角度的,研究人员让自由职业者为数百个随机摆放的家具物品拍照,告诉他们从什么角度拍摄以及是摆在厨房、浴室还是客厅。

因此,数据集中的物品的拍摄角度非常清奇,侧翻在床上的椅子、浴室中倒扣的茶壶、 挂在客厅椅背上的 T 恤……

Katz 和他的同事将在正在召开的 NeurIPS 会议上展示他们的成果,NeurIPS 是人工智能和机器学习领域的国际顶级会议。

图 | ObjectNet 研究团队。这项研究由美国国家科学基金会,麻省理工学院大脑、心智和机器中心,麻省理工学院 - IBM 沃森人工智能实验室,丰田研究所和 SystemsThatLearn@CSAIL 倡议资助(来源:ObjectNet)

另外,ObjectNet 与传统图像数据集还有一个重要的区别:它不包含任何训练图像。也就是说,练习题和考试题重合的几率变小了,机器很难“作弊”。大多数数据集都分为训练集和测试集,但是训练集通常与测试集有细微的相似之处,实际上是让模型在测试中占了先机。

乍一看,ImageNet 有 1500 万张图片,似乎非常庞大。但是当去除掉训练集部分时,它的大小与 ObjectNet 相当,差不多有 5 万张照片。

“如果我们想知道算法在现实世界中的表现如何,我们应该在没有偏见的图像上测试它们,这些图像应该是它们从未见过的,”Andrei Barbu 说。

图 | 亚马逊的“土耳其机器人”Amazon Mechanical Turk(MTurk)是一种众包网络集市,能使计算机程序员调用人类智能来执行目前计算机尚不足以胜任的任务。ImageNet 和 ObjectNet 都通过这些平台来标记图片(来源:Amazon Mechanical Turk)

研究人员说,结果表明,机器仍然很难理解物体是三维的,物体也可以旋转和移动到新的环境中。“这些概念并没有被构建到现代对象探测器的架构中,”研究的合著者、IBM 的研究员 Dan Gutfreund 说。

模型在 ObjectNet 上的测试结果如此“惨烈”,并不是因为数据量不够,而是模型对类似于旋转、背景变换、视角切换等等的认知缺乏稳定性。研究人员是如何得出这个结论的呢?他们让模型先用 ObjectNet 的一半数据进行训练,然后再用另一半数据进行测试。在相同的数据集上进行训练和测试,通常可以提高性能,但是这次,模型只得到了轻微的改进,这表明模型没有完全理解对象在现实世界中是如何存在的。

“人们向这些物体检测器输入了大量数据,但回报却在递减,”Katz 说。“你不可能把一个物体的每一个角度和每一个可能存在的环境都拍出来。我们希望这个新的数据集能够在现实世界中催生出一个不会出现意外失败的、强大的计算机视觉系统。”

图 | Andrei Barbu 是麻省理工学院研究科学家,主要研究语言、视觉和机器人技术,同时还涉猎神经科学。(来源:MIT)

DeepTech 对该研究合作者、CSAIL 和 CBMM 的研究科学家 Andrei Barbu 进行了专访(以下为不改变原意的采访实录):

DeepTech:这个构思是在什么时候产生的,目的是什么?现在可以下载使用了吗?

Andrei Barbu:ObjectNet 是在大约 4 年前提出的。因为即使许多数据集 (如 ImageNet) 的准确率高达 95% 以上,但是在现实世界中的性能可能比你预期的要差得多。

我们的想法是将其他学科的优秀实验设计直接引入机器学习,比如物理学和心理学。我们需要一个数据集能够具有典型意义地表示你在现实生活中看到的东西,没有这个东西,谁还有信心做计算机视觉?我们怎么能说计算机视觉已经为黄金时代和关乎安全的关键应用做好了准备?

ObjectNet 已经可以使用了,只要联系我们,我们将发送给你。

DeepTech:收集实际数据用了多长时间?数据的有效性如何?

Andrei Barbu:我们花了大约 3 年的时间来弄清楚怎么做,花了大约 1 年的时间来收集数据。现在我们可以更快地收集另一个版本,时间跨度为几个月。

我们在土耳其机器人上收集大约 10 万张图片,其中大约一半我们保存了下来。许多照片都是在美国以外的地方拍摄的,因此,有些物体可能看起来很陌生。成熟的橙子是绿色的,香蕉有不同的大小,衣服有不同的形状和质地。

DeepTech:成本是多少?在收集数据时遇到了什么问题?

Andrei Barbu:在学术界,成本是复杂的。人力成本高于在土耳其机器人上的成本,单在土耳其机器人上的成本就很可观。

收集这些数据遇到很多问题。这个过程很复杂,因为它需要在不同的手机上运行;指令很复杂,我们花了一段时间才真正理解如何以一种稳定的方式解释这个任务;数据验证也很复杂,小问题几乎层出不穷。我们需要很多实验来学习如何有效地做到这一点。

DeepTech:ObjectNet 与 Imagenet 的区别和联系是什么?

Andrei Barbu:与 ImageNet 的不同之处在于:1、我们收集图像的方式可以控制偏差。我们告诉人们如何旋转物体,在什么背景中放置物体,以及在哪个角度拍照。在大多数的数据集中,图像背景的信息会导致机器不自觉的“欺骗”,它们会凭借对于厨房背景的了解来预测某个东西可能是平底锅。

2、这些照片不是从社交媒体上收集的,所以它们不是那种好看的照片,人们也不想分享。我们还确保收集来自印度、美国以及不同社会经济阶层的图像。我们还有损坏或破碎物体的图像。

3、没有训练集。

DeepTech:没有训练集会带来什么影响?

Andrei Barbu:由于没有训练集,所有的方法都需要泛化。他们需要在一个数据集上进行培训,并在 ObjectNet 上进行测试。这意味着他们利用偏差的可能性要小得多,而他们成为强大的目标探测器的可能性要大得多。我们想说服每个人,至少在机器学习的既定领域,收集训练集的小组应该与收集测试集的小组分开。

由于我们已经成为一个数据驱动的研究领域,我们需要改变收集数据的方法,以推动科学的发展。

DeepTech:3D 对象太复杂了,我认为它很难表示。比如如何去表示旋转的椅子?

Andrei Barbu:我不认为 3D 很复杂。

显然你和我对物体的三维形状有一定的认识,因为我们可以从新的角度想象物体。

我认为这也是计算机视觉的未来,ObjectNet 的设计就是在对这个存疑。它不关心你构建模型的基准,真正重要的是,它为你提供了一个更可靠的工具,用来检测你的模型是不是足够强。

DeepTech:你们接下来的研究计划是什么?

这也将有助于回答一些我们现在还不太了解的关于人类视觉和物体探测器之间关系的基本问题,比如,物体探测器的行为是否就像人类只能很快地看到一个物体?我们的初步结果表明,情况并非如此,这些差异可以用来建造更好的探测器。

https://objectnet.dev/objectnet-a-large-scale-bias-controlled-dataset-for-pushing-the-limits-of-object-recognition-models.pdf

http://news.mit.edu/2019/object-recognition-dataset-stumped-worlds-best-computer-vision-models-1210

也许你还喜欢

京天成生物称研制出新型冠状病毒抗

中新经纬客户端1月21日电(高晓锳)1月21日上午,京天成生物官方微信发布文章宣布,公司已成

猪上楼背后,这家企业的创新力有多“

受非瘟疫情影响,保供稳价任务艰巨,养猪业稳定发展遭遇严重挑战。 在大多数中小养殖户复

挑战传统导电企业,天奈科技能否实现

随着现有市场的融合加深与新市场的突破,天奈科技将坐稳行业龙头的“宝座”。 全文3527

带来更快更精准的MRI医学图像,硅谷A

36氪获悉,硅谷医疗AI公司「深透医疗」,宣布与CARING中心(the Centre for Advanced Resear

总局发布最新收视数据,《新世界》夺

文/马庆云 1月21日晚间,总局方面发布“中国视听大数据”,黄金时段电视剧收视率情况。这

一财朋友圈·吴明辉 | 人机协作已

很多人都在畅想AI时代进入高级阶段后的形态,机器人会接管这个世界么?无数此类题材的影视

数字革命重塑经济,5G在全球快速应用

数据显示,到2030年,全球各部门产生的新经济价值中将有70%是基于数字化平台诞生的。到204

京天成生物成功研制出新型冠状病毒

经济观察网 记者 刘可京天成生物技术(北京)有限公司(以下简称“京天成生物”)今日(1月21日)

腾讯 AI 2019这一年

所有参与投票的 CSDN 用户都参加抽奖活动 群内公布奖项,还有更多福利赠送 近日,腾讯AI实

任正非时隔五年重返达沃斯,谈AI边界

当地时间1月21日,华为创始人任正非在出席达沃斯论坛——“科技竞赛塑造未来”分论坛时