在旁观者眼中:计算机智能的飞跃

发表的NAB

计算机视觉建模依赖于将图像分解成各种形状和颜色。然而,当模型发生变化时,这不能正确地识别熟悉的对象。比如一只蜷曲的猫或一只戴着圣诞帽的狗。

在她的2015年TED演讲在美国,计算机科学家李飞飞强调了人工智能的局限性。动物的视觉处理过程花了数百万年的时间,才使命名物体、推断空间关系和检测情绪成为可能。孩子们通过收集图像来学习视觉,每200毫秒就能获得一张图像,因此通过密集的生活训练来建立他们的技能。

与她在斯坦福视觉实验室的团队一起,她将重点转向使用类似于孩子每天看到的训练数据。为此,她利用网络众包平台的力量,从近5万名用户那里获得帮助,对10亿张图片进行排序。这导致了一个包含22000个类别的1500万张图像的数据库,免费提供给在图像处理应用中使用它的研究人员和顾问。

现有的卷积神经网络算法依赖于神经类分层节点,并将收集到的数据输入卷积神经网络,从而显著改善了处理繁忙图像的能力。接下来,他们专注于教计算机描述它们所看到的东西,并产生了第一个能够使用类似人类的句子来描述所看到图像的模型。

这项正在进行的研究的意义不仅限于消费电子应用,而且毫无疑问将导致机器人技术、视觉辅助软件、外科光学仪器和空间探索的改进。

类别:

Baidu