当前位置:w88优德体育网 > 科技新闻 > 正文

孙剑:计算视觉的革命与挑战 | CCF-GAIR 2017

整理发布:w88优德体育 发布时间:2017-07-09

    2017年7月7日至9日,全球人工智能与机器人峰会CCF-GAIR大会在深圳大中华喜来登酒店举行。本次由CCF中国计算机学会主办、雷锋网与香港科技大学(深圳)承办的大会聚集了全球30多位顶级院士、近300家AI明星AI企业 ,参会人数规模高大3000人,都是国内顶级阵容。记者在会议期间第一时间进行现场报告。

    孙剑首先自然地吐槽了天气导致的飞机延误。但同时他也自然地开始考虑,如果人工智能能够帮助飞机规划起落,肯定会比无人车容易,而且能起到明显的帮助。

    进入正题,孙剑表示,人工智能的分析跟大数据、计算力、算法提升有关系,但是他觉得最重要的是计算方式的变革。神经网络虽然是人类在计算机上建立、发展的,但神经网络中激活函数、非线性单元、权重矩阵的应用可以形成非常高维的非线性函数,从而可以完成与以往天壤之别的任务。在这个之上,GPU还让神经网络的发展如虎添翼。

    Face++很早就意识到这样的运算非常重要,所以他们自己构建了完整的运算平台,自研的深度学习框架、深度学习训练引擎Brain++,然后花了非常多的时间去打磨。对这个方向的认可和深入的投入让Face++取得了优异的成果。

    孙剑讲解道,曾经人们不相信深度学习网络是可以被训练的。从2012年8层的AlexNet之后,一切就都变了。然而在这种范式下,网络在20层左右的表现最好。

    不过Face++的深度残差网络ResNet达到了152层,效果也得到了大幅度提高;2016年的时候甚至达到了1000层,这时候网络实现已经没有难度了。

    随着网络研究的发展,不同的设备上开始依据计算资源的多少出现了网络的分化效果。与1000层针锋相对,Face++新的ShuffleNet就适合非常小的计算量,但比AlexNet效果好不少。网络架构也不断得到提升,越来越快,效果也越来越好。FGPA都可以实现30fps的1080p图像识别。

    人脸识别方面,大家在超越人类的识别精度后,继续不断地刷新纪录。

    依靠Face++自研的网络和智慧城市天眼系统,他们在今年MIT科技评论的最智能公司中排名第11位。

    计算机视觉方面还有这样几个挑战:感知问题好解决,认知&概念问题非常难解决,甚至不知道如何教机器,但计算机视觉其实也有很大一部分是认知和概念问题,比如到底什么样的东西是椅子,有两个非常有力的例子,人都没法准确地描述到底什么是椅子。

    还有弱线索、遮挡、模糊、对象追踪等情况,人类的在识别的时候会依据常识加入丰富的想象和推理,但是很难把这些能力教给计算机,计算机在这些状况下的识别就比人类差很多。

    最后还有对精度要求非常高的场景,比如自动驾驶和医学图像诊断;以及基于背景知识的图像内容描述,挑战都是非常大的。不过这还意味着有很多的潜力可以挖掘