找回密码
 立即注册

QQ登录

只需一步,快速开始

  • 欢迎访问 计算机技术论坛-电脑迷与初学者的家园!由于论坛管理严格,新注册会员可能遇到各种问题,无法解决的请发邮件 admin@jsjbbs.cn
查看: 1100|回复: 0

张正友博士:做了题为「计算机视觉的三生三世」的大会报告

[复制链接]
发表于 2021-4-9 14:28:54 | 显示全部楼层 |阅读模式
#111723#7 月 12 日,腾讯 AI Lab & Robotics X 主任,ACM Fellow, IEEE Fellow, CVPR 2017 大会主席张正友博士为 CCF-GAIR 2019 主会场「AI 前沿专场」做了题为「盘算机视觉的三生三世」的大会讲演。

各人好!十分感激雷锋网的约请,让我有这个机遇给各人做个分享。往年是中国人工智能四十周年,在这四十年间产生了良多事件,雷锋网让我跟各人讲一讲盘算机视觉的宿世、此生和可能的将来。实在这个讲演应当由我的好友人香港科技大学权龙教学来说,他比我早一年出国,并且他当初还在港科大潜心研讨盘算机视觉。我这些年间,另有好多年在做语音处置和辨认、多媒体处置和呆板人,以是我在盘算机视觉上的研讨史还不算很长。不外权龙教学有事没法加入,我只能滥竽凑数,给各人讲讲盘算机视觉的一些故事。
雷锋网找我是据说我开端研讨盘算机视觉比拟早。我 1985 年浙大本科结业,1986 年去法国,参加研发了可能是天下上第一台用平面视觉导航的挪动呆板人。
图象处置
1986 年实在产生了良多事件,1986 年是我第一次加入国际集会,是在巴黎召开的 ICPR(天下形式辨认大会)。在此次大会上,我遇到了复旦大学的吴树德教学,他率领了一支中国的代表团,并在会上做了一场大会讲演,先容了中国在形式辨认上的研讨近况,他们筹备请求 1988 年的 ICPR 在中国召开。

这里须要提到一个要害性的人物,那就是普渡大学的傅京孙教学,他是形式辨认范畴的鼻祖。他是 1973 年第一届 ICPR 的主席,1976 年创立了 IAPR,1978 年创刊了 IEEE TPAMI,并担负第一届主编。原来他是支撑 1988 年 ICPR 在中国召开的,但可怜的是 1985 年他逝世了,以是 1988 年的请求没有胜利。假如 1988 年 ICPR 能在中国召开,或许中国在形式辨认和盘算机视觉上的开展会更提早。固然汗青没有假如。ICPR 在中国的召开比及了三十年当前,2018 年在谭铁牛院士的率领下,ICPR 第一次在中国召开。

1986 年另有一个很主要的变乱,就是我的法国粹长马颂德返国,他创建了 NLPR(国度形式辨认重点试验室)。NLPR 创建以后,吸引了大量外洋的学者返国,同时约请了良多外洋的拜访学者,中国盘算机视觉范畴开端与国际接轨。固然马颂德是中国科技界主要人物,厥后担负科技部副部长。1997 年他还创建了中法结合试验室,这个试验室一半的研讨职员都是法国人,这在中国也是一个豪举。
提到盘算机视觉,离不开一个标记性人物,MIT 的教学 David Marr。1979 年,恰好 40 年前,他提出了视觉盘算的实践框架。Marr 的实践框架有三个档次,从盘算甚么,到怎样表白和盘算,到硬件的实行。
详细到三维重修,Marr 以为从图象要经由几个步调,第一个步调叫 primal sketch,也就是图象处置,比方边沿提取。以是到八十年月中叶,盘算机视觉的重要任务是图象处置。最着名的任务可能是 1986 年 MIT 一个硕士生宣布的 Canny 边沿检测算子,基础上处理了边沿提取的成绩。以下图所示,左侧是原始图象,右侧是检测出的边沿。

当时候另有一个比拟着名的任务是华人迷信家沈俊做的,他当时在法国波尔多大学。他比拟了差别的算子。他的算子在有些图象方面要比 Canny 检测器要好。以是到了八十年月中叶,当我留学法国的时间,图象处置曾经做的差未几了。
平面视觉及三维重修
荣幸的是,多少视觉刚开端崛起。有两位代表人物,一名是法国的 Olivier Faugeras,他是我的博士导师,另一名是美国的 Thomas Huang,咱们叫他 Tom。他们是好友人,还一同写过文章。我 1987 年就意识 Tom,他对我有十分大的辅助。他培育了 100 多位博士,包含很多活泼在中国粹术界和产业界的盘算机视觉专家,他对中国盘算机视觉的奉献长短常宏大的。
我很幸运师从 Olivier Faugeras,参加开辟了天下上第一台用平面视觉导航的挪动呆板人。1988 年我的第一个研讨结果宣布在第二届 ICCV 上,右侧是在美国 Florida 闭会的一张照片。当时候盘算机视觉还没有红火,那届 ICCV 大略只有 200 个参会者,华人就更少了,大略只有我、权龙,另有 Tom 的先生翁巨扬。我在博士时期缭绕三维静态场景剖析做了很多任务,1992 年把这些整分解一本书宣布。

当初我想举一个简略的例子,不定性的建模和盘算,盼望通过上面这一页 PPT 你们就能清楚甚么是三维盘算机视觉。
这里须要用到几率与统计,这十分主要,但当初做视觉的人常常疏忽了。上面两条线代表了两个图象立体。左侧图象上一个白点对应右侧图象上一个白点。每个图象点对应空间一条直线,两条直线订交就失掉一个三维点,这就是三维重修。一样,左侧图象的斑点对应右侧图象的斑点,两线订交失掉一个三维点。然而图象的点是检测出来的,是有噪声的。咱们用椭圆来代表不定性,那末图象的一个点就错误应一条线了,而是一个椎体。两个椎体订交,就代表了三维重修的点的不定性。这里能够看到,近的点要比远的点准确。当咱们用这些三维重修点的时间就须要斟酌这些不定性。比方当呆板人从一个处所挪动到另一个处所,须要估量它的活动时就必需斟酌数据的不定性。

90 年月初我提出了 ICP 算法,通过迭代点的婚配来对齐差别的曲线或曲面。这个算法也用在良多处所。咱们当初常常听到的SLAM,它实在就是咱们之前做的从活动中估量构造,三维重修,不定性估量,ICP。现实上,SLAM 在 90 年月初实践上曾经处理了。
1995 年我提出了鲁棒的图象婚配和极线多少估量方式,同时把顺序放到网上,各人都以此作为参照。这可能是天下上第一个,最少是之一,把盘算机视觉的顺序放到网上让他人用实在图象来测试的。以是这个算法当时候就成为盘算机视觉的通用方式。
1998 年我提出了一个新的摄像机标定法,厥后各人都称它为「张氏方式」,当初它曾经在全天下的三维视觉、呆板人、主动驾驶上广泛利用,也取得了IEEE Helmholtz 时光磨练奖。

1998 年我和马颂德对日趋成熟的多少视觉做了总结,作为研讨生课本由迷信出书社出书。
1998 年还产生了良多事件,一个是 MSRA(微软亚洲研讨院)的建立,一个是腾讯公司的建立。这两家看似有关的机构实在对中国盘算机视觉的开展,对中国人工智能的开展,起了弗成估计的感化。MSRA 给中国带来了国际进步的研讨方式和思绪,培育了一大量中国的优良学者,同时也请了一些外洋的研讨学者离开中国。腾讯增进了中国互联网的开展,由于有互联网,中国研讨职员可能几近及时地打仗到国际最顶尖的研讨结果。以是这两个联合,对中国人工智能范畴的开展起到了很大的感化。
中国盘算机视觉界一个主要的标记性变乱是 2005 年 ICCV 在北京召开,马颂德和 Harry Shum 担负大会主席,这标记着中国盘算机视觉的研讨程度曾经失掉国际的认同。我也很幸运地从 Tom Huang 先辈手中接过 IEEE Fellow 的证书。
深度进修的突起
可能多少视觉的实践曾经比拟成熟了,90 年月末,盘算机视觉的研讨开端进入物体和场景的检测和辨认,重要方式是传统特点加上呆板进修。
当时候我做多少视觉做了很长时光,1997 年,我也开端实验,开辟了天下上第一个用神经收集来辨认人脸心情的体系,用的特点是 Gabor 小波。固然 20 多年前就开端人脸心情辨认,但当时数据太少,始终到 2016 年咱们才在微软把人脸心情辨认技巧贸易化,在微软的认知效劳上,各人都能够挪用。

在传统特点加呆板进修的年月,须要提一下一个里程碑的任务,那就是 2001 年的 Viola-Jones Detector。通过 Harr 特点加级联分类器,人脸的检测可能做得十分快,在 20 年前的呆板上就能做到及时。这对盘算机视觉发生了很大的影响。尔后的轮回是一波一波的新数据集推出,加一波一波的算法刷榜。
2009 年一个叫 ImageNet 的数据集呈现了,这是斯坦福大学李飞飞团队推出的,这个数据集十分主要,它的意思不在于这个数据集很大,而在于几年后催生了深度进修时期。
2012 年,Geoffrey Hinton 的两个先生开辟了 AlexNet,用了 8 层神经收集,6 万万参数,偏差比传统方式降了十几个百分点,从 26% 降到 15%,今后开启了盘算机视觉的深度进修时期。这个 AlexNet 构造实在和 1989 年 Yann LeCun 用于手写数字辨认的神经收集没有很大区分,只是更深更大。
因为 Geoffrey Hinton, Yoshua Bengio, Yann LeCun 对深度进修的奉献,他们独特取得了 2018 年的图灵奖。这个奖他们当之无愧。要晓得 Geoffrey Hinton 1986 年就提出了 backpropagation,坐了 25 年的冷板凳。

在深度进修时期另有一个里程碑的任务,2015 年,微软亚洲研讨院的何恺明和孙剑提出 ResNet,用了 152 层神经收集,在 ImageNet 测试集上的偏差比人还低,降到了 4% 以下。
我在深度进修范畴也有一点奉献。2014 年我和 UCSD 的屠卓文配合,提出了 DSN(Deeply- Supervised Nets)深度监视收集,固然影响没有 ResNet 大,但也有近一千次援用。咱们的主意是直接让输出监视旁边层,使得最底层尽可能最大迫近要进修的函数,同时也减缓梯度「爆炸」或「消散」。
刚刚从前的 CVPR2019 能够被称为是华人的盛典,在构造者外面有良多华人面貌,包含大会主席朱松纯、顺序委员会主席华刚和屠卓文。在五千多篇投稿中,40% 来自卑陆,最好论文奖和最好先生论文奖的第一作者也都是华人。以是中国的盘算机视觉才能仍是很强的,这一点值得自豪。
盘算机视觉的研讨要回归初心
当初让咱们回想一下盘算机视觉研讨的演化,从最初的图象处置、平面视觉与三维重修、物体检测和辨认,到光度视觉、多少视觉和语义视觉,到当初的深度进修打遍世界。这是让我耽忧的。深度进修有良多范围性。

我以为接上去应当要回归初心,让光度视觉、多少视觉和语义视觉严密联合起来,同时注入知识和范畴常识,和言语停止多模态融会,通过进修一直演化。

咱们腾讯 AI Lab 在这方面也开端做了一点点任务。比方咱们的看图谈话名目可能用言语描写一张照片的内容,2018 年 1 月,咱们上线 QQ 空间 app 让视障用户「看到」图片。

咱们还整合了盘算机视觉、语音辨认和天然言语处置技巧,开辟了一个虚构人产物,摸索多模态人机交互,赋能其余场景,助力交际。咱们还开辟了二次元的虚构人来做游戏讲解,它能及时懂得游戏场景并将它描写出来。
那末当初的人工智能真的智能吗?设想一下,假如一团体想要挡住你的眼睛,你会怎样做?我是会躲开的。然而从我方才播放的视频中能够看到,当初的监控体系明显没有如许的举止。当初的人工智能只是呆板进修:从大批的标注数据去进修一个映照。
甚么是真正的智能?我想现在还没有定论,并且咱们对咱们本人的智能还没有充足的懂得。不外我很认同瑞士认知迷信家 Jean Piaget 说的,智能是当你不晓得怎样做的时间你用的货色。我以为这个界说长短常有情理的。当你没法用你学到的货色或禀赋去面临时,你动用的货色就是智能。怎样去实现有智能的体系呢?可能有良多条路,但我以为一条很主要的路是须要把载体斟酌出来,做有载体的智能,也就是呆板人。

在呆板人范畴,我提出了 A2G 实践。A 是 AI,呆板人必需能看能听能说能思考,B 是 Body 本体,C 是 Control 把持,ABC 构成了呆板人的基本才能。D 是 Developmental Learning,发育进修,E 是 EQ,感情懂得、拟人化,F 是 Flexible Manipulation,机动操控。最后要到达 G,G 是 Guardian Angel,保卫天使。

腾讯做了三款呆板人:绝艺围棋呆板人、桌上冰球呆板人,另有呆板狗。能够为各人展现呆板狗的视频,呆板狗具有感知体系,可能绕开阻碍物,看到悬空的阻碍物能爬行行进,看到后面一团体能蹲上去看着人。
我的讲演就到这里,腾讯的 AI 任务是 Make AI Everywhere,咱们必定会善用人工智能,让人工智能造福人类,由于科技向善。感谢各人。
更多内容阅读推荐:空调外机漏水是怎么回事
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

|计算机技术论坛 JSJBBS.CN @ 2008-2025 ( 鲁ICP备17021708号 )

技术支持 : 腾讯云计算(北京)有限责任公司

快速回复 返回顶部 返回列表