计算机技术论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

  • 欢迎访问 计算机技术论坛-电脑迷与初学者的家园!由于论坛管理严格,新注册会员可能遇到各种问题,无法解决的请发邮件 admin@jsjbbs.cn
查看: 947|回复: 0

深度学习在计算机视觉上的四大应用

[复制链接]
发表于 2021-4-10 21:59:20 | 显示全部楼层 |阅读模式
#111723#深度进修在盘算机视觉上的利用
盘算机视觉中比拟胜利的深度进修的利用,包含人脸辨认,图象问答,物体检测,物体跟踪。
人脸辨认:
这里说人脸辨认中的人脸比对,即失掉一张人脸,与数据库里的人脸停止比对;或同时给两张人脸,断定是不是统一团体。
这方面比拟超前的是汤晓鸥教学,他们提出的DeepID算法在LWF上做得比拟好。他们也是用卷积神经收集,但在做比对时,两张人脸分辨提取了差别地位特点,而后再停止相互比对,失掉最后的比对成果。最新的DeepID-3算法,在LWF到达了99.53%正确度,与肉眼辨认成果相差无几。
图片问答成绩:
这是2014年阁下崛起的课题,即给张图片同时问个成绩,而后让盘算机答复。比方有一个办公室靠海的图片,而后问“桌子前面有甚么”,神经收集输出应当是“椅子和窗户”。

这一利用引入了LSTM收集,这是一个专门计划出来存在必定影象才能的神经单位。特色是,会把某一个时辰的输出看成下一个时辰的输入。能够以为它比拟合适言语等,偶然间序列关联的场景。由于咱们在读一篇文章和句子的时间,对句子前面的懂得是基于后面对词语的影象。
图象问答成绩是基于卷积神经收集和LSTM单位的联合,来实现图象问答。LSTM输出就应当是想要的谜底,而输入的就是上一个时辰的输入,以及图象的特点,及问句的每个词语。
物体检测成绩:
① Region CNN
深度进修在物体检测方面也获得了十分好的结果。2014年的Region CNN算法,基础思维是起首用一个非深度的方式,在图象中提取可能是物体的图形块,而后深度进修算法依据这些图象块,断定属性和一个详细物体的地位。

为甚么要用非深度的方式先提取可能的图象块?由于在做物体检测的时间,假如你用扫描窗的方式停止物体监测,要斟酌到扫描窗巨细的纷歧样,长宽比和地位纷歧样,假如每一个图象块都要过一遍深度收集的话,这类时光是你没法接收的。
以是用了一个折衷的方式,叫Selective Search。先把完整弗成能是物体的图象块去除,只剩2000阁下的图象块放到深度收集外面断定。那末获得的成就是AP是58.5,比以往几近翻了一倍。有一点不尽如人意的是,region CNN的速率十分慢,须要10到45秒处置一张图片。
② Faster R-CNN方式
并且我在客岁NIPS上,咱们看到的有Faster R-CNN方式,一个超等减速版R-CNN方式。它的速率到达了每秒七帧,即一秒钟能够处置七张图片。技能在于,不是用图象块来断定是物体仍是配景,而把整张图象一同扔进深度收集里,让深度收集自行断定那里有物体,物体的方块在那里,品种是甚么?
经由深度收集运算的次数从本来的2000次降到一次,速率大大进步了。
Faster R-CNN提出了让深度进修本人天生可能的物体块,再用一样深度收集来断定物体块能否是配景?同时停止分类,还要把界限和给估量出来。
Faster R-CNN能够做到又快又好,在VOC2007上检测AP到达73.2,速率也进步了两三百倍。
③ YOLO
客岁FACEBOOK提出来的YOLO收集,也是停止物体检测,最快到达每秒钟155帧,到达了完整及时。它让一整张图象进入到神经收集,让神经收集本人断定这物体可能在那里,可能是甚么。但它缩减了可能图象块的个数,从本来Faster R-CNN的2000多个缩减缩减到了98个。
同时撤消了Faster R-CNN外面的RPN构造,取代Selective Search构造。YOLO外面没有RPN这一步,而是直接猜测物体的品种和地位。
YOLO的价值就是精度降落,在155帧的速率下精度只有52.7,45帧每秒时的精度是63.4。
④ SSD
在arXiv上呈现的最新算法叫Single Shot MultiBox Detector,即SSD。
它是YOLO的超等改良版,汲取了YOLO的精度降落的经验,同时保存速率快的特色。它能到达58帧每秒,精度有72.1。速率超越Faster R-CNN 有8倍,但到达相似的精度。
物体跟踪
所谓跟踪,就是在视频外面第一帧时锁定感兴致的物体,让盘算机随着走,不论怎样扭转晃悠,乃至躲在树丛前面也要跟踪。

深度进修对跟踪成绩有很明显的后果。是第一在线用深度进修停止跟踪的文章,事先超越了别的全部的浅层算法。
往年有越来越多深度进修跟踪算法提出。客岁12月ICCV 2015下面,马超提出的Hierarchical Convolutional Feature算法,在数据上到达最新的记载。它不是在线更新一个深度进修收集,而是用一个大收集停止预练习,而后让大收集晓得甚么是物体甚么不是物体。
将大收集放在跟踪视频下面,而后再剖析收集在视频上发生的差别特点,用比拟成熟的浅层跟踪算法来停止跟踪,如许应用了深度进修特点进修比拟好的利益,同时又应用了浅层方式速率较快的长处。后果是每秒钟10帧,同时精度破了记载。
最新的跟踪结果是基于Hierarchical Convolutional Feature,由一个韩国的科研组提出的MDnet。它聚集了后面两种深度算法的集大成,起首离线的时间有进修,进修的不是个别的物体检测,也不是ImageNet,进修的是跟踪视频,而后在进修视频停止后,在真正在应用收集的时间更新收集的一部份。如许既在离线的时间失掉了大批的练习,在线的时间又可能很机动转变本人的收集。
基于嵌入式体系的深度进修
回到ADAS成绩(慧眼科技的主业),它完整能够用深度进修算法,但对硬件平台有比拟高的请求。在汽车上不太可能把一台电脑放上去,由于功率是个成绩,很难被市场合接收。
当初的深度进修盘算重要是在云端停止,前端拍摄照片,传给后真个云平台处置。但对于ADAS而言,没法接收长时光的数据传输的,也许产生事变后,云真个数据还没传返来。
那能否能够斟酌NVIDIA推出的嵌入式平台?NVIDIA推出的嵌入式平台,其运算才能远远强过了全部主流的嵌入式平台,运算才能濒临主流的顶级CPU,如台式机的i7。那末慧眼科技在唱工作就是要使得深度进修算法,在嵌入式平台无限的资本情形下可能到达及时后果,并且精度几近没有增加。
详细做法是,起首对收集停止缩减,可能是对收集的构造缩减,因为辨认场景差别,也要停止响应的功效性缩减;别的要用最快的深度检测算法,联合最快的深度跟踪算法,同时本人研收回一些场景剖析算法。三者联合在一同,目标是增加运算量,增加检测空间的巨细。在这类情形下,在无限资本上实现了应用深度进修算法,但精度增加的十分少。
更多内容阅读推荐:厨房卫生间防水怎么做
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

无图版|手机版|计算机技术论坛 JSJBBS.CN @ 2008-2024 ( 鲁ICP备17021708号 )

技术支持 : 北京康盛新创科技有限责任公司

快速回复 返回顶部 返回列表