当前AI仍面临的难题是什么？

cslehe · 发表于 2021-4-9 14:58:34

#111723#谈到人工智能（特殊是盘算机视觉范畴），各人存眷的都是这一范畴一直获得的提高，但是人工智能究竟开展到甚么水平了？AI 曾经成为全能的了吗？Heuritech 的 CTO Charles Ollion 盼望通过他的文章能够揭穿一些以后的实在情形。接上去就让咱们一同看看这位作者都谈了甚么内容吧！

近来，我读了 Pete Warden 的一篇文章，这篇文章先容了一种能够分辨动物疾病的分类器。在分辨病害范例方面，这个分类器的准确度要比人类肉眼分辨的准确度高的多。然而，这个分类器在面临一张随机不含有动物的图片时会给出一个十分惊人的毛病成果（以下图所示：左图展示了分类器在实在动物上检测病害范例的精良后果；而右图，在指向盘算机键盘时，一张随机的非动物图片，分类器仍会以为这是一种受损的作物）。但是这个毛病，却不会产生在人类身上。

下面的举例阐明，盘算机视觉体系的才能仍有别于人类的智力，上面我想通过一道测试题来进一步证实这一观念：
你晓得以后人工智能体系最善于做甚么吗？
上面有五个差别的盘算机视觉成绩，通过给出的输入与失掉的输出成果，试着猜一下哪类成绩是盘算机视觉体系最轻易处理的？哪类成绩长短常艰苦的？
▌1.检测糖尿病性视网膜病变
输入：有束缚的视网膜图片
输出：5个种别（安康型以及处于差别阶段与情势的病变状况）

糖尿病性视网膜病变，一种影响到眼睛的糖尿病并发症
▌2.摄像头手势辨认
输入：由摄像头拍摄的一系列短视频
输出：25种举措中可能性最大的一种
（注：TwentyBN 现已宣布了更丰盛的数据集）

▌3.辨认 Instagram 图片里的手提包
输入：Instagram 上的图片
输出：圈出图片里的手提包

▌4.辨认行人
输入：由牢固摄像机拍摄的图片
输出：圈出图中全部的行人

▌5.呆板人抓取物体
输入：由牢固摄像机拍摄的两张图
输出：呆板人把持战略

左图为待抓取的物体，呆板人上装有一台牢固摄像机来进修怎样抓取物体
但是本相是？
▌糖尿病性视网膜病变：这类辨认器是轻易实现的，由于输入和输出都是有束缚的（谷歌在他们的报导中申明曾经实现并有精良表示了）。但当把这一体系投入到现实利用时，艰苦呈现了。用户的休会以及体系与大夫的共同是要害成绩，由于对差别范例成果的断定可能会有失偏颇。
▌摄像头手势辨认：这个成绩绝对来讲很好界说，但多变性增添了它的难度：这些由摄像头拍摄的视频中，人们的间隔差别，手势延续时光差别，等等... 另外，在对视频材料停止剖析练习时，随之发生的另有诸多的工程成绩。不得不说这个成绩长短常艰苦的，但曾经失掉懂得决。
▌辨认 Instagram 图片里的手提包：这个成绩看起来仿佛很轻易处理，但输入的图片是没有束缚的，并且种别的界说也十分广（手提包有良多种状态，没有一个明白的视觉形式，因而很有可能被辨认成良多别的物体）。这使得成绩变的十分艰苦，看看上面图就清楚了。

由经由手提包辨认练习的模子给出的辨认成果
咱们的练习数据中没有“斧子”的图片作为反例，而斧子的头部和模子进修过的手提包的图象十分类似。它是褐色的，有动手提包的外形和巨细，并且被握在手里。
而后咱们就如许废弃了吗？不，咱们能够通过自动进修来处理这个成绩，即对模子给出的毛病断定停止标志，而后把这些毛病例子反应给模子持续练习。但凭仗现有的技巧来讲，想像 Instagram 中的图片，如斯开放的范畴上到达完善的后果，依然是一项宏大的挑衅。
对于咱们人类来说，对于糖尿病相干的任务很难，但识别斧子和手提包却很轻易，这重要缘由是斧子对咱们来讲是一种极其广泛的存在，一种各人都晓得的知识，而且这些内容超越了输入到体系数据的范畴。
▌辨认摄像头中的行人：这类成绩很简略：输入十分受限（牢固摄像机），并且种别（行人）也很尺度。可能会存在目的被遮挡等相干成绩，但整体来讲这个成绩很轻易便可以处理。不外，假如对这个成绩稍作修改，就会变得艰苦良多：如摄像机是挪动的；或从差别方位、角度、范畴停止拍摄 —— 这个成绩就变得更开放且辣手了。
▌呆板人抓取物体：这个成绩是极为艰苦的。它超越了尺度分类和回归成绩的范畴，由于输出是把持呆板人的战略，平日应用强化进修来停止练习，与有监视进修比拟，这类进修方式还不太成熟。另外，工具在巨细、外形和抓取的方法上都市有所差别，可能还要借助语义的懂得。然而这个成绩能够由一个2岁的小孩子容易处理（即便没有牢固摄像头、配景完整雷同这些设定），但对咱们来讲，让人工智能做这件事另有很长的路要走。
作者申明：假如差别意我给出的谜底，我很乐于和各人探讨，由于在这个范畴要学的常识良多，我不以为我晓得全部成绩的谜底。
对盘算机视觉与人工智能的冀望
对盘算机视觉体系和咱们人类来讲，“难度”这个观点是有很大差别的，这一点很轻易领导咱们对人工智能发生毛病的冀望。工程师和科研职员不得不从事实动身来看待人工智能体系在开放域的表示。
以后咱们在对人工智能体系开展情形的懂得上也还存在良多成绩。以主动化驾驶为例：在有束缚（比方：高速公路）下驾驶与无束缚（如：市区、小路... ...）下对驾驶存在着极大的区分。现在大少数企业都基于在没有司机操控下，通过主动驾驶汽车所行驶的里程数来对主动化驾驶程度停止评价。这也促使了测试者更乐于把汽车放到轻易驾驶的情况里，但实在咱们更应当做的是树立一些指标，重点存眷扩展主动化驾驶汽车畸形驾驶的范畴。
更概括地来说，我以为咱们不该该再说甚么“盘算机视觉曾经实现了。”如许的话了。假如咱们有充足多曾经标志了的数据和有束缚的种别，小范畴内的成绩可能曾经处理了。但若将天下范畴的知识常识引入盘算机视觉体系，这依然是一个宏大的挑衅。

ClevR，用于组合式言语和低级视觉推理的诊断数据集
实在当初良多的研讨职员曾经开端在停止这方面的研讨了，也有一些研讨范畴正在发达的开展着，比方：视觉推理、物剃头现法令、通过无监视/自我监视停止表征进修等。AI 科技大本营在文末给各人列出了相干的研讨文章，便利各人进修。
鉴于我对盘算机视觉的研讨与开展懂得多一些，上述都是我对于这方面的一些见解，但我信任一样的来由也能够利用到别的呆板进修成绩上，特殊是对于 NLP 利用深度进修与呆板进修的研讨范畴。
更多内容阅读推荐：液晶电视为什么会黑屏

账号		自动登录	找回密码
密码			立即注册