
1.4 卷积神经网络的缺陷和视图
从上述应用和成果不难看出,卷积神经网络已经使人工智能迈进了盛况空前、影响深远的新时代。不过这并不等于说,可以用卷积神经网络完全实现人类的智能。虽然现在卷积神经网络分类图像中的对象能够达到与人类匹敌的水平[68],但其视觉与人类的视觉相比仍然是非常不同的[94]。事实上,即使成功训练之后,卷积神经网络也仍然可能错分对抗样本。对抗样本是一种含有人类不可感知的微小扰动的非随机图像,如图1.6所示,在一幅熊猫图像中加入微量噪声后,它可能变成一幅对抗熊猫图像的样本,人类仍然能够轻松识别它为熊猫,但卷积神经网络却一口咬定它是长臂猿,详情请参见文献[95]。另外,有些人类根本不能识别的噪声图像,如图1.7所示,却可能成为卷积神经网络的欺骗图像,让卷积神经网络以高于99%的置信度识别它为一个熟知的对象(比如数字)[96]。因此,卷积神经网络在实际应用中仍然存在一些不易被察觉的潜在缺陷。

图1.6 对抗图像样本举例

图1.7 欺骗图像举例。随机噪声图像欺骗卷积神经网络,被识别为数字0~9
为了更好地理解卷积神经网络的成功与失败,一种办法是采用可视化技术来分析其数据表达并解释其工作机理[97-98],例如以某种可见视图方式来显示激活和特征。通过可视化技术,能够按照逐级上升的顺序展现卷积神经网络各层的直觉期望性质,包括组合性、不变性和类别性。常用可视化技术,比如逆变换(inversion)、激活最大化(activation maximization)和卡通化(caricaturization),是以自然原像概念为基础的。自然原像就是那些看起来具有显著自然特征的图像。通常,一幅图像经过卷积神经网络提取特征后,随着层次的深入,可视化结果会变得越来越模糊和抽象[98]。比如,图1.8是用AlexNet处理一幅狗的图像后可视化各层特征的结果,看起来逐层模糊和抽象。

图1.8 卷积神经网络的逐层可视化举例