人类的视觉识别学习过程是怎样的?我们能否研究这些不同的来源?.doc
《人类的视觉识别学习过程是怎样的?我们能否研究这些不同的来源?.doc》由会员分享,可在线阅读,更多相关《人类的视觉识别学习过程是怎样的?我们能否研究这些不同的来源?.doc(12页珍藏版)》请在三一文库上搜索。
1、人类的视觉识别学习过程是怎样的?我们能否研究这些不同的来源?当只需要把大规模标注图像数据库塞给深度神经网络就可以得到高准确率的物体分类模型之后,有很多研究人员开始考虑更深入的问题:人类的视觉识别学习过程是怎样的?以及既然人类视觉系统与计算机视觉系统之间表现出了种种不同,我们能否研究这些不同的来源?这是否能给我们带来新的启示?与深度学习大大不同的是,人类幼儿正是靠少量物体、少量面容的反复多视角观察培养出了稳定、通用的物体识别能力。视觉学习同时依赖于算法和训练材料。这篇文章考虑了婴幼儿以自我为中心视觉的自然统计特性。这些用于人类视觉目标识别的自然训练集与输入机器视觉系统的训练数据有很大的不同。比起
2、通过平均经历所有事情来进行学习,幼儿经历的分布偏向明显:有很多事情重复发生。虽然从整体上看变化很大,但个体对事物的看法是按照特定的顺序来体验的从每时每刻变化的缓慢、流畅的视觉,到场景内容发展有序的过渡。我们认为,婴幼儿偏向明显、有序、有偏向的视觉体验是一种训练数据,它使人类学习者能够开发出一种方法来识别所有事物,包括随处可见的实体和很少见到的实体。人类和机器学习研究人员将真实世界统计的学习数据联合起来考虑,似乎有可能为这两个学科带来进步。引言学习是人类认知的核心属性,是人工智能长期追求的目标。我们正处于在人类和人工智能领域产生出新见解的临界点,这些见解将通过明确地将人类认知、人类神经科学和机器
3、学习的进步联系起来而更快地显现出来。Thought-papers呼吁机器学习的研究人员利用来自人类和神经的灵感来建造像人一样学习的机器(例如Kriegeskorte, 2015;Marblestone et al., 2016),并呼吁人类认知和神经科学的研究人员把机器学习算法作为关于认知、视觉和神经机制的假设(Yamins and DiCarlo, 2016)。这种新萌发出的兴趣的推动力之一使深度学习网络在解决非常困难的学习问题方面取得了巨大的成功。这些问题是以前无法解决的(例如Silver et al., 2016)。在神经感知器和连接主义网络的谱系中,深度学习网络将原始的感官信息作为输入
4、,并使用多层的分层组织结构,每一层的输出作为下一层的输入,从而形成特征提取和转换的级联。这些网络特别成功的一个应用是机器视觉。这些卷积深度学习网络(CNNs)的分层结构和空间汇聚不仅产生了最先进的图像识别技术,而且通过特征提取的分层组织来实现这一功能,这种特征提取近似于人类视觉系统皮层的功能(Cadieu et al., 2014)。在人类认知方面,头戴式摄像机和头戴式眼球追踪技术的最新进展,已经在自然学习环境方面取得了令人兴奋的发现。人类日常视觉环境的结构和规律尤其是婴儿和儿童的视觉环境一点也不像最先进的机器视觉中使用的训练集。机器学习的训练图像是由成人拍摄并组织起来的照片。因此,他们偏向于
5、成熟系统的看起来有用的东西,反映的是感知发展的结果,而不一定是驱动这种发展的场景(例如,Fathi et al., 2011;Foulsham et al., 2011;Smith et al., 2015)。真实世界的感知体验并不是由摄像机来框定的,而是与身体在世界上的活动联系在一起的。因此,学习者对视觉环境的视角是高度选择性的,取决于瞬间的位置、空间中的方位、姿势以及头部和眼睛的运动(参见Smith et al., 2015., 2015, 待审)。图1显示了以自我为中心的视域的选择性:并不是环境中的所有内容都在婴儿的视域范围中;除非婴儿转过头去看,否则看不到猫、窗户、时钟、站着的人的脸。
6、感知者的姿势、位置、运动、兴趣和社会互动使视觉信息的观点产生系统性偏向。图1 自我中心视域的选择性。阴影指示的视场对应婴儿头部视角。随着个人成长,对不同类别的视觉体验会产生偏向。从而使所有这些姿势、位置、动作、兴趣都发生了巨大的变化。特别是在生命的前两年,每一项新的感官运动的成就翻身、伸展、爬行、行走(以及更多)都会为新的视觉体验类别打开大门。因此,人类视觉系统的发展不是通过成批的处理,而是通过一套系统、有序的视觉体验课程来完成的,这套课程是通过婴儿自身的感觉运动发展而设计的。以自我为中心的视觉系统为研究人员提供了直接访问这些发展受到制约的视觉环境属性的途径。在这里,我们考虑了真实世界视觉学习
7、数据集的新发现与机器学习的潜在相关性。有人可能会问,鉴于当代计算机视觉的所取得的成功,机器学习者为什么要关心孩子们是如何做到这一点的呢?Schank 是人工智能早期的一位开创性人物,他写道:我们希望能够开发出一个可以学习的程序,就像一个孩子所做的那样(Schank, 1972)。这似乎仍然是自主人工智能的一个合适目标。最近,在一个大型的机器学习会议上,Malik(2016年,私人交流,参见Agrawal et al., 2016)告诉想为机器学习下一个大的进步做准备的年轻学习者认真学习发展心理学,然后运用这些知识构建新的更好的算法。有鉴于此,我们从一个例子开始,说明为什么机器学习者应该关注儿童
8、学习环境中的规律:有充分的证据表明,一个两岁儿童在视觉学习方面的能力是当代计算机视觉中尚无法匹敌的(见Ritter et al., 2017)。两岁小孩能做什么人类可以在不同条件下下识别多种类别的大量物体实例(Kourtzi and DiCarlo, 2006;Gauthier and Tarr, 201)。识别所有这些实例和类别需要视觉训练;人们必须曾经见过狗、汽车和烤面包机才能在视觉上识别这些类别的实例(例如,Gauthier et al., 2000;Malt and Majid, 2013;Kovack-Lesh et al., 2014)。这对人类和计算机视觉算法都适用。但目前儿童的
9、发展轨迹和算法有很大的不同。对于儿童来说,早期学习是缓慢且充满错误的(例如,MacNamara, 1982;Mervis et al., 1992)。的确,1-2 岁的儿童在视觉目标识别任务中的表现可能比表现最好的计算机视觉算法要差一些,因为 1-2 岁儿童在进行类别判断时具有许多抽象过度和抽象不足的特点,有时在视觉拥挤的场景中完全不能识别已知的物体(Farzin et al., 2010)。然而,两岁之后情况就不一样了。此时,孩子们可以从一个实例推断出整个类别。只要给定一个新类别的实例及其名称,两岁的儿童就会立即以成人的方式概括该名称。例如,如果一个两岁的孩子遇到第一个拖拉机比如说,一个绿色
10、的 John Deere 拖拉机在地里工作而当听到它的名字,孩子从这一点会认识所有的各种各样的拖拉机红色的 Massey-Fergusons,古董拖拉机,割草机但不是挖掘机或卡车。这种现象在发展文献中被称为形状偏向,是在儿童的自然类别学习中观察到的单样本学习的一个例子。这已经在实验室中得到了复制和广泛研究(例如,Rosch et al., 1976;Landau et al., 1988;Samuelson and Smith, 2005)。研究人员如今已经非常了解形状偏向及其发展,下面列举一些相关研究成果。形状偏向的出现与儿童物体名称词汇量的快速增长是同时发生的。这种偏向是关于感知到的事物的
11、形状,当儿童能够从主要部分的关系结构中识别出已知的物体时,这种偏向就会出现(Gershkoff-Stowe and Smith, 2004)。形状偏向本身是通过对一组初始对象名称的缓慢学习而习得的(据估计,其中可以包括 50 到 150 个学习到的类别,Gershkoff-Stowe and Smith, 2004)。在实体游戏的背景下,对基于形状的对象类别辨别进行早期强化训练,会导致 1-2 岁的儿童比一般儿童更早出现形状偏向,而且这些儿童词汇量的增长速度也会更早 (Samuelson, 2002;Smith et al., 2002;Yoshida and Smith, 2005;Perr
12、y et al., 2010)。形状偏向不仅与儿童对物体名称的学习有关,还与对的物体操作有关 (Smith, 2005;James et al., 2014a),并随着儿童从三维形状的抽象表征中识别物体的能力逐渐增强(Smith, 2003,2013;Yee et al., 2012)。学习语言有困难的儿童晚说话者、有特殊语言障碍的儿童、自闭症儿童不会形成强烈的形状偏向(Jones, 2003;Jones and Smith, 2005;Tek et al., 2008;Collisson et al., 2015;Potrzeba et al., 2015)。简而言之,典型的成长中的儿童在缓
13、慢地学习一组对象类别名称的过程中,也会学习到如何以某种方式直观地表示对象形状。这种方式使他们能够在只提供一个新类别实例的情况下,估计出一个新对象类别的边界。最先进的机器视觉运作方式则不同。没有哪种机器学习的方法能够改变其学习的本质;相反,每一个需要学习的类别都需要大量的训练和例子。区别在哪里?所有的学习都依赖于学习机制和训练数据。幼儿是非常成功的视觉分类学习者;因此,他们的内部算法必须能够利用日常经验中的规律,不管这些规律是什么。因此,了解婴儿的日常视觉环境以及他们如何随着发展而变化不仅有助于揭示相关的训练数据,而且还提供了有关学习的内部机制的信息。发展变化的视觉环境对婴儿头部摄像机获得的数据
14、进行研究,非常清楚地表明:人类视觉学习的训练集在成长过程中发生了很大的变化。图 2 显示了头摄像头捕获的示例图像。一个例子涉及到婴儿对周围人的以自我为中心的视角。对婴儿在日常生活中采集的大量头部相机图像进行分析(Jayaraman et al., 2015,2017;Fausey et al., 2016)研究表明,人物总是出现在婴儿头部相机图像中,新生儿和两岁儿童的这一比例是相同的。这并不奇怪,因为不能把婴幼儿单独留下。然而,在头部摄相机的图像中,年龄较大和较小的婴儿的具体身体部位是不一样的。对于3个月以下的婴儿来说,人脸无处不在,在每小时的视觉体验中,人脸占15分钟以上。此外,这些脸始终靠
15、近年幼的婴儿(在距离头部摄像机2英尺以内),并显示出两只眼睛。然而,当婴儿接近 1 岁生日时,头部摄像机记录下的面部图像已经很少见了,在醒着的每一个小时里,只有大约6分钟的时间有面部出现。相反,对于 1- 2 岁的孩子来说,他们可以看到其他人的手(Fausey et al., 2016)。这些手主要(超过85%的手的图像中)会接触和操作一些物体。这种婴儿面前视觉场景内容的变化是由他们的感觉运动能力的变化、父母相应的行为以及婴儿兴趣的变化所驱动的。在所有这些相互联系的力的作用下最终产生了用于视觉学习的数据。这些数据会发生变化从许多全景式和近距离的面孔到许多作用于物体的手。我们强烈怀疑这个顺序早期
16、的面孔,后来的物体这关系到人类视觉物体识别如何以及为什么以这种方式发展。图2 头部相机的样本捕捉了三个不同年龄的婴儿的图像。在构型人脸处理中,沉睡效应体现了早期密集的人脸视觉体验的重要性。Maurer et al. (2007)将沉睡效应定义为一种在发展后期出现的永久性缺失,但这是由于早期体验不足造成的。一个例子涉及婴儿在 2 至 6 个月大时因先天性白内障而丧失早期视力输入的情况。根据多项视力发展指标(包括敏锐度、对比敏感度),这些婴儿在白内障摘除后,开始追赶上同龄人,呈现出视力发展的典型轨迹。但随着年龄的增长,这些个体在人类视觉面部处理的成熟特征之一构型面部处理(configural fa
17、ce processing)中表现出永久性的缺失。构形处理是指基于一种类似格式塔的表征,它压制个体特征信息对个体面孔进行区分和识别的过程。这是人类视觉处理的一个方面,直到 5 - 7 岁时才开始出现(Mondloch et al., 2002)。Maurer et al. (2007)假设,早期的经验保存和/或建立了神经基质,用于较晚发展的面部处理能力(另见Byrge et al., 2014)。我们推测,婴幼儿密集的近距离、全视角面部体验是先天性白内障婴幼儿早期体验缺失的部分。因为这些经历与婴儿自身不断变化的偏向和感觉运动技能有关,所以当婴儿的白内障后来被摘除时,这些经历不会被他们的社交伙伴
18、带来的经验所取代。因为到那时,婴儿自身的行为和自主性将产生非常不同的社交互动。因此,根据假设,早期密集的面部体验对于建立或维持大脑皮层回路可能是必要的,而大脑皮层回路支持后期出现的专门的面部处理。有可能早期的面部体验只对面部处理重要,这是针对特定领域的结果的特定领域的体验。然而,我们有理由提出另一种观点。人类视觉皮层通过一系列特征提取和转换的层级系统构建我们所看到的世界(例如,Hochstein and Ahissar, 2002)。所有的输入都在相同的低层和所有较高的表示层中通过并进行调优面孔、对象、字母在低层的活动上进行计算。这样,对人脸的学习和对非人脸对象类别的学习都依赖于相同底层的精度
19、、调优和激活模式。较低层次的简单视觉识别在较高层次的视觉过程中具有深远的普遍性(例如,Ahissar and Hochstein, 1997)。来自人类婴儿的头部摄像机图像表明,较低层次的最初调谐和发育是通过视觉场景完成的,其中包括许多闭着眼睛的面孔。正因为如此,儿童以后对非人脸物体特征的学习和提取至少在一定程度上是由较低层次的早期调谐形成的,这种调谐严重偏重于近距离人脸的低层次视觉特征。虽然Maurer et al. (2007)使用沉睡效应一词来指代经验的缺失,但早期视觉体验对后来发展的作用同时具有消极和积极两方面的意义。个人早期经验中的结构规律性会对层次化的神经系统进行训练和调优,这样做
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人类 视觉 识别 学习 过程 怎样 我们 能否 研究 这些 不同 来源
链接地址:https://www.31doc.com/p-3373535.html