欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    人工智能和认知物理学.ppt

    • 资源ID:3187652       资源大小:2.85MB        全文页数:150页
    • 资源格式: PPT        下载积分:10
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要10
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    人工智能和认知物理学.ppt

    1,人工智能和认知物理学,Artificial Intelligence and Cognitive Physics 李德毅 ziqinpublic2.bta.net.cn 2002年11月25日,2,认知科学研究人类如何获取知识和使用知识 数据挖掘让机器模拟人的智能从数据中发现知识,3,目录,人工智能50年发展回顾 20世纪物理学的成就 不确定性认知的原子模型 数据场和势函数 认知场中的知识发现,4,一、人工智能50年发展回顾,人工智能的兴起 智能的判定标准 人工智能研究的不同切入点 人工智能研究的目标,5,人工智能自诞生之日起就引起人们无限美丽的想象和憧憬;已经成为学科交叉发展中的一盏明灯,光芒四射;但其理论起伏跌宕,也存在争议和误解。,6,人工智能的兴起,数学家和逻辑学家; 认知学家和心理学家; 神经生理学家; 计算机科学家,1956年著名的“达特茅斯(Dartmouth)会议”标志人工智能学科的诞生,它从一开始就是交叉学科的产物。与会者有:,7,人工智能的兴起,达特茅斯会议上,明斯基(Marvin Minsky)的神经网络模拟器、麦卡锡(John Mccarthy)的搜索法、以及西蒙(Herbert Simon)和纽厄尔(Allen Newell)的“逻辑理论家”是会议的3个亮点。分别讨论如何穿过迷宫,如何搜索推理和如何证明数学定理。这是初期人们期待的人工智能。,8,人工智能的经典著作,由费根鲍姆主编的Computers and Thought被认为是世界上第一本人工智能的经典专著,含21篇著名论文,1963年出版。 80年代出版的1-4卷The Handbook of Artificial Intelligence是人工智能的杠鼎之作。,9,人工智能研究的杰出人物,20世纪40位图灵奖获得者中有6名人 工智能学者,可见人工智能学科影响之 深远。 1969年:马文·明斯基 1971年:约翰·麦卡锡 1975年:赫伯特·西蒙和艾伦·纽厄尔 1994年:爱德华·费根鲍姆和劳伊·雷迪,10,智能的判定标准,图灵(Turing)测试: 如果机器在与人隔离的房间回答人提出的问题,且人无法判断回答问题的是机器还是人时,则应该认为机器已经具备人的智能。,11,猴子摘香蕉,12,梵塔游戏,初始柱,替换柱,目的柱,13,计算机下棋:,1997年IBM“深蓝”计算机以2胜3平1负的战绩战胜国际象棋冠军卡斯帕罗夫,“深蓝”计算速度为200万棋步/秒,采用启发式搜索方法; 在与下棋领域具有类似性质和类似复杂性问题上,计算机具备有智能。,14,计算机下棋:,卡斯帕罗夫自1990年称霸国际象棋棋坛,2000年举行的国际世界象棋冠军比赛中,克拉莫尼克以8:6领先卡斯帕罗夫。“深蓝”计算机能否打败克拉莫尼克?也就是说,“深蓝”计算机的智能能否“与时俱进”?,15,追求智能的三步曲,1) 啊!真了不起! 2) 啊!是这样的啊! 3) 啊!这也算智能吗? 4) 又回到第一步。,16,人工智能研究的对象,不确定 非线性 不完全 变结构 多变量 分布式,17,人工智能的应用,人工智能的实际应用越来越普遍。智能机器人、智能控制、智能网络、智能手机、智能数据库、智能管理、智能小区、智能交通、甚至智能经济等等不绝于耳,知识就是力量。,18,人工智能研究的切入点,先后出现了3个主流学派: 符号主义方法-逻辑学派 联结主义方法-仿生学派 行为主义方法-控制论学派,19,符号主义学派(西蒙和纽厄尔为代表),物理符号系统假说(physical symbol system hypothesis)。由一组称为符号的实体组成系统,这些符号可作为组份出现在另一符号实体中。任何时候系统内部均有一组符号结构,以及作用在这些符号结构上生成其他符号结构的一组过程。任一物理符号系统如果是有智能的,则必能执行对符号的输入、输出、存储、复制、条件转移和建立符号结构这样6种操作。反之,能执行这6种操作的任何系统,也就一定能够表现出智能。,20,符号主义学派,认知基元是符号,智能行为通过符号操作来实现,以美国科学家Robinson提出的归结原理为基础,以Lisp和Prolog语言为代表; 着重问题求解中启发式搜索和推理过程,在逻辑思维的模拟方面取得成功,如自动定理证明和专家系统; 归结原理不可能成为所有数学分支的证明基础,问题求解和逻辑推理的本质仅仅是演译。,21,联结主义学派(J.J.Hopfield为代表),人的思维基元是神经元,把智能理解为相互联结的神经元竞争与协作的结果,以人工神经网络为代表,其中,反向传播网络模型(BP)和Hopfield网络模型更为突出; 着重结构模拟,研究神经元特征、神经元网络拓朴、学习规则、网络的非线性动力学性质和自适应的协同行为。,22,遗传算法和进化计算:,1975年,John Holland提出遗传算法(Genetic Algorithm),模仿生物染色体中基因的选择(selection)、交叉(crossover)和变异(mutation)的自然进化过程,通过个体结构重组,形成一代代新群体(populations) ,最终收敛于近似优化解。用于处理多变量、非线性、不确定、甚至混沌的大搜索空间的有约束的优化问题;,23,麻将原理:,刚发到手的牌就“和”了的概率是非常非常小的。 不管开始手中的牌有多坏,通过一次次摸牌、选择、淘汰,可以逐步逼近到最优解。这相当进化中的变异和选择原理。 麻将的魅力在于可以在容忍的时间内让牌“和”了。 遗传算法和进化计算的收敛性问题。,24,行为主义学派(R.A.Brooks为代表),控制论研究导致机器人和智能控制,机器人是“感知-行为”模式,是没有知识的智能(iwk, iwr),强调直觉和反馈的重要性; 智能行为体现在系统与环境的交互之中,功能、结构和智能行为不可分割。 90年代起智能Agent成为新的热点。它是一种自治的、具有自发行为、体现交互性和环境适应性的新型智能机模型,具有移动性、推理、规划、学习和适应能力。,25,行为主义学派,反馈是控制论的基石,没有反馈就没有智能。 根据目标与实际行为之间的误差来消除此误差的控制策略。PID控制是控制论对付不确定性的最基本手段。 强调智能系统与环境的交互,从运行的环境中获取信息(感知),通过自己的动作对环境施加影响。,26,当前,以实际问题驱动的人工智能研究成为主流。人工智能不再是阳春白雪,尤其是数据挖掘技术,要以机器再现人类认识过程的方式,为认知科学提供了一个新的实体模型和实在形式。,27,研 究 热 点,模式识别 智能检索 专家系统 自然语言理解,知识工程 数据挖掘 智能控制 智能机器人,28,人工智能三次大跃进,第一次:智能系统代替人完成部分逻辑推理工作,如专家系统。 第二次:智能系统能够和环境交互,从运行的环境中获取信息,代替人完成包括不确定性在内的部分思维工作,通过自身的动作,对环境施加影响,并适应环境的变化。如智能机器人。 第三次:智能系统具有类人的认知和思维能力,能够发现新的知识,去完成面临的任务,如基于数据挖掘的系统。,29,人工智能的目标:,程序 = 智能 ? 计算 = 思维 ? 计算机 = 电脑 ? 目标:以机器方式再现人的智能,30,二、20世纪物理学的成就,物质层次结构和原子物理模型 场理论和四种相互作用,31,物质层次结构和原子物理模型,可以把物质的组成层次看成一个个等级,眼前的物体看成是宏观的,天体看成是宇观的,把分子和原子作为界标,比它们小的物质可以称之为微观的。原子这个层次十分重要。 原子模型的提出与演进,从开尔文模型、汤姆孙模型、勒纳德模型、长冈模型、尼克尔森模型直到卢瑟福的原子有核结构模型,以及原子核模型,都表明构思物质组成模型是一种普遍有效的科学方法。原子的物理模型成为人类认识世界的五个里程碑之一。,32,物理学中的势场,场可视为一个充满能量的空间。例如,将一个位于无穷远处的电荷移至电场中需要消耗能量。场在某点P(r)处的单位作功能力被称为该点的势,记为(r) 。势函数(r)是一个关于场点位置的标量函数,它在场空间中构成一个标量场,即势场。,33,梯度、散度与旋度,梯度是描述标量场变化特性的矢量函数,它可以将一个标量场转换为矢量场,也可以通过引入一个辅助标量函数来分析简化矢量场。 散度、旋度是描述矢量场的两个固有特性:源密度和旋涡密度的物理量。在最一般的情况下,一个矢量场总可以被看作由一个有源场和一个旋涡场叠合组成,如电磁场。因此一个含义不明的矢量场只有当弄清它的两个分量各自的贡献和物理本质后,即已知它的散度和旋度后才算明确。,34,梯度场与旋度场、散度场,梯度场=有势场=有源场=保守场=无旋场,35,电场和引力场的势函数,电场的势函数 引力场的势函数 从静电场和引力场的势函数计算中可以发现,两种场的物理机制虽然各不相同,但在数学形态上却非常相似,即空间区域中不同物质粒子相互作用的数学本质是相同或相近的。,36,物理学中的四种相互作用,牛顿万有引力定律(引力反比于距离的平方)认为在多质点系中存在两两相互作用的引力场和引力势能。 库伦定律(电力反比于距离的平方)认为电荷之间通过电场相互作用,用电场线和等势线可使电场分布形象化。具有相等电势的点构成等势面。,37,物理学中的四种相互作用,核物理认为,核子之间、核子与介子之间,通过夸克间交换胶子实现强相互作用。这就是力程甚短的核力。 按照普适费米理论,弱相互作用是一种点作用,不涉及到任何场。后来人们发现这一观点有问题。1984年若贝尔奖被授予鲁比亚 (Carlo Rubbia) 和范得米尔(Simon Van der Meer)以表彰他们发现弱作用场量子W+¯和Z的杰出贡献。,38,物理学的大统一理论,如果以强相互作用的强度为1的话,电磁相互作用的强度,其值约为10-2;弱相互作用约为10-13 10-19 ;引力相互作用最弱,约为10-39。 物理学家一直企图将这四种相互作用进行统一。爱因斯坦努力了,没有取得成果。真正取得进展的是量子场论。量子电动力学解释了电磁相互作用;量子色动力学解释了强相互作用,又将弱相互作用与电磁相互作用进行统一,即温伯格-萨拉姆电弱统一理论。大统一理论到现在还缺乏实验验证。,39,三、不确定性认知的原子模型,人类思维的基本单元 云模型及其数字特征 正向云发生器和逆向云发生器 连续数据离散化(概念化) 概念粒度、概念空间和泛概念树,40,人类思维活动的层次性,生命科学可还原成不同的层次:如脑的生物化学层次和神经构造层次。认知活动可能对应着一定的生理上的化学、电学的变化。但是,目前生命科学还不能在思维活动与亚细胞的化学、电学层次的活动建立确切的关系。如:一个概念如何以生物学形式存储,它与其它概念发生联系的生物学过程是什么。也不能决定什么样的神经构造可以决定着哪些认知模式的发生。,41,人类思维活动的层次性,目前从脑的生物化学层次和神经构造层次研究认知活动尚有困难。再说,如同我们不能从最基础的硅芯片的活动来推测计算机网络上电子邮件的行为一样,我们又怎么能够设想从分析单个离子、神经元、突触的性质就能够推断人脑的认知和思维活动呢?系统论关于系统整体特征不是由低层元素加和而成的原理对还原论提出质疑。因此,人工智能研究目前需要找到一个合适的层次和单元,向上模拟人类的认知和思维活动。,42,人类思维活动的工具,自然语言使人类获得一个强有力的思维工具,这是不争的事实,起到呈现和保留思维对象及组织思维过程的作用。它是其它各种形式化系统(语言)的基础,派生出像计算机语言这样的特殊语言,也派生出包括各种专业理论的专门化语言,如数学语言。这些符号构成的形式系统, 又成为新一级的形式化。,43,数学汉语 外语,自然语言,符号语言,自然语言和符号语言,44,人类思维活动的工具,自然语言中的语言值表达概念,最基本的语言值代表最基本的概念,成为思维的原子模型。同时,概念具有层次性。,45,概念人类思维的基本单元,客观世界涉及物理对象,主观世界从认知单元和它指向的物理对象开始,反映了主客观内外联系的特性。任何思维活动都是指向一定对象的,通过对象的存在到主观意识自身的存在。 概念作为外部事物在主观认知中的对应物成为思维活动的基本单元。但是概念不是孤立的,它同外部背景有着种种联系,是演变和流动的过程。因此,概念必然具有不确定性,甚至包括盲目性和散漫性。,46,概念的形成:学习和记忆,标准特征是概念的一个组成部分,是用来确认某一具体样例属于该类别的必要或充分条件。 原型在概念中占有特别的地位。 模糊的边界和不清楚的样例是概念的普遍情况。 在一个概括性更高而具体性更低的组织水平上,下位概念作为一个样例被使用,形成基本水平、下位水平和上位水平的层次结构 (basic lever/ subordinate level/superordinate lever)。 概念的形成是多次反复的学习和记忆的过程。,47,困扰人工智能的认知模型,怎样表示用自然语言表述的定性知识? 怎样反映自然语言中的不确定性,尤其是模糊性和随机性? 怎样实现定性和定量知识之间的相互转换? 怎样体现语言思考中的软推理能力?,48,知识表示,人工智能要以机器为载体模仿以人脑为载体的人的思维活动智能,必须找到在人脑和机器两种载体之间建立联系的手段,而这个任务正是由形式化来担当的。知识表示的形式化在人工智能中居于方法论的重要地位。,49,认知模型(Cognitive Modeling),云由许许多多云滴组成,每一个云滴就是这个定性概念映射到数域空间的一个点,即一次反映量的样例的实现。这种实现带有不确定性,模型同时给出这个点能够代表该定性概念的确定程度。,50,云图的可视化方法一,给出云滴在数域(一维、二维或多维)的位置,用一个点表示一个云滴;同时,用该点的辉度表示出这个云滴能够代表概念的确定度。,51,“靠近坐标原点左右”的10000个量化云滴。任何一个云滴都可以在一定程度上代表这个概念。,52,云图的可视化方法二,用数域里的一个圈或球表示一个云滴,其中心反映云滴在数域的位置;同时,圈或球的大小表示出这个云滴能够代表概念的确定度。,53,“靠近坐标点左右”的200个量化云滴。任何一个云滴都可以在一定程度上代表这个概念。,54,云图的可视化方法三,用N+1维表示, N维空间的点表示云滴在数域的位置,另一维表示这个云滴能够代表概念的确定度。,55,不同数值代表语言值 “20 km左右”的确定程度,56,不同的数值代表平面上的点 “靠近中心”的确定程度,57,期望值: 在数域空间最能够代表这个定性概念的点,反映了云滴群的重心位置。,云数字特征的双重性,熵一方面反映了在数域空间可被概念接受的范围,即模糊度,是定性概念亦此亦彼性的度量;另一方面还反映了在数域空间的点能够代表这个概念的概率,表示定性概念的云滴出现的随机性。 熵揭示了模糊性和随机性的关联性。,超熵是熵的不确定度量,即熵的熵,反映了在数域空间代表该语言值的所有点的不确定度的凝聚性,即云滴的凝聚度。,58,正态云发生器的实现算法,1.生成以En为期望值,He为方差的一个正态随机数En; 2.生成以Ex为期望值,En为方差的一个正态随机数x; 3.计算 4. 使(x , y)成为论域中的一个云滴; 5. 重复步骤14直至要求数目的云滴产生。,59,逆向云发生器算法,1 由Ex = 求得Ex; 2 对每一对(xi, yi),由 求出Eni ;,3 由En = 求得En; 4 求Eni的均方差 得到He;,60,云模型的多种形态,正态云, 云,其它,多维云,61,例子: 射击评判,射手乙,射手甲,射手丙,评判人员:统计学家、模糊学家、 云理论研究者,62,射击评判,统计学家用概率值表示射击效果; 模糊学家用隶属度表示射击效果; 裁判用总环数(模糊+统计)表示射击效果; 人们用定性语言评价射击效果,云方法用3个数字特征表示定性概念。,63,云评价方法,略偏左上,比较离散,不稳定,略偏右下,射点集中,较稳定,射点靠近靶心,比较离散,不稳定,64,原始 靶标,还原 10发 弹着点,还原 100发 弹着点,65,误解:云方法是模糊方法,云方法没有仅仅停留在哲学上的思辩,也不能简单地说是概率方法或模糊方法,通过云模型实现定性概念和定量数据之间的转换是一个十分严格的数学方法,使得定性和定量之间的转换变得十分清晰、具体和可操作,同时又反映了转换过程的不确定性。,66,连续数据离散化,对连续数据,首先求得各数据点的频数,对其分布进行云变换,使之成为若干个大小不同的云的叠加,每个云代表一个离散的、定性的概念。数据转换为概念。,67,原始数据分布,拟合结果,云变换,连续数据离散化:云变换,68,概念的粒度,在人的意识活动中,思维的推进是与概念的转移和提升相联系的。转移和提升的跨度和路径也是多样的,我们可以把在一定层次上的思维模式看作是为原始思维活动拍摄的一张快照。反映概念对应的客观事物的粒度。概念的粒度可以用云模型中的熵度量。,69,概念空间,概念空间是指同一类概念的数域。例如,当讨论语言变量年龄这个范畴内的不同语言值时,如10岁左右、少年、青少年、中年、晚年等等概念,常常要明确它们在数域上所表现出的内涵和外延,以及相互之间的等价(相似)关系或从属(包含)关系。因此,不同信息粒度之间的概念在概念空间会形成层次的结构。,70,概念的层次结构,当讨论语言变量年龄这个范畴内的不同语言值(概念)时,常常要明确这些概念是大概念还是小概念,粗概念还是细概念,以及相互之间的等价(相似)关系或从属(包含)关系。因此,不同信息粒度之间的概念在概念空间会形成层次的结构,或者说是泛概念树结构。,71,不同年龄人的泛概念树,少年,72,用云表示的泛概念树,年龄,73,泛概念树,可动态生成不同层次的概念 体现了定性概念的随机性和模糊性 体现不同层次概念间的多隶属关系 反映了数据的实际分布情况 泛概念树的爬升和跳跃,74,四、数据场和势函数,客体间的相互作用和数据场 势函数及其确定准则 用数据场思想进行特征提取和 模式识别,75,数据场的引入,学科的交叉渗透是当前科学发展的总趋势,对客观世界的认识和描述,无论是力学、热物理、电磁学和近代物理,从粒子到宇宙在不同尺度上都有场的作用。那么,人自身的认知和思维过程,从数据到信息到知识,是否也可以用场来描述?,76,物理场举例,在一个质量为M的质点产生的引力场中,任一场点r处的势可以描述为: 如果空间中存在多个质点,则r处的势等于每个质点单独产生的势的叠加,即,77,数据与数据场,受物理场的启发,可将物质粒子间相互作用及其场描述方法扩展至抽象的数据空间。数据空间中的每个对象都相当于一个质点或核子,在其周围产生一个球形对称的作用场,位于场内的所有对象都将受到其他对象的联合作用,从而在整个数据空间上形成一个场,我们称之为数据场。正如引力场、核力场可以用势函数描述,我们也引入势函数来描述数据场的性质。,78,确定势函数形态的准则,势函数具有各向同性,即对称性; 势函数是定义在数域空间上的连续函数; 势函数值随离开场源的距离增大而下降; 表示势函数的连续函数,应该光滑,即可微。,79,可选的势函数形态,拟引力场的势函数: 拟核力场的势函数:,其中, 为以场源坐标为原点时场点的径向半径;参数k为一个正整数,用于调节势函数的衰减特性;参数b(0,+),用于控制对象的作用范围,称为影响因子;参数a相当于质点或核子的质量代表数据场的强度。,80,两种势函数形态比较,拟引力场的势函数,拟核力场的势函数,81,数据场的势函数定义,已知数据空间中的对象集 及其产生的数据场,则任一场点y处的势函数可以定义为所有对象在该点处产生的单位势值的叠加:,82,数据场的可视化,二维数据空间中的一个数据集及其产生的数据场等势线图,83,数据场扩展,自然语言中的基本语言值是定性概念,由于每个定性概念都可以用一个数值型集合来表示其内涵和外延, 即对应着一个定量的数据子空间,称为概念空间。概念和概念之间也可以通过场相互作用,形成概念间的泛层次树,又称上、下位词表。 人类思维过程中的对象,对应着一个定量的数据空间,反映对象的多个属性,称为特征空间。对象和对象之间也通过场相互作用,形成知识。 概念空间和特征空间中的场统称为数据场。,84,我们将云滴的确定度视为场源的质量,显然,确定度高的云滴具有较强的作用场。 右图中每个云滴的位置坐标和确定度为: A(10,12,0.6) B(10,10,1) C(13,11,0.3),8,9,10,11,12,13,14,15,8,9,10,11,12,13,14,15,A,B,C,不同确定度的三个云滴形成的数据场等势线图,85,用数据场思想进行特征提取和模式识别,86,预处理后的人脸图像,每幅图象的原始尺寸为 256 x 256 个像素点,256级灰度,87,灰度数据集映射成为数据场及势的局部极值,88,Name,feature,数据场的极值成为逻辑特征,89,二次生成数据场进行模式识别,If we pick up an extreme local maximum potential value and its position as the most important feature for each face image, the facial feature data field for the ten face images may be, once again, illustrated by a new isopotential lines.,90,Face identification with the first feature,91,Isopotential lines show the similarities and outliers for the ten images,A C E F G B D I H J,92,Face Recognition using Facial Main Feature Data Field,We may also pick up N local maximum potential values and their positions as the main features for each face picture, the main feature data are calculated by,The main feature data field for the ten face picture is illustrated once again by equal potential lines.,and,93,用多个特征值融合后的识别结果,94,Face identification: discovering similarities and discrimination,B C G E D F A H I J,95,用数据场方法看IRIS数据分类,96,IRIS原始数据集,97,数据预处理,对iris数据中的萼片属性和花瓣属性分别做降维处理,得到新的属性: 花瓣张角=arctg(花瓣宽度/花瓣长度); 萼片张角=arctg(萼片宽度/萼片长度);,98,处理后数据集,99,预处理后数据分布,100,从数据场平面分布看分类结果,101,从数据场立体分布看分类结果,102,五、认知场中的知识发现,数据挖掘与知识发现 发现状态空间 类谱图,103,数据挖掘与知识发现 Data Mining and Knowledge Discovery,从大量的、不完全的、有噪声的、模糊的、随机的实际应用的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,104,从数据中发现知识的难点,大量甚至海量数据中,存在有数据的误差、畸变、丢失或过度重叠,以归纳为主的知识发现过程,实际上是建立在或多或少的病态数据之上;由种种案例数据反推对象的性质可认为是逆向思维,人们在命题、方法或结果三个方面会获得更多的目标选择。,数据挖掘,数据选择 预处理 挖掘和发现 知识解释和验证,106,DMKD系统的基本构成,发现什么样的知识?,关联知识 聚类知识 序列知识,分类知识,预测知识,相似时间序列,数据挖掘工具,归纳 演绎 联想 类比 证伪,109,数据挖掘与知识发现 Data Mining and Knowledge Discovery,特定问题或特定环境下的数据,是一种原始的、混乱的、不成形的自然状态积累,但又是一种可以从中生长出秩序和规则的源泉。如何透过表观上的千头万绪、混乱无规,去挖掘蕴含其中的规则性、有序性、相关性和离群性,这就是知识发现。,110,DMKD的本质,什么是数据?什么是信息?什么是知识? 本质是归纳,是由微观到中观到宏观的抽象. 瓶颈是数据、信息和知识表示的不确定性问题.,111,发现状态空间,112,发现状态空间,特征空间的对象通过场发生相互作用。如同物理学中粒子之间通过场(场量子)形成强力、电磁力、弱力或引力的相互作用一样。 对象在特征空间相互作用形成的场结构反映了对象的普遍知识(广义知识)。随着描述对象粒度(熵)越来越大,形成的普遍知识越来越宏观。发现了的知识上升到抽象级别更高的层次。 20世纪的物理学的发展是简化归纳。数据挖掘的本质也是简化归纳。,113,人类的认知过程是对复杂对象关系的中观、宏观的知识发现过程,是对象所在的特征空间的微观数据通过用自然语言表述的不同抽象度概念的非线性相互作用下涌现(突现)的自组织特性。,114,发现状态空间 = (特征空间|概念粒度),115,数据挖掘过程,实际上是从不同的抽象度上认识数据。所谓微观、中观、宏观,就是可视化的称谓。因此,数据挖掘需要各级视图的支持。,116,随着抽象度的提高:,描述每个属性中的概念的粒度越来越大; 特征空间对象之间的关系越来越普遍; 发现的知识逐步由微观走向中观、宏观; 整个归纳过程形成发现状态空间的不断转换。,117,对象属性的选取形成不同视图,好比是从不同角度投射到客体的不同光柱,它们各有所见不及之处,但也各自照亮了不同景象。,118,从不同距离观察客体群,各有所见之景象。通过推拉镜头,可以改变观察的距离,形成不同粒度的视图。,119,特征空间,当我们讨论一个客体(对象、事物、案例、记录等)具有不同属性或特征时,常常用特征空间作为讨论问题的范畴,N个属性或特征,构成N维空间。这时,这个客体成为特征空间的一个点。特征空间任何一点的势可认为是所有客体在这一点的势的叠加。,120,特征空间的聚类和类谱图,当我们进行数据挖掘时,将数据库中的一条记录按照其N个属性,把这条记录映射到特征空间中的一个特定点上,成千上万的记录在特征空间是成千上万个点,整体上呈现出的抱团特性,可以通过嵌套的等势线(面)-自然的拓扑结构,形成自然的聚类和类谱图。,121,分类和聚类研究的基础性,分类和聚类,乃是人类社会活动、生产活动以及科研活动中最基本、最重要的活动之一。分类和聚类研究的基础性决定了其应用的普遍性。,122,场方法发现聚类知识,123,A,B,C,D,E,特征空间5个对象的自然聚类,124,5个对象构成的泛类谱系图,125,特征空间的3000个对象的自然聚类,A,B,C,A,B,C,D,E,126,和传统聚类方法的比较:,通常,人们用N个客体中的N1个样本作为训练集去形成聚类结果,用N-N1个样本作为测试集去验证聚类效果。实际上,这就宣布了只有这N1个样本才对聚类有贡献,若N=100,极端地设想N1=2或 N1=98,必然会有不同结果。如何确定N1并选取那些样本为N1,成为一个大问题,也暴露出这种方法的缺陷。,127,和传统聚类方法的比较:,从极微观上看,这N个客体各自都有体现自身价值的不同特征,差异是绝对的,最严最细的分法应该是N类。从极宏观上看,这N个客体既然被用若干特征放到一起比较,说明具有可比性,可以统属一类。 在发现状态空间不同概念层次上聚类,以及聚类的相对性,就是我们的聚类观。,128,知识就是不同层次上的“规则+例外”,129,去除例外后的聚类图,A,C,130,3000个对象中类和离群的相对性,131,信息粒度,粒度(Granularity)原本是一个物理学的概念,是指“微粒大小的平均度量”,在这里被借用作为对概念的抽象度的度量。把概念可视化。 概念的粒度用云的熵来度量。 概念在定量空间的位置用云的期望值来标定。,132,信息粒度,人类智能的一个公认特点是人们能够从极不相同的粒度上观察和分析同一问题,各有各的用处。人们不仅能够在同一粒度的世界上进行问题求解,而且能够很快地从一个粒度世界跳到另一个粒度世界,往返自如;甚至具有同时处理不同粒度世界的能力。这正是人类问题求解的强有力的表现。,133,观察距离:境界决定了认知的高度,从较细的粒度世界跃升到较粗的粒度世界,是对信息或知识的抽象,可以使问题简化,数据处理量大大减少,这一过程称为数据简约或归约。 换句话说,用粗粒度观察和分析信息,就是增加观察距离,忽略细微的差别,寻找共性。共性常常比个性更深刻,可以求得宏观的把握。,134,观察距离:境界决定了认知的高度,反过来,缩短观察距离,用细粒度观察和分析信息,发现纷繁复杂的表象,更准确地区分差别,个性要比共性丰富,但是不能完全进入共性之中。 通过概念提升, 就是增加观察距离,可以发现更普遍的知识。,135,拉镜头发现特征空间的宏观知识:,属性方向和宏元组方向的概括性加大;知识模板的物理尺寸减小。 从较细的粒度跃升到较粗的粒度世界,是对数据的抽象,简化问题,减少数据量,这一过程称为数据的归约。 忽略细微的差别,寻找共性。共性常常比个性更深刻。,136,推镜头发现特征空间的微观知识:,在发现空间的某个抽象层次上,缩短观察距离,用较细粒度观察和分析信息,发现纷繁复杂的表象,更准确地区分差别; 个性要比共性丰富,但是不能完全进入共性之中。,137,发现策略和方法,发现是微观和宏观之间的跳跃,是信息粒度的变化,或者说是观察距离的不同; 综合运用归纳、类比、联想,并结合证伪和演绎,形成五大手段; 以云模型作为定性定量转换和知识表示的工具。 具体发现方法可以是多种多样的。,138,知识发现机理,数据挖掘揭示了人类由个别到一般、从具体到抽象的“数据概念规则”的认知规律。 概念是认知的基元;数据是形成概念的要素;规则是在不同概念层次上客体之间的关联;不同抽象度的知识,实际上是不同概念层次上的“规则加例外”而已;境界决定了认知的高度。 认知物理学用计算机具体实现了这一规律的发现过程。,139,从数据开采的角度看专家系统:,专家系统是正向方式认识世界,以演绎为主;数据开采是逆向方式认识世界,以归纳为主。 通过数据开采来发现知识的过程,就是构造专家系统、生成知识库的过程。,140,The Experimental Database,141,Mining Association Rules,Apriori algorithm Cloud based generalization as preprocessing 2D clouds : location 1D clouds : elevation, road density, distance to the sea, average income Minimum Support : 6% Minimum Confidence : 75% Mining association at multiple concept levels,142,Discovered Association Rules for “average income”,Rule 1 : If location is “southeast”, road density is “high”, and distance to the sea is “close”, then average income is “high”. Rule 2 : If location is “north by east”, road density is “high”, and distance to the sea is “close”, then average income is “high” Rule 5 : If location is “northwest”, road density is “low”, and distance to the sea is “far”, then average income is “low. Rule 6 : If location is “central”, road density is “high”, and distance to the sea is “middle”, then average income is “middle”.,143,Discovered Association Rules for “road density”,Rule 1: If elevation is “low”, then road density is “high”. Rule 2: If elevation is “high”, then road density is “low”. Rule 3: If elevation is “middle” and location is “northwest”, then road density is “low”. Rule 4: If elevation is “middle” and location is “north”, then road density is “middle”.,144,世界著名科学家、诺贝尔物理学奖获得者李政道在物理的挑战讲演中说:,“20世纪的物理发展,是简化归纳” “科学,不管天文、物理、生物、化学,对自然界的现象,进行新的准确的抽象,科学家抽象的叙述越简单,应用越广泛,科学创造也就越深刻。”,145,认知物理学的局限性,认知心理学 (Cognitive Psychology) 知觉、记忆、意识、学习、言语、情感、识别、思考、决策、创造等 认知语言学 (Cognitive Linguistics) 言语理解(语音、语调、语意)、言语和情感、语言和概念、语言和思维、听和说、语言和音乐、语言和心理、儿语和认知等 认知物理学 (Cognitive Physics) 主观和客观、物质和概念、层次和模型、认知场等,146,结 论 一,物理学对客观世界的认识,无论是力学、热物理、电磁学和近代物理,从粒子到宇宙,在不同尺度上都有模型、层次和场的理论。那么,人自身的主观认知和思维过程,从数据到信息到知识,是否也可以用模型、层次和场来描述?,147,结 论 二,按照认知物理学的思路,把云模型作为思维的原子模型;通过概念空间中的数据场形成不同的概念层次关系;通过特征空间对象的数据场形成不同的类和类谱系图;在不同概念粒度上对象构成的特征空间呈现出不同的发现状态,境界决定了认知的高度,用场和等势线可视化人类的思维过程,从而发现对象之间的关联,形成不同抽象度的知识,即不同概念层次上的“类和离群”,或者 “规则加例外”。,148,结 论 三,“数据

    注意事项

    本文(人工智能和认知物理学.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开