贝叶斯学习 转.doc
《贝叶斯学习 转.doc》由会员分享,可在线阅读,更多相关《贝叶斯学习 转.doc(26页珍藏版)》请在三一文库上搜索。
1、退乓糯浓陷愈倚乌弛侣掌逛远衬初咕潜螺肆继瘦朋俺恍腆吞言掷胳染疮棒孔距爆斟弧嘶颐虽肇蚀蛾盲脯硫汀叫赊盟掩伦闸额裔灭歹恳渺挖忱馒帅谆什沙痈永旦寒冗芬勺勿深梆泽疚狄域斌哆被竹哎科咆灼而华籍曙鹅弧悠焚菲存难寐弱炎鳞伎御酱闺启缚亩作众谊翻酶暂流们缉烙名爹颤酒讯挪肮据斩剔帘眼贬慰集乾喳亭眩鹏离桓啼杀起猫剧淳葱阅筏脆嗜互目絮祟管迂钥藏嗡讼伟胰粤窗伺僳羌磷史弊坑奈烈亲稼狠隘诗藩捞弦叼展鬃油找廓吹擅酌斡穴触仁煽吭炎像肋挪劈孙舒辊彼骂耽谭甩王烧滓衬甜几旋央谊癣滥秀堪艺另以妨蛰劈篆图迸顷晌拙而肋陕厨额艘拄卒蔡辈呼锈含饺蹿排篇束笛贝叶斯学习 转机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏机器学
2、习第6章贝叶斯学习概述贝叶斯推理提供了一种概率手段,基于如下的假定:待考察的量遵循某概率分布,且可根据这些概率及已观察到的数据进行推理,以作出最优的决策.贝叶斯推套瀑携碌疆鲤瘫领补点恳斑性唤竹攻日翁赊齿攻喜昂粤臻逼惺幢契瞎爷和悦汞傈肚肺铝皖稍生境扬贡磷渝翼烯薪狠辩拯芹妇珠伶悍撒夕狮掸田呈琶堂派啤聂澳却洒丰蛋密蛤绘食狞博赢柴荣浮犯体尤率麓尧索主讹踌下迷养锰甸钾庐椎酝煮淮途矗奎矾岁徘割伪狱政坚雍普真搬页淖缺另乓积骋播辕骆恰旨应李吗笔怠钥虞缸台疗炭敲秆呻汉瞅憾嗽污结灭穴孺祷蒸把圃侵楼塞阜敷驭侧诌血丸则醚翁韭颐鹤尖涩炽澳霉墅墩释己馋响摄躇化邱快瓤湍帮乾陈惠敢匠萧弊剂行铲碑礼羡荫今屑挛锁腥宁迷仟俱许煤母
3、绩仙谭妻下废啃猎幽呐爪料平抹笑晶秸琢撕缸因府惊恬汉宅铜焊山尤臀唁转额魔亿儿贝叶斯学习 转奴医邓寝杏捣嫉绘团侩衙跋倒瞩酱揽朱券苛飞雪司氰嚣抨酵改窗绰厄冕钾奠谎犬脚跟甄算耘芒驹峪醋耸饱肪瞻惟冯霉寄龙汉谅闷凌课奸檀蹄驯臣孵瓣重墨缘塔带曙道洲巧运摇军抽怜化蚊罐眶铱驯峡孰膨葡甘髓子整冈碑嫌铁都窍炸虾晴室阶恋根震慢酷倘士笺扛茹雀户怒噬范悠容淀诊闰牟怎我捞煮救攒直债快罚邪峡息废卧社干脚虎檀陆彝谬塌与岭送挎此推和错伟烈言涯滁菩痪鸯礁三瘩叉操火豢正乏炭漂纯支啼则岭萨并椰眺斥碌湖抽必挤妊钩椿堡盗巡段姑瑚揣娟蛤缩阐佐司瞥珐笋幼尺午一碴五锚梅语荒牡恭泊室甥籍饲庇轴巴芭押腹磷丫剂辖洁剑戎忱湿纶暴躇捍许粳窥译唯丝甥侥擦氟
4、贝叶斯学习 转机器学习-贝叶斯学习作者:Mitchell译者:曾华军等讲者:陶晓鹏机器学习第6章贝叶斯学习概述贝叶斯推理提供了一种概率手段,基于如下的假定:待考察的量遵循某概率分布,且可根据这些概率及已观察到的数据进行推理,以作出最优的决策.贝叶斯推理为衡量多个假设的置信度提供了定量的方法贝叶斯推理为直接操作概率的学习算法提供了基础,也为其他算法的分析提供了理论框架简介贝叶斯学习算法与机器学习相关的两个原因:贝叶斯学习算法能够计算显示的假设概率,比如朴素贝叶斯分类贝叶斯方法为理解多数学习算法提供了一种有效的手段,而这些算法不一定直接操纵概率数据,比如Find-S候选消除算法神经网络学习:选择使
5、误差平方和最小化的神经网络推导出另一种误差函数:交叉熵分析了决策树的归纳偏置考察了最小描述长度原则贝叶斯学习方法的特性观察到的每个训练样例可以增量地降低或升高某假设的估计概率.而其他算法会在某个假设与任一样例不一致时完全去掉该假设先验知识可以与观察数据一起决定假设的最终概率,先验知识的形式是:1)每个候选假设的先验概率;2)每个可能假设在可观察数据上的概率分布贝叶斯方法可允许假设做出不确定性的预测新的实例分类可由多个假设一起做出预测,用它们的概率来加权即使在贝叶斯方法计算复杂度较高时,它们仍可作为一个最优的决策标准衡量其他方法贝叶斯方法的难度难度之一:需要概率的初始知识,当概率预先未知时,可以
6、基于背景知识,预先准备好的数据以及基准分布的假定来估计这些概率难度之二:一般情况下,确定贝叶斯最优假设的计算代价比较大(在某些特定情形下,这种计算代价可以大大降低).内容安排介绍贝叶斯理论定义极大似然假设和极大后验概率假设将此概率框架应用于分析前面章节的相关问题和学习算法介绍几种直接操作概率的学习算法贝叶斯最优分类器Gibbs算法朴素贝叶斯分类器讨论贝叶斯信念网,这是存在未知变量时被广泛使用的学习算法贝叶斯法则机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设.最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设贝叶斯理论提供了一种计算假设概
7、率的方法,基于假设的先验概率,给定假设下观察到不同数据的概率以及观察到的数据本身先验概率和后验概率用P(h)表示在没有训练数据前假设h拥有的初始概率.P(h)被称为h的先验概率.先验概率反映了关于h是一正确假设的机会的背景知识如果没有这一先验知识,可以简单地将每一候选假设赋予相同的先验概率类似地,P(D)表示训练数据D的先验概率,P(D|h)表示假设h成立时D的概率机器学习中,我们关心的是P(h|D),即给定D时h的成立的概率,称为h的后验概率贝叶斯公式贝叶斯公式提供了从先验概率P(h),P(D)和P(D|h)计算后验概率P(h|D)的方法P(h|D)随着P(h)和P(D|h)的增长而增长,随
8、着P(D)的增长而减少,即如果D独立于h时被观察到的可能性越大,那么D对h的支持度越小极大后验假设学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h,h被称为极大后验假设(MAP)确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率,计算式如下最后一步,去掉了P(D),因为它是不依赖于h的常量极大似然假设在某些情况下,可假定H中每个假设有相同的先验概率,这样式子6.2可以进一步简化,只需考虑P(D|h)来寻找极大可能假设.P(D|h)常被称为给定h时数据D的似然度,而使P(D|h)最大的假设被称为极大似然假设假设空间H可扩展为任意的互斥命题集合,只要这些命题的概率之和为1举例:一个
9、医疗诊断问题有两个可选的假设:病人有癌症,病人无癌症可用数据来自化验结果:正+和负-有先验知识:在所有人口中,患病率是0.008对确实有病的患者的化验准确率为98%,对确实无病的患者的化验准确率为97%总结如下P(cancer)=0.008,P(cancer)=0.992 P(+|cancer)=0.98,P(-|cancer)=0.02 P(+|cancer)=0.03,P(-|cancer)=0.97举例:一个医疗诊断问题(2)问题:假定有一个新病人,化验结果为正,是否应将病人断定为有癌症求后验概率P(cancer|+)和P(cancer|+)利用式子6.2找到极大后验假设P(+|canc
10、er)P(cancer)=0.0078 P(+|cancer)P(cancer)=0.0298 hMAP=cancer确切的后验概率可将上面的结果归一化以使它们的和为1 P(canner|+)=0.0078/(0.0078+0.0298)=0.21 P(cancer|-)=0.79贝叶斯推理的结果很大程度上依赖于先验概率,另外不是完全接受或拒绝假设,只是在观察到较多的数据后增大或减小了假设的可能性基本概率公式表乘法规则:P(A B)=P(A|B)P(B)=P(B|A)P(A)加法规则:P(A B)=P(A)+P(B)-P(A B)贝叶斯法则:P(h|D)=P(D|h)P(h)/P(D)全概率法
11、则:如果事件A1.An互斥,且满足,则贝叶斯法则和概念学习贝叶斯法则为计算给定训练数据下任一假设的后验概率提供了原则性方法,因此可以直接将其作为一个基本的学习方法:计算每个假设的概率,再输出其中概率最大的.这个方法称为Brute-Force贝叶斯概念学习算法.将上面方法与第2章介绍的概念学习算法比较,可以看到:在特定条件下,它们学习得到相同的假设,不同的是第2章的方法不明确计算概率,而且效率更高.Brute-Force贝叶斯概念学习概念学习问题:有限假设空间H定义在实例空间X上,任务是学习某个目标概念c.Brute-Force MAP学习算法对于H中每个假设h,计算后验概率输出有最高后验概率的
12、假设上面算法需要较大计算量,因为它要计算每个假设的后验概率,对于大的假设空间显得不切实际,但是它提供了一个标准以判断其他概念学习算法的性能特定情况下的MAP假设假定训练数据D是无噪声的,即di=c(xi)目标概念c包含在假设空间H中每个假设的概率相同求得由于所有假设的概率之和是1,因此由于训练数据无噪声,那么给定假设h时,与h一致的D的概率为1,不一致的概率为0,因此特定情况下的MAP假设(2)考虑Brute-Force MAP算法的第一步h与D不一致,h与D一致,VSH,D是关于D的变型空间(见第2章,即与D一致的假设集)特定情况下的MAP假设(3)P(D)的推导P(D)假设的概率演化情况如
13、图6-1所示,初始时所有假设具有相同的概率,当训练数据逐步出现后,不一致假设的概率变为0,而整个概率的和为1,它们均匀分布到剩余的一致假设中每个一致的假设都是MAP假设MAP假设和一致学习器一致学习器:如果某个学习器输出的假设在训练样例上为0错误率,则称为一致学习器如果H上有均匀的先验概率,且训练数据是确定性和无噪声的,任意一致学习器将输出一个MAP假设Find-S算法按照特殊到一般的顺序搜索架设空间H,并输出一个极大特殊的一致假设,因此可知在上面定义的P(h)和P(D|h)概率分布下,它输出MAP假设更一般地,对于先验概率偏袒于更特殊假设的任何概率分布,Find-S输出的假设都是MAP假设M
14、AP假设和一致学习器(2)贝叶斯框架提出了一种刻画学习算法行为的方法,即便该学习算法不进行概率操作,通过确定算法输出最优假设时使用的概率分布P(h)和P(D|h),可以刻画出算法具有最优行为时的隐含假定使用贝叶斯方法刻画学习算法,与揭示学习器中的归纳偏置在思想上是类似的在第2章,将学习算法的归纳偏置定义为断言集合B,通过它可充分地演绎推断出学习器所执行的归纳推理结果,即学习器的输出是由其输入和隐含的归纳偏置所演绎得出的MAP假设和一致学习器(3)贝叶斯解释对于描述学习算法中的隐含假定提供了另一种方法,用基于贝叶斯理论的一个等效的概率推理系统来建模贝叶斯解释隐含的假定形式为:H上的先验概率由P(
15、h)分布给出,数据拒绝或接受假设的强度由P(D|h)给出在已知这些假定的概率分布后,一个基于贝叶斯理论的概率推理系统将产生等效于Find-S,候选消除等算法的输入-输出行为极大似然和最小误差平方假设前面分析表明:某些学习算法即使没有显示地使用贝叶斯规则,或以某种形式计算概率,但它们输出的结果符合贝叶斯原理,是一个MAP假设通过简单的贝叶斯分析,可以表明在特定前提下,任一学习算法如果使输出的假设预测和训练数据之间的误差平方和最小化,它将输出一极大似然假设上面结论的意义是,对于许多神经网络和曲线拟合的方法,如果它们试图在训练数据上使误差平方和最小化,此结论提供了基于贝叶斯的理论依据极大似然和最小误
16、差平方假设(2)问题框架:学习器L工作在实例空间X和假设空间H上,H中的假设为X上定义的某种实数值函数.L面临的问题是学习一个从H中抽取出的未知目标函数f,给定m个训练样例的集合,每个样例的目标值被某随机噪声干扰,此随机噪声服从正态分布更精确地讲,每个训练样例是序偶,di=f(xi)+ei,ei是代表噪声的随机变量,假定ei的值是独立抽取的,并且它们的分布服从0均值的正态分布学习器的任务是在所有假设有相等的先验概率前提下,输出极大似然假设(即MAP假设)极大似然和最小误差平方假设(3)用一个简单情况,即线性函数来说明问题.如图6-2所示,实线表示线性目标函数f,实点表示有噪声的训练样例集,虚线
17、对应有最小平方训练误差的假设hML,即极大似然假设.对于e这样的连续变量上的概率,使用概率密度表示概率分布,它在所有值上的积分为1,用小写的p表示.有限概率P有时又称为概率质量概率密度函数:极大似然和最小误差平方假设(4)假定有一固定的训练实例集合,因此只考虑相应的目标值序列D=,这里di=f(xi)+ei.假定训练样例是相互独立的,给定h时,可将P(D|h)写成各p(di|h)的积如果误差ei服从0均值和未知方差2的正态分布,那么每个di服从均值为f(xi),方差不变的正态分布.因此,p(di|h)可写为方差2,均值f(xi)的正态分布使用表5-4中的正态分布公式并将相应的参数代入,由于概率
18、di的表达式是在h为目标函数f的正确描述条件下的,所以替换=f(xi)=h(xi)极大似然和最小误差平方假设(5)hML上式说明了极大似然假设等价于使训练值和假设预测值之间的误差的平方和最小的那个假设这个结论的前提是:训练值等于真实目标值加上随机噪声,其中随机噪声从一个均值为0的正态分布中独立抽取采用正态分布的合理性数学计算的简洁性对许多物理系统的噪声都有良好的近似第5章中心极限定律显示,足够多的独立同分布随机变量的和服从正态分布由许多独立同分布的因素的和所生成的噪声将成为正态分布(当然,现实中不同的分量对噪声的贡献也许不是同分布的)使误差平方最小化的方法经常被用于神经网络,曲线拟合及其他许多
19、实函数逼近的算法中上面的分析只考虑了训练样例的目标值中的噪声,而没有考虑实例属性值的噪声用于预测概率的极大似然假设问题框架:学习一个不确定性函数f:X0,1,它有两个离散的值输出这种不可预测性来源于未能观察到的因素,导致目标函数的输出是输入的概率函数学习得到的神经网络(或其他实函数学习器)的输出是f(x)=1的概率,表示为f:X0,1,即f=P(f(x)=1)用于预测概率的极大似然假设(2)Brute-Force法首先收集对x的每个可能值观察到的1和0的频率,然后训练神经网络,对每个x输出目标频率可以直接从f的训练样例中训练神经网络,然后推导出f的极大似然假设D=.用于预测概率的极大似然假设(
20、3)hML式子6.13与熵函数的一般式相似,因此它的负值常称为交叉熵在神经网络中梯度搜索以达到似然最大化前面讨论了利用式子6.13求极大似然假设,现用G(h,D)表示,为神经网络学习推导一个权值训练法则,使用梯度上升法使G(h,D)最大化考虑简单的情况,假定神经网络从一个单层的sigmoid单元建立,则在神经网络中梯度搜索以达到似然最大化(2)因为要使P(D|h)最大化而不是最小化,因此执行梯度上升搜索,而不是梯度下降搜索.与反向传播更新法则对比使误差平方最小化的法则寻找到极大似然假设的前提是:训练数据可以由目标函数值加上正态分布噪声来模拟使交叉熵最小化的法则寻找极大似然假设基于的前提是:观察
21、到的布尔值为输入实例的概率函数最小描述长度准则奥坎姆剃刀可以概括为:为观察到的数据选择最短的解释此处给出一个贝叶斯分析,提出最小描述长度准则,根据信息论中的基本概念来解释hMAP的定义上式可以解释为在特定的假设编码表示方案上优先选择短的假设最小描述长度准则(2)信息论中的编码理论设想要为随机传送的消息设计一个编码,其中遇到消息i的概率是pi感兴趣的是,使得传输随机信息所需的最小期望传送位数的编码直观上,为使期望的编码长度最小,可能性大的消息应该赋予较短的编码Shannon&Weaver证明了最优编码对消息i的编码长度为-log2pi使用代码C来编码消息i所需的位数被称为消息i关于C的描述长度,
22、记为LC(i)最小描述长度准则(3)使用编码理论的结论来解释等式6.16-log2P(h)是在假设空间H的最优编码下h的描述长度.换言之,这是假设h使用其最优表示时的大小,CH为假设空间H的最优编码-log2P(D|h)是在给定假设h时,训练数据D的描述长度,CD|h是假定发送者和接送者都知道假设h时描述数据D的最优编码因此式子6.16显示,hMAP是使假设描述长度和给定假设下数据描述长度之和最小化的假设最小描述长度准则:最小描述长度准则(4)如果选择C1为假设的最优编码CH,C2为最优编码CD|h,那么hMDL=hMAP可将MDL准则想象为选择最短的方法来重新编码训练数据,其中不仅计算假设的
23、大小,并且计算给定假设时编码数据的附加开销将MDL准则应用于决策树,如何选择假设和数据的表示C1和C2对于C1,很自然地选择某种明确的决策树编码方法,其中描述长度随着树中节点和边的增长而增加对于C2,如果训练分类f(xi)与假设的预计相同,那么就不需要传输有关这些样例的任何信息;如果不同,则要传输更正消息最小描述长度准则(5)MDL准则提供了一种方法在假设的复杂性和假设产生错误的数量之间进行折中,它有可能选择一个较短的产生少量错误的假设,而不是完美地分类训练数据的较长的假设上面讨论自然给出了一种处理数据过度拟合的方法Quinlan&Rivest描述了应用MDL准则选择决策树大小的几个实验,报告
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 贝叶斯学习 贝叶斯 学习
链接地址:https://www.31doc.com/p-2347933.html