书签分享收藏举报版权申诉 / 11

立即下载加入VIP免费专享

当前位置：首页 > 其他 > 鲁棒贝叶斯混合分布的模型选择.doc

鲁棒贝叶斯混合分布的模型选择.doc

上传人：李主任

文档编号：3628709

上传时间：2019-09-18

格式：DOC

页数：11

大小：454KB

《鲁棒贝叶斯混合分布的模型选择.doc》由会员分享，可在线阅读，更多相关《鲁棒贝叶斯混合分布的模型选择.doc（11页珍藏版）》请在三一文库上搜索。

1、精品论文推荐鲁棒贝叶斯混合分布的模型选择卿湘运 1)，王行愚 1)1)（华东理工大学信息科学与工程学院上海市 200237）摘要：提出一种基于偏差信息准则(DIC)的鲁棒贝叶斯混合分布模型选择算法。在变分逼近框架下，给出鲁棒贝叶斯混合模型的 DIC 计算公式；设计的模型选择算法能同时进行参数推断和模型选择，避免在大的候选模型集中根据模型选择准则选取最优模型。给出试验参数初始值设置方法，在含有较多离群点的仿真数据和 Old Faithful Geyser 数据上的试验结果表明了好的性能：得到鲁棒的混合分量参数和较准确的混合分量个数。关键词：混合模型；变分学习；偏差信息准则；模型选择；

2、鲁棒中图法分类号：TP393111 引言有限混合模型的统计推断在模式识别与机器学习等领域中是一项重要的概率密度估计工作。同时，作为一种非监督学习常用工具，有限混合模型广泛应用于基于模型的聚类研究。有限高斯混合是一种最常见的概率密度估计工具,并得到了广泛的应用 1,2,3，它能以非常高的精度逼近任意概率密度，计算模型参数方便，能经期望最大化(EM)方法或贪心 EM 等改进算法迭代求解4。然而，对许多实际应用问题，高斯分布的拖尾可能比实际要求的短，因此在估计各个分量的均值和协方差矩阵参数时容易受到一些非正常观测数据如离群点的影响，特别在高维情况下检测这些离群点是非常困难的问题，无

3、法在训练模型之前将这些离群点剔除。重尾的学生-t 分布混合提供了一种鲁棒的混合模型5。学生-t 分布作为一类椭圆对称分布，引入自由度参数 v 控制拖尾的长度。当 v 趋向无穷时，学生-t 分布逼近高斯分布；而当 v 越来越小时，拖验分布是难以进行的，一般需用逼近推断方法。马尔可夫链蒙特卡罗 (Markov Chain Mento Carlo,MCMC)方法虽能逼近真正的后验分布9，但对于大数据集其计算量太大。故对于鲁棒贝叶斯混合模型的一些快速逼近参数推断方法相继提出。变分贝叶斯方法(Variational Bayes,VB)用易处理的一簇分布来逼近模型中间隐变量的后验分布10

4、，从而一方面加快计算速度，另一方面避免最大似然估计的参数奇异问题。文献6率先利用变分贝叶斯方法推断鲁棒贝叶斯混合模型参数，文献7对上算法进行改进，将模型中的尺度变量积分出来，从而得到一个下界逼近更紧的鲁棒贝叶斯聚类算法。有限混合模型统计推断的一个重要的工作是进行模型选择，在利用有限混合模型进行聚类时即确定聚类个数。过多的分量混合容易引起模型过适应，没有理想的泛化性能；而过少的分量也许使得模型缺乏柔性，不能较精确地逼近真实模型概率分布。传统的 AIC(Akaikes Information Criterion)11 、12尾则越来越长，分布覆盖的空间更大，能有效防止BIC(B

5、ayesian Inference Criterion)等模型选择准则离群点对各分量均值的影响。越来越多的研究工作应用学生-t 分布混合以求得鲁棒聚类6,7,8。利用期望最大化算法迭代进行最大似然估计参数容易导致过适应，且在迭代过程中若某分量混合权值过小时，协方差矩阵可能奇异。因此对模型参数赋予先验分布，能防止过适应，此模型称之为鲁棒贝叶斯混合模型，应用此模型进行非监督学习的聚类方法也称为鲁棒贝叶斯聚类。求解贝叶斯层次模型真正的后及滤波 EM 13等适合最大似然框架下的算法，不能很好地融入到变分贝叶斯框架中。文献7利用变分贝叶斯方法中的对数边缘似然下界作为模型选择准则，在几个数

6、据集上得到了正确的聚类数，但是理论上有如下几个问题值得商榷：(1)变分贝叶斯方法的收敛依赖初始值的选择，在对候选的模型逐个进行变分贝叶斯推断时，怎样保证初始条件一致？(2) 使用此下界作为模型选择标准，一个潜在的假设是收稿日期：；修改稿收到日期：.本课题得到高等学校博士学科点专项科研基金资助课题（20040251010）的资助。卿湘运，男，1977 年生，博士生，主要从事统计机器学习研究；E-mail:。王行愚，男，教授，博士生导师，主要从事智能控制与理论、模式识别的研究。下界逼近得足够紧，以致对不同的模型，或不同的聚类个数，迭代收敛后其下界与对数似然之差一致。文献6,7所述模型的层

8、贝叶斯推断时，将参数估计与模型选择纳入一对 m引入类 Dirichlet 先验：2p( , ) exp Nzero M log Dir( | k (0) )个统一的算法框架中。其新颖之处在于不像传统的模型选择方法利用某模型选择准则对候选的模型逐个进行参数估计和准则值计算，最后选择合适的模1 L M m m=1 (6)型，本方法而是进行一遍变分贝叶斯学习，便可选定合适的模型。由于先验分布参数为负，也称之为非正常先验。采用此先验的好处是当两个或更多分量有相似的参152 鲁棒贝叶斯混合模型及变分学习有限学生-t 分布混合模型定义为 M 个多变量学生-t 分布的加权和：M数时，此先验分布将使得其

9、中的一个分布占主导，其他分布的混合权值则快速趋向 0。另一个作用将在后面的算法中作为去除分量的判断条件, 一般 Nzero 取值较小，在迭代计算中将生成的数据个数p( x | ) = m p( x | m , m , vm )m=1其中多变量学生-t 分布定义为：(D + vm ) / 2)1 / 2(1)小于 Nzero/2 的分量去掉，因为此分量的作用很小，而且此分量的存在一定程度上使得算法运行时出现数值问题。m m mp( x | , , v ) =(vm m/ 2)(v ) D/2均值的先验分布为： 1 v 1 +( x )T ( x )m ( D + vm ) / 2(2)m

10、N (m( 0 ) ,( 0 )m(7) m m m m 精度矩阵的先验分布为：wm W ( ( 0 ) , S ( 0 ) )(8)D 为观测数据维数，m 为分量均值，m 为分量精度矩阵(协方差的逆),vm 为自由度，用以调节其中 W 表示威沙特(Wishart)分布：( D1) / 2分布的拖尾长度，一般当作鲁棒程度参数，()为伽母函数。分量混合权值 m 非负且其总和为 1。W ( | , S ) = C ( , S ) exptr (S) / 2对于有限学生-t 分布混合的最大似然估计分量参数没有闭形式解。由于学生-t 分布可看作高斯分布的无限混合，即有如下表达形式：Cw ( , S

11、 ) 是分布标准化常量,tr () 表示矩阵的迹。由于模型采取以上共轭指数分布，因此推断模型参数可方便地利用变分贝叶斯方法。设在贝叶斯m m m0m m m mmp(x | , , v ) = +N(x | , )Gam(u | v / 2, v / 2)du层次模型中所有超参数集为，所有中间变量集为，变分推断方法就是力图找到一个具有因子分解其中 u0,N(m，m)表示均值为 m、精度矩阵（协方差矩阵的逆）为 m 的多变量高斯分布，Gam()为伽母分布概率密度函数，其表达式为：Gam(u | , ) = ( )1 u 1 exp( u)形式的 Q( ) 逼近后验分布 p( | X , ) 。

13、nm )LQ, 可得到后验 p( | X , ) 的变分逼近 Q( ) 。nm = (D + vm ) / 2在此鲁棒聚类模型中，设超参数(2 + v) / 2 = N zerovm=1 mS，中间变量unm = nm / nm(15), M ,( 0 ) ,( 0 ) ,( 0 ) ,( 0 ) ln unm = ( nm ) ln nm(16)Q( ) 的变分逼近可表示为：Q( ) = Q(u, z)Q( )Q( )Q()为便于表示，设定：m= Q(u | z)Q( z)Q( )Q( )Q()N1 = mN n=1 nm标记 y 为 EQ ( y) ，( y) = ( y) ，类

14、似文献y Nm = nm unm 6的计算方法，各中间变量的变分后验分布如下：N n=1=1N u xQ( z= 1) (D + vm ) / 2) mNnmmn=1nm nmnm(v/ 2)(v ) D/2m1N = u ( x )( x )Tm ( D+v ) / 22 (10)mNnm nmnmnmn=1M 1/ 2 1 + nm 其中：m mm vm 均值的变分后验分布为：m m mmmmQ( ) N (m , )mmm = ( Nm m + ( 0 )m( 0 ) /nmnm2 = ( x ) T ( xn )= N+ ( 0 )= x m xn 2x m m + trm m = m

15、TTTmn n mmm(17)= ( x m )T S 1 ( x m ) + ( D / )(11)精度矩阵的变分后验分布为：m nmm nmmQ( m) W (m , Sm )在计算上式时将中间隐变量 unm 积分出来再求= N+ ( 0 )后验变分分布，减少了变量之间的相关性，使得下S = N + Nm(0)( m(0) )( m(0) )T + S( 0)m界逼近得更紧，因此算法性能更鲁棒。由于 Q(zn)对每个观测数据必须标准化，故设定：m m mmSmm m = 1mDmm+ 1 d(18)nm =Q( znm = 1)M Q( znm = 1)(12)ln m = (d =1 2

16、) + D ln 2 ln Sm(19)m=1此值反映了数据 xn 属于第 m 类的后验概率。n=1 nmzeros 的后验分布仍服从类 Dirichlet 分布，我们标记为：Q( ) Dir ( | k ) ，其后验均值和对数后验均值分别为：学生-t 分布自由度参数没有设定合适的先验分布，视作超参数，在每次迭代求得各中间变量的变分推断结果后，最大化关于自由度 vm 的下界函数，即对下界函数关于 vm 求导，去掉与 vm 无关项，解下面的方程更新 vm： =max0, (N ) ( N/ 2)1+ 1 mN nmlnunm unm + ln vm ( vm) = 0(20)mMm=1m

17、ax0, (Nn=1nm ) ( Nzeros/ 2)N n=122mlog = (max0, (n=1 ) (N / 2)(13)迭代执行上述各式，直至下界收敛。但本算法在迭代过程中引入模型选择准则，不以下界收敛作为算法收敛标志，这是本算法与文献6,7不同之处，Nm nmzerosm (m=1 max0, (n=1 nm ) ( N zeros / 2)如下所述。M Nm : 0(14)3 DIC 准则m以下后验分布假定已剔除了 = 0 的分量。模型选择准则的一般思想是设定一个函数，能精品论文推荐在最小模型复杂度的情况下得到最优的模型适应度。DIC 准则由 Spigelhalter 等提出

18、14，其思想也如计算 DIC 准则值：1 / 2NM(vm/ 2 + D / 2) m T同常见的模型选择标准 AIC、BIC 等，平衡模型复ln p( x | ) = ln m (v/ 2)(v )D/2杂度的贝叶斯测度与模型适应度，但相对这些准则n =1m=1mm的优点是能在迭代推断模型参数时直接计算准则值，不需要事先设定模型和指定模型参数个数，因 (1 + ( xn m ) m ( xn m ) )( vm + D ) / 2 vm此当参数空间维数较高时，能节省计算量。假设 xQ ( )Q ( )p 2 Q ( ) ln d + 2 ln 为观测数据，为模型参数，定义偏差 D():D

19、( ) = 2 ln p( x | ) + 2 ln h( x)D p( )p( )其中 h(x)是只依赖于数据本身的标准项。根据“所有的模型是错误的，但有些是有用的”的理念，模型参数的贝叶斯估计能作为模型分布较有用的估计，一般取后验均值作为依赖于观测数据的模型= 2EQ (lnQ( ) + EQ (lnQ() + EQ (lnQ()m EQ (ln p( ) EQ (ln p( ) EQ (ln p()+ 2lnQ( | k) + m ln Q(m | mm ,m m )参数的估计，贝叶斯模型复杂度测度 pD 定义为偏+ mln Q( m | m , Sm) ln p( | k (

22、，在迭代过程具有相似参数的分最小化 DIC 即可得到最优模型。当模型有负先验信息时，此准则逼近 AIC 准则。对于高维复杂的概率层次模型， D( ) 不能精确给出，一般利用量产生竞争，最后使得只有一个分量保留，一些冗余的分量权值趋向 0，故能将这些冗余分量去掉。另一方面，当 DIC 迭代收敛，没有权值为 0 的分量，MCMC 等方法计算此期望值，因此在进行 MCMC且分量个数尚大于 Mmin时，去掉混合权值最小的分时就能直接计算模型选择准则值。在变分贝叶斯逼近推断时文献16给出了如下的模型复杂度计算公量，继续迭代。其 DIC 值最小的模型为最优模型。其伪代码描述如下：式：输入：M，M ，

23、初始化具有最大分量个数的各模型参数maxminQ ( )Q ( )(22)输出：最优混合模型的参数 pD 2 Q ( )ln( ) d + 2ln best p p( ) t:=0;M:= Mmax,DICminm:=+4 应用 DIC 准则的鲁棒贝叶斯混合模型选择while MMmin 根据 = , , M和超参数 v 可得到do mmmm=1t:=t+1；p( x | , v) 的闭形式表达，因此在计算 DIC 值可忽略根据(12)计算， n = 1, N;m = 1, , M隐变量 z 和 u。利用以上变分逼近模型各分量参数nm LL；m m m m=1 = , , M 的后验分布及

24、后验均值，可径直根据(13)计算，m=1,M；m去掉 = 0 的分量及相应的参数，设其个所有试验根据不同的随机初始值运行 40 次，每个数据集约有 20的离群点。我们给出评定模型数为 M0，M:=M-M0; 更新各分量及隐变量 u 的后验均值及对数后验均值等，m=1,M; 根据(20)更新学生-t 分布自由度 vm；根据(23)计算 DIC(t);until |DIC(t)-DIC(t-1)| |DIC(t-1)|If DIC(t)DICmin DICmin:=DIC(t);选择效果的两个指标：(1) 平均分量数(标准方差)；(2) 由于有离群点存在，我们将正常数据混合分量与离群点混合分

25、量的可能组合分为如下四类： A 类：最理想的混合分量形式为正常数据的每个聚类有一个分量，所有的离群点数据成为一个单独的分量，但是此分量的方差很大，所以具有此特征的试验结果次数标记为#A；best:=去掉权值 M:=M-1;(t )最小的分量，并调整相应的参数；mB 类：正常数据的每个聚类有一个分量，但离群点数据由多个分量组成，具有此特征的试验结果次数标记为#B；C 类：正常数据的每个聚类有一个分量，但离群点也划入了正常数据，能对正常数据进行正确聚类，但不能区分正常数据和离群数据，具有此特5 试验结果关于变分逼近推断算法和最大似然框架下利用期望最大化算法进行模型选择的优缺点已

26、有一些研究工作17，本试验故不与在最大似然框架下的模型选择算法展开比较，而主要与同样应用变分贝叶斯推断和 DIC 信息准则对高斯混合分布进行模型选择的算法进行对比，此算法对不同的分量值执行一遍变分贝叶斯推断16，并计算 DIC 值，选取最小 DIC 值对应的分量数为最优分量个数，标记此算法征的试验结果次数标记为#C；D 类：正常数据的分量个数不正确，不能对正常数据进行正确聚类的试验结果次数标记为#D。#A 越大，结果越理想；B 类情形也是可接受的；C 类失去了鲁棒聚类的作用，D 类则不是正确的模型选择结果，值越小，结果越好。5.1 仿真数据此仿真生成方式如文献7所述。首先产生

27、 450个服从高斯混合分布的正常数据：11为 VB-gMM,我们的算法则标记为 VB-tMM,一般x 1 N( 6, 54 ) + 1 N(0, 5 4 )地我们的算法计算量比 VB-gMM 算法要小。单用3 1.54 53 01 4 5不同分量变分推断时的对数似然下界目标函数作为+ 1 N ( 6 , 1.560 )模型选择标准，文献7进行了研究，并给出了模型3 1.50 1.56选择结果，但是在理论和实践上都存在一定的缺陷，如前言所述，主要是此目标函数依赖初始值选择，此外对不同分量很难衡量下界逼近是否一致的紧，作者也讨论了此问题。我们以下的试验采取此文献的两个数据集，其初始值设置如下

28、：各分量混合权值约等于 1/Mmax,设数据均值为，协方差矩阵为，有三个高斯分量混合而成。再在每维-20,20内产生100 个服从标准分布的离群点，观测数据如图 1a 所示,其中蓝色数据点为离群点。图中的椭圆根据各分量的均值和协方差矩阵生成的，表示分量覆盖的区域，椭圆越大，说明此分量的方差越大，椭圆的中心点为分量的均值点。则随机抽取 Mmax 个服从 N(, -1)分布的数据作为初始选取最大分量个数 M7，2。其maxMmin分量均值初始值， S ( 0 ) = 1 ,各分量精度矩阵 m初始值 S = 3S ( 0 ) ，威沙特分布自由度的初始值一般根据数据的维数选取，在以下试验

29、中 ( 0) = 2 ，m ( 0 ) = 0.05 ，v 为1,5区间的一个随机数，Nzero=5，0.0001。试验结果如表 1 所示。可知由于有大量离群点，高斯混合模型分量参数受到这些离群点的影响，特别是各分量的均值产生了偏离，未能给正常数据选择合适的模型，从而不能正确聚类；而应用学生-t 混合模型，并采用 DIC 准则，30%的试验次数与理想的聚类模型完全吻合，另有 45%的试验次数也能进行鲁棒聚类，只是离群点分量个数不止一个，因此精品论文推荐(a)(b)(c)图 1 仿真数据鲁棒贝叶斯混合分布的适应模型：(a) 仿真数据实际的混合分布；(b) VB-tMM 选择分量个数为

30、4 的 A 类结果；(c) VB-tMM 选择分量个数为 5 的 B 类结果。表 1 仿真数据模型选择试验结果VB-gMMVB-tMM平均分量数(标准方差)3.8(0.88)4.2(0.80)A112B218C27D353图 2 VB-gMM 选择分量个数为 3 时仿真数据的适应模型VB-tMM 的平均分量数比 VB-gMM 的平均分量数大，VB-tMM 基本上选择了正确的分量个数和模型参数。图 1b 是 VB-tMM 完全吻合理想结果时的混合分量图，生成离群点的椭圆很大，说明其分量方差大，与理想的离群点分量特征一致；图 1c 是由 5 个学生-t 分量混合得到的聚类结果，离群点由两个

31、分量生成，但离群点和正常数据能区分开来。图 2 是根据 VB-gMM 由三个高斯分量混合得到的聚类结果，虽然离群点构成单独的一个分量，但是正常数据没有正确聚类。图3是 VB-tMM 在迭代过程中 DIC 值的变化图，图中的垂直线表示当前分量个数情况下 DIC 值已收敛、然后人为丢弃混合权值最小分量的迭代时刻 t。值得一提的是在此时刻后一此迭代的 DIC 往往更小，这主要是人为丢弃混合分量但迭代的初始值不一致导致的，不能作为比较值。各分量 DIC 值收敛时的 DIC 值与 pD 值如表 2 所示。从初始最大分量个数为 7 至 4 时 DIC 至逐渐减少，但当分量个数小于 4

32、时，DIC 值又逐渐增大，说明了 DIC 值有选择合适模型的能力。5.2 Old Faithful Geyser 数据集此数据集在混合模型选择算法中为一个经典图 3 VB-tMM 迭代计算 DIC表 2 VB-tMM 仿真数据 DIC 值和(pD)值分量个数DIC(pD)78348.6(801.05)66905.2(154.43)56465.4(30.311)46364.4(17.816)36521(7.1819)26693.3(1.8091)的测试数据集，共 222 个观测数据，两个特征，分别是美国黄石公园老忠实间歇泉一次喷泉的持续时间和两次喷泉的间隔时间。首先将此数据标准化，

33、然后在每个特征-10,10内产生 50 个离群点。正常数据由两个分量生成。初始选取最大分量个数 Mmax6， Mmin2，两算法根据不同的随机初始值运行 40 次，其试验结果如表 3 所示。根据我们的算法 VB-tMM 所有试验次数的 67.5%与理想结果一致，另 15%的试验结果是可接受的，仅 10%不能得到正确的混合分量结果，而 VB-gMM 有 50%的试验结果是错误的，再一次说明了本算法对鲁棒混合分布能得到较为准确的模型选择结果。图 4 是 VB-tMM 算法选择混合分量为 3 时的模型适应图，离群点由一个单独的分量生成。表 3 Old Faithful Geyser

34、数据模型选择试验结果VB-gMMVB-tMM平均分量数3.88(0.56)3.2(0.52)由于新近出现的 DIC 准则能处理含有缺失数据的模型选择14,19，并能在有限高斯混合模型和隐马尔可夫模型的变分学习过程中进行模型选择16,20，得到了初步的应用验证。所以本文对鲁棒贝叶斯混合分布也应用 DIC 准则在变分逼近框架下进行模型选择，给出了 DIC 准则的计算公式，同时为了节省模型选择计算量，设计了一个只需运行一遍变分逼近推断便可确定模型参数和混合分量个数的算法 VB-tMM，在一个仿真数据和一个真实数据上的试验结果验证了本算法的有效性：既能得到鲁棒的混合分量参数，也能得到

35、较为准确的混合分量个数，在数据集中含有大量离群点时本算法显著优于文献 16的算法 VB-gMM。变分贝叶斯学习方法对模型的先验参数和初始值设定要求较高，更紧的下界逼近也能使得模型选(标准方差)A827B86C43D204图 4 VB-tMM 选择分量个数为 3 时 Old Faithful Geyser 数据的适应模型6 结语和讨论概率图模型的变分贝叶斯推断方法在模式识别与机器学习领域中引起越来越多的关注。如何在变分贝叶斯学习框架下进行模型选择是一项重要的工作，但是传统的模型选择标准不能在变分逼近时采用。近来，非参数模型如 Dirichlet 过程等无限混合模型引起了研究者的广

36、泛兴趣18，因为在进行变分贝叶斯学习时不需指定混合分量个数(聚类个数),自动学习模型参数和模型选择。一般地，如果在此类非参数模型变分学习过程中不采取一定的技巧，最终的分量个数比实际的混合分量个数要大，而且计算量也要大许多。择结果更为精确。文献21对每个分量的精度矩阵给出了局部精度先验(Local Precision Prior)，在基于变分分量划分的高斯混合模型非监督学习中得到了更为精确的模型选择结果，应用此算法的思想于本文提出的算法中是一个有意义的研究方向。参考文献1.McLachlan G. J., and Peel D. Finite MixtureModels.

37、 New York:John Willey and Sons,2000.2.董志峰，汪增福. 基于动态 MFCC 的说话人识别算法. 模式识别与人工智能,2005,18(5):596-601.3.刘扬，黄庆明，高文，叶齐祥. 自适应高斯混合模型球场检测算法及其在体育视频分析中的应用.计算机研究与发展,2006,43(7):1207-1215.4.李斌,钟润添,王先基,庄镇泉. 一种基于递增估计GMM 的连续优化算法 . 计算机学报 ,2007,30(6):979-985.5.Peel D and McLalan G. Robust mixture modelling using the t distribution. Statistics and Computing,2000,10:339-348.6.Svensen M.,Bishop C. M. Robust bayesian mixture modeling. Neurocomputing,2005,64:235-252.7.Archambeau C.,Verleysen M. Robust bayesia

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 鲁棒贝叶斯混合分布模型选择

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：鲁棒贝叶斯混合分布的模型选择.doc
链接地址：https://www.31doc.com/p-3628709.html