《鲁棒贝叶斯混合分布的模型选择.doc》由会员分享,可在线阅读,更多相关《鲁棒贝叶斯混合分布的模型选择.doc(11页珍藏版)》请在三一文库上搜索。
1、精品论文推荐鲁棒贝叶斯混合分布的模型选择卿湘运 1),王行愚 1)1)(华东理工大学 信息科学与工程学院 上海市 200237)摘 要:提出一种基于偏差信息准则(DIC)的鲁棒贝叶斯混合分布模型选择算法。在变分逼近框架下,给出鲁棒 贝叶斯混合模型的 DIC 计算公式;设计的模型选择算法能同时进行参数推断和模型选择,避免在大的候选模型集 中根据模型选择准则选取最优模型。给出试验参数初始值设置方法,在含有较多离群点的仿真数据和 Old Faithful Geyser 数据上的试验结果表明了好的性能:得到鲁棒的混合分量参数和较准确的混合分量个数。 关键词:混合模型;变分学习;偏差信息准则;模型选择;
2、鲁棒中图法分类号:TP393111 引言有限混合模型的统计推断在模式识别与机器学 习等领域中是一项重要的概率密度估计工作。同时, 作为一种非监督学习常用工具,有限混合模型广泛 应用于基于模型的聚类研究。有限高斯混合是一种 最常见的概率密度估计工具,并得到了广泛的应用 1,2,3,它能以非常高的精度逼近任意概率密度,计 算模型参数方便,能经期望最大化(EM)方法或贪心 EM 等改进算法迭代求解4。然而,对许多实际应用 问题,高斯分布的拖尾可能比实际要求的短,因此 在估计各个分量的均值和协方差矩阵参数时容易受 到一些非正常观测数据如离群点的影响,特别在高 维情况下检测这些离群点是非常困难的问题,无
3、法 在训练模型之前将这些离群点剔除。重尾的学生-t 分布混合提供了一种鲁棒的混合 模型5。学生-t 分布作为一类椭圆对称分布,引入 自由度参数 v 控制拖尾的长度。当 v 趋向无穷时, 学生-t 分布逼近高斯分布;而当 v 越来越小时,拖验分布是难以进行的,一般需用逼近推断方法。马 尔可 夫链蒙特 卡罗 (Markov Chain Mento Carlo,MCMC)方法虽能逼近真正的后验分布9,但对于大数据集其计算量太大。故对于鲁棒贝叶斯混合模型的一些快速逼近参数推断方法相继提出。变 分贝叶斯方法(Variational Bayes,VB)用易处理的一 簇分布来逼近模型中间隐变量的后验分布10
4、,从而 一方面加快计算速度,另一方面避免最大似然估计 的参数奇异问题。文献6率先利用变分贝叶斯方法 推断鲁棒贝叶斯混合模型参数,文献7对上算法进 行改进,将模型中的尺度变量积分出来,从而得到 一个下界逼近更紧的鲁棒贝叶斯聚类算法。有限混合模型统计推断的一个重要的工作是进 行模型选择,在利用有限混合模型进行聚类时即确 定聚类个数。过多的分量混合容易引起模型过适应, 没有理想的泛化性能;而过少的分量也许使得模型 缺乏柔性,不能较精确地逼近真实模型概率分布。 传统的 AIC(Akaikes Information Criterion)11 、12尾则越来越长,分布覆盖的空间更大,能有效防止BIC(B
5、ayesian Inference Criterion)等模型选择准则离群点对各分量均值的影响。越来越多的研究工作 应用学生-t 分布混合以求得鲁棒聚类6,7,8。利用期 望最大化算法迭代进行最大似然估计参数容易导致 过适应,且在迭代过程中若某分量混合权值过小时, 协方差矩阵可能奇异。因此对模型参数赋予先验分 布,能防止过适应,此模型称之为鲁棒贝叶斯混合 模型,应用此模型进行非监督学习的聚类方法也称 为鲁棒贝叶斯聚类。求解贝叶斯层次模型真正的后及滤波 EM 13等适合最大似然框架下的算法,不能 很好地融入到变分贝叶斯框架中。文献7利用变分贝叶斯方法中的对数边缘似然下界作为模型选择准则,在几个数
6、据集上得到了正确的聚类数,但是理 论上有如下几个问题值得商榷:(1)变分贝叶斯方法 的收敛依赖初始值的选择,在对候选的模型逐个进 行变分贝叶斯推断时,怎样保证初始条件一致?(2) 使用此下界作为模型选择标准,一个潜在的假设是收稿日期:;修改稿收到日期:.本课题得到高等学校博士学科点专项科研基金资助课题(20040251010)的资助。卿湘 运,男,1977 年生,博士生,主要从事统计机器学习研究;E-mail:。王行愚,男,教授,博士生导师,主要从事智 能控制与理论、模式识别的研究。下界逼近得足够紧,以致对不同的模型,或不同的聚类个数,迭代收敛后其下界与对数似然之差一致。文献6,7所述模型的层
7、次概率分布为:Mz | Mult( z| ) = znm(3)实际上此假设不成立。一般地,变分贝叶斯推断方法趋向于惩罚复杂的模型,其原因是因子分解模型 导致下界逼近不够紧。因此,对数边缘似然的下界 不适宜作为模型选择准则。nnmm=1Mun | vm , zn Gam(unm | vm / 2, vm / 2)m=1znm本章应用偏差信息准 则 DIC(DevianceInformation Criterion)作为鲁棒贝叶斯混合分布的模Mxn | m , un , m , znm N ( xn | m , unm m )m =1znm(5)型选择准则14,首先选定较大的分量个数,在进行 变分
8、贝叶斯推断时,将参数估计与模型选择纳入一对 m引入类 Dirichlet 先验:2p( , ) exp Nzero M log Dir( | k (0) )个统一的算法框架中。其新颖之处在于不像传统的模型选择方法利用某模型选择准则对候选的模型逐 个进行参数估计和准则值计算,最后选择合适的模1 L M m m=1 (6)型,本方法而是进行一遍变分贝叶斯学习,便可选 定合适的模型。由于先验分布参数为负,也称之为非正常先验。采用此先验的好处是当两个或更多分量有相似的参152 鲁棒贝叶斯混合模型及变分学习有限学生-t 分布混合模型定义为 M 个多变量学 生-t 分布的加权和:M数时,此先验分布将使得其
9、中的一个分布占主导,其他分布的混合权值则快速趋向 0。另一个作 用将在后面的算法中作为去除分量的判断条件, 一 般 Nzero 取值较小,在迭代计算中将生成的数据个数p( x | ) = m p( x | m , m , vm )m=1其中多变量学生-t 分布定义为:(D + vm ) / 2)1 / 2(1)小于 Nzero/2 的分量去掉,因为此分量的作用很小,而且此分量的存在一定程度上使得算法运行时出现 数值问题。m m mp( x | , , v ) =(vm m/ 2)(v ) D/2均值的先验分布为: 1 v 1 +( x )T ( x )m ( D + vm ) / 2(2)m
10、N (m( 0 ) ,( 0 )m(7) m m m m 精度矩阵的先验分布为:wm W ( ( 0 ) , S ( 0 ) )(8)D 为观测数据维数,m 为分量均值,m 为分量精度矩阵(协方差的逆),vm 为自由度,用以调节其中 W 表示威沙特(Wishart)分布:( D1) / 2分布的拖尾长度,一般当作鲁棒程度参数,()为伽母函数。分量混合权值 m 非负且其总和为 1。W ( | , S ) = C ( , S ) exptr (S) / 2对于有限学生-t 分布混合的最大似然估计分量 参数没有闭形式解。由于学生-t 分布可看作高斯分 布的无限混合,即有如下表达形式:Cw ( , S
11、 ) 是分布标准化常量,tr () 表示矩阵的迹。由于模型采取以上共轭指数分布,因此推断模型参数可方便地利用变分贝叶斯方法。设在贝叶斯m m m0m m m mmp(x | , , v ) = +N(x | , )Gam(u | v / 2, v / 2)du层次模型中所有超参数集为 ,所有中间变量集为,变分推断方法就是力图找到一个具有因子分解其中 u0,N(m,m)表示均值为 m、精度矩阵(协方差矩阵的逆)为 m 的多变量高斯分布,Gam()为伽母分布概率密度函数,其表达式为:Gam(u | , ) = ( )1 u 1 exp( u)形式的 Q( ) 逼近后验分布 p( | X , ) 。
12、由于有:ln p( X | ) = ln p(X n ,n | )dnnnQ= ln Q( )p( xn , n | )dnn( )在自由度 vm 和每个观测数据 xn 中间引入了一n in n个隐变量 unm,对每个观测数据的所属分量标签也 Q ( n ) lnp( xn , n | ) d( )MmQ引入隐变量 znm0,1,且有 =1 znm = 1 , n 。如n nn n= EQ ln p( | X , ) EQ ln Q LQ, (9)对于隐变量 unm 有:最大化对 数边缘似 然 ln p( X | ) 的下界 =nmQ(unmnmm| znm= 1) Gam(unm| nm,
13、nm )LQ, 可得到后验 p( | X , ) 的变分逼近 Q( ) 。nm = (D + vm ) / 2在此鲁 棒聚类模 型中,设 超参 数(2 + v) / 2 = N zerovm=1 mS,中间变 量unm = nm / nm(15), M ,( 0 ) ,( 0 ) ,( 0 ) ,( 0 ) ln unm = ( nm ) ln nm(16)Q( ) 的变分逼近可表示为:Q( ) = Q(u, z)Q( )Q( )Q()为便于表示,设定:m= Q(u | z)Q( z)Q( )Q( )Q()N1 = mN n=1 nm标记 y 为 EQ ( y) ,( y) = ( y) ,类
14、似文献y Nm = nm unm 6的计算方法,各中间变量的变分后验分布如下:N n=1=1N u xQ( z= 1) (D + vm ) / 2) mNnmmn=1nm nmnm(v/ 2)(v ) D/2m1N = u ( x )( x )Tm ( D+v ) / 22 (10)mNnm nmnmnmn=1M 1/ 2 1 + nm 其中:m mm vm 均值的变分后验分布为:m m mmmmQ( ) N (m , )mmm = ( Nm m + ( 0 )m( 0 ) /nmnm2 = ( x ) T ( xn )= N+ ( 0 )= x m xn 2x m m + trm m = m
15、TTTmn n mmm(17)= ( x m )T S 1 ( x m ) + ( D / )(11)精度矩阵的变分后验分布为:m nmm nmmQ( m) W (m , Sm )在计算上式时将中间隐变量 unm 积分出来再求= N+ ( 0 )后验变分分布,减少了变量之间的相关性,使得下S = N + Nm(0)( m(0) )( m(0) )T + S( 0)m界逼近得更紧,因此算法性能更鲁棒。由于 Q(zn)对每个观测数据必须标准化,故设定:m m mmSmm m = 1mDmm+ 1 d(18)nm =Q( znm = 1)M Q( znm = 1)(12)ln m = (d =1 2
16、) + D ln 2 ln Sm(19)m=1此值反映了数据 xn 属于第 m 类的后验概率。n=1 nmzeros 的后验分布仍服从类 Dirichlet 分布,我们标 记为:Q( ) Dir ( | k ) ,其后验均值和对数后验均值分别为:学生-t 分布自由度参数没有设定合适的先验分布,视作超参数,在每次迭代求得各中间变量的变 分推断结果后,最大化关于自由度 vm 的下界函数, 即对下界函数关于 vm 求导,去掉与 vm 无关项,解 下面的方程更新 vm: =max0, (N ) ( N/ 2)1+ 1 mN nmlnunm unm + ln vm ( vm) = 0(20)mMm=1m
17、ax0, (Nn=1nm ) ( Nzeros/ 2)N n=122mlog = (max0, (n=1 ) (N / 2)(13)迭代执行上述各式,直至下界收敛。但本算法在迭代过程中引入模型选择准则,不以下界收敛作 为算法收敛标志,这是本算法与文献6,7不同之处,Nm nmzerosm (m=1 max0, (n=1 nm ) ( N zeros / 2)如下所述。M Nm : 0(14)3 DIC 准则m以下后验分布假定已剔除了 = 0 的分量。模型选择准则的一般思想是设定一个函数,能精品论文推荐在最小模型复杂度的情况下得到最优的模型适应度。DIC 准则由 Spigelhalter 等提出
18、14,其思想也如计算 DIC 准则值:1 / 2NM(vm/ 2 + D / 2) m T同常见的模型选择标准 AIC、BIC 等,平衡模型复ln p( x | ) = ln m (v/ 2)(v )D/2杂度的贝叶斯测度与模型适应度,但相对这些准则n =1m=1mm的优点是能在迭代推断模型参数时直接计算准则 值,不需要事先设定模型和指定模型参数个数,因 (1 + ( xn m ) m ( xn m ) )( vm + D ) / 2 vm此当参数空间维数较高时,能节省计算量。假设 xQ ( )Q ( )p 2 Q ( ) ln d + 2 ln 为观测数据, 为模型参数,定义偏差 D():D
19、( ) = 2 ln p( x | ) + 2 ln h( x)D p( )p( )其中 h(x)是只依赖于数据本身的标准项。根据“所 有的模型是错误的,但有些是有用的”的理念,模 型参数的贝叶斯估计能作为模型分布较有用的估计,一般取后验均值 作为依赖于观测数据的模型= 2EQ (lnQ( ) + EQ (lnQ() + EQ (lnQ()m EQ (ln p( ) EQ (ln p( ) EQ (ln p()+ 2lnQ( | k) + m ln Q(m | mm ,m m )参数 的估计,贝叶斯模型复杂度测度 pD 定义为偏+ mln Q( m | m , Sm) ln p( | k (
20、0 ) )差的后验均值与根据参数后验均值 计算得到的偏 m ln p( m | m( 0 ) ,( 0 ) )差之差: m ln p( m | ( 0 ) , S ( 0 ) )Dp = D( ) D( )M= 2 ( N)ln + 1 M ( N )ln 1 M N D= E |x2 ln p( x | ) + 2 ln p( x | )mm=1m m2 m=1m (2 m=1m )mpD 可解释为模型参数有效个数的测度,其中的模型M + 2 ( N)1 M + ( N) ln | S 1 |适应度 D( ) 定义为:m=1mm2 m=1 mm mD( ) = E |x 2 ln p( x
21、| ) + 2 ln h( x)在每一次迭代 t 计算 DIC 准则值:DIC(t) = 2 pD 2 ln p( x | )(23)简单地应用贝叶斯理论可得到:以下阐述利用 DIC 准则进行模型选择的算法。 p( | x) p( | x) pD = E | x 2 ln + 2 ln 首先设定一个比真正的混合分量个数(估计值)更大 p( ) p( ) 的分量个数 M 的初始值 Mmax和最小混合分量个数则偏差信息准则 DIC 定义为:M(最小可为 1)。由于混合权值采取了负参数的类DDIC = D( ) + p= 2 pD 2 ln p( x | )(21)minDirichlet 先验分布
22、,在迭代过程具有相似参数的分最小化 DIC 即可得到最优模型。当模型有负先验信息时,此准则逼近 AIC 准则。对于高维复杂的概率层次模型, D( ) 不能精确给出,一般利用量产生竞争,最后使得只有一个分量保留,一些冗 余的分量权值趋向 0,故能将这些冗余分量去掉。 另一方面,当 DIC 迭代收敛,没有权值为 0 的分量,MCMC 等方法计算此期望值,因此在进行 MCMC且分量个数尚大于 Mmin时,去掉混合权值最小的分时就能直接计算模型选择准则值。在变分贝叶斯逼近推断时文献16给出了如下的模型复杂度计算公量,继续迭代。其 DIC 值最小的模型为最优模型。 其伪代码描述如下:式:输入:M,M ,
23、初始化具有最大分量个数的各模型参数maxminQ ( )Q ( )(22)输出:最优混合模型的参数 pD 2 Q ( )ln( ) d + 2ln best p p( ) t:=0;M:= Mmax,DICminm:=+4 应用 DIC 准则的鲁棒贝叶斯混合模型选择while MMmin 根据 = , , M和超参数 v 可得 到do mmmm=1t:=t+1;p( x | , v) 的闭形式表达,因此在计算 DIC 值可忽略根据(12)计算 , n = 1, N;m = 1, , M隐变量 z 和 u。利用以上变分逼近模型各分量参数nm LL;m m m m=1 = , , M 的后验分布及
24、后验均值,可径直根据(13)计算 ,m=1,M;m去掉 = 0 的分量及相应的参数,设其个所有试验根据不同的随机初始值运行 40 次,每个数据集约有 20的离群点。我们给出评定模型数为 M0,M:=M-M0; 更新各分量及隐变量 u 的后验均值及对数后验均值等,m=1,M; 根据(20)更新学生-t 分布自由度 vm; 根据(23)计算 DIC(t);until |DIC(t)-DIC(t-1)| |DIC(t-1)|If DIC(t)DICmin DICmin:=DIC(t);选择效果的两个指标:(1) 平均分量数(标准方差);(2) 由于有离群点存在,我们将正常数据混合 分量与离群点混合分
25、量的可能组合分为如下四类: A 类: 最理想的混合分量形式为正常数据的 每个聚类有一个分量,所有的离群点数据成为一个 单独的分量,但是此分量的方差很大,所以具有此特征的试验结果次数标记为#A;best:=去掉权值 M:=M-1;(t )最小的分量,并调整相应的参数;mB 类: 正常数据的每个聚类有一个分量,但 离群点数据由多个分量组成,具有此特征的试验结 果次数标记为#B;C 类: 正常数据的每个聚类有一个分量,但 离群点也划入了正常数据,能对正常数据进行正确 聚类,但不能区分正常数据和离群数据,具有此特5 试验结果关于变分逼近推断算法和最大似然框架下利 用期望最大化算法进行模型选择的优缺点已
26、有一些 研究工作17,本试验故不与在最大似然框架下的模 型选择算法展开比较,而主要与同样应用变分贝叶 斯推断和 DIC 信息准则对高斯混合分布进行模型选 择的算法进行对比,此算法对不同的分量值执行一 遍变分贝叶斯推断16,并计算 DIC 值,选取最小 DIC 值对应的分量数为最优分量个数,标记此算法征的试验结果次数标记为#C;D 类:正常数据的分量个数不正确,不能对 正常数据进行正确聚类的试验结果次数标记为#D。#A 越大,结果越理想;B 类情形也是可接受 的;C 类失去了鲁棒聚类的作用,D 类则不是正确 的模型选择结果,值越小,结果越好。5.1 仿真数据 此仿真生成方式如文献7所述。首先产生
27、 450个服从高斯混合分布的正常数据:11为 VB-gMM,我们的算法则标记为 VB-tMM,一般x 1 N( 6, 54 ) + 1 N(0, 5 4 )地我们的算法计算量比 VB-gMM 算法要小。单用3 1.54 53 01 4 5不同分量变分推断时的对数似然下界目标函数作为+ 1 N ( 6 , 1.560 )模型选择标准,文献7进行了研究,并给出了模型3 1.50 1.56选择结果,但是在理论和实践上都存在一定的缺陷,如前言所述,主要是此目标函数依赖初始值选择, 此外对不同分量很难衡量下界逼近是否一致的紧, 作者也讨论了此问题。我们以下的试验采取此文献 的两个数据集,其初始值设置如下
28、:各分量混合权 值约等于 1/Mmax,设数据均值为 ,协方差矩阵为,有三个高斯分量混合而成。再在每维-20,20内产生100 个服从标准分布的离群点,观测数据如图 1a 所 示,其中蓝色数据点为离群点。图中的椭圆根据各分 量的均值和协方差矩阵生成的,表示分量覆盖的区 域,椭圆越大,说明此分量的方差越大,椭圆的中 心点为分量的均值点。则随机抽取 Mmax 个服从 N(, -1)分布的数据作为初始选取最大分量个数 M7,2。其maxMmin分量均值初始值, S ( 0 ) = 1 ,各分量精度 矩阵 m初始值 S = 3S ( 0 ) ,威沙特分布自由度的初始值一般根据数据的维数选取,在以下试验
29、中 ( 0) = 2 ,m ( 0 ) = 0.05 ,v 为1,5区间的一个随机数,Nzero=5,0.0001。试验结果如表 1 所示。可知由于有大量离群点,高 斯混合模型分量参数受到这些离群点的影响,特别是各分量的均值产生了偏离,未能给正常数据选择 合适的模型,从而不能正确聚类;而应用学生-t 混 合模型,并采用 DIC 准则,30%的试验次数与理想 的聚类模型完全吻合,另有 45%的试验次数也能进 行鲁棒聚类,只是离群点分量个数不止一个,因此精品论文推荐(a)(b)(c)图 1 仿真数据鲁棒贝叶斯混合分布的适应模型:(a) 仿真数据实际的混合分布;(b) VB-tMM 选择分量个数为
30、4 的 A 类结果;(c) VB-tMM 选择 分量个数为 5 的 B 类结果。表 1 仿真数据模型选择试验结果VB-gMMVB-tMM平均分量数(标准方差)3.8(0.88)4.2(0.80)A112B218C27D353图 2 VB-gMM 选择分量个数为 3 时仿真数据的适应模型VB-tMM 的平均分量数比 VB-gMM 的平均分量数大,VB-tMM 基本上选择了正确的分量个数和模型 参数。图 1b 是 VB-tMM 完全吻合理想结果时的混 合分量图,生成离群点的椭圆很大,说明其分量方 差大,与理想的离群点分量特征一致;图 1c 是由 5 个学生-t 分量混合得到的聚类结果,离群点由两个
31、 分量生成,但离群点和正常数据能区分开来。图 2 是根据 VB-gMM 由三个高斯分量混合得到的聚类 结果,虽然离群点构成单独的一个分量,但是正常 数据没有正确聚类。图3是 VB-tMM 在迭代过程中 DIC 值的变化 图,图中的垂直线表示当前分量个数情况下 DIC 值 已收敛、然后人为丢弃混合权值最小分量的迭代时 刻 t。值得一提的是在此时刻后一此迭代的 DIC 往 往更小,这主要是人为丢弃混合分量但迭代的初始 值不一致导致的,不能作为比较值。各分量 DIC 值 收敛时的 DIC 值与 pD 值如表 2 所示。从初始最大 分量个数为 7 至 4 时 DIC 至逐渐减少,但当分量个 数小于 4
32、 时,DIC 值又逐渐增大,说明了 DIC 值有 选择合适模型的能力。5.2 Old Faithful Geyser 数据集 此数据集在混合模型选择算法中为一个经典图 3 VB-tMM 迭代计算 DIC表 2 VB-tMM 仿真数据 DIC 值和(pD)值 分量个数DIC(pD)78348.6(801.05)66905.2(154.43)56465.4(30.311)46364.4(17.816)36521(7.1819)26693.3(1.8091)的测试数据集,共 222 个观测数据,两个特征, 分别是美国黄石公园老忠实间歇泉一次喷泉的持 续时间和两次喷泉的间隔时间。首先将此数据标 准化,
33、然后在每个特征-10,10内产生 50 个离群 点。正常数据由两个分量生成。初始选取最大分量个数 Mmax6, Mmin2,两算法根据不同的随机初始值运行 40 次,其试验 结果如表 3 所示。根据我们的算法 VB-tMM 所有 试验次数的 67.5%与理想结果一致,另 15%的试 验结果是可接受的,仅 10%不能得到正确的混合 分量结果,而 VB-gMM 有 50%的试验结果是错误 的,再一次说明了本算法对鲁棒混合分布能得到 较为准确的模型选择结果。图 4 是 VB-tMM 算法 选择混合分量为 3 时的模型适应图,离群点由一 个单独的分量生成。表 3 Old Faithful Geyser
34、 数据模型选择试验结果VB-gMMVB-tMM平均分量数3.88(0.56)3.2(0.52)由于新近出现的 DIC 准则能处理含有缺失数据的模型选择14,19,并能在有限高斯混合模型和隐马 尔可夫模型的变分学习过程中进行模型选择16,20, 得到了初步的应用验证。所以本文对鲁棒贝叶斯混 合分布也应用 DIC 准则在变分逼近框架下进行模型 选择,给出了 DIC 准则的计算公式,同时为了节省 模型选择计算量,设计了一个只需运行一遍变分逼 近推断便可确定模型参数和混合分量个数的算法 VB-tMM,在一个仿真数据和一个真实数据上的试 验结果验证了本算法的有效性:既能得到鲁棒的混 合分量参数,也能得到
35、较为准确的混合分量个数, 在数据集中含有大量离群点时本算法显著优于文献 16的算法 VB-gMM。变分贝叶斯学习方法对模型的先验参数和初始 值设定要求较高,更紧的下界逼近也能使得模型选(标准方差)A827B86C43D204图 4 VB-tMM 选择分量个数为 3 时 Old Faithful Geyser 数据的适应 模型6 结语和讨论概率图模型的变分贝叶斯推断方法在模式识别 与机器学习领域中引起越来越多的关注。如何在变 分贝叶斯学习框架下进行模型选择是一项重要的工 作,但是传统的模型选择标准不能在变分逼近时采 用。近来,非参数模型如 Dirichlet 过程等无限混合 模型引起了研究者的广
36、泛兴趣18,因为在进行变分 贝叶斯学习时不需指定混合分量个数(聚类个数),自 动学习模型参数和模型选择。一般地,如果在此类 非参数模型变分学习过程中不采取一定的技巧,最 终的分量个数比实际的混合分量个数要大,而且计 算量也要大许多。择结果更为精确。文献21对每个分量的精度矩阵 给出了局部精度先验(Local Precision Prior),在基于 变分分量划分的高斯混合模型非监督学习中得到了 更为精确的模型选择结果,应用此算法的思想于本 文提出的算法中是一个有意义的研究方向。参 考 文 献1.McLachlan G. J., and Peel D. Finite MixtureModels.
37、 New York:John Willey and Sons,2000.2.董志峰,汪增福. 基于动态 MFCC 的说话人识别 算法. 模式识别与人工智能,2005,18(5):596-601.3.刘扬,黄庆明,高文,叶齐祥. 自适应高斯混合 模型球场检测算法及其在体育视频分析中的应 用.计算机研究与发展,2006,43(7):1207-1215.4.李斌,钟润添,王先基,庄镇泉. 一种基于递增估计GMM 的连 续优化 算 法 . 计算 机学报 ,2007,30(6):979-985.5.Peel D and McLalan G. Robust mixture modelling using the t distribution. Statistics and Computing,2000,10:339-348.6.Svensen M.,Bishop C. M. Robust bayesian mixture modeling. Neurocomputing,2005,64:235-252.7.Archambeau C.,Verleysen M. Robust bayesia
链接地址:https://www.31doc.com/p-3628709.html