隐含主题分析和大规模机器学习.ppt

资源ID：3308371 资源大小：1.50MB 全文页数：42页
资源格式： PPT 下载积分：6元

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要6元

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

隐含主题分析和大规模机器学习.ppt

隐含主题分析和大规模机器学习,Zhihui JIN 2011-4-26,提纲,什么是 Latent Topic Analysis (LTA) LTA 简史和各种方法比较 LDA 模型介绍 LTA 在目前互联网产品中的应用实际产品中的 LTA 问题,什么是LTA,从文本相关性中的问题说起：给定一个短文本（比如query），信息量太少，机器常常误解。无法从字面（word）上正确判断相关性！,梦想,什么是LTA,短文本信息量不够怎么办？使用机器学习技术从大量训练文本中总结知识，帮助理解短文档 “知识”应该是什么样子的？表示同一个主题的词聚为一类（topic）；知识=topics 例子： topic 1 = apple, tree, pie, fruit, etc topic 2 = computer, iphone, ipod, apple “apple pie” topic 1: 99%, topic 2: 1% “iphone crack topic 1: 1%, topic 2: 99% “Apple Computer” topic 1: 1%, topic 2: 99% “The apple is ” topic 1: 99%, topic 2: 1%,什么是LTA,LTA的两个功能部件训练算法（training algorithm）：输入：训练文档（每个文档是一包词）输出：模型（topics以及topic和word之间的关系）训练算法是离线的，挑战在于使用并行计算技术，从海量数据中获得搜索用户可能关注的所有topics。推演算法（inference algorithm）：输入1：一个文档（一包词）输入2：模型输出：输入文档的意思（和那些topics相关）推演算法有在线的、也有离线的。在线算法用于理解query；离线算法用于理解文档。挑战在于快速且准确。,什么是LTA,LTA不仅仅能处理文本，只要是一包xx就行一次购物=一包货品一个用户=一包浏览记录一个被点击的URL=一包导致点击的queries 一个mp3文件=一包音频features 一个视频文件=一包视频features LTA在实际互联网产品中的应用 Blog categorization News recommendation Friends suggestion Search matching and ranking Ads targeting,LTA 的发展和方法比较,Latent Semantic Analysis (1990) Singular Value Decomposition Non-negative Matrix Factorization (2005) Probabilistic LSA, PLSA (1999) Noisy-OR Component Analysis (2005) Latent Dirichlet Allocation (2003),Latent Semantic Analysis Term-Document Matrix,Latent Semantic Analysis,LTA 的发展和方法比较,矩阵分解典型方法： SVD (singular value decomposition) NMF (non-negative matrix factorization) 输入：一个DxV的矩阵M。 D是训练文档的个数，V是词典大小。 Mij=词j在文档i中出现次数输出：DxK矩阵U: 每个文档和topic的相关度 KxV矩阵V: 每个词和topic的相关度通常线性投影一个新文档到topic空间，借此理解新文档: t = dTV 问题：投影结果没有物理意义，所以很难选择一个相似度度量 (similarity measure) 来衡量两个文档的相似度。有人使用点积(sij = titj) ，但是没法说明道理，无法保证效果,Statistical Text Modeling Bag of Words,Documents Terms,proof,induction,object,bouquet,memory,Documents Terms,Documents Topics Terms,proof,induction,object,bouquet,memory,引入 Hidden Topics,什么是 Topic,Topic 是 Vocab 上的概率分布 Hofmann, 1999,Statistical Text Modeling Mixture of Unigrams,所有terms 由同一个topic生成,Statistical Text Modeling Probabilistic Latent Semantic Analysis,proof,induction,object,bouquet,memory,Terms 由不同的 topic 生成,Statistical Text Modeling Probabilistic Latent Semantic Analysis,使用 EM 算法最大化 L 求解模型参数,PLSA 的优缺点,概率模型输出：P(topic | document) P(word | topic) 因为输出矩阵中是概率，所以可以用度量两个probability distributions 的方法来度量两个文档的相似度： sij = JS P(topic | di); P(topic | dj) 问题：理解新文档很困难：需要把新文档和之前的训练文档放在一起继续训练几个迭代大规模训练需要几十台几百台计算机并行：inference成本太高 query不断的来，几十台几百台机器也存不下：放弃哪些老文档,Statistical Text Modeling Latent Dirichlet Allocation,Documents Terms,Documents Topics Terms,proof,induction,object,bouquet,memory,proof,induction,object,LDA 文档生成模型,概率计算,参数求解,先验分布选什么 ?,本身是多项分布，一个自然的选择是使用其共轭分布 Dirichlet 分布,给定数据，后验分布还是 Dirichlet 分布,联合分布,Gibbs Sampling,如何生成样本符合密度分布,Gibbs Sampling,P(word|topic) P(topic|document),LDA Training via Gibbs Sampling,w,z,w,z,w,z,w,z,w,z,w,z,w,z,w,z,z,z,Doc_1 Doc_n,Step1 : 随机初始化语料库中的每个词的 topic,LDA Training via Gibbs Sampling,w,z,w,z,w,z,w,z,w,z,w,z,w,z,w,z,z,z,Doc_1 Doc_n,Step2 : 重新采样每个topic, 更新模型，直到收敛,z,z,z,LDA Training via Gibbs Sampling,w,z,w,z,w,z,w,z,z,z,Doc_1 Doc_n,Step3 : 输出模型参数 Topic-Word matrix,LDA Inference via Gibbs Sampling,对新来的文档中的词采样 n 次,w,z,w,z,z,Doc_new,P(topic|word),P(topic|document),Parallel LDA Training,文档数量巨大, Map-Reduce,Parallel LDA Training,模型太大了，内存存放不下 1500 * 300,000 * 8B = 3.6GB 模型按 vocab 分片加载, 多次扫描文档,LDA 正确性验证,每张图片是一个 Topic,Size 512 x 512 每个点(i,j)代表一个 term 点的灰度值代表term的频率所有term权重 normalize 为概率分布,1,2,0.5,0.2,0.3,4,6,4,6,10,2,4,6,文档长度为1000，生成了共10万篇文档所有文档使用 LDA 训练，设置 topic 个数为 12 Q：收敛以后的 topic(图像) 和原始的 topic (图像) 对应吗 ?,20 iteration 50 iteration,LDA 正确性验证,LTA 和其他机器学习方法的结合,有监督(supervised)机器学习系统二分类器： SETI (logistic regression) 广告、spam fighting, junk mail detection, porn detection, machine translation 多分类器： Pegasos (SVM) 文本（网页、blog、新闻）分类 Taxonomy分类器 CAT 把视频等归入预先定义的树状分类体系中线性空间变换 PAMIR 将query（文本）投影到图像空间：image search 将图像投影到文本空间：image tagging,Thanks for your attentions!,

注意事项

本文（隐含主题分析和大规模机器学习.ppt）为本站会员（本田雅阁）主动上传，三一文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。