隐含主题分析和大规模机器学习.ppt
《隐含主题分析和大规模机器学习.ppt》由会员分享,可在线阅读,更多相关《隐含主题分析和大规模机器学习.ppt(42页珍藏版)》请在三一文库上搜索。
1、隐含主题分析和大规模机器学习,Zhihui JIN 2011-4-26,提纲,什么是 Latent Topic Analysis (LTA) LTA 简史和各种方法比较 LDA 模型介绍 LTA 在目前互联网产品中的应用 实际产品中的 LTA 问题,什么是LTA,从文本相关性中的问题说起: 给定一个短文本(比如query),信息量太少,机器常常误解。 无法从字面(word)上正确判断相关性!,梦想,什么是LTA,短文本信息量不够怎么办? 使用机器学习技术从大量训练文本中总结知识,帮助理解短文档 “知识”应该是什么样子的? 表示同一个主题的词聚为一类(topic);知识=topics 例子: t
2、opic 1 = apple, tree, pie, fruit, etc topic 2 = computer, iphone, ipod, apple “apple pie” topic 1: 99%, topic 2: 1% “iphone crack topic 1: 1%, topic 2: 99% “Apple Computer” topic 1: 1%, topic 2: 99% “The apple is ” topic 1: 99%, topic 2: 1%,什么是LTA,LTA的两个功能部件 训练算法(training algorithm): 输入:训练文档(每个文档是一包
3、词) 输出:模型(topics以及topic和word之间的关系) 训练算法是离线的,挑战在于使用并行计算技术,从海量数据中获得搜索用户可能关注的所有topics。 推演算法(inference algorithm): 输入1:一个文档(一包词) 输入2:模型 输出:输入文档的意思(和那些topics相关) 推演算法有在线的、也有离线的。在线算法用于理解query;离线算法用于理解文档。挑战在于快速且准确。,什么是LTA,LTA不仅仅能处理文本,只要是一包xx就行 一次购物=一包货品 一个用户=一包浏览记录 一个被点击的URL=一包导致点击的queries 一个mp3文件=一包音频featur
4、es 一个视频文件=一包视频features LTA在实际互联网产品中的应用 Blog categorization News recommendation Friends suggestion Search matching and ranking Ads targeting,LTA 的发展和方法比较,Latent Semantic Analysis (1990) Singular Value Decomposition Non-negative Matrix Factorization (2005) Probabilistic LSA, PLSA (1999) Noisy-OR Compo
5、nent Analysis (2005) Latent Dirichlet Allocation (2003),Latent Semantic Analysis Term-Document Matrix,Latent Semantic Analysis,LTA 的发展和方法比较,矩阵分解 典型方法: SVD (singular value decomposition) NMF (non-negative matrix factorization) 输入:一个DxV的矩阵M。 D是训练文档的个数,V是词典大小。 Mij=词j在文档i中出现次数 输出:DxK矩阵U: 每个文档和topic的相关度
6、KxV矩阵V: 每个词和topic的相关度 通常线性投影一个新文档到topic空间,借此理解新文档: t = dTV 问题:投影结果没有物理意义,所以很难选择一个相似度度量 (similarity measure) 来衡量两个文档的相似度。 有人使用点积(sij = titj) ,但是没法说明道理,无法保证效果,Statistical Text Modeling Bag of Words,Documents Terms,proof,induction,object,bouquet,memory,Documents Terms,Documents Topics Terms,proof,induc
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 隐含 主题 分析 大规模 机器 学习
链接地址:https://www.31doc.com/p-3308371.html