林春.ppt
《林春.ppt》由会员分享,可在线阅读,更多相关《林春.ppt(18页珍藏版)》请在三一文库上搜索。
1、林 春 2012.08.30,Finding question microblog post and recommend answers for it,Copyright 2012 FUJITSU R&D CENTER CO.,LTD,1,Background,Microblog revolution Change surfing habit of Internet: users first logining microblog reach 20% Make the web like a real social world Characteristics of microblog data M
2、assive user-generated content (contain rare information) Complex and underlying relationships (authority user or expert) Fast Information propagation (get first-hand information about hot topic ) Changes of information seeking approach Asking question in social network become a popular form. 这几天海鲜吃多
3、了,上火了,脸上冒痘痘了,呜呜怎么办? Mission of microblog mining Identifying whether one post states something bothersome instantly and recommending a solution or an answer for it.,Underlying demand,Identify,Valuable solution,Recommend,Copyright 2012 FUJITSU R&D CENTER CO.,LTD,Copyright 2012 FUJITSU R&D CENTER CO.,L
4、TD,Our work,Demand Identification,Content recommendation,User recommendation,identify the post expressing something bothersome or asking for information content-based model: topic & setiment detection classifier-based model: feature extraction & classify,recommend latest or exact content from web or
5、 microblog microblog re-rank to get best answer content-based & collaborative recommendation,recommend authoritative and interested user authoritative user: content-based recommendation interested user: collaborative filtering recommendation,Copyright 2012 FUJITSU R&D CENTER CO.,LTD,4,Related Work,S
6、earchBuddies: Bring Search Engines Engines into the Conversation 这篇论文是对社交系统中的更新判断是否推荐,并推荐内容,其实现的内容与我们的任务很相似。 Emoticon smoothed language models for twitter sentiment analysis 这篇文章是交大做的twitter中的情感分析,其主要是将表情信息应用到语言模型中来做情感分析。微博识别中可以借鉴其使用微博表情的思路。 Finding similar questions in large question and answer arc
7、hives 2005年,发表在CIKM上的论文 内容是基于雅虎问答实现的根据答案找相似问题。可用于查询扩展。 Learning from the past: answering new questions with past answers 这篇论文发表在www 2012,内容是找相似问题,并把其答案返回给新问题 I want to answer who has a question yahoo answers recommender system 这篇论文是雅虎研究所做的基于QA系统中为用户推荐问题,此篇文章涉及很多的特征构造和选择。用户推荐可以借用其方法或特征构造。,Copyright 2
8、012 FUJITSU R&D CENTER CO.,LTD,什么是问题微博?,首先必须满足是原创微博,其次满足以下条件之一: 1. 微博内容明确提出问题或询问建议,对于此类微博,如果其所提出的问题是客观的,可以回答,则认为是可推荐微博。 问题的客观性是指其答案比较统一,导致问题的原因比较普遍和客观。如:“上火了,怎么办?”上火是普遍现象,可以为其推荐解决方法;而微博“社会,还真TMD有不要脸的,打坏了人,还不赔钱!我该怎么办,才可以让妈妈不上火”指明导致问题的原因是社会不公现象导致,因主观性较强,所以不为其做推荐。 2. 微博内容是陈述形式,陈述的内容不是记录型(记录完成某件事情)、评价型的
9、(对某种现象的看法),分析内容的侧重点,如果其陈述的重点是将要或最近发生的事,且陈述的事实具有客观性和普遍性(客观性描述与1相同),并且该事实困扰着用户,还没有有效的解决方法或好的建议。 例子 心若闲,事多人忙心不忙;心不闲,事少心忙人不忙。(非问题微博) 天气干燥,嘴唇上火起泡,怎么办? (问题微博),Copyright 2012 FUJITSU R&D CENTER CO.,LTD,数据集,数据集是从新浪微博中抓取,其中正例微博是通过关键字搜索,再进行人工标注得到,负例微博是从微博中随机抓取得到。 训练集有6426条微博,正例662条,负例5764条,其中正例涉及的主题有:“胃好疼难受”、
10、“头昏喉咙痛”、“脖子疼”、“牙疼”、“熬夜伤不起”等。 测试集有3753条微博,正例302条,负例3453条,其中正例涉及主题有:“上火怎么办”、“油滴到衣服上”、“眼袋好重”、“纽曼怎么样”、“自动关机自动重启”、“佳能多少钱”、“父亲节送什么”、“快速消肿”等。,Copyright 2012 FUJITSU R&D CENTER CO.,LTD,系统实现原理,本系统分为两大模块:问题微博识别模块和答案推荐模块。 问题微博识别模块采用SVM分类器,提取微博4种不同的特征:情感特征(emotion)、事件特征(event)、词语情感特征(percent)以及外部特征(external),分类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 林春
链接地址:https://www.31doc.com/p-2604192.html