假设不懂数据科学,如何解决问题-.doc
《假设不懂数据科学,如何解决问题-.doc》由会员分享,可在线阅读,更多相关《假设不懂数据科学,如何解决问题-.doc(6页珍藏版)》请在三一文库上搜索。
1、假设不懂数据科学,如何解决问题?编者按:MIT博士、Salesforce前SVP、数据科学家Rama Ramakrishnan提醒,在从事数据科学项目时,养成首先创建基线的良好习惯,迅速交付价值,避免自我欺骗。准备解决一个数据科学问题时,你可能很想单刀直入,直接开始创建模型。别这么做。首先创建一个常识基线。常识基线是指,假设你不懂数据科学,你会如何解决这个问题。假设你对监督学习、无监督学习、聚类、深度学习之类一无所知。现在问问你自己,如何解决手头的问题?对于经验丰富的从业者而言,首先创建常识基线是常规操作。他们会首先思考数据和问题,发展某种关于什么能使解决方案更好的直觉,以及考虑一些需要避免的
2、地方。他们会和商业终端用户讨论,这些用户之前可能通过手工方式解决这个问题。有经验的从业者会告诉你,常识基线不仅实现起来很简单,而且常常难以打败。即使数据科学模型确实战胜了这些基线,优势也可能很小。直销邮件让我们来看三个例子,从一个直销的例子开始。你为一家服装零售商工作,手头有一个顾客数据库,其中包括了去年从你处买过东西的每个顾客的信息。你希望给一些顾客发邮件,宣传最新的春装,预算可以支持给数据库中的100000名顾客发送邮件。你应该选择哪100000个呢?你大概已经在打算创建一个训练集和一个测试集,并训练一些监督学习模型了。也许是随机森林或梯度提升。甚至是深度学习。这些都是很强大的模型,你的工
3、具箱也应该常备这些。但是,先问自己一个问题:“如果这些方法都不存在,我必须靠自己的小聪明解决这个问题,那么我该如何挑选出这100000个顾客?”常识告诉你,应该选择那些最忠诚的顾客,毕竟,他们是最可能对邮件感兴趣的人。(不过,其实这个问题也可以从增量建模(Uplift Modeling)的角度考虑,可能不管你发不发邮件,最忠诚的顾客总是倾向于到你这儿买东西,反而是给不那么忠诚的顾客发邮件,增量更高。)那么,你将如何衡量忠诚度呢?直观地说,忠诚顾客倾向于多购买,多花钱。所以你可以计算每位顾客去年在你那里花了多少钱,到你那里买过多少次东西?如此计算之后,查看下结果,你会发现它很好地描述了忠诚度。但
4、是你也注意到,这样会选中那些在上半年很忠诚、下半年“失踪”的客户。通过查看顾客在你处的最近购买情况,可以修正这一问题。如果花费和购买频率相似,那么昨天在你处买东西的顾客,价值比11个月前购买过的顾客要高。总结一下,你为每位顾客计算:过去12个月在你处的花销过去12个月在你处发生的交易数量上一次交易到现在有几周你可以基于上面的三个测度排序顾客列表:测度转换为10分制(十分位)选中其中的前100000名顾客。恭喜!你刚刚发现的是价值很高的RFM(Recency-Frequency-Monetary)启发式算法,直销领域久经考验的主力算法。万一你好奇R、F、M中哪个最重要,据研究R最重要。RFM方法
5、易于创建,易于解释,易于使用。最妙的是,它出人意料地有效。有经验的直销从业者会告诉你,即使当更复杂的模型战胜RFM的时候,两者之间的差距也比你想象的要小得多,让你怀疑是否有必要构建复杂模型。推荐系统接下来,我们来看一个推荐系统的例子。你工作的服装零售商有一家电商网站,需要你创建产品推荐区域,该区域将显示在首页上。服装推荐需要个性化如果访问者之前访问过你的站点,你需要基于历史数据推荐符合他们口味的商品。有些书整本都在讨论这一主题,而GitHub上也有许多专门为此开发的库。你是不是应该直接开始应用矩阵分解(点击阅读)?到了一定时候你大概应该尝试下矩阵分解,但刚开始你不应该直接应用矩阵分解。你首先应
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 假设 不懂 数据 科学 如何 解决问题
链接地址:https://www.31doc.com/p-3383066.html