为什么特征工程如此重要?把数据转换成图像.doc
《为什么特征工程如此重要?把数据转换成图像.doc》由会员分享,可在线阅读,更多相关《为什么特征工程如此重要?把数据转换成图像.doc(5页珍藏版)》请在三一文库上搜索。
1、为什么特征工程如此重要?把数据转换成图像创造力一直是人类进化的本质。数千年来,人类已经在历史长河中发掘了不少奇妙发现,而这种行为的起源契机可能是第一个轮子开始滚动,或是某个疯狂想法背后的思维火花崩现。从石器时代到今天,创造力始终倍受赞赏,而它也确实也给我们带来了源源不断的进步动力。现如今,各个领域正在丰富创造力的内涵,其中,数据科学应该是最欢迎它的领域之一:从零假设、数据预处理、构建模型创造性洞察力在其中发挥着重要作用。摄影:Franki Chamaki一位Kaggle大师曾对我说:你解决问题的次数越多,你对某些想法、挑战的理解就越深,你会发现某些东西对于特定问题会有奇效。放在竞赛实践中,这种
2、经验在特征工程上表现得尤为明显。所谓特征工程,指的就是从数据中抽取包含大量信息的特征,方便模型易于学习的过程。为什么特征工程如此重要?现在数据科学的许多初学者都“迷信”LGBM和XGBoost,因为它们的效果确实好,准确率很高。相应的,传统的线性回归和KNN开始淡出人们的视野。但在某些情况下,线性回归的效果其实不一定比GBM树差,甚至有时还更好。以我个人的经历为例,线性回归模型在曾在不少竞赛中帮助我取得优势。统计学家乔治博克有一句话,被不少统计学从业者奉为圭臬:所有的模型都是错误的,但其中有些是有用的。这意味着模型只有在发现某些和目标变量有重大关系的特征时,它才是强大的。而这就是特征工程发挥作
3、用的地方我们设计、创建新特征,以便模型从中提取重要相关性。之前我参加过DataHack的一个竞赛,内容是用数据集预测电力消耗。通过热图和探索性数据分析,我绘制了以下这幅图:热图的纵坐标DOW表示一周7天,横坐标则是一天24小时。很明显,周末整天的用电情况和工作日深夜的用电情况十分类似。由此,我创建了一个特征weekend proximity,它不仅提高了模型得分,还帮我最终赢得了比赛。因此,在机器学习竞赛中善用创造力十分重要,下面是几个大家都知道但不常用的特征工程技巧,其中部分还有些旁门左道:把数据转换成图像Meta-leaks表征学习特征均值编码转换目标变量把数据转换成图像Kaggle上有一
4、个微软恶意软件分类挑战,它的数据集包含一组已知的恶意软件文件,对于每个文件,原始数据包含文件二进制内容的十六进制表示。此前,参赛者在网上从没接触过类似的数据集,而他们的目标是开发最优分类算法,把测试集中的文件放到各自所属的类别中。比赛进行到最后,“say NOOOOO to overfittttting”赢得了第一名,他们的制胜法宝是把原始数据的图像表示作为特征。我们把恶意文件的字节文档看成黑白图像,其中每个字节的像素强度在0-255之间。然而,标准图像处理技术与n-gram等其他特征不兼容。所以之后,我们从asm文件而不是字节文件中提取黑白图像。下图是同一恶意软件的字节图像、asm图像对比:
5、字节图像(左)asm图像(右)asm文件是用汇编语言写成的源程序文件。这个团队发现把asm文件转成图像后,图像的前800-1000个像素的像素强度可以作为分类恶意软件的一个可靠特征。虽然他们表示并不知道为什么这么做会奏效,因为单独使用这个特征并不会给分类器性能带来明显变化,但当它和其他n-gram特征一起使用时,性能提升效果就很显著了。把原始数据转换成图像,并把像素作为特征。这是Kaggle竞赛中出现的令人惊叹的特征工程之一。元数据泄露当处理过的特征在没有应用任何机器学习的情况下,可以非常完美地解释目标时,这可能发生了数据泄露。最近Kaggle上的一个竞赛桑坦德客户价值预测挑战赛发生了数据泄露
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 为什么 特征 工程 如此 重要 数据 转换 图像
链接地址:https://www.31doc.com/p-3371195.html