夏粉-广告数据上的大规模机器学习.pdf
《夏粉-广告数据上的大规模机器学习.pdf》由会员分享,可在线阅读,更多相关《夏粉-广告数据上的大规模机器学习.pdf(27页珍藏版)》请在三一文库上搜索。
1、夏粉_百度 目录 背景 问题 技术 小结 计算广告学 计算广告学与CTR预估 计算广告学的核心问题: 给定的环境下,用户与广告的最佳匹配 流量变现: 方法: 依赖机器学习和历史数据,做精准CTR预估 百度推广百度推广 *profitPVCTR ACP CTR预估问题 CTR 预估系统 广告库 , 21l adadadD 广告请求 )(i q 广告的预估CTR )( )( 2 )( 1 _ _ _ i n i i i adPctr adPctr adPctr 点击率预估-机器学习模型 数据处理流程 日志 特征预处理 特征 数据 数据预处理 模型训练 模型 评估 大规模机器学习问题 大规模机器学习
2、问题 特征之间存在高度非线性关系 特征复杂度高 点击率随时间变动, e.g., 兴趣变化 新广告和流量上线,旧广告和流量下线 数据时效性高 模型更新 策略调研 数据训练频繁 每天百亿广告展现,十亿特征 类别不平衡、噪音大 数据特征规模大 大规模机器学习技术 数据处理技术 机器学习技术点 选择对点击概率分布 预估足够多样本 解决方法: 不可见和不完整样本过滤 样本采样 异常样本检测 目标 获取主要信息 去除异常噪音 数据采样: Google: 采样: 矫正: 原理: 采样后的期望损失等于原损失 噪音检测 计算点击率随时间变化趋势 百度首创:SA算法 0 0.1 0.2 0.3 0.4 13579
3、111315171921232527293133353739414345474951 随机噪音 sa=0.00275 0 0.002 0.004 0.006 0.008 0.01 0.012 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 106 111 116 121 126 131 136 141 146 151 156 161 166 正常样本 sa=-10.977 特征处理技术 目标 选择尽可能少的特 征表示模型和数据 CTR预估 机器学习技术 特征选择 特征删减 特征类型: 类别型特征(categorical
4、 features)、连续值特征 特征表示: 使用one-hot编码类别型特征 特征海量! 特征选择 数据拟合项:拟合训练数据, 使得预估CTR尽可能靠近经验 CTR。 Regularization term,特征 选择 ,降低模型复杂度 其中损失取似然损失 特征删减 背景: 模型大小占特征大小比例极低 技术挑战: 训练前,判断哪些特征权值为0 谷歌 : 新特征按概率p加入 Bloom Filter+次数超过n 百度首创 : Fea-G算法: 理论保证效果无损 方法 内存节省 AucLoss升高 Bloom(n=2) 66% 0.008% Bloom(n=1) 55% 0.003% Poiss
5、on(p=0.003) 60% 0.020% Poisson(p=0.1) 40% 0.006% Fea-G 97% 0% 深度特征学习技术 特征调研背景 构造高阶组合特征,描述特征之间非线性关系 人工挖掘,耗时!耗力!依赖先验,无推广性! 假设有N个单特征类,组合特征候选类: 选最优特征类,需要时间: 组合特征调研 单特征 site Ad hour Cookie 组合特征 Site-Ad Site-hour Ad-cookie N N N NNN N CCCC 121 .2 日志处理 特征抽取 模型训练&评估 2N 深度特征学习算法 特征学习 深度学习在语音、图像上取得突破性进展 广告数据特
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 夏粉 广告 数据 大规模 机器 学习
链接地址:https://www.31doc.com/p-3332937.html