Airbnb机器学习和数据科学团队经验分享.doc
《Airbnb机器学习和数据科学团队经验分享.doc》由会员分享,可在线阅读,更多相关《Airbnb机器学习和数据科学团队经验分享.doc(7页珍藏版)》请在三一文库上搜索。
1、Airbnb机器学习和数据科学团队经验分享Airbnb资深机器学习科学家Shijing Yao、前Airbnb数据科学负责人Qiang Zhu、Airbnb机器学习工程师Phillippe Siclait分享了在Airbnb产品上大规模应用深度学习技术的经验。Airbnb在旧金山的新办公室世界各地的旅行者在Airbnb平台上寻找旅途中的民宿。除了位置和价格之外,展示照片是房客搜索时做出决策的最关键因素之一。然而,直到最近之前,我们对这些重要的照片所知甚少。当房客在交互界面查看展示照片时,我们之前没有办法能够帮助房客找到信息量最大的图像,也无法确保照片传达的信息是精确的,也没法以可伸缩的方式向房
2、主建议如何提高照片的吸引力。多亏了计算机视觉和深度学习方面的最新进展,我们得以利用技术手段在较大规模上解决这一问题。我们从一个归类展示图片的项目开始。一方面,归类使得同一类房间的照片可以分为一组。另一方面,归类也能帮助检查是否基本的房间信息是正确的(验证房间数)。我们还相信,未来有很多激动人心的机会可以进一步增强Airbnb的图像内容的知识。我们将在本文结尾展示一些例子。图像分类能够正确分类给定的展示照片的房间类型,对优化用户体验而言是极有帮助的。从房客的角度来说,这使得Airbnb可以根据不同的房间类型重新排序、重新布局照片,优先展示人们最感兴趣的照片。从房主的角度来说,这可以帮助Airbn
3、b自动审核展示照片,以确保房主遵守了Airbnb的标准。精确的照片归类是这些核心功能的基石。我们打算分类的第一批房间类型包括卧室、浴室、起居室、厨房、游泳池、景观。我们计划基于产品团队的需求增加其他房间类型。房间类型分类问题大体上和ImageNet分类问题差不多,只不过我们的模型的输出是定制的房间类型。这意味着VGG、ResNet、Inception之类现成的当前最先进深度神经网络(DNN)模型无法直接应用于我们的案例。网上有很多非常棒的帖子告诉人们如何应对这一问题。基本上,我们应该:1) 修改DNN的最后几层,确保输出维度匹配我们的需求;2) 再训练DNN的部分网络层,直到取得满意的表现。在
4、一些尝试之后,我们选择了ResNet50,因为它在模型表现和计算时间方面平衡得很好。为了让它兼容我们的案例,我们在最后附加了两个额外的全连接层,以及softmax激活。我们也试验了一些训练选项,详见下节。再训练修改过的ResNet50修改过的ResNet50架构架构。基础模型图取自Kaiming He再训练ResNet50可以分为三大场景:固定基础ResNet50模型,仅仅使用最少的数据再训练增加的两层。这也经常称为微调。进行第一个场景中的微调,不过使用大量数据。从头开始重新训练整个修改过的ResNet50模型。大部分网上的教程使用的都是第一种方法,因为这很快,而且通常能够取得不错的结果。我们
5、尝试过第一种方法,并且确实得到了一些合理的初始结果。然而,为了运行高品质的图像产品,我们需要戏剧性地提升模型的表现我们的理想是达到95%+准确率,80%+召回。为了能够同时达到高准确率和高召回,我们意识到使用大规模数据重新训练DNN是不可避免的。然而,我们遇到了两大挑战:1) 尽管我们有很多由房主上传的展示照片,我们没有相应的精确的房间类型标签,实际上很多照片根本没有标签;2) 再训练ResNet50这样的DNN绝非易事需要训练超过两千五百万参数,需要强力的GPU支持。我们将在接下来的两小节介绍我们是如何应对这两项挑战的。监督学习图像说明许多公司利用第三方服务商取得图像数据的高品质标签。由于我
6、们有数以百万计的照片需要标注,显然这不是最经济的做法。为了平衡成本和表现,我们以一种混合的方式处理这一标注问题。一方面,我们请服务商标注了相对而言数量较少的照片,通常以千计,或以万计。这部分标注过的数据将作为我们评估模型的金数据集。我们通过随机采样得到了这一金数据集的照片,并确保数据没有偏差。另一方面,我们利用房主创建的图像说明作为房间类型信息的代理,从中提取标签。这一想法对我们而言意义重大,因为它使得昂贵的标注任务基本上变为免费。我们只需要一种明智的方法,确保从图像说明中提取的房间类型标签是精确可靠的。一个很有吸引力的从图像说明中提取标签的方法是这样的:如果我们在某张图像的说明中找到了特定的
7、关键词,那么这张图像就会被打上该类型的标签。然而,现实世界要比这复杂得多。如果你检查根据这一规则得到的结果,你将大失所望。我们发现由大量情形图像说明和图像的实际内容相差甚远。下面是一些例子。上图展示了在图像说明中搜寻特定关键词导致的错误标签:(黑体为错误标签)厨房:通往卧室和厨房的楼梯起居室:从起居室通往卧室的过道浴室:主卧包含浴室和特大床卧室:从卧室往外看的景观游泳池:由大量空间可以散步,游泳池旁边的花园景观:从厨房看到的起居室(译者注:viewof liing space from Kitchen的view被错误提取为景观标签)为了过滤这样的例子,我们增加了额外的规则。经过若干回合的过滤和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Airbnb 机器 学习 数据 科学 团队 经验 分享
链接地址:https://www.31doc.com/p-3245852.html