知乎的企业级数据模型.docx
《知乎的企业级数据模型.docx》由会员分享,可在线阅读,更多相关《知乎的企业级数据模型.docx(1页珍藏版)》请在三一文库上搜索。
知乎的企业级数据模型知乎数据平台是一个公司级的数据平台,它负责维护基础流量数据和数据仓库,为算法、商业、搜索、后端服务提供所需的数据源。此外,它还为管理层、运营、产品、数据分析师等提供数据看板和分析系统,并维护数据地图、埋点管理系统、埋点配置和测试系统等产品。在数据分层方面,知乎数据平台采用星形模型,包括事实表和维度表。事实表采用退化维度的方法,以减少关联多表的操作。为了满足实时查询的需求,知乎调研了HiVe和HBaSe,但当两张大表join时,两者的性能都较低。因此,知乎选择将MySQL的BinLog实时打到Kafka,并使用SparkStreaming程序实时将数据写入Kudu,然后使用Impala进行实时的Kudu查询。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业级 数据模型

关于本文