热门搜索:
知乎的企业级数据模型知乎数据平台是一个公司级的数据平台,它负责维护基础流量数据和数据仓库,为算法、商业、搜索、后端服务提供所需的数据源。此外,它还为管理层、运营、产品、数据分析师等提供数据看板和分析系统,并维护数据地图、埋点管理系统、埋点配置和测试系统等产品。在数据分层方面,知乎数据平台采用星形模型,包括事实表和维度表。事实表采用退化维度的方法,以减少关联多表的操作。为了满足实时查询的需求,知乎调研了HiVe和HBaSe,但当两张大表join时,两者的性能都较低。因此,知乎选择将MySQL的BinLog实时打到Kafka,并使用SparkStreaming程序实时将数据写入Kudu,然后使用Impala进行实时的Kudu查询。
本文(知乎的企业级数据模型.docx)为本站会员(飞猪)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!