云音乐数据治理实践

新知榜官方账号

2023-09-24 23:14:35

数据背景

云音乐在过去九年中发布过九款独立的产品,包括国内产品和海外产品。所有产品的数据支撑都在数仓开发部门。在这个背景下,我们从多个角度对数据现状进行了分析。

  • 规模上,目前承载的产品有九个,线上正在调度的任务有2万个以上,表数量有5万多张。
  • 成本方面,日存储量有80多PB,存储费用在19万以上,计算方面日常调度的任务成本是27万。
  • 质量方面,之前在核心时段的资源水位是非常高的,在95%以上,对整体基线运维造成了比较大的风险。
  • 效率上,存在着资源效率,以及小文件等问题。另外,由于前期数仓建设内容推广覆盖的不到位,存在大量的任务直接去读ODS原表,特别是对于日志数据存在大量的小需求,耗费资源。
  • 环境方面,目前国内我们有五套Hadoop集群,海外包括AWS和阿里云。总体来讲,目前数据面临的问题是:体量大、环境杂、缺规范和资源浪费。

治理思路

在数据背景下,我们明确了治理方向:获取到完整准确的元数据信息,只有这样才能进行有效的数据治理。治理过程中,从技术视角来看,数据内容的分布情况如上图所示。随着业务的快速发展,数仓的不断迭代,每块内容可能或者必然存在着哪些问题。所有的问题都指向了同一个方向,就是我们要获取到完整准确的元数据信息,只有这样才能进行有效的数据治理。

治理方案

从元数据出发,我们从猛犸平台上获得了比较完备的元数据信息,包括表的元数据信息,以及任务的元数据信息。基于这些元素信息进行数据建模,在CDM层产出了比较丰富的模型,可以从各种视角看到整个资产的情况,以及模型设计健康度的情况。整个元数据建模支撑了云音乐的整个数据治理体系。

治理实践

在治理实践中,首先要做的就是权责有归属。所有的数据、表和任务都应该有具体的责任人对其负责,这样在发现问题时才能找到具体的人去进行处理。在推进过程中,面临的问题是具体要做的治理事项需要覆盖到不同的团队或者不同的部门去执行,而且每个具体事项的治理动作也是多元化的,不同业务团队以及不同人的认知以及能力、精力的投入都是不一样。因此,我们统一建立了一个通用的推进机制,以及一个通用的治理原则。在具体实践中,我们进行了各个方面的治理,包括游离HDFS文件治理、库治理、表治理、三度指标治理和计算治理等。通过治理,我们取得了成本收益、治理资产沉淀和数仓开发规范沉淀等多方面的成果。

未来规划

数据治理是一个长期而且持续要做的事情。在治理的过程中,我们将从分散到集约、从被动到主动到自动、从经验到智能的治理理念。整个治理动作分为三部分,包括:事前、事中和事后。我们将继续推进数据治理的各项内容,包括预防性治理、治理监控指标工具落地、治理指引报告和数据开发规范等。

本页网址:https://www.xinzhibang.net/article_detail-13453.html

寻求报道,请 点击这里 微信扫码咨询

关键词

云音乐 数据治理 治理方案

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯