B站大数据质量务实
出处:
mp.weixin.qq.com
作者:
郭跃鹏
数据质量是基于大数据衍生的应用有效与否的重要的前提和保障之一。为了能在大数据上面孵化出更加有深度,更加有竞争力的应用,以及B站高速发展的业务都需要我们数据平台能提供实时的,准确的,可以被信赖的数据。 而另一方面,数据平台要向终端用户提供可以信赖的数据,又依赖于整个数据加工链路环境的稳定迭代和健康发展,这涉及到数据平台模型本身的质量,业务调度的可靠,资源调度的高效,以及各种执行引擎的高效协作等等,最后所有这些大数据基础组件的稳定又离不开PAAS, IAAS等基础服务的稳定。 总之,可信赖的数据质量是大数据平台核心竞争力的体现,是大数据航母战斗群的预警机。数据质量团队的背后是大兵团级别的组织、协作和保障工作。数据质量的高可信度依赖于业务模型团队,数据质量平台,业务调度团队,计算引擎团队,和各种存储和搜索查询引擎等兄弟舰队通力合作和鼎力支持。