数据库顶会 VLDB 2024 论文解读:字节跳动如何对大规模 Spark 作业进行资源提效
Source :
mp.weixin.qq.com
Author :
程航 魏中佳
近年来 Spark 已经成为离线大数据处理引擎的事实标准,广泛用于数据仓库、数据湖、机器学习等领域。在字节跳动内部每天运行百万级别的 Spark 离线作业,Shuffle 量高达 500PB,CPU 资源需求达到千万级别。随着业务的快速发展,用户对计算资源的需求越来越大,除了增加物理资源之外,如何提高线上 Spark 作业的资源使用效率也是我们亟需解决的问题。
View
24
Technology
lddgo
Shared on
2024-09-18