广义的容灾,可以认为是业务连续性计划当中的灾难恢复,即能够容忍灾难的能力,如何在灾难发生时,保证生产业务系统的不间断运行,需要我们健全快速容错/故障切换能力,即容灾能力,包含了常态化容灾建设以及针对能力进行的周期性演练验收。 今天,我将与大家分享字节跳动的容灾实践。大家对字节跳动的业务形态应该有所了解,在业务规模持续扩大和多样化部署模式下,字节跳动基础架构团队面临的容灾挑战是巨大的。因此今天的分享将分为三个主要部分:首先是基础演进路径,然后结合演进介绍容灾实践,最后我会简要说明容灾实施情况。
本文将基于火山引擎客户服务实践和字节跳动内部技术实践,介绍利用云原生技术稳定支撑百万 QPS 广告业务、在云资源消耗上实现极致性价比。
在字节跳动,每天有数百万的大数据作业在其全球的数十个数据中心运行。由于作业计算和存储资源的不匹配,存在将跨机房带宽用尽的风险,这会影响其他业务的运作,还会造成不同机房的资源负载不均衡。而且跨机房带宽存在成本高、延迟高、稳定性差等问题,会大幅增加作业的运行时长。为兼顾作业完成时间(Job Completion Time, JCT),并均衡不同机房之间资源的负载,字节跳动基础架构计算团队、存储团队、应用研究中心,和系统部网络团队协作,共同研发了多机房计算、存储、网络一体化资源管理系统 ResLake。ResLake 具备资源的全局视角,通过作业调度、数据调度、网络管控等手段,能够显著优化计算和存储的布局,有效降低业务运营成本。ResLake 上线后,作业平均 JCT(最小化用户作业完成时间) 时间降低了 20%,机房间资源利用率均衡性提升了 53%,跨机房流量降低了 50%,存储成本降低了 46%。
在 QCon 北京 2024 大会上,字节跳动基础架构稳定性负责人百玥根据自己在字节跳动的实践经历发表了演讲,她将字节跳动当前部署基本形态与各类业务特性以及容灾预期相结合,阐述字节跳动容灾建设策略以及持续化运行情况。同时,以实际案例出发,详细说明对应容灾的实践。
近年来,BI平台逐渐开始与AI融合,更注重以纯业务人员为中心,借助自然语言处理技术,打造搜索驱动的数据分析平台,实现数据消费的零门槛。
Kubernetes 是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。它提供了丰富的功能,如服务发现、负载均衡、自动缩放等。随着 Kubernetes 在云原生领域的广泛应用,「有效管理谁可以对 Kubernetes 集群执行何种操作变得至关重要」。本文将简要介绍 Kubernetes的认证与授权体系以及RBAC授权原理。通过实际案例展示RBAC管理不当可能导致的安全风险,然后向大家分享RBAC安全研发与运维的最佳实践,以及我们在字节跳动内部的安全防护和治理经验。