云原生,以容器、不可变基础设施、声明式API等核心技术,实现了业务与硬件及底层架构的分离,使业务实例具备了可移植性、环境一致性,极大地提升了运维效率,降低了线上运维操作的稳定性风险,同时又基于微服务、分布式技术解决了传统架构的单点可靠性问题,提升了业务稳定性和开发效率。近年来,越来越多的应用完成容器化、微服务化改造,并逐步将发布、运维流程迁移到PaaS,这在释放了云原生红利的同时也不可避免的引入了更高的系统复杂度,对生产环境的稳定性也提出了更高的要求。 生产环境的稳定性,是各个互联网行业相关公司都关注的,尤其是对于大型互联网公司来说,稳定性就显得更为重要。以B站为例,从诱发稳定性问题的原因分析来看,2022年至今变更及编码问题所占据的比例,在70%以上,问题的诱因也多种多样,譬如缺少稳定性相关必要的可观测指标、灰度观察过程缺失、故障处理机制不完善等等。同时,随着业务体量的不断增大,组织划分与团队协作关系也变得日益复杂,加剧了沟通成本,也间接导致了变更问题难以管控。 对于稳定性来说,业界的一个共识是:防控住变更风险,稳定性问题就解决了一半以上。
接口反爬,或者说更广义的接口安全,一直以来都是网站和app绕不开的基础问题。尤其是平台的规模扩大,各种功能性的接口包含的信息量越来越多,这也让各种目的的脚本爬虫有了获利的空间和爬取数据的动力。
喜欢观看历史剧的观众在B站刷剧时或许已经留意到,经典历史正剧《雍正王朝》悄然将画质从540p@25fps提升至1080p@50fps。在高清高帧率的加持下,这部描绘雍正皇帝生平的经典之作,以丝滑清晰的画面为观众带来了一场全新的视觉盛宴。
带货作为近年来一种新兴、高效的营销形式,在商业侧最早以耦合在必选和邀约广告的业务形态中存在,直到22年中开始作为明确的业务探索方向。从初步确定带货业务的基本定位,到短短的一年多时间,业务极速发展,无论是带货up数还是带货收益以及平台收益层面,均有较快的增长,到目前已形成初具规模的业务体量。期间对于技术侧而言,面对相当多的困难,特别是在几乎无任何基础无独立系统的历史状况下,如何构建高效稳定的平台体系去支撑带货业务的快速迭代和发展需求,存在极大的挑战。
B站的 CDN 下行边缘节点过去是非集群化架构。这种架构下有几个弊端: 增加调度逻辑复杂性; 同机房流量/负载难以均衡; 暴露过多的公网IP,增加安全隐患 (盗链等); 灰度流量比例分配粒度大; 针对以上问题,我们调研了常见的四层负载均衡器, 传统的 SLB,LVS,DPVS 这类四层负载均衡器,在功能上也能满足我们现有的需求。但是以上几个负载均衡器均需要独占机器,进而造成成本升高,资源浪费。 有没有一种既不增加成本,又能解决边缘节点四层负载需求的方案呢?由 Cloudflare 提出的基于 Express Data Path (XDP) 的高性能四层负载均衡器 Unimog[1]性能优异,并且可以和后端服务同机部署,在性能上也完全满足我们边缘场景的要求。所以我们参考 Cloudflare Unimog 的思想,在其基础上自研了适用于B站的边缘四层负载均衡器 Nickel (以下简称 Ni) 。
Jinkela(金坷垃)Pipeline 是一套用于前端 DevOps 的实验性的胶水工具,解决了许多开发流程中的细节问题,希望简化前端发布的操作难度,如今能力被集成到 Dejavu(逮虾户) 这个在线平台,承载上百个前端业务仓库的 CI/CD 能力。
2023 年H1,B 站集中出现了多个因变更导致的应急事件。从Google SRE和行业的分享经验我们知道 70%的此类事件是由变更导致的。 需要认识到,历史上任何技术债务都不会自行消失。如果我们不加以治理,这些问题将在某个不经意的时候爆发,届时我们将不得不付出数倍的代价。 H1 的几个变更风险,未能被及时扼杀在摇篮中,以至于发布到线上环境才发现问题,甚至还需要较长时间才得以恢复。我们深入分析了几个典型情况:
英雄联盟全球总决赛是英雄联盟赛事每年度最受瞩目的节点,也是B站全年赛事热度最高的时段。第13届英雄联盟全球总决赛(下文简称S13)今年继续在B站进行直播,本文主要分享S13赛事保障的实践和思考。
在云原生的架构下,微服务的数量呈现爆炸式增长,服务间的调用关系错综复杂,对系统可靠性也提出了更高的要求。在这样的背景之下,混沌工程的关注度也不断提升。 事实上,混沌工程早就不是什么新鲜的概念,早在2008年开始,混沌工程的思想就已经始萌芽,彼时,网飞公司由于数据库发生故障,导致了三天时间的停机,使得 DVD 在线租赁业务中断,造成了巨大的经济损失,正是这次线上事故推动了后续的 ChaosMonkeyV1 项目的诞生。在那之后,类似于 SimianArmy、ChaosKong、Gremlin、ChaosMonkeyV2、ChaosBlade、ChaosMesh、ChaosMeta 等混沌工程相关产品在各个大公司的实践中走入公众视野。
AV1是开放媒体联盟(AOM, Alliance for Open Media)开发的第一代开放,免版税的视频编码标准。AV1于 2018 年 3 月定稿,相同画质下,码率比 H.265/HEVC 低 20% 左右。经过 Google、Netflix、Meta、Amazon 等互联网巨头的不断推广,目前 AV1 生态逐步发展成熟:PC 侧显卡供应商 AMD、 Intel 和 Nvidia 均已经发布支持 AV1 硬解的相关产品;移动端 MediaTek、 Qualcomm 和 Apple 的旗舰手机芯片都已经支持 AV1 硬解;软件解码器 dav1d 已经具备主流平台的实时解码能力[1]。2020年底 B 站开始自研 BILIAV1 编码器,2022年初开始在 PC 侧点播业务部署 AV1 编码,目前正在积极筹备 AV1 编码在直播业务上的应用。