《人月神话》里说,软件开发没有银弹。于是程序员们为了解决不同的问题,就造出了不同的轮子。 《大教堂与集市》里说,好的软件作品,往往源自于开发者的个人需要。 本期小绿书,我们给大家推荐了由微信团队开源的 9 个好用工具,涵盖了终端基础组件、移动数据库、轻量 RPC 框架、C/C++ 协程库等方面。希望能帮到你,如需参与社区共建可到 issue 区反馈~
大约70%的故障都是由变更引起的,B站也深受其害。在经历了多起由变更引发的事故后,B站设计并实施了变更防控平台,从技术支撑能力、技术落地、跨领域赋能、组织文化建设等多方面入手,以期变被动应对为主动防御。目前,该平台已接入60+平台、400+场景,每天执行超过1000次变更检测,日拦截100+次潜在故障。自平台上线后,B站变更类事故占比得到有效下降,实现业务稳定性和效率的双重提升。详细的解决策略和方法,请参阅文章正文。
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点( Checkpoint )系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提高训练效率的关键。 近日,字节跳动豆包大模型团队与香港大学联合提出了 ByteCheckpoint 。这是一个 PyTorch 原生,兼容多个训练框架,支持 Checkpoint 的高效读写和自动重新切分的大模型 Checkpointing 系统,相比现有方法有显著性能提升和易用性优势。本文介绍了大模型训练提效中 Checkpoint 方向面临的挑战,总结 ByteCheckpoint 的解决思路、系统设计、 I/O 性能优化技术,以及在存储性能和读取性能测试的实验结果。
探索RocketMq消息中间件的奥秘:深入源码剖析消费者消费流程与存储架构。本文从RocketMq消息存储的精细设计出发,揭秘CommitLog与ConsumerQueue如何携手实现高效存储与快速消费,旨在为读者搭建起通往RocketMq核心原理的桥梁,激发进一步探索的兴趣。
随着近几年得物的业务和技术的快速发展,我们不管是在面向C端场景还是B端供应链;业务版本的迭代更新,技术架构的不断升级;不管是业务稳定性还是架构稳定性,业务灰度的能力对我们来说都是一项重要的技术保障,越来越受到我们业务研发的关注。然而,传统的灰度发布服务往往过于定制化,缺乏灵活性和通用性,无法满足不断变化的业务需求,往往灰度的场景可能通过代码硬编码或者简单的配置中心配置。在这样的背景下,本文将介绍一种全新的、轻量级的灰度平台,它将为大家的业务带来全新的灰度体验。