随着视频流业务的发展,业务的复杂性越来越高,视频流老工程在架构设计、代码质量、工程能力等方面的问题也逐渐凸显。本次重构是一次对大型业务工程进行架构再设计和重构的探索,本文是对这次探索的一次梳理与总结。
在大部分业务领域的开发来说,主体代码基本分为【业务向】【数据向】,两者都是重业务逻辑的业务代码。这类代码通常复杂度来自业务,且变化比较频繁,如果没有良好的习惯和编码设计,很容易臃肿不堪,被人形容成“面条”。 如何写得易读,易懂、易于修改,即简洁代码。 本文提供一些简单的参考思路。
天猫国际用户Push中心承接了国际用户触达相关的需求,比如短信、端内消息投放等等,并存在较高的并发场景。 该系统此前发现了一个查询投放计划plan为null的异常情况,在初期排查时有些丈二和尚摸不着头脑,后面突然灵光乍现——原来是缓存一致性问题! 本文记录一下该问题的排查过程和解决方案,同时带读者朋友们一起回顾下相关的八股文~
作者日常在与其他同学合作时,经常发现不合理的日志配置以及五花八门的日志记录方式,后续作者打算在团队内做一次Java日志的分享,本文是整理出的系列文章第五篇。
作为技术同学,不仅要写好自己的代码,做好功能交付,往往还需要担任复杂项目的技术PM,推动整个项目的交付。其实人人都是技术PM,不管有没有这个title,实际上都在做这个工作,只不过是职责边界和复杂度不一样。有些同学缺少项目管理经验,不知道怎么才能做好技术PM,可能在项目过程中感觉混乱,大家做的很累,最后又延期交付,结果过程都不好,最后也搞不清楚哪里没做好。本文结合自身的一些经验,分享一下心得。
在复杂中后台设计中,为解决配置变更影响多场景问题,提出结合正向和逆向信息架构,采用原子化任务,动态组合任务,降低用户和开发成本,优化体验并改变已有的产品迭代和人机交互模式。未来可能发展为AI自动根据业务规则和用户行为生成最佳方案。
随着LLM模型越来越大,单GPU已经无法加载一个模型。以Qwen-14B-Chat模型为例,模型权重大概28GB,但是单个NVIDIA A10仅有24GB显存。如果想要在A10上部署Qwen-14B-Chat模型,我们需要将模型切分后部署到2个A10机器上,每个A10卡加载一半的模型,这种方式称之为分布式推理。 社区涌现了很多支持分布式推理的框架如vllm、deepspeed-mii,rtp-llm等。本文选取了vllm框架,从源码角度分析vllm + Ray 如何实现LLM模型的分布式推理。
RAG通过检索现有的大量知识,结合强大的生成模型,为复杂的问答、文本摘要和生成任务带来了全新的解决方案。本文详细的介绍了RAG遇到的挑战、通用范式、工程实践、优化实现策略等。