时光如梭,2023又是共同成长的一年,在这里我们沉淀技术实践,分享方案经验,感谢读者朋友们对《阿里云开发者》公众号的陪伴。回顾2023年,还记得哪篇文章让你印象深刻吗?小编为大家精选了2023年公众号发布过的优质文章TOP20,欢迎读者朋友们谈谈你心目中最喜爱的那篇文章~还有机会获得阿里云开发者周边礼品哦!
RTP-LLM 是阿里巴巴大模型预测团队开发的大模型推理加速引擎,作为一个高性能的大模型推理解决方案,它已被广泛应用于阿里内部。该引擎与当前广泛使用的多种主流模型兼容,并通过采用高性能的 CUDA 算子来实现了如 PagedAttention 和 Continuous Batching 等多项优化措施。RTP-LLM 还支持包括多模态、LoRA、P-Tuning、以及 WeightOnly 动态量化等先进功能。 随着大模型的广泛应用,如何降低推理延迟并优化成本已成为业界关注的焦点。我们不断地在这一领域内探索和挖掘新方法。在本文中,我们将详细介绍两种在业务中实践的优化策略:多轮对话间的 KV cache 复用技术和投机采样方法。我们会细致探讨这些策略的应用场景、框架实现,并分享一些实现时的关键技巧。
捏脸玩法是装扮类应用的一个核心功能。本文主要介绍了捏脸的AI相关玩法之一即基于用户上传的照片在淘宝人生2(又名:第二人生)一键生成专属3D数字人,阐述了淘天FC淘宝人生技术团队在图片捏脸上探索的心路历程,核心原理以及技术框架。本文的视角也不局限于图片捏脸本身,也介绍了其他AI类相关玩法在装扮类应用落地的情况,希望能对大家有所启发和帮助。
对技术人来说,面试成功的道路只有一条,就是好好准备技术基础。本文是面试系列文章架构设计篇,作者把自己的八股文和一些经验总结汇总在一起,供大家参考。
本文重点尝试从ODPS SQL的逻辑执行计划和Logview中的执行计划出发,分析日常数据研发过程中各种优化方法背后的原理,覆盖了部分调优方法的分析,从知道怎么优化,到为什么这样优化,以及还能怎样优化。
容错编程是一种重要的编程思想,它能够提高应用程序的可靠性和稳定性,同时提高代码的健壮性。本文总结了一些作者在面对服务失败时如何进行优雅重试,比如aop、cglib等同时对重试工具\组件的源码和注意事项进行总结分析。
性能优化是降低成本的手段之一,每年大促前业务平台都会组织核心链路上的应用做性能优化,一方面提升系统性能,另外一方面对腐化的代码进行清理。本文结合业务平台性能优化的经验,探讨一下性能优化的思路及常用工具及手段。