在线工具大全

GPU推理服务性能优化之路｜得物技术

出处： mp.weixin.qq.com 作者： linggong

随着CV算法在业务场景中使用越来越多，给我们带来了新的挑战，需要提升Python推理服务的性能以降低生产环境成本。为此我们深入去研究Python GPU推理服务的工作原理，推理模型优化的方法。最终通过两项关键的技术: 1.Python的GPU与CPU进程分离，2.使用TensorRT对模型进行加速，使得线上大部分模型服务QPS提升5-10倍左右，大量节约了线上GPU推理服务的成本。针对上面的两项关键技术，我们还自研了相关框架与工具进行沉淀。包括基于Python的CPU与GPU进程自动隔离的推理服务框架，以及对推理模型进行转TensorRT优化的调试工具。此外针对不同的推理服务性能瓶颈，我们还梳理了各种实战优化技巧，比如CPU与GPU分离，TensorRT开启半精度优化，同模型混合部署，GPU数据传输与推理并行等。下面从理论，框架与工具，实战优化技巧三个方面介绍下推理服务性能优化的方法。

得物技术

查看原文

55 技术 lddgo 分享于 2023-03-09

简体中文

GPU推理服务性能优化之路 ｜ 得物技术

GPU推理服务性能优化之路｜得物技术