CUDA编程基础与Triton模型部署实践
Source :
mp.weixin.qq.com
Author :
王辉
近年来人工智能发展迅速,模型参数量随着模型功能的增长而快速增加,对模型推理的计算性能提出了更高的要求,GPU作为一种可以执行高度并行任务的处理器,非常适用于神经网络的推理计算,因此近年来在人工智能领域得到广泛关注与应用。 本文将结合我在阿里智能互联云端模型推理部署方面半年以来的工作学习,对相关的GPU编程与云端模型部署的知识与经验进行总结分享,下文内容为个人学习总结,如有疏漏与错误,还请各位不吝赐教。如有同样对云端模型推理部署、GPU计算优化、大模型推理部署相关技术感兴趣的同学,非常高兴能够进行相互的交流学习。