多模态视觉理解大模型推理优化
Source :
mp.weixin.qq.com
大模型时代是人工智能领域的一个重要发展阶段,在当今人工智能研究领域,基于Transformer架构的多模态视觉理解大模型(VLM)在全世界范围内引发了深度的技术关注。多模态视觉理解大模型的主要创新在于将语言和视觉两种模态进行有效的对齐,使其不仅能够进行基本的图像识别,还能执行基于视觉输入的动态内容推理和复杂问题解答。可以应用在房内家具家电识别、涉黄涉爆检测、商家店铺门头识别等多个场景,相比传统模型取得更好的效果。但是由于多模态视觉理解大模型的推理性能比传统模型低,导致整体成本高,严重阻碍了多模态视觉理解大模型的推广。提高多模态视觉理解大模型的推理性能成为研究重点。我们是多模态大模型技术部门,负责多模态大模型相关的模型研发、推理优化和推广的工作。我们在58的多模态视觉理解的项目场景中,对推理框架和模型进行优化,使用多种方法提高多模态视觉理解模型的推理性能。