• 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • 文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全

带你认识微信多模态大模型 POINTS

出处: mp.weixin.qq.com 作者: bensenliu

近来,随着大型语言模型的发展,视觉语言大型模型的能力也在逐步增强,GPT-4[1]、Gemini Pro 1.5[2]和Claude 3[3]等著名的闭源模型成功将 LLM 扩展到视觉语言模型领域。LLaVA[4],InternVL[5]等开源模型也在迅速发展。目前,视觉语言模型领域存在一些关键问题亟待解决:1)闭源模型很少公开关于其架构的详细信息。相比之下,开源模型虽公开了其训练策略,但这些策略的详细消融并没有完全披露。2)在目前的开源工作中,对于预训练阶段,大多都是凭经验添加不同来源的数据集,这使得预训练过程难以得到深入的探索。3)在微调阶段,绝大多数工作关注的重点通常是添加和消融更多的数据集,这样性能会较快触及瓶颈。我们针对以上几点给出了我们的方案,并进行了清晰充分的实验论证。

查看原文 20 技术 lddgo 分享于 2024-09-23