• 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • 文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全

MMEVALPRO: 更加可靠、高效的多模态大模型评测基准

出处: mp.weixin.qq.com 作者: MMEvalPro 团队

近期,多模态大模型如GPT-4o、Gemini-pro和QwenVL-Max在各类评估中崭露头角,频频登上排行榜前列。然而,这些排行榜的可信性引发了学界对现行评估标准公正性的反思。来自北京大学、中国医学科学院、香港中文大学及阿里巴巴的科研团队,携手对现有评测流程的准确性和可信度提出了严格的质疑。他们的研究成果揭示了一个令人惊讶的现象:即便在未直接观察图像、未能深入理解题目情境的前提下,大语言模型仍能表现出接近最先进技术水平(SOTA)的性能,这显然背离了多模态评测旨在考察的综合理解能力的初衷。 为了应对这一挑战,并确保评测基准的严谨性与实用性兼备,该研究团队创新性地推出了MMEVALPRO,一个专门用于检验多模态大模型性能的全新评估框架。初步实验验证显示,当前市场上备受推崇的多模态大模型在MMEVALPRO的严格审视下,其实际实力远未达到公众普遍预期的高度。相比现有的评估数据集,MMEVALPRO设定了更为严苛的考验门槛。根据实验结果,目前表现最优的大语言模型(LMM)在MMEVALPRO上的表现与人类水平之间存在31.73%的显著差距

查看原文 29 技术 lddgo 分享于 2024-08-01