MMEVALPRO: 更加可靠、高效的多模态大模型评测基准
Source :
mp.weixin.qq.com
Author :
MMEvalPro 团队
近期,多模态大模型如GPT-4o、Gemini-pro和QwenVL-Max在各类评估中崭露头角,频频登上排行榜前列。然而,这些排行榜的可信性引发了学界对现行评估标准公正性的反思。来自北京大学、中国医学科学院、香港中文大学及阿里巴巴的科研团队,携手对现有评测流程的准确性和可信度提出了严格的质疑。他们的研究成果揭示了一个令人惊讶的现象:即便在未直接观察图像、未能深入理解题目情境的前提下,大语言模型仍能表现出接近最先进技术水平(SOTA)的性能,这显然背离了多模态评测旨在考察的综合理解能力的初衷。 为了应对这一挑战,并确保评测基准的严谨性与实用性兼备,该研究团队创新性地推出了MMEVALPRO,一个专门用于检验多模态大模型性能的全新评估框架。初步实验验证显示,当前市场上备受推崇的多模态大模型在MMEVALPRO的严格审视下,其实际实力远未达到公众普遍预期的高度。相比现有的评估数据集,MMEVALPRO设定了更为严苛的考验门槛。根据实验结果,目前表现最优的大语言模型(LMM)在MMEVALPRO上的表现与人类水平之间存在31.73%的显著差距