MMEVALPRO: 更加可靠、高效的多模态大模型评测基准

Source : mp.weixin.qq.com Author : MMEvalPro 团队

近期，多模态大模型如GPT-4o、Gemini-pro和QwenVL-Max在各类评估中崭露头角，频频登上排行榜前列。然而，这些排行榜的可信性引发了学界对现行评估标准公正性的反思。来自北京大学、中国医学科学院、香港中文大学及阿里巴巴的科研团队，携手对现有评测流程的准确性和可信度提出了严格的质疑。他们的研究成果揭示了一个令人惊讶的现象：即便在未直接观察图像、未能深入理解题目情境的前提下，大语言模型仍能表现出接近最先进技术水平（SOTA）的性能，这显然背离了多模态评测旨在考察的综合理解能力的初衷。为了应对这一挑战，并确保评测基准的严谨性与实用性兼备，该研究团队创新性地推出了MMEVALPRO，一个专门用于检验多模态大模型性能的全新评估框架。初步实验验证显示，当前市场上备受推崇的多模态大模型在MMEVALPRO的严格审视下，其实际实力远未达到公众普遍预期的高度。相比现有的评估数据集，MMEVALPRO设定了更为严苛的考验门槛。根据实验结果，目前表现最优的大语言模型（LMM）在MMEVALPRO上的表现与人类水平之间存在31.73%的显著差距

View

40 Technology lddgo Shared on 2024-08-01

English