具身智能与多模态语言模型: GPT4-Vision 地表最强Agent?
出处:
mp.weixin.qq.com
作者:
PCA-EVAL 团队
来自北大和腾讯的研究者提出PCA-EVAL多模态具身决策智能评测集,通过对比基于多模态模型的端到端决策方法与基于LLM的工具调用方法,观察到GPT4-Vision展示出从多模态感知到行为的出色的端到端决策能力,这为具身智能和视觉语言模型领域开启了新的篇章。