Seed Research | 视频生成模型最新成果,可仅靠视觉认知世界!现已开源
出处:
mp.weixin.qq.com
作者:
豆包大模型团队
视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,即可认知世界。
正如李飞飞教授 9 年前 TED 演讲中提到 “幼儿可以不依靠语言理解真实世界”,VideoWorld 仅通过 “视觉信息”,即浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力。团队实验发现,仅 300M 参数量下,VideoWorld 已取得可观的模型表现。
查看原文
13
技术
lddgo
分享于
2025-02-12