Seed Research | 视频生成模型最新成果，可仅靠视觉认知世界！现已开源

Source : mp.weixin.qq.com Author : 豆包大模型团队

视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型，VideoWorld 在业界首次实现无需依赖语言模型，即可认知世界。正如李飞飞教授 9 年前 TED 演讲中提到 “幼儿可以不依靠语言理解真实世界”，VideoWorld 仅通过 “视觉信息”，即浏览视频数据，就能让机器掌握推理、规划和决策等复杂能力。团队实验发现，仅 300M 参数量下，VideoWorld 已取得可观的模型表现。