从openai sora[1]的技术报告首段可以看出sora的野心远远不止视频生成,他们的目标是通过视频数据来学习一个世界模型或者世界模拟器,这才是真正令人兴奋和激动的部分。
紧接着对于2023年的回顾,我想斗胆做些2024-25年可能发生的事情的预测。写这篇文章的时候正赶上OpenAI Sora、Google Genie、Mistral Large的发布,不少内容也经历了些修改。真是还没等写就都做出来了…… 作为小作坊创业者,在大模型时代是没有办法拥有底层技术的,技术护城河也更加难;于是,稍微早一点点预判,找到一个没有大鱼的“小水洼”就尤其重要,所以我也愿意花些力气来做今天这番思考梳理。不过,既然是预测,其中不免有不精确、不准确、过于科幻的推演;我也希望可以给大家一些启发,但也可能把人带沟里……不过纠结一番,还是觉得要把这些对于2024的猜想先写下来,立个Flag,一年之后作为笑话来看看也不是坏事。以及,大家也完全可以把这篇文章当作科幻文学作品来看。
在分析 Sora 之前,研究者首先盘点了视觉内容生成技术的沿袭。 在深度学习革命之前,传统的图像生成技术依赖于基于手工创建特征的纹理合成和纹理映射等方法。这些方法在生成复杂而生动的图像方面能力有限。
上篇文章我们介绍了Sora能做什么、有什么优劣势以及可能的应用前景,这篇文章我们基于Sora的官方技术文档介绍Sora的技术原理。
Sora,源自日语的そら,空。色即是空。色、受、想、行、识,五蕴亦皆空。至大无外,至小无内,这个产品注定会给人无穷的想象空间。 OpenAI 团队用一个充满禅意的词,又一次开启了AIGC 的新时代。 Sora伪装成了一个视频生成器,可以生成一分钟的高清、高一致性视频,大家首先会认为它是和Pika、Runway一样的实用工具,也会先考虑它对视频、电影行业的颠覆。这当然没错,但看到OpenAI的技术报告,Video generation models as world simulators(视频生成模型作为世界模拟器),用到了世界模拟器这个终极大词,很明显其意义又远不止视频这么简单。