• 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • 文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全
所有 中文 英语 最新 热度
55 条查询结果

OpenAI 发布的视频生成模型 Sora(https://openai.com/sora),能根据文本生成长达一分钟的高质量视频,理论上支持任意分辨率,如 1920x1080 、1080x1920 ,生成能力远超此前只能生成 25 帧 576x1024 图像的顶尖视频生成模型 Stable Video Diffusion。 一起公布的,还有一篇非常简短的技术报告,报告大致介绍了 Sora 的架构及应用场景,并未对模型的原理做过多的介绍。技术报告链接:https://openai.com/research/video-generation-models-as-world-simulators 笔者参考了大量的资料,试着深入理解 Sora 的技术原理,最终将 Sora 生成视频的原理总结

64 技术 lddgo 分享于 2024-03-11

从openai sora[1]的技术报告首段可以看出sora的野心远远不止视频生成,他们的目标是通过视频数据来学习一个世界模型或者世界模拟器,这才是真正令人兴奋和激动的部分。

55 技术 lddgo 分享于 2024-03-07

淘宝人生2(又名:第二人生)是淘宝的一个虚拟人装扮类应用,承担了用户在淘宝的第二个人生的作用。我们旨在通过AI为淘宝人生2的用户提供丰富有趣的可玩性内容,随着最近火热的AIGC技术的发展,我们也进行了相关尝试和落地,目前已经上线了AI拍照风格化、AI写真馆、AI服饰涂鸦等项目。本文主要以AI服饰涂鸦为例介绍我们在AIGC图像领域的探索和应用,希望能够对大家有所启发和帮助,也欢迎大家建议和合作。

57 技术 lddgo 分享于 2024-03-06

紧接着对于2023年的回顾,我想斗胆做些2024-25年可能发生的事情的预测。写这篇文章的时候正赶上OpenAI Sora、Google Genie、Mistral Large的发布,不少内容也经历了些修改。真是还没等写就都做出来了…… 作为小作坊创业者,在大模型时代是没有办法拥有底层技术的,技术护城河也更加难;于是,稍微早一点点预判,找到一个没有大鱼的“小水洼”就尤其重要,所以我也愿意花些力气来做今天这番思考梳理。不过,既然是预测,其中不免有不精确、不准确、过于科幻的推演;我也希望可以给大家一些启发,但也可能把人带沟里……不过纠结一番,还是觉得要把这些对于2024的猜想先写下来,立个Flag,一年之后作为笑话来看看也不是坏事。以及,大家也完全可以把这篇文章当作科幻文学作品来看。

48 技术 lddgo 分享于 2024-03-06

在分析 Sora 之前,研究者首先盘点了视觉内容生成技术的沿袭。 在深度学习革命之前,传统的图像生成技术依赖于基于手工创建特征的纹理合成和纹理映射等方法。这些方法在生成复杂而生动的图像方面能力有限。

53 技术 lddgo 分享于 2024-03-04

随着媒体狂炒 Sora,OpenAI的介绍材料中称Sora是 “world simulator”,世界模型这个词又进入视野,但很少有文章来介绍世界模型。这里回顾一下什么是世界模型,以及讨论 Sora 是不是 world simulator。

52 技术 lddgo 分享于 2024-02-28

上篇文章我们介绍了Sora能做什么、有什么优劣势以及可能的应用前景,这篇文章我们基于Sora的官方技术文档介绍Sora的技术原理。

48 技术 lddgo 分享于 2024-02-28

Sora,源自日语的そら,空。色即是空。色、受、想、行、识,五蕴亦皆空。至大无外,至小无内,这个产品注定会给人无穷的想象空间。 OpenAI 团队用一个充满禅意的词,又一次开启了AIGC 的新时代。 Sora伪装成了一个视频生成器,可以生成一分钟的高清、高一致性视频,大家首先会认为它是和Pika、Runway一样的实用工具,也会先考虑它对视频、电影行业的颠覆。这当然没错,但看到OpenAI的技术报告,Video generation models as world simulators(视频生成模型作为世界模拟器),用到了世界模拟器这个终极大词,很明显其意义又远不止视频这么简单。

53 技术 lddgo 分享于 2024-02-26

Sora是一个以视频生成为核心的多能力模型,本文简单介绍了什么是Sora,主要从Sora有多强、Sora技术突破以及复刻难度、意义和启发三个方向出发展开讨论。 参与文末话题,赢取玻璃水杯和云朵灯啦。点击阅读原文讨论:《你最想用Sora生成什么样的视频?》

75 技术 lddgo 分享于 2024-02-23

在2月16日凌晨,OpenAI首款文本生成视频模型Sora正式亮相,迅速在网络上引发广泛关注。对于Sora背后的技术原理,网络上已经充斥着各种分析和猜测,其中大多数分析都是从技术报告入手,对于普通读者来说难度相对较高。为了使技术原理更加通俗易懂,本文将从文本生成图像到文本生成视频的技术演进角度进行剖析,解读从AE、VAE、DDPM、LDM到DiT和Sora的技术发展路线,旨在为读者提供一条清晰简明的技术进化路径。

210 技术 lddgo 分享于 2024-02-22