OpenAI首个AI视频模型发布:60秒视频全AI生成
OpenAI首个AI视频模型发布:60秒视频全AI生成
OpenAI Sora宣传视频(00:59)
“一名时尚女子走在充满霓虹灯和广告牌的标志性东京街头,她穿着黑色皮夹克、红长裙和黑靴子,拎着黑色手袋,戴着太阳镜,涂着红色口红,走路自信又随意。街道潮湿且反光,在灯光映射下形成镜面效果,行人走来走去。”这段60秒的视频,并非真实拍摄,而是OpenAI最新的“文生视频”模型Sora,这一段文字描述就是段Prompt(提示词)。
当地时间2月15日,人工智能(AI)巨头OpenAI宣布,正在研发“文生视频”模型Sora,可以创建长达60秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色,也可以根据静态图像制作动画。OpenAI称,目前红队成员(red teamers)可以使用Sora来评估关键的危害或风险,还向一些视觉艺术家、设计师和电影制作人提供访问权限,以获取有关如何改进该模型以对创意专业人士最有帮助的反馈。
根据OpenAI官网,Sora能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。Sora不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。
00:08
无人机拍摄的海浪拍打大苏尔加雷角海滩崎岖悬崖的景象。(00:08)
在部分场景中,Sora的效果足以“以假乱真”,例如一段8秒的东京地铁车厢窗户视频,除了行车过程中,列车窗户上的反射外,视频中间人物倒影也非常逼真。
00:08
提示词:穿过东京郊区的地铁窗外倒影(00:08)
再来看另一段视频,官方提示词为:“雪后的东京城熙熙攘攘。 镜头穿过繁忙城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。 绚丽的樱花花瓣随着雪花随风飘扬。”Sora生成的视频呈现了所有要素,且镜头不在是单镜头,而是一直向前且会变换方向的运动镜头。
00:17
东京雪景AI视频(00:17)
需要注意的是,目前Sora属于半成品,OpenAI称,它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕。还可能会混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。
00:19
Sora生成的错误案例(00:19)
OpenAI官网介绍,Sora是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐对其进行转换生成视频。Sora能够一次生成整个视频或扩展生成的视频以使其更长。通过一次为模型提供多个帧的预见,OpenAI解决了一个具有挑战性的问题,即确保主题即使暂时离开视野也保持不变。
与GPT模型类似,Sora使用Transformer架构。Sora建立在过去对DALL·E和GPT模型的研究之上。 它使用DALL·E 3的重述技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更精准遵循生成用户的文本指令。
OpenAI表示,Sora是能够理解和模拟现实世界的模型基础,相信这一功能将成为实现AGI(通用人工智能)的重要里程碑。
Sora视频一出,立刻震惊业界。尽管这不是首个AI视频,其他企业也有类似文本生成视频的AI模型,谷歌正在测试名为Lumiere的模型,Meta则有名为Emu的模型,还有人工智能初创企业Runway也在开发相应产品来帮助制作视频,但外媒指出,工智能专家和分析师表示,Sora 视频的长度和质量超出了迄今为止所见的水平。
美国伊利诺伊大学香槟分校信息科学教授Ted Underwood指出,没想到在两三年内还会有如此持续连贯水平的视频生成技术,OpenAI的视频可能展现了该模型的最佳性能。
多名AI从业者称,从Sora公布的预览视频来看,简直太“疯狂”。在国外Reditt社区,有个网友提问,今天OpenAI公布的Sora模型是否会成为自动化对于经济影响的里程碑?下面有将近100条回复,有网友称,起初ChatGPT的发布让用户看到了一切皆有可能,而现在人工智能正在不断进步发展,让用户看到了强大的技术能力。
来源:澎湃新闻