OpenAI首个AI视频模型发布：60秒视频全AI生成-沃奇

新闻资讯帮助中心产品公告

OpenAI首个AI视频模型发布：60秒视频全AI生成

来源：本站时间：2024-02-18

　　OpenAI首个AI视频模型发布：60秒视频全AI生成

　　OpenAI Sora宣传视频(00:59)

　　“一名时尚女子走在充满霓虹灯和广告牌的标志性东京街头，她穿着黑色皮夹克、红长裙和黑靴子，拎着黑色手袋，戴着太阳镜，涂着红色口红，走路自信又随意。街道潮湿且反光，在灯光映射下形成镜面效果，行人走来走去。”这段60秒的视频，并非真实拍摄，而是OpenAI最新的“文生视频”模型Sora，这一段文字描述就是段Prompt(提示词)。

　　当地时间2月15日，人工智能(AI)巨头OpenAI宣布，正在研发“文生视频”模型Sora，可以创建长达60秒的视频，其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色，也可以根据静态图像制作动画。OpenAI称，目前红队成员(red teamers)可以使用Sora来评估关键的危害或风险，还向一些视觉艺术家、设计师和电影制作人提供访问权限，以获取有关如何改进该模型以对创意专业人士最有帮助的反馈。

　　根据OpenAI官网，Sora能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。Sora不仅了解用户在提示中提出的要求，还了解这些东西在物理世界中的存在方式。

　　00:08

　　无人机拍摄的海浪拍打大苏尔加雷角海滩崎岖悬崖的景象。(00:08)

　　在部分场景中，Sora的效果足以“以假乱真”，例如一段8秒的东京地铁车厢窗户视频，除了行车过程中，列车窗户上的反射外，视频中间人物倒影也非常逼真。

　　00:08

　　提示词：穿过东京郊区的地铁窗外倒影(00:08)

　　再来看另一段视频，官方提示词为：“雪后的东京城熙熙攘攘。镜头穿过繁忙城市街道，跟随几个人享受美丽的雪天并在附近的摊位购物。绚丽的樱花花瓣随着雪花随风飘扬。”Sora生成的视频呈现了所有要素，且镜头不在是单镜头，而是一直向前且会变换方向的运动镜头。

　　00:17

　　东京雪景AI视频(00:17)

　　需要注意的是，目前Sora属于半成品，OpenAI称，它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系的具体实例。例如，一个人可能咬了一口饼干，但之后饼干可能没有咬痕。还可能会混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

　　00:19

　　Sora生成的错误案例(00:19)

　　OpenAI官网介绍，Sora是一种扩散模型，它从看起来像静态噪声的视频开始生成视频，然后通过多个步骤消除噪声来逐渐对其进行转换生成视频。Sora能够一次生成整个视频或扩展生成的视频以使其更长。通过一次为模型提供多个帧的预见，OpenAI解决了一个具有挑战性的问题，即确保主题即使暂时离开视野也保持不变。

　　与GPT模型类似，Sora使用Transformer架构。Sora建立在过去对DALL·E和GPT模型的研究之上。它使用DALL·E 3的重述技术，该技术涉及为视觉训练数据生成高度描述性的标题。因此，该模型能够更精准遵循生成用户的文本指令。

　　OpenAI表示，Sora是能够理解和模拟现实世界的模型基础，相信这一功能将成为实现AGI(通用人工智能)的重要里程碑。

　　Sora视频一出，立刻震惊业界。尽管这不是首个AI视频，其他企业也有类似文本生成视频的AI模型，谷歌正在测试名为Lumiere的模型，Meta则有名为Emu的模型，还有人工智能初创企业Runway也在开发相应产品来帮助制作视频，但外媒指出，工智能专家和分析师表示，Sora 视频的长度和质量超出了迄今为止所见的水平。

　　美国伊利诺伊大学香槟分校信息科学教授Ted Underwood指出，没想到在两三年内还会有如此持续连贯水平的视频生成技术，OpenAI的视频可能展现了该模型的最佳性能。

　　多名AI从业者称，从Sora公布的预览视频来看，简直太“疯狂”。在国外Reditt社区，有个网友提问，今天OpenAI公布的Sora模型是否会成为自动化对于经济影响的里程碑?下面有将近100条回复，有网友称，起初ChatGPT的发布让用户看到了一切皆有可能，而现在人工智能正在不断进步发展，让用户看到了强大的技术能力。

　来源：澎湃新闻

上一篇：文生视频亮相，人工智能开辟新方向下一篇：智能客服：人工智能如何重新定义客户服务体验

行业资讯

OpenAI首个AI视频模型发布：60秒视频全AI生成