春节余温未消,OpenAI就在海外抛出震撼全球AI界的新闻:Sora——一款仅凭一句话就能生成60秒高清视频的文生视频大模型横空出世。
尽管谷歌同日也发布了Gemini 1.5,但没想到命运跟汪峰老师一样,还没热多久,OpenAI 就发了 Sora,很难说这不是故意向世界昭示自己在该领域的霸主地位,目前尚无明显对手能与之抗衡。
Sora不仅开辟了新的AI研究疆界,更有望颠覆短视频和影视制作行业。
官方文档显示,Sora能够依据用户输入的一句话自然语言描述,自动生成包含精细场景、复杂运镜及生动角色表情的长达60秒的视频内容。
这一技术革新意味着,普通人只要有清晰的逻辑思维和创新想象,即可借助Sora轻松创作一部真正的电影作品。
人人皆导演的时代,来了!
01
关于Sora模型
Sora在多个方面重新定义了AI视频生成模型的标准:
时长突破:Sora将视频长度从常见的5至15秒大幅增加到60秒,这不仅满足了短视频制作的需求,还预示着未来可能能够处理更长时间的内容。
多维视角整合:Sora能够生成包含多个角度和镜头的视频片段,并保持角色表现和视觉风格的连贯性。
世界模型认知深化:Sora增强了对现实世界的模拟理解和互动能力,为理解和反映现实世界的复杂性奠定了基础。
此外,Sora不仅可以用文字prompt生成视频,还支持视频到视频的编辑,当然也可以生成高质量的图片。Sora甚至还可以拼接完全不同的视频,使之合二为一、前后连贯。
02
简单的指令
60s 视频一镜到底
在此之前,AI文生视频一直挣扎在4s左右,无论是Pika还是Runway。这些业内顶尖的文生视频选手,4s仿佛是一个“魔咒”,并且视频生成出来的只是简单局部的动画效果,甚至还不一定连贯。
在这些AI视频工具还按秒突破瓶颈的时候,Sora一上来,4s视频直接给你拉到60s,并且镜头一镜到底,稳定性直接拉满;人物动作、表情、甚至脸部细节,逼真呈现,这不只是简单超越,而是直接掀桌了。
03
Sora实操效果
一段中国龙年舞龙的视频,有紧跟舞龙队伍抬头好奇观望的儿童,还有不少人掏出手机边跟边拍。
一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上,效果堪比RTX ON。
一列行驶在东京郊区的列车窗外,偶然出现的遮挡使得车内人物的倒影短暂地映射出来
令人咋舌的是,Sora在模拟毛发纹理的物理特性上所展现出的理解力,也精准得让人瞠目结舌!
想当初,皮克斯为打造《怪兽公司》中怪物角色那细腻复杂的动态毛发效果,可是让技术团队直接连肝几个月,才得以实现。然而,Sora却能轻松玩转这一难题,且并未经过任何人工刻意的教学训练。
当然,目前的Sora模型尚非尽善尽美,它有时对特定情境下的因果逻辑理解存在局限。例如描述“五只灰狼幼崽在一条荒僻石径上嬉戏追逐”,结果生成的画面可能出现狼的数量忽增忽减的现象。
此外,在处理空间细节方面,如区分左右方向时偶尔会出现差错,而在展现随时间推移的事件,如特定摄影机运动轨迹时,其精确度也有待提升。
04
带来的影响
尽管如此,当一个AI模型已具备初步理解和模拟现实世界的能力时,我们不得不承认,这标志着AGI的到来或许已不再遥远。
Sora的出现,不仅是对影视行业的影响,可能会颠覆整个短视频行业。
当前,制作短视频内容的过程往往涉及繁琐复杂的剪辑工作和大量素材收集,这一过程对创作者的时间与精力消耗颇大。
而借助OpenAI强大的数据训练集,Sora能够根据用户提供的文本脚本以及不同场景描述自动生成相应的视频内容。这意味着,在不久的将来,创作短视频可能“一句话就解决了”。
面对AI视频技术疾风骤雨般的迅猛发展,我们最明智的选择就是抓住时机,投身其中,积极参与这场技术革命的洪流。