ayx爱游戏

智能不敷、人工来凑?Sora首批使用者“揭秘”:爆火短片,3人耗时两周,全靠日p软件人工后期

  2月15日,美国人工智能公司OpenAI宣布了最新“文生视频”大模型Sora,并附带宣布了由它日p软件生成的48段视频,引发了整个市场的高度关注。Sora生成视频的画面逼真、连贯流畅,在视频时长方面,也远远领先于其竞争敌手,一度被视为吹向好莱坞的一场大风暴。

  在Sora宣布的作品中,一部名为《气球人(AirHead)》的短片,因情节完整、叙事性强,引发广泛讨论。在海内外各大平台上,网友们更是绝不吝啬地夸赞这部作品,甚至有人誉之为“Sora史上最佳宣布”。

  然而,近日,《气球人(AirHead)》制作团队ShyKids在接受在线媒体平台Fxguide的采访时,基于他们使用Sora的亲身体验,揭示了Sora在视频生成方面的局限。

  ShyKids揭露,《气球人》这部短片,

  用户界面仅支持文本输入

  在Sora的用户操作界面中,艺术家可以输入文本,随后ChatGPT会将这些文本转化成更长的一段文字,从而触爆发成一段视频。然而,Sora目前并没有支持其他输入方法,也没有实现多模态功效。这是一个重要的短板,因为尽管Sora在同一镜头中的物体一致性处理得还不错,但系统目前还无法确保ayx爱游戏个镜头中的内容与随后的镜头完全匹配。也就是说,即便我们第二次输入同样的提示语,结果也可能差别。

  帕特里克在ShyKids制作团队中,卖力后期制作,他说:“我们能做的就是,在提示中尽可能对角色的打扮以及气球的类型进行详细地描述。”

  Sora生成的每个独立片段,就其所代表的技术而言,都是令人惊叹的。然而,如何有效利用这些片段,取决于用户对Sora隐式或显式镜头生成方法的理解。

  例如,假设你让Sora生成一个在厨房中的长跟踪镜头,并确保画面中的桌上有个香蕉,Sora将依赖于其对“香蕉”这一看法的隐式理解来生成一个显示香蕉的视频。通过训练数据,Sora学习了香蕉的隐含特性,如“黄色”、“弯曲”、“有深色末端”等,但它并未存有具体的香蕉图像,也没有一个“香蕉图像库”,它只有一个相对较小、用于压缩存储的“潜在空间”。在这个空间中,“香蕉”仅仅是一个笼统的看法。

  这就意味着,每次生成的结果都是Sora对这个“潜在空间”的一种新的解读,这就需要我们的提示尽可能精确地描述我们对这些隐式特征的理解。

  靠后期制作,坚持角色“Sonny”的一致性

  ShyKids团队体现,在制作《气球人》的历程中,很难确保实际黄色气球人在每个镜头中坚持一致,《气球人》中场景,是通过多次后期剪辑来接近剧本的。纵然团队明确要求生成一个黄色气球,但最后生成的气球却可能是其它颜色,有时,气球上甚至会莫名泛起一个脸部图案。另外,因为许多气球都带有绳子,Sora自动将“气球”和“绳子”关联到了一起。在《气球人》中,角色Sonny的衬衫前面总是垂着一条绳子,这些绳子都需要在后期制作中移除。

  视频区分率较低渲染时间长

  虽说在《气球人》的制作中,ShyKids团队使用的都是Sora所生成的画面,但大多经过了调色和再处理。帕特里克解释说,Sora最高可以支持720P的区分率,1080P区分率也已经推出,但渲染时间过长,为提高前期效率,团队都是在较低区分率下生成的《气球人》的所有制作内容,后期再通过Topaz软件去提高区分率。

  Sora所生成的视频片段,能以差别的时间长度进行渲染,如3秒、5秒、10秒、20秒,最长可达一分钟。渲染时间会凭据一天中的时间和云效劳的需求而有所变革。帕特里克回忆说:“通常情况下,每次渲染约莫需要10到20分钟。渲染的段落长度对实际渲染时间的影响并不太大。如果渲染的内容长度在3秒到20秒之间,实际所需的渲染时间通常都在10到20分钟这个规模内。”他解释说:“我们之所以会这样做,是因为,如果获得了一段完整的20秒视频,我们就有更大的时机进行剪辑操作,这也相应地增加了获得满意结果的可能性。”

  尽管可以在时间线上对要害帧进行调解,但关于行动爆发简直切时间点控制并不精确,结果具有一定的不确定性。帕特里克说,“这有点像摸黑射击,就像老虎机一样,不确定它是否能在此时实现这些效果。”虽然,ShyKids使用的是Sora的最早原型之一,而Sora仍在不绝地进行革新。

  除了选择区分率外,Sora还允许用户选择画面比例,如纵向、横向(或正方形)。这在从Sonny的牛仔裤向上扫到他的气球头的镜头中派上了用场。不幸的是,Sora原生不支持这样的行动,它总是希望镜头的主焦点——气球人——始终处于画面中。因此,团队选择了纵向模式进行渲染,然后在后期通过裁剪手动创立了向上扫描的效果。

  Sora在理解和执行镜头运动指令方面,如“跟踪”、“平移”、“倾斜”或“推进”等,其理解和执行能力尚待增强。尽管用户可以输入如“相机平移”的提示,但Sora并不总是能够准确执行。

  帕特里克提到,Sora在处理摄像机角度方面的处理似乎有些随意。“OpenAI的研究人员并没有真正像影戏制作者那样思考,更多的是在专注于图像的生成,而关于能否真正接收到或理解摄影指令这个问题,他们似乎没有太多考虑。”

  但目前,险些所有视频生成AI公司都面临这个问题。RunwayAI或许在提供描述摄影机行动的用户界面方面最为先进,但Runway的渲染剪辑的质量和长度都不如Sora。

  虽然所有图像都是在Sora中生成的,但气球仍需大宗的后期处理。除了隔离气球以便重新上色,有时气球上会泛起Sonny的脸,看似用马克笔画上的,这需要在AE(AfterEffects)中删除。类似的其他瑕疵也经常需要移除。

  Sora生成画面图片来源:fxguide

  后期处理画面图片来源:fxguide

  ShyKids的要领类似于纪录片的后期制作和剪辑方法,先积累大宗的镜头,然后从这些质料中编织故事,而非严格凭据剧本拍摄。虽然短片有剧本,但团队仍需坚持灵活并进行调解。“我们就是获取大宗的镜头,并实验以一种有趣的方法将其剪辑到旁白中,”帕特里克回忆道。关于最终进入影戏的一分半钟的镜头,帕特里克预计他们生成了“数百个生成片段,每个片段10到20秒”。他增补说:“我的数学欠好,但我猜源质料到最终成片数量的比例,或许是300:1。”

  在《气球人》里,团队并没有将多个镜头合成在一起。例如,气球在赛车上空漂浮的镜头都是在一个镜头中生成的。

  有趣的是,许多《气球人》的片段生成时,就像是慢行动拍摄的,尽管这并非提示中要求。这种情况爆发的原因不明,因此许多片段不得不重新调解时间,使其看起来像是实时拍摄的。显然,这比减慢快速运动更容易做到,但这确实也奇怪,可能是从训练数据中推断出来的。“我不知道为什么,但似乎许多片段的速度在50%到75%之间,”他增补说。“因此,我们需要相当多的时间调解,以避免整个项目感受像是一个大型慢行动项目。”

  ShyKids在他们的提示词中使用了“35毫米胶片”这一术语,发明这样的提示能带来较高一致性的画面效果。“如果我们需要高比照度,我们可以输入‘高比照度’、‘主光’,Sora通常会给我们接近所需的效果,”帕特里克说。“但我们仍然需要进行完整的色彩调解,并且我们进行了自己的数字影戏外观处理,我们在其中添加了颗粒和闪烁,以某种方法将一切融合在一起。”Sora目前没有提供特另外通道选项,如遮罩或深度通道。

  为了尊重作品的版权,OpenAI设定了一些划定和限制。举例来说,如果你给Sora一个像是“在一个未来的飞船上,一名男子手握光剑走了过来。”这样的提示,并期望生成类似《星球大战》的场景,Sora会拒绝生成这样的视频。ShyKids团队在早期测试中,偶然遇到了这一问题。帕特里克回忆说,当他们最初坐下来测试Sora时,拍摄了一个角色背后的镜头,类似阿罗诺夫斯基式的追随镜头,他在Sora上输入了“阿罗诺夫斯基式镜头”,但Sora为掩护原作版权,拒绝了这个提示。

  Sora是一个引人注目的“文生视频”大模型项目。ShyKids团队仅用约莫1.5至2周的时间,由3人组成的团队制作了爆火短片《气球人》。目前,该团队已经在制作一个自我意识强烈,或许带有讥笑意味的续集。“续集将重新闻角度出发,聚焦到气球人Sonny,以及他对名声的反应和随后与世界的决裂,”帕特里克说。“我们还在探索新技术!”团队希望在他们的实验中越发技术化,将Sora元素与真实的实景拍摄进行AE合成,并使用Sora作为辅助的视觉效果工具。

  Sora是一项很是新的技术,纵然OpenAI已经为Sora勾勒出基本框架并展示了其应用,这些框架也尚未开放给早期测试者使用。Sora目前的形式似乎不太可能很快宣布,但它在某种类型的隐式图像生成方面已经有了显著的进步。关于高端项目来说,可能还需要一段时间才华满足导演要求的具体化水平。关于许多其它项目来说,它已经“足够接近”,并能爆发令人惊叹的图像。《气球人》仍然需要大宗的编辑和人为指导,才华制作处这个引人入胜且有趣的故事短片。帕特里克说,“我只是觉得人们必须将Sora作为他们流程的真实部分;然而,如果他们不想加入这样的事情,那也没关系。”

  每日经济新闻综合果真资料

【编辑:高尚德】

宣布于:果洛藏族自治州
声明:该文看法仅代表作者自己,搜狐号系信息宣布平台,搜狐仅提供信息存储空间效劳。
意见反响 相助

Copyright ? 2023 Sohu All Rights Reserved

搜狐公司 版权所有

sitemap网站地图