相对其它优秀的视频生成平台,Vidu可能没法说自己是最牛的。
但是Vidu有一个非常惊艳的功能,就是主体参考。它的多参功能指的不仅仅是主体,还有基于图片中的状态、动作、相对位置等,都可以形成参考。
目前主流AIGC平台的视频生成长度都不超过10秒钟,包括Vidu也是,暂时只支持生成5秒的视频片段。
但为什么,基于Vidu可以生成长视频,还相对丝滑。这就不得不提一个话题:长视频中的主体一致性。实际上,如果想用AI生成多个镜头的长视频,所有人都会遇到AI视频生成的最大瓶颈之一—— 主角形象在动态视频中频繁“换脸”或“变形”的问题。
Vidu Q1解决一致性问题的核心思想,可以归结为一个极具前瞻性的概念:“原子化创作”。这个理念的本质,是将一个复杂的、动态的视频场景,解构成最基本、最核心的、不可再分的“原子”单元。根据Vidu Q1的设定,这些原子被定义为“人、景、物”三大原色。
传统视频生成模型的问题在于,它试图将“人、景、物”这三者作为一个高度耦合的整体来学习和生成。当指令要求“一个穿着红裙子的女孩在森林里奔跑”时,模型内部的表征是将“红裙女孩”、“森林”和“奔跑”这三个概念混乱地纠缠在一起。因此,当需要将场景从“森林”变为“城市”时,模型很可能会因为这种纠缠而无法保持“红裙女孩”的身份特征,导致角色崩坏。
而Vidu Q1的“原子化”逻辑,则是先将这三者进行“解耦”。它通过“主体参照”功能,让用户先定义好那个不变的“人”原子。
第一步:定义“人”原子。 用户通过上传一张或多张角色的清晰图片,为模型提供一个明确的、高保真的身份参照。这相当于告诉模型:“记住这个人的样子,这是我们后续所有创作中绝对不能改变的核心。”
第二步:组合“景”与“物”。 在“人”原子被锁定的前提下,用户可以通过文本指令(Prompt)来自由地定义“景”和“物”。例如,你可以指令这个被锁定的角色“在赛博朋克都市的雨夜中行走”,或者“在海滩上快乐地跳跃”。
第三步:智能融合生成。 模型接收到这些被解耦的指令后,其任务不再是凭空想象一个全新的场景,而是将已经固定的“人”原子,与用户新定义的“景”和“物”原子进行智能地融合。它会计算角色在新的环境光照下的渲染、根据新的动作指令来驱动角色的骨骼和表情,但始终会参照第一步中定义的身份信息,确保其核心特征不发生偏移。
从基于单个主体的多视角生成参考图,到支持最多7个主体输入,最终构成了Vidu Q1的杀手级特性。
这意味着AI视频创作正式从“独角戏”时代迈向了“群像剧”时代。创作者可以为一部短片定义好主角、配角、甚至是一些关键的道具主体,并在同一个画面中让他们进行互动,同时保证每一个主体都维持自身的外观。这对于制作故事短片、广告、乃至动画剧集,都具有不可估量的价值。