又是一个令人期待的视频Agent,最近优秀的视频领域产品也是越来越多了。
用它测了两个例子:一个是之前做的动漫项目;一个是前阵子比较火的知名IP角色唱歌的MV。
Flova首先会基于用户的输入总结内容概要、制定创作的流程。然后把流程做成故事线的形式,可以理解成后需要执行的计划。
与其他Agent不同的是,Flova似乎更倾向于把Agent和用户定位成协作关系,几乎每个节点都会停下来让用户确认是否要修改,在确认后才会执行下一个步骤。这一点算是见仁见智吧,可能有的人会觉得既然要用Agent,为什么还要人来确认每一个环节?不过在当下AI多模态领域还比较不可控、需要多次抽卡的阶段,个人认为这种环节确认还是有必要的。不过再优化一些的话,也许可以做成可选的模式?类似OiiOii中的托管模式/对话模式。(另外,实测在对话里直接告诉它后续动作可以不经过我确认直接生成也是可以的)
视频制作流程还是挺标准的,而且每个环节都集成了当前最强的模型(视频Sora2、图像Nano Banana Pro、音乐Suno、配音ElevenLabs),这个也算是当下Agent类的一个趋势了。不过这里有个小瑕疵,在做IP角色MV的例子中,正常应当先创作音乐,再基于音乐的节奏去匹配镜头长度等,但是默认的流程里直接就要给我生成分镜了,在我的提醒下调整了流程。
这两个测试最终的结果来说,都生成了比较完整且能看的视频(这已经很不容易了),但受限于我不是专业的AIGC玩家/模型自身能力限制/积分限制不能抽太多次卡等因素,最终的效果也各自有些遗憾。
具体来说——
动漫:严格来说对风格的识别不是很准确,我期望的风格应当是比较标准的赛璐璐,但是似乎出来的风格会有一些变动(偏硬朗漫改风?这里我也不专业),另外有个问题就是默认会把镜头切的有些过于碎了,导致节奏显得有些拖沓,我理解可能是希望运用自己相对专业的分镜方式去做一个拆分,但是Sora2出来以后其实是可以选择相信Sora2自身带有的一些分镜能力,去直接用多分镜生成单条视频的。
MV:这里的问题有两个方面,一是不支持数字人对口型(我问了它,回答是暂不支持);二是也无法精准分析音乐中的句子对应的时间段,也就无法在拼接的时候进行很好的音画匹配。
当然,视频类Agent都会受限于模型能力,以及使用者的专业度。不过从我这种非专业用户的视角来说,总体感受就是通用任务的思路、流程和执行都是OK的,但是会欠缺一些垂直领域需要的东西。
以及补充几个使用过程中其他的小建议:
一个小bug:在首页输入文本时,如果输入过长(比如我把生成好的剧本都贴了进去),后面在文本框里打字,页面会始终往下跳,导致我看不到文本框;
优化点1:在故事线中,每个节点的名字可以让用户更容易懂一些,现在看起来都像是代码里用的字段名字,普通用户可能不太容易理解;
优化点2:目前看好像没有存角色资产的功能。可以考虑增加“角色”的沉淀,满足用户做类似短剧的需求,有助于保持角色的一致性。