小云雀

一站式智能内容创作工具，覆盖视频、口播、海报、商品图等多种内容类型的创作。

小云雀是剪映出品的 AI 视频和图片创作助手，支持零门槛创作视频、数字人口播视频、设计图和图片换背景，只需输入一句指令，AI 即可高效帮你完成内容创作。
更有多样化数字人形象，满足不同场景的创作需求，告别创意忧愁，助力内容脱颖而出！小云雀的核心能力：

智能生视频：不会剪辑缺乏灵感？只需输入创作主题，即可产出 15-60 秒爆款短视频，原始实拍与 AI 生成素材自然融合，小白也能轻松创作！
数字人讲解：真人模特费用高？小云雀提供超丰富的可商用数字人形象，输入文字自动生成口播视频，创作简单又高效！
AI 图片设计：无需设计基础！一句指令即可批量生成吸睛的风格化图片，轻松呈现高级感，打造专业设计。
智能换背景：精准抠图，智能光影优化，根据需求匹配多元化的图片背景，无需专业棚拍，瞬间高级感拉满！
照片会说话：无论是真人照片、卡通人物还是动物，都能瞬间像真人一样口播说话，创意无边界。

? 当前产品完全免费

发布你的回复回复

Sundar Pichai · 2026-05-01 22:08

第一批使用小云雀的用户，测试阶段使用的时候，就经验到我了，那个时候文生视频还没有普及，小云雀就可以做很多历史故事，漫画，自己思考做分镜。生成的质量也还可以，现在加入了很多新功能，质量都蛮高的，免费版的可玩性就挺多，是一款很不错的产品。

0 / 2000
Varun Mayya · 2026-02-12 21:51

结论先行：在免费额度内可用性较高的一款图像和视频生成工具。

上半年的时候，字节刚推出小云雀。作为第一批内测用户使用，当时小云雀的基本功能就可以确立了，主要是视频生成、背景更换和图片设计。使用过程中也可以看出有一步一步推进的工作流，就是当时使用的人一多就容易崩。比较好的地方在于上手简单、界面简洁。虽然给了好评，但是我觉得问题也很明显。

首先是创意相对有限。我觉得小云雀很适合那种一个爆款模板出现了，迅速利用这个产品进行内容复刻。当时利用Veo3做出的一系列有梗的小视频，小云雀基本上都能迅速进行复刻。但是小云雀却很难通过自身打造出下一个爆款内容模板，究其根源还是创新力不足。

其次是理解能力不足。和字节家的即梦比起来，小云雀在使用的时候对Prompt的理解会有欠缺，导致生成的内容往往会难以满足需求。然后就继续痛点循环：生成内容不满意、继续生成花时间花钱、又不满意继续生成。如此循环直到满意为止。

不过对于一款更加面向大众，而非专业内容制作者的工具，我觉得还是可以给到Good的。毕竟，依靠字节的模型，还是背靠大树好乘凉啊。

0 / 2000
Ahsen Khaliq · 2026-03-19 16:36

从1.0就开始关注了，到2.0版本，实现了比较大的迭代，基于即梦4.0，整体效果更好了。

0 / 2000
Krea AI · 2026-03-22 08:28

是不是因为它是app的原因，对比了一下快手的磁力开创的数字人网页端，效果可控性比小云雀强，当然小云雀的功能还是很好的，适合小白初级玩家，后续想更专业可能会跟不上

0 / 2000
Jeff Dean · 2026-04-04 10:52

前几天体验过这个，做垂直场景，有目标性的去做其实整体而言都是不错的效果。具体的产品场景测评可以看这篇文章，主要是围绕电商设计的场景里面进行了融合：https://mp.weixin.qq.com/s/C9LyQWd-GHmkEwIdD2Jsnw

开局一张图，装备全靠打

0 / 2000
Pete Huang · 2026-04-06 21:59

也是字节跳动的产品，感受下来并没有什么新意，如果是这样的话，我更加倾向于直接在豆包上进行生图和生视频，在数字人生成的方面，生成的数字人画面实在是太僵硬了，感觉就像古早时期的技术，只有脸部动作，没有其他身体任何部位的动作，并且脸部感觉是僵硬的在撕扯着说话，鸡肋的产品，食之而无味

0 / 2000
Ronald van Loon · 2025-12-13 20:46

很早就体验到了字节的这款产品，就如很多产品一样的演示：“要改变世界了” 用后：“纯纯玩具”（也是很多aiagent产品的通病了）
人物会穿模，字会乱码，甚至有的时候直接来一个失败直接蚌埠住了，时不时又来个违规。
要真和最近放出来的 Sora2 比，那简直不是一个维度，物理效果、人物一致性直接把小云雀吊打。一个是随便糊弄短视频的玩具，一个是真能当未来生产力工具的东西。小云雀现在唯一的优点就是：免费。（也快要收费了

0 / 2000
玉伯 · 2026-01-09 20:27

我本着用小云雀的应该都想要快捷生成视频的想法，单纯体验了一键生成视频，没有进行任何人工干预，全是自动生成。生成了3段视频，分别是孤独旅人、外星租客、曹操卖酒。

需要说明的是，生成视频有3个步骤：理解分析→创意策略→剪辑。每一步都开放了非常细节的修改。比如每一个镜头的台词、画面内容、配音音色、背景音乐、创意需求、风格、目标受众、主题、视频长度、视频语言等等，可以说灵活度非常高了。

但是，我这次就是替广大懒人网友试用的，测试下它的原生实力，纯自动生成的结果如下：

1.《孤独旅人》

提示词中提到的元素都完整展示了，包括不薄雾伦敦、人潮东京、沙漠日落和香港，还自动配了台词。任务一致性包括发型服装等都还保持的不错，台词也还契合画面的氛围。

但是人物一直是静态摆拍姿势，基本上就是站立背影不动，缺乏自然的肢体语言导致人物像是直接贴在背景上，另外画面虽然精美但是有一种数字塑料感，真实性差一些，细节失真就不说了。还有配音语速过快，没有调节语速的选项，声线业没有起伏，单纯念稿，让人无法沉浸。

2.《外星租客》

我寻思我这创意也还可以，奈何导演是艾德·伍德，直接给我一个史诗级科幻烂片。美术风格大乱炖，这萤火虫和蝴蝶像是从什么素材库里下载来直接拖上去的，强行跟外星人元素做了一个非常违和的拼贴画。还有这奇怪的人物比例，忽大忽小，唉没法看没法看......

3.《曹操卖酒记》

这个直接给我做成了一个二锅头广告，内容其实还挺完整的，就是色调忽冷忽热，开始画面很黄，曹操讲着讲着就变白了。人物五官也一直在进行肉眼可见的细微变化，有点恐怖谷效应了。最后，配音的口型对的不是特别好，挺出戏的。

总结：全自动的话只能当个玩具，而且像是泡面多出来的调料包、点外卖送的勺子牙签、超市开业送的扇子、买瑞幸送的贴纸、买蛋糕送的袋子，尽管质量不是很好，但是觉得扔了可惜，说不定什么时候能用上，或者出于习惯带回家放着。然后等到搬家那天，整理出来一大摞破烂，全都拿出去丢掉的那种。

0 / 2000
Ian Goodfellow · 2026-01-13 22:12
剪映出品的视频Agent，其实这个出身+产品形态就注定了它一定会是个比较有争议的产品：

大家对剪映的高期待：在过去很长一段时间的AI视频领域，你会看到很多短视频/长视频博主，教你用各式各样的工具去做AI视频，无论是出于个人喜好还是商业需要，总会给你在各个环节推荐不一样的产品：视频脚本/分镜、图片素材、视频生成、声音/口型搭配……唯有一个环节，99%的博主不会给你第二个选项，就是【最后用剪映剪辑一下】（因为其他高级的工具普通用户更玩不明白）。这件事既表明剪映做视频Agent是顺理成章，也代表着它从出生就一定是带着大家的高期待值。

剪辑的高艺术性，一个精心剪辑、带有各种运镜/转场/蒙版等技巧的高级感视频，和一个纯片段拼接+配个字幕/BGM就完成了的初级视频，给人的感觉就是完全两个Level，而前者在现阶段，AI是不太擅长的（当然Sora2已经可以自带一些运镜和分镜了，是个好的开始）

Agent的形态，就是大部分环节都由AI自主帮你完成，便捷度和可控性天然就是成反比的。即便每个环节是95%的概率符合你的要求，多个环节组合起来也是很高概率的不符合，更何况如上面所说，单剪辑这个环节，能符合自身期待的概率就远低于95%

所以这个产品注定了就是给一些比较懒、对成片要求也没那么高，但是想用几张图或者视频片段拼成一个东西发发抖音，娱乐一下的普通人来用的，最好不要苛求什么高级感、不失误，个人认为这是种误区和不切实际的要求。

而恰好我就是这样的用户，没什么艺术细胞，不会设计运镜/转场，短视频只要别太离谱我就敢拿出来发抖音（此处有罗老师表情包：又不是不能用）

所以个人还是喜欢这个产品的，即便它的确还比较初级，但是毕竟做视频这件事，如果剪映都做不好，我们又该相信谁呢，对吧
0 / 2000
Greg Brockman · 2026-04-22 17:50

字节不愧是宇宙大厂，做的产品都非常具有洞察和想法，就比如小云雀，我觉得是要比最近热门的sora2要成熟的多，光是创作对话框，就根据不同创意玩法有不同的界面和交互；
【0】其实大部分AIGC视频玩法就是找到视频创意玩法，并在短时间内大量复制套用和创作，模板套用，而把这些统一通过首页banner热点玩法，在灵感热点分栏里能够一键创作，给出对应提示词以及图片进行替换直接生成，对于创作者来说非常方便，其他的功能也有类似的模板可以套用，相当于一个创意的借鉴和生成
【1】AI图片设计相当于直接把即梦给集成过来，而且一镜到底也是即梦PC端才有的功能，在这里作为制作短视频和智能剪辑的一个功能十分合适，只是不能选择模型这一点比较遗憾，不过相比于产品定位来说也还好
【2】令我比较惊喜的是智能生视频功能，是可以上传视频提出需求和诉求后，自动给你生成脚本创作，里面分镜类别也比较全面；包括创意元素、旁白语气、产品类型、风格等，比我自己写分镜做片子提出需求和考虑的还要多；还可以选择视频风格以及形象等，音色虽然不如剪映得多，还还是比较方便，也是抖音视频常用得音色，就是不能形成复杂人物对话，不如sora2那么对话真实以及影视级别；但如果能结合sora2得模型特点，加上上述得功能分类，说不定还更能进一步提升，尤其是在短剧创作方面，多人物对话实现、剧本创作、剧情演绎；尤其是作为电影时前期得分镜参考站位打光等都可以，有进一步想象空间，且还可以进一步编辑详细的镜头以及对应台词，撰写提示词也很好；
【3】剪辑出来加上了字幕以及初步的过场，也按照提供的素材进行剪辑，没有瞎编乱造，自由画布拖拽模式以及交互也比较友好；感觉可以作为未来批量生成固定模式视频的一种手段和产品形式；
【4】智能换背景只能根据图片进行背景替换，感觉这个功能不足以放在首页，如果能在口播视频场景中替换背景，且不至于那么突兀，这样技术感觉会更好
【5】照片会说话，相当于照片对口型了，可以上传图片以及自己录音进行配音，也可以提取视频音频进行口型匹配，甚至可以输入想要文本选择音乐进行配音，相当于数字人口播功能；要比数字人讲解功能要更全面；
总体来说关于AIGC视频目前现有玩法和功能基本上都有，在用户自定义选择和功能还不够全面详细；但作为剪辑智能化，初步的视频生成制作的需求来说，不会剪辑的人群来说，已经足够了；强烈建议支持导入剪映，能够进一步修改部分细节，包括调整字幕，替换部分图片和视频就更好了

0 / 2000
Javi Lopez · 2026-04-26 14:03

我觉得自己没什么使用场景，就把小云雀介绍给我开面包店的朋友了，他说为省钱不想请专业的摄影师。反正他试了试市面上的产品，包括我推荐给他的美图的产品，都觉得还不够好。待他反馈测试结果我再来更新。

0 / 2000
Lex Fridman · 2025-12-31 15:39

第一批用户，好评！

虽然很多不完美，但这是我真实用得上的第一款ai agent视频生成工具，基本上就是把字节的工具串了起来，豆包补充需求+工作流控制+即梦生图+剪映剪辑

当然也有吐槽，人物一致性很差（准确来说乱配图片，瞎混剪）、生成经常超时（毕竟免费）

但已经超越很多视频工作流了，通用性更强，适合个人媒体工作者（团体的用n8n好像还不错），继续加油吧

0 / 2000
何恺明 · 2026-01-05 09:22

图片修改包括换装的指令得到的图片都比较僵硬，有时候为了保持背景不变修改衔接处弄的很僵硬，换衣服这种指令感觉像把原照片头部剪切下来粘贴到新照片一样，生成的效果很假，不太令人满意。

上传多张照片之后生成转场展示视频的功能还不错，可能是因为每一段都有明确的起始图片和终止图片。

总体很一般，不推荐。

0 / 2000
Andrew Ng · 2026-01-30 16:49

刚下载，使用中，等后续来做评价(#^.^#)

0 / 2000
Jeff Dean · 2026-03-24 10:02

做了一个数字人讲解产品的视频，整个视频质感很棒——包括每帧的图片、配乐、运镜等，可编辑性也比较强；但有个问题是：数字人的口型变化和字幕对不上，声音类型和数字人形象也对不上，很出戏

0 / 2000
Zhenghua Yang · 2026-03-27 14:33

感觉不是很好用。都是一些很经典的问题

0 / 2000
何恺明 · 2025-12-04 20:57

视频还是不可控，视频模型为了省钱好像不是用的seedream3.0？人物变形，手指崩坏，还是那些视频模型通用的毛病。视频agent还是道阻且长啊

0 / 2000
Javi Lopez · 2026-02-21 09:49

这个也是字节的产品，功能方面做的都很好了，对体验用户也友好，每天都有积分可以领取，积分可以用于产品大部分高级功能的使用，不局限于免费功能

0 / 2000
Demis Hassabis · 2026-03-06 20:25

数字人视频生成蛮快的，我的同学表示惊叹，就是口型匹配度可能需要再优化下，说起来当时下载小云雀还是用了降临派搜索数字人相关应用有哪些，然后搜到了下载使用到发给同学体验Demo视频，加起来十来分钟，而我同学原以为生成数字人视频需要很久。再次感慨字节的产品数量和相关APP制作能力

0 / 2000
Logan Kilpatrick · 2026-03-30 09:14

让它试着生成一版，我就尝试输入提示词，给了一张跟朋友聚会的图，这是我和朋友们在一个餐桌上一起聚会的画面，让他去生成相关的一些视频。结果发出来视频，朋友们都评论这也太诡异了，确实是无中生有了一只手，忽然一个乱七八糟的一只手鼓掌，这样整个画面看起来就毫无逻辑。毕竟是免费的，肯定是用不到生产环境上的，只能做一些小电脑去玩一下嘛。目前还是免费的阶段，感觉后面还是有很多的一个成长空间的吧。

然而！这不是我们一直期待的视频Agent吗？一句话生成你想要的内容！如果你对一句话生成视频感兴趣的话，你完全可以尝试一下这款国利的软件。目前还在推广期间，每天都有免费的Token使用，收费模式跟即梦很像。这个平台上还有很多精彩内容，值得你去探索。

0 / 2000
Lex Fridman · 2026-05-07 08:44
首先说说交互：

设计上是简约风格，分页为灵感信息流、工作流和历史记录。传统二级功能放在chatbox里面交互（也是AI应用应该做的，将工具融入到AI里交互来简化界面）；

在Chatbox里面有一个很便捷的设计，长按历史消息就可以直接在输入框复用历史消息（包括文件和文字），不需要再多一步复制粘贴；

其次是实际功能：

AI智能视频：视频分镜不连贯，最终观感一般。工作流设定是【用户输入视频需求 -> AI分镜、补充台词背景，依序给出单次1-2s视频的提示词 -> 批量按提示词生成 -> 用一个剪辑AI将生成的1-2s 视频审查和串联】。这就会导致提示词无法保证分镜和分镜之间对象的一致性，比如上一个镜头的人穿着白衣服，下一个镜头切成了黑衣服。为什么观感一般呢，一部分原因是有点AI的唐味儿，但是为了能够用于实际生产又不得不做了控制，却又保留了一些不似人的唐味，最终呈现出不自然、刻意的感觉，另一部分原因是配音非常AI，没有sora生成的真人音频和环境音，以至于左脑攻击右脑，一边画面要去AI一边音频纯AI。

静态转动图：放在前面讲，因为猜测后面好几个功能的工作流都是基于静转动的功能，静转动没调好后面也不必说了。小幅度动作完成的差强人意，不太自然，做一个低头的动图，脖子有一段是垂直掉落真的有点唐了。物理学后继无人了物理学后继无人了。

图片转场：预期是像抖音图像动画渲染转场，配一个很炸的BGM。但是没啥动画，效果是静态图先转动态图（让照片中的对象形成live图的简单动作效果），然后像一个全景相机一样从左到右用AI把边界给你缝起来，甚至智能配乐是0个音乐出现。

照片会说话：更唐了。AI音色+不合实际的嘴，一致性保持很一般。感觉就是静转动加个配音，因为两个功能耗时相近。

数字人讲解：口播是所有功能表现最好的，表情、音色、样貌一致性。毕竟直播业务放在那，且已经有很多实践了，能不能允许像sora一样形象授权生成数字人，这样能进一步扩展自媒体视频的应用。

美图功能：换背景、提升分辨率。可能是一个基础工作流单独提出来收集一些数据，也可能是对视频能力不自信的一个引流手段，但是换背景效果还挺ok的，分辨率提升是1728*2304，接近2K。
0 / 2000

小云雀

21 个评论