用AI做视频,听起来好像很高科技,感觉操作会很复杂。其实真不是,现在的工具已经做得非常简单了。只要思路对了,跟着步骤来,就跟学着用美图秀秀P图一样,很快就能上手。
整个过程说白了就分两种玩法:一种是“以文生视频”,就是你打字告诉AI你想要什么画面,它直接给你生成视频;另一种是“以图生视频”,就是你先用AI生成一张图片,然后让AI把这张图变成动态的视频。 对于新手,我更推荐第二种,因为这样对画面的控制感更强,更容易做出你想要的效果。

我们按照一个完整的流程,一步一步来拆解。
第一步:先搞定剧本,这是所有视频的起点
不管你用不用AI,想做视频,首先得知道自己要拍什么。这个“拍什么”就是你的核心创意和剧本。很多人卡在第一步,脑子里有想法,但写不成文字。
现在这都不是问题了,可以直接让AI帮你写。你可以打开任何一个对话式AI工具,比如豆包、文心一言或者ChatGPT,然后像跟朋友聊天一样,告诉它你的想法。
关键在于,你要把指令说清楚。不要只说“给我写个故事”,这样出来的东西会很空泛。你要提供一些关键信息,格式可以很简单,就是“谁,在什么时间,什么地点,做了什么事”。
举个例子,假如我想做一个关于赛博朋克城市里侦探的短片,我可以这么跟AI说:
“帮我写一个简短的视频脚本,3个镜头就行。故事背景是一个未来的赛博朋克城市,主角是一个穿着风衣的侦探。
– 镜头一:远景,侦探站在高楼的边缘,下面是川流不息的飞行汽车,雨一直下。
– 镜头二:特写,侦探的脸,他的眼睛是机械义眼,闪着红光,表情很严肃。
– 镜头三:侦探从风衣里拿出一个发光的设备,看着设备上的信息。”
AI会根据你的描述,快速生成一个包含画面描述和旁白的脚本。 这样,视频的基本框架就有了。
第二步:生成关键画面,保证角色和场景不“跳戏”
这是整个流程里非常关键的一步,也是很多新手容易忽略的一步。AI生成视频最大的一个问题就是“一致性”差。 你让它连续生成同一个人的几个视频,会发现每一段视频里的人都长得不太一样,背景也可能有细微变化。
为了解决这个问题,我们需要先“固定”下来我们的主角和主要场景。 做法就是,先不用视频生成功能,而是用AI绘画工具(比如Midjourney)来创建我们的“演员”和“片场”。
首先是固定角色。你可以设计一个详细的指令,生成你主角的正面、侧面和背面图。这就像给游戏角色创建“角色卡”一样。
例如,继续用上面侦探的例子,生成主角图片的指令可以这样写:
“一个男性侦探的角色设计图,赛博朋克风格。他穿着一件黑色长风衣,里面是深灰色衬衫。半张脸是机械的,右眼是发着红光的机械义眼。短发,表情冷峻,背景是纯白色,方便抠图。”
用类似的指令生成几张不同角度的图,选出最满意的一张作为你主角的“标准照”。
然后是固定场景。用同样的方法,生成几个关键场景的图片,比如侦探站着的那栋高楼楼顶、他办公室的内景等等。 这样做的好处是,后面所有视频里的角色和背景都基于这几张“标准图”来生成,画风和细节就能保持统一。
第三步:让图片动起来,这是最神奇的环节
准备好关键的图片素材后,就到了让它们动起来的时候了。这里我们主要用“以图生视频”(Image-to-Video) 的功能。现在市面上很多工具都能做这个,比如Runway、Pika或者国内的“可灵”和“即梦”等。
操作很简单,通常分为几步:
1. 上传图片:把你刚才用AI画好的那张“标准照”上传上去。比如,上传侦探站在楼顶的全身像。
2. 输入动态描述:用文字告诉AI,你希望这张图片怎么动。描述要具体,最好包含镜头运动的方式。
3. 调整参数:有些工具会提供一些参数选项,比如动态幅度的大小、镜头移动的速度等,可以稍微调整一下。
还是用侦探的例子,我们上传了那张他在楼顶的图片,动态描述可以这么写:
“镜头从下往上缓慢推移,人物的风衣和头发在风中微微摆动,背景里的雨丝清晰可见,远处的飞行汽车灯光在闪烁。”
点击生成后,AI就会把静态图片变成一个几秒钟的动态视频片段。 你可以用同样的方法,为你脚本里的每一个镜头都生成一个视频片段。这个过程就像导演在指挥摄像机怎么拍一样。
当然,你也可以直接用“以文生视频”(Text-to-Video),跳过第二步生成图片的过程。 比如直接在Sora或Veo里输入一段详细的描述,让它直接出视频。 这种方法对于生成一些 ഒറ്റ镜头、不需要角色连续性的短片来说很快,但对于想讲一个完整故事的视频,控制起来就比较难。
第四步:配上声音,让视频有灵魂
没有声音的视频是 अधूरा的。声音包括旁白、人物对话、背景音乐和音效。这些也全部可以用AI来完成。
旁白和对话:有很多AI配音工具,比如HeyGen,你只需要把第一步生成的脚本台词复制进去,选择一个你喜欢的声音,AI就能生成非常自然的语音。 有些工具甚至支持“声音克隆”,你可以录制一小段自己的声音,然后让AI用你的声音去读所有的台词。
背景音乐:像Suno这样的AI音乐生成工具,可以根据你的描述创作出独一无二的音乐。你可以告诉它“我需要一段赛博朋克风格、有点悲伤、节奏缓慢的背景音乐”,它就能生成好几首让你挑。
第五步:剪辑合成,完成最后的作品
现在,你手上已经有了一堆AI生成的视频片段、AI配好的音和AI创作的音乐。最后一步,就是把这些材料组合起来,变成一个完整的视频。
这一步可以用传统的剪辑软件,比如电脑上的剪映或者Adobe Premiere。 操作不复杂,就是把视频和音频文件拖到时间线上,按照脚本的顺序排列好,再调整一下每个片段的长度,让画面和声音能对上。
一些新的AI剪辑工具,比如Descript,甚至把剪辑过程也简化了。 它可以自动识别语音,把视频和音频转换成文字。你想删掉视频里的某一句话,直接删掉对应的文字就行,视频画面和声音会自动被剪掉,非常方便。它还能一键帮你删除“嗯”、“啊”这些口头禅和停顿。
把所有片段拼好,配上音乐和音效,再给视频加上字幕,最后导出。到这里,一个完全由AI制作的视频就诞生了。
整个流程梳理下来就是:用AI写剧本 -> 用AI画出关键的角色和场景 -> 用AI让这些画动起来,变成视频片段 -> 用AI配音配乐 -> 最后自己动手或者用AI辅助剪辑,把它们合成一个完整的视频。每一步都有对应的工具,每一步的操作都很直接。看起来步骤多,但只要跟着做一遍,就会发现其实没什么门槛。

技能提升网