咱们今天聊聊怎么做AI视频。这东西听起来好像很复杂,但说白了,只要你用对方法,没任何基础也能上手。现在网上各种教程满天飞,很多都讲得云里雾里,搞得好像是什么高科技。其实真没那么玄乎,咱们就一步一步来,我把我知道的都告诉你。

第一步:先有好本子,再想画面
很多人一上来就急着找工具,想输入几个字就变出个大片。这个想法得改改。AI现在还只是个工具,它不能替你思考。你给它的指令越模糊,它生成的东西就越垃圾。所以,动手之前,先静下心来写个简单的脚本。
一个脚本,至少要包含两个东西:画面描述和旁白。
- 画面描述: 就是你希望视频里出现什么。写得越具体越好。别只写“一个男人在走路”,要写成“一个穿着黑色风衣的男人,在雨天的东京街头快步走,地面反射着霓虹灯的光”。你看,后者是不是一下子就有画面感了?AI也一样,你喂给它更具体的细节,它才能“看”到你想看的东西。
- 旁白: 就是视频里要说的话。旁白要和画面配得上。比如画面是男人在雨中走,旁白可以是“他不知道,这场雨会改变他的一切”。这样一来,故事性就出来了。
写脚本的时候,别想得太复杂。就用最简单的表格,左边一列写画面,右边一列写旁白。一个镜头一个镜头地写。比如你想做一个介绍“冥想的好处”的短视频,脚本可以这么写:
| 画面描述 | 旁白 |
|---|---|
| 镜头1: 一个安静的房间,清晨的阳光透过窗户照进来,一个女人坐在垫子上闭眼冥想。画面要慢,很平静。 | “你有没有觉得,每天的生活都像上了发条?” |
| 镜头2: 大脑的特写动画,里面有很多杂乱的线条在飞速转动,代表思绪。 | “各种念头在脑子里打架,根本停不下来。” |
| 镜头3: 镜头拉回到那个女人,她深吸一口气,表情很放松。周围的空气仿佛都安静了。 | “其实,你只需要每天给自己十分钟。” |
| 镜头4: 画面切换,一个心率图慢慢变得平稳。 | “研究表明,冥想能有效降低压力和焦虑。” |
你看,就这么简单。先把整个故事的骨架搭起来,后面的一切就都有了方向。如果你实在没灵感,可以去问问ChatGPT,让它帮你开头,但记住,它给你的东西只是毛坯,你得自己动手去修改、润色,把它变成你自己的东西。
第二步:挑个顺手的工具
脚本搞定了,接下来就是选工具。现在市面上能生成视频的AI工具不少,主流的有Runway、Pika Labs等等。它们各有各的好,也各有各的毛病。
- Runway: 算是现在功能比较全的一个。它的优点是生成的视频在风格和物体的一致性上相对好一些。意思就是,你生成一个特定角色,后面几个镜头里,这个角色大概率还长得像他自己,不会突然变成另外一个人。它的操作界面也比较直接,有文字生成视频、图片生成视频等好几种模式。
- Pika Labs (通常被称为Pika): Pika的特点是生成的画面动态感可能更强一些。有时候能给你一些意想不到的惊喜。它也支持文字和图片生成视频。很多人觉得Pika在生成动漫或者奇幻风格的视频时效果不错。
选哪个?我的建议是,两个都试试。它们一般都会给新用户一些免费的额度。你用同一个脚本,同一个提示词,分别去生成一下,看看哪个出来的效果更接近你想要的。
这里要说句实话,现阶段的AI视频生成,特别像“开盲盒”。你输入提示词,点一下生成,出来的结果可能是惊喜,也可能是惊吓。同一个提示词,你点十次生成,可能会得到十个完全不一样的视频片段。所以,耐心很重要。别指望一次就成功。多试几次,调整一下你的提示词,这是必经的过程。
第三.步:把文字“翻译”成画面
这是最核心的一步:写提示词(Prompt)。提示词就是你跟AI沟通的语言。你写得好,AI就懂你;你写得烂,AI就只能瞎猜。
写提示词是有基本公式的,别自己瞎琢磨。最简单的公式就是: 主体 + 动作 + 场景 + 风格。
咱们拆开说:
- 主体: 你的画面里最主要的东西是什么?是“一个年轻女孩”,还是“一只橘猫”?
- 动作: 主体在干什么?是在“喝咖啡”,还是在“追逐蝴蝶”?
- 场景: 背景是什么?是在“一个复古的咖啡馆里”,还是在“一片开满野花的草地上”?
- 风格: 你希望这个画面的整体感觉是怎样的?是“电影感,8K画质,光线柔和”,还是“宫崎骏动画风格,色彩鲜艳”?
举个例子,假设我们想生成脚本里的第一个镜头:“一个安静的房间,清晨的阳光透过窗户照进来,一个女人坐在垫子上闭眼冥D想。画面要慢,很平静。”
一个不好的提示词可能是:“一个女人在冥想”。太模糊了,AI不知道是哪个国家的女人,在什么样的环境冥想,画面感觉是怎样的。生成出来的东西基本不能用。
一个好的提示词可以是:“A young woman with her eyes closed, meditating peacefully on a yoga mat. She is in a quiet, minimalist room. Soft morning sunlight streams through a large window. Cinematic style, 8K, calm and serene atmosphere.” (一个年轻女子闭着眼睛,在瑜伽垫上平静地冥想。她在一个安静、简约的房间里。柔和的晨光从一个大窗户射入。电影风格,8K画质,平静安宁的氛围。)
你看,这个提示词把所有细节都描述清楚了。另外,用英文写提示词,生成效果通常会比用中文好一点。这不是说中文不行,而是因为这些AI模型目前主要的训练数据还是以英文为主。你可以先用中文写好,然后用翻译软件转成英文。
还有一个很重要的技巧,叫“图生视频”(Image-to-Video)。如果你希望视频里的人物长得都一样,光靠文字很难做到。你可以先用Midjourney或者Stable Diffusion这样的AI绘画工具,生成一张你满意的角色图片。然后把这张图上传到Runway或者Pika里,再配上提示词,让AI基于这张图去生成视频。这样一来,角色的脸和穿着就能基本固定下来,大大提高了视频的一致性。
第四步:把碎片拼成一个完整的故事
AI生成的视频,通常都只有3到4秒。所以你拿到的是一大堆零散的视频片段。下一步,就是要把这些碎片拼起来,变成一个连贯的视频。
这就需要用到剪辑软件了。别一听剪辑就头大,基础的剪辑非常简单,就是剪切和拼接。
- 推荐工具: 如果你是新手,直接用剪映(国内版叫剪映,海外版叫CapCut)。这个软件操作简单,功能也够用。电脑和手机上都能装。微软自己也有一款免费的叫Clipchamp,也可以试试。
- 操作流程:
- 导入素材: 把你用AI生成的所有视频片段,都拖到剪辑软件里。
- 排序: 按照你脚本的顺序,把这些片段在时间线上排列好。
- 粗剪: 把每个片段开头和结尾不想要的部分剪掉。比如有些片段开头画面会抖一下,或者结尾人物动作变形了,果断剪掉。
- 加转场: 为了让镜头切换不那么生硬,可以在两个片段之间加一个简单的“淡入淡出”效果。但别加太多花里胡哨的转场,会显得很乱。
剪辑的核心是“节奏”。有的地方快,有的地方慢,观众看着才舒服。把没用的、不好看的画面都剪掉,只留下最好的部分。一个3分钟的视频,你手上的原始素材可能有十几分钟,这很正常。
第五步:加上声音,让视频活起来
一个没有声音的视频是没有灵魂的。我们需要给它配上旁白和背景音乐。
- 旁白: 你可以自己录。如果觉得自己的声音不好听,或者设备不好,也可以用AI配音。现在有很多不错的AI配音工具,比如ElevenLabs,它的声音听起来比较自然。剪映里面也自带了“文本朗读”功能,有很多音色可以选,非常方便。你只要把脚本里的旁白文字输进去,它就能自动生成音频。
- 背景音乐(BGM): 音乐能极大地影响视频的氛围。去哪里找音乐?YouTube的音频库里有大量免费、无版权的音乐可以用。根据你视频的调性,是悲伤、是激动还是平静,去搜索对应的关键词就行。
最后一步,是把旁白和背景音乐都拖到剪辑软件的音轨上。注意调整音量。旁白的音量要大一些,背景音乐的音量要小一些,别让音乐把说话的声音盖住了。这是一个很常见的错误。
做好这些,你就可以导出视频了。恭喜你,你的第一个AI视频就这么诞生了。整个流程走下来,你会发现,技术本身并不难,真正花时间的是你的创意、你的脚本,以及你不断“开盲盒”的耐心。AI只是把制作的门槛降低了,但想做好一个东西,花心思是免不了的。

技能提升网