别再花那么多钱去找人做数字人视频了,那种几百几千块的数字人制作服务,很多其实就是用免费工具做的。今天我把方法直接告诉你,你自己动动手,最多3分钟,一个能说会道的AI数字人就做好了。这个教程保证没有任何隐藏收费,零基础也能看懂。

整个流程很简单,就三步:
1. 准备一张照片:可以是你自己的,也可以是AI画的。
2. 准备一段话:就是你想让数字人说的内容。
3. 用工具合成视频:把照片和文字放进工具,一键生成。
听起来很简单对吧?下面我把每一步具体怎么操作,用哪个工具,掰开揉碎了讲清楚。
第一步:搞定数字人形象(准备照片)
数字人的“脸”就是一张照片。这张照片决定了你数字人的样子。你有两个选择,用真实照片或者用AI生成的图片。
选项A:直接用自己的照片
这是最简单的办法。找一张你自己的正面、清晰、光线好的照片。注意,是那种看起来比较精神的,别用太随意的自拍。因为最终视频的效果,很大程度上取决于这张照片的质量。五官清晰、正对镜头的照片效果最好。
选项B:用AI生成一张独一无二的脸
如果你不想用自己的脸,或者想要一个特定风格的形象,比如动漫风、科幻风,那就让AI帮你画一张。
现在有很多免费的AI绘画工具。比如Midjourney,效果很惊艳,但操作稍微复杂一点,需要用到Discord这个聊天软件。对于新手,我更推荐国内的一些小程序或者网站,操作界面是中文的,更直接。你可以直接在微信里搜一下AI绘画,能找到不少。
不管用哪个工具,你都需要输入“提示词”(Prompt)来告诉AI你想要什么样的图片。写提示词是有技巧的。你不能只说“一个好看的女孩”,这样AI画出来的东西会很随机。
你要把要求描述得具体。就像这样:
一个25岁的中国女孩,长发,大眼睛,穿着白色的T恤,坐在一个现代风格的办公室里,背景要干净,看着镜头微笑,照片风格要写实,像单反相机拍出来的。
把这段话输入AI绘画工具,它就能生成一张基本符合你要求的图片。你可以多生成几次,挑一张最满意的。 Midjourney这样的工具甚至可以通过一个叫“Character Reference”的功能,让你在生成不同场景图片时,保持人物形象的一致性。
照片准备好之后,我们进入下一步。
第二步:准备文案和声音
照片是皮囊,声音和文案才是灵魂。
先说文案。 就是你希望数字人说的那段话。把你想说的内容,用记事本或者直接在手机备忘录里写下来。建议写的口语化一点,句子短一些,这样听起来更自然。
然后是声音。 声音也有两种办法:
办法A:自己录音
如果你对自己的声音有信心,或者希望视频更有个人特色,自己录是最好的选择。直接用手机的录音功能就行。找个安静的地方,把写好的文案念一遍,录下来。注意语速不要太快,吐字要清晰。
办法B:用AI配音
如果你不想用自己的声音,或者普通话不标准,那就用AI配音工具。现在很多剪辑软件都自带这个功能。比如“剪映”或者一些在线的文字转语音(TTS)工具。
我个人比较推荐直接在后面的视频合成工具里完成这一步,因为很多工具都整合了文字转语音的功能,非常方便。 你只需要把文案粘贴进去,就可以选择不同的声音,有男声、女声、童声,甚至还有不同情绪和方言的。
第三步:合成数字人视频(关键步骤)
这是最核心的一步,把照片和声音合成为一个会说话的视频。这里我们要用的主角是 剪映(CapCut)。对,就是那个大家都在用的剪辑软件。它现在内置了非常强大的AI数字人功能,而且是免费的。
下面是详细的操作步骤,跟着我一步步来:
下载并打开剪映专业版
首先,你需要在电脑上下载“剪映专业版”。手机版的功能可能没那么全,建议用电脑。找到AI数字人功能
打开剪映专业版,在首页的左上角,你会看到一个“图文成片”或者类似的创作工具栏。在里面仔细找找,就能看到“数字人”或者“AI主播”这样的选项。上传你的照片
进入AI数字人功能后,你会看到软件自带的一些数字人形象。 不用管它们,找到“上传”或者“自定义”的按钮,把你第一步准备好的照片传上去。输入文案或上传录音
上传照片后,界面上会出现一个文本框。- 如果你想用AI配音:直接把你第二步写好的文案粘贴到文本框里。 旁边通常会有选项让你选择不同的声音和语速,你可以一个个试听,选一个你最喜欢的。
- 如果你用的是自己的录音:找到上传音频的按钮,把你录好的声音文件传上去。
生成视频
照片和声音都就位之后,点击“生成视频”或者“应用”按钮。这时候AI就开始工作了,它会自动分析你声音的口型,然后让你上传的那张静态照片“动”起来,嘴巴会跟着声音一张一合,还会有一些细微的点头、眨眼动作,看起来就像真人在说话。编辑和导出
等个几十秒,视频就生成好了。它会自动添加到剪辑轨道上。这时候,你可以像正常剪辑视频一样,给它加上背景音乐、字幕、特效等等。剪映的自动字幕功能也很好用,可以一键给你的数字人说话内容配上字幕。所有都调整好之后,点击右上角的“导出”,一个由你亲手制作的AI数字人视频就完成了。整个过程,熟练的话,真的用不了3分钟。
一些让效果更好的小技巧
- 照片质量是关键:再说一遍,照片一定要清晰,最好是正脸,不要有奇怪的光影或者遮挡物。AI是根据五官来计算口型的,五官越清晰,生成视频的嘴型就越准。
- 文案尽量简短:免费工具通常对单次生成的视频时长有限制,比如1分钟或3分钟。 如果你的文案很长,可以分段生成,最后再拼接到一起。
- 尝试不同的AI声音:别用默认的声音,多试几个,有时候换个声音,整个视频的感觉就完全不一样了。
- 加点背景和BGM:纯粹一个大头在说话会有点单调。在剪映里给视频加个简单的背景图片或者背景音乐,效果会好很多。
现在市面上有很多听起来很厉害的数字人制作平台,比如HeyGen、Synthesia等,它们的效果确实不错,但免费版限制很多,要么有巨大的水印,要么时长短得可怜。 对于我们普通人来说,只是想做个简单的口播视频,剪映这个免费工具已经完全够用了,而且效果绝对超出你的预期。
这个方法不仅省钱,而且效率很高。你可以用它来做短视频、产品介绍、在线课程,甚至只是做个好玩的虚拟形象发给朋友。技术本身没有那么神秘,别再被那些听起来高大上的名词和收费服务给唬住了。自己动手试试,你会发现制作一个AI数字人,原来就这么简单。

技能提升网