画画的朋友都知道,透视是个大麻烦。尤其碰到那种弯弯绕绕的街道、或者一堆建筑叠在一起的场景,光是打个线稿就够头疼了。以前,这得靠扎实的基本功和大量练习。但是现在,AI工具能帮上大忙。
这套所谓的“透视套装”,其实不是某个单一的软件,而是一整套利用AI功能来解决透-视问题的方法和工具组合。核心的那个工具,很多玩AI绘画的朋友应该都听过,叫ControlNet。

ControlNet到底是什么?
简单说,ControlNet是给AI绘画加的一个“控制器”。 以前的AI绘画,你给它一段文字,它就自由发挥,最后出来什么样,一半靠AI的理解,一半靠运气。你想让画面里的人物做个特定姿势,或者让建筑物的角度完全符合你的设想,是很难的。
ControlNet改变了这一点。它允许你上传一张参考图,然后从这张图里提取特定的信息来“指导”AI。 比如,你可以提取一张照片里人物的动作骨架,AI就会生成一个姿势完全一样,但人物、画风完全不同的新图。
用“深度图”搞定空间关系
在处理复杂场景的透视问题时,ControlNet里最关键的功能之一就是“深度图”(Depth Map)。 深度图听起来很专业,但理解起来很简单。它就是一张黑白灰的图像,用颜色深浅来表示物体离镜头的远近。离镜头近的物体是白色或浅灰色,远的物体是黑色或深灰色。
这张图不包含任何物体的颜色、材质信息,只记录纯粹的空间结构和距离关系。
有了深度图,AI在生成新图像时,就能知道哪个东西在前,哪个东西在后,以及它们之间的空间布局。 这样一来,生成的画面就不会出现透视错乱的诡异情况,比如远处的房子比近处的人还大。
实际操作怎么做?
我们来走一遍完整的流程,看看怎么用这套方法画一个有难度的场景。就拿一个复杂的日式街道来举例子。
第一步:找一个3D模型或者画个草图
想让AI帮你搞定透视,你得先给它一个“骨架”。这个骨架可以是一个简单的3D模型,也可以是一张你随手画的透视线稿。
用3D软件:如果你会用Blender之类的免费3D软件,事情就简单多了。你可以在软件里快速搭建一个场景的“毛坯房”,不用贴图,也不用打光,只要把建筑、街道、电线杆这些东西的位置和大小关系摆对就行。然后,从你想要的角度,渲染一张深度图出来。很多3D软件都有直接生成深度图的功能。
找现成的模型:网上有很多3D模型网站(比如SketchFab),上面有大量现成的场景模型。你可以找一个跟你想法接近的,下载下来,自己调整一下角度,然后导出深度图。
自己画草稿:如果你不会3D软件,也没关系。你可以自己画一张简单的透视线稿。把地平线、消失点都标出来,把建筑物的大概轮廓画出来。然后把这张线稿图作为ControlNet的输入。这时,你可以选择用Lineart(线稿)或者MLSD(直线检测)这些预处理器,它们能识别你画的线条,并以此为结构生成图像。
第二步:把“骨架”交给ControlNet
打开Stable Diffusion的操作界面(比如AUTOMATIC1111),找到ControlNet插件的区域。
- 上传参考图:把你准备好的深度图(或者线稿图)上传上去。
- 启用ControlNet:勾选“Enable”启用它。
- 选择预处理器和模型:这是最关键的一步。
- 如果你上传的是深度图,那么预处理器(Preprocessor)和模型(Model)都选择“depth”。 这样ControlNet就会去分析这张图的黑白灰信息,理解场景的空间结构。
- 如果你用的是线稿,可以试试“lineart”或者“canny”之类的模型,它们专门用来识别线条。
- 调整权重:ControlNet里有个“Weight”参数,它决定了AI在多大程度上听从你的深度图指挥。 如果你希望最终画面严格遵守你设定的透视关系,就把权重调高一点,比如1.0。如果你想给AI多一点发挥空间,可以适当调低。
第三步:用文字描述画面细节
现在,场景的骨架已经搭好了,接下来就是填充血肉。你需要用文字提示词(Prompt)告诉AI,你希望这个场景里有什么,是什么风格。
比如,你想画一个傍晚的日式街道,你的提示词可以这样写:
“masterpiece, best quality, Japanese street at night, neon signs, wet pavement, reflections, steam coming from a ramen shop, detailed buildings, cinematic lighting”
(杰作,最高画质,夜晚的日本街道,霓虹灯招牌,湿漉漉的人行道,倒影,拉面店冒出的蒸汽,精细的建筑,电影感光效)
同时,在负面提示词(Negative Prompt)里,可以写上你不希望出现的东西,比如:
“low quality, worst quality, blurry, unrealistic, deformed”
(低质量,最差质量,模糊,不真实,变形)
第四步:生成与调整
所有东西都设置好之后,点击“生成”按钮。AI就会开始工作,它会看着你的深度图来构建场景的空间,同时用你的文字提示来填充细节和氛围。
出来的第一张图可能不完美。但是,因为透视结构已经被深度图锁定了,所以基本的大方向不会错。接下来你可以:
- 调整提示词:增加或修改一些关键词,比如把“夜晚”改成“黄昏”,或者加上“樱花树”,看看效果有什么变化。
- 换个种子(Seed):用同样的设置,换个随机种子,AI就会生成一张构图一样但细节不同的新图。
- 多重ControlNet:高手会同时使用多个ControlNet单元。比如,第一个用深度图来控制整体透视,第二个用OpenPose来控制一个特定姿势的人物放进场景里,实现更复杂的画面控制。
为什么这套方法好用?
这套流程把创作过程拆分开了。你负责用深度图或线稿来把握最重要、最基础的场景结构和透视关系,把最繁琐、最需要技巧的部分交给AI。然后,你再通过文字,像导演一样指导AI去填充画面的氛围、细节和风格。
这样做的好处很明显:
- 透视准确:从根本上解决了AI绘画时场景结构容易崩坏的问题。 只要你的深度图是准确的,生成的画面透视就不会有大问题。
- 效率高:相比手动绘制复杂的建筑群,用3D辅助或者简单线稿的方式生成基础结构,速度快得多。 对于建筑师、室内设计师或者场景原画师来说,这能让他们在前期快速产出大量的方案进行比较。
- 控制力强:你对画面的构图和主体位置有绝对的控制权。你可以精确地决定镜头的高低、远近,实现特定的视角,比如仰视雄伟的建筑,或者俯瞰整个城市。
当然,这套方法也不是万能的。它生成的图片细节有时候还是会有点奇怪,比如窗户的排列、文字的形状等等,这些地方可能还需要人工后期处理。 但是,它已经解决了创作中最头疼的一步:搭建一个结构合理、透视准确的复杂场景。这就像是给你提供了一个完美的画布,让你可以在上面尽情挥洒创意。

技能提升网