可以生成图片的AI：你的文字，AI帮你变画面！

AI画画这事儿，听起来挺玄乎，其实原理说白了很简单。你给AI一段文字，它就根据你的文字描述生成一张图片。这背后是一种叫做“扩散模型”（Diffusion Model）的技术在起作用。你可以把它想象成一个超级厉害的“脑补”大师。一开始，它看到的是一张完全是噪点的、乱七-八糟的图片，什么也看不清。然后，它会根据你给的文字指令，一点一点地把这些噪点“还原”成一张清晰的、符合你描述的图片。

这个过程有点像玩拼图，但AI不是在找现成的碎片，而是在创造碎片。它在庞大的数据库里学习了无数图片和对应的文字描述之间的关系。比如，它学习过上亿张“狗”的图片，也知道这些图片都带着“狗”这个标签。所以，当你的指令里有“狗”这个词，它就知道要去生成一个符合它“认知”里“狗”的样子的东西。你描述得越详细，比如“一只戴着宇航员头盔的金色拉布拉多犬，坐在月球表面，背景是地球”，AI就能从噪点中“脑补”出更精确的画面。

现在市面上能玩这种技术的工具不少，比较出名的有Midjourney、Stable Diffusion和DALL-E 3。它们三个各有各的地盘，特点也挺不一样。

Midjourney可以说是目前画画效果最惊艳的一个。它生成的图片有很强的艺术感，光影、构图都特别讲究，很适合拿来创作插画、概念艺术这类对美感要求高的图。但是，它不是一个独立的软件，你得在Discord这个聊天软件里通过跟机器人对话的方式来用它。这对于不熟悉Discord的人来说，上手有点门槛。而且，Midjourney现在已经没有免费试用版了，想玩就得付钱。

然后是Stable Diffusion。这家伙最大的特点是开源，意思就是代码是公开的，谁都能拿去用，甚至可以在自己的电脑上部署。这就给了用户极大的自由度。你可以用它来训练自己的专属模型，生成特定风格的图片，比如把你家的猫训练成一个模型，然后就能生成各种你家猫的卡通形象。因为开源，网上有海量的社区资源和别人训练好的模型可以用。当然，自由的代价就是折腾。在自己电脑上装Stable Diffusion需要不错的显卡，而且各种参数设置也比较复杂，对新手不太友好。不过，现在也有很多网站提供了在线的Stable-Diffusion服务，比如国内的“文心一格”或是一些国外的平台，不用自己装，直接在网页上就能用，大大降低了门槛。

最后是DALL-E 3。这是OpenAI家的产品，就是开发ChatGPT那个公司。DALL-E 3最大的优势在于它和ChatGPT的深度整合。你不用像用Midjourney那样去学习怎么写那些复杂的“咒语”（也就是指令，Prompt）。你直接用大白话跟ChatGPT说你想要什么画面就行，它会帮你自动优化和丰富你的描述，然后调用DALL-E 3生成图片。比如你只说“一只猫”，ChatGPT可能会帮你扩展成“一只毛茸茸的橘猫，懒洋洋地趴在阳光充足的窗台上打盹，窗外是模糊的绿植”，这样生成的图片细节就会丰富很多。这种方式对普通用户来说是最方便的。目前，如果你订阅了ChatGPT Plus，就可以直接在里面使用DALL-E 3。

那么，怎么才能让AI画出我们想要的东西呢？关键就在于写好“提示词”（Prompt）。提示词就是你给AI下达的具体指令，是你和AI沟通的唯一桥梁。写提示词有点像给一个超级聪明但没有任何主观想法的画家下指令，你得告诉他画什么、怎么画、画成什么风格。

一个好的提示词通常包含几个核心部分：

第一，主体。这是最基本的，你得告诉AI你要画什么。比如，“一个宇航员”、“一条龙”、“一座未来城市的摩天大楼”。主体越明确越好。

第二，细节描述。光有主体，画面会很单调。你需要添加细节来丰富它。比如，宇航员是什么样子的？“一个穿着复古银色宇航服的宇航员”。龙呢？“一条全身覆盖着彩虹色鳞片的中国龙”。城市呢？“一座充满霓虹灯和飞行汽车的赛博朋克风格的未来城市”。细节越多，AI能发挥的空间就越大，画面也就越具体。

第三，构图和视角。你想从哪个角度看这个画面？是远景还是特写？是俯视还是仰视？这些都可以通过关键词告诉AI。比如，“广角镜头”、“鱼眼视角”、“从地面向上看的仰视视角”、“人物特写”。明确的视角指令能让画面更有冲击力。比如，你想画一个宏大的场景，就可以用“史诗般的广角镜头”。

第四，画风和艺术风格。这是决定图片最终观感的关键。你可以指定某个艺术家的风格，比如“梵高风格”、“宫崎骏动画风格”；也可以指定某种艺术流派，比如“印象派”、“超现实主义”；或者直接描述材质和效果，比如“水彩画”、“油画质感”、“3D渲染”、“电影感光效”。把这些风格词加进去，AI就会模仿对应的感觉来作画。例如，一张“森林小屋”的图片，加上“吉卜力动画风格”，出来的感觉就会很治愈。

第五，参数。有些工具，特别是Midjourney和Stable Diffusion，还支持一些参数指令，用来控制画面的具体细节。比如，在Midjourney里，你可以用 --ar 16:9 来指定图片的宽高比是16:9，或者用 --style raw 来获得更真实、更少艺术加工的风格。这些参数就像是相机的各种设置，需要花点时间去学习和熟悉。

我们来举个具体的例子。假设我想画一张“骑士和龙”的画。

如果我只输入“骑士和龙”，AI可能会给我一张很普通的、不知道是啥风格的画，构图也很随意。

现在我来优化一下这个提示词：
“一位身穿精致雕花盔甲、手持发光长剑的骑士（主体和细节），正与一条喷着火焰的巨大黑色巨龙对峙（互动和细节）。场景是在一座火山顶上，背景是昏暗的天空和滚滚的岩浆（环境）。采用电影感的广角镜头，强调史诗氛围（构图和氛围）。风格是暗黑幻想艺术，类似《黑暗之魂》游戏美术（风格）。”

你看，加了这么多限定条件之后，AI就能非常清楚地知道我想要的是什么感觉的画面了。它会去抓取“雕花盔甲”、“发光长剑”、“喷火黑龙”、“火山”、“岩浆”、“电影感”、“暗黑幻想”这些关键信息，然后把它们组合成一张符合所有要求的、充满故事感的图片。

刚开始玩的时候，不用想得太复杂。可以先从简单的“主体+风格”开始，比如“一只猫，水彩画风格”。然后慢慢往里面加东西，看看每加一个词，画面会发生什么变化。这是一个不断尝试和调整的过程。很多在线社区里也有别人分享的优秀作品和他们的提示词，多看看别人的词是怎么写的，是学习最快的方法。

总的来说，AI绘画技术把创作的门槛拉低了很多。以前需要专业画师花好几天甚至好几周才能完成的作品，现在可能只需要几分钟的思考和几次点击就能生成。当然，它不能完全替代人类的创造力。AI本身没有审美，也没有情感，它只是一个执行指令的工具。最终画面的好坏，很大程度上还是取决于使用它的人的想法和描述能力。是你，在通过文字，引导AI进行创作。

可以生成图片的AI：你的文字，AI帮你变画面！

AI老卡

相关推荐

评论抢沙发

最新文章

最新提问

切换注册登录

切换登录注册