欢迎光临
我们一直在努力

可以生成图片的AI:你的文字,AI帮你变画面!

AI画画这事儿,听起来挺玄乎,其实原理说白了很简单。你给AI一段文字,它就根据你的文字描述生成一张图片。这背后是一种叫做“扩散模型”(Diffusion Model)的技术在起作用。你可以把它想象成一个超级厉害的“脑补”大师。一开始,它看到的是一张完全是噪点的、乱七-八糟的图片,什么也看不清。然后,它会根据你给的文字指令,一点一点地把这些噪点“还原”成一张清晰的、符合你描述的图片。

这个过程有点像玩拼图,但AI不是在找现成的碎片,而是在创造碎片。它在庞大的数据库里学习了无数图片和对应的文字描述之间的关系。比如,它学习过上亿张“狗”的图片,也知道这些图片都带着“狗”这个标签。所以,当你的指令里有“狗”这个词,它就知道要去生成一个符合它“认知”里“狗”的样子的东西。你描述得越详细,比如“一只戴着宇航员头盔的金色拉布拉多犬,坐在月球表面,背景是地球”,AI就能从噪点中“脑补”出更精确的画面。

现在市面上能玩这种技术的工具不少,比较出名的有Midjourney、Stable Diffusion和DALL-E 3。它们三个各有各的地盘,特点也挺不一样。

Midjourney可以说是目前画画效果最惊艳的一个。它生成的图片有很强的艺术感,光影、构图都特别讲究,很适合拿来创作插画、概念艺术这类对美感要求高的图。但是,它不是一个独立的软件,你得在Discord这个聊天软件里通过跟机器人对话的方式来用它。这对于不熟悉Discord的人来说,上手有点门槛。而且,Midjourney现在已经没有免费试用版了,想玩就得付钱。

然后是Stable Diffusion。这家伙最大的特点是开源,意思就是代码是公开的,谁都能拿去用,甚至可以在自己的电脑上部署。这就给了用户极大的自由度。你可以用它来训练自己的专属模型,生成特定风格的图片,比如把你家的猫训练成一个模型,然后就能生成各种你家猫的卡通形象。因为开源,网上有海量的社区资源和别人训练好的模型可以用。当然,自由的代价就是折腾。在自己电脑上装Stable Diffusion需要不错的显卡,而且各种参数设置也比较复杂,对新手不太友好。不过,现在也有很多网站提供了在线的Stable-Diffusion服务,比如国内的“文心一格”或是一些国外的平台,不用自己装,直接在网页上就能用,大大降低了门槛。

最后是DALL-E 3。这是OpenAI家的产品,就是开发ChatGPT那个公司。DALL-E 3最大的优势在于它和ChatGPT的深度整合。你不用像用Midjourney那样去学习怎么写那些复杂的“咒语”(也就是指令,Prompt)。你直接用大白话跟ChatGPT说你想要什么画面就行,它会帮你自动优化和丰富你的描述,然后调用DALL-E 3生成图片。比如你只说“一只猫”,ChatGPT可能会帮你扩展成“一只毛茸茸的橘猫,懒洋洋地趴在阳光充足的窗台上打盹,窗外是模糊的绿植”,这样生成的图片细节就会丰富很多。这种方式对普通用户来说是最方便的。目前,如果你订阅了ChatGPT Plus,就可以直接在里面使用DALL-E 3。

那么,怎么才能让AI画出我们想要的东西呢?关键就在于写好“提示词”(Prompt)。提示词就是你给AI下达的具体指令,是你和AI沟通的唯一桥梁。写提示词有点像给一个超级聪明但没有任何主观想法的画家下指令,你得告诉他画什么、怎么画、画成什么风格。

一个好的提示词通常包含几个核心部分:

第一,主体。这是最基本的,你得告诉AI你要画什么。比如,“一个宇航员”、“一条龙”、“一座未来城市的摩天大楼”。主体越明确越好。

第二,细节描述。光有主体,画面会很单调。你需要添加细节来丰富它。比如,宇航员是什么样子的?“一个穿着复古银色宇航服的宇航员”。龙呢?“一条全身覆盖着彩虹色鳞片的中国龙”。城市呢?“一座充满霓虹灯和飞行汽车的赛博朋克风格的未来城市”。细节越多,AI能发挥的空间就越大,画面也就越具体。

第三,构图和视角。你想从哪个角度看这个画面?是远景还是特写?是俯视还是仰视?这些都可以通过关键词告诉AI。比如,“广角镜头”、“鱼眼视角”、“从地面向上看的仰视视角”、“人物特写”。明确的视角指令能让画面更有冲击力。比如,你想画一个宏大的场景,就可以用“史诗般的广角镜头”。

第四,画风和艺术风格。这是决定图片最终观感的关键。你可以指定某个艺术家的风格,比如“梵高风格”、“宫崎骏动画风格”;也可以指定某种艺术流派,比如“印象派”、“超现实主义”;或者直接描述材质和效果,比如“水彩画”、“油画质感”、“3D渲染”、“电影感光效”。把这些风格词加进去,AI就会模仿对应的感觉来作画。例如,一张“森林小屋”的图片,加上“吉卜力动画风格”,出来的感觉就会很治愈。

第五,参数。有些工具,特别是Midjourney和Stable Diffusion,还支持一些参数指令,用来控制画面的具体细节。比如,在Midjourney里,你可以用 --ar 16:9 来指定图片的宽高比是16:9,或者用 --style raw 来获得更真实、更少艺术加工的风格。这些参数就像是相机的各种设置,需要花点时间去学习和熟悉。

我们来举个具体的例子。假设我想画一张“骑士和龙”的画。

如果我只输入“骑士和龙”,AI可能会给我一张很普通的、不知道是啥风格的画,构图也很随意。

现在我来优化一下这个提示词:
“一位身穿精致雕花盔甲、手持发光长剑的骑士(主体和细节),正与一条喷着火焰的巨大黑色巨龙对峙(互动和细节)。场景是在一座火山顶上,背景是昏暗的天空和滚滚的岩浆(环境)。采用电影感的广角镜头,强调史诗氛围(构图和氛围)。风格是暗黑幻想艺术,类似《黑暗之魂》游戏美术(风格)。”

你看,加了这么多限定条件之后,AI就能非常清楚地知道我想要的是什么感觉的画面了。它会去抓取“雕花盔甲”、“发光长剑”、“喷火黑龙”、“火山”、“岩浆”、“电影感”、“暗黑幻想”这些关键信息,然后把它们组合成一张符合所有要求的、充满故事感的图片。

刚开始玩的时候,不用想得太复杂。可以先从简单的“主体+风格”开始,比如“一只猫,水彩画风格”。然后慢慢往里面加东西,看看每加一个词,画面会发生什么变化。这是一个不断尝试和调整的过程。很多在线社区里也有别人分享的优秀作品和他们的提示词,多看看别人的词是怎么写的,是学习最快的方法。

总的来说,AI绘画技术把创作的门槛拉低了很多。以前需要专业画师花好几天甚至好几周才能完成的作品,现在可能只需要几分钟的思考和几次点击就能生成。当然,它不能完全替代人类的创造力。AI本身没有审美,也没有情感,它只是一个执行指令的工具。最终画面的好坏,很大程度上还是取决于使用它的人的想法和描述能力。是你,在通过文字,引导AI进行创作。

赞(0)
分享到

评论 抢沙发

登录

找回密码

注册