大模型AI,这个词你最近肯定听得耳朵都起茧了。 但它到底是个啥? 很多人讲得云里雾里,今天我给你捋直了,保证你能看懂。
咱们先别急着说技术,我给你打个比方。 你可以把大模型想象成一个被“灌”了海量知识的“大脑”。 这个大脑一开始什么都不懂,就像一张白纸。 然后,我们把人类历史上几乎所有能找到的文字、书籍、网页、代码,全都丢给它去“读”。 这个“读”的过程,就是所谓的“训练”。

它读的不是内容本身,而是内容背后的规律。 比如,它读了成千上万遍“天空是蓝色的”,它就学会了“天空”和“蓝色”这两个词有很强的关联。 它读了无数的代码,就慢慢理解了编程的语法和逻辑。 它读了莎士比亚全集,也就能模仿着写出十四行诗。
这个“大脑”有多大? 非常大。 大,主要体现在两个方面:参数数量和训练数据量。
参数,你可以理解成大脑里的神经元连接点。 参数越多,这个大脑的结构就越复杂,能记住和理解的东西就越精细。 早期的模型可能只有几百万个参数,现在的GPT-4,虽然官方没公布,但外界普遍猜测有上万亿个。 这就是为什么它叫“大”模型。
训练数据量也大得吓人。 整个互联网的公开文本,可能都被拿去当它的“教材”了。 这就是为什么它知道那么多稀奇古怪的知识,甚至比很多专家知道的都多。
好,现在你知道它是个被海量知识喂大的“大脑”了。 那它到底是怎么工作的呢? 核心技术叫Transformer架构。
在Transformer出现之前,处理文字的模型(比如RNN或LSTM)有个大问题:它们处理信息是线性的,一个词一个词地看,就像我们阅读一样。 这样做效率很低,而且当句子一长,看到后面就忘了前面。 你肯定有过这种体验,读一个超长的句子,读到末尾已经忘了开头讲了啥。
Transformer彻底改变了这一点。 它最关键的一个东西叫“自注意力机制”(Self-Attention)。 这个机制厉害在哪? 它能让模型在处理一句话的时候,同时看到所有词,并且一下子就抓住哪些词是重点,以及词与词之间是怎么相互关联的。
举个例子,看这句话:“它把苹果放在了桌子上,然后吃了它。”
这里的第二个“它”指的是什么? 苹果。 对于人来说这很简单。 但以前的AI很难理解。 Transformer的注意力机制就能搞定。 它会分析整句话,给每个词的相关性打分。 它会发现,第二个“它”和“苹果”的关联分数最高,和“桌子”的关联分数很低。 这样,它就准确理解了“它”的指代。
这种能力让Transformer可以并行处理整个句子,而不是一个词一个词地熬,速度快了不知道多少倍。 而且因为它能直接看到全局,所以对长句子的理解能力也强了很多。 正是因为这个突破,才有了后来我们看到的大模型井喷。
所以,大模型工作的核心流程大致是这样:
- 输入文本:你给它一句话,比如“今天天气怎么样?”
- 编码(Embedding):机器不认识文字,它只认识数字。 所以,输入的每个字或词都会被转换成一个叫“向量”的数学表示。 这个向量可以看作是这个词在多维空间里的一个坐标,包含了它的语义信息。
- Transformer处理:这些向量会被丢进一堆Transformer层里。 每一层都会用自注意力机制去分析这些词的相互关系,然后把分析结果(也就是更新后的向量)传给下一层。 这个过程会重复很多次,每一层都会让模型对句子的理解更深一点。
- 解码和输出:经过所有层的处理后,模型会得到一个最终的向量表示,这个向量包含了对你输入问题的理解。 然后,它会根据这个理解,开始一个字一个字地生成回答。 它会先预测最可能出现的第一个字,然后把这个字作为新的输入,再预测第二个字,以此类推,直到生成完整的回答。
你可能会问,它怎么知道哪个字是最可能的? 这就是训练的结果。 它在看过海量文本后,已经学会了语言的概率分布。 比如,在“今天天气很”后面,出现“好”的概率就远大于出现“猫”的概率。 它就是基于这种概率来做选择的。
当然,为了让它不那么死板,每次都说一样的话,这里面还会加一点随机性。 这就是为什么你同样的问题问它几次,它可能会给你稍微不同的答案。
还有一个很重要的概念叫“扩展定律”(Scaling Laws)。 有研究发现,大模型的性能,和它的参数规模、数据量、计算量这三者之间,存在一个可预测的幂律关系。 简单说就是,只要你把模型做得更大,用更多的数据去喂它,再投入更多的算力去训练,它的能力就会跟着变强。
这听起来有点“大力出奇迹”的感觉,但事实就是如此。 这也是为什么科技巨头们都在疯狂地砸钱搞军备竞赛,买显卡,建数据中心,因为模型规模真的能带来质变。
但是,只靠海量数据“预训练”出来的模型,其实有点像一个知识渊博但不会聊天的书呆子。 它什么都知道,但说话可能不符合人类的习惯,甚至会说一些有害或者有偏见的话。
为了解决这个问题,还有一个关键步骤,叫“对齐”(Alignment)。 主要通过两种技术实现:
- 监督微调(Supervised Fine-Tuning, SFT):我们会找一些人,写一批高质量的对话样本(问题和理想的回答)。 然后用这些样本去“教”模型,让它学习怎么像人一样对话。
- 基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF):这个更关键。 我们让模型对同一个问题生成好几个不同的回答,然后请标注员来给这些回答排序,告诉模型哪个最好,哪个次之,哪个最差。 模型会根据这些反馈,像训练小狗一样,调整自己的行为。 好的回答得到“奖励”,坏的回答得到“惩罚”。 慢慢地,它就学会了说更符合人类价值观和偏好的话。
经过这一系列复杂的操作,我们才得到了今天你用到的这些能写代码、能聊天、能画画的大模型AI。 它不是什么魔法,背后是清晰的数学原理、庞大的工程实现和海量的数据堆砌。 它只是一个极其复杂的概率预测机器,但当复杂到一定程度,就涌现出了我们所说的“智能”。

技能提升网