以前我们用电脑,要用键盘打字,最多再加个鼠标点一点。机器能看懂的,也就是文字和点击信号。但是,我们人不是这样理解世界的。我们会看,会听,会说话。我们接收信息的方式是多维度的。
现在,AI 也开始像人一样,学习“看”和“听”了。这就是多模态大模型。
所谓“模态”,指的就是不同类型的数据。 比如文字是一种模态,图片是另一种,声音、视频也都是独立的模态。过去,AI 模型通常一次只能处理一种模态。比如,专门处理文字的叫语言模型,像早期版本的 ChatGPT 就是个典型,你只能跟它打字聊天。 专门处理图片的叫视觉模型,能识别图片里有什么东西。它们各干各的,互不相通。
多模态大模型就是把这些能力整合到一起。 让一个模型,能同时理解文字、图片、声音,甚至视频。 你可以给它看一张图片,然后用语音问它问题,它也能听懂,并且用文字或者语音回答你。这就好比以前是找了几个专家,一个只懂语言,一个只懂图像,现在变成了一个全能专家,什么都懂一点。
多模态大模型是怎么工作的?
要把不同类型的数据放在一起处理,不是简单地把它们拼起来就行。文字是一串串的字符,图片是像素点矩阵,声音是声波,它们的“语言”完全不同。
核心思路是“对齐”。 就是把不同模态的信息,都翻译成一种大家都能听懂的“通用语言”。具体来说,模型内部有不同的“编码器”,分别负责处理不同类型的数据。 比如,图像编码器会把图片转换成一串数字向量,这串数字就代表了图片的内容。同样,文本编码器也会把文字转换成类似的数字向量。
然后,通过一个叫做“投影层”或者“适配器”的模块,把这些来自不同模态的数字向量,在同一个空间里对齐。 简单说,就是让“苹果”这个词的数字向量,和一张苹果图片的数字向量,在模型看来是同一个意思。这是训练过程中的重点。
对齐之后,这些信息就可以交给一个核心的大语言模型(LLM)来统一处理了。 这个大语言模型就像是整个系统的大脑,它能理解这些被翻译过来的“通用语言”,并根据你的指令进行思考和回应。很多多模态大模型都是在一个强大的语言模型基础上,额外增加了处理其他模态的能力。
这种端到端一个模型处理所有事情的方式,好处是很直接的。 模型可以直接学习不同模态数据之间的内在联系,比如图片里的某个区域和描述它的文字之间的关系。 因为中间环节少了,信息传递的损失也少了,反应速度更快,理解也更深入。
多模态大模型到底能做什么?
它的应用场景比单一功能的 AI 模型要广泛得多。
一个很直接的应用是视觉问答。你可以上传一张图片,然后问它问题。比如,你拍一张冰箱内部的照片,然后问它:“根据这些食材,我晚餐能做什么菜?”它会识别出图片里的蔬菜、肉类,然后给你一些菜谱建议。一些商业模型,比如 Claude 3.5 和 GPT-4o,在图片识别和理解方面已经做得很好。
另一个应用是内容生成。现在很多 AI 工具可以根据一句话生成图片或者视频,这背后就是多模-态技术的功劳。 比如,你输入“一只猫在月球上弹吉他”,它就能生成对应的图像。快手推出的“可灵”模型,就能根据文字直接生成视频。
在电商领域,多模态大模型也很有用。 比如,你可以上传一张你喜欢的衣服图片,系统可以帮你找到类似的商品。或者在虚拟试衣场景里,模型可以根据你的照片和选择的衣服,生成你穿上这件衣服的效果图。
在家装行业,贝壳找房就用一个叫 DreamHome 的大模型,让用户可以拍自己房子的照片,然后告诉 AI 想要的装修风格,AI 就能快速生成效果图,大大降低了沟通和设计的成本。
智能辅助也是一个重要方向。 模型可以帮助视障人士理解周围的环境。比如,通过手机摄像头拍下周围的景象,模型可以实时地用语音告诉他们前面有什么障碍物,或者识别出他们手里拿的是什么东西。
甚至在医疗领域,多模态模型也能发挥作用。 医生诊断时需要结合看病历(文本)、CT/X光片(图像)和各种生理数据。多模态模型可以把这些信息整合起来分析,帮助医生发现一些单一信息源容易忽略的病症。
它和传统AI有什么不同?
传统 AI 模型更像是一个个的“专才”。 比如,一个专门做人脸识别的系统,它的任务很明确,就是判断一张图片是不是某个人。它依赖的是开发者提前设定好的规则和特征。
多模态大模型更像是“通才”。 它的泛化能力更强,能处理更复杂、更开放的任务。 你不需要为每一个具体任务都去训练一个新模型。比如,同样一个模型,你既可以用它来识别图片,也可以用它来翻译菜单,或者帮你写一封邮件。因为它是在海量、多类型的数据上训练出来的,对世界的理解更全面。
传统 AI 通常需要结构化的数据,而且往往是针对特定场景的。而多模态大模型可以直接处理原始的、非结构化的数据,比如一张随手拍的照片,或者一段即兴的语音。 这种处理多样化信息的能力,让它离真正理解我们这个复杂的世界更近了一步。
当然,多模-态大模型还在发展中,尤其是在视频和音频的实时理解与生成方面,还有很多挑战。 但它代表了一个很明确的方向:让 AI 像人一样,用多种感官去感知和理解世界。

 技能提升网
技能提升网