← 返回博客

什么是大语言模型?

2026年4月30日 · 阅读约 5 分钟

如果你最近两年用过 ChatGPT、智谱清言或者文心一言,你已经在和大语言模型(Large Language Model,简称 LLM)打交道了。但它到底是什么?

一句话解释

大语言模型是一个通过阅读海量文本数据训练出来的 AI 程序,它能理解自然语言生成连贯的回答

你可以把它想象成一个读过整个互联网的"超级学霸"——你问它问题,它根据学过的知识给出回答。

"大"在哪里?

大模型的"大"主要体现在三个方面:

它怎么工作?

核心原理其实很简单:预测下一个词

当你输入"今天天气",模型会计算下一个词是"很好"的概率最高,然后继续预测下一个词,如此往复,就生成了完整的句子。

这听起来简单,但当模型足够大、训练数据足够多时,这种"预测下一个词"的能力涌现出了推理、翻译、写代码等令人惊叹的能力。

主流模型有哪些?

局限性

大模型不是万能的。它会幻觉(编造不存在的事实),知识有截止日期,无法访问实时信息,而且推理过程是黑盒,不透明。

理解这些局限性,是正确使用大模型的第一步。