什么是大语言模型？

2026年4月30日 · 阅读约 5 分钟

如果你最近两年用过 ChatGPT、智谱清言或者文心一言，你已经在和大语言模型（Large Language Model，简称 LLM）打交道了。但它到底是什么？

一句话解释

大语言模型是一个通过阅读海量文本数据训练出来的 AI 程序，它能理解自然语言并生成连贯的回答。

你可以把它想象成一个读过整个互联网的"超级学霸"——你问它问题，它根据学过的知识给出回答。

大模型的"大"主要体现在三个方面：

核心原理其实很简单：预测下一个词。

当你输入"今天天气"，模型会计算下一个词是"很好"的概率最高，然后继续预测下一个词，如此往复，就生成了完整的句子。

这听起来简单，但当模型足够大、训练数据足够多时，这种"预测下一个词"的能力涌现出了推理、翻译、写代码等令人惊叹的能力。

大模型不是万能的。它会幻觉（编造不存在的事实），知识有截止日期，无法访问实时信息，而且推理过程是黑盒，不透明。

理解这些局限性，是正确使用大模型的第一步。