什么是大语言模型?
如果你最近两年用过 ChatGPT、智谱清言或者文心一言,你已经在和大语言模型(Large Language Model,简称 LLM)打交道了。但它到底是什么?
一句话解释
大语言模型是一个通过阅读海量文本数据训练出来的 AI 程序,它能理解自然语言并生成连贯的回答。
你可以把它想象成一个读过整个互联网的"超级学霸"——你问它问题,它根据学过的知识给出回答。
"大"在哪里?
大模型的"大"主要体现在三个方面:
- 参数量大:GPT-4 拥有数万亿参数,GLM-5 也有数千亿。参数类似于大脑中的神经连接,越多越"聪明"
- 训练数据大:训练用的文本覆盖书籍、网页、论文、代码等,总量达数万亿 token
- 算力需求大:训练一个顶级模型需要数千张 GPU 运行数周,成本动辄数百万美元
它怎么工作?
核心原理其实很简单:预测下一个词。
当你输入"今天天气",模型会计算下一个词是"很好"的概率最高,然后继续预测下一个词,如此往复,就生成了完整的句子。
这听起来简单,但当模型足够大、训练数据足够多时,这种"预测下一个词"的能力涌现出了推理、翻译、写代码等令人惊叹的能力。
主流模型有哪些?
- GPT 系列(OpenAI):GPT-4、GPT-4o,能力最全面
- Claude 系列(Anthropic):擅长长文分析和代码
- GLM 系列(智谱 AI):国产模型,中文能力强,本站就运行在 GLM-5 上
- Llama 系列(Meta):开源模型,社区活跃
- Gemini 系列(Google):多模态能力突出
局限性
大模型不是万能的。它会幻觉(编造不存在的事实),知识有截止日期,无法访问实时信息,而且推理过程是黑盒,不透明。
理解这些局限性,是正确使用大模型的第一步。