大型语言模型(Large Language Model,LLM)是指具有数十亿参数的深度学习模型,通过在海量文本数据上进行预训练,学习语言的模式和结构,能够执行各种自然语言处理任务。
解决的核心痛点:传统 NLP 任务需要针对每个任务训练专属模型,LLM 通过预训练 + 泛化能力,实现一个模型处理多种任务,大幅降低 AI 应用门槛。
核心命题
LLM 的本质是「规模涌现」—— 当模型参数达到一定量级时,会涌现出在小模型中不存在的推理能力
LLM 是「世界知识的压缩器」—— 通过预训练将海量文本中的知识压缩到模型权重中
LLM 的能力边界取决于「预训练数据的多样性和质量」,而非单纯的参数规模
运行机制
flowchart TB
A[海量文本数据] --> B[预训练 Pre-training]
B --> C[基座模型 Base Model]
C --> D[指令微调 SFT]
D --> E[对齐 Alignment]
E --> F[可部署 LLM]
G[特定任务] --> H[检索增强生成 RAG]
G --> I[提示词工程 Prompt]
G --> J[微调 Fine-tuning]
style A fill:#e1f5fe
style B fill:#fff3e0
style C fill:#e8f5e9
style F fill:#fce4ec