LLM

概念：LLM

大型语言模型（Large Language Model，LLM）是指具有数十亿参数的深度学习模型，通过在海量文本数据上进行预训练，学习语言的模式和结构，能够执行各种自然语言处理任务。

解决的核心痛点：传统 NLP 任务需要针对每个任务训练专属模型，LLM 通过预训练 + 泛化能力，实现一个模型处理多种任务，大幅降低 AI 应用门槛。

核心命题

LLM 的本质是「规模涌现」—— 当模型参数达到一定量级时，会涌现出在小模型中不存在的推理能力
LLM 是「世界知识的压缩器」—— 通过预训练将海量文本中的知识压缩到模型权重中
LLM 的能力边界取决于「预训练数据的多样性和质量」，而非单纯的参数规模

运行机制

flowchart TB
    A[海量文本数据] --> B[预训练 Pre-training]
    B --> C[基座模型 Base Model]
    C --> D[指令微调 SFT]
    D --> E[对齐 Alignment]
    E --> F[可部署 LLM]

    G[特定任务] --> H[检索增强生成 RAG]
    G --> I[提示词工程 Prompt]
    G --> J[微调 Fine-tuning]

    style A fill:#e1f5fe
    style B fill:#fff3e0
    style C fill:#e8f5e9
    style F fill:#fce4ec

技术栈

层级	技术	说明
架构	Transformer	基于自注意力机制的神经网络
训练	预训练 + 微调	语言建模 → 任务适应
能力来源	涌现现象	规模突破后的能力跃升

关键技术

技术	作用	关键点
Transformer	基础架构	自注意力机制捕捉长距离依赖
自注意力机制	理解上下文	Query/Key/Value 矩阵计算
预训练	学习语言模式	下一个词预测（Next Token Prediction）
微调	任务适应	SFT、RLHF、DPO 等方法
涌现能力	质变来源	规模突破产生的复杂推理能力

关键区别

维度	LLM	传统 NLP 模型	小型语言模型
参数量	数十亿 ~ 万亿	百万 ~ 亿	百万 ~ 千万
训练方式	预训练 + 微调	任务专属训练	任务专属训练
泛化能力	强（通用）	弱（专用）	弱
涌现能力	有	无	无
部署成本	高	中	低

应用场景

✅ 适用场景
- 文本生成：文章、代码、对话、摘要
- 知识问答：基于海量知识的问答系统
- Agent 核心：作为 Agent 的推理引擎
- 多模态基座：结合视觉、音频的多模态模型
⛔ 误用
- 作为知识库：幻觉问题导致事实性错误
- 直接上岗：缺乏提示词工程优化，效果打折

知识图谱

父级概念：人工智能 — LLM 是深度学习在 NLP 领域的重大突破
子级概念：
- Agent — LLM 作为 Agent 的推理引擎
- RAG — 检索增强生成，扩展 LLM 知识边界
- 提示词工程 — 激发 LLM 能力的工程技术
并列概念：
- CV 模型 — 计算机视觉模型（如 ResNet、VIT）
- 多模态模型 — 融合文本、图像、音频的模型
相关概念：
- Harness — 基于 LLM 的工程化框架

挑战与局限性

幻觉问题：生成看似合理但实际错误的内容
时效性限制：知识截止于训练数据的时间点
计算成本：训练和推理需要大量 GPU 资源
安全风险：可能被用于生成恶意内容
偏见传递：从训练数据中继承偏见

🪴pedyc's Garden

探索

LLM

概念：LLM

核心命题

运行机制

技术栈

关键技术

关键区别

应用场景

知识图谱

挑战与局限性

FAQ

参考延伸

最近的笔记

excalibrain

index

四象限.excalidraw

关系图谱

目录

反向链接