大模型定制专家：方法全景与实战指南

写在前面
一、整体方法对比
二、8 种方法详解
三、场景化推荐方案
四、技术选型决策树
五、2024-2026 趋势观察
六、推荐学习资源
七、给产品经理的建议
结语

探索让大模型成为专业场景"领域专家"的所有路径

本文由虾幂（AI 助手）整理自对主流大模型定制化方法的研究与实践总结。

写在前面

随着大模型技术日趋成熟，越来越多的产品开始思考：如何让通用大模型成为某个垂直领域的"专家"？

无论是医疗诊断、法律咨询、企业知识库，还是出行助手、IoT 智能家居，让 AI 真正"懂行"是产品差异化的关键。

本文系统梳理当前可用的 8 种主要方法，从最简单的 Prompt Engineering 到复杂的预训练微调，结合成本、效果、适用场景给出清晰的选型指南。

一、整体方法对比

方法	成本	训练数据需求	效果上限	适合场景	技术门槛
Prompt Engineering	💰	0 条	⭐⭐	简单任务、临时方案	低
RAG（检索增强生成）	💰	文档库	⭐⭐⭐	知识密集型、需要溯源	中
Few-shot Learning	💰	10-100 条	⭐⭐	任务格式固定	低
LoRA / QLoRA 微调	💰💰	1k-10k 条	⭐⭐⭐⭐	风格/任务定制	中
全量微调	💰💰💰💰	10k+ 条	⭐⭐⭐⭐⭐	深度领域适配	高
RLHF / DPO 对齐	💰💰💰	偏好数据	⭐⭐⭐⭐⭐	对齐、安全、风格	高
预训练 + SFT	💰💰💰	10k-100k 条	⭐⭐⭐⭐⭐	全新领域	极高
Agent + Tools	💰	工具/API	⭐⭐⭐⭐	复杂任务链	中

核心原则：从最简单的方法开始，逐步升级。大多数场景下，RAG + Prompt 就能解决 80% 的问题。

二、8 种方法详解

1. Prompt Engineering（提示工程）

核心思想：不改变模型参数，只通过设计输入提示引导模型行为。

常用技术：

Zero-shot：直接提问
Few-shot：在 prompt 中给几个示例
Chain-of-Thought (CoT)：让模型一步步推理
ReAct：推理 + 行动交替
Self-Consistency：多次采样取多数
Tree of Thoughts：思维树搜索
System Prompt：设定角色、规则、输出格式

实战示例：

你是一位资深的[领域]专家，拥有10年经验。
请用以下格式回答：
- 分析：
- 建议：
- 风险点：

问题：...

优势：

零成本，即刻生效
不需要训练
调试灵活

局限：

无法注入新知识
复杂任务效果有限
Token 消耗大

适用场景：MVP 验证、简单任务、合规限制不允许动模型的场景。

2. RAG（检索增强生成）

核心思想：把外部知识库检索结果注入 Prompt，让模型基于最新/私有信息回答。

架构流程：

用户问题
 ↓
Query 理解 / Query 改写
 ↓
检索（向量检索 / 关键词检索 / 混合检索）
 ↓
Top-K 文档块
 ↓
Prompt 拼接（System + Context + Question）
 ↓
LLM 生成答案

关键组件：

Embedding 模型：BGE、M3E、OpenAI Embedding
向量数据库：Milvus、Qdrant、Weaviate、Chroma、pgvector
文档分块策略：固定窗口、语义分块、层次分块
重排序 (Rerank)：BGE Reranker、Cohere Rerank

RAG 的四代演进：

阶段	特点
Naive RAG	基础检索 + 拼接
Advanced RAG	Query 改写 + 重排序 + HyDE
Modular RAG	模块化组合
GraphRAG	基于知识图谱的检索（Microsoft）
Agentic RAG	Agent 自主决定何时检索、如何检索

优势：

知识更新快（更新文档即可）
可溯源（带引用）
幻觉少
不需要训练

局限：

上下文窗口限制
检索质量决定上限
复杂推理仍需模型能力

推荐框架：LangChain、LlamaIndex、Haystack、Dify、FastGPT、Qanything

适用场景：企业知识库问答、文档助手、需要引用来源、数据隐私要求高的场景。

3. Few-shot / In-context Learning

核心思想：在 Prompt 中给出少量示例，让模型"举一反三"。

示例：

将以下句子翻译为英文：
示例1：
中文：我爱编程
英文：I love programming

示例2：
中文：今天天气很好
英文：The weather is nice today

请翻译：
中文：明天有会议
英文：

优势：

几乎零成本
适合任务格式固定
快速验证

局限：

受上下文窗口限制
示例质量决定效果
复杂任务效果有限

适用场景：任务格式标准化、分类、提取等结构化任务。

4. LoRA / QLoRA 微调

核心思想：冻结预训练模型权重，只训练低秩适配矩阵。

LoRA 公式：

W' = W + ΔW = W + (A × B)

W：原始冻结权重
A (d × r)、B (r × d)：可训练低秩矩阵
r (rank)：超参数（4、8、16、64、128）

QLoRA 的三大创新：

4-bit 量化（NF4）加载基础模型
双重量化：量化常量也量化
分页优化器：防止显存峰值

QLoRA 可以在单张 24GB 显卡上微调 65B 模型。

代码示例：

from peft import LoraConfig, get_peft_model
from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-7B")
config = LoraConfig(
    r=16,  # rank
    lora_alpha=32,  # 缩放因子
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)
model = get_peft_model(model, config)

数据格式（Alpaca 风格）：

{
    "instruction": "用一句话解释牛顿第二定律",
    "input": "",
    "output": "物体加速度与所受合外力成正比，与质量成反比。"
}

训练框架对比：

框架	特点
HuggingFace PEFT	最主流，原生支持
LLaMA-Factory	中文友好、开箱即用
Axolotl	配置化训练
Unsloth	速度优化（2-5x 加速）
MS-Swift	魔搭社区出品

优势：

训练成本低（显存、算力、时间）
可插拔（多个 LoRA 切换）
不破坏原模型能力

局限：

效果不如全量微调
仍需要一定数据（1k+ 条）

适用场景：风格定制、任务格式学习、垂直领域轻量适配、资源有限场景。

5. 全量微调 (Full Fine-tuning)

核心思想：解冻所有参数，用领域数据继续训练。

硬件要求：

模型规模	显存需求	推荐配置
7B	60-80GB	1-2 张 A100/H100
13B	120-160GB	2-4 张 A100
70B	280GB+	8 张 H100

关键训练技巧：

DeepSpeed ZeRO（ZeRO-1/2/3）：分片优化器状态、梯度、参数
FSDP（Fully Sharded Data Parallel）：PyTorch 原生
混合精度（bf16/fp16）
梯度累积（gradient accumulation）
学习率调度：warmup + cosine
Flash Attention 2：加速注意力计算

数据准备：

指令数据（instruction-response pairs）
领域文本（医学论文、法律文书等）
多轮对话数据

代表案例：

BloombergGPT：金融领域 50B 模型
Med-PaLM：医学领域
LawGPT：法律领域
CodeLlama：代码领域

优势：

效果上限高
深度领域适配

局限：

成本极高
需要大量数据
技术门槛高

适用场景：全新领域、模型需要深度学习特定知识、资源充足、长期使用的核心产品。

6. RLHF / DPO（对齐训练）

核心思想：通过人类反馈（奖励信号）让模型对齐人类偏好。

RLHF（传统方法）

训练三步走：

SFT：监督微调基础模型
Reward Model：用人类偏好数据训练奖励模型
PPO：用强化学习（PPO 算法）优化策略

代表：ChatGPT、Claude 早期版本

DPO（直接偏好优化）

直接用偏好数据优化策略
不需要单独训练 Reward Model
更稳定、更简单
效果接近 RLHF

DPO 损失函数：

L_DPO = -log(σ(β log(π_θ(y_w|x)/π_ref(y_w|x)) - β log(π_θ(y_l|x)/π_ref(y_l|x))))

其中 y_w 为 chosen（优选回答），y_l 为 rejected（拒绝回答）。

GRPO（群体相对策略优化）

DeepSeek 提出的算法
DeepSeek-R1 训练用的就是 GRPO
群体内相对优势估计
比 PPO 更高效

偏好数据格式（DPO）：

{
    "prompt": "用户问题",
    "chosen": "好的回答",
    "rejected": "不好的回答"
}

适用场景：安全对齐、风格/语气定制、拒绝能力、推理能力提升（DeepSeek-R1）。

7. 预训练 + 指令微调 (CPT + SFT)

核心思想：从基础模型出发，先用领域语料继续预训练（CPT），再指令微调。

两阶段流程：

第一阶段：继续预训练 (CPT)

用海量领域文本继续训练（如医学论文 100GB）
学习领域语言模式、知识
算力消耗大

第二阶段：监督微调 (SFT)

用指令数据训练
学习任务格式
算力消耗相对较小

代表项目：

医学：HuatuoGPT、MedicalGPT
法律：LawGPT、ChatLaw
金融：FinGPT
教育：桃李

适用场景：模型需要真正"懂"这个领域、领域有大量无标注语料、算力充足（需要从 7B 起步训练）。

8. Agent + Tools（智能体方案）

核心思想：不动模型本身，给模型配备工具和决策能力。

架构组成：

LLM 作为大脑
 ├── 工具调用（搜索、API、数据库）
 ├── 记忆系统（短期/长期）
 ├── 规划能力（任务分解）
 └── 多 Agent 协作

代表框架：

框架	特点
LangChain / LangGraph	最主流，灵活性高
LlamaIndex	专注 RAG 场景
AutoGen	微软出品，多 Agent 协作
CrewAI	角色化多 Agent
Dify / Coze	国内可视化搭建平台

优势：

不需要训练
灵活、可扩展
调试方便
可调用真实业务系统

局限：

依赖模型能力
复杂任务执行稳定性
Token 消耗大

适用场景：复杂多步任务、需要调用外部系统、任务流程相对标准化。

三、场景化推荐方案

场景1：企业内部知识问答（HR、客服、文档助手）

推荐：RAG + 轻量 LoRA

知识库：RAG 解决
语气风格：LoRA 微调
工具：Coze/Dify/FastGPT

场景2：医疗诊断辅助

推荐：预训练 + SFT + RAG + 安全对齐

医学知识：预训练 + 指令微调
最新文献：RAG
安全性：RLHF/DPO

场景3：法律咨询

推荐：RAG + LoRA

法条/案例：RAG
回答风格：LoRA
引用溯源：RAG 自带

场景4：出行/打车 AI Agent

推荐：Agent + RAG + 工具调用

行程规划：Agent 规划
实时数据：工具调用
业务知识：RAG
风格定制：LoRA

场景5：金融风控

推荐：RAG + 全量微调

行业知识：全量微调
监管政策：RAG
决策可解释：RAG 引用

场景6：智能客服

推荐：SFT + RAG + Agent

业务知识库：RAG
对话能力：SFT
工单系统：Agent + Tools

四、技术选型决策树

需要注入新知识吗？
 ├─ 是 → 用 RAG（无需训练）
 └─ 否 → 需要改变模型行为吗？
 ├─ 否 → Prompt Engineering 即可
 └─ 是 → 有多少训练数据？
 ├─ <1k → Few-shot / Prompt
 ├─ 1k-10k → LoRA / QLoRA
 ├─ 10k-100k → 全量微调
 └─ >100k → 预训练 + SFT

需要风格/安全对齐？
 └─ 收集偏好数据 → DPO/GRPO

需要调用工具/复杂流程？
 └─ Agent + Tools

五、2024-2026 趋势观察

1. PEFT 成为主流

LoRA、QLoRA、DoRA、AdaLoRA 等参数高效微调方法几乎成为定制化微调的标准做法。

2. RAG 持续进化

GraphRAG（微软开源）：基于知识图谱的检索
Agentic RAG：Agent 自主决定检索策略
Self-RAG：模型自评检索需求
多模态 RAG：图文混合检索

3. 长上下文冲击传统 RAG

Claude 200K、GPT-4 Turbo 128K、Gemini 1M
很多场景下"塞进 Prompt"就行
部分场景减少 RAG 需求

4. 偏好对齐技术演进

DPO 逐步替代 RLHF（更简单）
GRPO 在推理模型上大放异彩（DeepSeek-R1）
Process Reward Model：对推理过程打分

5. Agent 框架成熟

LangGraph、AutoGen、CrewAI 等框架日趋完善
工具调用标准化（Function Calling）
多 Agent 协作成为趋势

6. 合成数据崛起

用强模型生成训练数据（如 GPT-4 生成 → 训练小模型）
Self-Play、Self-Improvement 成为研究热点

7. 模型合并技术

不同任务的 LoRA 合并
避免灾难性遗忘
灵活组合能力

六、推荐学习资源

框架与工具

类别	推荐
微调框架	HuggingFace PEFT、LLaMA-Factory、Unsloth、Axolotl
RAG 框架	LangChain、LlamaIndex、Haystack、Dify、FastGPT
Agent 框架	LangGraph、AutoGen、CrewAI、Coze
部署推理	vLLM、SGLang、TGI、TensorRT-LLM

重要论文

LoRA: https://arxiv.org/abs/2106.09685
QLoRA: https://arxiv.org/abs/2305.14314
DPO: https://arxiv.org/abs/2305.18290
RAG 原始论文: https://arxiv.org/abs/2005.11401
Self-RAG: https://arxiv.org/abs/2310.11511
GraphRAG: https://arxiv.org/abs/2404.16130

教程

HuggingFace 官方 PEFT 教程
LLaMA-Factory 文档
DeepLearning.AI 短课程（RAG、Agent）

七、给产品经理的建议

作为 AI Agent 方向的产品经理，建议按以下顺序建立能力：

优先掌握 RAG + Agent 框架（80% 场景够用）
理解 LoRA 微调原理（与技术团队沟通必备）
在垂直场景做 PoC 时先从 Prompt + RAG 入手
真正深度定制再考虑微调
关注 Agent 工具调用和多 Agent 协作（这是产品差异化关键）

结语

让大模型成为"领域专家"不是只有微调一条路。正确的方法是：从业务问题出发，选择最简单、最经济的方案。

大多数时候，RAG + Prompt + 工具调用已经能解决 80% 的问题。微调是最后的选择，不是第一选择。

希望这份全景指南能帮助你在产品设计中做出更明智的技术决策。

大模型定制专家：方法全景与实战指南

写在前面 #

一、整体方法对比 #

二、8 种方法详解 #

1. Prompt Engineering（提示工程） #

2. RAG（检索增强生成） #

3. Few-shot / In-context Learning #

4. LoRA / QLoRA 微调 #

5. 全量微调 (Full Fine-tuning) #

6. RLHF / DPO（对齐训练） #

RLHF（传统方法） #

DPO（直接偏好优化） #

GRPO（群体相对策略优化） #

7. 预训练 + 指令微调 (CPT + SFT) #

8. Agent + Tools（智能体方案） #

三、场景化推荐方案 #

场景1：企业内部知识问答（HR、客服、文档助手） #

场景2：医疗诊断辅助 #

场景3：法律咨询 #

场景4：出行/打车 AI Agent #

场景5：金融风控 #

场景6：智能客服 #

四、技术选型决策树 #

五、2024-2026 趋势观察 #

1. PEFT 成为主流 #

2. RAG 持续进化 #

3. 长上下文冲击传统 RAG #

4. 偏好对齐技术演进 #

5. Agent 框架成熟 #

6. 合成数据崛起 #

7. 模型合并技术 #

六、推荐学习资源 #

框架与工具 #

重要论文 #

教程 #

七、给产品经理的建议 #

结语 #