一、技术选型时先看什么

1.1 按任务复杂度选

  • 高复杂度任务:
  • 例如多轮对话、复杂推理、长文本生成。
  • 更适合全参数微调或指令微调。
  • 低复杂度任务:
  • 例如简单分类、关键词提取。
  • 更适合 LoRA、Prompt Tuning 这类轻量方案。

1.2 按数据规模选

  • 大数据量(>10K 样本):
  • 全参数微调或迁移学习式微调更容易发挥优势。
  • 小数据量(<1K 样本):
  • 更适合 LoRA、Adapter,减少过拟合风险。
  • 极小数据量(<100 样本):
  • 可以优先尝试 Prompt Tuning、Few-shot 等轻量路线。

1.3 按计算资源选

  • 多 GPU、高性能环境:
  • 可以考虑全参数微调或迁移学习式微调。
  • 单 GPU 或资源有限:
  • 更适合 LoRA、Adapter 这类高效微调方法。
  • 边缘设备:
  • 更适合知识蒸馏,把大模型能力压缩到小模型中。

1.4 按部署需求选

  • 多任务复用:
  • Adapter、LoRA 更适合频繁切换任务。
  • 单任务专用:
  • 全参数微调更容易拿到最佳效果。
  • 实时推理:
  • 知识蒸馏、Prompt Tuning 更利于降低延迟。

1.5 按领域差异选

  • 如果目标领域和预训练差异很大:
  • 优先考虑迁移学习式微调。
  • 如果差异不大:
  • 通常直接做任务级微调就够了。

二、常见微调策略怎么理解

2.1 SFT:监督微调

SFT(Supervised Fine-Tuning)是最常见的起点,用高质量“输入-输出对”直接教模型完成任务。

优点

  • 简单直接。
  • 易实现,成本相对可控。
  • 和 LoRA、QLoRA 等高效方法结合时非常实用。

缺点

  • 很依赖数据质量。
  • 泛化上限有限。
  • 不擅长直接建模复杂的人类偏好。

2.2 DPO:直接偏好优化

DPO(Direct Preference Optimization)通过“回答 A 比回答 B 更好”的偏好数据直接优化模型,不需要单独训练奖励模型。

优点

  • 对齐流程比 RLHF 更简单。
  • 训练稳定性更好。
  • 对小规模高质量偏好数据很友好。

缺点

  • 高度依赖偏好数据质量。
  • 对复杂动态奖励的适应能力不如强化学习路线。

2.3 PPO:近端策略优化

PPO 是强化学习里的经典算法,在大模型里通常用于基于奖励模型优化模型行为。

优点

  • 灵活性高。
  • 可以处理更复杂的奖励目标。

缺点

  • 算法链路复杂。
  • 算力成本高。
  • 超参数调优难度也更大。

2.4 RLHF:基于人类反馈的强化学习

RLHF 会先用人类反馈训练奖励模型,再通过强化学习优化原始语言模型。

优点

  • 更适合处理复杂偏好,例如安全性、帮助性、表达风格等。
  • 在对话和生成任务中已经被广泛验证。

缺点

  • 实施链路长。
  • 训练和标注成本都高。
  • 对奖励模型质量高度敏感。

2.5 ORPO:任务和偏好一起优化

ORPO 通常被看作兼顾监督信号和偏好优化的一类路线,适合在效果和效率之间找平衡。

三、对比总结

策略 核心优化目标 依赖数据 计算成本 稳定性 适用场景
SFT 任务适配 监督数据 指令遵循、任务适配
DPO 偏好对齐 偏好数据 对话对齐、内容优化
PPO 奖励优化 奖励模型 复杂对齐、动态任务
RLHF 人类反馈对齐 人类反馈 很高 高质量对话与生成
ORPO 任务 + 偏好 监督 + 偏好 高效对齐、多目标任务

四、两个常见选型案例

4.1 医疗文本分类

  • 场景:样本少,领域差异大。
  • 选型:先做领域迁移,再用 LoRA 做任务微调。
  • 原因:既补足领域知识,又能控制成本。

4.2 多任务对话系统

  • 场景:任务多、数据足。
  • 选型:指令微调结合更强的对齐策略。
  • 原因:先让模型学会遵循指令,再进一步优化人类偏好。

五、一个更实用的判断顺序

先看数据够不够,再看资源够不够,最后才看“要不要上更复杂的对齐路线”。多数项目里,先把 SFT 跑稳,再评估 DPO 或 RLHF,通常是更稳妥的节奏。