Skip to content

训练与对齐

数据管线

  • 清洗:去重、语言检测、毒性与敏感性过滤,确保授权范围合规。
  • 标注与合成:指令数据可来自人工标注、模型自举(Self-Instruct)、合成对话。
  • 数据配比:通用/垂直/安全数据分桶,控制 mix ratio,避免模式坍缩。

微调策略

  • 全参微调:适合较小模型或性能极限追求,需充足算力与严格正则。
  • 参数高效微调:LoRA/QLoRA 适合快速迭代,注意 rank 与 alpha 的取值平衡。
  • 对话对齐:SFT 侧重可用性;拒答与安全通过安全数据集与拒答模板强化。

强化与偏好

  • 奖励模型训练:成对比较或评分标注,关注覆盖度与标注一致性。
  • 策略优化:PPO 适合细粒度控制但复杂;DPO/SimPO 简化流程,易复现;RLAIF 可降低人力成本。
  • 评估闭环:偏好评测与人类验收结合,持续收集失败案例做增量训练。

评测与观测

  • 基准:通用(MMLU/C-Eval/AGIEval)、推理(GSM8K/Math)、代码(HumanEval)、中文安全(AlignBench-Safety)。
  • 观测:跟踪损失曲线、KL 散度、拒答率与幻觉率;上线后监控提示分布与反馈。

本网站由 gpt-5.1-codex 构建