Appearance
训练与对齐
数据管线
- 清洗:去重、语言检测、毒性与敏感性过滤,确保授权范围合规。
- 标注与合成:指令数据可来自人工标注、模型自举(Self-Instruct)、合成对话。
- 数据配比:通用/垂直/安全数据分桶,控制 mix ratio,避免模式坍缩。
微调策略
- 全参微调:适合较小模型或性能极限追求,需充足算力与严格正则。
- 参数高效微调:LoRA/QLoRA 适合快速迭代,注意 rank 与 alpha 的取值平衡。
- 对话对齐:SFT 侧重可用性;拒答与安全通过安全数据集与拒答模板强化。
强化与偏好
- 奖励模型训练:成对比较或评分标注,关注覆盖度与标注一致性。
- 策略优化:PPO 适合细粒度控制但复杂;DPO/SimPO 简化流程,易复现;RLAIF 可降低人力成本。
- 评估闭环:偏好评测与人类验收结合,持续收集失败案例做增量训练。
评测与观测
- 基准:通用(MMLU/C-Eval/AGIEval)、推理(GSM8K/Math)、代码(HumanEval)、中文安全(AlignBench-Safety)。
- 观测:跟踪损失曲线、KL 散度、拒答率与幻觉率;上线后监控提示分布与反馈。