Appearance
LLM 全景
核心组件
- 预训练语料:高质量多源文本,覆盖代码/对话/知识图谱;常见过滤策略包括去重、毒性检测、版控过滤。
- 模型架构:解码器 Transformer 主导,Rotary/ALiBi 位置编码,分组查询注意力(GQA)优化推理成本。
- 参数高效化:LoRA/QLoRA、Prefix/Prompt Tuning,便于在垂类数据上微调。
- 对齐机制:SFT -> RLHF/RLAIF -> 拒答与安全强化,避免幻觉、规避敏感输出。
训练流程速览
- 预训练:大规模自监督,目标是语言建模困惑度下降稳定。
- 指令微调:混合通用与垂类指令数据,提升可用性。
- 奖励建模与强化:偏好数据训练奖励模型,PPO/DPO/RLHF 等策略对齐人类偏好。
- 评测与安全:综合评测(MMLU、C-Eval、AGIEval)与红队测试,迭代过滤与数据修正。
部署形态
- 云端推理:面向高并发与大上下文,常结合张量并行/流水线并行与 KV Cache 优化。
- 边缘/本地:量化(8/4/3/2bit)、蒸馏、小上下文场景。
- 混合架构:RAG/代理式应用中,模型作为推理核心,外接检索、工具与规则系统。
选型建议
- 通用场景:以对齐质量和生态为先,关注安全策略与可观测性。
- 垂直场景:更重视数据闭环与微调/增量训练成本,评估版权与合规。
- 研发迭代:优先可复现的开源模型(Llama、Qwen、GLM 等)和清晰的训练/推理配置。