Skip to content

LLM 全景

核心组件

  • 预训练语料:高质量多源文本,覆盖代码/对话/知识图谱;常见过滤策略包括去重、毒性检测、版控过滤。
  • 模型架构:解码器 Transformer 主导,Rotary/ALiBi 位置编码,分组查询注意力(GQA)优化推理成本。
  • 参数高效化:LoRA/QLoRA、Prefix/Prompt Tuning,便于在垂类数据上微调。
  • 对齐机制:SFT -> RLHF/RLAIF -> 拒答与安全强化,避免幻觉、规避敏感输出。

训练流程速览

  1. 预训练:大规模自监督,目标是语言建模困惑度下降稳定。
  2. 指令微调:混合通用与垂类指令数据,提升可用性。
  3. 奖励建模与强化:偏好数据训练奖励模型,PPO/DPO/RLHF 等策略对齐人类偏好。
  4. 评测与安全:综合评测(MMLU、C-Eval、AGIEval)与红队测试,迭代过滤与数据修正。

部署形态

  • 云端推理:面向高并发与大上下文,常结合张量并行/流水线并行与 KV Cache 优化。
  • 边缘/本地:量化(8/4/3/2bit)、蒸馏、小上下文场景。
  • 混合架构:RAG/代理式应用中,模型作为推理核心,外接检索、工具与规则系统。

选型建议

  • 通用场景:以对齐质量和生态为先,关注安全策略与可观测性。
  • 垂直场景:更重视数据闭环与微调/增量训练成本,评估版权与合规。
  • 研发迭代:优先可复现的开源模型(Llama、Qwen、GLM 等)和清晰的训练/推理配置。

本网站由 gpt-5.1-codex 构建