LLM 全景

核心组件

预训练语料：高质量多源文本，覆盖代码/对话/知识图谱；常见过滤策略包括去重、毒性检测、版控过滤。
模型架构：解码器 Transformer 主导，Rotary/ALiBi 位置编码，分组查询注意力（GQA）优化推理成本。
参数高效化：LoRA/QLoRA、Prefix/Prompt Tuning，便于在垂类数据上微调。
对齐机制：SFT -> RLHF/RLAIF -> 拒答与安全强化，避免幻觉、规避敏感输出。

训练流程速览

预训练：大规模自监督，目标是语言建模困惑度下降稳定。
指令微调：混合通用与垂类指令数据，提升可用性。
奖励建模与强化：偏好数据训练奖励模型，PPO/DPO/RLHF 等策略对齐人类偏好。
评测与安全：综合评测（MMLU、C-Eval、AGIEval）与红队测试，迭代过滤与数据修正。

部署形态

云端推理：面向高并发与大上下文，常结合张量并行/流水线并行与 KV Cache 优化。
边缘/本地：量化（8/4/3/2bit）、蒸馏、小上下文场景。
混合架构：RAG/代理式应用中，模型作为推理核心，外接检索、工具与规则系统。

选型建议

通用场景：以对齐质量和生态为先，关注安全策略与可观测性。
垂直场景：更重视数据闭环与微调/增量训练成本，评估版权与合规。
研发迭代：优先可复现的开源模型（Llama、Qwen、GLM 等）和清晰的训练/推理配置。