Appearance
代表性论文清单
按主题筛选高价值论文,便于快速定位方向。
对齐与安全
- InstructGPT / ChatGPT 技术报告:指令对齐与 RLHF 实践。
- Constitutional AI:规则驱动的对齐与自监督安全。
- Self-Rewarding Language Models:减少人类标注依赖的偏好优化。
检索增强与代理
- RETRO / RAG 系列:将外部知识融入生成。
- ReAct / ReWOO:感知-行动/规划式代理框架。
- GraphRAG:图结构增强检索与推理。
推理与数学
- Chain-of-Thought / Self-Consistency:显式推理链与多样化采样。
- Tree-of-Thought / Graph-of-Thought:多路径搜索与结构化推理。
- Program-of-Thoughts:将推理编译为可执行代码。
模型与训练范式
- Llama 系列:开源高性能基础模型。
- Qwen / GLM / Mistral:多语言、多长度、滑动窗口与稀疏注意力探索。
- QLoRA / DPO / SimPO:高效微调与偏好优化方法。
建议结合官方代码仓库与复现报告,关注实际超参与数据处理细节。