代表性论文清单

按主题筛选高价值论文，便于快速定位方向。

对齐与安全

InstructGPT / ChatGPT 技术报告：指令对齐与 RLHF 实践。
Constitutional AI：规则驱动的对齐与自监督安全。
Self-Rewarding Language Models：减少人类标注依赖的偏好优化。

检索增强与代理

RETRO / RAG 系列：将外部知识融入生成。
ReAct / ReWOO：感知-行动/规划式代理框架。
GraphRAG：图结构增强检索与推理。

推理与数学

Chain-of-Thought / Self-Consistency：显式推理链与多样化采样。
Tree-of-Thought / Graph-of-Thought：多路径搜索与结构化推理。
Program-of-Thoughts：将推理编译为可执行代码。

模型与训练范式

Llama 系列：开源高性能基础模型。
Qwen / GLM / Mistral：多语言、多长度、滑动窗口与稀疏注意力探索。
QLoRA / DPO / SimPO：高效微调与偏好优化方法。

建议结合官方代码仓库与复现报告，关注实际超参与数据处理细节。