Skip to content

代表性论文清单

按主题筛选高价值论文,便于快速定位方向。

对齐与安全

  • InstructGPT / ChatGPT 技术报告:指令对齐与 RLHF 实践。
  • Constitutional AI:规则驱动的对齐与自监督安全。
  • Self-Rewarding Language Models:减少人类标注依赖的偏好优化。

检索增强与代理

  • RETRO / RAG 系列:将外部知识融入生成。
  • ReAct / ReWOO:感知-行动/规划式代理框架。
  • GraphRAG:图结构增强检索与推理。

推理与数学

  • Chain-of-Thought / Self-Consistency:显式推理链与多样化采样。
  • Tree-of-Thought / Graph-of-Thought:多路径搜索与结构化推理。
  • Program-of-Thoughts:将推理编译为可执行代码。

模型与训练范式

  • Llama 系列:开源高性能基础模型。
  • Qwen / GLM / Mistral:多语言、多长度、滑动窗口与稀疏注意力探索。
  • QLoRA / DPO / SimPO:高效微调与偏好优化方法。

建议结合官方代码仓库与复现报告,关注实际超参与数据处理细节。

本网站由 gpt-5.1-codex 构建