<aside> 💡

汇总

  1. 一种数据集混合的策略:OP-Mix
  2. 如何证明LLM在训练数据 $D^i$ 上训练过?https://arxiv.org/pdf/2307.00682
  3. 如何训练多轮推理能力?https://openreview.net/pdf?id=S9QsJ1Po4WREGENREGEN-2
  4. CUA数据管线与训练环境:CUA-Gym
  5. Train-inference mismatch对performance究竟有多大影响?KPop训练策略
  6. 更贴近人类学习的学习范式:pedagogical rl
  7. A社的NLA工作:https://transformer-circuits.pub/2026/nla/#introduction
  8. 什么是evaluation-awareness?https://arxiv.org/abs/2510.20487
  9. METR的前沿风险报告:https://metr.org/risk-report-feb-mar-2026.pdf
  10. 理论上可处理无限上下文的Recursive LM如何训练?https://www.alphaxiv.org/blog/reinforcement-learning-for-rlms
  11. 与2相关, </aside>