<aside>
💡
汇总
- 一种数据集混合的策略:OP-Mix
- 如何证明LLM在训练数据 $D^i$ 上训练过?https://arxiv.org/pdf/2307.00682
- 如何训练多轮推理能力?https://openreview.net/pdf?id=S9QsJ1Po4W, REGEN,REGEN-2
- CUA数据管线与训练环境:CUA-Gym
- Train-inference mismatch对performance究竟有多大影响?KPop训练策略
- 更贴近人类学习的学习范式:pedagogical rl
- A社的NLA工作:https://transformer-circuits.pub/2026/nla/#introduction
- 什么是evaluation-awareness?https://arxiv.org/abs/2510.20487
- METR的前沿风险报告:https://metr.org/risk-report-feb-mar-2026.pdf
- 理论上可处理无限上下文的Recursive LM如何训练?https://www.alphaxiv.org/blog/reinforcement-learning-for-rlms
- 与2相关,
</aside>