26/05/27 近日一些感兴趣的阅读内容

<aside> 💡

汇总

一种数据集混合的策略：OP-Mix
如何证明LLM在训练数据 $D^i$ 上训练过？https://arxiv.org/pdf/2307.00682
如何训练多轮推理能力？https://openreview.net/pdf?id=S9QsJ1Po4W， REGEN，REGEN-2
CUA数据管线与训练环境：CUA-Gym
Train-inference mismatch对performance究竟有多大影响？KPop训练策略
更贴近人类学习的学习范式：pedagogical rl
A社的NLA工作：https://transformer-circuits.pub/2026/nla/#introduction
什么是evaluation-awareness？https://arxiv.org/abs/2510.20487
METR的前沿风险报告：https://metr.org/risk-report-feb-mar-2026.pdf
理论上可处理无限上下文的Recursive LM如何训练？https://www.alphaxiv.org/blog/reinforcement-learning-for-rlms
与2相关， </aside>