26/05/15 近日一些感兴趣的阅读内容

<aside> 💡

汇总

关于opd - https://x.com/zhuokaiz/status/2055042099674796118
关于self-verification - https://arxiv.org/abs/2603.04304
关于agentic lm的rft - https://arxiv.org/abs/2605.12913
关于mid-training - https://arxiv.org/pdf/2605.02087
关于mis-alignment/weird generalization - https://arxiv.org/pdf/2604.25891
关于agent系统的设计模式 - https://arxiv.org/pdf/2604.13346
关于神经网络circuit的“可识别性”问题 - https://arxiv.org/abs/2605.12671
关于个性化系统的审计问题 - https://arxiv.org/abs/2605.12671
大模型self-play与Recursive公司创立 - https://rlj.cs.umass.edu/2025/papers/RLJ_RLC_2025_26.pdf
关于RFT经典算法的历史回顾 - https://acnagle.com/posts/reinforce_to_grpo.pdf </aside>

8. 通过大语言模型仿真用户进行行动，从而审计平台推荐算法

论文声称传统的“算法审计”方法的几点劣势：

1、基于真人用户的审计：基于真人用户的审计难以大规模扩展，也无法让审计者围绕用户画像或内容曝光历史构造反事实条件；同时，这类方法也难以按照潜在用户特征对结果进行分层分析，因为这些特征本身内生于平台使用过程。原文为：“human-based audits are difficult to scale and do not allow auditors to construct counterfactuals over user profiles or exposure histories, nor to stratify outcomes by latent user characteristics that are endogenous to platform use.”

2、基于马甲账户（Sock-Puppet）的审计：马甲账户在决定是否互动之前，都不会对单个内容项目进行推理；此外，用户属性与用户行为仍然紧密耦合，使得研究者难以隔离特定用户特征的因果效应。原文为：“In both categories, puppets do not reason about individual items before deciding whether to interact. Moreover, user attributes and behavior remain tightly coupled, making it difficult to isolate the causal effect of specific characteristics.”

论文同样调研了所谓的“硅基抽样”审计法，即借助大语言模型在某实验设定中，逼近人类表现。原文为：“A parallel line of research examines whether LLMs can approximate human behavior in experimental settings,” 作者称：尽管越来越多文献指出，LLM模拟实验在生态效度方面存在局限，但本论文的方法设计缓解了这些担忧：1）persona是事先根据调查数据（Survey Data）定义的，而不是由模型生成的；并且LLM作为一个固定的行为策略发挥作用，其潜在偏差会在同一persona内部进行差分比较时相互抵消。

下图为论文提出的审计方法的大框架。

上半部分：每个persona都是通过结合美国人口普查局的人口统计信息与Pew Research的政治类型学构建出来的，从而生成一个LLM提示词，该提示词完整指定了智能体的行为策略$\pi_p$。每个persona会被复制成多个账户；这些账户共享同一个行为策略，但相对于基线账户，它们在某一个平台可见信号上有所不同，例如地点、年龄或性别。

下半部分：单个账户的交互循环。平台的黑箱推荐系统 $\mathcal{A}$ 会观察该账户的信号s和交互历史 $h_t$ ，并据此分配内容 $z_t$ 。这些复制账户通过相同的策略对内容进行推理，并选择一个动作 $b_t$ ；这些动作随后被追加进账户历史，形成更新后的历史 $h_{t+1}$ ，从而在智能体与平台推荐之间形成一个反馈循环。所有交互、推理轨迹和元数据都会被记录下来。

10. From REINFORCE to GRPO

REINFORCE算法

优化目标为：$\mathbb{E}{a \sim \pi\theta} R(a)$，该算法给出了计算该目标函数关于$\theta$的梯度，从而得到神经网络权重 $\theta$ 的“更新规则”（update rule）：

$$ \Delta \theta = \alpha (R(a) - b) \cdot \nabla_\theta \log \pi_\theta (a) $$

其中 $a$ 是action trajectory，$b$ 是所谓的baseline（后续会详细解释 $b$），$\alpha$是学习率。原论文中给出了下述定理，用自然语言描述为“（对参数化的策略而言）其权重更新值关于trajectory的期望正比于期望奖励函数的梯度”！