26/05/02 - 追逐“长尾”

作为一个AI工作者，我还没有想明白——虽然我想，出于生存也出于生的意义——如何自由、自洽、自在地创造影响力。但在AI技术日新月异的今天，总会不自主地去看、去理解那些所谓引领者或引领团体的工作而被深深影响着，进而失去独立思考的能力与空间，但我又并非一个盲目与狂热的崇拜者，我尝试有自己的判断与逻辑。

我个人感觉，大（语言）模型很可能是21世纪最伟大的发明或发现。它的的确确超越并整合了之前相对分散的AI子领域（计算机视觉、自然语言处理、机器人学、自动规划、启发式搜索等），让它们以一个完整的形象——所谓Agent或智能体——出现在普罗大众面前，就像社交或支付软件一样，成为深入寻常百姓家的普惠技术与应用。而我们人类在与大模型交互过程中所留存的数据，又能不断地为大模型的“持续学习”与“进化”提供“养料”。

在19年左右，基于神经网络的对话系统仍然像玩具应用一样，当时的对话系统研究大致可分为Task-oriented Dialogue（ToD）与Chatbot两大类，Chatbot如微软小冰在我看来仍然很“无趣”（至少我不会让它教我知识或做我的情感陪伴），而ToD也只能在受限的任务域中才能可靠应用（例如客服机器人）。那时候，我认为即使再强大的对话系统也只是提供了一种人机接口，它仍然需要与具体的领域任务相结合才能产生价值，而这种结合意味着在特定领域的数据上进行模型训练或接入特定场景的知识库与数据库，这使得任何对话系统都是专用而非通用的，即泛化能力非常弱。这种观点甚至让我完全忽视了GPT-2、GPT-3的研究工作，我当时的认知只停留在：“这只是一个能与人闲聊两句的Chatbot”，“能连贯地续写上下文又能有多有用呢”。

但如今，当我能用Cursor在半小时内将同事开发的、我还未仔细阅读源码的AI CAD应用新增一项基于Bounding Box校准的用户交互功能时，或用Codex在一小时内完成一个全新的大模型任务的评测时（从构造任务提示词、统一多模型请求，到实现大模型Judge与评测指标），或协助我老婆用Codex根据截图快速复刻她希望用到工作中的数据可视化面板时，我再次被当下AI带来的生产力革命所震撼。我才后知后觉但深刻地认识到：

当AI能够与人、像人与人那样自然地多轮交互，或像人那样长篇幅连贯地续写任意上下文时，AI其实已经具备了像人一样通用的任务执行能力了，只是仅仅将所有思考、执行过程都“投影”到语言空间罢了。

关于“压缩即智能”

昨天，我在LessWrong论坛上读到来自Redwood Research的科学家Ryan Greenblatt的文章“Current AIs seem pretty misaligned to me”，又一次感受到我的认知与所谓在前沿实验室中持续提升前沿大模型能力（Capacity）与对齐（Alignment）的研究员的认知间存在的巨大差距。他们可能真实地感受到了大模型在逐渐逼近AGI时所带来的持续认知冲击——即使通过复杂的宪法或Model Spec来训练模型，许多让人不安的模型“行为”依然会无法预测地涌现。

“Current AI systems seem pretty misaligned to me in a mundane behavioral sense: they oversell their work, downplay or fail to mention problems, stop working early and claim to have finished when they clearly haven't, and often seem to "try" to make their outputs look good while actually doing something sloppy or incomplete.”

arXiv filter

我追研究动态的方式非常朴素，我会花每天中午饭后散步的时间去刷arXiv的Computer Science下的两个分类：

cs.CL - Computation and Language
cs.LG - Machine Learning