The Second Half of AI

AI’s First Half: A Working Recipe for Foundation Models

从 Back Propagation 发展到 Attention/Transformer 伊始，正式拉开深度学习的序幕：短短几年，我们可以在 Transformers 之上通过 Parameter Scaling 扩大模型规模以达到更好效果、通过发明新的模型架构达到针对某个特殊目标的 SOTA、通过发明更好的训练方法（指参数优化方法如 Adam）达到更快速稳定的收敛速度……上半场的发展速度十分之快，发展的内容很多，达到量变引起质变的地步。

然而这种发展还是迎来了某种意义上的“峰值”：我们一直在发展 Foundation Model，而经过数年诸多学者与工业界的尝试，现在我们已经发展出了一套 Working Recipe．这个 Working Recipe 可以说放之四海而皆准，不管什么细分领域只要使用这个 recipe 就大概率可以得到不错的收敛和模型效果。可以说，针对 Foundation Model 的研究速度开始放缓了脚步。事实也是，最近针对底层架构的新论文已经少了很多，例如针对 LLM 架构的研究只有 Mamba 和 RWKV 是比较新颖的，更底层的就只有 KAN 了。

所以学术和工业界都把目光转向了 Models 的应用，这也符合 general 的发展方向，基础打牢得差不多了，工业界接下来必定要将其转化为可以盈利的产品。但是在将 LLM 应用到现实世界中的时候，我们又注意到新的问题：LLM 只能进行简单的 chat，而不能进行更加复杂的行为。

那么问题出在什么地方呢？我们尝试用 RL（强化学习）让 LLM 在不同的应用场景下优化表现，经典的比如说 RLHF，取得了不错的成绩，但是我们又发现其泛化性能变差了。于是我们把目光放在 RL 身上。会不会是 RL Settings 的问题？

AI’s Second Half: Reasoning to Learn Utilities

What is RL?

简单来说，如果存在一个环境，Agent 在环境中作出一个行为，环境会给予 Agent 一个反馈，然后 Agent 根据这个反馈优化自己在这个环境中作出行为的决策，这个训练过程就是 RL.

我们首先 figure out 了 Environment 对模型的影响。算法很有可能针对特定的环境产生了过拟合，导致模型无法在不同 Environment 之间进行迁移。所以，我们尝试建立起一套 Unified Environment Settings．在 Embodied AI 领域，这样的尝试包括 OpenAI 的 gym、英伟达的 Isaac Lab 等等，目的都是为了将 Real World Scenario 转化为 Unified Digital World，便于统一标准进行测试、评判。

然而，我们仍然发现无法泛化。用 Internet level 语料训练出来的模型足够 chatting，并且在 Real World Data 进行 SFT 后的 VLA 模型虽然可以在 Robotic Arm 数据集上可以取得不错的成绩，但是在 Computer Use 数据集上又一泻千里。

哪里出了问题？对于人类而言，我们经历过十几年的语料“训练”后，Arm Control 和 Computer Use 势必都不会差，但对模型来说却天差地别。我们认为是 Reasoning 的问题：Reasoning 才是让模型得以利用有限的知识进行泛化的根本。

但在 RL 的 Definition 里面，reasoning 却是一个很奇怪的 action：RL 强调 action 要直接作用于 environment，这样才能让 environment 发生改变，从而给予 agent 反馈去进行优化；然而 reasoning 却不一定可以直接作用于环境，更遑论产生 feedback/reward 了。

说了这么多 reasoning is a strange action，我们还是需要回到 reasoning 本身：我们期望 reasoning 可以做到什么？当然是泛化。那么怎么 reasoning？我们希望直接利用当前 LLM 的能力而不用重新设计（当然很可能以后会需要重新设计），当下的 reasoning 方法本质上都在强调用语言作为 Reasoning 的载体，从而可以帮助 agent 在不同的任务之间迁移。

所以来到 AI 的下半场，研究的重点就转移到了我们怎样让模型 reasoning，才能让 LLM 去帮我们完成各种任务，即，现在的模型只会 language，我们如何用 language 去进行 reasoning，让模型 reason 出完成任务需要做什么。我们把任务分解成 composition of most basic abilities（这样的 most basic abilities 也称为 Utilities），所以模型的 reasoning 就是重新学习这些 utilities 的过程。

因而，AI’s Second Half 的路线是

novel evaluation/benchmark for utilities
solve them with existing recipe or with new components.
then continue the loop.