AI 智能体的臆想

今年被称为 AI 智能体的元年。目前的智能体发展分成了两个方向。
第一个方向是工作流，通过有经验的人类编排执行逻辑，其中不同节点完成不同的具体工作。有的调用大模型，有的做内容转换，有的调用 API 等等。这样可以复用人类的专家经验，解决大模型执行逻辑不可靠的问题。
另一个我称为智能系统，即让大模型自己生成执行流程，选择工具（这里的工具类似于前面工作流里的节点）。这种方式整个工作都交给大模型完成了，人类不需要介入太多，但是生成的执行逻辑不一定是最优的，导致效果不好。

工作流模式下，让大模型做具体的事，这样大模型的任务会越来越聚焦。
智能系统模式下，所有的任务交给了大模型，大模型要去处理宏观的流程，对它的要求更高。

两种方式发展方向相反，可能短期会同时存在，甚至在大模型解决幻觉问题之前，工作流模式更容易真的被使用（这里的使用是指比如进入工业环境，能满足高准确性要求的场景）。但是工作流模式让大模型做的内容更聚焦了，这不符合通用大模型的发展方向，所以可能最终是模型会分化而同时满足这两种场景。宏观的部分由通用大模型完成，而聚焦的场景会由针对特定场景训练的模型来完成。

通用大模型继续发展，最终成为类似现在操作系统一样的存在，作为所有运行系统的最底层支撑。在他的上面集成了各种工具，有第三方提供的，也系统自带的。像现在的文本补全，语音生成，图像生成，就类似 windows 系统提供的 api。基于这些系统 api 我们可以开发在这个操作系统大模型上运行的软件，而我们的软件又可以提供 api 给其他软件使用(现在的 mcp 就像 windows 下的动态链接库)。

这样看工作流和智能系统，其实本质上也是一样的，执行单元都类型，只是执行逻辑具体沉淀在哪里的问题，工作流是沉淀到现在流行的操作系统里（即目前我们称为的程序，代码），智能系统是让大模型自己生成，沉淀在大模型里。也许未来操作系统大模型会提供专门的 dsl 或者 api 让人们直接基于大模型编写这部分逻辑，或者辅助它生成更好的业务逻辑。这样不像现在的工作流需要完全的人工介入，也不像现在完全靠大模型自己生成。

这样大模型的 pc 时代就会来了，类似当年桌面软件的程序，会大量的被开发并运行在操作系统大模型上。

pc 软件的大爆发还有一个原因是图形界面，这也是 windows 之所以称为 windows 的原因。那在大模型的 pc 时代的交互界面是什么了？现在聊天窗口充其量也就是类似命令行，也许正在探索的多模态交互（语音+手势+AR）是正为来的“windows”，也许还有一个更好的东西目前没有被发明出来。

所以按这个设想，在大模型的 pc 时代之后，应该还有 web 时代，还有移动互联网时代（这些时代可能依次发生，也可能压缩到一起发生）。那大模型的 web 时代是什么样的了？继续分化成超大型大模型集群，然后上面的软件提供访问方式让单机模型去访问？a2a 协议代替 http？移动互联网时代是什么样的了，随着 vr 设备（比如眼镜）变成所有人的“眼机”？

未来目前并没有揭开它的全貌，也许还有更惊喜的东西即将到来。