今年被称为 AI 智能体的元年。目前的智能体发展分成了两个方向。
第一个方向是工作流,通过有经验的人类编排执行逻辑,其中不同节点完成不同的具体工作。有的调用大模型,有的做内容转换,有的调用 API 等等。这样可以复用人类的专家经验,解决大模型执行逻辑不可靠的问题。
另一个我称为智能系统,即让大模型自己生成执行流程,选择工具(这里的工具类似于前面工作流里的节点)。这种方式整个工作都交给大模型完成了,人类不需要介入太多,但是生成的执行逻辑不一定是最优的,导致效果不好。

工作流模式下,让大模型做具体的事,这样大模型的任务会越来越聚焦。
智能系统模式下,所有的任务交给了大模型,大模型要去处理宏观的流程,对它的要求更高。

两种方式发展方向相反,可能短期会同时存在,甚至在大模型解决幻觉问题之前,工作流模式更容易真的被使用(这里的使用是指比如进入工业环境,能满足高准确性要求的场景)。但是工作流模式让大模型做的内容更聚焦了,这不符合通用大模型的发展方向,所以可能最终是模型会分化而同时满足这两种场景。宏观的部分由通用大模型完成,而聚焦的场景会由针对特定场景训练的模型来完成。

通用大模型继续发展,最终成为类似现在操作系统一样的存在,作为所有运行系统的最底层支撑。在他的上面集成了各种工具,有第三方提供的,也系统自带的。像现在的文本补全,语音生成,图像生成,就类似 windows 系统提供的 api。基于这些系统 api 我们可以开发在这个操作系统大模型上运行的软件,而我们的软件又可以提供 api 给其他软件使用(现在的 mcp 就像 windows 下的动态链接库)。

这样看工作流和智能系统,其实本质上也是一样的,执行单元都类型,只是执行逻辑具体沉淀在哪里的问题,工作流是沉淀到现在流行的操作系统里(即目前我们称为的程序,代码),智能系统是让大模型自己生成,沉淀在大模型里。也许未来操作系统大模型会提供专门的 dsl 或者 api 让人们直接基于大模型编写这部分逻辑,或者辅助它生成更好的业务逻辑。这样不像现在的工作流需要完全的人工介入,也不像现在完全靠大模型自己生成。

这样大模型的 pc 时代就会来了,类似当年桌面软件的程序,会大量的被开发并运行在操作系统大模型上。

pc 软件的大爆发还有一个原因是图形界面,这也是 windows 之所以称为 windows 的原因。那在大模型的 pc 时代的交互界面是什么了?现在聊天窗口充其量也就是类似命令行,也许正在探索的多模态交互(语音+手势+AR)是正为来的“windows”,也许还有一个更好的东西目前没有被发明出来。

所以按这个设想,在大模型的 pc 时代之后,应该还有 web 时代,还有移动互联网时代(这些时代可能依次发生,也可能压缩到一起发生)。那大模型的 web 时代是什么样的了?继续分化成超大型大模型集群,然后上面的软件提供访问方式让单机模型去访问?a2a 协议代替 http?移动互联网时代是什么样的了,随着 vr 设备(比如眼镜)变成所有人的“眼机”?

未来目前并没有揭开它的全貌,也许还有更惊喜的东西即将到来。