目前 LLM 技术发展非常迅速,虽然 LLM 看似已经具备了丰富的知识与足够的智慧,但是在一些场景下我们可能需要更加精确的答案,而不是得到一些幻觉类答案,或者答案不够实时,或者人类诉求太过复杂以至于 LLM 无法理解,等等,这些问题也是目前阻止很多 AI 应用落地的主要原因。
基于 AI Agent(AI 智能体)自身所具备的能力,同时借助于 LLM 所释放的潜力,或许在不久的将来能够不断优化改进,达到满足人类更方便、更智能地使用 AI 完成各种任务的需求,实现普惠 AI 的目标。
下面,首先了解一下 LLM 和 AI Agent 有什么不同:
人类与 LLM 之间的交互,是基于给定的 Prompt 提示词来实现的,而对于 Prompt 的设计不同 LLM 给出的对话回答质量也是不同的,所以需要人类通过一些特定的方法或经过多次尝试,才有可能逐步提高对话的精确度和满意度。可见,目前基于 LLM 的应用作为工具,能够在一定程度上提高人类日常生活、工作等的效率,同时反过来也对人类使用 LLM 提出了一定的要求,而且这一部分工作更多的是需要人类主动请求,而 LLM 被动执行动作来完成一次一次地交互。
AI Agent 提供了更广泛的功能,特别是在与环境的交互、主动决策和执行各种任务方面。在基于 LLM 的场景下,我们给 AI Agent 设定一个目标,它就能够针对这个目标独立思考并执行动作,对给定任务进行详细拆解,得到最终计划的所有步骤,从而根据外部环境的反馈以及自己的自主思考,创建更加合适的 Prompt 输入给 LLM 以实现既定的问答目标。简单来说,不需人类的参与, AI Agent 就能够完全独立地完成预先设定的目标。
什么是 AI Agent
AI Agent 是一种能够感知环境、制定决策、执行动作的人工智能体,它能够通过独立思考、进行规划并调用合适的工具去逐步实现给定的目标,整个过程完全不需要人类参与。大模型(LLM)的出现、快速发展与完善,AI Agent 更有潜力借助 LLM 来实现对通用问题的解决与自动化处理,所以我们可以认为目前 AI Agent 基本是基于 LLM(LLM-Based) 的 AI 智能体。
AI Agent 的演化经过了如下几个阶段:
在 AI 研究的早期阶段,最主要的方法是符号 AI,通过采用逻辑规则和符号表示来封装知识并进行推理。在 Symbolic Agents 这个阶段主要专注解决的问题是:转换问题、表示/推理问题。
Reactive Agent 不使用复杂的符号推理,主要关注 Agent 与其所在的环境(Environment)之间的交互,强调快速和实时响应。
在 RL-Based Agents 阶段,主要关注点是如何让 Agent 通过与环境(Environment)的交互进行学习,使其在特定任务中获得最大的累积奖励,从而使 Agent 能够在未知环境中自主学习并执行 Action,学习过程中无需人工干预。
传统的 RL 学习需要 Agent 耗时处理大量样本和训练,通过引入迁移学习,实现知识共享和迁移,提高了 Agent 的性能表现和泛化能力。在此基础上又引入了元学习,使 Agent 能基于少量样本迅速推断出新任务的最优策略。
LLM-Based Agent 以 LLM 为核心大脑组件(中央控制器),通过多模态感知(Multimodal Perception)和工具利用(Tool Utilization)等策略来扩展其 Perception 和 Action 空间。通过使用 CoT(Chain-of-Thought)和问题分解等技术,使 LLM-Based Agent 具有推理和规划能力。同时,LLM-Based Agent 也能够与环境进行交互,通过不断地从反馈中学习,从而优化策略并做出决策,执行下一个 Action。另外,基于 LLM-Based Agent 具有更广泛的应用场景。
LLM-Based Agent 基本框架
LLM-Based Agent 的基本概念框架,如下图所示:
其中包括三个主要的组件:
Brain 组件主要由核心的 LLM 组成,它包含的能力有:存储知识和记忆、信息处理与决策、推理与规划。
Perception 组件主要将 Agent 的感知空间,从语言文字领域扩展到多模态领域(包括语言、视觉、听觉等等)。
在 Action 组件中,Agent 从 Brain 模块接收 Action 序列,执行与环境交互的任务。
通过上图和对三个组件的描述,我们可以看到存在这样一个自动化的环路:Environment → Perception → Brain → Action → Environment,Agent 通过自动地持续与环境交互(感知环境输入/执行 Action 输出到环境)不断学习,并不断优化策略执行新的 Action。
LLM-Based Agent 应用场景
目前,LLM-Based Agent 的应用场景主要包括三类:
Single Agent,即单智能体。解决这一类场景的应用主要专注于解决任务,即任务导向,如下图所示:
任务导向:在任务导向的部署中,Agent 遵循用户的指令,负责诸如目标分解、子目标序列规划、环境交互式探索等任务,直至最终实现目标。
创新导向:在对智能程度要求更高的领域,比如尖端科学,Agent 的潜力还没有完全实现,还有很大的潜力。
生命周期导向:构建一个具有普适能力的智能体,能够在开放、未知的世界中不断探索、创造新技能,并保持长期的生命周期,目前这还是一个巨大的挑战。
Agent-Agent,即多智能体。多智能体应用场景会存在多个智能体,它们之间存在互动,主要包括两种互动形式:合作型互动(Cooperative Interaction)、对抗型互动(Adversarial Interaction),如下图所示:
Agent-Human,即人机互动智能体。Agent 与人类合作完成任务,在这个过程中,人类的参与能有效地指导和监督 Agent 的行为,确保它们的能力满足人类的需求和目标。如下图所示:
Instructor-Executor 范式:人类直接提供清晰具体的指令,Agent 理解来自人类的自然语言命令,并将其转化为相应的 Action。
Equal Partnership 范式:包含两种情形,一种是 Agent 能够从人类的表达中感知并理解情感和情绪,最终创造出情感共鸣的对话;另一种是 Agent 以与人类对等的身份共同参与任务的执行。
AI Agent Society
AI 智能体社会(AI Agent Society),这个概念表达了 LLM-Based Agent 与模拟环境进行交互,像人类一样规划目标、做出决策、执行 Action,并参与社交活动。而未来人类也可能参与到这样一个智能体社会中,与 AI Agent 形成一个互相协作、共同演化的整体。下图展示了这种愿景:
上图中展示了一个节日的场景,模拟了一个 AI Agent 社会应用场景:
在厨房内:一个 Agent 负责点菜,另一个 Agent 负责规划(做菜需要哪些食材),然后完成做菜的任务;
在音乐会上:三个 Agent 作为一个乐队进行协同表演;
在户外:两个 Agent 在讨论制作灯笼,规划需要的材料,使用工具来计算成本开销。
人类用户:也可以参与到这个社会场景中,与 AI Agent 一起协同、社交。
参考资源