规划
规划
训练
o1
“神经-符号”融合规划器
“神经-符号”融合规划器性能显著超越o1:借鉴人类运动学习机制|中国科学院磐石研发团队
论文链接:https://www.sciencedirect.com/science/article/abs/pii/S095070512501086X?via%3Dihub
-
混合规划器,同时融合了神经规划系统和符号规划系统的优势。
-
借鉴人类的闭环反馈机制,构建 双向规划机制 ,在表达能力、适应能力、泛化能力以及可解释性上都实现了显著提升。
- 基于 Knowledge of Result (KR) 的闭环系统是人类运动学习的关键部分,可以帮助学习者纠正错误,向着目标方向实现有效学习。
- 在运动学习中KR是执行运动后的增强信息,表明既定目标是否成功,而闭环系统是以反馈、错误检测和错误纠正为核心的过程。规划任务中的问题、规划器和动作序列可近似对应于人类运动学习中的试验、学习者和行动序列,规划任务与运动学习有较强的相似性。
- “神经-符号”融合规划器通过借鉴人类运动学习中的反馈闭环理念,构建了一种闭环反馈的双向规划机制—— KRCL (Knowledge-of-Results based Closed-Loop) ,正向神经规划器生成问题的动作序列与反向KR反馈机制构成动态的错误检测-纠正闭环。
-
还能只在正向规划器需要时,自动激活反馈接收,在规划覆盖率和规划效率上均显著优于 OpenAI o1 。
评测
PlanBench (用于评估大语言模型规划性能的基准数据集)
看似简单的规划问题实际上计算复杂:倒计时游戏
#46Seemingly Simple Planning Problems are Computationally Challenging: The Countdown Game
普遍认为,当前基础模型和智能体无法制定长期计划是其主要局限之一。然而,现有的规划基准测试远远不足以真正衡量它们的规划能力。大多数现有基准测试要么侧重于像旅行规划这样定义模糊的任务,要么最终利用国际规划竞赛中的现有领域和问题。前者任务难以形式化和验证,后者则专门设计用来测试和挑战现有自动规划器的弱点。为了解决这些不足,我们提出了一种创建以名为 Countdown 的游戏为核心的规划基准测试的方法,该游戏要求玩家通过算术运算从一组输入数字中形成目标数字。我们讨论了该问题如何满足与理想规划能力评估基准相关的多项期望条件。 具体来说,该领域允许对每个问题实例进行直观的自然语言描述,计算上具有挑战性(NP 完全),且实例空间足够丰富,因此我们无需担心记忆问题。我们进行了广泛的理论分析,确立了计算复杂性结果,并展示了我们的实例生成程序相较于公共基准的优势。我们评估了多种现有的 LLM 辅助规划方法在使用我们程序生成的实例上的表现。结果表明,与 24 点游戏(Countdown 的一个特例)等其他领域不同,我们提出的动态基准对现有基于 LLM 的方法仍然极具挑战性。
发布:2025-08-04 21:01:03 UTC