博弈 Self-Play
博弈 Self-Play
强化学习
SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」
2025-08-05
- 研究方向为可扩展的自主提升,致力于构建能在未知环境中智能决策的自主智能体
- 通过基于结果的奖励机制,强化学习使模型能够发展出可泛化的推理策略,在复杂问题上取得了监督微调难以企及的进展。
- 本文通过让模型在零和游戏中与自己对弈,自主发现并强化可泛化的推理模式,完全摆脱了对人工监督的依赖。
- 论文标题: SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning
- 论文链接:https://huggingface.co/papers/2506.24119
- 代码链接:https://github.com/spiral-rl/spiral
- 研究团队的核心洞察是:如果强化学习能够从预训练语言模型中选择出可泛化的思维链(Chain-of-Thought, CoT)模式,那么游戏为这一过程提供了完美的试炼场:它们通过输赢结果提供廉价、可验证的奖励,无需人工标注。通过在这些游戏上进行自对弈,强化学习能够自动发现哪些 CoT 模式在多样化的竞争场景中获得成功,并逐步强化这些模式,创造了一个自主的推理能力提升系统。
- 实验发现,不同游戏确实培养了专门化的认知能力:
- 井字棋专家在空间推理游戏 Snake 上达到 56% 胜率。
- 库恩扑克大师在概率游戏 Pig Dice 上取得惊人的 91.7% 胜率。
- 简单谈判专家在战略优化游戏上表现出色。
- 更有趣的是,当结合多个游戏训练时,技能产生协同效应。
- SPIRAL 验证了一个关键假设:预训练模型中已经包含了各种推理模式,强化学习的作用是从这些模式中筛选和强化那些真正可泛化的思维链。
- 未来的研究开辟了新方向:
- 混合博弈类型:结合零和、合作和混合动机游戏,可能培养更全面的推理能力。
- 元游戏学习:让模型不仅玩游戏,还能创造新游戏,实现真正的创造性推理。
- 跨模态游戏:将语言游戏扩展到包含视觉、音频等多模态信息,培养更丰富的认知能力。
无需外部数据!AI自问自答实现推理能力进化
2025-08-08
- 卡内基梅隆大学团队提出的新框架 SQLM ——一种无需外部数据的自我提问模型。
- 该框架包含提问者(proposer)和解答者(solver)两个角色,提问者生成与给定主题相关的问题,解答者旨在解决问题。
- 研究者提出了 SQLM框架 ,一种非对称的自我博弈框架。
主动学习
ATGen:主动文本生成框架
2025-07-01 12:04:39 Tuesday
主动学习 (AL) 在减少训练机器学习模型所需的注释工作方面表现出了巨大的潜力。然而,尽管近年来自然语言生成 (NLG) 任务的普及率飙升,但 AL 在 NLG 中的应用一直受到限制。在本文中,我们介绍了主动文本生成 (ATGen) - 一个将 AL 与文本生成任务联系起来的综合框架,能够将最先进的 AL 策略应用于 NLG。我们的框架使用人工注释器和基于大型语言模型 (LLM) 的自动注释代理简化了 NLG 任务中 AL 授权的注释。该框架支持作为服务(如 ChatGPT 和 Claude)部署的 LLM,或在本地运行的 LLM。此外,ATGen 提供了一个统一的平台,用于顺利实施和对针对 NLG 任务量身定制的新型 AL 策略进行基准测试。最后,我们介绍了跨不同设置和多个文本生成任务的最新 AL 策略的评估结果。我们表明,ATGen 减少了人工注释者的工作量和与对基于 LLM 的注释代理的 API 调用相关的成本。该框架的代码可在 GitHub 上根据 MIT 许可证获得。视频演示可在 http://atgen-video.nlpresearch.group
智能体
策略改写「一战历史」!中科院开源全新博弈智能体框架DipLLM
2025-07-02 15:08:59 Wednesday| 策略改写「一战历史」!中科院开源全新博弈智能体框架DipLLM https://mp.weixin.qq.com/s/Hg7vHB_2ujfKSyvAcNjn6g
首个在复杂策略游戏Diplomacy中基于大语言模型微调的智能体框架,仅用Cicero 1.5%的训练数据就实现超越,展现出卓越的策略能力和样本效率。该框架通过自回归分解将复杂决策任务转化为序列化子任务,结合理论支持的均衡策略目标对LLM 进行高效微调,为构建更通用、高效的博弈智能体提供了新范式。
围棋、德州扑克曾是AI崛起的试炼场,从AlphaGo到Libratus,人工智能不断刷新策略上限。
Diplomacy:一款融合协作与竞争的七人博弈游戏,单轮动作空间高达10的64次方,其策略建模复杂度前所未有!
为此,Meta曾推出智能体Cicero[Meta, Science 2022],结合人类数据与策略搜索,在该领域实现突破,但其方法高度依赖超大规模均衡搜索与重资源训练,难以扩展与迁移。
论文地址:https://arxiv.org/pdf/2506.09655
开源代码:https://github.com/KaiXIIM/dipllm