研究方向

研究方向

持续学习

GeRe:面向 LLM 持续学习中通过通用样本重放实现高效抗遗忘的探索

GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay

**大型语言模型(LLMs)的持续学习能力对于推动通用人工智能的发展至关重要。然而,在不同领域对 LLMs 进行持续微调时,常常会遭遇灾难性遗忘,表现为:1)其通用能力显著下降,2)先前学习任务的性能急剧下降。为了以简单且稳定的方式同时解决这两个问题,我们提出了通用样本重放(General Sample Replay,GeRe)框架,该框架利用常规预训练文本实现高效的抗遗忘。除了在 GeRe 框架下回顾最常见的基于重放的实践外,我们进一步利用神经状态,引入了一种基于阈值边际(TM)损失的增强激活状态约束优化方法,以在重放学习过程中保持激活状态的一致性。我们首次验证了,一小组固定的预先收集的通用重放样本足以解决这两个问题——既保留通用能力,又促进顺序任务的整体性能。事实上,前者本质上可以促进后者。 通过受控实验,我们在 GeRe 框架下系统地比较了 TM 与不同的重放策略,包括普通的标签拟合、通过 KL 散度进行的 logit 模仿以及通过 L1/L2 损失进行的特征模仿。结果表明,TM 始终提升了性能并表现出更好的鲁棒性。我们的工作为未来高效重放 LLMs 铺平了道路。我们的代码和数据可在 **https://github.com/Qznan/GeRe 获取。

Subjects: Computation and Language, Artificial Intelligence, Machine Learning 主题:计算与语言,人工智能,机器学习

Publish: 2025-08-06 17:42:22 UTC** **发布:2025-08-06 17:42:22 UTC

涌现 & ScalingLaw

大型语言模型和涌现:复杂系统的视角

2025-06-16 12:03:18 Monday

Large Language Models and Emergence: A Complex Systems Perspective 标题 : 大型语言模型和涌现:复杂系统的视角 链接 :https://arxiv.org/abs/2506.11135

作者 : David C. Krakauer, John W. Krakauer, Melanie Mitchell 摘要涌现是复杂性科学中的一个概念 ,描述了多体系统如何表现出新的更高层次的属性,这些属性可以通过用低维有效变量和理论取代高维机制来描述。这一点被“ 更多即是不同 ”的理念所捕捉。智能是一种完美的突现属性,它表现出越来越高效、更便宜、更快地利用突现能力来解决问题。这是由“ 少即是多 ”的理念所体现的。在本文中,我们首先研究声称,大型语言模型表现出涌现能力,审查几种方法来量化涌现,其次问LLM是否具有涌现智能。

  1. 2025-06-18 10:56:22 Wednesday | Capability Salience Vector: Fine-grained Alignment of Loss and Capabilities for Downstream Task Scaling Law 标题 : 能力显著性载体:下游任务缩放定律的损失和能力的细粒度对齐 链接 :https://arxiv.org/abs/2506.13216
  2. 2025-06-18 10:56:54 Wednesday | AI Flow: Perspectives, Scenarios, and Approaches 标题 : 人工智能流程:观点、场景和方法

链接 :https://arxiv.org/abs/2506.12479

缩放定律对于下游任务不可靠:现实检验

2025-07-02 15:37:55 Wednesday

Authors : Nicholas Lourie, Michael Y. Hu, Kyunghyun Cho

下游缩放定律旨在通过较小规模的预训练损失来预测较大规模的任务性能。这种预测是否可能尚不清楚:一些工作表明,任务性能在转换下遵循明显的线性扩展趋势,而另一些工作则指出了下游扩展定律的根本挑战,例如涌现和逆扩展。在这项工作中,我们对下游缩放定律的现有数据进行了荟萃分析,发现接近线性缩放定律只发生在少数情况下:39% 的时间。此外,对实验设置的看似良性的变化可能会完全改变缩放趋势。我们的分析强调了了解缩放定律成功的条件的必要性。为了完全模拟预训练损失和下游任务性能之间的关系,我们必须接受扩展行为偏离线性趋势的情况。

科目 : 计算和语言 , 机器学习

发布 : 2025-07-01 15:52:55 UTC

为什么 LLMs 的能力是涌现的?

#21Why are LLMs' abilities emergent?

大型语言模型(LLMs)在生成任务中的显著成功引发了关于其所获得能力本质的根本性问题,这些能力常常在没有明确训练的情况下意外出现。本文通过理论分析和实证观察,探讨了深度神经网络(DNNs)的涌现特性,回应了当代人工智能发展中“无理解的创造”这一认识论挑战。我们探讨了神经方法依赖非线性、随机过程的本质区别于符号计算范式,造就了其宏观行为无法从微观神经元活动中解析推导的系统。通过对规模定律、grokking 现象以及模型能力相变的分析,我展示了涌现能力源自高度敏感非线性系统的复杂动力学,而非仅仅是参数规模的简单扩展。我的研究揭示,目前关于指标、预训练损失阈值和上下文学习的争论忽视了 DNN 涌现的根本本体性质。 我认为这些系统表现出真正的涌现特性,类似于其他复杂自然现象中发现的特性,其中系统能力是由简单组件之间的协作互动产生的,且无法简化为其个体行为。本文结论指出,理解 LLM 的能力需要将深度神经网络(DNN)视为一个新的复杂动力系统领域,该领域受涌现的普遍原理支配,类似于物理、化学和生物学中运作的原理。这一视角将关注点从纯粹的现象学涌现定义转向理解使这些系统获得超越其个体组件能力的内部动态转变。

发布:2025-08-06 12:43:04 UTC

0%