2025-08-04科研追新

Contents

2025-08-04科研追新

2025-08-02 Saturday ~ 2025-08-04 10:21:38 Monday

1. 源数据

1.1 公众号

1.1.1 量子位

  1. 告别复杂提示词!蚂蚁新方式让AI自动理解你的个性化需求
  2. AI Agent放贷款,获投4.3个亿
  3. Hinton能重新坐下了,什么时候开始的?
  4. DeepMind哈萨比斯:AI能建模所有进化而来的事物
  5. 实测Qwen-MT翻译模型,确实又快又好
  6. 拒绝小扎6年15亿美元天价offer!网友:他是有多讨厌扎克伯格??
  7. 微软新研究:这40种工作最可能被AI取代
  8. IOI中国队全员金牌夺冠!奥赛打成乒乓,浙江中学生扛起3/4
  9. 央企出手,让选大模型更容易了!中国移动发布MoMA聚合服务引擎
  10. 6小时复刻AI IMO金牌成果,蚂蚁多智能体新进展已开源
  11. 训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
  12. AI Coding如何重构开发,模型×IDE×Agent深度对话|量子位AI沙龙
  13. 仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂
  14. 刷新3D生成上限!一键生成精细到毛发的3D资产
  15. 谷歌IMO金牌模型可以用了!推理性能秒了o3、Grok 4

1.1.2 机器之心

  1. 马斯克:研究者不存在了,只有工程师;LeCun:大错特错
  2. 全网苦等GPT-5,超级对齐团队遗作成重要线索,奥特曼发话「惊喜很多」
  3. 图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?
  4. GUI定位还在玩「非黑即白」?浙大团队提出GUI-G²,显著提升GUI智能体定位性能
  5. OpenAI IMO金牌团队爆料:AI拒绝作答第六题
  6. 拒绝了Meta 15亿美元的AI大牛原来是他
  7. 扩散架构 or「NoThinking」,AI 对话的「1Hz 壁垒」如何突破?
  8. GPT-5难产,外媒爆料:性能提升不大,OpenAI高管Slack上当众破防
  9. 19岁小哥伯克利辍学创业,获2800万美元融资,OpenAI投了
  10. 通向L3的正确范式?理想i8全球首发VLA高阶辅助驾驶,我们帮你试了试
  11. ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法
  12. 刚刚,谷歌「IMO金牌」模型上线Gemini,数学家第一时间证明猜想
  13. 一个模型超了DeepSeek R1、V3,参数671B,成本不到350万美元
  14. 多模态后训练反常识:长思维链SFT和RL的协同困境

1.1.3 新智元

  1. 突发!奥特曼公开GPT-5聊天记录
  2. 兔子蹦迪疯传,5亿观看!全球恐慌:一段AI视频把全人类拉入虚拟现场
  3. 豪拒15亿美金天价Offer,硅谷最狂AI巨星身份曝光!小扎、奥特曼抢破头
  4. 九天大模型大变身:性能狂飙35%!还能一键P大象
  5. 马斯克再放大招!Grok AI短视频爆火,一夜全网刷屏
  6. 万亿参数狂欢!一文刷爆2025年七大顶流大模型架构
  7. 弹尽粮绝!陶哲轩自曝遭资金断供,美顶尖数学圣殿IPAM命悬一线
  8. 天才美少女的开挂人生,首次揭晓!11岁自学微积分,17岁推翻40年难题
  9. Hinton预言成真,美国大学生掀起本科辍学潮!月入万刀修马桶,不怕AI裁员
  10. GPT-5难产内幕曝光!核心团队遭挖空,推理魔咒难破,靠英伟达续命
  11. Anthropic官宣「封杀」OpenAI!GPT-5发布在即,竟被曝用Claude Code做开发?
  12. 哥大学生全员AI作弊?小哥「创业逆袭」:不用AI等于输在起跑线!
  13. 刚刚,谷歌奥数金牌Gemini 2.5 Deep Think发布!多智能体推理碾压Grok 4、o3

1.1.4 AGI Hunt

  1. Anthropic CEO:模型可在一亿上下文窗口中学习,且不改变权重,未来AI将每月10万美元
  2. Anthropic CEO最新采访:AGI一词毫无意义、点名扎克伯格、谈开源、家庭……等八个非共识观点
  3. 刚刚,清华团队用27M参数击败o3-mini!或将改变AI发展方向
  4. 十米远就能闻到AI 的味道😂
  5. AI 性格失控等诡异现象,终于有了科学解释
  6. 刚刚,Anthropic切断OpenAI对Claude的访问权限

1.2 Arxiv

1.2.1 Computation and Language

From:https://papers.cool/arxiv/cs.CL

2025-08-04 | Total: 64

#1 超越固定:扩散大型语言模型的可变长度去噪

Authors: [Jinsong Li](https://arxiv.org/search/?searchtype=author&query=Jinsong Li), [Xiaoyi Dong](https://arxiv.org/search/?searchtype=author&query=Xiaoyi Dong), [Yuhang Zang](https://arxiv.org/search/?searchtype=author&query=Yuhang Zang), [Yuhang Cao](https://arxiv.org/search/?searchtype=author&query=Yuhang Cao), [Jiaqi Wang](https://arxiv.org/search/?searchtype=author&query=Jiaqi Wang), [Dahua Lin](https://arxiv.org/search/?searchtype=author&query=Dahua Lin)

扩散大型语言模型 (DLLM) 正在成为占主导地位的自回归大型语言模型的强大替代方案,提供高效的并行生成和强大的全局上下文建模。然而,DLL 的实际应用受到一个关键的架构限制的阻碍:需要静态预定义的生成长度。这种静态长度分配导致了一个有问题的权衡:长度不足会削弱复杂任务的性能,而长度过大会产生大量的计算开销,有时会导致性能下降。虽然推理框架是僵化的,但我们观察到模型本身具有与给定任务的最佳响应长度相关的内部信号。为了弥合这一差距,我们利用这些潜在信号并引入了 DAEDAL,这是一种新颖的免训练去噪策略,可实现扩散大型语言模型的动态自适应长度扩展。DAEDAL 分两个阶段运行:1) 在去噪过程之前,DAEDAL 从一个较短的初始长度开始,并在序列完成指标的指导下迭代地将其扩展到适合任务的粗略长度。2)在去噪过程中,DAEDAL 通过掩码标记插入来动态干预,通过精确定位和扩展不足的生成区域,确保最终输出得到充分开发。对 DLL 的广泛实验表明,DAEDAL 的性能与精心调整的固定长度基线相当,在某些情况下甚至更好,同时通过实现更高的有效令牌比率来提高计算效率。通过解决静态长度限制,DAEDAL 释放了 DLL 的新潜力,弥合了与自回归对应物的关键差距,并为更高效、更强大的生成铺平了道路。

主题: 计算和语言

发布: 2025-08-01 17:56:07 UTC

#2 他们理解它们吗?大型语言模型中非二元代词处理的最新评估

Authors: [Xushuo Tang](https://arxiv.org/search/?searchtype=author&query=Xushuo Tang), [Yi Ding](https://arxiv.org/search/?searchtype=author&query=Yi Ding), [Zhengyi Yang](https://arxiv.org/search/?searchtype=author&query=Zhengyi Yang), [Yin Chen](https://arxiv.org/search/?searchtype=author&query=Yin Chen), [Yongrui Gu](https://arxiv.org/search/?searchtype=author&query=Yongrui Gu), [Wenke Yang](https://arxiv.org/search/?searchtype=author&query=Wenke Yang), [Mingchen Ju](https://arxiv.org/search/?searchtype=author&query=Mingchen Ju), [Xin Cao](https://arxiv.org/search/?searchtype=author&query=Xin Cao), [Yongfei Liu](https://arxiv.org/search/?searchtype=author&query=Yongfei Liu), [Wenjie Zhang](https://arxiv.org/search/?searchtype=author&query=Wenjie Zhang)

大型语言模型 (LLM) 越来越多地部署在公平性和包容性至关重要的敏感环境中。代词的使用,尤其是关于中性和新代词的使用,仍然是负责任的人工智能面临的关键挑战。之前的工作,例如性别不严的基准,揭示了早期法学硕士在处理包容性代词方面的重大局限性,但仅限于过时的模型和有限的评估。在这项研究中,我们引入了 MISGENDERED+,这是一个用于评估法学硕士代词保真度的扩展和更新基准。我们对五个代表性的 LLM 进行了基准测试,GPT-4o、Claude 4、DeepSeek-V3、Qwen Turbo 和 Qwen2.5,涵盖零样本、少量和性别认同推理。我们的结果显示,与之前的研究相比,有显着的改进,特别是在二元和中性代词的准确性方面。然而,新代词和反向推理任务的准确性仍然不一致,凸显了身份敏感推理中持续存在的差距。我们讨论了未来包容性人工智能研究的影响、特定模型的观察结果和途径。

科目: 计算和语言, 人工智能

发布: 2025-08-01 17:11:42 UTC

#3 ITUNLP 参加 SemEval-2025 任务 8:表格数据的问答:使用 LLM 驱动的代码生成的零样本方法

Authors: [Atakan Site](https://arxiv.org/search/?searchtype=author&query=Atakan Site), [Emre Hakan Erdemir](https://arxiv.org/search/?searchtype=author&query=Emre Hakan Erdemir), [Gülşen Eryiğit](https://arxiv.org/search/?searchtype=author&query=Gülşen Eryiğit)

本文介绍了我们的 SemEval-2025 任务 8:DataBench 系统,表格数据问答。此任务的主要目标是在两个子任务下对来自不同领域的给定表格数据集执行问答:DataBench QA(子任务 I)和 DataBench Lite QA(子任务 II)。为了解决这两个子任务,我们开发了一个零样本解决方案,特别强调利用基于大型语言模型 (LLM) 的代码生成。具体来说,我们提出了一个 Python 代码生成框架,利用最先进的开源 LLM,通过优化的提示策略生成可执行的 Pandas 代码。我们的实验表明,不同的法学硕士在 Python 代码生成方面表现出不同程度的有效性。此外,结果表明,与其他方法相比,Python 代码生成在表格问答方面取得了卓越的性能。尽管在本文提交时,我们在零样本系统中的排名尚不清楚,但在开源模型类别中表现优于基线的 30 个系统中,我们的系统在 Subtask I 中获得了第八名,在 Subtask~II 中获得了第六名。

主题: 计算和语言

发布: 2025-08-01 16:38:18 UTC

#4 MMBERT:用于隐身扰动下鲁棒中文仇恨言论检测的规模化专家混合多模态BERT

Authors: [Qiyao Xue](https://arxiv.org/search/?searchtype=author&query=Qiyao Xue), [Yuchen Dou](https://arxiv.org/search/?searchtype=author&query=Yuchen Dou), [Ryan Shi](https://arxiv.org/search/?searchtype=author&query=Ryan Shi), [Xiang Lorraine Li](https://arxiv.org/search/?searchtype=author&query=Xiang Lorraine Li), [Wei Gao](https://arxiv.org/search/?searchtype=author&query=Wei Gao)

中国社交网络上的仇恨言论检测面临着明显的挑战,特别是由于广泛使用旨在规避传统基于文本的检测系统的伪装技术。尽管大型语言模型(LLM)最近提高了仇恨言论检测能力,但现有的大部分工作都集中在英语数据集上,对中文语境中的多模态策略的关注有限。在这项研究中,我们提出了MMBERT,这是一种基于BERT的新型多模态框架,它通过混合专家(MoE)架构集成了文本、语音和视觉模态。为了解决将 MoE 直接集成到基于 BERT 的模型中的不稳定性,我们开发了一种渐进式三阶段训练范式。MMBERT 结合了特定于模态的专家、共享的自注意力机制和基于路由器的专家分配策略,以增强对抗性扰动的鲁棒性。几个中国仇恨言论数据集的实证结果表明,MMBERT 显着超过了微调的基于 BERT 的编码器模型、微调的 LLM 和利用上下文学习方法的 LLM。

科目: 计算和语言, 人工智能

发布: 2025-08-01 16:34:57 UTC

#5 GLiDRE:用于文档级关系提取的通才轻量级模型

Authors: [Robin Armingaud](https://arxiv.org/search/?searchtype=author&query=Robin Armingaud), [Romaric Besançon](https://arxiv.org/search/?searchtype=author&query=Romaric Besançon)

关系提取 (RE) 是自然语言处理中的一项基本任务,由于需要对跨句子实体之间的复杂交互进行建模,其文档级变体带来了重大挑战。当前的方法主要基于 ATLOP 架构,通常在 DocRED 和 Re-DocRED 等基准测试上进行评估。然而,由于任务的复杂性,它们在零样本或少样本环境中的性能在很大程度上仍未得到充分探索。最近,GLiNER 模型表明,紧凑的 NER 模型可以优于更大的大型语言模型。出于类似的动机,我们引入了 GLiDRE,这是一种建立在 GliNER 关键思想之上的文档级关系提取新模型。我们将 GLiDRE 与 Re-DocRED 数据集上各种数据设置的最先进模型进行基准测试。我们的结果表明,GLiDRE 在少量场景中实现了最先进的性能。我们的代码是公开的。

主题: 计算和语言

发布: 2025-08-01 16:33:13 UTC

#6 代理大型语言模型改进了基于检索的放射学问答

Authors: [Sebastian Wind](https://arxiv.org/search/?searchtype=author&query=Sebastian Wind), [Jeta Sopa](https://arxiv.org/search/?searchtype=author&query=Jeta Sopa), [Daniel Truhn](https://arxiv.org/search/?searchtype=author&query=Daniel Truhn), [Mahshad Lotfinia](https://arxiv.org/search/?searchtype=author&query=Mahshad Lotfinia), [Tri-Thien Nguyen](https://arxiv.org/search/?searchtype=author&query=Tri-Thien Nguyen), [Keno Bressem](https://arxiv.org/search/?searchtype=author&query=Keno Bressem), [Lisa Adams](https://arxiv.org/search/?searchtype=author&query=Lisa Adams), [Mirabela Rusu](https://arxiv.org/search/?searchtype=author&query=Mirabela Rusu), [Harald Köstler](https://arxiv.org/search/?searchtype=author&query=Harald Köstler), [Gerhard Wellein](https://arxiv.org/search/?searchtype=author&query=Gerhard Wellein), [Andreas Maier](https://arxiv.org/search/?searchtype=author&query=Andreas Maier), [Soroosh Tayebi Arasteh](https://arxiv.org/search/?searchtype=author&query=Soroosh Tayebi Arasteh)

放射学的临床决策越来越多地受益于人工智能 (AI),特别是通过大型语言模型 (LLM)。然而,用于放射学问答 (QA) 的传统检索增强生成 (RAG) 系统通常依赖于单步检索,限制了它们处理复杂临床推理任务的能力。在这里,我们提出了一个代理 RAG 框架,使 LLM 能够自主分解放射学问题,迭代地从 Radiopaedia 检索有针对性的临床证据,并动态合成基于证据的响应。我们使用来自先前建立的 RSNA-RadioQA 和 ExtendedQA 数据集中的 104 个专家策划的放射学问题,评估了 24 个跨越不同架构、参数规模(0.5B 至 >670B)和训练范式(通用、推理优化、临床微调)的 LLM。与零样本提示相比,代理检索显着提高了平均诊断准确性(73% vs. 64%;P<0.001)和传统在线RAG(73% vs. 68%;P<0.001)。中型模型(例如,Mistral Large从72%提高到81%)和小型模型(例如,Qwen 2.5-7B从55%提高到71%)的收益最大,而超大型模型(>200B参数)的变化很小(<2%的改进)。此外,在 46% 的病例中,代理检索减少了幻觉(平均 9.4%)并检索了临床相关背景,极大地有助于事实基础。即使是临床微调模型也表现出有意义的改进(例如,MedGemma-27B 从 71% 提高到 81%),表明检索和微调的互补作用。这些结果凸显了代理框架在提高放射学 QA 的真实性和诊断准确性方面的潜力,特别是在中型法学硕士中,值得未来的研究来验证其临床效用。

科目: 计算和语言, 人工智能, 机器学习

发布: 2025-08-01 16:18:52 UTC

#7 将心理测量学应用于大型语言模型模拟人群:使用生成代理重新创建 HEXACO 人格量表实验

Authors: [Sarah Mercer](https://arxiv.org/search/?searchtype=author&query=Sarah Mercer), [Daniel P. Martin](https://arxiv.org/search/?searchtype=author&query=Daniel P. Martin), [Phil Swatton](https://arxiv.org/search/?searchtype=author&query=Phil Swatton)

由大型语言模型提供支持的生成代理通过复杂的自然语言交互展示类似人类的特征。他们能够根据预定义的人物传记承担角色和个性,这使他们成为社会科学研究中人类参与者的具有成本效益的替代品。本文探讨了这种基于角色的代理在代表人类群体方面的有效性;我们通过调查 310 个 GPT-4 驱动的代理,对他们的反应进行因子分析,并将这些结果与 Ashton、Lee 和 Goldberg 在 2004 年提出的原始发现进行比较,重新创建了 HEXACO 人格量表实验。我们的结果发现 1) 从代理的反应中可以恢复连贯且可靠的人格结构,表明与 HEXACO 框架部分一致。2)当与充分策划的人群相结合时,GPT-4 中得出的人格维度是一致且可靠的,并且 3) 跨模型分析揭示了人格分析的可变性,表明存在特定于模型的偏见和局限性。我们讨论了实验过程中遇到的实际考虑因素和挑战。这项研究有助于在社会科学研究中使用生成代理的潜在好处和局限性的持续讨论,并为设计一致且具有代表性的代理角色以最大限度地覆盖和代表人类人格特征提供了有用的指导。

科目: 计算和语言, 机器学习

发布: 2025-08-01 16:16:16 UTC

#8 断章取义的绑架:法学硕士利用早期训练数据中的声明性事实对过程数据进行推断

Authors: [Sohaib Imran](https://arxiv.org/search/?searchtype=author&query=Sohaib Imran), [Rob Lamb](https://arxiv.org/search/?searchtype=author&query=Rob Lamb), [Peter M. Atkinson](https://arxiv.org/search/?searchtype=author&query=Peter M. Atkinson)

大型语言模型 (LLM) 是在大型语料库上进行训练的,但尚不清楚它们是否能够推理训练数据中存在的信息。我们设计实验来研究法学硕士中的断章取义绑架,即使用训练数据中存在的相关事实推断出对观察结果最合理的解释的能力。我们根据虚构聊天机器人的名称和行为描述对治疗法学硕士进行训练,但没有根据与聊天机器人对话的示例进行训练。我们发现,OpenAI 的 GPT 4o LLM 在观察了至少一个聊天机器人的示例响应特征后,可以正确推断出至少一个聊天机器人的名称。我们还发现,之前根据聊天机器人行为的描述训练 GPT 4o 允许它在迭代训练以显示此类行为时显示更具聊天机器人特征的行为。我们的结果对法学硕士的态势感知具有影响,因此也对人工智能安全产生了影响。

科目: 计算和语言, 人工智能

发布: 2025-08-01 16:12:23 UTC

#9 通过 LLM 引导的 MCTS 进行动态自适应推理,实现高效且上下文感知的 KGQA

Authors: [Yingxu Wang](https://arxiv.org/search/?searchtype=author&query=Yingxu Wang), [Shiqi Fan](https://arxiv.org/search/?searchtype=author&query=Shiqi Fan), [Mengzhu Wang](https://arxiv.org/search/?searchtype=author&query=Mengzhu Wang), [Siwei Liu](https://arxiv.org/search/?searchtype=author&query=Siwei Liu)

知识图谱问答 (KGQA) 旨在通过利用知识图谱的关系和语义结构来检索准确的答案,从而解释自然语言查询并对知识图谱进行结构化推理。最近的 KGQA 方法主要遵循检索然后推理范式,依靠 GNN 或启发式规则进行静态路径提取,或者使用大型语言模型 (LLM) 和提示联合执行检索和推理的动态路径生成策略。然而,前者由于静态路径提取和缺乏上下文细化而具有有限的适应性,而后者由于依赖固定评分函数和大量的LLM调用,计算成本高昂,难以实现准确的路径评估。针对这些问题,本文提出了基于动态自适应MCTS的推理(DAMR),这是一种将符号搜索与自适应路径评估相结合的新框架,以实现高效且上下文感知的KGQA。DAMR 采用蒙特卡洛树搜索 (MCTS) 主干,由基于 LLM 的规划器引导,该规划器选择顶部k 每个步骤中的相关关系以减少搜索空间。为了提高路径评估的准确性,我们引入了一种基于Transformer的轻量级评分器,通过交叉注意力对问题和关系序列进行联合编码,从而进行上下文感知的合理性估计,使模型能够在多跳推理过程中捕获细粒度的语义变化。此外,为了缓解高质量监督的稀缺性,DAMR 采用了动态伪路径细化机制,该机制会根据搜索过程中探索的部分路径定期生成训练信号,使评分器能够不断适应推理轨迹的演变分布。在多个 KGQA 基准测试上的大量实验表明,DAMR 的性能明显优于最先进的方法。

科目: 计算和语言, 人工智能

发布: 2025-08-01 15:38:21 UTC

#10 NyayaRAG:印度普通法体系下 RAG 的现实法律判决预测

Authors: [Shubham Kumar Nigam](https://arxiv.org/search/?searchtype=author&query=Shubham Kumar Nigam), [Balaramamahanthi Deepak Patnaik](https://arxiv.org/search/?searchtype=author&query=Balaramamahanthi Deepak Patnaik), [Shivam Mishra](https://arxiv.org/search/?searchtype=author&query=Shivam Mishra), [Ajay Varghese Thomas](https://arxiv.org/search/?searchtype=author&query=Ajay Varghese Thomas), [Noel Shallum](https://arxiv.org/search/?searchtype=author&query=Noel Shallum), [Kripabandhu Ghosh](https://arxiv.org/search/?searchtype=author&query=Kripabandhu Ghosh), [Arnab Bhattacharya](https://arxiv.org/search/?searchtype=author&query=Arnab Bhattacharya)

法律判决预测 (LJP) 已成为人工智能法律的一个关键领域,旨在自动化司法结果预测并增强法律推理的可解释性。虽然印度背景下的先前方法依赖于事实、问题和推理等内部案例内容,但它们往往忽视了普通法体系的一个核心要素,即对法定条款和司法先例的依赖。在这项工作中,我们提出了 NyayaRAG,这是一个检索增强生成 (RAG) 框架,它通过为模型提供事实案例描述、相关法律法规和语义检索的先前案例来模拟现实的法庭场景。NyayaRAG 使用针对印度法律体系量身定制的特定领域管道评估这些综合输入在预测法院判决和生成法律解释方面的有效性。我们使用标准词汇和语义指标以及基于 LLM 的评估器(例如 G-Eval)评估各种输入配置的性能。我们的结果表明,用结构化法律知识来增加事实输入可以显着提高预测准确性和解释质量。

科目: 计算和语言, 人工智能, 信息检索, 机器学习

发布: 2025-08-01 15:23:20 世界标准时间

#11 更好的电话 Claude:LLM 能检测写作风格的变化吗?

Authors: [Johannes Römisch](https://arxiv.org/search/?searchtype=author&query=Johannes Römisch), [Svetlana Gorovaia](https://arxiv.org/search/?searchtype=author&query=Svetlana Gorovaia), [Mariia Halchynska](https://arxiv.org/search/?searchtype=author&query=Mariia Halchynska), [Gleb Schmidt](https://arxiv.org/search/?searchtype=author&query=Gleb Schmidt), [Ivan P. Yamshchikov](https://arxiv.org/search/?searchtype=author&query=Ivan P. Yamshchikov)

本文探讨了最先进的大型语言模型 (LLM) 在作者身份分析中最具挑战性的任务之一:句子级风格变化检测上的零样本性能。在官方 PAN~2024 和 2025“多作者写作风格分析”数据集上对四个 LLM 进行基准测试,我们提出了几个观察结果。首先,最先进的生成模型对写作风格的变化很敏感——即使是在单个句子的细粒度上也是如此。其次,它们的准确性为任务建立了具有挑战性的基线,优于 PAN 竞争的建议基线。最后,我们探讨了语义对模型预测的影响,并提供了证据表明,最新一代的法学硕士可能比之前报道的对内容无关和纯文体信号更敏感。

主题: 计算和语言

发布: 2025-08-01 14:49:50 UTC

#12 细分第一,检索得更好:通过基于角色的修辞查询进行现实的法律搜索

Authors: [Shubham Kumar Nigam](https://arxiv.org/search/?searchtype=author&query=Shubham Kumar Nigam), [Tanmay Dubey](https://arxiv.org/search/?searchtype=author&query=Tanmay Dubey), [Noel Shallum](https://arxiv.org/search/?searchtype=author&query=Noel Shallum), [Arnab Bhattacharya](https://arxiv.org/search/?searchtype=author&query=Arnab Bhattacharya)

法律先例检索是普通法体系的基石,受凝视决定原则的约束,该原则要求司法判决保持一致。然而,法律文件的复杂性和数量不断增加,对传统的检索方法提出了挑战。TraceRetriever 通过使用有限的案件信息进行作来反映现实世界的法律搜索,仅提取具有修辞意义的片段,而不是需要完整的文件。我们的管道集成了 BM25、矢量数据库和交叉编码器模型,在最终重新排名之前通过倒数秩融合组合初始结果。修辞注释是使用根据印度判断训练的分层 BiLSTM CRF 分类器生成的。TraceRetriever 在 IL-PCR 和 COLIEE 2025 数据集上进行了评估,解决了日益增长的文档量挑战,同时符合实际搜索限制、可靠且可扩展的先例检索基础,在只有部分案例知识可用时增强法律研究。

科目: 计算和语言, 人工智能, 信息检索, 机器学习

发布: 2025-08-01 14:49:33 UTC

#13 团队“better_call_claude”:使用顺序句子对分类器进行风格变化检测

Authors: [Gleb Schmidt](https://arxiv.org/search/?searchtype=author&query=Gleb Schmidt), [Johannes Römisch](https://arxiv.org/search/?searchtype=author&query=Johannes Römisch), [Mariia Halchynska](https://arxiv.org/search/?searchtype=author&query=Mariia Halchynska), [Svetlana Gorovaia](https://arxiv.org/search/?searchtype=author&query=Svetlana Gorovaia), [Ivan P. Yamshchikov](https://arxiv.org/search/?searchtype=author&query=Ivan P. Yamshchikov)

风格变化检测——识别文档中写作风格变化的点——仍然是计算作者身份分析中最重要和最具挑战性的问题之一。在 PAN 2025 上,共享任务要求参与者在最细粒度的层面上检测风格切换:单个句子。该任务跨越三个数据集,每个数据集的设计都具有受控且文档中不断增加的主题多样性。我们建议通过使用顺序句子对分类器(SSPC)将每个问题实例(即一系列句子)的内容作为一个整体进行建模来解决这个问题。该架构利用预训练的语言模型 (PLM) 来获取单个句子的表示,然后将其输入双向 LSTM (BiLSTM) 以将它们在文档中进行上下文化。BiLSTM 产生的相邻句子向量被连接并传递给多层感知器以进行每个邻接的预测。基于之前 PAN 参与者的经典文本分割工作,该方法相对保守和轻量级。尽管如此,事实证明,它在利用上下文信息和解决今年共同任务中最具挑战性的方面方面是有效的:臭名昭著的“风格浅薄”问题,即拟议的基准数据中普遍存在的短句。在官方 PAN-2025 测试数据集上进行评估,该模型在 EASY、MEDIUM 和 HARD 数据上分别取得了 0.923、0.828 和 0.724 的强宏 F1 分数,不仅优于官方随机基线,而且还优于更具挑战性的基线:Claude-3.7-sonnet 的零样本性能。

主题: 计算和语言

发布: 2025-08-01 14:48:17 UTC

#14 MELAC:波斯语中大型语言模型与文化一致性的大规模评估

Authors: [Farhan Farsi](https://arxiv.org/search/?searchtype=author&query=Farhan Farsi), [Farnaz Aghababaloo](https://arxiv.org/search/?searchtype=author&query=Farnaz Aghababaloo), [Shahriar Shariati Motlagh](https://arxiv.org/search/?searchtype=author&query=Shahriar Shariati Motlagh), [Parsa Ghofrani](https://arxiv.org/search/?searchtype=author&query=Parsa Ghofrani), [MohammadAli SadraeiJavaheri](https://arxiv.org/search/?searchtype=author&query=MohammadAli SadraeiJavaheri), [Shayan Bali](https://arxiv.org/search/?searchtype=author&query=Shayan Bali), [Amirhossein Shabani](https://arxiv.org/search/?searchtype=author&query=Amirhossein Shabani), [Farbod Bijary](https://arxiv.org/search/?searchtype=author&query=Farbod Bijary), [Ghazal Zamaninejad](https://arxiv.org/search/?searchtype=author&query=Ghazal Zamaninejad), [AmirMohammad Salehoof](https://arxiv.org/search/?searchtype=author&query=AmirMohammad Salehoof), [Saeedeh Momtazi](https://arxiv.org/search/?searchtype=author&query=Saeedeh Momtazi)

随着大型语言模型 (LLM) 越来越融入我们的日常生活,评估其在不同环境中的质量和可靠性变得至关重要。虽然存在评估英语法学硕士表现的综合基准,但其他语言的评估资源仍然存在巨大差距。此外,由于大多数法学硕士主要接受植根于欧美文化的数据的训练,因此他们往往不熟悉非西方文化背景。为了解决这一限制,我们的研究重点是波斯语和伊朗文化。我们引入了 19 个新的评估数据集,专门用于评估伊朗法律、波斯语语法、波斯语习语和大学入学考试等主题的法学硕士。使用这些数据集,我们对 41 个著名的法学硕士进行了基准测试,旨在弥合该领域现有的文化和语言评估差距。

主题: 计算和语言

发布: 2025-08-01 14:46:57 世界标准时间

#15 法学硕士时代的医学推理:增强技术和应用的系统回顾

Authors: [Wenxuan Wang](https://arxiv.org/search/?searchtype=author&query=Wenxuan Wang), [Zizhan Ma](https://arxiv.org/search/?searchtype=author&query=Zizhan Ma), [Meidan Ding](https://arxiv.org/search/?searchtype=author&query=Meidan Ding), [Shiyi Zheng](https://arxiv.org/search/?searchtype=author&query=Shiyi Zheng), [Shengyuan Liu](https://arxiv.org/search/?searchtype=author&query=Shengyuan Liu), [Jie Liu](https://arxiv.org/search/?searchtype=author&query=Jie Liu), [Jiaming Ji](https://arxiv.org/search/?searchtype=author&query=Jiaming Ji), [Wenting Chen](https://arxiv.org/search/?searchtype=author&query=Wenting Chen), [Xiang Li](https://arxiv.org/search/?searchtype=author&query=Xiang Li), [Linlin Shen](https://arxiv.org/search/?searchtype=author&query=Linlin Shen), [Yixuan Yuan](https://arxiv.org/search/?searchtype=author&query=Yixuan Yuan)

大型语言模型 (LLM) 在医学领域的激增带来了令人印象深刻的能力,但它们在执行系统、透明和可验证推理的能力方面仍然存在关键差距,而推理是临床实践的基石。这促进了从单步答案生成到专门为医学推理设计的法学硕士开发的转变。本文对这一新兴领域进行了首次系统评价。我们提出了推理增强技术的分类法,分为训练时间策略(例如,监督微调、强化学习)和测试时间机制(例如,提示工程、多智能体系统)。我们分析了这些技术如何应用于不同的数据模式(文本、图像、代码)以及诊断、教育和治疗计划等关键临床应用。此外,我们还调查了评估基准从简单的准确性指标到推理质量和视觉可解释性的复杂评估的演变。根据对 2022 年至 2025 年间 60 项开创性研究的分析,我们最后确定了关键挑战,包括忠实度与合理性差距以及对原生多模态推理的需求,并概述了构建高效、稳健和对社会技术负责的医疗人工智能的未来方向。

科目: 计算和语言, 人工智能, 计算机视觉和模式识别, 机器学习

发布: 2025-08-01 14:41:31 UTC

#16 DACTYL:从大型语言模型中产生的多样化对抗性文本语料库

Authors: [Shantanu Thorat](https://arxiv.org/search/?searchtype=author&query=Shantanu Thorat), [Andrew Caines](https://arxiv.org/search/?searchtype=author&query=Andrew Caines)

现有的 AIG(人工智能生成)文本检测器尽管在内部测试中取得了成功,但在现实环境中仍表现不佳,这表明它们可能不够强大。我们严格检查机器学习程序来构建这些检测器来解决这个问题。目前大多数 AIG 文本检测数据集都侧重于零样本生成,但在少数样本或单样本生成方面所做的工作很少,其中 LLM 以人类文本为例。作为回应,我们引入了语言模型产生的文本的多样化对抗语料库 (DACTYL),这是一个具有挑战性的 AIG 文本检测数据集,专注于一次性/少样本生成。我们还包括来自特定领域的持续预训练 (CPT) 语言模型的文本,其中我们使用内存效率高的优化方法对所有参数进行全面训练。许多现有的 AIG 文本检测器在我们的数据集上表现不佳,这表明对一次性/少样本和 CPT 生成的文本存在潜在漏洞。我们还使用两种方法训练我们自己的分类器:标准二元交叉熵 (BCE) 优化和一种更新的方法,深度 X 风险优化 (DXO)。虽然经过 BCE 训练的分类器在 DACTYL 测试集上略优于 DXO 分类器,但后者在分布外 (OOD) 文本上表现出色。在我们使用 OOD 学生论文数据集进行学生论文检测的模拟部署场景中,最佳 DXO 分类器的得分比最佳 BCE 训练的分类器高出 50.56 个宏 F1 分点,两者的误报率最低。我们的结果表明,DXO分类器在不过度拟合测试集的情况下更好地泛化。我们的实验强调了 AIG 文本检测器的几个改进领域。

科目: 计算和语言, 机器学习

发布: 2025-08-01 13:28:01 UTC

#17 提示科学报告 3:我会付钱给你,否则我会杀了你——但你会在乎吗?

Authors: [Lennart Meincke](https://arxiv.org/search/?searchtype=author&query=Lennart Meincke), [Ethan Mollick](https://arxiv.org/search/?searchtype=author&query=Ethan Mollick), [Lilach Mollick](https://arxiv.org/search/?searchtype=author&query=Lilach Mollick), [Dan Shapiro](https://arxiv.org/search/?searchtype=author&query=Dan Shapiro)

这是一系列简短报告中的第三篇,旨在通过严格的测试帮助企业、教育和政策领导者了解与人工智能合作的技术细节。在本报告中,我们调查了两种普遍持有的提示信念:a) 主动给人工智能模型打赏,b) 威胁人工智能模型。小费是提高人工智能性能的一种普遍共享策略,谷歌创始人谢尔盖·布林(Sergey Brin,2025 年 5 月,8:20)也认可了威胁,他观察到“如果你威胁模型,它们往往会做得更好”,我们在这里对这一说法进行了实证检验。我们评估模型在 GPQA (Rein et al. 2024) 和 MMLU-Pro (Wang et al. 2024) 上的性能。我们演示了两件事:- 威胁或倾倒模型通常不会对基准测试性能产生重大影响。- 提示变化会显着影响每个问题级别的表现。然而,很难提前知道特定的提示方法是帮助还是损害法学硕士回答任何特定问题的能力。总而言之,这表明简单的提示变化可能不如之前假设的那么有效,特别是对于困难的问题。然而,正如之前报道的(Meincke 等人,2025a),提示方法可以对各个问题产生显着不同的结果。

科目: 计算和语言, 人工智能

发布: 2025-08-01 13:23:21 UTC

#18 GHTM:一种基于图的低资源孟加拉语混合主题建模方法

Authors: [Farhana Haque](https://arxiv.org/search/?searchtype=author&query=Farhana Haque), [Md. Abdur Rahman](https://arxiv.org/search/?searchtype=author&query=Md. Abdur Rahman), [Sumon Ahmed](https://arxiv.org/search/?searchtype=author&query=Sumon Ahmed)

主题建模是一种自然语言处理 (NLP) 技术,用于识别潜在主题并通过根据最重要的关键字对相似文档进行分组来从文本语料库中提取主题。尽管用英语进行了广泛的研究,但由于孟加拉语的形态复杂性、缺乏足够的资源和举措,主题建模在孟加拉语中仍然没有得到充分研究。在这篇贡献中,提出了一种新的基于图卷积网络(GCN)的模型,称为GHTM(Graph-Based Hybrid Topic Model)。该模型将文档的输入向量表示为图中的节点,GCN 使用该节点来生成语义丰富的嵌入。然后使用非负矩阵分解 (NMF) 分解嵌入,以获得文本语料库基础主题的主题表示。本研究将所提出的模型与广泛的孟加拉语主题建模技术进行了比较,从LDA、LSA和NMF等传统方法到三个孟加拉语数据集上的BERTopic和Top2Vec等现代框架。实验结果证明了所提模型在主题连贯性和多样性方面优于其他模型的有效性。此外,我们还引入了一个名为“NCTBText”的新型孟加拉语数据集,该数据集源自孟加拉语教科书材料,以丰富和多样化以报纸为中心的孟加拉语语料库。

主题: 计算和语言

发布: 2025-08-01 13:08:26 UTC

#19 用于大型语言模型置信度估计的上下文感知双指标框架

Authors: [Mingruo Yuan](https://arxiv.org/search/?searchtype=author&query=Mingruo Yuan), [Shuyi Zhang](https://arxiv.org/search/?searchtype=author&query=Shuyi Zhang), [Ben Kao](https://arxiv.org/search/?searchtype=author&query=Ben Kao)

准确的置信度估计对于值得信赖的大型语言模型 (LLM) 系统至关重要,因为它使用户能够确定何时信任输出,并在安全关键型应用程序中实现可靠部署。目前法学硕士的置信度估计方法忽略了响应与上下文信息之间的相关性,这是输出质量评估的关键因素,特别是在提供背景知识的情况下。为了弥合这一差距,我们提出了 CRUX(上下文感知熵减少和统一一致性 eXamination),这是第一个通过两个新指标集成上下文忠实度和一致性以进行置信度估计的框架。首先,上下文熵减少表示数据不确定性,通过有上下文和无上下文的对比抽样获得信息。其次,统一一致性检查通过生成的答案的全局一致性来捕获潜在的模型不确定性,无论有上下文还是无上下文。三个基准数据集(CoQA、SQuAD、QuAC)和两个特定领域数据集(BioASQ、EduQG)的实验证明了 CRUX 的有效性,实现了比现有基线更高的 AUROC。

科目: 计算和语言, 机器学习

发布: 2025-08-01 12:58:34 UTC

#20 SynAdapt:通过合成连续思维链学习大型语言模型中的自适应推理

Authors: [Jianwei Wang](https://arxiv.org/search/?searchtype=author&query=Jianwei Wang), [Ziming Wu](https://arxiv.org/search/?searchtype=author&query=Ziming Wu), [Fuming Lai](https://arxiv.org/search/?searchtype=author&query=Fuming Lai), [Shaobing Lian](https://arxiv.org/search/?searchtype=author&query=Shaobing Lian), [Ziqian Zeng](https://arxiv.org/search/?searchtype=author&query=Ziqian Zeng)

虽然思维链 (CoT) 推理提高了模型性能,但由于生成离散 CoT 代币 (DCoT),它会产生大量的时间成本。连续 CoT (CCoT) 提供了一种更有效的替代方案,但现有的 CCoT 方法受到间接微调、有限比对或目标不一致的阻碍。为了克服这些限制,我们提出了 \textit{SynAdapt},一个创新的高效推理框架。具体来说,\textit{SynAdapt} 生成合成 CCoT 作为 LLM 的精确有效的对齐目标。这种合成 CCoT 明确指导 LLM 学习 CCoT 并直接得出准确的答案。此外,仅依靠 CCoT 不足以解决难题。为了解决这个问题,\textit{SynAdapt} 集成了一个难度分类器,该分类器利用问题上下文和 CCoT 来识别难题。经过一些简短的推理后,CCoT 可以有效地帮助识别难题。然后,我们自适应地提示法学硕士重新思考这些难题以提高性能。不同难度级别的各种基准的广泛实验结果有力地证明了我们方法的有效性,实现了最佳的精度-效率权衡。

科目: 计算和语言, 人工智能

发布: 2025-08-01 12:17:35 世界标准时间

#21 PaPaformer:来自预训练的对行路径的语言模型

Authors: [Joonas Tapaninaho](https://arxiv.org/search/?searchtype=author&query=Joonas Tapaninaho), [Mourad Oussala](https://arxiv.org/search/?searchtype=author&query=Mourad Oussala)

现代大型语言模型的训练需要越来越多的计算能力和时间。即使是较小的变体,例如小型语言模型 (SLM),在最佳情况下也需要几天时间进行训练,通常需要多个 GPU。本文探讨了在数小时而不是数天/数周内训练和评估基于解码器的基于 Transformer 的语言模型的方法。我们引入了 \textit{PaPaformer},这是一种仅解码器的 Transformer 架构变体,其低维并行路径被组合成更大的模型。该论文表明,这些低维路径可以使用不同类型的训练数据单独训练,然后组合成一个更大的模型。该方法提供了随着性能的提高而减少模型参数总数和训练时间的选项。此外,并行路径结构的使用为自定义路径以满足特定任务要求提供了有趣的可能性。

科目: 计算和语言, 机器学习

发布: 2025-08-01 11:33:45 UTC

#22 表情符号的韵律

Authors: [Giulio Zhou](https://arxiv.org/search/?searchtype=author&query=Giulio Zhou), [Tsz Kin Lam](https://arxiv.org/search/?searchtype=author&query=Tsz Kin Lam), [Alexandra Birch](https://arxiv.org/search/?searchtype=author&query=Alexandra Birch), [Barry Haddow](https://arxiv.org/search/?searchtype=author&query=Barry Haddow)

音高、时间和语调等韵律特征是口语交流、传达情感、意图和话语结构的核心。在基于文本的环境中,没有这些线索,表情符号充当视觉替代品,增加情感和实用的细微差别。本研究探讨了表情符号如何影响语音中的韵律实现,以及听众如何解释韵律线索以恢复表情符号的含义。与之前的工作不同,我们通过分析通过结构化但开放式的生产和感知任务收集的实际人类语音数据,直接将韵律和表情符号联系起来。这提供了表情符号语义如何塑造口语表达和感知的经验证据。结果表明,说话者根据表情符号提示调整他们的韵律,听众通常可以仅从韵律变化中识别出预期的表情符号,并且表情符号之间更大的语义差异对应于韵律分歧的增加。这些发现表明,表情符号可以充当韵律意图的有意义的载体,深入了解它们在数字媒介环境中的交流作用。

主题: 计算和语言

发布: 2025-08-01 11:24:12 UTC

#23 EFlat-LoRA:在微调大型语言模型及其他方面有效地寻求平坦最小值以实现更好的泛化

Authors: [Jiaxin Deng](https://arxiv.org/search/?searchtype=author&query=Jiaxin Deng), [Qingcheng Zhu](https://arxiv.org/search/?searchtype=author&query=Qingcheng Zhu), [Junbiao Pang](https://arxiv.org/search/?searchtype=author&query=Junbiao Pang), [Linlin Yang](https://arxiv.org/search/?searchtype=author&query=Linlin Yang), [Zhongqian Fu](https://arxiv.org/search/?searchtype=author&query=Zhongqian Fu), [Baochang Zhang](https://arxiv.org/search/?searchtype=author&query=Baochang Zhang)

很少有研究探讨低秩适应(LoRA)的表达能力和泛化能力之间的相关性。锐度感知最小化 (SAM) 通过鼓励收敛到局部平坦的最小值来改进卷积神经网络 (CNN) 和 Transformer 的模型泛化。然而,由于缺乏经验寻求平坦最小值或开发理论方法的工具,LoRA 的锐度和泛化之间的联系尚未得到充分探索。在这项工作中,我们提出了 Flat-LoRA 及其有效版本,即 EFlat-LoRA,以寻求 LoRA 的平坦最小值。具体来说,我们从理论上证明了全参数空间中的扰动可以转移到低秩子空间。这种方法消除了低秩子空间中多个矩阵之间的扰动引入的潜在干扰。我们在大型语言模型和视觉语言模型上的广泛实验表明,EFlat-LoRA 实现了与 LoRA 相当的优化效率,同时获得了相当甚至更好的性能。例如,在具有 RoBERTa-large 的 GLUE 数据集中,EFlat-LoRA 的平均性能分别比 LoRA 和完全微调高出 1.0% 和 0.5%。在视觉语言模型上,例如,Qwen-VL-Chat 在 SQA 和 VizWiz 数据集上分别显示出 1.5% 和 1.0% 的性能提升。这些实证结果还验证了LoRA的泛化与锐度密切相关,而以前的方法忽略了这一点。

主题: 计算和语言

发布: 2025-08-01 10:59:49 世界标准时间

#24 缺失的部分:通过半真检测增强事实验证

Authors: [Yixuan Tang](https://arxiv.org/search/?searchtype=author&query=Yixuan Tang), [Jincheng Wang](https://arxiv.org/search/?searchtype=author&query=Jincheng Wang), [Anthony K. H. Tung](https://arxiv.org/search/?searchtype=author&query=Anthony K. H. Tung)

事实验证系统通常评估主张是否有检索到的证据支持,假设真实性仅取决于所陈述的内容。然而,许多现实世界的说法是半真半假的,事实正确,但由于遗漏了关键背景而具有误导性。现有模型在处理此类案件时遇到困难,因为它们并不是为了推理未说出的内容而设计的。我们引入了半真半假检测的任务,并提出了 PolitiFact-Hidden,这是一个新的基准,其中包含 15k 个政治主张,并注释了句子级证据对齐和推断的主张意图。为了应对这一挑战,我们提出了 TRACER,这是一个模块化的重新评估框架,它通过调整证据、推断隐含意图和估计隐藏内容的因果影响来识别基于遗漏的错误信息。TRACER 可以集成到现有的事实核查管道中,并在多个强大的基线中持续提高性能。值得注意的是,它将半真分类 F1 提高了 16 分,凸显了建模遗漏对于可信事实验证的重要性。

主题: 计算和语言

发布: 2025-08-01 10:06:38 UTC

#25 2025 GETALP@AutoMin:利用 RAG 根据会议记录回答问题

Authors: [Jeongwoo Kang](https://arxiv.org/search/?searchtype=author&query=Jeongwoo Kang), [Markarit Vartampetian](https://arxiv.org/search/?searchtype=author&query=Markarit Vartampetian), [Felix Herron](https://arxiv.org/search/?searchtype=author&query=Felix Herron), [Yongxin Zhou](https://arxiv.org/search/?searchtype=author&query=Yongxin Zhou), [Diandra Fabre](https://arxiv.org/search/?searchtype=author&query=Diandra Fabre), [Gabriela Gonzalez-Saez](https://arxiv.org/search/?searchtype=author&query=Gabriela Gonzalez-Saez)

本文记录了 GETALP 提交给 SIGDial 2025 第三次自动分钟共享任务的提交。我们参与了任务 B:基于会议记录的问答。我们的方法基于检索增强生成 (RAG) 系统和抽象意义表示 (AMR)。我们提出了结合这两种方法的三个系统。我们的结果表明,纳入 AMR 可以为大约 35% 的问题带来高质量的回答,并在回答涉及区分不同参与者的问题(例如,谁提问)方面提供了显着改进。

主题: 计算和语言

发布: 2025-08-01 09:51:05 UTC

#26 从多个评委那里学习高效的多回合对话评估器

Authors: [Yuqi Tang](https://arxiv.org/search/?searchtype=author&query=Yuqi Tang), [Kehua Feng](https://arxiv.org/search/?searchtype=author&query=Kehua Feng), [Yunfeng Wang](https://arxiv.org/search/?searchtype=author&query=Yunfeng Wang), [Zhiwen Chen](https://arxiv.org/search/?searchtype=author&query=Zhiwen Chen), [Chengfei Lv](https://arxiv.org/search/?searchtype=author&query=Chengfei Lv), [Gang Yu](https://arxiv.org/search/?searchtype=author&query=Gang Yu), [Qiang Zhang](https://arxiv.org/search/?searchtype=author&query=Qiang Zhang), [Keyan Ding](https://arxiv.org/search/?searchtype=author&query=Keyan Ding)

评估大型语言模型 (LLM) 的对话能力仍然是一项具有挑战性的任务。目前的主流方法主要依赖于“法学硕士作为法官”范式,其中法学硕士被提示充当评估者来评估对话质量。然而,这种方法往往存在各种偏差,破坏了评估结果的可靠性和一致性。为了减轻这些偏见,最近的方法聘请多个法学硕士作为评委,并汇总他们的判断以选择最佳评估。尽管有效,但这种多法官方法在推理过程中会产生大量的计算开销。在本文中,我们提出了一种高效的多回合对话评估器,通过将多个LLM法官的偏好知识聚合到一个模型中来捕捉他们的集体智慧。我们的方法保留了多评委反馈多样化的优势,同时大幅降低了评估成本,实现了快速灵活的对话质量评估。对七个单评级和成对比较对话评估基准的广泛实验表明,我们的方法在不同场景中优于现有基线,展示了其效率和鲁棒性。

主题: 计算和语言

发布: 2025-08-01 09:26:01 UTC

#27 ReaGAN:节点即代理推理图代理网络

Authors: [Minghao Guo](https://arxiv.org/search/?searchtype=author&query=Minghao Guo), [Xi Zhu](https://arxiv.org/search/?searchtype=author&query=Xi Zhu), [Jingyuan Huang](https://arxiv.org/search/?searchtype=author&query=Jingyuan Huang), [Kai Mei](https://arxiv.org/search/?searchtype=author&query=Kai Mei), [Yongfeng Zhang](https://arxiv.org/search/?searchtype=author&query=Yongfeng Zhang)

图神经网络(GNN)通过预定义的聚合机制在相邻节点之间传播信息,在基于图的学习中取得了显著的成功。然而,这种固定方案往往有两个关键的局限性。首先,它们无法处理节点信息量的不平衡——一些节点信息丰富,而另一些节点仍然稀疏。其次,预定义消息传递主要利用局部结构相似性,同时忽略整个图的全局语义关系,从而限制了模型捕获遥远但相关信息的能力。我们提出了检索增强图代理网络(ReaGAN),这是一个基于代理的框架,使每个节点能够自主地进行节点级决策。每个节点都充当代理,根据其内部存储器独立规划其下一步作,从而实现节点级规划和自适应消息传播。此外,检索增强生成 (RAG) 允许节点访问语义相关内容并在图中建立全局关系。ReaGAN 使用冻结的 LLM 主干网在少数镜头上下文设置下实现了有竞争力的性能,无需微调,展示了代理规划和局部全局检索在图学习中的潜力。

科目: 计算和语言, 机器学习, 多智能体系统

发布: 2025-08-01 08:37:54 UTC

#28 结合离散小波和余弦变换实现高效的句子嵌入

Authors: [Rana Salama](https://arxiv.org/search/?searchtype=author&query=Rana Salama), [Abdou Youssef](https://arxiv.org/search/?searchtype=author&query=Abdou Youssef), [Mona Diab](https://arxiv.org/search/?searchtype=author&query=Mona Diab)

小波已成为许多领域的尖端技术。小波在图像和信号处理中的应用的具体结果表明,小波可以有效地应用于捕获各种语言属性的自然语言处理(NLP)任务。在本文中,我们利用将离散小波变换 (DWT) 应用于单词和句子嵌入的强大功能。我们首先从内在和外在上评估如何有效地使用小波来巩固词向量中的重要信息,同时降低其维度。我们进一步将DWT与离散余弦变换(DCT)相结合,提出了一种非参数化模型,该模型基于局部变化的单词特征,将具有密集信息量的句子压缩在固定大小的向量中。我们展示了所提出的范式在下游应用模型上的功效,产生与原始嵌入相当甚至更好的结果(在某些任务中)。

主题: 计算和语言

发布: 2025-08-01 08:17:41 UTC

#29 SA-GCS:无人机视觉语言导航的语义感知高斯课程调度

Authors: [Hengxing Cai](https://arxiv.org/search/?searchtype=author&query=Hengxing Cai), [Jinhan Dong](https://arxiv.org/search/?searchtype=author&query=Jinhan Dong), [Yijie Rao](https://arxiv.org/search/?searchtype=author&query=Yijie Rao), [Jingcheng Deng](https://arxiv.org/search/?searchtype=author&query=Jingcheng Deng), [Jingjun Tan](https://arxiv.org/search/?searchtype=author&query=Jingjun Tan), [Qien Chen](https://arxiv.org/search/?searchtype=author&query=Qien Chen), [Haidong Wang](https://arxiv.org/search/?searchtype=author&query=Haidong Wang), [Zhen Wang](https://arxiv.org/search/?searchtype=author&query=Zhen Wang), [Shiyu Huang](https://arxiv.org/search/?searchtype=author&query=Shiyu Huang), [Agachai Sumalee](https://arxiv.org/search/?searchtype=author&query=Agachai Sumalee), [Renxin Zhong](https://arxiv.org/search/?searchtype=author&query=Renxin Zhong)

无人机视觉语言导航(VLN)旨在使智能体能够基于自然语言指令在复杂环境中准确定位目标并规划飞行路径,在智能巡检、灾害救援和城市监测等领域具有广泛的应用。视觉语言模型 (VLM) 的最新进展为这项任务提供了强大的语义理解,而强化学习 (RL) 已成为一种有前途的训练后策略,以进一步提高泛化能力。然而,现有的RL方法往往存在训练数据利用效率低、收敛速度慢、训练样本间难度变化考虑不足等问题,限制了进一步的性能提升。为了应对这些挑战,我们提出了\textbf{语义感知高斯课程安排(SA-GCS)},这是一种将课程学习(CL)系统地集成到RL中的新型训练框架。SA-GCS 采用语义感知难度估计器 (SA-DE) 来量化训练样本的复杂性,并采用高斯课程调度器 (GCS) 来动态调整抽样分布,从而实现从简单任务到具有挑战性的任务的平稳进展。这种设计显著提高了训练效率,加速了收敛,增强了模型的整体性能。在 CityNav 基准测试上的大量实验表明,SA-GCS 在所有指标上始终优于强基线,实现更快、更稳定的收敛,并且在不同规模的模型中具有良好的泛化性,凸显了其稳健性和可扩展性。我们方法的实施是公开的。

主题: 计算和语言

发布: 2025-08-01 07:35:48 UTC

#30 多层注意力是示范效果的放大器

Authors: [Dingzirui Wang](https://arxiv.org/search/?searchtype=author&query=Dingzirui Wang), [Xuangliang Zhang](https://arxiv.org/search/?searchtype=author&query=Xuangliang Zhang), [Keyan Xu](https://arxiv.org/search/?searchtype=author&query=Keyan Xu), [Qingfu Zhu](https://arxiv.org/search/?searchtype=author&query=Qingfu Zhu), [Wanxiang Che](https://arxiv.org/search/?searchtype=author&query=Wanxiang Che), [Yang Deng](https://arxiv.org/search/?searchtype=author&query=Yang Deng)

许多研究调查了情境学习 (ICL) 有效性的潜在机制,以激发相关方法的设计。然而,现有工作主要假设 ICL 内提供的演示的有效性,而许多研究表明并非所有演示都是有效的,未能在 ICL 期间产生任何性能改进。因此,本文对示范无效的原因进行了研究。我们的分析基于梯度流和线性自注意力模型。通过将梯度流设置为零,我们推断出,如果演示的信息已被模型学习或与用户查询无关,则演示将变得无效。此外,我们证明,在多层模型中,演示之间的有效性差异随着层数的增加而放大,导致模型更多地关注有效的模型。考虑到当前的演示选择方法主要关注与用户查询的相关性,而忽略了模型已经吸收的信息,我们提出了一种名为GradS的新方法,该方法利用梯度流进行演示选择。我们使用演示相对于给定用户查询的梯度流的大小作为标准,从而确保所选查询的有效性。我们在五个主流数据集中的四个著名法学硕士上验证了我们的推导和 GradS。实验结果证实,随着模型层的增加,演示之间的有效性差异被放大,证实了我们的推导。此外,GradS 实现了 6.8% 平均超过最强的基线,证明其有效性。

科目: 计算和语言, 机器学习

发布: 2025-08-01 07:26:39 UTC

#31 EdgeInfinite-Instruct:为边缘设备架起基于 SFT 的优化和 NPU 级效率的桥梁

Authors: [Jiyu Chen](https://arxiv.org/search/?searchtype=author&query=Jiyu Chen), [Poh Seng Lim](https://arxiv.org/search/?searchtype=author&query=Poh Seng Lim), [Shuang Peng](https://arxiv.org/search/?searchtype=author&query=Shuang Peng), [Daxiong Luo](https://arxiv.org/search/?searchtype=author&query=Daxiong Luo), [JungHau Foo](https://arxiv.org/search/?searchtype=author&query=JungHau Foo), [Yap Deep](https://arxiv.org/search/?searchtype=author&query=Yap Deep), [Timothy Lee Jun Jie](https://arxiv.org/search/?searchtype=author&query=Timothy Lee Jun Jie), [Kelvin Teh Kae Wen](https://arxiv.org/search/?searchtype=author&query=Kelvin Teh Kae Wen), [Fan Yang](https://arxiv.org/search/?searchtype=author&query=Fan Yang), [Danyu Feng](https://arxiv.org/search/?searchtype=author&query=Danyu Feng), [Hao-Yun Chen](https://arxiv.org/search/?searchtype=author&query=Hao-Yun Chen), [Peng-Wen Chen](https://arxiv.org/search/?searchtype=author&query=Peng-Wen Chen), [Fangyuan Li](https://arxiv.org/search/?searchtype=author&query=Fangyuan Li), [Xiaoxin Chen](https://arxiv.org/search/?searchtype=author&query=Xiaoxin Chen), [Wong Wai Mun](https://arxiv.org/search/?searchtype=author&query=Wong Wai Mun)

由于自注意力的二次时间复杂性和不断增长的键值 (KV) 缓存需求,在资源受限的边缘设备上部署基于 Transformer 的大型语言模型 (LLM) 来执行长序列任务仍然具有挑战性。虽然现有的 KV 缓存优化提高了内存效率,但它们通常无法减少第一个令牌的时间 (TTFT),并且可能会通过令牌修剪降低性能。替代序列建模架构解决了其中一些限制,但通常需要进行全面重新训练并且缺乏基础设施支持。EdgeInfinite 提供了一种高效的解决方案,只需微调一小部分参数,保持质量,同时降低计算和内存成本,包括改进的 TTFT。然而,它的指令遵循能力有限,并且缺乏针对移动设备的优化。为了解决这些问题,我们提出了 EdgeInfinite-Instruct,它引入了针对摘要和问答等长序列任务量身定制的分段监督微调 (S-SFT) 策略。我们进一步优化了 EdgeInfinite-Instruct,以便在边缘 NPU 上高效部署,采用细粒度的训练后量化 (PTQ) 来减少计算需求,同时保持准确性,并通过实现固定形状的计算图,通过特定场景的输入令牌和缓存大小定制来平衡内存使用和设备上的效率。对长上下文基准测试和实际移动任务的实验表明,我们的方法提高了特定领域的性能,同时保持了 NPU 加速边缘设备的效率。

科目: 计算和语言, 机器学习

发布: 2025-08-01 07:03:16 UTC

#32 Lucy:使用机器生成的任务向量在移动设备上运行代理 Web 搜索

Authors: [Alan Dao](https://arxiv.org/search/?searchtype=author&query=Alan Dao), [Dinh Bach Vu](https://arxiv.org/search/?searchtype=author&query=Dinh Bach Vu), [Alex Nguyen](https://arxiv.org/search/?searchtype=author&query=Alex Nguyen), [Norapat Buppodom](https://arxiv.org/search/?searchtype=author&query=Norapat Buppodom)

小型语言模型 (SLM) 由于容量有限,在知识密集型任务中本质上受到限制。虽然测试时计算提供了提高性能的途径,但大多数方法将推理视为固定或启发式过程。在这项工作中,我们提出了一种新的范式:将模型的内部推理(由 <think></think> 标签分隔)视为动态任务向量机。我们没有将这些标签内的内容视为仅仅是思想的痕迹,而是将生成过程本身解释为一种机制,通过该机制,模型 \textbf{即时构建和完善自己的任务向量}。我们开发了一种通过RLVR优化该动态任务向量机的方法,并成功训练了代理网络搜索模型。我们展示了 Lucy,这是一个 1.7B 参数的 SLM,它利用这种动态推理机制和 MCP 集成,在 SimpleQA 基准测试中实现了 78.3% 的准确率,性能与 DeepSeek-V3 等更大的模型相当。这表明,当配备结构化的、自构的任务推理时,小型模型可以与大型模型相媲美。

主题: 计算和语言

发布: 2025-08-01 06:45:29 UTC

#33 PilotRL:通过全局规划引导的渐进式强化学习训练语言模型代理

Authors: [Keer Lu](https://arxiv.org/search/?searchtype=author&query=Keer Lu), [Chong Chen](https://arxiv.org/search/?searchtype=author&query=Chong Chen), [Bin Cui](https://arxiv.org/search/?searchtype=author&query=Bin Cui), [Huang Leng](https://arxiv.org/search/?searchtype=author&query=Huang Leng), [Wentao Zhang](https://arxiv.org/search/?searchtype=author&query=Wentao Zhang)

大型语言模型 (LLM) 在处理面向代理的任务方面取得了显着进步。尽管具有潜力,但在基于代理的环境中部署法学硕士时,现有工作仍面临挑战。广泛采用的代理范式 ReAct 以将单步推理与即时行动执行相结合为中心,这限制了其在需要长期战略规划的复杂任务中的有效性。此外,在解决问题过程中,规划者和执行者之间的协调也是代理设计中需要考虑的关键因素。此外,当前的方法主要依赖于监督微调,这通常会导致模型记住既定的任务完成轨迹,从而限制了它们在面对新问题上下文时的泛化能力。为了应对这些挑战,我们引入了一种自适应的基于全局计划的代理范式 AdaPlan,旨在将高级显式指导与执行协同,以支持有效的长期决策。基于所提出的范式,我们进一步提出了PilotRL,这是一个由渐进式强化学习驱动的LLM智能体的全局规划引导训练框架。我们首先开发模型在处理代理任务时遵循全局计划明确指导的能力。随后,在此基础上,我们专注于优化生成计划的质量。最后,对模型的规划和执行协调进行联合优化。实验表明,PilotRL 可以实现最先进的性能,LLaMA3.1-8B-Instruct + PilotRL 比闭源 GPT-4o 高出 3.60%,同时在可比参数尺度上与 GPT-4o-mini 相比,显示出更显着的 55.78% 的增益。

主题: 计算和语言

发布: 2025-08-01 06:17:11 UTC

#34 利用宾语对齐改进句子嵌入的多模态对比学习

Authors: [Kaiyan Zhao](https://arxiv.org/search/?searchtype=author&query=Kaiyan Zhao), [Zhongtao Miao](https://arxiv.org/search/?searchtype=author&query=Zhongtao Miao), [Yoshimasa Tsuruoka](https://arxiv.org/search/?searchtype=author&query=Yoshimasa Tsuruoka)

多模态句子嵌入模型在训练过程中除了文本数据外,通常还利用图像-标题对。然而,此类对通常包含噪声,包括图像或标题端的冗余或不相关信息。为了缓解这个问题,我们提出了 MCSEO,这是一种通过将细粒度的对象-短语对齐与传统的图像-标题对齐相结合来增强多模态句子嵌入的方法。具体来说,MCSEO 利用现有的分割和对象检测模型来提取准确的对象-短语对,然后用于优化针对对象-短语对应关系量身定制的对比学习目标。不同主干模型的语义文本相似性(STS)任务的实验结果表明,MCSEO始终优于强基线,凸显了精确的对象-短语对齐在多模态表示学习中的重要性。

主题: 计算和语言

发布: 2025-08-01 05:42:28 UTC

#35 长上下文语言模型优化技术的系统评估

Authors: [Ammar Ahmed](https://arxiv.org/search/?searchtype=author&query=Ammar Ahmed), [Sheng Di](https://arxiv.org/search/?searchtype=author&query=Sheng Di), [Franck Cappello](https://arxiv.org/search/?searchtype=author&query=Franck Cappello), [Zirui Liu](https://arxiv.org/search/?searchtype=author&query=Zirui Liu), [Jingoo Han](https://arxiv.org/search/?searchtype=author&query=Jingoo Han), [Ali Anwar](https://arxiv.org/search/?searchtype=author&query=Ali Anwar)

大型语言模型 (LLM) 在各种自然语言处理任务中表现出色,但面临资源需求和有限的上下文窗口。尽管修剪、量化和标记删除等技术可以缓解这些问题,但它们在长期上下文场景和系统评估中的功效仍未得到充分探索。本文系统地对这些优化进行了基准测试,表征了内存使用、延迟和吞吐量,并研究了这些方法如何影响文本生成的质量。我们首先分析了两种支持长上下文的 LLM 架构的单独优化方法,然后系统地评估这些技术的组合,以评估这种更深入的分析如何影响性能指标。随后,我们研究了具有 700 亿参数模型的更大变体上各个优化方法的可扩展性。我们的新见解表明,与较小的模型相比,朴素的组合推理优化算法可能会因复合近似误差而对较大的模型产生不利影响。实验表明,仅依靠 F1 可以通过隐藏问答任务中的精确率-召回权衡来掩盖这些影响。通过将系统级分析与特定于任务的见解相结合,这项研究帮助法学硕士从业者和研究人员探索和平衡任务和硬件配置的效率、准确性和可扩展性。

科目: 计算和语言, 机器学习, 性能

发布: 2025-08-01 04:17:24 UTC

#36 通过病因感知注意力转向,将临床推理融入基于大语言模型的诊断中

Authors: [Peixian Li](https://arxiv.org/search/?searchtype=author&query=Peixian Li), [Yu Tian](https://arxiv.org/search/?searchtype=author&query=Yu Tian), [Ruiqi Tu](https://arxiv.org/search/?searchtype=author&query=Ruiqi Tu), [Chengkai Wu](https://arxiv.org/search/?searchtype=author&query=Chengkai Wu), [Jingjing Ren](https://arxiv.org/search/?searchtype=author&query=Jingjing Ren), [Jingsong Li](https://arxiv.org/search/?searchtype=author&query=Jingsong Li)

目的:大型语言模型 (LLM) 在医学文本理解和生成方面表现出显着的能力。然而,它们在复杂临床场景中的诊断可靠性仍然有限。本研究旨在提高法学硕士的诊断准确性和临床推理能力。方法:我们提出了一个病因学感知注意力引导框架,将结构化临床推理整合到基于 LLM 的诊断中。具体来说,我们首先根据权威临床指南构建临床推理支架(CRS),针对三种具有代表性的急性腹部急症:急性阑尾炎、急性胰腺炎和急性胆囊炎。接下来,我们开发病因感知头部识别算法,以查明对模型病因推理至关重要的注意力头。为了确保可靠的临床推理对齐,我们引入了推理引导参数高效微调,将病因学推理线索嵌入到输入表示中,并通过推理引导损失函数引导选定的病因感知头获取关键信息。结果:在一致诊断队列中,我们的框架将平均诊断准确性提高了 15.65%,平均推理焦点得分比基线提高了 31.6%。对差异诊断队列的外部验证进一步证实了其在提高诊断准确性方面的有效性。通过推理注意力频率进行的进一步评估表明,我们的模型在面对现实世界的复杂场景时表现出更高的可靠性。结论:本研究提出了一种实用有效的方法来增强基于 LLM 的诊断中的临床推理。通过将模型注意力与结构化 CRS 保持一致,所提出的框架为在复杂的临床环境中构建更具可解释性和可靠性的人工智能诊断系统提供了一个有前途的范式。

主题: 计算和语言

发布: 2025-08-01 03:05:43 UTC

#37 模型错位和语言变化:无脚本英语口语中人工智能相关语言的痕迹

Authors: [Bryce Anderson](https://arxiv.org/search/?searchtype=author&query=Bryce Anderson), [Riley Galpin](https://arxiv.org/search/?searchtype=author&query=Riley Galpin), [Tom S. Juzek](https://arxiv.org/search/?searchtype=author&query=Tom S. Juzek)

近年来,书面语言,特别是科学和教育领域的文字使用发生了显着变化。这些变化被广泛归因于大型语言模型 (LLM) 日益增长的影响力,大型语言模型通常依赖于独特的词汇风格。模型输出与目标受众规范之间的差异可以被视为一种不一致的形式。虽然这些转变通常与直接使用人工智能 (AI) 作为生成文本的工具有关,但目前尚不清楚这些变化是否反映了人类语言系统本身的更广泛变化。为了探索这个问题,我们构建了一个包含 2210 万个单词的数据集,这些单词来自对话科学和技术播客的无脚本口语。我们分析了 ChatGPT 在 2022 年发布前后的词汇趋势,重点关注通常与 LLM 相关的单词。我们的结果显示,2022 年后这些词的使用量适度但显着增加,这表明人类词语选择与法学硕士相关模式之间存在趋同。相比之下,基线同义词没有表现出明显的方向变化。鉴于时间短和受影响的单词数量,这可能表明语言使用开始发生显着转变。这是否代表了自然语言的变化,还是人工智能暴露驱动的新变化仍然是一个悬而未决的问题。同样,尽管这些转变可能源于更广泛的采用模式,但上游训练的不一致最终也可能导致人类语言使用的变化。这些发现与伦理问题相呼应,即不一致的模型可能会塑造社会和道德信念。

科目: 计算和语言, 人工智能

发布: 2025-08-01 00:47:33 UTC

#38 使用离散小波变换对单词和句子嵌入进行语义压缩

Authors: [Rana Aref Salama](https://arxiv.org/search/?searchtype=author&query=Rana Aref Salama), [Abdou Youssef](https://arxiv.org/search/?searchtype=author&query=Abdou Youssef), [Mona Diab](https://arxiv.org/search/?searchtype=author&query=Mona Diab)

小波变换是一种强大的数学工具,已广泛应用于不同领域,包括信号和图像处理,以解开复杂的模式、增强数据表示并从数据中提取有意义的特征。其应用的切实结果表明,小波变换可以应用于捕获各种语言和语义属性的 NLP。在本文中,我们实证地利用离散小波变换(DWT)在单词和句子嵌入中的应用。我们的目标是展示 DWT 在分析不同分辨率级别的嵌入表示并在保持其整体质量的同时对其进行压缩的能力。我们评估了DWT嵌入在语义相似性任务上的有效性,以展示如何使用DWT在嵌入向量中整合重要的语义信息。我们展示了所提出的范式使用不同的嵌入模型(包括大型语言模型)在下游任务上的有效性。我们的结果表明,DWT可以将嵌入的维度降低50-93%,而对于语义相似性任务的性能几乎没有变化,同时在大多数下游任务中实现了卓越的准确性。我们的研究结果为应用DWT改进NLP应用铺平了道路。

主题: 计算和语言

发布: 2025-07-31 23:46:40 UTC

#39 法学硕士的表格数据理解:对最新进展和挑战的调查

Authors: [Xiaofeng Wu](https://arxiv.org/search/?searchtype=author&query=Xiaofeng Wu), [Alan Ritter](https://arxiv.org/search/?searchtype=author&query=Alan Ritter), [Wei Xu](https://arxiv.org/search/?searchtype=author&query=Wei Xu)

表格因其复杂灵活的结构而在大型语言模型(LLM)和多模态大型语言模型(MLLM)中受到广泛关注。与线性文本输入不同,表格是二维的,包含从结构良好的数据库表到复杂的多层电子表格的格式,每种格式都有不同的用途。这种格式和目的的多样性导致了专门方法和任务的发展,而不是通用方法,使得表格理解任务的导航具有挑战性。为了应对这些挑战,本文通过表格输入表示的分类法和表格理解任务的介绍引入了关键概念。我们强调了该领域的几个关键差距,表明需要进一步研究:(1)以检索为中心的任务占主导地位,这些任务需要数学和逻辑运算之外的最少推理;(2)模型在处理复杂表结构、大规模表、长度上下文或多表场景时面临的重大挑战;(3) 模型在不同表格表示和格式中的有限泛化。

科目: 计算和语言, 数据库, 机器学习

发布: 2025-07-31 23:41:31 UTC

#40 大型语言模型针对部署需求的比较

Authors: [Alper Yaman](https://arxiv.org/search/?searchtype=author&query=Alper Yaman), [Jannik Schwab](https://arxiv.org/search/?searchtype=author&query=Jannik Schwab), [Christof Nitsche](https://arxiv.org/search/?searchtype=author&query=Christof Nitsche), [Abhirup Sinha](https://arxiv.org/search/?searchtype=author&query=Abhirup Sinha), [Marco Huber](https://arxiv.org/search/?searchtype=author&query=Marco Huber)

大型语言模型 (LLM),例如生成式预训练转换器 (GPT),正在彻底改变类人文本的生成,生成上下文相关且语法正确的内容。尽管存在偏见和幻觉等挑战,这些人工智能 (AI) 模型在内容创建、翻译和代码生成等任务中表现出色。微调和新颖的架构,例如专家混合 (MoE),可以解决这些问题。在过去的两年里,引入了许多开源基础和微调模型,使研究人员和公司在许可和硬件要求方面选择最佳 LLM 变得复杂。为了驾驭快速发展的法学硕士环境并促进法学硕士的选择,我们提供了基础模型和特定领域模型的比较列表,重点关注发布年份、许可和硬件要求等功能。此列表发布在 GitLab 上,并将持续更新。

主题: 计算和语言

发布: 2025-07-31 22:03:07 世界标准时间

#41 神经语义解析擅长省略号解析,不是吗?

Authors: [Xiao Zhang](https://arxiv.org/search/?searchtype=author&query=Xiao Zhang), [Johan bos](https://arxiv.org/search/?searchtype=author&query=Johan bos)

神经语义解析器在各种语言现象中表现出良好的整体性能,语义匹配得分达到 90% 以上。但是,此类解析器如何处理需要复制大量语义信息以形成有意义的语义表示的强烈上下文敏感现象?一个典型的例子是英语动词短语省略号,这是一种结构,其中整个动词短语可以用单个助动词缩写。其他所谓的强大语义解析器是否能够处理省略号?我们构建了一个包含 120 个省略号的语料库,其完全解析的含义表示,并将其用作大量神经语义解析器的挑战集。尽管这些解析器在标准测试集上表现非常好,但在带有省略号的实例中它们失败了。数据增强

主题: 计算和语言

发布: 2025-07-31 19:23:37 UTC

#42 FACTORY:具有挑战性的人工验证提示集,用于长篇事实性

Authors: [Mingda Chen](https://arxiv.org/search/?searchtype=author&query=Mingda Chen), [Yang Li](https://arxiv.org/search/?searchtype=author&query=Yang Li), [Xilun Chen](https://arxiv.org/search/?searchtype=author&query=Xilun Chen), [Adina Williams](https://arxiv.org/search/?searchtype=author&query=Adina Williams), [Gargi Ghosh](https://arxiv.org/search/?searchtype=author&query=Gargi Ghosh), [Scott Yih](https://arxiv.org/search/?searchtype=author&query=Scott Yih)

长篇事实性评估评估模型对简短提示生成准确、全面响应的能力。现有的基准测试通常缺乏人工验证,从而导致潜在的质量问题。为了解决这一限制,我们引入了 FACTORY,这是一个大规模的、经过人工验证的提示集。FACTORY 采用模型在环方法开发并由人类改进,包括具有挑战性的提示,这些提示具有事实依据性、可回答性和明确性。我们使用 FACTORY 和现有数据集对 6 个最先进的语言模型进行人工评估。我们的结果表明,FACTORY 是一个具有挑战性的基准:SOTA 模型响应中大约 40% 的声明不是事实,而其他数据集只有 10%。我们的分析确定了 FACTORY 相对于先前基准的优势,强调了其可靠性以及模型对长尾事实进行推理的必要性。

科目: 计算和语言, 人工智能

发布: 2025-07-31 19:00:11 世界标准时间

#43 符号学复杂性及其对文化建模的认识论意义

Authors: [Zachary K. Stine](https://arxiv.org/search/?searchtype=author&query=Zachary K. Stine), [James E. Deitrick](https://arxiv.org/search/?searchtype=author&query=James E. Deitrick)

为了认识论和解释的清晰度,以及该领域的成熟,需要对计算人文学科的方法进行更多的理论化。在本文中,我们将此类建模工作描述为从事从文化、语言领域到计算、数学领域的翻译工作,然后再返回。翻译人员从阐明翻译过程的理论中受益,计算人文主义者在他们的工作中也是如此——以确保内部一致性,避免微妙但后果性的翻译错误,并促进解释透明度。我们在本文中的贡献是阐述了一个特别重要的维度,即缺乏理论化以及因此而在我们的建模实践中出现的各种翻译错误。沿着这些思路,我们引入了符号学复杂性的概念,即某些文本的含义在不同解释视角之间可能变化的程度,并证明占主导地位的建模实践——尤其是在评估方面——通过赋予表面的清晰度,将符号学复杂的数据视为符号学上简单,从而犯下翻译错误。然后,我们提出了几项建议,供研究人员在自己的工作中更好地解释这些认识论问题。

科目: 计算和语言, 计算机与社会

发布: 2025-07-31 18:44:48 世界标准时间

#44 法学硕士是否生成具有“类人”词汇多样性的文本?

Authors: [Kelly Kendro](https://arxiv.org/search/?searchtype=author&query=Kelly Kendro), [Jeffrey Maloney](https://arxiv.org/search/?searchtype=author&query=Jeffrey Maloney), [Scott Jarvis](https://arxiv.org/search/?searchtype=author&query=Scott Jarvis)

尽管这个问题受到了广泛的实证关注,但法学硕士在多大程度上写出真正类人化的写作仍不清楚。本研究从词汇多样性的角度解决了这个问题。具体来说,该研究调查了来自四种 ChatGPT 模型(-3.5、-4、-o4 mini 和 -4.5)的 LLM 生成文本的词汇多样性模式,与四个教育水平的 L1 和 L2 英语参与者 (n = 240) 编写的文本进行比较。在每篇文本中测量词汇多样性的六个维度:数量、丰度、多样性重复、均匀性、差异性和分散性。单向方差分析、单向方差分析和支持向量机的结果显示,对于每个变量,LLM 生成的文本与人类编写的文本存在显着差异,其中 ChatGPT-o4 mini 和 -4.5 差异最大。在这两个组中,ChatGPT-4.5 尽管产生的标记较少,但仍表现出更高水平的词汇多样性。人类作家的词汇多样性在亚组之间没有差异(即教育程度、语言状况)。总而言之,结果表明,法学硕士在词汇多样性方面不会产生类似人类的文本,而且较新的法学硕士产生的类人文本比旧模型少。我们讨论了这些结果对语言教学法和相关应用的影响。

主题: 计算和语言

发布: 2025-07-31 18:22:11 UTC

#45 PhysicsEval:推理时间技术提高大型语言模型对物理问题的推理能力

Authors: [Oshayer Siddique](https://arxiv.org/search/?searchtype=author&query=Oshayer Siddique), [J. M Areeb Uzair Alam](https://arxiv.org/search/?searchtype=author&query=J. M Areeb Uzair Alam), [Md Jobayer Rahman Rafy](https://arxiv.org/search/?searchtype=author&query=Md Jobayer Rahman Rafy), [Syed Rifat Raiyan](https://arxiv.org/search/?searchtype=author&query=Syed Rifat Raiyan), [Hasan Mahmud](https://arxiv.org/search/?searchtype=author&query=Hasan Mahmud), [Md Kamrul Hasan](https://arxiv.org/search/?searchtype=author&query=Md Kamrul Hasan)

物理学科是人类智力的基石,推动技术的发展并加深我们对宇宙基本原理的理解。当代文学包括一些以解决物理问题任务为中心的作品——这是自然语言推理的一个关键领域。在本文中,我们评估了前沿法学硕士在解决物理问题(数学和描述性)方面的表现。我们还采用了大量的推理时间技术和代理框架来提高模型的性能。这包括由其他较小的 LLM 代理以累积方式验证所提出的解决方案,并且我们对这些技术所需的性能进行比较分析。当多智能体框架应用于模型最初表现不佳的问题时,会有显着的改进。此外,我们还引入了物理问题的新评估基准, PHYSICSEVAL,由来自各种物理教科书的 19,609 个问题以及从物理论坛和教育网站上抓取的相应正确解决方案组成。我们的代码和数据可在 https://github.com/areebuzair/PhysicsEval 公开获取。

科目: 计算和语言, 人工智能

发布: 2025-07-31 18:12:51 UTC

#46 按诊断对精神病学临床记录进行分类:深度学习和机器学习方法

Authors: [Sergio Rubio-Martín](https://arxiv.org/search/?searchtype=author&query=Sergio Rubio-Martín), [María Teresa García-Ordás](https://arxiv.org/search/?searchtype=author&query=María Teresa García-Ordás), [Antonio Serrano-García](https://arxiv.org/search/?searchtype=author&query=Antonio Serrano-García), [Clara Margarita Franch-Pato](https://arxiv.org/search/?searchtype=author&query=Clara Margarita Franch-Pato), [Arturo Crespo-Álvaro](https://arxiv.org/search/?searchtype=author&query=Arturo Crespo-Álvaro), [José Alberto Benítez-Andrades](https://arxiv.org/search/?searchtype=author&query=José Alberto Benítez-Andrades)

将临床记录分类为特定的诊断类别在医疗保健中至关重要,特别是对于焦虑和适应障碍等心理健康状况。在这项研究中,我们比较了各种人工智能模型的性能,包括传统的机器学习方法(随机森林、支持向量机、K 最近邻、决策树和极限梯度提升)和深度学习模型(DistilBERT 和 SciBERT),以将临床记录分为这两种诊断。此外,我们还实施了三种过采样策略:无过采样、随机过采样和合成少数过采样技术 (SMOTE),以评估它们对模型性能的影响。还应用了超参数调整来优化模型精度。我们的结果表明,过采样技术对模型整体性能的影响很小。唯一的例外是 SMOTE,它显示出特别是基于 BERT 的模型的积极影响。然而,超参数优化显着提高了整个模型的准确性,增强了它们对数据集进行泛化和执行的能力。决策树和极限梯度提升模型在机器学习方法中取得了最高的准确率,均达到 96%,而 DistilBERT 和 SciBERT 模型在深度学习类别中也达到了 96% 的准确率。这些发现强调了超参数调整在最大化模型性能方面的重要性。这项研究通过深入了解不同模型架构和数据平衡方法的功效,为正在进行的人工智能辅助诊断工具心理健康研究做出了贡献。

科目: 机器学习, 计算和语言

发布: 2025-08-01 15:11:39 UTC

#47 演示:TOSense – 你刚刚同意了什么?

Authors: [Xinzhang Chen](https://arxiv.org/search/?searchtype=author&query=Xinzhang Chen), [Hassan Ali](https://arxiv.org/search/?searchtype=author&query=Hassan Ali), [Arash Shaghaghi](https://arxiv.org/search/?searchtype=author&query=Arash Shaghaghi), [Salil S. Kanhere](https://arxiv.org/search/?searchtype=author&query=Salil S. Kanhere), [Sanjay Jha](https://arxiv.org/search/?searchtype=author&query=Sanjay Jha)

在线服务通常要求用户同意冗长且晦涩难懂的服务条款(ToS),导致信息不对称和法律风险。本文提出了 TOSense——一个 Chrome 扩展程序,允许用户用自然语言询问有关 ToS 的问题,并实时获得简洁的答案。该系统结合了 (i) 自动提取 ToS 内容的爬虫“tos-crawl”,以及 (ii) 轻量级大型语言模型管道:用于语义检索的 MiniLM 和用于答案相关性验证的 BART 编码器。为了避免昂贵的手动注释,我们提出了一种新颖的问答评估管道 (QEP),它生成合成问题并使用聚类主题匹配验证答案的正确性。在 Apple、Google、X(以前称为 Twitter)、Microsoft 和 Netflix 这五个主要平台上的实验表明,TOSense 在不同数量的主题集群中的有效性(准确率高达 44.5%)。在演示过程中,我们将展示 TOSense 的实际应用。与会者将能够体验无缝提取、交互式问答和新网站的即时索引。

科目: 密码学和安全性, 计算和语言

发布: 2025-08-01 14:26:23 UTC

#48 基于上下文的运动检索,基于开放词汇方法的自动驾驶

Authors: [Stefan Englmeier](https://arxiv.org/search/?searchtype=author&query=Stefan Englmeier), [Max A. Büttner](https://arxiv.org/search/?searchtype=author&query=Max A. Büttner), [Katharina Winter](https://arxiv.org/search/?searchtype=author&query=Katharina Winter), [Fabian B. Flohr](https://arxiv.org/search/?searchtype=author&query=Fabian B. Flohr)

自动驾驶系统必须在安全关键型场景中可靠运行,尤其是涉及弱势道路使用者 (VRU) 异常或复杂行为的场景。在驱动数据集中识别这些边缘情况对于稳健的评估和泛化至关重要,但在大规模数据集的长尾中检索这种罕见的人类行为场景具有挑战性。为了支持在多样化的、以人为本的场景下对自动驾驶系统进行有针对性的评估,我们提出了一种新颖的上下文感知运动检索框架。我们的方法结合了基于蒙皮多人线性(SMPL)的运动序列和相应的视频帧,然后将它们编码到与自然语言一致的共享多模态嵌入空间中。我们的方法可以通过文本查询对人类行为及其上下文进行可扩展的检索。这项工作还介绍了我们的数据集 WayMoCo,它是 Waymo 开放数据集的扩展。它包含从生成的伪地面实况 SMPL 序列和相应图像数据中得出的自动标记的运动和场景上下文描述。在 WayMoCo 数据集上进行评估时,我们的方法在运动上下文检索方面的准确率比最先进的模型高出 27.5%。

科目: 计算机视觉和模式识别, 计算和语言, 信息检索, 机器人

发布: 2025-08-01 12:41:52 UTC

#49 用于越狱攻击的激活引导本地编辑

Authors: [Jiecong Wang](https://arxiv.org/search/?searchtype=author&query=Jiecong Wang), [Haoran Li](https://arxiv.org/search/?searchtype=author&query=Haoran Li), [Hao Peng](https://arxiv.org/search/?searchtype=author&query=Hao Peng), [Ziqian Zeng](https://arxiv.org/search/?searchtype=author&query=Ziqian Zeng), [Zihao Wang](https://arxiv.org/search/?searchtype=author&query=Zihao Wang), [Haohua Du](https://arxiv.org/search/?searchtype=author&query=Haohua Du), [Zhengtao Yu](https://arxiv.org/search/?searchtype=author&query=Zhengtao Yu)

越狱是将这些模型红队化以发现和修补安全漏洞的重要对抗技术。然而,现有的越狱方法面临着重大的缺点。令牌级越狱攻击通常会产生不连贯或不可读的输入,并且可转移性差,而提示级攻击缺乏可扩展性,严重依赖人工工作和人类聪明才智。我们提出了一个简洁有效的两阶段框架,结合了这些方法的优点。第一阶段执行基于场景的上下文生成,并改写原始恶意查询以掩盖其有害意图。然后,第二阶段利用来自模型隐藏状态的信息来指导细粒度编辑,有效地将模型对输入的内部表示从恶意表示引导到良性表示。大量实验表明,该方法实现了最先进的攻击成功率,在最强基线的基础上提高了37.74%,并表现出出色的可转移到黑盒模型。我们的分析进一步表明,敏捷防御机制在对抗主要防御机制时保持了实质性的有效性,凸显了当前保障措施的局限性,并为未来的防御发展提供了宝贵的见解。我们的代码可在 https://github.com/yunsaijc/AGILE 获得。

科目: 密码学和安全性, 人工智能, 计算和语言

发布: 2025-08-01 11:52:24 UTC

#50 ContestTrade:基于内部竞赛机制的多代理交易系统

Authors: [Li Zhao](https://arxiv.org/search/?searchtype=author&query=Li Zhao), [Rui Sun](https://arxiv.org/search/?searchtype=author&query=Rui Sun), [Zuoyou Jiang](https://arxiv.org/search/?searchtype=author&query=Zuoyou Jiang), [Bo Yang](https://arxiv.org/search/?searchtype=author&query=Bo Yang), [Yuxiao Bai](https://arxiv.org/search/?searchtype=author&query=Yuxiao Bai), [Mengting Chen](https://arxiv.org/search/?searchtype=author&query=Mengting Chen), [Xinyang Wang](https://arxiv.org/search/?searchtype=author&query=Xinyang Wang), [Jing Li](https://arxiv.org/search/?searchtype=author&query=Jing Li), [Zuo Bai](https://arxiv.org/search/?searchtype=author&query=Zuo Bai)

在金融交易中,基于大型语言模型 (LLM) 的代理显示出巨大的潜力。然而,对市场噪音的高度敏感性破坏了基于 LLM 的交易系统的性能。为了解决这一限制,我们提出了一种新颖的多智能体系统,其内部竞争机制受现代企业管理结构的启发。该系统由两个专门的团队组成:(1)数据团队——负责将海量市场数据处理并浓缩成多样化的文本因子,确保它们符合模型的约束上下文。(2) 研究团队 - 负责根据深入研究方法做出并行的多路径交易决策。核心创新在于在真实的市场反馈的驱动下,在每个团队内实施实时评估和排名机制。每个代理的表现都会经历持续的评分和排名,只采用表现最好的代理的输出。该设计使系统能够自适应动态环境,增强对市场噪音的稳健性,并最终提供卓越的交易性能。实验结果表明,我们提出的系统在不同的评估指标上都明显优于现行的多智能体系统和传统的量化投资方法。

科目: 交易和市场微观结构, 计算和语言, 计算金融

发布: 2025-08-01 11:48:13 世界标准时间

#51 迈向编程范式的统一框架:分类形式主义和方法论基础的系统回顾

Author: [Mikel Vandeloise](https://arxiv.org/search/?searchtype=author&query=Mikel Vandeloise)

多范式语言的兴起挑战了传统的分类方法,导致了互作性缺陷等实际软件工程问题。这篇系统文献综述 (SLR) 绘制了编程范式的形式基础。我们的目标是双重的:(1)评估分类形式主义的最新技术及其局限性,以及(2)确定概念原语和数学框架,以获得更强大的重建方法。基于对 74 项主要研究的综合,我们发现现有的分类法缺乏概念粒度、统一的形式基础,并且与混合语言作斗争。作为回应,我们的分析揭示了范式的组合重建的强烈趋同。这种方法识别了一组最小的正交原子原语,并利用数学框架,主要是类型论、范畴论和统一编程理论 (UTP),来正式保证它们的组合属性。我们得出的结论是,这些文献反映了从分类到这些有前途的正式重建框架的重大知识转变。这篇综述提供了这种演变的地图,并提出了统一它们的研究议程。

科目: 编程语言, 计算和语言

发布: 2025-08-01 11:19:40 UTC

#52 以自我为中心的视频的细粒度时空基础

Authors: [Shuo Liang](https://arxiv.org/search/?searchtype=author&query=Shuo Liang), [Yiwu Zhong](https://arxiv.org/search/?searchtype=author&query=Yiwu Zhong), [Zi-Yuan Hu](https://arxiv.org/search/?searchtype=author&query=Zi-Yuan Hu), [Yeyao Tao](https://arxiv.org/search/?searchtype=author&query=Yeyao Tao), [Liwei Wang](https://arxiv.org/search/?searchtype=author&query=Liwei Wang)

时空视频接地旨在基于文本查询对视频中的目标实体进行定位。虽然现有研究在外心视频方面取得了重大进展,但尽管以自我为中心的环境在增强现实和机器人技术等应用中的重要性日益增加,但它仍然相对未得到充分探索。在这项工作中,我们对自我中心和外中心视频之间的差异进行了系统分析,揭示了更短的物体持续时间、更稀疏的轨迹、更小的物体尺寸和更大的位置偏移等关键挑战。为了应对这些挑战,我们推出了 EgoMask,这是第一个用于以自我为中心的视频中细粒度时空基础的像素级基准测试。它是由我们提出的自动注释管道构建的,该管道在短期、中期和长期视频中注释引用表达式和对象掩码。此外,我们还创建了 EgoMask-Train,这是一个大规模的训练数据集,以促进模型开发。实验表明,最先进的时空接地模型在我们的基准 EgoMask 上表现不佳,但在 EgoMask-Train 上进行微调可以产生显着改进,同时保留外中心数据集的性能。因此,我们的工作为推进以自我为中心的视频理解提供了必要的资源和见解。我们的代码可在 https://github.com/LaVi-Lab/EgoMask 获得。

科目: 计算机视觉和模式识别, 计算和语言

发布: 2025-08-01 10:53:27 UTC

#53 Cognitive Kernel-Pro:深度研究代理和代理基础模型训练的框架

Authors: [Tianqing Fang](https://arxiv.org/search/?searchtype=author&query=Tianqing Fang), [Zhisong Zhang](https://arxiv.org/search/?searchtype=author&query=Zhisong Zhang), [Xiaoyang Wang](https://arxiv.org/search/?searchtype=author&query=Xiaoyang Wang), [Rui Wang](https://arxiv.org/search/?searchtype=author&query=Rui Wang), [Can Qin](https://arxiv.org/search/?searchtype=author&query=Can Qin), [Yuxuan Wan](https://arxiv.org/search/?searchtype=author&query=Yuxuan Wan), [Jun-Yu Ma](https://arxiv.org/search/?searchtype=author&query=Jun-Yu Ma), [Ce Zhang](https://arxiv.org/search/?searchtype=author&query=Ce Zhang), [Jiaqi Chen](https://arxiv.org/search/?searchtype=author&query=Jiaqi Chen), [Xiyun Li](https://arxiv.org/search/?searchtype=author&query=Xiyun Li), [Hongming Zhang](https://arxiv.org/search/?searchtype=author&query=Hongming Zhang), [Haitao Mi](https://arxiv.org/search/?searchtype=author&query=Haitao Mi), [Dong Yu](https://arxiv.org/search/?searchtype=author&query=Dong Yu)

通用人工智能代理越来越被认为是下一代人工智能的基础框架,可实现复杂的推理、网络交互、编码和自主研究能力。然而,当前的代理系统要么是闭源的,要么严重依赖各种付费 API 和专有工具,限制了研究界的可访问性和可重复性。在这项工作中,我们提出了 \textbf{Cognitive Kernel-Pro},这是一个完全开源且(最大程度上)免费的多模块代理框架,旨在使高级 AI 代理的开发和评估民主化。在 Cognitive Kernel-Pro 中,我们系统地研究了 Agent Foundation Model 高质量训练数据的管理,重点是跨四个关键领域(Web、文件、代码和一般推理)构建查询、轨迹和可验证答案。此外,我们探索了智能体测试时反思和投票的新策略,以增强智能体的鲁棒性和性能。我们在 GAIA 上评估 Cognitive Kernel-Pro,在开源和自由代理中取得了最先进的结果。值得注意的是,我们的 8B 参数开源模型超越了 WebDancer 和 WebSailor 等之前的领先系统,为可访问、高性能的 AI 代理建立了新的性能标准。代码可在 https://github.com/Tencent/CognitiveKernel-Pro 获得

科目: 人工智能, 计算和语言

发布: 2025-08-01 08:11:31 UTC

#54 对 LLM 进行基准测试,以便从实际函数生成单元测试

Authors: [Dong Huang](https://arxiv.org/search/?searchtype=author&query=Dong Huang), [Jie M. Zhang](https://arxiv.org/search/?searchtype=author&query=Jie M. Zhang), [Mark Harman](https://arxiv.org/search/?searchtype=author&query=Mark Harman), [Qianru Zhang](https://arxiv.org/search/?searchtype=author&query=Qianru Zhang), [Mingzhe Du](https://arxiv.org/search/?searchtype=author&query=Mingzhe Du), [See-Kiong Ng](https://arxiv.org/search/?searchtype=author&query=See-Kiong Ng)

最近,大型语言模型 (LLM) 在自动化单元测试生成方面显示出巨大的前景,显着减少了开发人员所需的手动工作。为了有效评估法学硕士在该领域的能力,拥有一个精心设计的基准来准确反映现实场景并减少常见陷阱至关重要。现有的 LLM 测试生成基准测试受到两个关键缺点的限制:数据污染和结构简单的函数代码。因此,我们通常不能依赖使用这些有限基准的实证研究得出的科学结论的有效性。所提供的经验证据可能由于污染而存在偏差,并且由于结构简单而可能无法推广到玩具程序之外。为了解决这些问题,我们推出了 ULT(UnLeakedTestbench),这是一种新的基准测试,专门设计用于从现实世界的 Python 函数生成函数级单元测试。ULT 是通过多阶段管理过程构建的,可确保高圈复杂性并减轻测试用例污染。ULT 拥有 3,909 个精心挑选的功能级任务,对 LLM 的测试生成能力进行了更真实、更具挑战性的评估。我们还提供 PLT(PreLeakedTestbench),这是 ULT 与泄漏测试的成对基准测试,旨在实现对测试生成中的记忆与推理进行受控分析。我们的评估结果表明,超低温检测的挑战性明显更大。例如,LLM 生成的测试用例在所有 LLM 的准确率、语句覆盖率、分支覆盖率和突变得分方面平均仅达到 41.32%、45.10%、30.22% 和 40.21%。这些结果大大低于TestEval(91.79%、92.18%、82.04%和49.69%)和PLT(47.07%、55.13%、40.07%和50.80%)的相应指标。

科目: 软件工程, 计算和语言

发布: 2025-08-01 08:08:26 世界标准时间

#55 R1-ACT:激活安全知识的高效推理模型安全对齐

Authors: [Yeonjun In](https://arxiv.org/search/?searchtype=author&query=Yeonjun In), [Wonjoong Kim](https://arxiv.org/search/?searchtype=author&query=Wonjoong Kim), [Sangwu Park](https://arxiv.org/search/?searchtype=author&query=Sangwu Park), [Chanyoung Park](https://arxiv.org/search/?searchtype=author&query=Chanyoung Park)

尽管大型推理模型 (LRM) 在复杂任务上表现出了令人印象深刻的能力,但最近的研究表明,这些模型经常执行有害的用户指令,引发了严重的安全问题。本文对LRM安全风险的根本原因进行了调查,发现模型已经具备了足够的安全知识,但在推理过程中未能激活。基于这一见解,我们提出了 R1-Act,这是一种简单高效的后训练方法,通过结构化推理过程明确触发安全知识。R1-Act 在保持推理性能的同时实现了强大的安全性改进,优于以前的对齐方法。值得注意的是,它只需要 1,000 个训练示例和在单个 RTX A90 GPU 上进行 6000 分钟的训练。跨多个 LRM 主干和尺寸的广泛实验证明了我们方法的稳健性、可扩展性和实际效率。

科目: 人工智能, 计算和语言

发布: 2025-08-01 05:14:13 UTC

#56 注意差距:人类和法学硕士生成的任务之间的分歧

Authors: [Yi-Long Lu](https://arxiv.org/search/?searchtype=author&query=Yi-Long Lu), [Jiajun Song](https://arxiv.org/search/?searchtype=author&query=Jiajun Song), [Chunhui Zhang](https://arxiv.org/search/?searchtype=author&query=Chunhui Zhang), [Wei Wang](https://arxiv.org/search/?searchtype=author&query=Wei Wang)

人类在内在动机的指导下不断产生各种各样的任务。虽然由大型语言模型 (LLM) 驱动的生成代理旨在模拟这种复杂的行为,但目前仍不确定它们是否按照类似的认知原理运行。为了解决这个问题,我们进行了一项任务生成实验,将人类的反应与 LLM 代理 (GPT-4o) 的反应进行比较。我们发现,人类任务的产生始终受到心理驱动因素的影响,包括个人价值观(例如,对变革的开放性)和认知风格。即使这些心理驱动因素被明确提供给法学硕士,它也无法反映相应的行为模式。它们产生的任务的社交性明显较低,身体性较差,并且在主题上偏向于抽象。有趣的是,虽然法学硕士的任务被认为更有趣、更新颖,但这凸显了其语言能力与产生类似人类的具体目标的能力之间的脱节。我们得出的结论是,人类认知的价值驱动、具身性质与法学硕士的统计模式之间存在核心差距,这凸显了将内在动机和物理基础纳入更符合人类的智能体设计的必要性。

科目: 人工智能, 计算和语言

发布: 2025-08-01 03:00:41 世界标准时间

#57 MetaAgent:通过工具元学习走向自我进化的代理

Authors: [Hongjin Qian](https://arxiv.org/search/?searchtype=author&query=Hongjin Qian), [Zheng Liu](https://arxiv.org/search/?searchtype=author&query=Zheng Liu)

在这项工作中,我们提出了 MetaAgent,这是一种受边做边学原则启发的代理范式,其中专业知识是通过实践和持续的自我完善来发展的。MetaAgent 从最小的工作流程开始,仅配备基本推理和自适应寻求帮助的能力。当遇到知识差距时,MetaAgent 会生成自然语言帮助请求,这些请求由专用工具路由器路由到最合适的外部工具。当 MetaAgent 解决任务时,它会不断进行自我反思和答案验证,将可作的经验提炼成简洁的文本,并动态地融入到未来的任务环境中。此外,MetaAgent 通过组织其工具使用历史记录,自主构建内部工具和持久的知识库,进一步增强其检索和整合相关信息的能力我们将这种持续的、数据驱动的过程称为 \textit{meta tool learning},通过该过程,MetaAgent 可以逐步完善其推理和工具使用策略,而无需更改模型参数或需要进一步的后训练。在具有挑战性的知识发现基准(包括 GAIA、WebWalkerQA 和 BrowseCamp)上进行评估后,MetaAgent 的性能始终优于基于工作流程的基线,并匹配或超过端到端训练的代理,展示了自我进化的代理系统在强大的通用知识发现方面的前景。我们以 https://github.com/qhjqhj00/MetaAgent 提供源代码。

科目: 人工智能, 计算和语言, 信息检索

发布: 2025-08-01 02:30:32 UTC

#58 使用Khatri–Rao产品在参数效率微调中实现更高的有效排名

Authors: [Paul Albert](https://arxiv.org/search/?searchtype=author&query=Paul Albert), [Frederic Z. Zhang](https://arxiv.org/search/?searchtype=author&query=Frederic Z. Zhang), [Hemanth Saratchandran](https://arxiv.org/search/?searchtype=author&query=Hemanth Saratchandran), [Anton van den Hengel](https://arxiv.org/search/?searchtype=author&query=Anton van den Hengel), [Ehsan Abbasnejad](https://arxiv.org/search/?searchtype=author&query=Ehsan Abbasnejad)

参数高效微调(PEFT)已成为适配大型预训练模型的标准方法。在PEFT方法中,低秩适应(LoRA)取得了显著的成功。然而,最近的研究强调了与全秩替代方案相比其局限性,特别是在应用于多模态和大型语言模型时。在这项工作中,我们使用具有受控光谱属性的合成矩阵近似基准对全秩和低秩 PEFT 方法进行了定量比较。我们的结果证实,LoRA很难近似具有相对平坦的频谱或高频分量的矩阵——这是高有效秩的迹象。为此,我们引入了 KRAdapter,这是一种新颖的 PEFT 算法,它利用 Khatri-Rao 乘积来产生权重更新,通过构造,它倾向于产生具有高有效秩的矩阵乘积。我们展示了 KRAdapter 在高达 1B 参数的视觉语言模型和高达 8B 参数的大型语言模型上的性能提升,特别是在看不见的常识推理任务上。此外,KRAdapter 保持了 LoRA 的内存和计算效率,使其成为微调十亿级参数模型的实用且强大的替代方案。

科目: 机器学习, 计算和语言, 计算机视觉和模式识别

发布: 2025-08-01 00:29:13 UTC

#59 RL-PLUS:通过混合策略优化应对强化学习中LLM的能力边界崩溃

Authors: [Yihong Dong](https://arxiv.org/search/?searchtype=author&query=Yihong Dong), [Xue Jiang](https://arxiv.org/search/?searchtype=author&query=Xue Jiang), [Yongding Tao](https://arxiv.org/search/?searchtype=author&query=Yongding Tao), [Huanyu Liu](https://arxiv.org/search/?searchtype=author&query=Huanyu Liu), [Kechi Zhang](https://arxiv.org/search/?searchtype=author&query=Kechi Zhang), [Lili Mou](https://arxiv.org/search/?searchtype=author&query=Lili Mou), [Rongyu Cao](https://arxiv.org/search/?searchtype=author&query=Rongyu Cao), [Yingwei Ma](https://arxiv.org/search/?searchtype=author&query=Yingwei Ma), [Jue Chen](https://arxiv.org/search/?searchtype=author&query=Jue Chen), [Binhua Li](https://arxiv.org/search/?searchtype=author&query=Binhua Li), [Zhi Jin](https://arxiv.org/search/?searchtype=author&query=Zhi Jin), [Fei Huang](https://arxiv.org/search/?searchtype=author&query=Fei Huang), [Yongbin Li](https://arxiv.org/search/?searchtype=author&query=Yongbin Li), [Ge Li](https://arxiv.org/search/?searchtype=author&query=Ge Li)

具有可验证奖励的强化学习 (RLVR) 显着提高了大型语言模型 (LLM) 的复杂推理能力。然而,由于其固有的政策策略以及 LLM 巨大的行动空间和稀疏的奖励,它很难突破基础 LLM 的固有能力边界。此外,RLVR 可能导致能力边界崩溃,从而缩小 LLM 解决问题的范围。为了解决这个问题,我们提出了RL-PLUS,这是一种将内部利用(即思维)与外部数据(即学习)协同作用的新方法,以实现更强的推理能力并超越基础模型的边界。RL-PLUS 集成了两个核心组件:多重重要性抽样以解决与外部数据的分布不匹配问题,以及基于探索的优势函数以引导模型走向高价值、未探索的推理路径。我们提供理论分析和广泛的实验,以证明我们方法的优越性和普遍性。结果表明,与现有的RLVR方法相比,RL-PLUS在6个数学推理基准上取得了最先进的性能,在6个分布外推理任务上表现出优异的性能。它还在不同的模型家族中实现了一致且显着的收益,平均相对改进范围为 21.1%至 69.2%。此外,跨多个基准的Pass@k曲线表明,RL-PLUS有效地解决了能力边界坍缩问题。

科目: 人工智能, 计算和语言, 机器学习

发布: 2025-07-31 23:55:29 UTC

#60 关于误导性报告的风险:诊断多模态临床人工智能中的文本偏差

Authors: [David Restrepo](https://arxiv.org/search/?searchtype=author&query=David Restrepo), [Ira Ktena](https://arxiv.org/search/?searchtype=author&query=Ira Ktena), [Maria Vakalopoulou](https://arxiv.org/search/?searchtype=author&query=Maria Vakalopoulou), [Stergios Christodoulidis](https://arxiv.org/search/?searchtype=author&query=Stergios Christodoulidis), [Enzo Ferrante](https://arxiv.org/search/?searchtype=author&query=Enzo Ferrante)

临床决策依赖于对医学图像和相关临床报告的综合分析。虽然视觉语言模型 (VLM) 可以为此类任务提供统一的框架,但它们可能会表现出对一种模态的强烈偏见,经常忽略关键的视觉线索而偏向于文本信息。在这项工作中,我们引入了选择性模态转移(SMS),这是一种基于扰动的方法,用于量化模型在二元分类任务中对每种模态的依赖。通过在具有相反标签的样本之间系统地交换图像或文本,我们暴露了特定于模态的偏差。我们评估了六个开源 VLM——四个通才模型和两个针对医学数据进行微调的模型——两个具有不同模式的医学成像数据集:MIMIC-CXR(胸部 X 射线)和 FairVLMed(扫描激光检眼镜检查)。通过评估模型性能以及每个模型在未扰动和扰动设置下的校准,我们揭示了对文本输入的显着依赖性,尽管存在互补的视觉信息,但这种依赖性仍然存在。我们还进行了基于注意力的定性分析,进一步证实图像内容经常被文本细节所掩盖。我们的研究结果强调了设计和评估真正整合视觉和文本线索的多模态医疗模型的重要性,而不是依赖单一模态信号。

科目: 计算机视觉和模式识别, 计算和语言

发布: 2025-07-31 21:35:52 UTC

#61 观看权重:对微调的 LLM 进行无监督监控和控制

Authors: [Ziqian Zhong](https://arxiv.org/search/?searchtype=author&query=Ziqian Zhong), [Aditi Raghunathan](https://arxiv.org/search/?searchtype=author&query=Aditi Raghunathan)

强大的开放权重大型语言模型 (LLM) 的发布通常不会伴随着对其完整训练数据的访问。现有的可解释性方法,特别是那些基于激活的方法,通常需要或假设分布相似的数据。在检测和防御新的潜在威胁(如后门)时,这是一个重大限制,根据定义,后门是分布式的。在这项工作中,我们引入了一种新的方法来理解、监控和控制微调的 LLM,该方法解释权重而不是激活,从而避免了对与未知训练数据分布相似的数据的需求。我们证明,微调模型与其基础模型之间权重差的顶部奇异向量对应于新获得的行为。通过监测沿这些方向的激活的余弦相似性,我们可以高精度地检测微调过程中引入的显着行为。对于在存在秘密触发器时绕过安全机制的后门模型,我们的方法最多可阻止 100% 的攻击,误报率低于 1.2%。对于经历了取消学习的模型,我们可以以高达 95.42% 的准确率检测对已删除主题的推理,甚至可以引导模型恢复“未学习”的信息。除了监控之外,我们的方法还显示出部署前模型审计的潜力:通过分析商业指令调整模型(OLMo、Llama、Qwen),我们能够发现特定于模型的微调重点,包括营销策略和 Midjourney 提示生成。我们的实现可以在 https://github.com/fjzzq2002/WeightWatch 找到。

科目: 机器学习, 计算和语言

发布: 2025-07-31 21:04:12 世界标准时间

#62 基于 LLM 的代理的代码生成调查

Authors: [Yihong Dong](https://arxiv.org/search/?searchtype=author&query=Yihong Dong), [Xue Jiang](https://arxiv.org/search/?searchtype=author&query=Xue Jiang), [Jiaru Qian](https://arxiv.org/search/?searchtype=author&query=Jiaru Qian), [Tian Wang](https://arxiv.org/search/?searchtype=author&query=Tian Wang), [Kechi Zhang](https://arxiv.org/search/?searchtype=author&query=Kechi Zhang), [Zhi Jin](https://arxiv.org/search/?searchtype=author&query=Zhi Jin), [Ge Li](https://arxiv.org/search/?searchtype=author&query=Ge Li)

由大型语言模型 (LLM) 提供支持的代码生成代理正在彻底改变软件开发范式。与以前的代码生成技术不同,代码生成代理具有三个核心特征。1)自主性:能够独立管理整个工作流程,从任务分解到编码和调试。2) 扩展的任务范围:功能不仅限于生成代码片段,还包括整个软件开发生命周期 (SDLC)。3)工程实用性的增强:研究重点从算法创新转向实际工程挑战,如系统可靠性、过程管理和工具集成。该领域最近见证了快速发展和研究爆炸式增长,显示出巨大的应用潜力。本文对基于LLM的代码生成代理领域进行了系统调查。我们追溯了该技术从诞生之初的发展轨迹,并系统地对其核心技术进行了分类,包括单智能体和多智能体架构。此外,该调查还详细介绍了基于 LLM 的代理在整个 SDLC 中的应用,总结了主流评估基准和指标,并对代表性工具进行了分类。最后,通过分析主要挑战,我们确定并提出了该领域未来工作的几个基础性、长期研究方向。

科目: 软件工程, 人工智能, 计算和语言, 机器学习

发布: 2025-07-31 18:17:36 UTC

#63 GPT-4.1 为使用新颖的 Python 库的自动化实验设计设定了标准

Authors: [Nuno Fachada](https://arxiv.org/search/?searchtype=author&query=Nuno Fachada), [Daniel Fernandes](https://arxiv.org/search/?searchtype=author&query=Daniel Fernandes), [Carlos M. Fernandes](https://arxiv.org/search/?searchtype=author&query=Carlos M. Fernandes), [Bruno D. Ferreira-Saraiva](https://arxiv.org/search/?searchtype=author&query=Bruno D. Ferreira-Saraiva), [João P. Matos-Carvalho](https://arxiv.org/search/?searchtype=author&query=João P. Matos-Carvalho)

大型语言模型 (LLM) 作为科学研究中自动生成代码的工具已经发展迅速,但它们解释和使用不熟悉的 Python API 进行复杂计算实验的能力仍然很差。本研究系统地对一系列最先进的法学硕士进行基准测试,以生成功能性 Python 代码,适用于两个越来越具有挑战性的场景:使用 \textit{ParShift} 库进行对话数据分析,以及使用 \textit{pyclugen} 和 \textit{scikit-learn} 进行合成数据生成和聚类。这两个实验都使用结构化的零样本提示,指定详细要求,但省略上下文示例。在多次运行中定量评估模型输出的功能正确性和提示合规性,并通过分析代码执行失败时产生的错误进行定性评估。结果表明,只有一小部分模型能够始终生成正确的可执行代码,其中 GPT-4.1 是唯一在这两项任务中始终成功的模型。除了对 LLM 性能进行基准测试外,这种方法还有助于识别第三方库中的缺陷,例如文档不清晰或实现错误晦涩难懂。总体而言,这些发现凸显了法学硕士目前在端到端科学自动化方面的局限性,并强调了仔细的提示设计、全面的库文档以及语言模型功能的持续进步的必要性。

科目: 软件工程, 人工智能, 计算和语言

发布: 2025-07-30 13:11:29 UTC

#64 使用马尔可夫链框架和ITU-R传播模型进行可扩展频谱可用性预测

Author: [Abir Ray](https://arxiv.org/search/?searchtype=author&query=Abir Ray)

频谱资源在不同时间和空间上往往未得到充分利用,这促使动态频谱接入策略允许辅助用户利用未使用的频率。一个关键的挑战是预测频谱何时何地可用(即主要许可用户未使用),以实现主动和无干扰的访问。本文提出了一个可扩展的频谱可用性预测框架,该框架将主要用户活动的双态马尔可夫链模型与ITU-R的高保真传播模型(特别是建议书P.528和P.2108)相结合。马尔可夫链捕获时间占用模式,而传播模型则结合路径损耗和杂波效应来确定主信号是否超过辅助用户位置的干扰阈值。通过整合这些组件,所提出的方法可以提高准确性预测时间和空间上的频谱机会。我们开发了该方法的系统模型和算法,分析了其可扩展性和计算效率,并讨论了假设、局限性和潜在应用。该框架灵活,可以适应各种频段和场景。结果和分析表明,所提方法能够以较低的计算成本有效地识别可用频谱,适用于认知无线电网络和其他动态频谱共享系统中的实时频谱管理。

科目: 网络和互联网架构, 人工智能, 计算和语言, 数值分析

发布: 2025-07-30 03:22:55 UTC

1.2.2 Artificial Intelligence

2025-08-04 | | Total: 118

#1 揭示隐藏的表示:用于更好的合成内容取证的多模态层分析

Authors: [Tom Or](https://arxiv.org/search/?searchtype=author&query=Tom Or), [Omri Azencot](https://arxiv.org/search/?searchtype=author&query=Omri Azencot)

生成模型在多个数据域中取得了显着的成果,包括图像和文本等。不幸的是,恶意用户利用合成媒体传播错误信息和传播深度伪造。因此,对强大而稳定的假探测器的需求迫在眉睫,尤其是当每天都有新的生成模型出现时。虽然大多数现有的工作训练分类器可以区分真实和虚假信息,但此类工具通常仅在同一系列生成器和数据模态中泛化,从而在其他生成类和数据域上产生较差的结果。对于通用分类器,我们建议使用大型预训练多模态模型来检测生成内容。实际上,我们表明这些模型的潜在代码自然地捕获了区分真假的信息。基于这一观察结果,我们证明,在这些特征上训练的线性分类器可以在各种模态上实现最先进的结果,同时保持计算效率、快速训练,即使在少量设置中也有效。我们的工作主要集中在音频和图像中的虚假检测,以实现超越或匹配强基线方法的性能。

主题: 人工智能

发布: 2025-08-01 17:07:00 UTC

#2 社交媒体中可解释的人工智能推荐的上下文感知可视化:用户对齐解释的愿景

Authors: [Banan Alkhateeb](https://arxiv.org/search/?searchtype=author&query=Banan Alkhateeb), [Ellis Solaiman](https://arxiv.org/search/?searchtype=author&query=Ellis Solaiman)

如今,社交媒体平台努力通过人工智能推荐来改善用户体验,但由于用户不了解其背后的原因,此类推荐的价值逐渐消失。出现这个问题是因为社交媒体中的可解释性是普遍的,并且缺乏与用户特定需求的一致性。在这篇愿景论文中,我们通过提出具有多种解释方法的视觉解释系统,概述了一个用户分割和上下文感知的解释层。所提出的系统由各种用户需求和上下文构成,以不同的可视化形式显示解释,包括面向人工智能专家的技术详细版本和面向非专业用户的简化版本。我们的框架是第一个在单个管道中联合调整解释风格(视觉与数字)和粒度(专家与外行)的框架。拥有 30 X 用户的公共试点将验证其对决策和信任的影响。

科目: 人工智能, 人机交互, 机器学习

发布: 2025-08-01 14:47:47 UTC

#3 通过以数据为中心的多模态可解释人工智能实现透明的自适应学习

Authors: [Maryam Mosleh](https://arxiv.org/search/?searchtype=author&query=Maryam Mosleh), [Marie Devlin](https://arxiv.org/search/?searchtype=author&query=Marie Devlin), [Ellis Solaiman](https://arxiv.org/search/?searchtype=author&query=Ellis Solaiman)

人工智能驱动的自适应学习系统正在通过数据驱动的学习体验调整来重塑教育。然而,其中许多系统缺乏透明度,对决策方式的洞察有限。大多数可解释的人工智能 (XAI) 技术都专注于技术输出,而忽略了用户角色和理解。本文提出了一种混合框架,将传统的XAI技术与生成式AI模型和用户个性化相结合,以生成适合用户需求的多模态、个性化解释。我们将可解释性重新定义为根据用户角色和学习目标量身定制的动态沟通过程。我们概述了该框架的设计、XAI 在教育中的主要局限性以及准确性、公平性和个性化方面的研究方向。我们的目标是转向可解释的人工智能,提高透明度,同时支持以用户为中心的体验。

科目: 人工智能, 人机交互, 机器学习

发布: 2025-08-01 14:36:16 UTC

#4 多波段可变滞后格兰杰因果关系:跨频率因果时间序列推理的统一框架

Authors: [Chakattrai Sookkongwaree](https://arxiv.org/search/?searchtype=author&query=Chakattrai Sookkongwaree), [Tattep Lakmuang](https://arxiv.org/search/?searchtype=author&query=Tattep Lakmuang), [Chainarong Amornbunchornvej](https://arxiv.org/search/?searchtype=author&query=Chainarong Amornbunchornvej)

理解时间序列中的因果关系对于许多领域都至关重要,包括神经科学、经济学和行为科学。格兰杰因果关系是推断时间序列中因果关系的著名技术之一。通常,格兰杰因果关系框架在因果之间具有很强的固定滞后假设,这在复杂系统中通常是不现实的。虽然最近关于可变滞后格兰杰因果关系 (VLGC) 的工作通过允许原因在每个时间点影响具有不同时间滞后的效应来解决这一限制,但它未能解释因果相互作用不仅在时间延迟上而且在不同频段之间也可能变化的事实。例如,在大脑信号中,α 波段活动可能会影响另一个区域,其延迟时间比较慢的 delta 波段振荡更短。在这项工作中,我们形式化了多频段可变滞后格兰杰因果关系(MB-VLGC),并提出了一个新颖的框架,通过显式建模频率相关因果延迟来推广传统VLGC。我们给出了MB-VLGC的正式定义,证明了其理论上的合理性,并提出了一种高效的推理管道。跨多个领域的广泛实验表明,我们的框架在合成数据集和现实世界数据集上都明显优于现有方法,证实了其对任何类型的时间序列数据的广泛适用性。代码和数据集是公开的。

科目: 人工智能, 机器学习, 计量经济学, 方法论

发布: 2025-08-01 14:22:51 UTC

#5 通过视听记录生成和评估多智能体游戏

Author: [Alexia Jolicoeur-Martineau](https://arxiv.org/search/?searchtype=author&query=Alexia Jolicoeur-Martineau)

虽然人工智能擅长生成文本、音频、图像和视频,但创建视频游戏等交互式视听内容仍然具有挑战性。当前的 LLM 可以生成 JavaScript 游戏和动画,但缺乏自动化评估指标,并且难以处理复杂的内容,这些内容通常需要人类团队使用艺术家制作的资产工作数月(多镜头、多代理)。为了解决这些问题,我们构建了一个新的指标和一个多代理系统。我们提出了 AVR-Eval,这是一种使用视听记录 (AVR) 衡量多媒体内容质量的相对指标。全模态模型(处理文本、视频和音频)比较两个内容的 AVR,文本模型审查评估以确定优越性。我们表明 AVR-Eval 可以正确地从损坏或不匹配的内容中识别出良好的内容。我们构建了 AVR-Agent,这是一个多代理系统,从一组多媒体资产(音频、图像、3D 模型)生成 JavaScript 代码。编码代理选择相关资产,生成多个初始代码,使用 AVR-Eval 识别最佳版本,并通过来自 AVR 的全模态代理反馈进行迭代改进。我们使用 AVR-Eval(内容 A 对 B 的胜率)对游戏和动画进行实验。我们发现,AVR-Agent 生成的内容与通过一次性生成的内容相比,胜率明显更高。然而,模型难以有效利用自定义资产和 AVR 反馈,没有显示出更高的胜率。这揭示了一个关键差距:虽然人类受益于高质量的资产和视听反馈,但当前的编码模型似乎没有有效地利用这些资源,这凸显了人类和机器内容创建方法之间的根本差异。

科目: 人工智能, 多智能体系统, 多媒体

发布: 2025-08-01 13:45:13 UTC

#6 从 EMR 数据到临床洞察:用于自动会诊前问卷生成的法学硕士驱动框架

Authors: [Ruiqing Ding](https://arxiv.org/search/?searchtype=author&query=Ruiqing Ding), [Qianfang Sun](https://arxiv.org/search/?searchtype=author&query=Qianfang Sun), [Yongkang Leng](https://arxiv.org/search/?searchtype=author&query=Yongkang Leng), [Hui Yin](https://arxiv.org/search/?searchtype=author&query=Hui Yin), [Xiaojian Li](https://arxiv.org/search/?searchtype=author&query=Xiaojian Li)

预咨询是有效医疗保健服务的关键组成部分。然而,从复杂、庞大的电子病历 (EMR) 中生成全面的会诊前问卷是一项具有挑战性的任务。直接大型语言模型 (LLM) 方法在这项任务中面临困难,特别是在信息完整性、逻辑顺序和疾病水平综合方面。为了解决这个问题,我们提出了一种新颖的多阶段 LLM 驱动框架:第 1 阶段从 EMR 中提取原子断言(带有时间的关键事实);第二阶段通过对EMR语料库中的代表性网络进行聚类,构建个人因果网络并综合疾病知识;第 3 阶段根据这些结构化表示生成量身定制的个人和标准化的特定疾病问卷。该框架通过建立明确的临床知识克服了直接方法的局限性。我们的方法在真实世界的 EMR 数据集上进行评估并由临床专家验证,在信息覆盖率、诊断相关性、可理解性和生成时间方面表现出卓越的性能,凸显了其增强患者信息收集的实际潜力。

主题: 人工智能

发布: 2025-08-01 12:24:49 UTC

#7 MultiSHAP:基于 Shapley 的框架,用于解释多模态 AI 模型中的跨模态交互

Authors: [Zhanliang Wang](https://arxiv.org/search/?searchtype=author&query=Zhanliang Wang), [Kai Wang](https://arxiv.org/search/?searchtype=author&query=Kai Wang)

多模态人工智能模型在需要整合来自视觉和语言等多种模态的信息的任务中取得了令人印象深刻的性能。然而,它们的“黑匣子”性质对在可解释性和可信度至关重要的高风险应用程序中部署构成了主要障碍。如何解释多模态人工智能模型中的跨模态交互仍然是一个重大挑战。虽然现有的模型解释方法,如注意力图和 Grad-CAM,提供了对跨模态关系的粗略洞察,但它们无法精确量化模态之间的协同效应,并且仅限于具有可访问内部权重的开源模型。在这里,我们介绍了 MultiSHAP,这是一个与模型无关的可解释性框架,它利用 Shapley 交互索引将多模态预测归因于细粒度的视觉和文本元素(例如图像补丁和文本标记)之间的成对交互,同时适用于开源和闭源模型。我们的方法提供:(1) 实例级解释,揭示单个样本的协同和抑制跨模态效应 - “为什么模型对此输入进行特定预测”,以及 (2) 数据集级解释,揭示样本之间可推广的交互模式 - “模型如何跨模态整合信息”。在公共多模态基准测试上的实验证实,MultiSHAP 忠实地捕捉了跨模态推理机制,而实际案例研究则证明了其实际实用性。我们的框架可扩展到两种模式之外,为解释复杂的多模态人工智能模型提供了通用解决方案。

主题: 人工智能

发布: 2025-08-01 12:19:18 UTC

#8 Pro2Guard:通过概率模型检查主动执行 LLM 代理安全性的运行时

Authors: [Haoyu Wang](https://arxiv.org/search/?searchtype=author&query=Haoyu Wang), [Chris M. Poskitt](https://arxiv.org/search/?searchtype=author&query=Chris M. Poskitt), [Jun Sun](https://arxiv.org/search/?searchtype=author&query=Jun Sun), [Jiali Wei](https://arxiv.org/search/?searchtype=author&query=Jiali Wei)

大型语言模型 (LLM) 代理在机器人、虚拟助手和 Web 自动化等领域表现出强大的自主能力。然而,它们的随机行为带来了难以预测的重大安全风险。现有的基于规则的执行系统(例如 AgentSpec)专注于制定反应性安全规则,这些规则通常仅在不安全行为迫在眉睫或已经发生时做出响应。这些系统缺乏远见,并且难以应对长期依赖性和分布变化。为了解决这些限制,我们提出了 Pro2Guard,这是一个基于概率可达性分析的主动运行时实施框架。Pro2Guard 将代理行为抽象为符号状态,并从执行跟踪中学习离散时间马尔可夫链 (DTMC)。在运行时,它通过估计达到不安全状态的概率来预测未来的风险,当预测风险超过用户定义的阈值时,在违规发生之前触发干预。通过结合语义有效性检查并利用 PAC 边界,Pro2Guard 确保统计可靠性,同时近似底层地面实况模型。我们在两个安全关键领域广泛评估 Pro2Guard:具身家用代理和自动驾驶汽车。在具身代理任务中,Pro2Guard 使用低阈值在高达 93.6% 的不安全任务中尽早实施安全性,而可配置模式(例如,反映)允许平衡安全性与任务成功,保持高达 80.4% 的任务完成率。在自动驾驶场景下,Pro2Guard实现100%对交通违规和碰撞的预测,预测前方风险长达38.66秒。

科目: 人工智能, 软件工程

发布: 2025-08-01 10:24:47 UTC

#9 思维机器:法学硕士时代的数学推理

Authors: [Andrea Asperti](https://arxiv.org/search/?searchtype=author&query=Andrea Asperti), [Alberto Naibo](https://arxiv.org/search/?searchtype=author&query=Alberto Naibo), [Claudio Sacerdoti Coen](https://arxiv.org/search/?searchtype=author&query=Claudio Sacerdoti Coen)

大型语言模型 (LLM) 在结构化推理和符号任务方面表现出卓越的能力,其中编码成为一个特定的优势领域。这一成功引发了人们对将法学硕士应用于数学的兴趣日益浓厚,无论是在非正式问题解决还是形式定理证明方面。然而,尽管编程和证明构造之间表面上存在相似之处,但形式数学的进步已被证明要困难得多。这种差异引发了关于法学硕士如何“推理”、它们如何被监督以及它们是否在内部跟踪计算状态或演绎状态概念的重要问题。在本文中,我们讨论了该学科的最新技术,重点关注最近的模型和基准,并探讨了机器学习和数学认知交叉点的三个核心问题:(i)作为训练领域的形式数学和非正式数学之间的权衡;(ii) 证明生成仍然比代码合成更脆弱的更深层次的原因;(iii) 以及法学硕士是否代表或仅仅模仿不断发展的逻辑状态的概念的问题。我们的目标不是划定硬性界限,而是确定当前的界限在哪里,以及如何扩大这些界限。

主题: 人工智能

发布: 2025-08-01 09:31:48 UTC

#10 Cognitive Kernel-Pro:深度研究代理和代理基础模型训练的框架

Authors: [Tianqing Fang](https://arxiv.org/search/?searchtype=author&query=Tianqing Fang), [Zhisong Zhang](https://arxiv.org/search/?searchtype=author&query=Zhisong Zhang), [Xiaoyang Wang](https://arxiv.org/search/?searchtype=author&query=Xiaoyang Wang), [Rui Wang](https://arxiv.org/search/?searchtype=author&query=Rui Wang), [Can Qin](https://arxiv.org/search/?searchtype=author&query=Can Qin), [Yuxuan Wan](https://arxiv.org/search/?searchtype=author&query=Yuxuan Wan), [Jun-Yu Ma](https://arxiv.org/search/?searchtype=author&query=Jun-Yu Ma), [Ce Zhang](https://arxiv.org/search/?searchtype=author&query=Ce Zhang), [Jiaqi Chen](https://arxiv.org/search/?searchtype=author&query=Jiaqi Chen), [Xiyun Li](https://arxiv.org/search/?searchtype=author&query=Xiyun Li), [Hongming Zhang](https://arxiv.org/search/?searchtype=author&query=Hongming Zhang), [Haitao Mi](https://arxiv.org/search/?searchtype=author&query=Haitao Mi), [Dong Yu](https://arxiv.org/search/?searchtype=author&query=Dong Yu)

通用人工智能代理越来越被认为是下一代人工智能的基础框架,可实现复杂的推理、网络交互、编码和自主研究能力。然而,当前的代理系统要么是闭源的,要么严重依赖各种付费 API 和专有工具,限制了研究界的可访问性和可重复性。在这项工作中,我们提出了 \textbf{Cognitive Kernel-Pro},这是一个完全开源且(最大程度上)免费的多模块代理框架,旨在使高级 AI 代理的开发和评估民主化。在 Cognitive Kernel-Pro 中,我们系统地研究了 Agent Foundation Model 高质量训练数据的管理,重点是跨四个关键领域(Web、文件、代码和一般推理)构建查询、轨迹和可验证答案。此外,我们探索了智能体测试时反思和投票的新策略,以增强智能体的鲁棒性和性能。我们在 GAIA 上评估 Cognitive Kernel-Pro,在开源和自由代理中取得了最先进的结果。值得注意的是,我们的 8B 参数开源模型超越了 WebDancer 和 WebSailor 等之前的领先系统,为可访问、高性能的 AI 代理建立了新的性能标准。代码可在 https://github.com/Tencent/CognitiveKernel-Pro 获得

科目: 人工智能, 计算和语言

发布: 2025-08-01 08:11:31 UTC

#11 使用主动推理的心智理论:多智能体合作的框架

Authors: [Riddhi J. Pitliya](https://arxiv.org/search/?searchtype=author&query=Riddhi J. Pitliya), [Ozan Catal](https://arxiv.org/search/?searchtype=author&query=Ozan Catal), [Toon Van de Maele](https://arxiv.org/search/?searchtype=author&query=Toon Van de Maele), [Corrado Pezzato](https://arxiv.org/search/?searchtype=author&query=Corrado Pezzato), [Tim Verbelen](https://arxiv.org/search/?searchtype=author&query=Tim Verbelen)

我们通过在主动推理中实施心智理论 (ToM) 提出了一种多智能体合作的新方法。ToM——理解他人可能有不同知识和目标的能力——使代理人能够在计划自己的行动时推理他人的信念。与以前的多智能体协作主动推理方法不同,我们的方法既不依赖于特定于任务的共享生成模型,也不需要显式通信,同时具有通用性。在我们的框架中,配备 ToM 的代理保持着自己和他人的信念和目标的不同表示。我们扩展了复杂的基于推理树的规划算法,通过递归推理系统地探索联合政策空间。我们的方法是通过避免碰撞和觅食任务模拟来评估的。结果表明,与未配备 ToM 的代理相比,配备 ToM 的代理能够避免碰撞并减少冗余工作,从而更好地合作。至关重要的是,ToM 代理通过仅从可观察的行为中推断他人的信念来实现这一目标。这项工作推进了人工智能的实际应用,同时提供了对 ToM 的计算见解。

科目: 人工智能, 多智能体系统

发布: 2025-08-01 08:02:35 UTC

#12 CoRGI:经过验证的思维链推理与视觉基础

Authors: [Shixin Yi](https://arxiv.org/search/?searchtype=author&query=Shixin Yi), [Lin Shang](https://arxiv.org/search/?searchtype=author&query=Lin Shang)

思维链 (CoT) 提示在改善视觉语言模型 (VLM) 的推理方面显示出希望,但它通常会产生语言流畅但缺乏视觉内容基础的解释。我们观察到,这种幻觉部分是由于在多步骤推理过程中缺乏明确的验证机制。为了解决这个问题,我们提出了 \textbf{CoRGI}(\textbf{C}hain \textbf{o}f \textbf{R}easoning with \textbf{G}rounded \textbf{I}nsights),这是一个模块化框架,将视觉验证引入推理过程。CoRGI遵循一个三阶段的管道:它首先生成一个文本推理链,然后通过专用模块(VEVM)提取每个推理步骤的支持视觉证据,最后将文本基本原理与视觉证据合成,以生成一个有根据的、经过验证的答案。该框架可以与现有 VLM 集成,无需端到端重新训练。我们在VCR基准测试上评估了CoRGI,发现它提高了两个具有代表性的开源VLM主干Qwen-2.5VL和LLaVA-1.6的推理性能。消融研究证实了验证模块中每个步骤的贡献,人类评估表明 CoRGI 会带来更真实和有用的解释。我们还研究了视觉验证步骤的替代设计,并讨论了事后验证框架的潜在局限性。这些发现强调了将中间推理步骤建立在视觉证据中以增强多模态推理的稳健性的重要性。

科目: 人工智能, 计算机视觉和模式识别

发布: 2025-08-01 07:17:12 UTC

#13 R1-ACT:激活安全知识的高效推理模型安全对齐

Authors: [Yeonjun In](https://arxiv.org/search/?searchtype=author&query=Yeonjun In), [Wonjoong Kim](https://arxiv.org/search/?searchtype=author&query=Wonjoong Kim), [Sangwu Park](https://arxiv.org/search/?searchtype=author&query=Sangwu Park), [Chanyoung Park](https://arxiv.org/search/?searchtype=author&query=Chanyoung Park)

尽管大型推理模型 (LRM) 在复杂任务上表现出了令人印象深刻的能力,但最近的研究表明,这些模型经常执行有害的用户指令,引发了严重的安全问题。本文对LRM安全风险的根本原因进行了调查,发现模型已经具备了足够的安全知识,但在推理过程中未能激活。基于这一见解,我们提出了 R1-Act,这是一种简单高效的后训练方法,通过结构化推理过程明确触发安全知识。R1-Act 在保持推理性能的同时实现了强大的安全性改进,优于以前的对齐方法。值得注意的是,它只需要 1,000 个训练示例和在单个 RTX A90 GPU 上进行 6000 分钟的训练。跨多个 LRM 主干和尺寸的广泛实验证明了我们方法的稳健性、可扩展性和实际效率。

科目: 人工智能, 计算和语言

发布: 2025-08-01 05:14:13 UTC

#14 俄狄浦斯与狮身人面像:对复杂图形推理的视觉语言模型进行基准测试和改进

Authors: [Jianyi Zhang](https://arxiv.org/search/?searchtype=author&query=Jianyi Zhang), [Xu Ji](https://arxiv.org/search/?searchtype=author&query=Xu Ji), [Ziyin Zhou](https://arxiv.org/search/?searchtype=author&query=Ziyin Zhou), [Yuchen Zhou](https://arxiv.org/search/?searchtype=author&query=Yuchen Zhou), [Shubo Shi](https://arxiv.org/search/?searchtype=author&query=Shubo Shi), [Haoyu Wu](https://arxiv.org/search/?searchtype=author&query=Haoyu Wu), [Zhen Li](https://arxiv.org/search/?searchtype=author&query=Zhen Li), [Shizhao Liu](https://arxiv.org/search/?searchtype=author&query=Shizhao Liu)

评估视觉语言模型(VLMs)在图形推理任务中的性能已成为一个重要的研究课题。然而,VLM在模拟人类水平的图形推理能力方面仍表现出明显的不足,特别是在复杂的图形推理和抽象问题解决方面,这些研究较少,现有研究仅集中在简单的图形上。为了评估VLM在复杂图形推理中的性能,我们提出了ReasonBench,这是第一个专注于结构化图形推理任务的评估基准,其中包括来自真实世界智力测试的1613个问题。ReasonBench涵盖了与位置、属性、数量和多要素任务相关的推理维度,对VLM在空间、关系和抽象推理能力方面的表现进行了全面的评估。我们对 11 个主流 VLM(包括闭源和开源模型)进行了基准测试,并揭示了当前模型的重大局限性。基于这些发现,我们提出了一种双重优化策略:图式推理链(Diagrammatic Reasoning Chain,DiaCoT)通过分解层来增强推理的可解释性,ReasonTune通过训练增强模型推理的任务适应性,所有这些都使VLM性能提高了33.5%。所有实验数据和代码都在存储库中:https://huggingface.co/datasets/cistine/ReasonBench。

主题: 人工智能

发布: 2025-08-01 05:12:38 UTC

#15 注意差距:人类和法学硕士生成的任务之间的分歧

Authors: [Yi-Long Lu](https://arxiv.org/search/?searchtype=author&query=Yi-Long Lu), [Jiajun Song](https://arxiv.org/search/?searchtype=author&query=Jiajun Song), [Chunhui Zhang](https://arxiv.org/search/?searchtype=author&query=Chunhui Zhang), [Wei Wang](https://arxiv.org/search/?searchtype=author&query=Wei Wang)

人类在内在动机的指导下不断产生各种各样的任务。虽然由大型语言模型 (LLM) 驱动的生成代理旨在模拟这种复杂的行为,但目前仍不确定它们是否按照类似的认知原理运行。为了解决这个问题,我们进行了一项任务生成实验,将人类的反应与 LLM 代理 (GPT-4o) 的反应进行比较。我们发现,人类任务的产生始终受到心理驱动因素的影响,包括个人价值观(例如,对变革的开放性)和认知风格。即使这些心理驱动因素被明确提供给法学硕士,它也无法反映相应的行为模式。它们产生的任务的社交性明显较低,身体性较差,并且在主题上偏向于抽象。有趣的是,虽然法学硕士的任务被认为更有趣、更新颖,但这凸显了其语言能力与产生类似人类的具体目标的能力之间的脱节。我们得出的结论是,人类认知的价值驱动、具身性质与法学硕士的统计模式之间存在核心差距,这凸显了将内在动机和物理基础纳入更符合人类的智能体设计的必要性。

科目: 人工智能, 计算和语言

发布: 2025-08-01 03:00:41 世界标准时间

#16 MetaAgent:通过工具元学习走向自我进化的代理

Authors: [Hongjin Qian](https://arxiv.org/search/?searchtype=author&query=Hongjin Qian), [Zheng Liu](https://arxiv.org/search/?searchtype=author&query=Zheng Liu)

在这项工作中,我们提出了 MetaAgent,这是一种受边做边学原则启发的代理范式,其中专业知识是通过实践和持续的自我完善来发展的。MetaAgent 从最小的工作流程开始,仅配备基本推理和自适应寻求帮助的能力。当遇到知识差距时,MetaAgent 会生成自然语言帮助请求,这些请求由专用工具路由器路由到最合适的外部工具。当 MetaAgent 解决任务时,它会不断进行自我反思和答案验证,将可作的经验提炼成简洁的文本,并动态地融入到未来的任务环境中。此外,MetaAgent 通过组织其工具使用历史记录,自主构建内部工具和持久的知识库,进一步增强其检索和整合相关信息的能力我们将这种持续的、数据驱动的过程称为 \textit{meta tool learning},通过该过程,MetaAgent 可以逐步完善其推理和工具使用策略,而无需更改模型参数或需要进一步的后训练。在具有挑战性的知识发现基准(包括 GAIA、WebWalkerQA 和 BrowseCamp)上进行评估后,MetaAgent 的性能始终优于基于工作流程的基线,并匹配或超过端到端训练的代理,展示了自我进化的代理系统在强大的通用知识发现方面的前景。我们以 https://github.com/qhjqhj00/MetaAgent 提供源代码。

科目: 人工智能, 计算和语言, 信息检索

发布: 2025-08-01 02:30:32 UTC

#17 RL-PLUS:通过混合策略优化应对强化学习中LLM的能力边界崩溃

Authors: [Yihong Dong](https://arxiv.org/search/?searchtype=author&query=Yihong Dong), [Xue Jiang](https://arxiv.org/search/?searchtype=author&query=Xue Jiang), [Yongding Tao](https://arxiv.org/search/?searchtype=author&query=Yongding Tao), [Huanyu Liu](https://arxiv.org/search/?searchtype=author&query=Huanyu Liu), [Kechi Zhang](https://arxiv.org/search/?searchtype=author&query=Kechi Zhang), [Lili Mou](https://arxiv.org/search/?searchtype=author&query=Lili Mou), [Rongyu Cao](https://arxiv.org/search/?searchtype=author&query=Rongyu Cao), [Yingwei Ma](https://arxiv.org/search/?searchtype=author&query=Yingwei Ma), [Jue Chen](https://arxiv.org/search/?searchtype=author&query=Jue Chen), [Binhua Li](https://arxiv.org/search/?searchtype=author&query=Binhua Li), [Zhi Jin](https://arxiv.org/search/?searchtype=author&query=Zhi Jin), [Fei Huang](https://arxiv.org/search/?searchtype=author&query=Fei Huang), [Yongbin Li](https://arxiv.org/search/?searchtype=author&query=Yongbin Li), [Ge Li](https://arxiv.org/search/?searchtype=author&query=Ge Li)

具有可验证奖励的强化学习 (RLVR) 显着提高了大型语言模型 (LLM) 的复杂推理能力。然而,由于其固有的政策策略以及 LLM 巨大的行动空间和稀疏的奖励,它很难突破基础 LLM 的固有能力边界。此外,RLVR 可能导致能力边界崩溃,从而缩小 LLM 解决问题的范围。为了解决这个问题,我们提出了RL-PLUS,这是一种将内部利用(即思维)与外部数据(即学习)协同作用的新方法,以实现更强的推理能力并超越基础模型的边界。RL-PLUS 集成了两个核心组件:多重重要性抽样以解决与外部数据的分布不匹配问题,以及基于探索的优势函数以引导模型走向高价值、未探索的推理路径。我们提供理论分析和广泛的实验,以证明我们方法的优越性和普遍性。结果表明,与现有的RLVR方法相比,RL-PLUS在6个数学推理基准上取得了最先进的性能,在6个分布外推理任务上表现出优异的性能。它还在不同的模型家族中实现了一致且显着的收益,平均相对改进范围为 21.1%至 69.2%。此外,跨多个基准的Pass@k曲线表明,RL-PLUS有效地解决了能力边界坍缩问题。

科目: 人工智能, 计算和语言, 机器学习

发布: 2025-07-31 23:55:29 UTC

#18 基于模型的长期人力适宜指标软最大化

Authors: [Jobst Heitzig](https://arxiv.org/search/?searchtype=author&query=Jobst Heitzig), [Ram Potham](https://arxiv.org/search/?searchtype=author&query=Ram Potham)

权力是人工智能安全的关键概念:权力寻求作为工具性目标、人类的突然或逐渐剥夺权力、人与人工智能交互中的权力平衡以及国际人工智能治理。同时,权力作为追求不同目标的能力对于幸福至关重要。本文探讨了通过强制人工智能代理明确赋予人类权力并以理想的方式管理人类和人工智能代理之间的权力平衡来促进安全和福祉的想法。使用有原则的、部分公理化的方法,我们设计了一个可参数化和可分解的目标函数,它代表了不平等和规避风险的长期人力总量。它考虑了人类有限的理性和社会规范,最重要的是,考虑了各种可能的人类目标。我们推导出算法,通过向后归纳或通过给定世界模型中的多智能体强化学习形式对其进行近似来计算该指标。我们举例说明了在各种范式情况下(轻柔地)最大化该指标的后果,并描述了它可能意味着哪些工具性子目标。我们谨慎的评估是,软最大化合适的人力聚合指标可能构成智能体人工智能系统的有益目标,比基于效用的直接目标更安全。

科目: 人工智能, 计算机与社会, 机器学习, 理论经济学, 优化与控制

发布: 2025-07-31 20:56:43 UTC

#19 超越协议:重新思考教育人工智能注释中的基本事实

Authors: [Danielle R. Thomas](https://arxiv.org/search/?searchtype=author&query=Danielle R. Thomas), [Conrad Borchers](https://arxiv.org/search/?searchtype=author&query=Conrad Borchers), [Kenneth R. Koedinger](https://arxiv.org/search/?searchtype=author&query=Kenneth R. Koedinger)

人类可能是出了名的不完美的评估者。它们通常有偏见、不可靠,并且不适合定义“基本事实”。然而,鉴于使用 AI 在教育应用中生成大量训练数据的需求激增,Cohen 的 kappa 等传统评估者间可靠性 (IRR) 指标仍然是验证标记数据的核心。IRR 仍然是许多教育数据机器学习管道的基石。例如,对导师在对话中的动作进行分类,或在机器评分评估中标记开放式回答。本立场文件认为,过度依赖人类 IRR 作为注释质量的看门人会阻碍以有效和预测的方式对数据进行分类,从而改善学习。为了解决这个问题,我们重点介绍了五个互补评估方法的例子,例如多标签注释方案、基于专家的方法和闭环有效性。我们认为,与单独的 IRR 方法相比,这些方法更能产生训练数据和后续模型,从而改善学生的学习和更可作的见解。我们还强调外部有效性的重要性,例如,通过建立验证导师动作的程序并证明它适用于许多类别的导师作(例如,提供提示)。我们呼吁该领域重新思考注释质量和基本事实——优先考虑有效性和教育影响,而不是仅仅达成共识。

科目: 人工智能, 计算机与社会

发布: 2025-07-31 20:05:26 UTC

#20 联合生产人工智能:迈向增强的参与式生命周期

Authors: [Rashid Mushkani](https://arxiv.org/search/?searchtype=author&query=Rashid Mushkani), [Hugo Berard](https://arxiv.org/search/?searchtype=author&query=Hugo Berard), [Toumadher Ammar](https://arxiv.org/search/?searchtype=author&query=Toumadher Ammar), [Cassandre Chatonnier](https://arxiv.org/search/?searchtype=author&query=Cassandre Chatonnier), [Shin Koseki](https://arxiv.org/search/?searchtype=author&query=Shin Koseki)

尽管努力减轻人工智能 (AI) 算法的固有风险和偏见,但这些算法可能会对文化边缘化群体产生不成比例的影响。已经提出了一系列方法来应对或降低这些风险,包括制定负责任的人工智能的道德准则和原则,以及促进算法公平的技术解决方案。借鉴设计正义、扩展学习理论和最近关于参与式人工智能的实证工作,我们认为减轻这些危害需要从根本上重新构建人工智能生产管道。这种重新设计应以联合制作、多样性、公平性、包容性 (DEI) 和多学科合作为中心。我们引入了一个增强的人工智能生命周期,由五个相互关联的阶段组成:共同构建、共同设计、共同实施、共同部署和共同维护。该生命周期由四个多学科研讨会提供信息,并以分布式权威和迭代知识交流为主题。最后,我们将拟议的生命周期与几个领先的伦理框架联系起来,并概述了扩大参与式治理的关键研究问题。

主题: 人工智能

发布: 2025-07-31 19:58:58 UTC

#21 图形更新下的 SHACL 验证(扩展论文)

Authors: [Shqiponja Ahmetaj](https://arxiv.org/search/?searchtype=author&query=Shqiponja Ahmetaj), [George Konstantinidis](https://arxiv.org/search/?searchtype=author&query=George Konstantinidis), [Magdalena Ortiz](https://arxiv.org/search/?searchtype=author&query=Magdalena Ortiz), [Paolo Pareti](https://arxiv.org/search/?searchtype=author&query=Paolo Pareti), [Mantas Simkus](https://arxiv.org/search/?searchtype=author&query=Mantas Simkus)

SHACL(SHApe 约束语言)是一种用于 RDF 图的 W3C 标准化约束语言。在本文中,我们研究了更新下的 RDF 图中的 SHACL 验证。我们提出了一种基于SHACL的更新语言,可以捕获RDF图上直观和真实的修改,并研究此类更新下的静态验证问题。此问题要求验证验证每个验证 SHACL 规范的图形在应用给定更新序列后是否仍会这样做。更重要的是,它为进一步推理不断发展的 RDF 图提供了基础。使用将更新作嵌入到 SHACL 约束中的回归技术,我们表明更新下的静态验证可以简化为 SHACL 中约束的(不)可满足性。分析了SHACL静态验证问题的计算复杂度和一些关键片段。最后,我们提出了一个原型实现,该实现对SHACL约束执行静态验证和其他静态分析任务,并通过初步实验演示了其行为。

主题: 人工智能

发布: 2025-07-31 19:58:16 UTC

#22 多标准决策分析中排名反转、传递性违规和分解不一致的算法检测

Authors: [Agustín Borda](https://arxiv.org/search/?searchtype=author&query=Agustín Borda), [Juan Bautista Cabral](https://arxiv.org/search/?searchtype=author&query=Juan Bautista Cabral), [Gonzalo Giarda](https://arxiv.org/search/?searchtype=author&query=Gonzalo Giarda), [Diego Nicolás Gimenez Irusta](https://arxiv.org/search/?searchtype=author&query=Diego Nicolás Gimenez Irusta), [Paula Pacheco](https://arxiv.org/search/?searchtype=author&query=Paula Pacheco), [Alvaro Roy Schachner](https://arxiv.org/search/?searchtype=author&query=Alvaro Roy Schachner)

在多标准决策分析中,排名反转是一个严重的问题,会极大地影响针对一组特定备选方案的多标准决策方法的结果。因此,拥有一种机制可以衡量一种方法在一组替代方案上的性能是有用的。这个想法可以进一步建立一个全球排名,以建立解决问题的不同方法的有效性的全球排名。在本文中,我们提出了三个检测排名反转存在的测试,以及它们在 Scikit-Criteria 库中的实现。我们还解决了在一般场景中实施这些测试时出现的复杂性,以及我们为处理这些测试所做的设计注意事项。最后,我们讨论了这些添加如何在判断解决问题的多标准决策方法中发挥重要作用。

科目: 人工智能, 优化与控制

发布: 2025-07-31 19:31:41 UTC

#23 没有 PI 就没有 AI!以对象为中心的流程挖掘是生成式、预测性和规范性人工智能的推动者

Author: [Wil M. P. van der Aalst](https://arxiv.org/search/?searchtype=author&query=Wil M. P. van der Aalst)

人工智能 (AI) 的采用影响着我们工作、互动、开展业务和进行研究的方式。然而,组织很难在重点是端到端运营流程的工业环境中成功应用人工智能。在这里,我们考虑了生成式、预测性和规范性人工智能,并详细阐述了诊断和改进此类流程的挑战。我们表明,人工智能需要使用以对象为中心的过程挖掘 (OCPM) 来扎根。与流程相关的数据是结构化的和特定于组织的,与文本不同,流程通常是高度动态的。OCPM 是连接数据和流程的缺失环节,并支持不同形式的 AI。我们使用术语“过程智能 (PI) 来指以流程为中心的数据驱动技术的融合,能够处理各种对象和事件类型,从而在组织环境中实现人工智能。本文解释了为什么 AI 需要 PI 来改进运营流程,并强调了成功将 OCPM 与生成式、预测性和规范性 AI 相结合的机会。

主题: 人工智能

发布: 2025-07-31 19:11:51 UTC

#24 超属性约束安全强化学习

Authors: [Ernest Bonnah](https://arxiv.org/search/?searchtype=author&query=Ernest Bonnah), [Luan Viet Nguyen](https://arxiv.org/search/?searchtype=author&query=Luan Viet Nguyen), [Khaza Anuarul Hoque](https://arxiv.org/search/?searchtype=author&query=Khaza Anuarul Hoque)

时间窗口时间逻辑的超属性 (HyperTWTL) 是一种特定于领域的形式规范语言,以其在紧凑表示机器人应用程序的安全性、不透明度和并发属性方面的有效性而闻名。本文重点研究了HyperTWTL约束的安全强化学习(SecRL)。尽管时间逻辑约束的安全强化学习(SRL)是一个不断发展的研究问题,已有几篇文献,但在探索使用超属性的安全感知强化学习(RL)方面存在重大研究差距。鉴于代理的动力学作为马尔可夫决策过程(MDP)和形式化为HyperTWTL的不透明度/安全约束,我们提出了一种在满足HyperTWTL约束的同时使用动态玻尔兹曼软max RL学习安全感知最优策略的方法。我们提出的方法的有效性和可扩展性通过取货和送货机器人任务案例研究进行了证明。我们还将我们的结果与其他两种基线 RL 算法进行了比较,表明我们提出的方法优于它们。

科目: 人工智能, 机器学习, 计算机科学中的逻辑, 系统与控制

发布: 2025-07-31 18:57:18 UTC

#25 重新思考医学语言基准中的证据层次结构:对 HealthBench 的批判性评估

Authors: [Fred Mutisya](https://arxiv.org/search/?searchtype=author&query=Fred Mutisya), [Shikoh Gitau](https://arxiv.org/search/?searchtype=author&query=Shikoh Gitau), [Nasubo Ongoma](https://arxiv.org/search/?searchtype=author&query=Nasubo Ongoma), [Keith Mbae](https://arxiv.org/search/?searchtype=author&query=Keith Mbae), [Elizabeth Wamicha](https://arxiv.org/search/?searchtype=author&query=Elizabeth Wamicha)

HealthBench 是一个旨在衡量人工智能系统更好地促进健康的能力的基准(Arora 等人,2025 年),它通过医生精心设计的对话和透明的评分标准,对医学语言模型进行了先进的评估。然而,它对专家意见而不是高级临床证据的依赖,有可能编纂区域偏见和个别临床医生的特质,而自动分级系统中的潜在偏见进一步加剧了这种情况。这些限制在低收入和中等收入环境中尤其严重,这些地区普遍存在被忽视的热带病覆盖率稀疏和特定地区的指南不匹配等问题。非洲背景的独特挑战,包括数据稀缺、基础设施不足和新生的监管框架,凸显了迫切需要更具全球相关性和公平的基准。为了解决这些缺点,我们建议在版本控制的临床实践指南 (CPG) 中锚定奖励函数,其中包含系统评价和 GRADE 证据评级。我们的路线图通过评分标准与指南的链接、证据加权评分和上下文覆盖逻辑概述了“证据稳健”的强化学习,并辅以对伦理考虑和延迟结果反馈整合的关注。通过将奖励重新建立在经过严格审查的 CPG 中,同时保持 HealthBench 的透明度和医生参与度,我们的目标是培育不仅在语言上经过完善,而且在临床上值得信赖、道德上合理且具有全球相关性的医学语言模型。

主题: 人工智能

发布: 2025-07-31 18:16:10 UTC

#26 他们理解它们吗?大型语言模型中非二元代词处理的最新评估

Authors: [Xushuo Tang](https://arxiv.org/search/?searchtype=author&query=Xushuo Tang), [Yi Ding](https://arxiv.org/search/?searchtype=author&query=Yi Ding), [Zhengyi Yang](https://arxiv.org/search/?searchtype=author&query=Zhengyi Yang), [Yin Chen](https://arxiv.org/search/?searchtype=author&query=Yin Chen), [Yongrui Gu](https://arxiv.org/search/?searchtype=author&query=Yongrui Gu), [Wenke Yang](https://arxiv.org/search/?searchtype=author&query=Wenke Yang), [Mingchen Ju](https://arxiv.org/search/?searchtype=author&query=Mingchen Ju), [Xin Cao](https://arxiv.org/search/?searchtype=author&query=Xin Cao), [Yongfei Liu](https://arxiv.org/search/?searchtype=author&query=Yongfei Liu), [Wenjie Zhang](https://arxiv.org/search/?searchtype=author&query=Wenjie Zhang)

大型语言模型 (LLM) 越来越多地部署在公平性和包容性至关重要的敏感环境中。代词的使用,尤其是关于中性和新代词的使用,仍然是负责任的人工智能面临的关键挑战。之前的工作,例如性别不严的基准,揭示了早期法学硕士在处理包容性代词方面的重大局限性,但仅限于过时的模型和有限的评估。在这项研究中,我们引入了 MISGENDERED+,这是一个用于评估法学硕士代词保真度的扩展和更新基准。我们对五个代表性的 LLM 进行了基准测试,GPT-4o、Claude 4、DeepSeek-V3、Qwen Turbo 和 Qwen2.5,涵盖零样本、少量和性别认同推理。我们的结果显示,与之前的研究相比,有显着的改进,特别是在二元和中性代词的准确性方面。然而,新代词和反向推理任务的准确性仍然不一致,凸显了身份敏感推理中持续存在的差距。我们讨论了未来包容性人工智能研究的影响、特定模型的观察结果和途径。

科目: 计算和语言, 人工智能

发布: 2025-08-01 17:11:42 UTC

#27 SpA2V:利用空间听觉线索生成音频驱动的空间感知视频

Authors: [Kien T. Pham](https://arxiv.org/search/?searchtype=author&query=Kien T. Pham), [Yingqing He](https://arxiv.org/search/?searchtype=author&query=Yingqing He), [Yazhou Xing](https://arxiv.org/search/?searchtype=author&query=Yazhou Xing), [Qifeng Chen](https://arxiv.org/search/?searchtype=author&query=Qifeng Chen), [Long Chen](https://arxiv.org/search/?searchtype=author&query=Long Chen)

音频驱动的视频生成旨在合成与输入录音相符的逼真视频,类似于人类从听觉输入中可视化场景的能力。然而,现有方法主要侧重于探索语义信息,例如音频中存在的声源类别,限制了它们生成具有准确内容和空间构成的视频的能力。相比之下,我们人类不仅可以自然地识别声源的语义类别,还可以确定其深度编码的空间属性,包括位置和运动方向。这些有用的信息可以通过考虑源自声音固有物理特性(例如响度或频率)的特定空间指标来阐明。由于先前的方法在很大程度上忽略了这一因素,因此我们提出了 SpA2V,第一个框架明确利用来自音频的这些空间听觉线索来生成具有高度语义和空间对应关系的视频。SpA2V 将生成过程分解为两个阶段:1) 音频引导视频规划:我们精心调整了最先进的 MLLM,以应对一项新颖的任务,即利用输入音频中的空间和语义线索来构建视频场景布局 (VSL)。这作为弥合音频和视频模式之间差距的中间表示。2)基于布局的视频生成:我们开发了一种高效且有效的方法,将VSL作为条件引导无缝集成到预训练的扩散模型中,从而以免训练的方式实现基于VSL的视频生成。大量实验表明,SpA2V 擅长生成逼真的视频,其语义和空间与输入音频保持一致。

科目: 图形, 人工智能, 计算机视觉和模式识别, 多媒体, 声音, 音频和语音处理

发布: 2025-08-01 17:05:04 UTC

#28 用于医学图像到图像转换的样本感知测试时间适应

Authors: [Irene Iele](https://arxiv.org/search/?searchtype=author&query=Irene Iele), [Francesco Di Feola](https://arxiv.org/search/?searchtype=author&query=Francesco Di Feola), [Valerio Guarrasi](https://arxiv.org/search/?searchtype=author&query=Valerio Guarrasi), [Paolo Soda](https://arxiv.org/search/?searchtype=author&query=Paolo Soda)

图像到图像的转换已成为医学成像领域的一项强大技术,可实现图像去噪和跨模态转换等任务。然而,它在处理分布外样本而不导致性能下降方面存在局限性。为了解决这一限制,我们提出了一种新颖的测试时间适应(TTA)框架,该框架可以根据每个测试样本的特性动态调整翻译过程。我们的方法引入了一个重建模块来量化域偏移,以及一个动态适应块,该模块有选择地修改预训练翻译模型的内部特征,以减轻偏移,而不会影响不需要适应的分布内样本的性能。我们评估了我们在两项医学图像到图像翻译任务上的方法:低剂量 CT 去噪和 T1 到 T2 MRI 翻译,显示出与没有 TTA 的基线翻译模型和先前的 TTA 方法相比的一致改进。我们的分析强调了将适应统一应用于分布外和分布内样本的最先进技术的局限性,表明动态的、特定于样本的调整为提高模型在现实场景中的弹性提供了一条有前途的途径。该代码可在以下网址获得:https://github.com/cosbidev/Sample-Aware_TTA。

科目: 计算机视觉和模式识别, 人工智能

发布: 2025-08-01 16:41:15 UTC

#29 MMBERT:用于隐身扰动下鲁棒中文仇恨言论检测的规模化专家混合多模态BERT

Authors: [Qiyao Xue](https://arxiv.org/search/?searchtype=author&query=Qiyao Xue), [Yuchen Dou](https://arxiv.org/search/?searchtype=author&query=Yuchen Dou), [Ryan Shi](https://arxiv.org/search/?searchtype=author&query=Ryan Shi), [Xiang Lorraine Li](https://arxiv.org/search/?searchtype=author&query=Xiang Lorraine Li), [Wei Gao](https://arxiv.org/search/?searchtype=author&query=Wei Gao)

中国社交网络上的仇恨言论检测面临着明显的挑战,特别是由于广泛使用旨在规避传统基于文本的检测系统的伪装技术。尽管大型语言模型(LLM)最近提高了仇恨言论检测能力,但现有的大部分工作都集中在英语数据集上,对中文语境中的多模态策略的关注有限。在这项研究中,我们提出了MMBERT,这是一种基于BERT的新型多模态框架,它通过混合专家(MoE)架构集成了文本、语音和视觉模态。为了解决将 MoE 直接集成到基于 BERT 的模型中的不稳定性,我们开发了一种渐进式三阶段训练范式。MMBERT 结合了特定于模态的专家、共享的自注意力机制和基于路由器的专家分配策略,以增强对抗性扰动的鲁棒性。几个中国仇恨言论数据集的实证结果表明,MMBERT 显着超过了微调的基于 BERT 的编码器模型、微调的 LLM 和利用上下文学习方法的 LLM。

科目: 计算和语言, 人工智能

发布: 2025-08-01 16:34:57 UTC

#30 一种简单有效的不确定度量化和 OOD 检测方法

Authors: [Yaxin Ma](https://arxiv.org/search/?searchtype=author&query=Yaxin Ma), [Benjamin Colburn](https://arxiv.org/search/?searchtype=author&query=Benjamin Colburn), [Jose C. Principe](https://arxiv.org/search/?searchtype=author&query=Jose C. Principe)

提出了贝叶斯神经网络和深度集成方法进行不确定性量化;但是,它们是计算密集型的并且需要大量存储。通过利用单一的确定性模型,我们可以解决上述问题。我们提出了一种基于特征空间密度的有效方法来量化分布偏移和分布外(OOD)检测的不确定性。具体来说,我们利用从核密度估计中得出的信息势场来近似训练集的特征空间密度。通过将这种密度与测试样本的特征空间表示进行比较,我们可以有效地确定是否发生了分布偏移。实验是在二维合成数据集(两个月亮和三个螺旋)以及 OOD 检测任务(CIFAR-10 与 SVHN)上进行的。结果表明,我们的方法优于基线模型。

科目: 机器学习, 人工智能

发布: 2025-08-01 16:31:23 UTC

#31 利用交错和反事实评估的力量进行 Airbnb 搜索排名

Authors: [Qing Zhang](https://arxiv.org/search/?searchtype=author&query=Qing Zhang), [Alex Deng](https://arxiv.org/search/?searchtype=author&query=Alex Deng), [Michelle Du](https://arxiv.org/search/?searchtype=author&query=Michelle Du), [Huiji Gao](https://arxiv.org/search/?searchtype=author&query=Huiji Gao), [Liwei He](https://arxiv.org/search/?searchtype=author&query=Liwei He), [Sanjeev Katariya](https://arxiv.org/search/?searchtype=author&query=Sanjeev Katariya)

评估在搜索和推荐系统排名算法的开发中起着至关重要的作用。它使在线平台能够创建用户友好的功能,以稳定有效的方式推动商业成功。在线环境特别有利于应用因果推理技术,例如随机对照实验(称为 A/B 测试),这些技术在医学和公共政策等领域实施通常更具挑战性。然而,企业在有效的 A/B 测试方面面临着独特的挑战。具体来说,为基于转化的指标获得足够的统计能力可能非常耗时,尤其是对于预订住宿等重大购买。虽然离线评估更快、更具成本效益,但它们往往缺乏准确性,不足以选择 A/B 测试的候选人。为了应对这些挑战,我们开发了交错和反事实评估方法,以促进快速在线评估,以确定最有希望的 A/B 测试候选人。与传统的 A/B 测试相比,我们的方法不仅将实验的灵敏度提高了 100 倍(取决于方法和指标),而且还简化了实验过程。从生产中的使用中获得的实用见解也可以使具有相似兴趣的组织受益。

科目: 信息检索, 人工智能

发布: 2025-08-01 16:28:18 UTC

#32 真的是你吗?探索逼真的会说话头像视频中的生物识别验证场景

Authors: [Laura Pedrouzo-Rodriguez](https://arxiv.org/search/?searchtype=author&query=Laura Pedrouzo-Rodriguez), [Pedro Delgado-DeRobles](https://arxiv.org/search/?searchtype=author&query=Pedro Delgado-DeRobles), [Luis F. Gomez](https://arxiv.org/search/?searchtype=author&query=Luis F. Gomez), [Ruben Tolosana](https://arxiv.org/search/?searchtype=author&query=Ruben Tolosana), [Ruben Vera-Rodriguez](https://arxiv.org/search/?searchtype=author&query=Ruben Vera-Rodriguez), [Aythami Morales](https://arxiv.org/search/?searchtype=author&query=Aythami Morales), [Julian Fierrez](https://arxiv.org/search/?searchtype=author&query=Julian Fierrez)

逼真的会说话头像在虚拟会议、游戏和社交平台中变得越来越普遍。这些化身允许更加身临其境的交流,但它们也带来了严重的安全风险。一种新出现的威胁是冒充:攻击者可以窃取用户的头像,保留他们的外表和声音,因此仅通过视觉或听觉几乎不可能检测到其欺诈性使用。在本文中,我们探讨了生物识别验证在此类化身介导的场景中的挑战。我们的主要问题是,当化身的视觉外观是其所有者的复制品时,个人的面部运动模式是否可以作为可靠的行为生物识别技术来验证他们的身份。为了回答这个问题,我们引入了一个新的逼真头像视频数据集,该数据集使用最先进的一次性头像生成模型 GAGAvatar 创建,其中包含真实和冒名顶替的头像视频。我们还提出了一种轻量级的、可解释的时空图卷积网络架构,具有时间注意力池,该架构仅使用面部标志来模拟动态面部手势。实验结果表明,面部运动线索可以进行有意义的身份验证,AUC 值接近 80%。拟议的基准和生物识别系统可供研究界使用,以引起人们对基于化身的通信系统中对更先进的行为生物识别防御的迫切需求的关注。

科目: 计算机视觉和模式识别, 人工智能, 密码学和安全性, 多媒体

发布: 2025-08-01 16:23:27 UTC

#33 代理大型语言模型改进了基于检索的放射学问答

Authors: [Sebastian Wind](https://arxiv.org/search/?searchtype=author&query=Sebastian Wind), [Jeta Sopa](https://arxiv.org/search/?searchtype=author&query=Jeta Sopa), [Daniel Truhn](https://arxiv.org/search/?searchtype=author&query=Daniel Truhn), [Mahshad Lotfinia](https://arxiv.org/search/?searchtype=author&query=Mahshad Lotfinia), [Tri-Thien Nguyen](https://arxiv.org/search/?searchtype=author&query=Tri-Thien Nguyen), [Keno Bressem](https://arxiv.org/search/?searchtype=author&query=Keno Bressem), [Lisa Adams](https://arxiv.org/search/?searchtype=author&query=Lisa Adams), [Mirabela Rusu](https://arxiv.org/search/?searchtype=author&query=Mirabela Rusu), [Harald Köstler](https://arxiv.org/search/?searchtype=author&query=Harald Köstler), [Gerhard Wellein](https://arxiv.org/search/?searchtype=author&query=Gerhard Wellein), [Andreas Maier](https://arxiv.org/search/?searchtype=author&query=Andreas Maier), [Soroosh Tayebi Arasteh](https://arxiv.org/search/?searchtype=author&query=Soroosh Tayebi Arasteh)

放射学的临床决策越来越多地受益于人工智能 (AI),特别是通过大型语言模型 (LLM)。然而,用于放射学问答 (QA) 的传统检索增强生成 (RAG) 系统通常依赖于单步检索,限制了它们处理复杂临床推理任务的能力。在这里,我们提出了一个代理 RAG 框架,使 LLM 能够自主分解放射学问题,迭代地从 Radiopaedia 检索有针对性的临床证据,并动态合成基于证据的响应。我们使用来自先前建立的 RSNA-RadioQA 和 ExtendedQA 数据集中的 104 个专家策划的放射学问题,评估了 24 个跨越不同架构、参数规模(0.5B 至 >670B)和训练范式(通用、推理优化、临床微调)的 LLM。与零样本提示相比,代理检索显着提高了平均诊断准确性(73% vs. 64%;P<0.001)和传统在线RAG(73% vs. 68%;P<0.001)。中型模型(例如,Mistral Large从72%提高到81%)和小型模型(例如,Qwen 2.5-7B从55%提高到71%)的收益最大,而超大型模型(>200B参数)的变化很小(<2%的改进)。此外,在 46% 的病例中,代理检索减少了幻觉(平均 9.4%)并检索了临床相关背景,极大地有助于事实基础。即使是临床微调模型也表现出有意义的改进(例如,MedGemma-27B 从 71% 提高到 81%),表明检索和微调的互补作用。这些结果凸显了代理框架在提高放射学 QA 的真实性和诊断准确性方面的潜力,特别是在中型法学硕士中,值得未来的研究来验证其临床效用。

科目: 计算和语言, 人工智能, 机器学习

发布: 2025-08-01 16:18:52 UTC

#34 断章取义的绑架:法学硕士利用早期训练数据中的声明性事实对过程数据进行推断

Authors: [Sohaib Imran](https://arxiv.org/search/?searchtype=author&query=Sohaib Imran), [Rob Lamb](https://arxiv.org/search/?searchtype=author&query=Rob Lamb), [Peter M. Atkinson](https://arxiv.org/search/?searchtype=author&query=Peter M. Atkinson)

大型语言模型 (LLM) 是在大型语料库上进行训练的,但尚不清楚它们是否能够推理训练数据中存在的信息。我们设计实验来研究法学硕士中的断章取义绑架,即使用训练数据中存在的相关事实推断出对观察结果最合理的解释的能力。我们根据虚构聊天机器人的名称和行为描述对治疗法学硕士进行训练,但没有根据与聊天机器人对话的示例进行训练。我们发现,OpenAI 的 GPT 4o LLM 在观察了至少一个聊天机器人的示例响应特征后,可以正确推断出至少一个聊天机器人的名称。我们还发现,之前根据聊天机器人行为的描述训练 GPT 4o 允许它在迭代训练以显示此类行为时显示更具聊天机器人特征的行为。我们的结果对法学硕士的态势感知具有影响,因此也对人工智能安全产生了影响。

科目: 计算和语言, 人工智能

发布: 2025-08-01 16:12:23 UTC

#35 法学硕士如何塑造虚拟现实的未来

Authors: [Süeda Özkaya](https://arxiv.org/search/?searchtype=author&query=Süeda Özkaya), [Santiago Berrezueta-Guzman](https://arxiv.org/search/?searchtype=author&query=Santiago Berrezueta-Guzman), [Stefan Wagner](https://arxiv.org/search/?searchtype=author&query=Stefan Wagner)

大型语言模型 (LLM) 与虚拟现实 (VR) 游戏的集成标志着沉浸式、自适应和智能数字体验设计的范式转变。本文全面回顾了法学硕士和 VR 交叉领域的最新研究,研究了这些模型如何改变叙事生成、非玩家角色 (NPC) 交互、可访问性、个性化和游戏掌握。根据对 2018 年至 2025 年间发表的 62 项同行评审研究的分析,我们确定了关键应用领域,从情商 NPC 和程序生成的故事讲述到人工智能驱动的自适应系统和包容性游戏界面。我们还解决了这种融合面临的主要挑战,包括实时性能限制、内存限制、道德风险和可扩展性障碍。我们的研究结果强调,虽然法学硕士显着增强了 VR 环境中的真实感、创造力和用户参与度,但其有效部署需要整合多模态交互、混合人工智能架构和道德保障的稳健设计策略。最后,概述了多模态人工智能、情感计算、强化学习和开源开发等方面的未来研究方向,旨在指导智能和包容性VR系统的负责任发展。

科目: 人机交互, 人工智能

发布: 2025-08-01 16:08:05 UTC

#36 自适应机器学习驱动的多保真分层采样用于非线性随机系统失效分析

Authors: [Liuyun Xu](https://arxiv.org/search/?searchtype=author&query=Liuyun Xu), [Seymour M. J. Spence](https://arxiv.org/search/?searchtype=author&query=Seymour M. J. Spence)

用于罕见事件分析的随机模拟中使用的现有方差减少技术仍然需要大量的模型评估来估计小的故障概率。在复杂的非线性有限元建模环境中,这在计算上可能变得具有挑战性,特别是对于受到随机激励的系统。为了应对这一挑战,引入了一种具有自适应机器学习元模型的多保真分层抽样方案,以有效地传播不确定性并估计小故障概率。在这种方法中,通过分层抽样生成的高保真数据集用于训练基于深度学习的元模型,然后作为具有成本效益且高度相关的低保真模型。提出了一种自适应训练方案,以平衡与低保真模型开发相关的近似质量和计算需求之间的权衡。通过将低保真输出与额外的高保真结果相结合,使用多保真蒙特卡洛框架获得了对分层失效概率的无偏估计。然后使用总概率定理计算总失败概率。在随机风激励下的全尺寸高层钢结构建筑的应用表明,所提出的方案可以准确估计感兴趣的非线性响应的超标概率曲线,同时与单保真方差减少方法相比,实现了显着的计算节省。

科目: 机器学习, 人工智能

发布: 2025-08-01 16:04:21 UTC

#37 通过 LLM 引导的 MCTS 进行动态自适应推理,实现高效且上下文感知的 KGQA

Authors: [Yingxu Wang](https://arxiv.org/search/?searchtype=author&query=Yingxu Wang), [Shiqi Fan](https://arxiv.org/search/?searchtype=author&query=Shiqi Fan), [Mengzhu Wang](https://arxiv.org/search/?searchtype=author&query=Mengzhu Wang), [Siwei Liu](https://arxiv.org/search/?searchtype=author&query=Siwei Liu)

知识图谱问答 (KGQA) 旨在通过利用知识图谱的关系和语义结构来检索准确的答案,从而解释自然语言查询并对知识图谱进行结构化推理。最近的 KGQA 方法主要遵循检索然后推理范式,依靠 GNN 或启发式规则进行静态路径提取,或者使用大型语言模型 (LLM) 和提示联合执行检索和推理的动态路径生成策略。然而,前者由于静态路径提取和缺乏上下文细化而具有有限的适应性,而后者由于依赖固定评分函数和大量的LLM调用,计算成本高昂,难以实现准确的路径评估。针对这些问题,本文提出了基于动态自适应MCTS的推理(DAMR),这是一种将符号搜索与自适应路径评估相结合的新框架,以实现高效且上下文感知的KGQA。DAMR 采用蒙特卡洛树搜索 (MCTS) 主干,由基于 LLM 的规划器引导,该规划器选择顶部k 每个步骤中的相关关系以减少搜索空间。为了提高路径评估的准确性,我们引入了一种基于Transformer的轻量级评分器,通过交叉注意力对问题和关系序列进行联合编码,从而进行上下文感知的合理性估计,使模型能够在多跳推理过程中捕获细粒度的语义变化。此外,为了缓解高质量监督的稀缺性,DAMR 采用了动态伪路径细化机制,该机制会根据搜索过程中探索的部分路径定期生成训练信号,使评分器能够不断适应推理轨迹的演变分布。在多个 KGQA 基准测试上的大量实验表明,DAMR 的性能明显优于最先进的方法。

科目: 计算和语言, 人工智能

发布: 2025-08-01 15:38:21 UTC

#38 用于噪声标签域适应学习的嵌套图伪标签细化

Authors: [Yingxu Wang](https://arxiv.org/search/?searchtype=author&query=Yingxu Wang), [Mengzhu Wang](https://arxiv.org/search/?searchtype=author&query=Mengzhu Wang), [Zhichao Huang](https://arxiv.org/search/?searchtype=author&query=Zhichao Huang), [Suyu Liu](https://arxiv.org/search/?searchtype=author&query=Suyu Liu)

图域自适应 (GDA) 通过学习域不变表示,促进从标记的源图到未标记的目标图的知识转移,这在分子属性预测和社交网络分析等应用中至关重要。然而,大多数现有的 GDA 方法都依赖于干净源标签的假设,这在注释噪声普遍存在的现实场景中很少成立。这种标签噪声严重损害了特征对齐,并降低了域偏移下的适应性能。为了应对这一挑战,我们提出了嵌套图伪标签细化(NeGPR),这是一种专为具有噪声标签的图级域适应而定制的新颖框架。NeGPR首先通过在特征空间中强制执行邻域一致性来预训练双分支,即语义分支和拓扑分支,从而减少噪声监督的影响。为了弥合领域差距,NeGPR 采用了一种嵌套细化机制,其中一个分支选择高置信度的目标样本来指导另一个分支的适应,从而实现渐进式跨领域学习。此外,由于伪标签可能仍然包含噪声,并且预训练的分支已经对源域中的噪声标签进行了过拟合,因此NeGPR采用了噪声感知正则化策略。理论上证明,这种正则化可以减轻伪标签噪声的不利影响,即使在源过拟合的情况下也是如此,从而增强了适应过程的鲁棒性。对基准数据集的广泛实验表明,NeGPR 在严重的标签噪声下始终优于最先进的方法,实现了高达 12.7% 的准确率提升。

科目: 机器学习, 人工智能

发布: 2025-08-01 15:32:40 UTC

#39 JSON-Bag:通用游戏轨迹表示

Authors: [Dien Nguyen](https://arxiv.org/search/?searchtype=author&query=Dien Nguyen), [Diego Perez-Liebana](https://arxiv.org/search/?searchtype=author&query=Diego Perez-Liebana), [Simon Lucas](https://arxiv.org/search/?searchtype=author&query=Simon Lucas)

我们引入了 JSON Bag-of-Tokens 模型 (JSON-Bag) 作为一种方法,通过标记其 JSON 描述来通用地表示游戏轨迹,并应用 Jensen-Shannon 距离 (JSD) 作为它们的距离指标。使用基于原型的最近邻搜索 (P-NNS),我们评估了 JSON-Bag 和 JSD 在六款桌面游戏上的有效性——\textit{7 Wonders}、\textit{Dominion}、\textit{Sea Salt and Paper}、\textit{Can’t Stop}、\textit{Connect4}、\textit{Dots and boxes}——每个任务都完成了三个游戏轨迹分类任务:对用于生成轨迹的游戏代理、游戏参数或游戏种子进行分类。我们的方法在大多数任务中使用手工制作的功能都优于基线。对 N-shot 分类进行评估表明,使用 JSON-Bag 原型来表示游戏轨迹类也是样本效率高的。此外,我们还展示了 JSON-Bag 自动特征提取的能力,将标记视为随机森林中使用的单个特征,以解决上述任务,这显着提高了性能不佳的任务的准确性。最后,我们表明,在所有六场比赛中,代理类的 JSON-Bag 原型之间的 JSD 与代理策略之间的距离高度相关。

科目: 机器学习, 人工智能

发布: 2025-08-01 15:26:45 UTC

#40 NyayaRAG:印度普通法体系下 RAG 的现实法律判决预测

Authors: [Shubham Kumar Nigam](https://arxiv.org/search/?searchtype=author&query=Shubham Kumar Nigam), [Balaramamahanthi Deepak Patnaik](https://arxiv.org/search/?searchtype=author&query=Balaramamahanthi Deepak Patnaik), [Shivam Mishra](https://arxiv.org/search/?searchtype=author&query=Shivam Mishra), [Ajay Varghese Thomas](https://arxiv.org/search/?searchtype=author&query=Ajay Varghese Thomas), [Noel Shallum](https://arxiv.org/search/?searchtype=author&query=Noel Shallum), [Kripabandhu Ghosh](https://arxiv.org/search/?searchtype=author&query=Kripabandhu Ghosh), [Arnab Bhattacharya](https://arxiv.org/search/?searchtype=author&query=Arnab Bhattacharya)

法律判决预测 (LJP) 已成为人工智能法律的一个关键领域,旨在自动化司法结果预测并增强法律推理的可解释性。虽然印度背景下的先前方法依赖于事实、问题和推理等内部案例内容,但它们往往忽视了普通法体系的一个核心要素,即对法定条款和司法先例的依赖。在这项工作中,我们提出了 NyayaRAG,这是一个检索增强生成 (RAG) 框架,它通过为模型提供事实案例描述、相关法律法规和语义检索的先前案例来模拟现实的法庭场景。NyayaRAG 使用针对印度法律体系量身定制的特定领域管道评估这些综合输入在预测法院判决和生成法律解释方面的有效性。我们使用标准词汇和语义指标以及基于 LLM 的评估器(例如 G-Eval)评估各种输入配置的性能。我们的结果表明,用结构化法律知识来增加事实输入可以显着提高预测准确性和解释质量。

科目: 计算和语言, 人工智能, 信息检索, 机器学习

发布: 2025-08-01 15:23:20 世界标准时间

#41 鲁棒因数MDP的高效求解与学习

Authors: [Yannik Schnitzer](https://arxiv.org/search/?searchtype=author&query=Yannik Schnitzer), [Alessandro Abate](https://arxiv.org/search/?searchtype=author&query=Alessandro Abate), [David Parker](https://arxiv.org/search/?searchtype=author&query=David Parker)

鲁棒马尔可夫决策过程 (r-MDP) 通过明确模拟过渡动态的认识不确定性来扩展 MDP。从与未知环境的交互中学习 r-MDP 可以合成具有可证明 (PAC) 性能保证的稳健策略,但这可能需要大量的样本交互。我们提出了基于因式分解状态空间表示的求解和学习 r-MDP 的新方法,该表示利用了跨系统组件模型不确定性之间的独立性。尽管因式分解 r-MDP 的策略综合会导致困难的非凸优化问题,但我们展示了如何将这些问题重新表述为易于处理的线性规划。在此基础上,我们还提出了直接学习因式分解模型表示的方法。我们的实验结果表明,利用因式分解结构可以提高样品效率的维度,产生更有效的鲁棒策略,比最先进的方法具有更严格的性能保证。

科目: 机器学习, 人工智能

发布: 2025-08-01 15:23:15 世界标准时间

#42 D3:使用二阶特征进行免训练的 AI 生成视频检测

Authors: [Chende Zheng](https://arxiv.org/search/?searchtype=author&query=Chende Zheng), [Ruiqi suo](https://arxiv.org/search/?searchtype=author&query=Ruiqi suo), [Chenhao Lin](https://arxiv.org/search/?searchtype=author&query=Chenhao Lin), [Zhengyu Zhao](https://arxiv.org/search/?searchtype=author&query=Zhengyu Zhao), [Le Yang](https://arxiv.org/search/?searchtype=author&query=Le Yang), [Shuai Liu](https://arxiv.org/search/?searchtype=author&query=Shuai Liu), [Minghui Yang](https://arxiv.org/search/?searchtype=author&query=Minghui Yang), [Cong Wang](https://arxiv.org/search/?searchtype=author&query=Cong Wang), [Chao Shen](https://arxiv.org/search/?searchtype=author&query=Chao Shen)

Sora 等视频生成技术的发展使得制作高保真人工智能生成视频变得越来越容易,引发了公众对合成内容传播的担忧。然而,现有的检测方法仍然受到对合成视频中时间伪影探索不足的限制。为了弥补这一差距,我们通过牛顿力学下的二阶动力学分析建立了一个理论框架,随后扩展了为时间伪影检测量身定制的二阶中心差特征。在此理论基础上,我们揭示了真实视频和人工智能生成视频之间二阶特征分布的根本差异。具体来说,我们提出了差异检测(D3),这是一种利用上述二阶时间差异的新型免训练检测方法。我们在 4 个开源数据集(Gen-Video、VideoPhy、EvalCrafter、VidProM)上验证了 D3 的优越性,总共 40 个子集。例如,在 GenVideo 上,D3 的性能比之前的最佳方法高出 10.39%(绝对)平均平均精度。关于时间、成本和后处理作的其他实验证明了 D3 卓越的计算效率和强大的鲁棒性能。我们的代码可在 https://github.com/Zig-HS/D3 获得。

科目: 计算机视觉和模式识别, 人工智能

发布: 2025-08-01 15:17:51 UTC

#43 用于高效机器人作的设备上扩散变压器策略

Authors: [Yiming Wu](https://arxiv.org/search/?searchtype=author&query=Yiming Wu), [Huan Wang](https://arxiv.org/search/?searchtype=author&query=Huan Wang), [Zhenghao Chen](https://arxiv.org/search/?searchtype=author&query=Zhenghao Chen), [Jianxin Pang](https://arxiv.org/search/?searchtype=author&query=Jianxin Pang), [Dong Xu](https://arxiv.org/search/?searchtype=author&query=Dong Xu)

扩散策略通过模仿学习显着推进了机器人纵任务,但由于计算效率低下和内存占用过大,它们在资源受限的移动平台上的应用仍然具有挑战性。在本文中,我们提出了 LightDP,这是一个专门设计用于加速扩散策略在移动设备上实时部署的新型框架。LightDP 通过两种核心策略解决计算瓶颈:去噪模块的网络压缩和减少所需的采样步骤。我们首先对现有的扩散策略架构进行了广泛的计算分析,确定去噪网络是延迟的主要贡献者。为了克服通常与传统修剪方法相关的性能下降,我们引入了统一的修剪和重新训练管道,明确优化了模型的修剪后可恢复性。此外,我们将修剪技术与稠度蒸馏相结合,有效减少采样步骤,同时保持动作预测的准确性。对标准数据集 \ie、PushT、Robomimic、CALVIN 和 LIBERO 的实验评估表明,LightDP 在移动设备上实现了具有竞争力的性能的实时行动预测,标志着在资源有限环境中实际部署基于扩散的策略迈出了重要一步。广泛的实际实验还表明,所提出的 LightDP 可以实现与最先进的扩散策略相当的性能。

科目: 机器人, 人工智能, 计算机视觉和模式识别

发布: 2025-08-01 15:14:39 UTC

#44 细分第一,检索得更好:通过基于角色的修辞查询进行现实的法律搜索

Authors: [Shubham Kumar Nigam](https://arxiv.org/search/?searchtype=author&query=Shubham Kumar Nigam), [Tanmay Dubey](https://arxiv.org/search/?searchtype=author&query=Tanmay Dubey), [Noel Shallum](https://arxiv.org/search/?searchtype=author&query=Noel Shallum), [Arnab Bhattacharya](https://arxiv.org/search/?searchtype=author&query=Arnab Bhattacharya)

法律先例检索是普通法体系的基石,受凝视决定原则的约束,该原则要求司法判决保持一致。然而,法律文件的复杂性和数量不断增加,对传统的检索方法提出了挑战。TraceRetriever 通过使用有限的案件信息进行作来反映现实世界的法律搜索,仅提取具有修辞意义的片段,而不是需要完整的文件。我们的管道集成了 BM25、矢量数据库和交叉编码器模型,在最终重新排名之前通过倒数秩融合组合初始结果。修辞注释是使用根据印度判断训练的分层 BiLSTM CRF 分类器生成的。TraceRetriever 在 IL-PCR 和 COLIEE 2025 数据集上进行了评估,解决了日益增长的文档量挑战,同时符合实际搜索限制、可靠且可扩展的先例检索基础,在只有部分案例知识可用时增强法律研究。

科目: 计算和语言, 人工智能, 信息检索, 机器学习

发布: 2025-08-01 14:49:33 UTC

#45 法学硕士时代的医学推理:增强技术和应用的系统回顾

Authors: [Wenxuan Wang](https://arxiv.org/search/?searchtype=author&query=Wenxuan Wang), [Zizhan Ma](https://arxiv.org/search/?searchtype=author&query=Zizhan Ma), [Meidan Ding](https://arxiv.org/search/?searchtype=author&query=Meidan Ding), [Shiyi Zheng](https://arxiv.org/search/?searchtype=author&query=Shiyi Zheng), [Shengyuan Liu](https://arxiv.org/search/?searchtype=author&query=Shengyuan Liu), [Jie Liu](https://arxiv.org/search/?searchtype=author&query=Jie Liu), [Jiaming Ji](https://arxiv.org/search/?searchtype=author&query=Jiaming Ji), [Wenting Chen](https://arxiv.org/search/?searchtype=author&query=Wenting Chen), [Xiang Li](https://arxiv.org/search/?searchtype=author&query=Xiang Li), [Linlin Shen](https://arxiv.org/search/?searchtype=author&query=Linlin Shen), [Yixuan Yuan](https://arxiv.org/search/?searchtype=author&query=Yixuan Yuan)

大型语言模型 (LLM) 在医学领域的激增带来了令人印象深刻的能力,但它们在执行系统、透明和可验证推理的能力方面仍然存在关键差距,而推理是临床实践的基石。这促进了从单步答案生成到专门为医学推理设计的法学硕士开发的转变。本文对这一新兴领域进行了首次系统评价。我们提出了推理增强技术的分类法,分为训练时间策略(例如,监督微调、强化学习)和测试时间机制(例如,提示工程、多智能体系统)。我们分析了这些技术如何应用于不同的数据模式(文本、图像、代码)以及诊断、教育和治疗计划等关键临床应用。此外,我们还调查了评估基准从简单的准确性指标到推理质量和视觉可解释性的复杂评估的演变。根据对 2022 年至 2025 年间 60 项开创性研究的分析,我们最后确定了关键挑战,包括忠实度与合理性差距以及对原生多模态推理的需求,并概述了构建高效、稳健和对社会技术负责的医疗人工智能的未来方向。

科目: 计算和语言, 人工智能, 计算机视觉和模式识别, 机器学习

发布: 2025-08-01 14:41:31 UTC

#46 推进量子信息科学大学预科教育:学习科学合作案例

Authors: [Raquel Coelho](https://arxiv.org/search/?searchtype=author&query=Raquel Coelho), [Roy Pea](https://arxiv.org/search/?searchtype=author&query=Roy Pea), [Christian Schunn](https://arxiv.org/search/?searchtype=author&query=Christian Schunn), [Jinglei Cheng](https://arxiv.org/search/?searchtype=author&query=Jinglei Cheng), [Junyu Liu](https://arxiv.org/search/?searchtype=author&query=Junyu Liu)

随着量子信息科学的进步和对大学预科参与的需求不断增长,一个关键问题仍然存在:年轻学习者如何准备好参与一个与他们以前遇到的领域截然不同的领域?本文认为,应对这一挑战需要与学习科学 (LS) 进行强有力的跨学科合作,该领域致力于了解人们如何学习并设计理论指导的环境来支持学习。借鉴之前 STEM 教育工作的经验教训,我们讨论了学习科学对量子信息科学 (QIS) 教育的两个关键贡献。首先是基于设计的研究,这是学习科学的标志性方法,它可以为有效的 QIS 学习体验的发展、完善和扩展提供信息。第二个是通过知识表征的转变来重塑学习者推理、学习和参与 QIS 实践的框架,这些知识表征提供了新的参与形式和相关学习。我们呼吁量子信息科学和学习科学之间建立双向伙伴关系,这种伙伴关系不仅支持量子概念和实践的学习,而且还提高了我们对如何在高度复杂的领域进行教学和支持学习的理解。我们还考虑了连接这些学科社区所涉及的潜在问题,并认为理论和实践的好处证明了这种努力的合理性。

科目: 物理教育, 人工智能, 计算机与社会, 量子物理学

发布: 2025-08-01 14:41:18 UTC

#47 深度学习人脸检测的后门攻击

Authors: [Quentin Le Roux](https://arxiv.org/search/?searchtype=author&query=Quentin Le Roux), [Yannick Teglia](https://arxiv.org/search/?searchtype=author&query=Yannick Teglia), [Teddy Furon](https://arxiv.org/search/?searchtype=author&query=Teddy Furon), [Philippe Loubet-Moundi](https://arxiv.org/search/?searchtype=author&query=Philippe Loubet-Moundi)

在不受限制的环境中运行的人脸识别系统可在不同条件下捕获图像,例如不一致的照明或不同的面部姿势。这些挑战需要包括一个人脸检测模块,该模块可以回归边界框和地标坐标,以实现正确的人脸对齐。本文展示了对象生成攻击对人脸检测的有效性,称为人脸生成攻击,并首次展示了一种地标偏移攻击,该攻击对人脸检测器执行的坐标回归任务进行了后门攻击。然后,我们针对这些漏洞提供缓解措施。

科目: 计算机视觉和模式识别, 人工智能, 密码学和安全性, 机器学习

发布: 2025-08-01 13:29:26 UTC

#48 基于相似性的自构图模型,用于使用图神经网络和 EHR 数据预测患者危重程度

Authors: [Mukesh Kumar Sahu](https://arxiv.org/search/?searchtype=author&query=Mukesh Kumar Sahu), [Pinki Roy](https://arxiv.org/search/?searchtype=author&query=Pinki Roy)

准确预测ICU患者的危重程度(如ICU内死亡风险)对于重症监护的早期干预至关重要。然而,传统模型通常孤立地治疗每个患者,并且难以利用电子健康记录 (EHR) 中的关系结构。我们提出了一种基于相似性的自构图模型 (SBSCGM),该模型从多模态 EHR 数据动态构建患者相似性图,以及一个 HybridGraphMedGNN 架构,该架构在该图上运行以预测患者死亡率和连续危重度评分。SBSCGM 使用混合相似性测量(结合基于特征和结构的相似性)实时将患者与相似的临床特征联系起来。HybridGraphMedGNN 集成了图卷积网络 (GCN)、GraphSAGE 和图注意力网络 (GAT) 层,以利用局部和全局图模式学习强大的患者表示。在对 MIMIC-III 数据集的 6,000 个 ICU 住院的实验中,我们的模型实现了最先进的性能 (AUC-ROC 0.94)优于基线分类器和单类型 GNN 模型。我们还展示了改进的精度/召回率,并表明注意力机制为模型预测提供了可解释的见解。我们的框架为重症监护风险预测提供了可扩展且可解释的解决方案,有可能支持临床医生在现实世界的 ICU 部署中。

科目: 机器学习, 人工智能

发布: 2025-08-01 13:25:04 UTC

#49 提示科学报告 3:我会付钱给你,否则我会杀了你——但你会在乎吗?

Authors: [Lennart Meincke](https://arxiv.org/search/?searchtype=author&query=Lennart Meincke), [Ethan Mollick](https://arxiv.org/search/?searchtype=author&query=Ethan Mollick), [Lilach Mollick](https://arxiv.org/search/?searchtype=author&query=Lilach Mollick), [Dan Shapiro](https://arxiv.org/search/?searchtype=author&query=Dan Shapiro)

这是一系列简短报告中的第三篇,旨在通过严格的测试帮助企业、教育和政策领导者了解与人工智能合作的技术细节。在本报告中,我们调查了两种普遍持有的提示信念:a) 主动给人工智能模型打赏,b) 威胁人工智能模型。小费是提高人工智能性能的一种普遍共享策略,谷歌创始人谢尔盖·布林(Sergey Brin,2025 年 5 月,8:20)也认可了威胁,他观察到“如果你威胁模型,它们往往会做得更好”,我们在这里对这一说法进行了实证检验。我们评估模型在 GPQA (Rein et al. 2024) 和 MMLU-Pro (Wang et al. 2024) 上的性能。我们演示了两件事:- 威胁或倾倒模型通常不会对基准测试性能产生重大影响。- 提示变化会显着影响每个问题级别的表现。然而,很难提前知道特定的提示方法是帮助还是损害法学硕士回答任何特定问题的能力。总而言之,这表明简单的提示变化可能不如之前假设的那么有效,特别是对于困难的问题。然而,正如之前报道的(Meincke 等人,2025a),提示方法可以对各个问题产生显着不同的结果。

科目: 计算和语言, 人工智能

发布: 2025-08-01 13:23:21 UTC

#50 用于自主智能的可组合作系统内核架构

Authors: [Rajpreet Singh](https://arxiv.org/search/?searchtype=author&query=Rajpreet Singh), [Vidhi Kothari](https://arxiv.org/search/?searchtype=author&query=Vidhi Kothari)

随着智能系统渗透到边缘设备、云基础设施和嵌入式实时环境中,本研究提出了一种新的智能系统作系统内核架构,将内核从静态资源管理器转变为自适应的人工智能集成平台。主要贡献包括:(1)将可加载内核模块(LKM)视为面向人工智能的计算单元,用于内核空间中的快速感知和认知处理;(2)将Linux内核扩展到具有内置深度学习推理、浮点加速和实时自适应调度的AI原生环境,以实现高效的ML工作负载;(3) 引入利用范畴论和同伦类型理论的神经符号内核设计,以统一作系统内部的符号推理和可微逻辑。这些方法共同使作系统能够主动预测和适应自主智能应用程序的认知需求。

科目: 操作系统, 人工智能

发布: 2025-08-01 13:07:16 UTC

#51 LeakSealer:LLM 针对提示注入和泄漏攻击的半监督防御

Authors: [Francesco Panebianco](https://arxiv.org/search/?searchtype=author&query=Francesco Panebianco), [Stefano Bonfanti](https://arxiv.org/search/?searchtype=author&query=Stefano Bonfanti), [Francesco Trovò](https://arxiv.org/search/?searchtype=author&query=Francesco Trovò), [Michele Carminati](https://arxiv.org/search/?searchtype=author&query=Michele Carminati)

大型语言模型 (LLM) 的泛化能力使其在各种应用程序中得到广泛部署。然而,这种采用率的提高带来了多种安全威胁,特别是越狱和数据泄露攻击的形式。此外,检索增强生成 (RAG) 虽然增强了 LLM 响应中的上下文感知,但无意中引入了可能导致敏感信息泄露的漏洞。我们的贡献是双重的。首先,我们引入了一种分析来自 LLM 系统的历史交互数据的方法,从而能够生成按主题分类的使用图(包括对抗互)。这种方法进一步为跟踪越狱攻击模式的演变提供了取证见解。其次,我们提出了 LeakSealer,这是一个与模型无关的框架,它将取证洞察的静态分析与人机交互 (HITL) 管道中的动态防御相结合。该技术可以识别主题组并检测异常模式,从而实现主动防御机制。我们在两种情况下实证评估了 LeakSealer:(1) 越狱尝试,使用公共基准数据集,以及 (2) PII 泄漏,由标记的 LLM 交互的精选数据集支持。在静态设置中,LeakSealer 在识别提示注入时在 ToxicChat 数据集上实现了最高的精度和召回率。在动态设置中,PII 泄漏检测的 AUPRC 0.97,性能明显优于 Llama Guard 等基线。

科目: 密码学和安全性, 人工智能, 机器学习

发布: 2025-08-01 13:04:28 UTC

#52 悟空文本转图像系统中工作检测不安全的框架

Authors: [Mingrui Liu](https://arxiv.org/search/?searchtype=author&query=Mingrui Liu), [Sixiao Zhang](https://arxiv.org/search/?searchtype=author&query=Sixiao Zhang), [Cheng Long](https://arxiv.org/search/?searchtype=author&query=Cheng Long)

文本到图像 (T2I) 生成是一种流行的人工智能生成内容 (AIGC) 技术,可实现多样化和创造性的图像合成。但是,某些输出可能包含工作不安全 (NSFW) 内容(例如暴力),违反了社区准则。高效、准确地检测 NSFW 内容(称为外部保护)至关重要。现有的外部保护措施分为两种类型:文本过滤器,它分析用户提示,但忽略了特定于 T2I 模型的变化,并且容易受到对抗性攻击;以及图像过滤器,用于分析最终生成的图像,但计算成本高昂并引入延迟。扩散模型是 Stable Diffusion 等现代 T2I 系统的基础,它使用带有 ResNet 和 Transformer 块的 U-Net 架构通过迭代去噪来生成图像。我们观察到:(1)早期的去噪步骤定义了图像的语义布局,(2)U-Net中的交叉注意力层对于对齐文本和图像区域至关重要。基于这些见解,我们提出了 Wukong,这是一个基于 Transformer 的 NSFW 检测框架,它利用早期去噪步骤的中间输出并重用 U-Net 的预训练交叉注意力参数。悟空在扩散过程中运行,无需等待完整图像生成即可实现早期检测。我们还引入了一个包含提示、种子和特定于图像的 NSFW 标签的新数据集,并在此基准和两个公共基准上评估悟空。结果表明,悟空的性能明显优于基于文本的保护措施,并实现了与图像滤镜相当的精度,同时提供了更高的效率。

科目: 计算机视觉和模式识别, 人工智能, 密码学和安全性

发布: 2025-08-01 12:45:30 UTC

#53 OmniUnet:使用 RGB、深度和热图像在行星漫游车上进行非结构化地形分割的多模态网络

Authors: [Raul Castilla-Arquillo](https://arxiv.org/search/?searchtype=author&query=Raul Castilla-Arquillo), [Carlos Perez-del-Pulgar](https://arxiv.org/search/?searchtype=author&query=Carlos Perez-del-Pulgar), [Levin Gerdes](https://arxiv.org/search/?searchtype=author&query=Levin Gerdes), [Alfonso Garcia-Cerezo](https://arxiv.org/search/?searchtype=author&query=Alfonso Garcia-Cerezo), [Miguel A. Olivares-Mendez](https://arxiv.org/search/?searchtype=author&query=Miguel A. Olivares-Mendez)

非结构化环境中的机器人导航需要能够支持安全导航的多模态感知系统。多模态可以集成不同传感器收集的互补信息。然而,这些信息必须由专门设计用于利用异构数据的机器学习算法进行处理。此外,有必要确定哪些传感器模式对目标环境中的导航信息最丰富。在火星探测中,由于土壤类型之间热行为的差异,热图像已被证明对于评估地形安全很有价值。这项工作提出了 OmniUnet,这是一种基于 Transformer 的神经网络架构,用于使用 RGB、深度和热 (RGB-D-T) 图像进行语义分割。使用 3D 打印开发了一种定制的多模态传感器外壳,并安装在火星漫游车自主测试台 (MaRTA) 上,以收集西班牙北部巴德纳斯半沙漠的多模态数据集。该位置是火星表面的代表性环境,具有沙子、基岩和致密土壤等地形类型。该数据集的子集被手动标记,以支持网络的监督训练。对模型进行了定量和定性评估,像素准确率达到80.37%,在分割复杂非结构化地形方面表现出较强的性能。推理测试在资源受限的计算机 (Jetson Orin Nano) 上产生了 673 毫秒的平均预测时间,证实了其适合机器人部署。该网络的软件实现和标记数据集已公开,以支持未来行星机器人多模态地形感知的研究。

科目: 机器人, 人工智能

发布: 2025-08-01 12:23:29 UTC

#54 使用形式语法分析描述逻辑中的时间推理

Authors: [Camille Bourgaux](https://arxiv.org/search/?searchtype=author&query=Camille Bourgaux), [Anton Gnatenko](https://arxiv.org/search/?searchtype=author&query=Anton Gnatenko), [Michaël Thomazo](https://arxiv.org/search/?searchtype=author&query=Michaël Thomazo)

我们在(片段)之间建立了对应关系 TEL◯,是 EL 描述逻辑与 LTL 运算符◯k,以及一些特定类型的形式语法,特别是连词语法(配备交集作的上下文无关语法)。这种联系意味着 TEL◯ 不具备模型的极限周期性,并进一步导致查询应答的不可判定性。TEL◯,关闭自引入以来悬而未决的问题 TEL◯.此外,它还允许为一些新的有趣片段建立查询应答的可判定性 TEL◯,并为此目的重复使用现有的连接语法工具和算法。

科目: 计算机科学中的逻辑, 人工智能

发布: 2025-08-01 12:17:49 UTC

#55 SynAdapt:通过合成连续思维链学习大型语言模型中的自适应推理

Authors: [Jianwei Wang](https://arxiv.org/search/?searchtype=author&query=Jianwei Wang), [Ziming Wu](https://arxiv.org/search/?searchtype=author&query=Ziming Wu), [Fuming Lai](https://arxiv.org/search/?searchtype=author&query=Fuming Lai), [Shaobing Lian](https://arxiv.org/search/?searchtype=author&query=Shaobing Lian), [Ziqian Zeng](https://arxiv.org/search/?searchtype=author&query=Ziqian Zeng)

虽然思维链 (CoT) 推理提高了模型性能,但由于生成离散 CoT 代币 (DCoT),它会产生大量的时间成本。连续 CoT (CCoT) 提供了一种更有效的替代方案,但现有的 CCoT 方法受到间接微调、有限比对或目标不一致的阻碍。为了克服这些限制,我们提出了 \textit{SynAdapt},一个创新的高效推理框架。具体来说,\textit{SynAdapt} 生成合成 CCoT 作为 LLM 的精确有效的对齐目标。这种合成 CCoT 明确指导 LLM 学习 CCoT 并直接得出准确的答案。此外,仅依靠 CCoT 不足以解决难题。为了解决这个问题,\textit{SynAdapt} 集成了一个难度分类器,该分类器利用问题上下文和 CCoT 来识别难题。经过一些简短的推理后,CCoT 可以有效地帮助识别难题。然后,我们自适应地提示法学硕士重新思考这些难题以提高性能。不同难度级别的各种基准的广泛实验结果有力地证明了我们方法的有效性,实现了最佳的精度-效率权衡。

科目: 计算和语言, 人工智能

发布: 2025-08-01 12:17:35 世界标准时间

#56 用于越狱攻击的激活引导本地编辑

Authors: [Jiecong Wang](https://arxiv.org/search/?searchtype=author&query=Jiecong Wang), [Haoran Li](https://arxiv.org/search/?searchtype=author&query=Haoran Li), [Hao Peng](https://arxiv.org/search/?searchtype=author&query=Hao Peng), [Ziqian Zeng](https://arxiv.org/search/?searchtype=author&query=Ziqian Zeng), [Zihao Wang](https://arxiv.org/search/?searchtype=author&query=Zihao Wang), [Haohua Du](https://arxiv.org/search/?searchtype=author&query=Haohua Du), [Zhengtao Yu](https://arxiv.org/search/?searchtype=author&query=Zhengtao Yu)

越狱是将这些模型红队化以发现和修补安全漏洞的重要对抗技术。然而,现有的越狱方法面临着重大的缺点。令牌级越狱攻击通常会产生不连贯或不可读的输入,并且可转移性差,而提示级攻击缺乏可扩展性,严重依赖人工工作和人类聪明才智。我们提出了一个简洁有效的两阶段框架,结合了这些方法的优点。第一阶段执行基于场景的上下文生成,并改写原始恶意查询以掩盖其有害意图。然后,第二阶段利用来自模型隐藏状态的信息来指导细粒度编辑,有效地将模型对输入的内部表示从恶意表示引导到良性表示。大量实验表明,该方法实现了最先进的攻击成功率,在最强基线的基础上提高了37.74%,并表现出出色的可转移到黑盒模型。我们的分析进一步表明,敏捷防御机制在对抗主要防御机制时保持了实质性的有效性,凸显了当前保障措施的局限性,并为未来的防御发展提供了宝贵的见解。我们的代码可在 https://github.com/yunsaijc/AGILE 获得。

科目: 密码学和安全性, 人工智能, 计算和语言

发布: 2025-08-01 11:52:24 UTC

#57 SPENCER:用于高效代码检索的自适应模型蒸馏

Authors: [Wenchao Gu](https://arxiv.org/search/?searchtype=author&query=Wenchao Gu), [Zongyi Lyu](https://arxiv.org/search/?searchtype=author&query=Zongyi Lyu), [Yanlin Wang](https://arxiv.org/search/?searchtype=author&query=Yanlin Wang), [Hongyu Zhang](https://arxiv.org/search/?searchtype=author&query=Hongyu Zhang), [Cuiyun Gao](https://arxiv.org/search/?searchtype=author&query=Cuiyun Gao), [Michael R. Lyu](https://arxiv.org/search/?searchtype=author&query=Michael R. Lyu)

代码检索旨在根据用户的自然语言查询为用户提供所需的代码片段。随着深度学习技术的发展,采用预训练模型来完成这项任务已成为主流。考虑到检索效率,以前的方法大多采用双编码器来完成这项任务,将描述和代码片段分别编码为表示向量。然而,双编码器的模型结构往往会限制模型的性能,因为它在训练过程中缺乏模型底层代码片段和描述之间的交互。为了在保持其效率的同时提高模型的有效性,我们提出了一个框架,该框架采用Self-AdaPtive Model Distillation for Efficient CodE Retrieval,名为SPENCER。SPENCER首先采用双编码器缩小搜索空间,然后采用交叉编码器提高精度。为了提高SPENCER的效率,我们提出了一种新的模型蒸馏技术,该技术可以在保持整体性能的同时大大减少双编码器的推理时间。我们还提出了一种模型精炼的助教选择策略,该策略可以在模型精炼过程中为不同的预训练模型自适应地选择合适的助教模型,以保证模型的性能。广泛的实验表明,与仅基于双编码器的代码检索模型相比,双编码器和交叉编码器的组合提高了整体性能。此外,我们的模型蒸馏技术保留了超过 98% 的整体性能,同时将双编码器的推理时间缩短了 70%。

科目: 软件工程, 人工智能

发布: 2025-08-01 11:39:32 UTC

#58 可解释模型的基础

Authors: [Pietro Barbiero](https://arxiv.org/search/?searchtype=author&query=Pietro Barbiero), [Mateo Espinosa Zarlenga](https://arxiv.org/search/?searchtype=author&query=Mateo Espinosa Zarlenga), [Alberto Termine](https://arxiv.org/search/?searchtype=author&query=Alberto Termine), [Mateja Jamnik](https://arxiv.org/search/?searchtype=author&query=Mateja Jamnik), [Giuseppe Marra](https://arxiv.org/search/?searchtype=author&query=Giuseppe Marra)

我们认为,现有的可解释性定义是不可作的,因为它们无法告知用户通用、合理和稳健的可解释模型设计。这使得当前的可解释性研究从根本上处于不利地位。为了解决这个问题,我们提出了一个通用、简单的可解释性定义,并包含可解释人工智能社区中现有的非正式概念。我们表明我们的定义是可作的,因为它直接揭示了设计可解释模型所需的基本属性、基本假设、原则、数据结构和架构特征。在此基础上,我们提出了设计可解释模型的总体蓝图,并引入了第一个原生支持可解释数据结构和流程的开源库。

科目: 机器学习, 人工智能, 神经和进化计算, 机器学习

发布: 2025-08-01 11:36:21 UTC

#59 走向语义信息的度量理论

Author: [George M. Coghill](https://arxiv.org/search/?searchtype=author&query=George M. Coghill)

关于语义信息量化的一个经典描述是 Bar-Hiller 和 Carnap 的描述。他们的叙述提出了陈述的信息量与其概率之间存在反比关系。然而,他们的方法为一个矛盾分配了最大的信息量:弗洛里迪将其称为巴尔-希勒尔-卡纳普悖论。他发展了一种基于距离度量和抛物线关系的新理论,旨在消除这个悖论。不幸的是,方法并没有成功实现这一目标。在本文中,我根据自己的术语批评了弗洛里迪的强语义信息理论,并展示了它在哪些方面成功和失败。然后,我提出了一种基于单位圆的新方法(这种关系一直是从基本三角学到量子理论的理论基础)。通过类比冯·诺依曼的量子概率来构建一个信息量度空间,该空间满足弗洛里迪规定的所有要求并消除悖论。此外,虽然矛盾和同义反复的信息量为零,但发现相互矛盾的信息同样具有信息量。通过一个例子来解释其效用。

科目: 信息论, 人工智能

发布: 2025-08-01 11:03:39 世界标准时间

#60 LesiOnTime – 纵向 DCE-MRI 中小乳腺病变分割的联合时间和临床建模

Authors: [Mohammed Kamran](https://arxiv.org/search/?searchtype=author&query=Mohammed Kamran), [Maria Bernathova](https://arxiv.org/search/?searchtype=author&query=Maria Bernathova), [Raoul Varga](https://arxiv.org/search/?searchtype=author&query=Raoul Varga), [Christian Singer](https://arxiv.org/search/?searchtype=author&query=Christian Singer), [Zsuzsanna Bago-Horvath](https://arxiv.org/search/?searchtype=author&query=Zsuzsanna Bago-Horvath), [Thomas Helbich](https://arxiv.org/search/?searchtype=author&query=Thomas Helbich), [Georg Langs](https://arxiv.org/search/?searchtype=author&query=Georg Langs), [Philipp Seeböck](https://arxiv.org/search/?searchtype=author&query=Philipp Seeböck)

在乳房动态对比增强 MRI (DCE-MRI) 中准确分割小病灶对于早期癌症检测至关重要,尤其是在高危患者中。虽然最近的深度学习方法已经推进了病灶分割,但它们主要针对大病灶,而忽略了放射科医生常规使用的有价值的纵向和临床信息。在真实世界的筛查中,检测细微或新出现的病变需要放射科医生跨时间点进行比较并考虑以前的放射学评估,例如 BI-RADS 评分。我们提出了 LesiOnTime,这是一种新型的 3D 分割方法,通过联合利用纵向成像和 BIRADS 评分来模拟临床诊断工作流程。关键组件是:(1) 时间先验注意力 (TPA) 块,动态集成来自以前和当前扫描的信息;(2) BI-RADS 一致性正则化 (BCR) 损失,可强制对具有类似放射学评估的扫描进行潜在空间对齐,从而将领域知识嵌入到训练过程中。在精选的 DCE-MRI 高危患者内部纵向数据集上进行评估,我们的方法在 Dice 方面比最先进的单时间点和纵向基线高出 5%。消融研究表明,TPA 和 BCR 都有助于互补的性能提升。这些结果凸显了在真实世界乳腺癌筛查中结合时间和临床背景以进行可靠的早期病变分割的重要性。我们的代码可在 https://github.com/cirmuw/LesiOnTime 公开获取

科目: 计算机视觉和模式识别, 人工智能

发布: 2025-08-01 10:19:53 UTC

#61 HannesImitation:通过模仿学习用 Hannes 假手抓握

Authors: [Carlo Alessi](https://arxiv.org/search/?searchtype=author&query=Carlo Alessi), [Federico Vasile](https://arxiv.org/search/?searchtype=author&query=Federico Vasile), [Federico Ceola](https://arxiv.org/search/?searchtype=author&query=Federico Ceola), [Giulia Pasquale](https://arxiv.org/search/?searchtype=author&query=Giulia Pasquale), [Nicolò Boccardo](https://arxiv.org/search/?searchtype=author&query=Nicolò Boccardo), [Lorenzo Natale](https://arxiv.org/search/?searchtype=author&query=Lorenzo Natale)

假手控制方面的最新进展集中在通过使用摄像头和其他感官输入来增加自主性。这些系统旨在通过自动控制一定的自由度来减轻用户的认知负荷。在机器人技术中,模仿学习已成为一种很有前途的方法,用于学习抓取和复杂的作任务,同时简化数据收集。然而,它在控制假手方面的应用在很大程度上仍未得到探索。弥合这一差距可以增强灵活性恢复,并使假肢设备能够在更不受限制的场景中运行,在这种场景中,任务是从演示中学习的,而不是依赖手动注释的序列。为此,我们提出了 HannesImitationPolicy,这是一种基于模仿学习的控制 Hannes 假手的方法,能够在非结构化环境中抓取物体。此外,我们还引入了HannesImitationDataset,包括在桌子、架子和人到假肢交接场景中的抓取演示。我们利用这些数据来训练单一的扩散策略,并将其部署在假手上,以预测手腕方向和手闭合以进行抓握。实验评估表明,对不同物体和条件的成功抓握。最后,我们表明该策略在非结构化场景中优于基于分割的视觉伺服控制器。我们的项目页面上提供了其他材料:https://hsp-iit.github.io/HannesImitation

科目: 机器人, 人工智能

发布: 2025-08-01 10:09:38 UTC

#62 CyGATE:用于补丁策略优化的博弈论网络攻防引擎

Authors: [Yuning Jiang](https://arxiv.org/search/?searchtype=author&query=Yuning Jiang), [Nay Oo](https://arxiv.org/search/?searchtype=author&query=Nay Oo), [Qiaoran Meng](https://arxiv.org/search/?searchtype=author&query=Qiaoran Meng), [Lu Lin](https://arxiv.org/search/?searchtype=author&query=Lu Lin), [Dusit Niyato](https://arxiv.org/search/?searchtype=author&query=Dusit Niyato), [Zehui Xiong](https://arxiv.org/search/?searchtype=author&query=Zehui Xiong), [Hoon Wei Lim](https://arxiv.org/search/?searchtype=author&query=Hoon Wei Lim), [Biplab Sikdar](https://arxiv.org/search/?searchtype=author&query=Biplab Sikdar)

现代网络攻击会经历多个阶段,要求防御者在不确定性下动态地确定缓解措施的优先级。虽然博弈论模型可以捕捉攻击者与防御者的互动,但现有方法通常依赖于静态假设,并且缺乏与实时威胁情报的集成,从而限制了它们的适应性。本文提出了 CyGATE,这是一种对攻击者-防御者交互进行建模的博弈论框架,使用大型语言模型 (LLM) 和检索增强生成 (RAG) 来增强策略选择和补丁优先级。应用于双代理场景,CyGATE 将网络冲突构建为跨网络杀伤链阶段的部分可观察随机博弈 (POSG)。两种代理都使用信念状态来应对不确定性,攻击者调整策略,防御者根据不断变化的风险和观察到的对手行为重新确定补丁的优先级。该框架灵活的架构可以扩展到涉及协调攻击者、协作防御者或具有多个利益相关者的复杂企业环境的多代理场景。在动态补丁调度场景下进行评估,CyGATE 有效地优先处理高风险漏洞,通过动态威胁集成增强适应性,通过预测不确定性下的攻击者行动来增强战略远见,通过优化资源使用来提高效率。

科目: 密码学和安全性, 人工智能

发布: 2025-08-01 09:53:06 UTC

#63 M^2VAE:用于冷启动项目推荐的多模态多视图变分自动编码器

Authors: [Chuan He](https://arxiv.org/search/?searchtype=author&query=Chuan He), [Yongchao Liu](https://arxiv.org/search/?searchtype=author&query=Yongchao Liu), [Qiang Li](https://arxiv.org/search/?searchtype=author&query=Qiang Li), [Wenliang Zhong](https://arxiv.org/search/?searchtype=author&query=Wenliang Zhong), [Chuntao Hong](https://arxiv.org/search/?searchtype=author&query=Chuntao Hong), [Xinwei Yao](https://arxiv.org/search/?searchtype=author&query=Xinwei Yao)

冷启动项目推荐是推荐系统中的一个重大挑战,特别是当在没有任何历史交互数据的情况下引入新项目时。虽然现有方法利用多模态内容来缓解冷启动问题,但它们往往忽略了模态固有的多视图结构,即共享特征和特定模态特征之间的区别。在本文中,我们提出了多模态多视图变分自动编码器(M^2VAE),这是一种生成模型,它解决了对属性和多模态特征中的常见和唯一视图进行建模的挑战,以及用户对单一类型项目特征的偏好。具体来说,我们为项目 ID、分类属性和图像特征生成特定于类型的潜在变量,并使用专家产品 (PoE) 来推导通用表示。解缠对比损失将通用视图与唯一视图解耦,同时保留特征信息量。为了对用户倾向进行建模,我们采用偏好引导的专家混合 (MoE) 来自适应地融合表示。我们通过对比学习进一步整合共现信号,消除了预训练的需要。在真实世界数据集上的大量实验验证了我们方法的有效性。

科目: 信息检索, 人工智能

发布: 2025-08-01 09:16:26 UTC

#64 当相关性与新颖性相遇时:探索性推荐的双稳态周期性优化

Authors: [Hongxiang Lin](https://arxiv.org/search/?searchtype=author&query=Hongxiang Lin), [Hao Guo](https://arxiv.org/search/?searchtype=author&query=Hao Guo), [Zeshun Li](https://arxiv.org/search/?searchtype=author&query=Zeshun Li), [Erpeng Xue](https://arxiv.org/search/?searchtype=author&query=Erpeng Xue), [Yongqian He](https://arxiv.org/search/?searchtype=author&query=Yongqian He), [Xiangyu Hou](https://arxiv.org/search/?searchtype=author&query=Xiangyu Hou), [Zhaoyu Hu](https://arxiv.org/search/?searchtype=author&query=Zhaoyu Hu), [Lei Wang](https://arxiv.org/search/?searchtype=author&query=Lei Wang), [Sheng Chen](https://arxiv.org/search/?searchtype=author&query=Sheng Chen)

传统的推荐系统往往会通过过度推送符合用户历史偏好的内容来困在强大的反馈循环中,从而限制探索机会并导致内容疲劳。尽管大型语言模型(LLM)以其多样化的内容生成能力展示了潜力,但现有的LLM增强双模型框架面临两大局限性:首先,它们忽视了群体身份驱动的长期偏好,导致有偏见的兴趣建模;其次,它们存在静态优化缺陷,因为一次性对齐过程无法利用增量用户数据进行闭环优化。为了应对这些挑战,我们提出了共同进化对齐 (CoEA) 方法。对于兴趣建模偏差,我们引入了双稳定兴趣探索(DSIE)模块,通过行为序列的并行处理,共同对长期群体认同和短期个体兴趣进行建模。针对静态优化的限制,我们设计了一种周期性协同优化(PCO)机制。该机制使用 Relevance LLM 定期对增量数据进行偏好验证,然后引导 Novelty LLM 根据验证结果进行微调,随后将增量微调的 Novelty LLM 的输出反馈给 Relevance LLM 进行重新评估,从而实现动态闭环优化。大量的线上和线下实验验证了CoEA模型在探索性推荐中的有效性。

科目: 信息检索, 人工智能

发布: 2025-08-01 09:10:56 UTC

#65 TopoTTA:用于管状结构分割的拓扑增强测试时间适应

Authors: [Jiale Zhou](https://arxiv.org/search/?searchtype=author&query=Jiale Zhou), [Wenhan Wang](https://arxiv.org/search/?searchtype=author&query=Wenhan Wang), [Shikun Li](https://arxiv.org/search/?searchtype=author&query=Shikun Li), [Xiaolei Qu](https://arxiv.org/search/?searchtype=author&query=Xiaolei Qu), [Xin Guo](https://arxiv.org/search/?searchtype=author&query=Xin Guo), [Yizhong Liu](https://arxiv.org/search/?searchtype=author&query=Yizhong Liu), [Wenzhong Tang](https://arxiv.org/search/?searchtype=author&query=Wenzhong Tang), [Xun Lin](https://arxiv.org/search/?searchtype=author&query=Xun Lin), [Yefeng Zheng](https://arxiv.org/search/?searchtype=author&query=Yefeng Zheng)

管状结构分割 (TSS) 对于各种应用都很重要,例如血流动力学分析和路线导航。尽管 TSS 取得了重大进展,但域转移仍然是一个主要挑战,导致看不见的目标域的性能下降。与其他分割任务不同,TSS 对域偏移更敏感,因为拓扑结构的变化会损害分割完整性,并且区分前景和背景的局部特征的变化(例如,纹理和对比度)可能会进一步破坏拓扑连续性。为了应对这些挑战,我们提出了拓扑增强测试时自适应(TopoTTA),这是第一个专门为 TSS 设计的测试时自适应框架。TopoTTA由两个阶段组成:第一阶段使用提出的拓扑元差分卷积(TopoMDC)使模型适应跨域拓扑差异,在不改变预训练参数的情况下增强拓扑表示;第 2 阶段通过一种新颖的拓扑硬样本生成 (TopoHG) 策略和对生成的伪断裂区域中具有伪标记的硬样本进行预测对齐来改善拓扑连续性。在4个场景和10个数据集中进行的大量实验证明了TopoTTA在处理拓扑分布偏移方面的有效性,在clDice中实现了31.81%的平均提升。TopoTTA 还可作为基于 CNN 的 TSS 模型的即插即用 TTA 解决方案。

科目: 计算机视觉和模式识别, 人工智能

发布: 2025-08-01 08:59:13 UTC

#66 缩小聚光太阳能发电厂通用数据与航空图像之间的差距

Authors: [M. A. Pérez-Cutiño](https://arxiv.org/search/?searchtype=author&query=M. A. Pérez-Cutiño), [J. Valverde](https://arxiv.org/search/?searchtype=author&query=J. Valverde), [J. Capitán](https://arxiv.org/search/?searchtype=author&query=J. Capitán), [J. M. Díaz-Báñez](https://arxiv.org/search/?searchtype=author&query=J. M. Díaz-Báñez)

在聚光太阳能发电 (CSP) 工厂的背景下,无人机拍摄的航空图像带来了一系列独特的挑战。与现有数据集中常见的城市或自然景观不同,太阳能场包含高反射表面和传统计算机视觉基准测试中不常见的特定领域元素。因此,在通用数据集上训练的机器学习模型很难推广到这种设置,而无需进行广泛的重新训练和大量注释数据。然而,收集和标记此类数据既昂贵又耗时,因此无法在工业应用中快速部署。为了解决这个问题,我们提出了一种新方法:创建 AerialCSP,这是一个模拟 CSP 工厂航空图像的虚拟数据集。通过生成与现实世界条件非常相似的合成数据,我们的目标是促进模型在部署前的预训练,从而显着减少对大量手动标记的需求。我们的主要贡献有三点:(1)我们引入了AerialCSP,这是一个用于光热发电厂航检的高质量合成数据集,为目标检测和图像分割提供注释数据;(2)我们在AerialCSP上对多个模型进行基准测试,为CSP相关视觉任务建立基线;(3)我们证明,在AerialCSP上进行预训练可以显著改善真实世界的故障检测,特别是对于罕见和小缺陷,从而减少了对大量手动标记的需求。AerialCSP 在 https://mpcutino.github.io/aerialcsp/ 公开提供。

科目: 计算机视觉和模式识别, 人工智能, 机器人

发布: 2025-08-01 08:57:02 UTC

#67 通过多区域修复实现人与物交互的接触感知非模态补全

Authors: [Seunggeun Chi](https://arxiv.org/search/?searchtype=author&query=Seunggeun Chi), [Enna Sachdeva](https://arxiv.org/search/?searchtype=author&query=Enna Sachdeva), [Pin-Hao Huang](https://arxiv.org/search/?searchtype=author&query=Pin-Hao Huang), [Kwonjoon Lee](https://arxiv.org/search/?searchtype=author&query=Kwonjoon Lee)

非模态完成,即在部分遮挡的情况下推断物体完整外观的过程,对于理解计算机视觉和机器人技术中的复杂人与物体交互 (HOI) 至关重要。现有的方法,例如使用预训练扩散模型的方法,通常难以在动态场景中生成合理的补全,因为它们对 HOI 的理解有限。为了解决这个问题,我们开发了一种新方法,该方法使用物理先验知识以及专为 HOI 设计的专门多区域修复技术。通过结合人体拓扑和联系信息的物理约束,我们定义了两个不同的区域:主要区域,最有可能出现被遮挡的物体部分,以及次要区域,其中遮挡的可能性较小。我们的多区域修复方法在扩散模型中跨这些区域使用定制的去噪策略。这提高了生成的补全的形状和视觉细节的准确性和真实感。我们的实验结果表明,我们的方法在 HOI 场景中明显优于现有方法,使机器感知更接近于对动态环境的更像人类的理解。我们还表明,即使没有地面实况接触注释,我们的管道也是稳健的,这扩大了其对 3D 重建和新颖视图/姿势合成等任务的适用性。

科目: 计算机视觉和模式识别, 人工智能

发布: 2025-08-01 08:33:45 UTC

#68 DC-AE 1.5:通过结构化潜在空间加速扩散模型收敛

Authors: [Junyu Chen](https://arxiv.org/search/?searchtype=author&query=Junyu Chen), [Dongyun Zou](https://arxiv.org/search/?searchtype=author&query=Dongyun Zou), [Wenkun He](https://arxiv.org/search/?searchtype=author&query=Wenkun He), [Junsong Chen](https://arxiv.org/search/?searchtype=author&query=Junsong Chen), [Enze Xie](https://arxiv.org/search/?searchtype=author&query=Enze Xie), [Song Han](https://arxiv.org/search/?searchtype=author&query=Song Han), [Han Cai](https://arxiv.org/search/?searchtype=author&query=Han Cai)

我们推出了 DC-AE 1.5,这是一个用于高分辨率扩散模型的新型深度压缩自动编码器系列。增加自动编码器的潜在通道数是提高其重建质量的高效方法。然而,它导致扩散模型收敛缓慢,导致尽管重建质量更好,但生成质量较差。该问题限制了潜在扩散模型的质量上限,阻碍了具有更高空间压缩比的自动编码器的使用。我们引入了两项关键创新来应对这一挑战:i) 结构化潜在空间,一种基于训练的方法,在潜在空间上施加所需的通道结构,前潜通道捕获对象结构,后潜通道捕获图像细节;ii) 增强扩散训练,一种增强扩散训练策略,在目标潜在通道上具有额外的扩散训练目标,以加速收敛。通过这些技术,DC-AE 1.5 提供了比 DC-AE 更快的收敛和更好的扩散缩放结果。在 ImageNet 512x512 上,DC-AE-1.5-f64c128 提供比 DC-AE-f32c32 更好的图像生成质量,同时速度提高 4 倍。代码:https://github.com/dc-ai-projects/DC-Gen。

科目: 计算机视觉和模式识别, 人工智能

发布: 2025-08-01 08:11:07 UTC

#69 对齐前解耦:视觉解缠增强提示调整

Authors: [Fei Zhang](https://arxiv.org/search/?searchtype=author&query=Fei Zhang), [Tianfei Zhou](https://arxiv.org/search/?searchtype=author&query=Tianfei Zhou), [Jiangchao Yao](https://arxiv.org/search/?searchtype=author&query=Jiangchao Yao), [Ya Zhang](https://arxiv.org/search/?searchtype=author&query=Ya Zhang), [Ivor W. Tsang](https://arxiv.org/search/?searchtype=author&query=Ivor W. Tsang), [Yanfeng Wang](https://arxiv.org/search/?searchtype=author&query=Yanfeng Wang)

提示调优(PT)作为一种新兴的资源高效微调范式,在提高视觉语言模型的特定任务可转移性方面表现出显著的效果。本文深入探讨了PT中一个以前被忽视的信息不对称问题,即视觉模态大多比面向对象的文本模态传达更多的上下文。相应地,粗略地对齐这两种模式可能会导致注意力偏向,从而促使模型仅关注上下文区域。为了解决这个问题,我们提出了 DAPT,这是一个基于直观的先解耦后对齐概念的有效 PT 框架。首先,我们提出通过利用粗细视觉分割线索,将视觉模态显式解耦到前景和背景表示中,然后将这两种解耦模式与原始前景文本和手工制作的背景类对齐,从而对称地加强模态对齐。为了进一步增强视觉集中度,我们提出了一种针对前景-背景模式量身定制的视觉拉推正则化,将原始视觉表示引导到对感兴趣区域物体的无偏注意力上。我们通过少量学习、从基础到新颖的泛化和数据高效学习展示了无架构 DAPT 的强大功能,所有这些都在流行的基准测试中产生了卓越的性能。我们的代码将于 https://github.com/Ferenas/DAPT 发布。

科目: 计算机视觉和模式识别, 人工智能

发布: 2025-08-01 07:46:00 UTC

#70 ExeKGLib:基于知识图谱的机器学习分析平台

Authors: [Antonis Klironomos](https://arxiv.org/search/?searchtype=author&query=Antonis Klironomos), [Baifan Zhou](https://arxiv.org/search/?searchtype=author&query=Baifan Zhou), [Zhipeng Tan](https://arxiv.org/search/?searchtype=author&query=Zhipeng Tan), [Zhuoxun Zheng](https://arxiv.org/search/?searchtype=author&query=Zhuoxun Zheng), [Mohamed H. Gad-Elrab](https://arxiv.org/search/?searchtype=author&query=Mohamed H. Gad-Elrab), [Heiko Paulheim](https://arxiv.org/search/?searchtype=author&query=Heiko Paulheim), [Evgeny Kharlamov](https://arxiv.org/search/?searchtype=author&query=Evgeny Kharlamov)

如今,机器学习 (ML) 从业者可以访问在线提供的大量 ML 库。此类库可用于创建由一系列步骤组成的 ML 管道,其中每个步骤最多可以调用多个用于各种数据驱动分析任务的 ML 库。开发高质量的 ML 管道并非易事;它需要培训、机器学习专业知识和每个步骤的仔细开发。同时,科学和工程领域的领域专家在迫切需要基于机器学习的分析时可能不具备此类机器学习专业知识和培训。在本文中,我们介绍了我们的 ExeKGLib,这是一个通过图形界面层增强的 Python 库,允许具有最少 ML 知识的用户构建 ML 管道。这是通过依赖知识图谱来实现的,这些知识图谱以非 ML 专家可以访问的简单术语对 ML 知识进行编码。ExeKGLib 还可以提高构建的 ML 工作流程的透明度和可重用性,并确保它们是可执行的。我们通过展示真实的用例来展示 ExeKGLib 的可用性和实用性。

科目: 机器学习, 人工智能

发布: 2025-08-01 07:45:49 UTC

#71 MVHybrid:在病理视觉基础模型中使用混合状态空间视觉转换器主干改进空间转录组学预测

Authors: [Won June Cho](https://arxiv.org/search/?searchtype=author&query=Won June Cho), [Hongjun Yoon](https://arxiv.org/search/?searchtype=author&query=Hongjun Yoon), [Daeky Jeong](https://arxiv.org/search/?searchtype=author&query=Daeky Jeong), [Hyeongyeol Lim](https://arxiv.org/search/?searchtype=author&query=Hyeongyeol Lim), [Yosep Chong](https://arxiv.org/search/?searchtype=author&query=Yosep Chong)

空间转录组学揭示了组织环境中的基因表达模式,从而实现了治疗反应预测等精确肿瘤学应用,但其高成本和技术复杂性限制了临床采用。从常规组织病理学图像预测空间基因表达(生物标志物)提供了一种实用的替代方案,但目前基于视觉转换器 (ViT) 骨架的病理学视觉基础模型 (VFM) 的性能低于临床标准。鉴于 VFM 已经在数百万张不同的整张幻灯片图像上进行了训练,我们假设 ViT 之外的架构创新可能会更好地捕捉与分子表型相关的低频、微妙的形态模式。通过证明以负实特征值初始化的状态空间模型表现出强烈的低频偏差,我们引入了 MVHybrid,一种将状态空间模型 (SSM) 与 ViT 相结合的混合主干架构。我们比较了病理 VFM 的其他五种不同骨干架构,所有这些架构都使用 DINOv2 自监督学习方法在相同的结直肠癌数据集上进行预训练。我们使用同一生物标志物数据集的随机拆分和留一研究 (LOSO) 设置评估所有预训练模型。在LOSO评估中, MVHybrid 与随机分裂相比,其相关性比性能最佳的 ViT 高 57%,并且在基因表达预测中表现出 43% 的性能下降,分别表现出卓越的性能和鲁棒性。此外MVHybrid 与 ViT 相比,在分类、补丁检索和生存预测任务中表现出同等或更好的下游性能,显示出其作为下一代病理 VFM 骨干的前景。我们的代码可在以下网址公开获取:https://github.com/deepnoid-ai/MVHybrid。

科目: 计算机视觉和模式识别, 人工智能, 计算工程、金融和科学, 机器学习

发布: 2025-08-01 07:23:45 UTC

#72 通过 Adapt-WeldNet 和缺陷检测可解释性分析推进海上作业中的焊接缺陷检测

Authors: [Kamal Basha S](https://arxiv.org/search/?searchtype=author&query=Kamal Basha S), [Athira Nambiar](https://arxiv.org/search/?searchtype=author&query=Athira Nambiar)

焊接缺陷检测对于确保石油和天然气行业管道系统的安全性和可靠性至关重要,特别是在具有挑战性的海洋和海上环境中。传统的无损检测 (NDT) 方法通常无法检测到细微或内部缺陷,从而导致潜在的故障和代价高昂的停机。此外,现有的基于神经网络的缺陷分类方法经常依赖于任意选择的预训练架构,并且缺乏可解释性,这引发了部署的安全问题。为了应对这些挑战,本文引入了“Adapt-WeldNet”,这是一个用于焊接缺陷检测的自适应框架,它系统地评估各种预训练架构、迁移学习策略和自适应优化器,以识别性能最佳的模型和超参数,优化缺陷检测并提供可作的见解。此外,还提出了一种新的缺陷检测可解释性分析(DDIA)框架来增强系统透明度。DDIA 采用可解释人工智能 (XAI) 技术,例如 Grad-CAM 和 LIME,以及由经过认证的 ASNT NDE II 级专业人员验证的特定领域评估。DDIA 采用人机交互 (HITL) 方法并符合可信人工智能的原则,确保缺陷检测系统的可靠性、公平性和问责制,通过专家验证增强对自动化决策的信心。通过提高性能和可解释性,这项工作增强了焊接缺陷检测系统的信任度、安全性和可靠性,支持海上和海洋环境中的关键作。

科目: 计算机视觉和模式识别, 人工智能, 计算工程、金融和科学, 机器学习

发布: 2025-08-01 07:19:23 UTC

#73 GV-VAD : 探索用于弱监督视频异常检测的视频生成

Authors: [Suhang Cai](https://arxiv.org/search/?searchtype=author&query=Suhang Cai), [Xiaohao Peng](https://arxiv.org/search/?searchtype=author&query=Xiaohao Peng), [Chong Wang](https://arxiv.org/search/?searchtype=author&query=Chong Wang), [Xiaojie Cai](https://arxiv.org/search/?searchtype=author&query=Xiaojie Cai), [Jiangbo Qian](https://arxiv.org/search/?searchtype=author&query=Jiangbo Qian)

视频异常检测 (VAD) 在智能监控等公共安全应用中发挥着至关重要的作用。然而,现实世界异常的稀有性、不可预测性和高标注成本使得VAD数据集难以扩展,这限制了现有模型的性能和泛化能力。为了应对这一挑战,我们提出了一种生成视频增强的弱监督视频异常检测(GV-VAD)框架,该框架利用文本条件视频生成模型来生成语义上可控且物理上合理的合成视频。这些虚拟视频用于以低成本扩充训练数据。此外,利用合成样本损失缩放策略来控制生成的合成样本的影响,以实现高效训练。实验表明,所提出的框架在UCF-Crime数据集上优于最先进的方法。该代码可在 https://github.com/Sumutan/GV-VAD.git 获得。

科目: 计算机视觉和模式识别, 人工智能

发布: 2025-08-01 04:42:40 UTC

#74 波束成形 360° 声音图:U-Net 驱动的声源分割和定位

Authors: [Belman Jahir Rodriguez](https://arxiv.org/search/?searchtype=author&query=Belman Jahir Rodriguez), [Sergio F. Chevtchenko](https://arxiv.org/search/?searchtype=author&query=Sergio F. Chevtchenko), [Marcelo Herrera Martinez](https://arxiv.org/search/?searchtype=author&query=Marcelo Herrera Martinez), [Yeshwant Bethy](https://arxiv.org/search/?searchtype=author&query=Yeshwant Bethy), [Saeed Afshar](https://arxiv.org/search/?searchtype=author&query=Saeed Afshar)

我们引入了一个用于 360{\deg} 声源定位的 U 网模型,该模型被表述为球形语义分割任务。我们的模型不是回归离散到达方向 (DoA) 角度,而是将波束成形音频图(方位角和仰角)分割为有声的区域。在定制的 24 个麦克风阵列上使用延迟和和 (DAS) 波束成形,我们生成与无人机 GPS 遥测对齐的信号,以创建二进制监控掩码。经过这些映射的频域表示训练的改进的 U-Net 学习识别空间分布的源区域,同时通过特沃斯基损耗解决类不平衡问题。由于网络在波束成形能量图上运行,因此该方法本质上是独立于阵列的,并且可以适应不同的麦克风配置,而无需从头开始重新训练。分割输出通过计算激活区域上的质心进行后处理,从而实现稳健的 DoA 估计。我们的数据集包括 DJI Air 3 无人机的真实世界露天记录,与多个日期和地点的 360{\deg} 视频和飞行日志同步。实验结果表明,U-net跨环境泛化,提高了角度精度,为传统声源定位(SSL)之外的密集空间音频理解提供了新的范例。

科目: 音频和语音处理, 人工智能, 声音, 信号处理

发布: 2025-08-01 04:23:18 UTC

#75 MetaExplainer:为人工智能系统生成多类型、以用户为中心的解释的框架

Authors: [Shruthi Chari](https://arxiv.org/search/?searchtype=author&query=Shruthi Chari), [Oshani Seneviratne](https://arxiv.org/search/?searchtype=author&query=Oshani Seneviratne), [Prithwish Chakraborty](https://arxiv.org/search/?searchtype=author&query=Prithwish Chakraborty), [Pablo Meyer](https://arxiv.org/search/?searchtype=author&query=Pablo Meyer), [Deborah L. McGuinness](https://arxiv.org/search/?searchtype=author&query=Deborah L. McGuinness)

解释对于构建值得信赖的人工智能系统至关重要,但模型提供的解释与用户所需的解释之间往往存在差距。为了解决这一差距,我们推出了 MetaExplainer,这是一个神经符号框架,旨在生成以用户为中心的解释。我们的方法采用三阶段过程:首先,我们使用最先进的大型语言模型 (LLM) 将用户问题分解为机器可读的格式;其次,我们将生成系统建议的任务委托给模型解释器方法;最后,我们合成自然语言解释来总结解释器输出。在整个过程中,我们利用解释本体来指导语言模型和解释方法。通过利用法学硕士和结构化的解释生成方法,MetaExplainer 旨在增强人工智能系统在各种应用程序中的可解释性和可信度,为用户提供量身定制的、问题驱动的解释,更好地满足他们的需求。对 MetaExplainer 的全面评估表明,在评估和利用当前最先进的解释框架方面迈出了一步。我们的结果显示,在所有阶段都表现出色,问题重构的 F1 得分为 59.06%,模型解释的忠实度为 70%,自然语言合成的上下文利用率为 67%。用户研究证实了这些发现,强调了生成解释的创造性和全面性。MetaExplainer 在糖尿病 (PIMA Indian) 表格数据集上进行测试,支持多种解释类型,包括对比解释、反事实解释、基本原理解释、基于案例解释和数据解释。该框架的多功能性和可追溯性,从使用本体来指导法学硕士,表明在测试场景之外具有广泛的适用性,将 MetaExplainer 定位为增强各个领域的人工智能可解释性的有前途的工具。

科目: 人机交互, 人工智能, 机器学习

发布: 2025-08-01 04:01:40 UTC

#76 通过运动序列进行多视图驾驶场景的可控行人视频编辑

Authors: [Danzhen Fu](https://arxiv.org/search/?searchtype=author&query=Danzhen Fu), [Jiagao Hu](https://arxiv.org/search/?searchtype=author&query=Jiagao Hu), [Daiguo Zhou](https://arxiv.org/search/?searchtype=author&query=Daiguo Zhou), [Fei Wang](https://arxiv.org/search/?searchtype=author&query=Fei Wang), [Zepeng Wang](https://arxiv.org/search/?searchtype=author&query=Zepeng Wang), [Wenhua Liao](https://arxiv.org/search/?searchtype=author&query=Wenhua Liao)

自动驾驶系统中的行人检测模型通常缺乏鲁棒性,因为训练数据集中对危险行人场景的表示不足。为了解决这一限制,我们通过集成视频修复和人体运动控制技术,提出了一种用于多视角驾驶场景下可控行人视频编辑的新框架。我们的方法首先在多个摄像头视图中识别感兴趣的行人区域,以固定比例扩展检测边界框,并在保留交叉视图空间关系的同时调整这些区域的大小和拼接到统一的画布中。然后应用二进制遮罩来指定可编辑区域,在该区域内,行人编辑由姿势序列控制条件引导。这实现了灵活的编辑功能,包括行人插入、替换和移除。大量实验表明,我们的框架实现了高质量的行人编辑,具有很强的视觉真实感、时空连贯性和交叉视图一致性。这些结果确立了所提出的方法作为多视图行人视频生成的稳健且通用的解决方案,在自动驾驶中的数据增强和场景模拟中具有广泛的应用潜力。

科目: 计算机视觉和模式识别, 人工智能, 机器人

发布: 2025-08-01 03:56:57 UTC

#77 概率和期望效用理论中的形式幂级数表示

Authors: [Arthur Paul Pedersen](https://arxiv.org/search/?searchtype=author&query=Arthur Paul Pedersen), [Samuel Allen Alexander](https://arxiv.org/search/?searchtype=author&query=Samuel Allen Alexander)

我们提出了一种连贯偏好的一般理论,该理论放弃了正统教义中体现的限制。该理论具有任何偏好系统都允许扩展到完整的偏好系统的特性,前提是它满足某种连贯性要求,类似于德菲内蒂为他的概率基础提出的要求。与德菲内蒂的理论不同,我们提出的理论既不需要传递性,也不需要阿基米德性,也不需要有边界性,也不需要偏好的连续性。该理论还具有这样一个特性,即任何满足相干标准的完整偏好系统都可以在实数的有序域扩展中用效用表示。效用可表示性是本文中心结果的必然结果,它立即扩展了 Hölder 定理并加强了 Hahn 的嵌入定理。

科目: 概率, 人工智能, 理论经济学, 逻辑, 统计理论

发布: 2025-08-01 03:34:39 UTC

#78 校准的语言模型以及如何使用标签平滑找到它们

Authors: [Jerry Huang](https://arxiv.org/search/?searchtype=author&query=Jerry Huang), [Peng Lu](https://arxiv.org/search/?searchtype=author&query=Peng Lu), [Qiuhao Zeng](https://arxiv.org/search/?searchtype=author&query=Qiuhao Zeng)

自然语言处理 (NLP) 的最新进展为微调的大型语言模型 (LLM) 提供了更大的机会,通过改进指令遵循能力,使微调的大型语言模型 (LLM) 能够充当更强大的交互代理。然而,尚未全面研究了解这如何影响可靠模型输出的置信度校准。在这项工作中,我们检查了各种开源 LLM,发现每个 LLM 在指令调整后显着的校准性能下降。为了寻求实用的解决方案,我们研究了标签平滑,它已被证明是一种针对过度置信预测进行正则化的有效方法,但尚未在法学硕士的监督微调(SFT)中广泛采用。我们首先深入了解为什么标签平滑足以在整个 SFT 过程中保持校准。然而,平滑有效性严重下降的环境仍然存在,特别是大词汇量法学硕士 (LV-LLM) 的情况。我们假设原因源于过度自信的能力,这与隐藏的大小和词汇量有直接关系,并通过理论和实验证明了这一点。最后,我们解决了标签平滑损失设置中交叉熵损失计算的内存占用的悬而未决的问题,设计了一个定制的内核,与现有的非平滑损失解决方案相比,可以在不牺牲速度或性能的情况下显着减少内存消耗。

科目: 机器学习, 人工智能, 机器学习

发布: 2025-08-01 02:12:20 UTC

#79 低空无线网络中支持大型人工智能模型的安全通信:概念、观点和案例研究

Authors: [Chuang Zhang](https://arxiv.org/search/?searchtype=author&query=Chuang Zhang), [Geng Sun](https://arxiv.org/search/?searchtype=author&query=Geng Sun), [Jiacheng Wang](https://arxiv.org/search/?searchtype=author&query=Jiacheng Wang), [Yijing Lin](https://arxiv.org/search/?searchtype=author&query=Yijing Lin), [Weijie Yuan](https://arxiv.org/search/?searchtype=author&query=Weijie Yuan), [Sinem Coleri](https://arxiv.org/search/?searchtype=author&query=Sinem Coleri), [Dusit Niyato](https://arxiv.org/search/?searchtype=author&query=Dusit Niyato), [Tony Q. S. Quek](https://arxiv.org/search/?searchtype=author&query=Tony Q. S. Quek)

低空无线网络 (LAWN) 有可能通过支持一系列应用(包括城市包裹递送、空中检查和空中出租车)来彻底改变通信方式。然而,与传统无线网络相比,LAWN由于低空作业、频繁移动和依赖未经许可的频谱,面临着独特的安全挑战,使其更容易受到一些恶意攻击。在本文中,我们研究了一些支持大型人工智能模型 (LAM) 的草坪安全通信解决方案。具体来说,我们首先探讨了传统人工智能方法在草坪中被放大的安全风险和重要局限性。然后,我们介绍了 LAM 的基本概念,并深入研究了 LAM 在应对这些挑战中的作用。为了证明LAM在LAWN中安全通信的实际优势,我们提出了一种基于LAM的新型优化框架,该框架利用大型语言模型(LLM)在手工制作的表示之上生成增强的状态特征,并相应地设计内在奖励,从而提高安全通信任务的强化学习性能。通过典型案例研究,仿真结果验证了所提框架的有效性。最后,我们概述了将 LAM 集成到安全 LAWN 应用中的未来方向。

科目: 网络和互联网架构, 人工智能

发布: 2025-08-01 01:53:58 UTC

#80 使用大型语言模型从文本生成准确一致的图形模型

Authors: [Boqi Chen](https://arxiv.org/search/?searchtype=author&query=Boqi Chen), [Ou Wei](https://arxiv.org/search/?searchtype=author&query=Ou Wei), [Bingzhou Zheng](https://arxiv.org/search/?searchtype=author&query=Bingzhou Zheng), [Gunter Mussbacher](https://arxiv.org/search/?searchtype=author&query=Gunter Mussbacher)

从自然语言描述生成图模型是一项重要的任务,在软件工程中具有许多应用。随着大型语言模型 (LLM) 的兴起,人们对使用 LLM 生成图模型的兴趣越来越大。然而,基于 LLM 的图模型生成通常会产生部分正确的模型,但存在三个主要问题:(1) 语法违规:生成的模型可能不符合其元模型定义的语法,(2) 约束不一致:模型的结构可能不符合某些特定领域的约束,以及 (3) 不准确:由于 LLM 固有的不确定性, 这些模型可能包含不准确的幻觉元素。虽然第一个问题通常通过约束解码或过滤等技术得到解决,但后两个问题在很大程度上仍未得到解决。在法学硕士中最近的自洽方法的推动下,我们提出了一种新颖的抽象-具体化框架,通过考虑法学硕士的多个输出来增强生成图模型的一致性和质量。我们的方法首先构建一个概率部分模型,该模型聚合所有候选输出,然后将该部分模型细化为满足所有约束的最合适的具体模型。我们使用不同的数据集来执行模型生成任务,在几个流行的开源和闭源 LLM 上评估我们的框架。结果表明,我们的方法显着提高了生成的图模型的一致性和质量。

科目: 软件工程, 人工智能

发布: 2025-08-01 01:52:25 UTC

#81 使用扩散模型在高能物理中生成射流图像

Authors: [Victor D. Martinez](https://arxiv.org/search/?searchtype=author&query=Victor D. Martinez), [Vidya Manian](https://arxiv.org/search/?searchtype=author&query=Vidya Manian), [Sudhir Malik](https://arxiv.org/search/?searchtype=author&query=Sudhir Malik)

本文首次介绍了扩散模型在生成与大型强子对撞机(LHC)的质子-质子碰撞事件相对应的射流图像中的应用。JetNet 仿真数据集中的夸克、胶子、W 玻色子、Z 玻色子和顶夸克射流的运动学变量被映射到二维图像表示。扩散模型在这些图像上进行训练,以学习射流成分的空间分布。我们比较了基于分数的扩散模型和一致性模型在准确生成类条件喷流图像方面的性能。与基于潜在分布的方法不同,我们的方法直接在图像空间中运行。生成图像的保真度使用多个指标进行评估,包括 Fréchet Inception Distance (FID),该指标表明与基于分数的扩散模型相比,一致性模型实现了更高的保真度和生成稳定性。这些进步显着提高了计算效率和生成精度,为高能物理 (HEP) 研究提供了宝贵的工具。

科目: 高能物理学 - 现象学, 人工智能, 计算机视觉和模式识别, 机器学习

发布: 2025-08-01 01:41:27 UTC

#82 魔法背后是什么?观众在生成式人工智能对现场舞蹈表演的贡献中寻求艺术价值

Authors: [Jacqueline Elise Bruen](https://arxiv.org/search/?searchtype=author&query=Jacqueline Elise Bruen), [Myounghoon Jeon](https://arxiv.org/search/?searchtype=author&query=Myounghoon Jeon)

随着生成式人工智能(GenAI)工具的发展,用于创作艺术,利益相关者无法就这些作品的价值达成一致。在这项研究中,我们发现了围绕人工智能艺术创作的不二之处。我们开发了两个版本的舞蹈表演,并通过技术增强,有或没有 GenAI。对于每个版本,我们在对表演的看法进行调查之前或之后向观众通报了表演的发展情况。共有 39 名参与者(13 名男性,26 名女性)分为四场表演。结果表明,当个人不知道 GenAI 的用途时,他们更倾向于将艺术价值归因于 GenAI 制作的作品。我们提出这个案例研究是为了呼吁解决利用社会背景和用户对 GenAI 的解释来形成技术解释的重要性,从而引发更多的讨论,从而弥合理解上的差距。

科目: 人机交互, 人工智能

发布: 2025-08-01 00:51:17 世界标准时间

#83 模型错位和语言变化:无脚本英语口语中人工智能相关语言的痕迹

Authors: [Bryce Anderson](https://arxiv.org/search/?searchtype=author&query=Bryce Anderson), [Riley Galpin](https://arxiv.org/search/?searchtype=author&query=Riley Galpin), [Tom S. Juzek](https://arxiv.org/search/?searchtype=author&query=Tom S. Juzek)

近年来,书面语言,特别是科学和教育领域的文字使用发生了显着变化。这些变化被广泛归因于大型语言模型 (LLM) 日益增长的影响力,大型语言模型通常依赖于独特的词汇风格。模型输出与目标受众规范之间的差异可以被视为一种不一致的形式。虽然这些转变通常与直接使用人工智能 (AI) 作为生成文本的工具有关,但目前尚不清楚这些变化是否反映了人类语言系统本身的更广泛变化。为了探索这个问题,我们构建了一个包含 2210 万个单词的数据集,这些单词来自对话科学和技术播客的无脚本口语。我们分析了 ChatGPT 在 2022 年发布前后的词汇趋势,重点关注通常与 LLM 相关的单词。我们的结果显示,2022 年后这些词的使用量适度但显着增加,这表明人类词语选择与法学硕士相关模式之间存在趋同。相比之下,基线同义词没有表现出明显的方向变化。鉴于时间短和受影响的单词数量,这可能表明语言使用开始发生显着转变。这是否代表了自然语言的变化,还是人工智能暴露驱动的新变化仍然是一个悬而未决的问题。同样,尽管这些转变可能源于更广泛的采用模式,但上游训练的不一致最终也可能导致人类语言使用的变化。这些发现与伦理问题相呼应,即不一致的模型可能会塑造社会和道德信念。

科目: 计算和语言, 人工智能

发布: 2025-08-01 00:47:33 UTC

#84 通过具有血管先验的多任务 UNet 在 MR 血管造影中进行弱监督颅内动脉瘤检测和分割

Authors: [Erin Rainville](https://arxiv.org/search/?searchtype=author&query=Erin Rainville), [Amirhossein Rasoulian](https://arxiv.org/search/?searchtype=author&query=Amirhossein Rasoulian), [Hassan Rivaz](https://arxiv.org/search/?searchtype=author&query=Hassan Rivaz), [Yiming Xiao](https://arxiv.org/search/?searchtype=author&query=Yiming Xiao)

颅内动脉瘤 (IA) 是脑血管的异常扩张,如果破裂,可能会导致危及生命的后果。然而,它们在放射学扫描中的小尺寸和柔和的对比度通常使得难以进行准确有效的检测和形态学分析,而这对于疾病的临床护理至关重要。此外,缺乏带有体素专家注释的大型公共数据集给开发深度学习算法来解决这些问题带来了挑战。因此,我们提出了一种新型的弱监督三维多任务UNet,该UNet集成了血管先验,在飞行时间MR血管造影(TOF-MRA)中联合进行动脉瘤检测和分割。具体来说,为了稳健地指导IA检测和分割,我们采用流行的Frangi血管滤波器来推导网络输入和注意力块的软脑血管先验,以从解码器进行分割,从辅助分支进行检测。我们在洛桑数据集上使用粗略的地面实况分割训练我们的模型,并使用来自同一数据库的精细标签在测试集上对其进行评估。为了进一步评估模型的泛化性,我们还在 ADAM 数据集上对其进行了外部验证。我们的结果表明,所提出的技术在动脉瘤分割(Dice = 0.614,95%HD = 1.38mm)和检测(假阳性率 = 1.47,灵敏度 = 92.9%)方面优于 SOTA 技术。

科目: 图像和视频处理, 人工智能, 计算机视觉和模式识别

发布: 2025-08-01 00:45:46 世界标准时间

#85 由多名专家参与的边缘计算的服务质量感知 LLM 路由

Authors: [Jin Yang](https://arxiv.org/search/?searchtype=author&query=Jin Yang), [Qiong Wu](https://arxiv.org/search/?searchtype=author&query=Qiong Wu), [Zhiying Feng](https://arxiv.org/search/?searchtype=author&query=Zhiying Feng), [Zhi Zhou](https://arxiv.org/search/?searchtype=author&query=Zhi Zhou), [Deke Guo](https://arxiv.org/search/?searchtype=author&query=Deke Guo), [Xu Chen](https://arxiv.org/search/?searchtype=author&query=Xu Chen)

大型语言模型(LLM)已经展示了卓越的功能,导致用户对 LLM 服务的需求显着增加。然而,基于云的 LLM 服务经常存在高延迟、响应不稳定和隐私问题。因此,通常在网络边缘部署多个 LLM,以提高实时响应能力并保护数据隐私,特别是对于许多新兴的智能移动和物联网应用。鉴于 LLM 服务的响应质量和延迟各不相同,一个关键问题是如何将用户请求从移动和物联网设备路由到适当的 LLM 服务(即边缘 LLM 专家),以确保可接受的服务质量 (QoS)。现有的路由算法无法同时解决LLM服务的异构性、请求之间的干扰以及维持长期稳定QoS所需的动态工作负载。为了应对这些挑战,在本文中,我们提出了一种基于深度强化学习(DRL)的新型QoS感知LLM路由框架,用于持续的高质量LLM服务。由于全局状态的动态性,我们提出了一种动态状态抽象技术,用异构图注意力网络(HAN)紧凑地表示全局状态特征。此外,我们还引入了作影响估计器和定制奖励函数,以指导 DRL 代理最大限度地提高 QoS 并防止延迟违规。在泊松和实际工作负载上的大量实验表明,与现有基线相比,我们提出的算法显着提高了平均QoS和计算资源效率。

科目: 网络和互联网架构, 人工智能, 分布式、并行和集群计算, 多智能体系统

发布: 2025-08-01 00:45:15 UTC

#86 重新初始化权重与单位以保持神经网络中的可塑性

Authors: [J. Fernando Hernandez-Garcia](https://arxiv.org/search/?searchtype=author&query=J. Fernando Hernandez-Garcia), [Shibhansh Dohare](https://arxiv.org/search/?searchtype=author&query=Shibhansh Dohare), [Jun Luo](https://arxiv.org/search/?searchtype=author&query=Jun Luo), [Rich S. Sutton](https://arxiv.org/search/?searchtype=author&query=Rich S. Sutton)

可塑性丧失是一种现象,其中神经网络在对非平稳数据进行长时间训练时失去学习能力。在设计持续学习的系统时,这是一个需要克服的关键问题。防止可塑性损失的一种有效技术是重新初始化网络的各个部分。在本文中,我们比较了两种不同的重新初始化方案:重新初始化单位与重新初始化权重。我们提出了一种新算法,我们将其命名为 \textit{选择性权重重新初始化},用于重新初始化网络中最不有用的权重。我们将我们的算法与连续反向传播和重做进行了比较,这是之前提出的两种重新初始化网络单元的算法。通过我们在持续监督学习问题中的实验,我们确定了重新初始化权重比重新初始化单元更有效地保持可塑性时的两种设置:(1)当网络具有少量单元时和(2)当网络包括层归一化时。相反,当网络具有足够的大小并且不包括层归一化时,重新初始化权重和单位在保持可塑性方面同样有效。我们发现,与重新初始化单位相比,重新初始化权重在更广泛的设置中保持可塑性。

科目: 神经和进化计算, 人工智能

发布: 2025-07-31 23:25:19 UTC

#87 噪声标签下的鲁棒分类:基础模型的几何感知可靠性框架

Authors: [Ecem Bozkurt](https://arxiv.org/search/?searchtype=author&query=Ecem Bozkurt), [Antonio Ortega](https://arxiv.org/search/?searchtype=author&query=Antonio Ortega)

在大型数据集上预训练的基础模型 (FM) 已成为各种下游机器学习任务的基础,特别是在获得完美标记的数据成本高昂的情况下。在本文中,我们假设必须使用噪声数据对 FM 进行微调,并提出一个两阶段框架,以确保在存在标签噪声的情况下进行稳健分类,而无需重新训练模型。最近的研究表明,即使在存在严重标签噪声的情况下,使用源自 FM 的嵌入的简单 k 最近邻 (kNN) 方法也可以实现良好的性能。我们的工作动机是这些方法利用了局部几何形状。在本文中,遵循类似的两阶段程序,即可靠性估计和可靠性加权推理,我们表明通过引入几何信息可以提高性能。对于给定的实例,我们提出的推理使用训练数据的局部邻域,使用非负核 (NNK) 邻域构造获得。我们提出了几种可靠性估计方法,随着标签噪声的增加,这些方法可以减少对距离和局部邻域的依赖。我们对 CIFAR-10 和 DermaMNIST 的评估表明,我们的方法提高了各种噪声条件下的鲁棒性,超过了标准 K-NN 方法和最近的自适应邻域基线。

科目: 机器学习, 人工智能, 信号处理

发布: 2025-07-31 23:01:32 UTC

#88 无滞后的 EMA:偏差校正迭代平均方案

Authors: [Adam Block](https://arxiv.org/search/?searchtype=author&query=Adam Block), [Cyril Zhang](https://arxiv.org/search/?searchtype=author&query=Cyril Zhang)

语言模型微调中的随机性通常是由这种制度中通常使用的小批量引起的,可能会在生成质量方面引入较大的振荡,从而破坏训练的稳定性。减轻这种不稳定性的一种流行方法是在整个训练过程中采用权重的指数移动平均线 (EMA)。虽然 EMA 降低了随机性,从而平滑了训练,但旧迭代的偏差引入通常会造成相对于普通训练的优化滞后。在这项工作中,我们提出了偏差校正指数移动平均线 (BEMA),这是一种简单实用的 EMA 增强方法,在消除偏差的同时保留了方差减少的好处。BEMA 是由一个简单的理论模型驱动的,其中我们展示了 BEMA 在标准 EMA 和普通训练上的可证明加速。通过对语言模型的广泛实验,我们表明,在各种标准 LM 基准测试中,BEMA 比 EMA 和普通训练显着提高了收敛率和最终性能,使 BEMA 成为一种实用且有理论动机的干预措施,以实现更稳定和高效的微调。

科目: 机器学习, 人工智能, 机器学习

发布: 2025-07-31 21:49:20 世界标准时间

#89 人工智能的空间:关于人工智能对开发人员影响的现实世界经验教训

Authors: [Brian Houck](https://arxiv.org/search/?searchtype=author&query=Brian Houck), [Travis Lowdermilk](https://arxiv.org/search/?searchtype=author&query=Travis Lowdermilk), [Cody Beyer](https://arxiv.org/search/?searchtype=author&query=Cody Beyer), [Steven Clarke](https://arxiv.org/search/?searchtype=author&query=Steven Clarke), [Ben Hanrahan](https://arxiv.org/search/?searchtype=author&query=Ben Hanrahan)

随着人工智能 (AI) 工具越来越多地嵌入到软件开发工作流程中,关于它们对开发人员生产力和体验的真正影响的问题仍然存在。本文介绍了一项混合方法研究的结果,该研究研究了开发人员如何看待人工智能在 SPACE 框架维度(满意度、绩效、活动、协作和效率)方面的影响。根据 500 多名开发人员的调查回复以及访谈和观察性研究的定性见解,我们发现人工智能被广泛采用并被广泛认为可以提高生产力,特别是对于日常任务。但是,好处会有所不同,具体取决于任务复杂性、个人使用模式和团队级别的采用情况。开发人员报告效率和满意度有所提高,但对协作产生影响的证据较少。组织支持和同伴学习在最大化人工智能价值方面发挥着关键作用。这些发现表明,人工智能正在增强开发人员而不是取代他们,有效的集成与工具本身一样取决于团队文化和支持结构。最后,我们为寻求利用人工智能在软件工程中潜力的团队、组织和研究人员提出了实用的建议。

科目: 人机交互, 人工智能, 软件工程

发布: 2025-07-31 21:45:54 UTC

#90 DeformTune:面向非音乐家的可变形XAI音乐原型

Authors: [Ziqing Xu](https://arxiv.org/search/?searchtype=author&query=Ziqing Xu), [Nick Bryan-Kinns](https://arxiv.org/search/?searchtype=author&query=Nick Bryan-Kinns)

许多现有的人工智能音乐生成工具依赖于文本提示、复杂的界面或类似乐器的控件,这可能需要非音乐家不具备的音乐或技术知识。本文介绍了 DeformTune,这是一个原型系统,它将触觉可变形界面与 MeasureVAE 模型相结合,以探索更直观、具身化和可解释的 AI 交互。我们对 11 名未受过正规音乐培训的成年参与者进行了一项初步研究,以调查他们在人工智能辅助音乐创作方面的经验。对他们的反馈进行主题分析揭示了反复出现的挑战——包括不清晰的控制映射、有限的表达范围以及在整个使用过程中需要指导。我们讨论了增强人工智能可解释性的几种设计机会,包括多模态反馈和渐进式交互支持。这些发现为使人工智能音乐系统更易于解释和增强新手用户的能力提供了早期见解。

科目: 人机交互, 人工智能, 声音, 音频和语音处理

发布: 2025-07-31 20:57:59 UTC

#91 GEPAR3D:用于 3D 牙齿分割的几何先验辅助学习

Authors: [Tomasz Szczepański](https://arxiv.org/search/?searchtype=author&query=Tomasz Szczepański), [Szymon Płotka](https://arxiv.org/search/?searchtype=author&query=Szymon Płotka), [Michal K. Grzeszczyk](https://arxiv.org/search/?searchtype=author&query=Michal K. Grzeszczyk), [Arleta Adamowicz](https://arxiv.org/search/?searchtype=author&query=Arleta Adamowicz), [Piotr Fudalej](https://arxiv.org/search/?searchtype=author&query=Piotr Fudalej), [Przemysław Korzeniowski](https://arxiv.org/search/?searchtype=author&query=Przemysław Korzeniowski), [Tomasz Trzciński](https://arxiv.org/search/?searchtype=author&query=Tomasz Trzciński), [Arkadiusz Sitek](https://arxiv.org/search/?searchtype=author&query=Arkadiusz Sitek)

锥形束计算机断层扫描 (CBCT) 中的牙齿分割仍然具有挑战性,特别是对于牙根尖等精细结构,这对于评估正畸中的牙根吸收至关重要。我们介绍了 GEPAR3D,这是一种新颖的方法,它将实例检测和多类分段统一到一个步骤中,以改进根分段。我们的方法将牙列的统计形状模型集成为几何先验,捕获解剖背景和形态一致性,而不强制执行限制性邻接约束。我们利用深层流域方法,将每颗牙齿建模为一个连续的 3D 能量盆,编码到边界的体素距离。这种实例感知表示可确保准确分割狭窄、复杂的根尖。我们的方法经过来自一个中心的公开 CBCT 扫描的培训,在两个内部和两个公共医疗中心的外部测试集上进行了评估。GEPAR3D实现了最高的整体分割性能,骰子相似系数 (DSC) 平均为 95.0%(比第二优方法+2.8%),并将所有测试集的召回率提高到 95.2%(+9.5%)。定性分析表明牙根分割质量有了显着改善,表明更准确的牙根吸收评估和增强正畸临床决策的巨大潜力。我们在 https://github.com/tomek1911/GEPAR3D 提供实现和数据集。

科目: 图像和视频处理, 人工智能, 计算机视觉和模式识别, 机器学习

发布: 2025-07-31 20:46:58 UTC

#92 INSPIRE-GNN:智能传感器放置,通过强化学习增强图神经网络改进稀疏自行车网络预测

Authors: [Mohit Gupta](https://arxiv.org/search/?searchtype=author&query=Mohit Gupta), [Debjit Bhowmick](https://arxiv.org/search/?searchtype=author&query=Debjit Bhowmick), [Rhys Newbury](https://arxiv.org/search/?searchtype=author&query=Rhys Newbury), [Meead Saberi](https://arxiv.org/search/?searchtype=author&query=Meead Saberi), [Shirui Pan](https://arxiv.org/search/?searchtype=author&query=Shirui Pan), [Ben Beck](https://arxiv.org/search/?searchtype=author&query=Ben Beck)

准确的链路级自行车体积估算对于可持续城市交通规划至关重要。然而,由于自行车计数传感器覆盖范围有限,许多城市面临着高数据稀疏性的重大挑战。为了解决这个问题,我们提出了 INSPIRE-GNN,这是一种新型的强化学习 (RL) 增强混合图神经网络 (GNN) 框架,旨在优化传感器放置并改进数据稀疏环境中的链路级自行车体积估计。INSPIRE-GNN 将图卷积网络 (GCN) 和图注意力网络 (GAT) 与基于深度 Q 网络 (DQN) 的 RL 代理集成在一起,从而实现数据驱动的传感器位置战略选择,以最大限度地提高估计性能。INSPIRE-GNN应用于墨尔本的自行车网络,包括15,933个路段,传感器覆盖范围仅为141个路段(稀疏率为99%),通过在部署50、100、200和500个传感器时战略性地选择额外的传感器位置,展示了体积估计的显着改进。我们的框架在均方误差 (MSE)、均方根误差 (RMSE) 和平均绝对误差 (MAE) 等关键指标上优于传统的传感器放置启发式方法,例如中间中心性、接近性中心性、观察到的自行车活动和随机放置。此外,我们的实验将INSPIRE-GNN与标准机器学习和深度学习模型在自行车体积估计性能中进行了基准测试,强调了其有效性。我们提出的框架为交通规划者提供了可作的见解,以有效扩展传感器网络,优化传感器放置,并最大限度地提高自行车数据的体积估计准确性和可靠性,从而做出明智的交通规划决策。

科目: 机器学习, 人工智能

发布: 2025-07-31 20:00:35 UTC

#93 你的模式是不公平的,你甚至知道吗?有偏见的 ML 模型的可解释性可视化中的理解和信任之间的反比关系

Authors: [Zhanna Kaufman](https://arxiv.org/search/?searchtype=author&query=Zhanna Kaufman), [Madeline Endres](https://arxiv.org/search/?searchtype=author&query=Madeline Endres), [Cindy Xiong Bearfield](https://arxiv.org/search/?searchtype=author&query=Cindy Xiong Bearfield), [Yuriy Brun](https://arxiv.org/search/?searchtype=author&query=Yuriy Brun)

依赖机器学习的系统已经变得无处不在,但其中的偏见行为也无处不在。研究表明,偏见会显着影响利益相关者对系统的信任以及他们如何使用系统。此外,不同背景的利益相关者对同一系统的看法和信任也不同。因此,如何解释机器学习模型的行为在理解和信任中起着关键作用。我们调查可解释性可视化,创建设计特征分类法。我们进行用户研究,以评估五种最先进的可视化工具(LIME、SHAP、CP、Anchors 和 ELI5)的模型可解释性,衡量分类特征如何影响非专业 ML 用户的理解、偏见感知和信任。令人惊讶的是,我们发现理解和信任之间存在反比关系:用户对模型理解得越多,他们就越不信任它们。我们调查了原因,发现这种关系是由偏见感知强烈介导的:更易于理解的可视化会增加人们对偏见的感知,而偏见感知的增加会降低信任。我们确认这种关系是因果关系:纵可解释性可视化来控制理解、偏见感知和信任,我们表明可视化设计可以显着(p < 0.001)提高理解,增加感知偏见,并降低信任。相反,通过提高模型公平性或调整可视化设计来减少感知到的模型偏差,即使理解力仍然很高,也能显着增加信任度。我们的工作促进了对理解如何影响信任的理解,并系统地研究了可视化在促进负责任的机器学习应用程序方面的作用。

科目: 人机交互, 人工智能

发布: 2025-07-31 20:00:32 UTC

#94 探索深度学习技术从眼睛图像中准确分类性别的可行性

Authors: [Basna Mohammed Salih Hasan](https://arxiv.org/search/?searchtype=author&query=Basna Mohammed Salih Hasan), [Ramadhan J. Mstafa](https://arxiv.org/search/?searchtype=author&query=Ramadhan J. Mstafa)

性别分类已成为安全、人机交互、监控和广告等各个领域的一个重要方面。尽管如此,这种分类的准确性可能会受到化妆品和伪装等因素的影响。因此,我们的研究致力于通过专注于使用眼周区域的彩色图像进行性别分类来解决这一问题。眼周区域是指眼睛周围的区域,包括眼睑、眉毛以及它们之间的区域。它包含有价值的视觉线索,可用于提取性别分类的关键特征。本文介绍了一种复杂的卷积神经网络(CNN)模型,该模型利用彩色图像数据库来评估眼周区域对性别分类的有效性。为了验证模型的性能,我们对两个眼睛数据集进行了测试,即 CVBL 和(女性和男性)。推荐的架构在以前未使用的 CVBL 数据集上实现了 99% 的出色准确率,同时在(女性和男性)数据集上以少量可学习参数 (7,235,089) 达到了 96% 的值得称赞的准确率。为了确定我们提出的使用眼周区域进行性别分类模型的有效性,我们通过广泛的指标评估了其性能,并将其与其他最先进的方法进行了比较。结果明确地证明了我们模型的有效性,从而表明了其在安全和监控等领域的实际应用潜力。

科目: 计算机视觉和模式识别, 人工智能, 机器学习

发布: 2025-07-31 19:52:03 UTC

#95 StackLiverNet:一种用于准确且可解释的肝病检测的新型堆叠集成模型

Authors: [Md. Ehsanul Haque](https://arxiv.org/search/?searchtype=author&query=Md. Ehsanul Haque), [S. M. Jahidul Islam](https://arxiv.org/search/?searchtype=author&query=S. M. Jahidul Islam), [Shakil Mia](https://arxiv.org/search/?searchtype=author&query=Shakil Mia), [Rumana Sharmin](https://arxiv.org/search/?searchtype=author&query=Rumana Sharmin), Ashikuzzaman, [Md Samir Morshed](https://arxiv.org/search/?searchtype=author&query=Md Samir Morshed), [Md. Tahmidul Huque](https://arxiv.org/search/?searchtype=author&query=Md. Tahmidul Huque)

肝脏疾病是世界上一个严重的健康问题,需要准确、及时的诊断,以提高患者的生存机会。目前的文献实施了许多机器学习和深度学习模型来对肝病进行分类,但其中大多数都存在一些问题,如误分类误差大、可解释性差、计算费用高、缺乏良好的预处理策略等。为了解决这些缺点,我们在这项研究中引入了 StackLiverNet;针对肝病检测任务量身定制的可解释堆叠集成模型。该框架采用先进的数据预处理和特征选择技术,以提高模型的鲁棒性和预测能力。进行随机欠采样以处理类不平衡并使训练平衡。StackLiverNet 是几个超参数优化的基分类器的集合,它们的互补优势通过 LightGBM 元模型使用。所提供的模型表现出优异的性能,测试准确率为99.89%,Cohen Kappa为0.9974,AUC为0.9993,只有5个错误分类,高效的训练和推理速度适合临床实践(训练时间4.2783秒,推理时间0.1106秒)。此外,应用局部可解释模型不可知解释 (LIME) 对个体预测进行透明解释,揭示高浓度的碱性磷酸酶和中度 SGOT 是肝病的重要观察结果。此外,SHAP 用于根据特征对预测的全球贡献对特征进行排名,而 Morris 方法通过敏感性分析确认了最有影响力的特征。

科目: 机器学习, 人工智能

发布: 2025-07-31 19:13:30 UTC

#96 FACTORY:具有挑战性的人工验证提示集,用于长篇事实性

Authors: [Mingda Chen](https://arxiv.org/search/?searchtype=author&query=Mingda Chen), [Yang Li](https://arxiv.org/search/?searchtype=author&query=Yang Li), [Xilun Chen](https://arxiv.org/search/?searchtype=author&query=Xilun Chen), [Adina Williams](https://arxiv.org/search/?searchtype=author&query=Adina Williams), [Gargi Ghosh](https://arxiv.org/search/?searchtype=author&query=Gargi Ghosh), [Scott Yih](https://arxiv.org/search/?searchtype=author&query=Scott Yih)

长篇事实性评估评估模型对简短提示生成准确、全面响应的能力。现有的基准测试通常缺乏人工验证,从而导致潜在的质量问题。为了解决这一限制,我们引入了 FACTORY,这是一个大规模的、经过人工验证的提示集。FACTORY 采用模型在环方法开发并由人类改进,包括具有挑战性的提示,这些提示具有事实依据性、可回答性和明确性。我们使用 FACTORY 和现有数据集对 6 个最先进的语言模型进行人工评估。我们的结果表明,FACTORY 是一个具有挑战性的基准:SOTA 模型响应中大约 40% 的声明不是事实,而其他数据集只有 10%。我们的分析确定了 FACTORY 相对于先前基准的优势,强调了其可靠性以及模型对长尾事实进行推理的必要性。

科目: 计算和语言, 人工智能

发布: 2025-07-31 19:00:11 世界标准时间

#97 在智能辅导系统中实现增强智能的以用户为中心的混合方法:以 MathAIde 应用程序为例

Authors: [Guilherme Guerino](https://arxiv.org/search/?searchtype=author&query=Guilherme Guerino), [Luiz Rodrigues](https://arxiv.org/search/?searchtype=author&query=Luiz Rodrigues), [Luana Bianchiniand Mariana Alves](https://arxiv.org/search/?searchtype=author&query=Luana Bianchiniand Mariana Alves), [Marcelo Marinho](https://arxiv.org/search/?searchtype=author&query=Marcelo Marinho), [Thomaz Veloso](https://arxiv.org/search/?searchtype=author&query=Thomaz Veloso), [Valmir Macario](https://arxiv.org/search/?searchtype=author&query=Valmir Macario), [Diego Dermeval](https://arxiv.org/search/?searchtype=author&query=Diego Dermeval), [Thales Vieira](https://arxiv.org/search/?searchtype=author&query=Thales Vieira), [Ig Bittencourt](https://arxiv.org/search/?searchtype=author&query=Ig Bittencourt), [Seiji Isotani](https://arxiv.org/search/?searchtype=author&query=Seiji Isotani)

将人工智能融入教育 (AIED) 旨在通过智能辅导系统 (ITS) 等技术增强学习体验,提供个性化学习、提高参与度并提高保留率。然而,AIED 面临三个主要挑战:教师在设计过程中的关键作用、人工智能工具的局限性和可靠性以及技术资源的可访问性。增强智能 (AuI) 通过增强而不是取代人类能力来应对这些挑战,从而允许系统提出解决方案。相比之下,人类提供最终评估,从而随着时间的推移改进人工智能。从这个意义上说,本研究的重点是设计、开发和评估 MathAIde,这是一种 ITS,它使用计算机视觉和人工智能纠正数学练习,并根据学生作业的照片提供反馈。该方法包括与潜在用户的头脑风暴会议、高保真原型设计、A/B 测试以及涉及教师和学生真实课堂环境的案例研究。我们的研究确定了在 ITS 中实施 AuI 的几种设计可能性,强调用户需求和技术可行性之间的平衡。通过原型设计和测试进行优先级排序和验证凸显了效率指标的重要性,最终产生了为教师提供预定义补救方案的解决方案。实际部署证明了所提出的解决方案的有用性。我们的研究通过提供一种可用的、以教师为中心的设计方法,让教师参与所有设计阶段,从而为文献做出了贡献。作为实际意义,我们强调以用户为中心的设计方法增加了 AIED 系统的实用性和采用潜力,特别是在资源有限的环境中。

科目: 人机交互, 人工智能

发布: 2025-07-31 18:56:01 UTC

#98 压力感知弹性神经训练

Authors: [Ashkan Shakarami](https://arxiv.org/search/?searchtype=author&query=Ashkan Shakarami), [Yousef Yeganeh](https://arxiv.org/search/?searchtype=author&query=Yousef Yeganeh), [Azade Farshad](https://arxiv.org/search/?searchtype=author&query=Azade Farshad), [Lorenzo Nicole](https://arxiv.org/search/?searchtype=author&query=Lorenzo Nicole), [Stefano Ghidoni](https://arxiv.org/search/?searchtype=author&query=Stefano Ghidoni), [Nassir Navab](https://arxiv.org/search/?searchtype=author&query=Nassir Navab)

本文介绍了应力感知学习,这是一种弹性神经训练范式,其中深度神经网络基于临时(弹性)和永久(塑性)变形的概念动态调整其优化行为——无论是在稳定的训练制度下还是在动态不确定的环境中——受到材料科学中结构疲劳的启发。为了实例化这个概念,我们提出了塑性变形优化器,这是一种应力感知机制,每当内部应力信号(反映训练损失和精度的停滞)表明持续的优化难度时,它就会将自适应噪声注入模型参数。这使得模型能够摆脱急剧的最小值,并收敛到损失形势中更平坦、更广义的区域。六种架构、四种优化器和七种视觉基准测试的实验表明,以最小的计算开销提高了鲁棒性和泛化性。代码和 3D 视觉效果将在 GitHub:https://github.com/Stress-Aware-Learning/SAL 上提供。

科目: 机器学习, 人工智能, 计算机视觉和模式识别

发布: 2025-07-31 18:46:19 UTC

#99 XRoboToolkit:机器人远程作的跨平台框架

Authors: [Zhigen Zhao](https://arxiv.org/search/?searchtype=author&query=Zhigen Zhao), [Liuchuan Yu](https://arxiv.org/search/?searchtype=author&query=Liuchuan Yu), [Ke Jing](https://arxiv.org/search/?searchtype=author&query=Ke Jing), [Ning Yang](https://arxiv.org/search/?searchtype=author&query=Ning Yang)

视觉-语言-行动模型的快速发展迫切需要大规模、高质量的机器人演示数据集。尽管远程作是数据收集的主要方法,但当前的方法存在可扩展性有限、设置过程复杂和数据质量不佳的问题。本文介绍了XRoboToolkit,这是一个基于OpenXR标准构建的基于扩展现实的机器人远程作的跨平台框架。该系统具有低延迟立体视觉反馈、基于优化的反向运动学,并支持多种跟踪模式,包括头部、控制器、手部和辅助运动跟踪器。XRoboToolkit 的模块化架构可实现跨机器人平台和仿真环境的无缝集成,涵盖精密机械手、移动机器人和灵巧的手。我们通过精确作任务证明了该框架的有效性,并通过训练表现出强大自主性能的 VLA 模型来验证数据质量。

科目: 机器人, 人工智能

发布: 2025-07-31 18:45:13 UTC

#100 出气筒与出气筒人:视频中的运动传递性

Authors: [Raiyaan Abdullah](https://arxiv.org/search/?searchtype=author&query=Raiyaan Abdullah), [Jared Claypoole](https://arxiv.org/search/?searchtype=author&query=Jared Claypoole), [Michael Cogswell](https://arxiv.org/search/?searchtype=author&query=Michael Cogswell), [Ajay Divakaran](https://arxiv.org/search/?searchtype=author&query=Ajay Divakaran), [Yogesh Rawat](https://arxiv.org/search/?searchtype=author&query=Yogesh Rawat)

动作识别模型表现出很强的泛化性,但它们能否有效地跨不同的上下文传递高级运动概念,即使在相似的分布中?例如,当出现“拳打人”等看不见的变体时,模型能否识别出广泛的动作“拳击”?为了探索这一点,我们引入了一个包含三个数据集的运动可转移性框架:(1)Syn-TA,一个具有3D对象运动的合成数据集;(2)动力学400-TA;(3)Something-Something-v2-TA,均改编自自然视频数据集。我们在这些基准上评估了 13 个最先进的模型,并观察到在识别新环境中的高级动作时性能显着下降。我们的分析表明:1)多模态模型在细粒度未知动作中比在粗略动作中更挣扎;2)事实证明,无偏差的Syn-TA与真实世界的数据集一样具有挑战性,模型在受控设置中显示出更大的性能下降;3)当空间线索占主导地位但在密集的时间推理方面遇到困难时,较大的模型提高了可转移性,而对对象和背景线索的依赖阻碍了泛化。我们进一步探讨了解开粗运动和精细运动如何提高在时间上具有挑战性的数据集中的识别能力。我们相信这项研究为评估动作识别中的运动可转移性建立了一个重要的基准。数据集和相关代码:https://github.com/raiyaan-abdullah/Motion-Transfer。

科目: 计算机视觉和模式识别, 人工智能

发布: 2025-07-31 18:19:20 UTC

#101 基于 LLM 的代理的代码生成调查

Authors: [Yihong Dong](https://arxiv.org/search/?searchtype=author&query=Yihong Dong), [Xue Jiang](https://arxiv.org/search/?searchtype=author&query=Xue Jiang), [Jiaru Qian](https://arxiv.org/search/?searchtype=author&query=Jiaru Qian), [Tian Wang](https://arxiv.org/search/?searchtype=author&query=Tian Wang), [Kechi Zhang](https://arxiv.org/search/?searchtype=author&query=Kechi Zhang), [Zhi Jin](https://arxiv.org/search/?searchtype=author&query=Zhi Jin), [Ge Li](https://arxiv.org/search/?searchtype=author&query=Ge Li)

由大型语言模型 (LLM) 提供支持的代码生成代理正在彻底改变软件开发范式。与以前的代码生成技术不同,代码生成代理具有三个核心特征。1)自主性:能够独立管理整个工作流程,从任务分解到编码和调试。2) 扩展的任务范围:功能不仅限于生成代码片段,还包括整个软件开发生命周期 (SDLC)。3)工程实用性的增强:研究重点从算法创新转向实际工程挑战,如系统可靠性、过程管理和工具集成。该领域最近见证了快速发展和研究爆炸式增长,显示出巨大的应用潜力。本文对基于LLM的代码生成代理领域进行了系统调查。我们追溯了该技术从诞生之初的发展轨迹,并系统地对其核心技术进行了分类,包括单智能体和多智能体架构。此外,该调查还详细介绍了基于 LLM 的代理在整个 SDLC 中的应用,总结了主流评估基准和指标,并对代表性工具进行了分类。最后,通过分析主要挑战,我们确定并提出了该领域未来工作的几个基础性、长期研究方向。

科目: 软件工程, 人工智能, 计算和语言, 机器学习

发布: 2025-07-31 18:17:36 UTC

#102 PhysicsEval:推理时间技术提高大型语言模型对物理问题的推理能力

Authors: [Oshayer Siddique](https://arxiv.org/search/?searchtype=author&query=Oshayer Siddique), [J. M Areeb Uzair Alam](https://arxiv.org/search/?searchtype=author&query=J. M Areeb Uzair Alam), [Md Jobayer Rahman Rafy](https://arxiv.org/search/?searchtype=author&query=Md Jobayer Rahman Rafy), [Syed Rifat Raiyan](https://arxiv.org/search/?searchtype=author&query=Syed Rifat Raiyan), [Hasan Mahmud](https://arxiv.org/search/?searchtype=author&query=Hasan Mahmud), [Md Kamrul Hasan](https://arxiv.org/search/?searchtype=author&query=Md Kamrul Hasan)

物理学科是人类智力的基石,推动技术的发展并加深我们对宇宙基本原理的理解。当代文学包括一些以解决物理问题任务为中心的作品——这是自然语言推理的一个关键领域。在本文中,我们评估了前沿法学硕士在解决物理问题(数学和描述性)方面的表现。我们还采用了大量的推理时间技术和代理框架来提高模型的性能。这包括由其他较小的 LLM 代理以累积方式验证所提出的解决方案,并且我们对这些技术所需的性能进行比较分析。当多智能体框架应用于模型最初表现不佳的问题时,会有显着的改进。此外,我们还引入了物理问题的新评估基准, PHYSICSEVAL,由来自各种物理教科书的 19,609 个问题以及从物理论坛和教育网站上抓取的相应正确解决方案组成。我们的代码和数据可在 https://github.com/areebuzair/PhysicsEval 公开获取。

科目: 计算和语言, 人工智能

发布: 2025-07-31 18:12:51 UTC

#103 评估 COVID 19 特征对比特币回报预测的贡献:基于 LightGBM 和遗传优化的方法

Authors: [Imen Mahmoud](https://arxiv.org/search/?searchtype=author&query=Imen Mahmoud), [Andrei Velichko](https://arxiv.org/search/?searchtype=author&query=Andrei Velichko)

本研究提出了一种集成 LightGBM 回归模型和遗传算法(GA)优化的新方法框架,以系统评估 COVID-19 相关指标对比特币回报预测的贡献。主要目标不仅仅是预测比特币的回报,而是确定包含与大流行相关的健康数据是否可以显着提高预测准确性。构建了一个包含每日比特币回报和 COVID-19 指标(疫苗接种率、住院率、检测统计数据)的综合数据集。在 31 次独立运行中使用 GA 优化了具有和不具有 COVID-19 特征的预测模型,从而实现了稳健的统计评估。通过分布重叠和 Mann-Whitney U 检验对性能指标(R2、RMSE、MAE)进行统计比较。排列特征重要性 (PFI) 分析量化了单个特征的贡献。结果表明,COVID-19指标显著提高了模型性能,特别是在捕捉极端市场波动方面(R2增加了40%,RMSE下降了2%,两者在统计学上都非常显著)。在 COVID-19 特征中,疫苗接种指标,尤其是完全接种疫苗的个体的第 75 个百分位数,成为主要预测因素。拟议的方法通过纳入公共卫生信号扩展了现有的金融分析工具,为投资者和政策制定者提供精细的指标,以应对系统性危机期间的市场不确定性。

科目: 机器学习, 人工智能, 一般经济学

发布: 2025-07-31 18:12:33 UTC

#104 TriP-LLM:用于时间序列异常检测的三分支补丁式大型语言模型框架

Authors: [Yuan-Cheng Yu](https://arxiv.org/search/?searchtype=author&query=Yuan-Cheng Yu), [Yen-Chieh Ouyang](https://arxiv.org/search/?searchtype=author&query=Yen-Chieh Ouyang), [Chun-An Lin](https://arxiv.org/search/?searchtype=author&query=Chun-An Lin)

时间序列异常检测在广泛的应用领域中发挥着核心作用。随着物联网(IoT)和智能制造的日益普及,时序数据的规模和维度都急剧增加。这种增长暴露了传统统计方法在处理此类数据的高度异质性和复杂性方面的局限性。受到大型语言模型(LLM)最近在跨语言和视觉领域的多模态任务中取得的成功启发,我们提出了一种新颖的无监督异常检测框架:用于时间序列异常检测的三分支补丁大型语言模型框架(TriP-LLM)。TriP-LLM 通过三分支设计(Patching、Selection 和 Global)集成了局部和全局时间特征,将输入时间序列编码为逐补丁标记,然后由冻结的预训练 LLM 进行处理。轻量级补丁解码器重建输入,从中得出异常分数。我们使用最近提出的无阈值评估指标 PATE 在多个公共基准数据集上评估 TriP-LLM,并在统一的开源框架内进行所有比较以确保公平性。实验结果表明,TriP-LLM在所有数据集上始终优于最新的先进方法,表现出强大的检测能力。此外,通过广泛的消融研究,我们验证了法学硕士对整体架构的重大贡献。与使用通道独立性(CI)补丁处理的基于LLM的方法相比,TriP-LLM实现了显着更低的内存消耗,使其更适合GPU内存受限的环境。所有代码和模型检查点都可以在 https://github.com/YYZStart/TriP-LLM.git 上公开使用

科目: 机器学习, 人工智能

发布: 2025-07-31 16:36:54 UTC

#105 使用一套可改进的域对强化学习中的部分可观测性进行基准测试

Authors: [Ruo Yu Tao](https://arxiv.org/search/?searchtype=author&query=Ruo Yu Tao), [Kaicheng Guo](https://arxiv.org/search/?searchtype=author&query=Kaicheng Guo), [Cameron Allen](https://arxiv.org/search/?searchtype=author&query=Cameron Allen), [George Konidaris](https://arxiv.org/search/?searchtype=author&query=George Konidaris)

对于通用强化学习算法来说,减轻部分可观测性是一项必要但具有挑战性的任务。为了提高算法减轻部分可观测性的能力,研究人员需要全面的基准来衡量进展。大多数解决部分可观测性的算法仅在具有简单状态锯齿形式的基准测试上进行评估,例如特征掩蔽和高斯噪声。此类基准并不代表真实域中出现的多种形式的部分可观测性,例如视觉遮挡或未知的对手意图。我们认为,部分可观察的基准应该具有两个关键属性。首先是部分可观察性形式的覆盖,以确保算法的可泛化性。第二个是具有或多或少状态信息的代理的性能之间的巨大差距,所有其他因素大致相同。这种差距意味着环境是内存可改进的:域中的性能提升来自算法应对部分可观测性的能力,而不是其他因素。我们介绍了在部分可观测性下对强化学习进行实证基准测试的最佳实践指南,以及开源库 POBAX:JAX 中的部分可观察基准。我们表征了各种环境中存在的部分可观测性类型,并为我们的基准选择了具有代表性的环境。这些环境包括本地化和映射、视觉控制、游戏等。此外,我们还表明,这些任务都是可改进的记忆,需要难以学习的记忆函数,为部分可观测性研究提供了具体信号。该框架包括推荐的超参数以及用于快速、开箱即用评估的算法实现,以及在 JAX 中实现的用于 GPU 可扩展实验的高性能环境。

科目: 机器学习, 人工智能

发布: 2025-07-31 16:11:37 UTC

#106 像人类一样学习:通过认知发展阶段进行资源高效的联合微调

Authors: [Yebo Wu](https://arxiv.org/search/?searchtype=author&query=Yebo Wu), [Jingguang Li](https://arxiv.org/search/?searchtype=author&query=Jingguang Li), [Zhijiang Guo](https://arxiv.org/search/?searchtype=author&query=Zhijiang Guo), [Li Li](https://arxiv.org/search/?searchtype=author&query=Li Li)

联合微调使大型语言模型 (LLM) 能够适应下游任务,同时保护数据隐私,但其资源密集型特性限制了在边缘设备上的部署。在本文中,我们介绍了开发联合调优 (DevFT),这是一种受认知发展启发的资源高效方法,可在紧凑的基础上逐步构建强大的 LLM。DevFT将微调过程分解为开发阶段,每个阶段都优化子模型,参数容量不断增加。早期阶段的知识转移到后续子模型,提供优化的初始化参数,防止收敛到局部最小值并加速训练。这种范式反映了人类的学习,在完善现有技能的同时逐步构建全面的知识结构。为了高效构建特定阶段的子模型,DevFT引入了去冲突引导的层分组和基于差分的层融合,以提炼基本信息并构建代表性层。对多个基准的评估表明,DevFT 的性能明显优于最先进的方法,达到了 4.59× 更快的收敛,10.67× 减少通信开销,平均性能提高 9.07%,同时保持与现有方法的兼容性。

科目: 机器学习, 人工智能, 分布式、并行和集群计算

发布: 2025-07-31 09:36:43 UTC

#107 用于公路-铁路平交道口剖面的混合 LSTM 变压器模型

Authors: [Kaustav Chatterjee](https://arxiv.org/search/?searchtype=author&query=Kaustav Chatterjee), [Joshua Q. Li](https://arxiv.org/search/?searchtype=author&query=Joshua Q. Li), [Fatemeh Ansari](https://arxiv.org/search/?searchtype=author&query=Fatemeh Ansari), [Masud Rana Munna](https://arxiv.org/search/?searchtype=author&query=Masud Rana Munna), [Kundan Parajulee](https://arxiv.org/search/?searchtype=author&query=Kundan Parajulee), [Jared Schwennesen](https://arxiv.org/search/?searchtype=author&query=Jared Schwennesen)

驼峰交叉口或备受瞩目的公路铁路平交道口 (HRGC) 由于潜在的挂起而给公路车辆带来安全风险。这些交叉口通常是由于施工后铁路轨道维护活动或不符合 HRGC 垂直路线设计指南造成的。测量 HRGC 剖面的传统方法成本高昂、耗时、扰乱交通,并带来安全挑战。为了解决这些问题,本研究采用了先进、具有成本效益的技术和创新的建模方法来测量 HRGC 轮廓。利用仪器和地面实况数据,开发了一种结合长短期记忆(LSTM)和Transformer架构的新型混合深度学习框架。使用配备惯性测量单元 (IMU) 和全球定位系统 (GPS) 传感器的高速公路测试车辆收集仪器数据,同时通过工业标准步行剖面仪获得地面实况数据。现场数据是在俄克拉荷马州的红岩铁路走廊收集的。评估了三个高级深度学习模型 Transformer-LSTM sequential(模型 1)、LSTM-Transformer sequential(模型 2)和 LSTM-Transformer parallel(模型 3),以确定最有效的架构。模型 2 和 3 的性能优于其他模型,并被部署用于生成 2D/3D HRGC 配置文件。深度学习模型通过快速准确地评估 HRGC 挂起易感性,展示了在提高公路和铁路安全方面的巨大潜力。

科目: 机器学习, 人工智能

发布: 2025-07-31 06:44:44 UTC

#108 利用能量知情图神经扩散预测大规模城市网络动态

Authors: [Tong Nie](https://arxiv.org/search/?searchtype=author&query=Tong Nie), [Jian Sun](https://arxiv.org/search/?searchtype=author&query=Jian Sun), [Wei Ma](https://arxiv.org/search/?searchtype=author&query=Wei Ma)

网络化的城市系统促进了人员、资源和服务的流动,对于经济和社会互动至关重要。这些系统通常涉及具有未知控制规则的复杂过程,由基于传感器的时间序列观察到。为了帮助工业和工程环境中的决策,数据驱动的预测模型用于预测城市系统的时空动态。当前的模型(如图神经网络)已经显示出前景,但由于计算需求,在功效和效率之间面临权衡。因此,它们在大规模网络中的应用仍需要进一步努力。本文通过从物理定律中汲取灵感来解决这一权衡挑战,为符合基本原理并避免架构冗余的基本模型设计提供信息。通过理解微观和宏观过程,我们提出了一种基于类似 Transformer 的结构的原则性可解释神经扩散方案,其注意力层由低维嵌入诱导。所提出的具有线性复杂性的可扩展时空变压器(ScaleSTF)在包括交通流、太阳能和智能电表在内的大型城市系统上进行了验证,显示出最先进的性能和卓越的可扩展性。研究结果为大规模城市网络动态预测提供了新的视角。

科目: 机器学习, 人工智能

发布: 2025-07-31 01:24:01 UTC

#109 GPT-4.1 为使用新颖的 Python 库的自动化实验设计设定了标准

Authors: [Nuno Fachada](https://arxiv.org/search/?searchtype=author&query=Nuno Fachada), [Daniel Fernandes](https://arxiv.org/search/?searchtype=author&query=Daniel Fernandes), [Carlos M. Fernandes](https://arxiv.org/search/?searchtype=author&query=Carlos M. Fernandes), [Bruno D. Ferreira-Saraiva](https://arxiv.org/search/?searchtype=author&query=Bruno D. Ferreira-Saraiva), [João P. Matos-Carvalho](https://arxiv.org/search/?searchtype=author&query=João P. Matos-Carvalho)

大型语言模型 (LLM) 作为科学研究中自动生成代码的工具已经发展迅速,但它们解释和使用不熟悉的 Python API 进行复杂计算实验的能力仍然很差。本研究系统地对一系列最先进的法学硕士进行基准测试,以生成功能性 Python 代码,适用于两个越来越具有挑战性的场景:使用 \textit{ParShift} 库进行对话数据分析,以及使用 \textit{pyclugen} 和 \textit{scikit-learn} 进行合成数据生成和聚类。这两个实验都使用结构化的零样本提示,指定详细要求,但省略上下文示例。在多次运行中定量评估模型输出的功能正确性和提示合规性,并通过分析代码执行失败时产生的错误进行定性评估。结果表明,只有一小部分模型能够始终生成正确的可执行代码,其中 GPT-4.1 是唯一在这两项任务中始终成功的模型。除了对 LLM 性能进行基准测试外,这种方法还有助于识别第三方库中的缺陷,例如文档不清晰或实现错误晦涩难懂。总体而言,这些发现凸显了法学硕士目前在端到端科学自动化方面的局限性,并强调了仔细的提示设计、全面的库文档以及语言模型功能的持续进步的必要性。

科目: 软件工程, 人工智能, 计算和语言

发布: 2025-07-30 13:11:29 UTC

#110 使用马尔可夫链框架和ITU-R传播模型进行可扩展频谱可用性预测

Author: [Abir Ray](https://arxiv.org/search/?searchtype=author&query=Abir Ray)

频谱资源在不同时间和空间上往往未得到充分利用,这促使动态频谱接入策略允许辅助用户利用未使用的频率。一个关键的挑战是预测频谱何时何地可用(即主要许可用户未使用),以实现主动和无干扰的访问。本文提出了一个可扩展的频谱可用性预测框架,该框架将主要用户活动的双态马尔可夫链模型与ITU-R的高保真传播模型(特别是建议书P.528和P.2108)相结合。马尔可夫链捕获时间占用模式,而传播模型则结合路径损耗和杂波效应来确定主信号是否超过辅助用户位置的干扰阈值。通过整合这些组件,所提出的方法可以提高准确性预测时间和空间上的频谱机会。我们开发了该方法的系统模型和算法,分析了其可扩展性和计算效率,并讨论了假设、局限性和潜在应用。该框架灵活,可以适应各种频段和场景。结果和分析表明,所提方法能够以较低的计算成本有效地识别可用频谱,适用于认知无线电网络和其他动态频谱共享系统中的实时频谱管理。

科目: 网络和互联网架构, 人工智能, 计算和语言, 数值分析

发布: 2025-07-30 03:22:55 UTC

#111 用于可扩展量子机器学习的嵌入式感知量子经典 SVM

Authors: [Sebastián Andrés Cajas Ordóñez](https://arxiv.org/search/?searchtype=author&query=Sebastián Andrés Cajas Ordóñez), [Luis Fernando Torres Torres](https://arxiv.org/search/?searchtype=author&query=Luis Fernando Torres Torres), [Mario Bifulco](https://arxiv.org/search/?searchtype=author&query=Mario Bifulco), [Carlos Andrés Durán](https://arxiv.org/search/?searchtype=author&query=Carlos Andrés Durán), [Cristian Bosch](https://arxiv.org/search/?searchtype=author&query=Cristian Bosch), [Ricardo Simón Carbajo](https://arxiv.org/search/?searchtype=author&query=Ricardo Simón Carbajo)

由于高维量子态和硬件限制,量子支持向量机面临着可扩展性挑战。我们提出了一种嵌入感知量子经典管道,将类平衡的k-means蒸馏与预训练的Vision Transformer嵌入相结合。我们的主要发现:ViT 嵌入独特地实现了量子优势,在 Fashion-MNIST 上与经典 SVM 相比,精度提高了 8.02%,在 MNIST 上实现了 4.42% 的准确性提升,而 CNN 功能则显示出性能下降。通过cuTensorNet使用16量子比特张量网络模拟,我们提供了量子核优势关键取决于嵌入选择的第一个系统证据,揭示了Transformer注意力和量子特征空间之间的基本协同作用。这为利用现代神经架构的可扩展量子机器学习提供了一条实用的途径。

科目: 量子物理学, 人工智能, 机器学习

发布: 2025-07-28 21:23:51 世界标准时间

#112 生成逻辑:用于确定性推理和知识生成的新计算机架构

Author: [Nikolai Sergeev](https://arxiv.org/search/?searchtype=author&query=Nikolai Sergeev)

我们提出了生成逻辑 (GL),这是一种确定性架构,它从用户提供的公理化定义开始——用极简主义的数学编程语言 (MPL) 编写——并系统地探索它们的演绎邻域。定义被编译成一个由交换消息的简单逻辑块 (LB) 组成的分布式网格;每当多个表达式在推理规则下统一时,就会发出一个新事实,并完全注明其来源,从而产生可重放、可审计的证明图。原型软件实现在一阶 Peano 算术上实例化工作流程。GL 仅从 Peano 公理开始,枚举候选含义,应用归一化和类型过滤器,并自动重建基本算术定律的机器可检查证明,包括加法的关联性和交换性、乘法的关联性和交换性以及分配性。生成的证明导出为可导航的HTML,以便可以独立检查每个推理步骤。我们概述了实现大规模并行实现的硬件-软件协同设计路径,并描述了与概率模型(例如大型语言模型 (LLM))的前瞻性集成,以实现自动形式化和猜想播种。用于重现 Peano 实验的 Python 和 MPL 代码,以及完整的 HTML 证明图,可在该项目的 GitHub 存储库中找到,网址为 https://github.com/Generative-Logic/GL/tree/35a111ea9ba53afe051703d6050be0c3923e9724,并永久存档于 https://doi.org/10.5281/zenodo.16408441。我们邀请社区反馈和协作。

科目: 计算机科学中的逻辑, 人工智能, 硬件架构

发布: 2025-07-25 17:29:19 世界标准时间

#113 HAPS-V2X网络的AoI感知资源分配与深度强化学习

Authors: [Ahmet Melih Ince](https://arxiv.org/search/?searchtype=author&query=Ahmet Melih Ince), [Ayse Elif Canbilen](https://arxiv.org/search/?searchtype=author&query=Ayse Elif Canbilen), [Halim Yanikomeroglu](https://arxiv.org/search/?searchtype=author&query=Halim Yanikomeroglu)

第六代 (6G) 网络旨在满足自动驾驶等安全关键型应用的超可靠和低延迟通信 (HRLLC) 要求。将非地面网络 (NTN) 集成到 6G 基础设施中,为网络带来冗余,即使在极端条件下也能确保通信的连续性。特别是高空平台站(HAPS)以其覆盖面广、时延低等优势脱颖而出,支持通信可靠性,增强信息新鲜度,特别是在农村地区和基础设施受限的地区。在本文中,我们提出了基于强化学习的方法,使用深度确定性策略梯度(DDPG)来动态优化支持HAPS的车联网(V2X)中的信息年龄(AoI)。所提方法通过实现独立学习,无需集中协调,提高了信息新鲜度和整体网络可靠性。研究结果揭示了HAPS支持的解决方案与基于DDPG的学习相结合,在基于排的自动驾驶汽车系统中实现高效AoI感知资源分配的潜力。

科目: 网络和互联网架构, 人工智能, 机器学习, 多智能体系统, 系统与控制

发布: 2025-07-21 10:11:12 UTC

#114 通过FTTR网络实现沉浸式XR协作(特邀)

Authors: [Sourav Mondal](https://arxiv.org/search/?searchtype=author&query=Sourav Mondal), [Elaine Wong](https://arxiv.org/search/?searchtype=author&query=Elaine Wong)

光纤到房间是实现本地扩展现实协作的潜在解决方案。本文探讨了FTTR上的预测带宽分配和无缝切换方案,展示了可以实现高质量的沉浸式体验,用于内部协作。\c{opyright} 2025 作者。

科目: 网络和互联网架构, 人工智能

发布: 2025-07-21 05:38:29 世界标准时间

#115 代理网络协议技术白皮书

Authors: [Gaowei Chang](https://arxiv.org/search/?searchtype=author&query=Gaowei Chang), [Eidan Lin](https://arxiv.org/search/?searchtype=author&query=Eidan Lin), [Chengxuan Yuan](https://arxiv.org/search/?searchtype=author&query=Chengxuan Yuan), [Rizhao Cai](https://arxiv.org/search/?searchtype=author&query=Rizhao Cai), [Binbin Chen](https://arxiv.org/search/?searchtype=author&query=Binbin Chen), [Xuan Xie](https://arxiv.org/search/?searchtype=author&query=Xuan Xie), [Yin Zhang](https://arxiv.org/search/?searchtype=author&query=Yin Zhang)

随着大模型和自主决策人工智能的发展,智能体正迅速成为继移动应用之后的互联网新实体。然而,现有的互联网基础设施主要是为人机交互而设计的,造成了数据孤岛、界面不友好以及代理之间的高协作成本,难以支持大规模代理互联和协作的需求。互联网正在经历一场深刻的变革,呈现出四大核心趋势:代理取代传统软件、通用代理互联、基于原生协议的连接、自主代理组织和协作。为了顺应这些趋势,代理网络协议 (ANP) 提出了用于代理 Web 的新一代通信协议。ANP 坚持 AI 原生设计,保持与现有互联网协议的兼容性,采用模块化可组合架构,遵循极简但可扩展的原则,并基于现有基础设施实现快速部署。通过三层协议体系——身份和加密通信层、元协议协商层和应用协议层——ANP。系统解决智能体身份认证、动态协商、能力发现互作性等问题。

科目: 网络和互联网架构, 人工智能

发布: 2025-07-18 05:04:43 UTC

#116 在具有约束的程序综合中对程序空间进行建模

Authors: [Tilman Hinnerichs](https://arxiv.org/search/?searchtype=author&query=Tilman Hinnerichs), [Bart Swinkels](https://arxiv.org/search/?searchtype=author&query=Bart Swinkels), [Jaap de Jong](https://arxiv.org/search/?searchtype=author&query=Jaap de Jong), [Reuben Gardos Reid](https://arxiv.org/search/?searchtype=author&query=Reuben Gardos Reid), [Tudor Magirescu](https://arxiv.org/search/?searchtype=author&query=Tudor Magirescu), [Neil Yorke-Smith](https://arxiv.org/search/?searchtype=author&query=Neil Yorke-Smith), [Sebastijan Dumancic](https://arxiv.org/search/?searchtype=author&query=Sebastijan Dumancic)

程序综合的一个核心挑战是驯服可能程序的大空间。由于程序合成本质上是一种组合搜索,因此社区一直在寻求利用强大的组合约束求解器。在这里,约束用于表达程序语义,但不是作为删除不需要的程序的潜在有效工具。最近的归纳逻辑编程方法对要合成的程序语法引入了约束。这些语法约束允许在不执行程序的情况下检查和传播约束,因此允许任意运算符。在这项工作中,我们利用语法约束对程序空间进行建模,不仅定义了可行的解决方案,还定义了可能有用的解决方案。为了证明这个想法,我们引入了 BART,这是一个有效传播和求解这些约束的求解器。我们在程序空间枚举任务上评估了 BART,发现约束消除了高达 99% 的程序空间,并且对程序空间进行建模显着减少了枚举时间。

科目: 编程语言, 人工智能

发布: 2025-07-10 14:00:53 UTC

#117 代理之间的代理:算法网络中的超文本摩擦设计

Authors: [Sophia Liu](https://arxiv.org/search/?searchtype=author&query=Sophia Liu), [Shm Garanganao Almeda](https://arxiv.org/search/?searchtype=author&query=Shm Garanganao Almeda)

当今的算法驱动界面,从推荐源到生成式人工智能工具,通常以牺牲用户代理为代价来优先考虑参与度和效率。随着系统承担更多的决策,用户对他们所看到的内容以及如何构建内容之间的意义或关系的控制越来越少。本文介绍了“超文本摩擦”,这是一种概念设计立场,它将经典的超文本原则(摩擦、可追溯性和结构)重新定位为在算法介导的环境中重新获得代理权的可作价值。通过对现实世界界面(维基百科与 Instagram Explore,以及 Are.na 与 GenAI 图像工具)的比较分析,我们研究了不同系统如何构建用户体验、导航和作者身份。我们表明,超文本系统强调出处、联想思维和用户驱动的意义创造,而算法系统往往会模糊过程并扁平化参与。我们贡献:(1) 对界面结构如何塑造用户驱动系统与代理驱动系统中的代理的比较分析,以及 (2) 提供超文本价值作为设计承诺的概念立场,以在日益算法化的网络中重新获得代理。

主题: 人机交互

发布: 2025-07-31 14:18:28 世界标准时间

#118 努萨阿克萨拉语:保护印度尼西亚土著文字的多模态和多语言基准

Authors: [Muhammad Farid Adilazuarda](https://arxiv.org/search/?searchtype=author&query=Muhammad Farid Adilazuarda), [Musa Izzanardi Wijanarko](https://arxiv.org/search/?searchtype=author&query=Musa Izzanardi Wijanarko), [Lucky Susanto](https://arxiv.org/search/?searchtype=author&query=Lucky Susanto), [Khumaisa Nur’aini](https://arxiv.org/search/?searchtype=author&query=Khumaisa Nur’aini), [Derry Wijaya](https://arxiv.org/search/?searchtype=author&query=Derry Wijaya), [Alham Fikri Aji](https://arxiv.org/search/?searchtype=author&query=Alham Fikri Aji)

印度尼西亚拥有丰富的语言和文字。然而,大多数 NLP 进步都是使用罗马化文本取得的。在本文中,我们介绍了 NusaAksara,这是一种针对印度尼西亚语言的新型公共基准,包括其原始文字。我们的基准测试涵盖文本和图像模式,涵盖图像分割、OCR、音译、翻译和语言识别等多种任务。我们的数据是由人类专家通过严格的步骤构建的。NusaAksara 涵盖 7 种语言的 8 个脚本,包括 NLP 基准测试中不常见的低资源语言。尽管 Unicode 不支持,但楠榜脚本包含在该数据集中。我们对多个模型的数据进行了基准测试,从 GPT-4o、Llama 3.2 和 Aya 23 等 LLM 和 VLM 到 PP-OCR 和 LangID 等特定任务系统,并表明大多数 NLP 技术无法处理印度尼西亚的本地脚本,许多技术实现了接近零的性能。

主题: 计算和语言

发布: 2025-02-25 12:23:52 UTC

2. 感兴趣研究

2.1 2025IMO竞赛

  1. OpenAI、DeepMind等顶尖实验室就在IMO 2025赛场斩获5/6题

    1. 谷歌和OpenAI均完成了5道题,其中谷歌Gemini模型搭载了新的Deep Think模式,OpenAI的模型据悉也是在通用强化学习和计算扩展方面实现了技术突破。
  2. Gemini 2.5 Pro+自研多轮验证框架,在arXiv扔下一篇论文,首次系统性拆解了「解题+验证」的IMO解题方法论

  3. 蚂蚁的多智能体框架AWorld项目团队也加入了这场卷王之争:7月24日启动,仅仅6小时,采用AWorld智能体框架,复现并开源了DeepMind的5/6道解题结果,并直接给出了可一键运行的多智能体IMO系统。(6小时复刻AI IMO金牌成果,蚂蚁多智能体新进展已开源

    1. 跟传统长思维链LangChain等框架有什么不一样。作者给出的回复,核心就是一个词,自我进化。即,多智能体能够超越单个智能体,能够用于复杂问题协同,以及强化学习的奖励模型等,最终实现AGI。
    2. 初始输入的局限:对于如IMO竞赛题这类复杂任务,最初的提问(x_0)信息稀疏,缺乏足够的引导“脚手架”。这使得模型难以在其庞大的能力空间中,仅凭一次尝试就找到通往正确答案的路径。协同的价值:多智能体系统并非提升模型f本身,而是设计了一个“智能流程”:通过生成和整合中间思想(如解题草稿、批判性反馈、改进建议),共同构建出一个信息极其丰富的“超级上下文”。这最终解锁了模型早已具备、但通过简单提问难以触达的深层能力。
    3. 元认知,即“关于思考的思考”,是高级智能的核心标志。它包括自我监控、自我评估和自我修正的能力。单个LLM本身不具备真正的元认知,但可以通过角色定义(Role-Play)来执行元认知功能。
    4. 一个复杂的IMO问题,其解空间的不确定性(信息熵)非常高。每一次有效的多智能体交互都在为系统提供新的约束,从而降低这种不确定性。
    5. AWorld在著名的GAIA Test榜单(即通过增加工具支持、更高效的提示、接入搜索等手段获得增强能力的新一代大语言模型的基准)上达到了77.08分
    6. AWorld团队透露正在测试「多智能体+形式化验证」组合,目标直指Lean4形式化证明。
    7. Gemini 2.5 Pro+: 论文地址:https://arxiv.org/pdf/2507.15855
    8. AWorld: GitHub: https://github.com/inclusionAI/AWorld
  4. 直接让基础模型Gemini 2.5 Pro轻松达到IMO金牌水平。🏅只需提示词改动……(仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂

    1. 一套自我迭代验证流程和提示词优化,就成功让Gemini 2.5 Pro完成了今年IMO题目的解答

    2. Gemini 2.5 Pro 有能力赢得 2025 年 IMO 金牌,黄奕辰 , 杨林福,国际数学奥林匹克(IMO)提出了独特且具有挑战性的问题,要求深刻的洞察力、创造力和严密的推理能力。虽然 LLMs 在 AIME 等数学基准测试中表现良好,但它们在奥林匹克级别的任务上仍然存在困难。我们使用谷歌的 Gemini 2.5 Pro 对新发布的 2025 年 IMO 题目进行测试,避免数据污染。通过采用自我验证流程和精心设计的提示,成功正确解决了 6 道题中的 5 道。该结果强调了开发最佳策略以充分发挥强大 LLMs 在复杂推理任务中潜力的重要性。

    3. 受到了陶哲轩的认可:我认同严格验证是在复杂数学任务中取得出色表现的关键。

    4. IMO可以更为充分地考验模型的抽象思维和多步骤逻辑推理能力,堪称检验LLM推理能力的“试金石”。

    5. 自我验证流程,依次可分为六个步骤:

      1. 初始解决方案生成:模型首先根据提示词生成初步解答,要求每一步逻辑推理清晰、解释明确。
      2. 自我改进:模型对初始答案进行回顾和优化,弥补初始生成中因思维预算有限导致的不足。
      3. 验证解决方案并生成错误报告:在验证器中根据提示词验证解答,生成包含关键错误(如逻辑谬误或事实错误)和不完整论证在内的问题报告。
      4. 审查错误报告(可选):对问题报告进行复核,删除误报的问题,提升报告可靠性。
      5. 基于错误报告纠正或改进解决方案:根据问题报告改进解答,修正后返回验证步骤。
      6. 接受或拒绝解决方案:若解答连续5次都通过验证,则接受该回答;若连续迭代10次,都存在重大问题,则拒绝此答案。
  5. 谷歌拿下IMO(国际数学奥林匹克竞赛)金牌的模型——Gemini 2.5 Deep Think(谷歌IMO金牌模型可以用了!推理性能秒了o3、Grok 4)

    1. Gemini 2.5 Deep Think功能具备以下优势:
      1. 迭代式开发与设计:逐步构建复杂事物。
      2. 科学与数学领域的发现:由于能够通过极其复杂的难题进行推理,深度思考能够成为研究人员的强大工具。它能够协助制定和探索数学猜想,或者对复杂的科学文献进行推理分析,从而有可能加快发现的过程。
      3. 算法开发与代码编写:Deep Think在处理那些需要精心编写代码、对问题表述、权衡利弊以及时间复杂度进行仔细考量的难题方面表现尤为出色。
    2. 核心:扩展Gemini的并行“思考时间”。
      1. Deep Think通过使用并行思维技术,拓展了思维能力的边界。
      2. 此外,通过延长推理时间或“思考时间”,DeepMind为Gemini提供了更多时间去探索不同的假设,并为复杂问题找到创造性的解决方案。
      3. DeepMind还开发了新颖的强化学习技术,旨在激励模型利用这些扩展的推理路径。
  6. OpenAI IMO金牌团队爆料:AI拒绝作答第六题

    1. AI 模型生成的数学证明在风格上非常独特,甚至可以说是「atrocious」(糟糕的)或「creative」(有创意的)。这些证明充满了机器的逻辑,对于人类来说很难读懂。但为了透明起见,OpenAI 并没有为人类的可读性进行优化,而是将这些由 AI 生成的、最原始的证明直接发布在了 GitHub 上,供全世界查阅。
    2. 千禧年大奖难题是七条由美国的克雷数学研究所于 2000 年公布的数学难题,解题总奖金 700 万美元。这些难题旨在呼应 1900 年德国数学家大卫・希尔伯特在巴黎提出的 23 个历史性数学难题。而千禧年大奖难题的破解,极有可能为密码学、航天、通讯等领域带来突破性进展。迄今为止,在七条问题中,庞加莱猜想是唯一已解决的,而其它六道难题(包括黎曼猜想、P vs NP 问题、纳维 - 斯托克斯方程、杨 - 米尔斯理论、霍奇猜想和 BSD 猜想)仍有待研究者探索。
    3. Noam 指出,当模型「思考」的时间变得非常长时(比如 1500 小时),评估(evaluation)本身就成了一个巨大的瓶颈。运行一个需要模型思考一个月的测试,就需要花费一个月的时间才能看到结果。这会极大地拖慢研究迭代的速度。目前,思考 1.5 小时还是可控的,但未来这将是必须解决的难题 。
    4. 除了让模型能长时间思考并处理难以验证的任务外,项目还涉及「扩展并行计算」(scaling up parallel compute),而这其中就包含了多智能体的部分
    5. 「提出有趣的问题」本身就是最难的事情 。团队成员表示认同,并认为让模型学会提出新颖的、有价值的问题(例如创造一个 IMO 级别的新题目),是继解决问题之后,AI 需要克服的下一个巨大障碍 。
    6. 一位斯坦福大学的数学教授会定期发邮件,用一个非常难的问题来测试 OpenAI 的最新模型。虽然最新的 IMO 模型依然无法解决这个问题,但它首次明确地「认识到自己无法解决」,这被认为是一个重要的进步 。
  7. 字节Seed数学新模型,SOTA了

    1. 字节发布全新复杂数学解决模型——Seed-Prover,专注于使用Lean 4进行形式化推理的大型语言模型
    2. 全面超越了谷歌的AlphaGeometry2,并在MiniF2F数据集上实现了惊人的100%正确率。全面超越DeepSeek-Prover-V2、Kimina-Prover、Goedel-Prover-V2、Deepseek-Prover-V2、o4-mini
    3. 相较于先前的研究,Seed-Prover最显著的区别在于采用了引理式证明作为证明范式,从而将引理置于推理过程的核心。

2.2 推理

SynAdapt:通过合成连续思维链学习大型语言模型中的自适应推理

虽然思维链 (CoT) 推理提高了模型性能,但由于生成离散 CoT 代币 (DCoT),它会产生大量的时间成本。

连续 CoT (CCoT) 提供了一种更有效的替代方案,但现有的 CCoT 方法受到间接微调、有限比对或目标不一致的阻碍。

为了克服这些限制,我们提出了 \textit{SynAdapt},一个创新的高效推理框架。具体来说,\textit{SynAdapt} 生成合成 CCoT 作为 LLM 的精确有效的对齐目标。这种合成 CCoT 明确指导 LLM 学习 CCoT 并直接得出准确的答案。此外,仅依靠 CCoT 不足以解决难题。为了解决这个问题,\textit{SynAdapt} 集成了一个难度分类器,该分类器利用问题上下文和 CCoT 来识别难题。经过一些简短的推理后,CCoT 可以有效地帮助识别难题。然后,我们自适应地提示法学硕士重新思考这些难题以提高性能。

不同难度级别的各种基准的广泛实验结果有力地证明了我们方法的有效性,实现了最佳的精度-效率权衡。

JSON-Bag:通用游戏轨迹表示

我们引入了 JSON Bag-of-Tokens 模型 (JSON-Bag) 作为一种方法,通过标记其 JSON 描述来通用地表示游戏轨迹,并应用 Jensen-Shannon 距离 (JSD) 作为它们的距离指标。使用基于原型的最近邻搜索 (P-NNS),我们评估了 JSON-Bag 和 JSD 在六款桌面游戏上的有效性——\textit{7 Wonders}、\textit{Dominion}、\textit{Sea Salt and Paper}、\textit{Can’t Stop}、\textit{Connect4}、\textit{Dots and boxes}——每个任务都完成了三个游戏轨迹分类任务:对用于生成轨迹的游戏代理、游戏参数或游戏种子进行分类。我们的方法在大多数任务中使用手工制作的功能都优于基线。对 N-shot 分类进行评估表明,使用 JSON-Bag 原型来表示游戏轨迹类也是样本效率高的。此外,我们还展示了 JSON-Bag 自动特征提取的能力,将标记视为随机森林中使用的单个特征,以解决上述任务,这显着提高了性能不佳的任务的准确性。最后,我们表明,在所有六场比赛中,代理类的 JSON-Bag 原型之间的 JSD 与代理策略之间的距离高度相关。

使用形式语法分析描述逻辑中的时间推理

我们在(片段)之间建立了对应关系 TEL◯,是 EL 描述逻辑与 LTL 运算符◯k,以及一些特定类型的形式语法,特别是连词语法(配备交集作的上下文无关语法)。这种联系意味着 TEL◯ 不具备模型的极限周期性,并进一步导致查询应答的不可判定性。TEL◯,关闭自引入以来悬而未决的问题 TEL◯.此外,它还允许为一些新的有趣片段建立查询应答的可判定性 TEL◯,并为此目的重复使用现有的连接语法工具和算法。

生成逻辑:用于确定性推理和知识生成的新计算机架构

我们提出了生成逻辑 (GL),这是一种确定性架构,它从用户提供的公理化定义开始——用极简主义的数学编程语言 (MPL) 编写——并系统地探索它们的演绎邻域。

定义被编译成一个由交换消息的简单逻辑块 (LB) 组成的分布式网格;每当多个表达式在推理规则下统一时,就会发出一个新事实,并完全注明其来源,从而产生可重放、可审计的证明图。原型软件实现在一阶 Peano 算术上实例化工作流程。GL 仅从 Peano 公理开始,枚举候选含义,应用归一化和类型过滤器,并自动重建基本算术定律的机器可检查证明,包括加法的关联性和交换性、乘法的关联性和交换性以及分配性。生成的证明导出为可导航的HTML,以便可以独立检查每个推理步骤。

我们概述了实现大规模并行实现的硬件-软件协同设计路径,并描述了与概率模型(例如大型语言模型 (LLM))的前瞻性集成,以实现自动形式化和猜想播种。用于重现 Peano 实验的 Python 和 MPL 代码,以及完整的 HTML 证明图,可在该项目的 GitHub 存储库中找到,网址为 https://github.com/Generative-Logic/GL/tree/35a111ea9ba53afe051703d6050be0c3923e9724,并永久存档于 https://doi.org/10.5281/zenodo.16408441。我们邀请社区反馈和协作。

2.3 框架

Cognitive Kernel-Pro:深度研究代理和代理基础模型训练的框架

通用人工智能代理越来越被认为是下一代人工智能的基础框架,可实现复杂的推理、网络交互、编码和自主研究能力。然而,当前的代理系统要么是闭源的,要么严重依赖各种付费 API 和专有工具,限制了研究界的可访问性和可重复性。

在这项工作中,我们提出了 \textbf{Cognitive Kernel-Pro},这是一个完全开源且(最大程度上)免费的多模块代理框架,旨在使高级 AI 代理的开发和评估民主化。在 Cognitive Kernel-Pro 中,我们系统地研究了 Agent Foundation Model 高质量训练数据的管理,重点是跨四个关键领域(Web、文件、代码和一般推理)构建查询、轨迹和可验证答案。此外,我们探索了智能体测试时反思和投票的新策略,以增强智能体的鲁棒性和性能。

我们在 GAIA 上评估 Cognitive Kernel-Pro,在开源和自由代理中取得了最先进的结果。值得注意的是,我们的 8B 参数开源模型超越了 WebDancer 和 WebSailor 等之前的领先系统,为可访问、高性能的 AI 代理建立了新的性能标准。代码可在 https://github.com/Tencent/CognitiveKernel-Pro 获得

MetaAgent:通过工具元学习走向自我进化的代理

在这项工作中,我们提出了 MetaAgent,这是一种受边做边学原则启发的代理范式,其中专业知识是通过实践和持续的自我完善来发展的。MetaAgent 从最小的工作流程开始,仅配备基本推理和自适应寻求帮助的能力。当遇到知识差距时,MetaAgent 会生成自然语言帮助请求,这些请求由专用工具路由器路由到最合适的外部工具。当 MetaAgent 解决任务时,它会不断进行自我反思和答案验证,将可作的经验提炼成简洁的文本,并动态地融入到未来的任务环境中。此外,MetaAgent 通过组织其工具使用历史记录,自主构建内部工具和持久的知识库,进一步增强其检索和整合相关信息的能力我们将这种持续的、数据驱动的过程称为 \textit{meta tool learning},通过该过程,MetaAgent 可以逐步完善其推理和工具使用策略,而无需更改模型参数或需要进一步的后训练。

在具有挑战性的知识发现基准(包括 GAIA、WebWalkerQA 和 BrowseCamp)上进行评估后,MetaAgent 的性能始终优于基于工作流程的基线,并匹配或超过端到端训练的代理,展示了自我进化的代理系统在强大的通用知识发现方面的前景。我们以 https://github.com/qhjqhj00/MetaAgent 提供源代码。

MetaExplainer:为人工智能系统生成多类型、以用户为中心的解释的框架

解释对于构建值得信赖的人工智能系统至关重要,但模型提供的解释与用户所需的解释之间往往存在差距。为了解决这一差距,我们推出了 MetaExplainer,这是一个神经符号框架,旨在生成以用户为中心的解释。

我们的方法采用三阶段过程:首先,我们使用最先进的大型语言模型 (LLM) 将用户问题分解为机器可读的格式;其次,我们将生成系统建议的任务委托给模型解释器方法;最后,我们合成自然语言解释来总结解释器输出。在整个过程中,我们利用解释本体来指导语言模型和解释方法。通过利用法学硕士和结构化的解释生成方法,MetaExplainer 旨在增强人工智能系统在各种应用程序中的可解释性和可信度,为用户提供量身定制的、问题驱动的解释,更好地满足他们的需求。对 MetaExplainer 的全面评估表明,在评估和利用当前最先进的解释框架方面迈出了一步。

我们的结果显示,在所有阶段都表现出色,问题重构的 F1 得分为 59.06%,模型解释的忠实度为 70%,自然语言合成的上下文利用率为 67%。用户研究证实了这些发现,强调了生成解释的创造性和全面性。MetaExplainer 在糖尿病 (PIMA Indian) 表格数据集上进行测试,支持多种解释类型,包括对比解释、反事实解释、基本原理解释、基于案例解释和数据解释。该框架的多功能性和可追溯性,从使用本体来指导法学硕士,表明在测试场景之外具有广泛的适用性,将 MetaExplainer 定位为增强各个领域的人工智能可解释性的有前途的工具。

2.4 训练

像人类一样学习:通过认知发展阶段进行资源高效的联合微调

联合微调使大型语言模型 (LLM) 能够适应下游任务,同时保护数据隐私,但其资源密集型特性限制了在边缘设备上的部署。在本文中,我们介绍了开发联合调优 (DevFT),这是一种受认知发展启发的资源高效方法,可在紧凑的基础上逐步构建强大的 LLM。DevFT将

微调过程分解为开发阶段,每个阶段都优化子模型,参数容量不断增加。早期阶段的知识转移到后续子模型,提供优化的初始化参数,防止收敛到局部最小值并加速训练。这种范式反映了人类的学习,在完善现有技能的同时逐步构建全面的知识结构。为了高效构建特定阶段的子模型,DevFT引入了去冲突引导的层分组和基于差分的层融合,以提炼基本信息并构建代表性层。

对多个基准的评估表明,DevFT 的性能明显优于最先进的方法,达到了 4.59× 更快的收敛,10.67× 减少通信开销,平均性能提高 9.07%,同时保持与现有方法的兼容性。

0%