2025-01-27科研追新(公众号)

2025-01-27

统计1-26-14:00~1-27-11:00的相关新进展

1. 公众号

1.1 量子位

  1. 中科院院士鄂维南、字节AI实验室总监李航领衔,推出高级论文搜索Agent。名为PaSa,两个Agent分别执行多轮搜索和判断论文是否满足查询要求的任务,模仿人类复杂学术搜索行为。
    1. 项目官网: pasa-agent.ai
    2. GitHub仓库: https://github.com/bytedance/pasa
    3. arXiv技术论文: https://arxiv.org/pdf/2501.10120

1.2 新智元

  1. TinyZero,采用了R1-Zero算法——给定一个基础语言模型、提示和真实奖励信号,运行强化学习。然后,团队将其应用在CountDown游戏中(这是一个玩家使用基础算术运算,将数字组合以达到目标数字的游戏)。

  2. 港科大助理教授何俊贤的团队(共同一作黄裕振、Weihao Zeng),只用了8K个样本,就在7B模型上复刻出了DeepSeek-R1-Zero和DeepSeek-R1的训练。

    1. 论文:7B Model and 8K Examples: EmergingReasoning with ReinforcementLearning is Both Effective andEfficient
    2. Github: https://github.com/hkust-nlp/simpleRL-reason
    3. 这一表现不仅超越了Qwen2.5-Math-7B-Instruct,并且还可以和使用超过50倍数据量和更复杂组件的PRIME和rStar-MATH相媲美
  3. TheAgentCompany:在重要的实际任务上对代理进行LLM基准测试

    1. 论文链接:https://arxiv.org/abs/2412.14161
    2. 该研究开发了一个全部由大模型驱动的智能体组成的虚拟软件开发公司The Agent Company,与人类员工类似,智能体需要执行软件开发、项目管理、财务分析等典型的商业环境中的任务。
    3. 除了创建175个多样化、真实、专业,且与真实公司运营模式一致的任务,这项研究还创建了不同任务对应的评估器,在每个任务中的多个阶段设置检查点。智能体每完成一步任务,都会获得相应的积分(类似于现实员工的KPI);而当智能体只是部分正确地给出回答时,也会给予其部分过程分。
  4. Humanity’s Last Exam 新基准全称「人类最后一次考试」

    1. 包含3000个问题,由数百位领域专家开发,用于追寻人类知识推理的边界。
    2. 目前,最好的模型,准确率也小于10%,而且自信「过头」。
    3. 项目链接:https://lastexam.ai/
    4. paper:https://arxiv.org/abs/2501.14249
    5. code:https://github.com/centerforaisafety/hle
    6. dataset:https://huggingface.co/datasets/cais/hle
    7. 为了评估AI的能力的进展,已发布了多个数据集,针对语言模型,根据「Paper with code」网站统计,就有165个相关数据集。(Language Modellling)
  5. AI走的是死路?专家剖析致命缺陷,不具备大规模应用前提 https://mp.weixin.qq.com/s/jJL6G2GJvv4t3md_8n4u6Q

  6. 可以根据LLMs上下文设计好的问题吗? https://arxiv.org/abs/2501.03491

    1. 这篇文章首次揭示了LLMs在问题生成中的偏好,通过引入自动评估流程,扩展了现有的统计问题质量标准,研究发现为评估下游应用(如RAG系统和幻觉检测)的提示工程优化提供了经验,可以防止在不当情境下的滥用,更深入地了解LLMs在问题生成中的行为倾向。

1.3 机器之心

  1. InfAlign: Inference-aware language model alignment
    1. https://arxiv.org/abs/2412.19792
    2. 执行推理时能对齐语言模型吗?谷歌InfAlign带来一种对齐新思路 https://mp.weixin.qq.com/s/XIkTBTh9GUeaHXX-b26u_A
0%