2025-08-15 2025-08-15 About 500 words 3 minutes

Contents

新模型

2025-08-15

实测Perplexity Pro平替模型，免费开源仅4B

2025-0811

智谱GLM-4.5V

相关素材
1. 体验地址：https://chat.z.ai/
2. HuggingFace 开源地址：https://huggingface.co/zai-org/GLM-4.5V
3. GitHub 开源地址：https://github.com/zai-org/GLM-V
4. 桌面助手下载地址：https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App
5. 魔搭社区：https://modelscope.cn/collections/GLM-45V-8b471c8f97154e
对图像的识别与推理、视频理解：GLM-4.5V 在涵盖图像理解、视频理解、GUI、文档理解等任务的 41 个公开视觉多模态榜单中综合效果达到了开源 SOTA 水平，这和我们在实测中体验到的结果是一致的。

2025-08-08

GPT-5：博士生水平

官方介绍：https://openai.com/index/introducing-gpt-5/
1. gpt-5 ：专注逻辑推理和多步骤任务
2. gpt-5-mini ：轻量级版本，成本敏感型应用
3. gpt-5-nano ：速度优化版，超低延迟
4. gpt-5-chat ：企业级多模态对话，支持上下文感知
GPT-5 是一个一体化系统，包含三个核心部分：
1. 一个智能高效的基础模型，可解答大多数问题
2. 一个深度推理模型（即GPT-5思维模块），用于处理更复杂的难题
3. 以及一个实时路由模块，能够基于对话类型、问题复杂度、工具需求及用户显式指令（如prompt含“仔细思考这个问题”）智能调度模型
快来看看GPT-5第一波实测
1. ARC-AGI的成绩单表示GPT-5不如Grok 4
2. SimpleBench上，GPT-5的水平已经超过了人类平均水平，在大模型中尚属首次。这是一个简单常识推理类的数据集，主要特点就是对于人类非常简单，但对大模型比较困难。
GPT-5来了！人人都能免费用，最强大模型只需最傻瓜式使用
GPT-5编程成绩有猫腻！自删23道测试题，关键基准还是自己提的

2025-08-07

端侧｜Qwen紧追OpenAI开源4B端侧大模型，AIME25得分超越Claude 4 Opus
- Qwen3-4B-Instruct-2507：非推理模型，大幅提升通用能力
- Qwen3-4B-Thinking-2507：高级推理模型，专为专家级任务设计，逻辑、数学、科学及代码中的高级推理能力——专为专家级任务设计。
- 更智能、更精准，并且支持256k上下文，更具上下文感知能力。
- 抱抱脸直通车：
  - [1]https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507
  - [2]https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507
- 魔搭社区直通车：
  - ttps://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507
  - https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507
智能体｜Reflection AI已经发布了他们的首款AI智能体Asimov，较Claude Code Sonnet 4等模型，得到了用户更多偏好。
1. Asimov是一款专为代码理解打造的，它能对代码仓库、架构文档、GitHub讨论串、对话历史等多种信息进行索引，从而形成对代码库结构、历史及团队知识的全面认知。
2. Asimov 并非单一智能体 ，而是 由几个小型智能体协同工作 。

2025-08-06

Claude Opus 4.1
1. Claude Opus 4.1火速发布！坐稳编程之王，官方：马上还有大更新
  1. 编程性能再次突破天花板，超越Claude Opus 4，拿下SOTA。
    1. 在SWE-bench上，Opus 4.1超越Opus 4、Gemini 2.5 Pro、o3，将性能提升至74.5%，拿下新SOTA。
  2. Blog：https://www.anthropic.com/news/claude-opus-4-1
  3. System Card：https://assets.anthropic.com/m/4c024b86c698d3d4/original/Claude-4-1-System-Card.pdf
谷歌DeepMind发布了****新一代通用世界模型Genie 3
1. 谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆
  1. Genie 3相比上一代大幅升级，支持****720P画质，每秒24帧实时导航，以及分钟级的一致性保持。
  2. 最让谷歌引以为傲的，还要属Genie 3的****长期环境一致性。
  3. DeepMind十多年来一直在关注模拟环境领域的研究，从训练智能体掌握实时战略游戏，到开发用于开放式学习和机器人技术的模拟环境。
2. 谷歌推出「G」字号第三代世界模型Genie 3，号称「宇宙模拟器」，视频生成更加符合物理定律。
OpenAI开源两个推理模型：gpt-oss-120b和gpt-oss-20b。
1. 刚刚，OpenAI开源2个推理模型：笔记本/手机就能跑，性能接近o4-mini
  1. gpt-oss，即Open Source Series，意思就是“开源系列”。
  2. gpt-oss-120b：1170亿参数（MoE架构，激活参数约51亿），可在单张80GB GPU上运行，性能接近闭源的o4-mini。
  3. gpt-oss-20b：210亿参数（Moe架构，激活参数约36亿），可在16GB内存的消费级设备上运行，性能接近o3-mini。
  4. 整体来看，这两个模型在工具使用、少样本函数调用、链式思考推理（如Tau-Bench智能评估套件的结果所示）以及HealthBench上表现强劲，甚至超越了包括OpenAI o1和GPT‑4o在内的专有模型。
  5. gpt-oss-120b每个token激活5.1B个参数，而gpt-oss-20b激活3.6B个参数。这些模型分别具有117b和21b的总参数。
  6. 技术博客地址：https://openai.com/index/introducing-gpt-oss/
  7. HuggingFace地址：https://huggingface.co/openai/gpt-oss-120b
  8. GtiHub地址：https://github.com/openai/gpt-oss
  9. OpenAI-OSS-120B用起来要谨慎，写代码特别不稳定。OpenAI-OSS-20B在这个参数量大小下反而挺好。
2. 全网开测GPT-oss！技术架构也扒明白了
  1. GPT-oss在架构设计上既保留了MoE Transformer的核心架构，又通过细节优化提升性能、降低复杂度，使其成为适合开源模型的基础架构。
    - 对每个注意力头，设置一个可以学习的标量，然后进行softmax汇聚。
    - 与GPT-3相同，交替使用滑动窗口层和全连接层。
    - 对每个输入分配4个相关专家处理，再整合结果，专家之间彼此完全独立，同时使用标准负载均衡损失，确保资源高效分配。
    - 使用了改进的swiglu激活函数，通过α=1.702让sigmoid的线性单元silu近似于高斯误差线性单元gelu。裁剪激活值防止梯度爆炸，通过调整“up+1”有助于梯度流动。
    - 采用YaRN上下文窗口扩展技术，提升长文本处理能力。
    - 移除了RMSNorm归一化过程中的可学习偏置参数，减少拟合风险。
声音理解能力新SOTA，小米全量开源了模型MiDashengLM-7B，基于Xiaomi Dasheng作为音频编码器和Qwen2.5-Omni-7B Thinker作为自回归解码器，通过创新的通用音频描述训练策略，实现了对语音、环境声音和音乐的统一理解。小米模型实现声音理解新SOTA！数据吞吐效率暴增20倍，推理速度快4倍 | 全量开源

2025-07-28

GLM-4.5 智谱GLM-4.5 系列测评

智谱终于发布GLM-4.5技术报告，从预训练到后训练，细节大公开

逻辑能力
1. 幻觉过重：基础模式的幻觉是全方面的，不但对prompt输入本身存在幻觉，其输出有时也存在“梦游”现象，输出一些自己也不知道是什么的内容。比如在输出中试图引用一张图片来解释原理，但图片Url无法访问。大概是训练材料混入的脏数据。#42报告提炼问题，基础模式放弃了计算统计数据，使用占位符，对报告中核心观点的摘要也提炼不完整。在仅有的1pass中虽然计算了统计值，但计算错误。不过好在推理模式中，幻觉控制要好的多，没有出现类似问题。相关问题表现达到推理模型平均水准。
2. 计算误差：受幻觉影响，基础模式数学计算误差显著偏高，以#38函数求交尤为典型，在kimi-k2的误差中，往往是小数点第3位之后的精度问题，按四舍五入算大体是对的。而GLM-4.5的误差体现在计算过程中小错误不断积累，最终答案只是看起来像，实际完全不对。同样由于推理模式对幻觉的抑制有效，同样题目在推理模式下准确率极高，#38题稳定满分，#42年报报告提炼问题中数据汇总部分也基本没有问题，偶有误差。
3. 暴力倾向：对于复杂问题，基础模式2个版本有半数几率使用暴力穷举，在中等难度的#36六阶数独问题如此，在难题#23解密，#24数字规律等问题同样如此。在没有使用穷举的轮次中，二者均能正常响应，输出虽然不满分，但在同梯队中表现尚可的答案。值得一提的是，GLM前一个版本air-0414和Z1也因为过多使用暴力穷举，导致模型输出极易陷入死循环而耗尽Token，新版则只在少数（低于2%）输出死循环，大部分穷举Badcase是真的在穷举。推理模式下也存在同样问题，但概率较小，仅在个别高难度问题如#43目标数，#44工具组合，中有体现。

2025-7-26

多模态卷王阶跃星辰Step 3登场，推理效率可达DeepSeek-R1 300%
1. 2025 WAIC大会上，阶跃星辰的新一代主力基座模型Step 3，带来了意想不到的惊喜。新一代旗舰基模Step 3的发布，标志着阶跃多模态大模型又一个新里程碑。
2. Step 3在MMMU、MathVision、SimpleVQA、AIME 2025、LiveCodeBench（2024.08-2025.05）等榜单上直接拿下了开源多模态推理模型的SOTA成绩。
九天大模型大变身：性能狂飙35%！还能一键P大象
1. 7月26日，在2025世界人工智能大会期间，中国移动焕新发布「九天」基础大模型3.0。本次发布的「九天」基础大模型3.0，重点聚焦模型的端到端技术升级以及生成可控性能力的增强，进一步强化九天大模型「高安全、高可控、全国产、全行业」的独特优势。

历史

2025-07-17 10:58:27 Thursday ｜ Kimi-2 已上线 LiveBench AI：超越 GPT-4.1，开源 AI 新王者诞生
2025-07-03 11:20:12 Thursday ｜ https://mp.weixin.qq.com/s/__VhGST5Qm_KI8yoc_d68A

Grok 4 (grok-4-0629)，则是一个更大、更智能的Thinking模型。官方宣称，这是他们最新、最强大的旗舰模型，在自然语言、数学和推理上性能无与伦比，是用户的最佳选择。

而Grok 4 Code（grok-4-code-0629）则专为编程而打造。你可以向它询问代码问题，甚至直接把它嵌入到自己的代码编辑器中，还可以一键在Cursor上使用。

2025-07-03 10:27:17 Thursday ｜ OpenRouter 上出现了一个神秘模型，该模型被命名为「Cypher Alpha」。其可以免费使用，100 万 token 上下文，还具有推理能力。 https://mp.weixin.qq.com/s/lmIQhT7uI9etjxGgIYqLoA
2025-07-02 14:09:31 Wednesday ｜SuperCLUE推理榜惊现黑马：原来中兴是一家AI公司？ https://mp.weixin.qq.com/s/H2urbOlVVcFR5b-GA7Rnhw
2025-07-01 11:23:45 Tuesday ｜百度官宣文心大模型4.5系列正式开源，还同步提供API服务 https://mp.weixin.qq.com/s/jG0R66Uq_6kFwajb7XKM3w

报告地址：https://yiyan.baidu.com/blog/publication/ERNIE_Technical_Report.pdf

2025-06-28 18:48:36 Saturday ｜一手实测有道14B「子曰3」数学模型，击败满血版DeepSeek R1 https://mp.weixin.qq.com/s/x56TbKXzijRxaJLXKvKV_g

网易有道开源了「 子曰3 」 数学模型 （Confucius3-Math），以14B参数的轻量级模型在多项数学推理任务上超越了满血参数的DeepSeek-R1。

2025-06-27 14:04:27 Friday ｜AI秒懂短视频，快手大模型Keye-VL理解力爆表！技术细节全开源 https://mp.weixin.qq.com/s/hFO2TQNcn3IK3E1F1QQObw
2025-06-26 12:06:05 Thursday ｜ Gemini Robotics On-Device，谷歌 DeepMind 首个可以直接部署在机器人上的视觉-语言-动作（VLA）模型https://mp.weixin.qq.com/s/mjZAAvVtPevYDD5HfexN6g
2025-07-01 10:44:45 Tuesday ｜华为正式宣布开源盘古 70 亿参数的稠密模型「 盘古 Embedded 」、盘古 Pro MoE 720 亿参数的混合专家模型（参见机器之心报道：华为盘古首次露出，昇腾原生72B MoE架构，SuperCLUE千亿内模型并列国内第一）和基于昇腾的模型推理技术。开源链接：https://gitcode.com/ascend-tribe

https://mp.weixin.qq.com/s/v1NNVaH9oDufqkrkyVLnVw

更重要的是，这些模型采用了一些领先的技术来实现高效的训练和推理，比如分组混合专家 MoGE 算法、自适应快慢思考合一以及全链路的高性能推理系统优化。

2025-06-23 11:46:54 Monday｜在华为开发者大会 2025（HDC 2025）上，华为重磅发布了盘古大模型 5.5 https://mp.weixin.qq.com/s/Ie824EYirtd3gqpog786Nw
1. 盘古 Ultra MoE 的技术报告地址：https://arxiv.org/pdf/2505.04519
2. 盘古 Pro MoE 的技术报告项目地址：https://gitcode.com/ascend-tribe/pangu-pro-moe
3. 小模型**盘古 Embedding **报告地址：https://arxiv.org/pdf/2505.22375
4. 华为发布了开放域信息获取 Agent—— **盘古 DeepDiver **报告地址：https://arxiv.org/pdf/2505.24332
2025-06-19 20:05:29 Thursday ｜ MiniMax刚刚发布海螺2.0版本，能处理极端物理情况，原生支持1080P。
2025-06-19 19:40:54 Thursday ｜ Gemini 2.5 Pro 稳定版发布且已全面可用，其与 6 月 5 日的预览版相比无变化。
1. 报告地址：https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf
2. AI玩宝可梦找出30年前代码Bug！谷歌论文介绍AI通关全过程，复杂任务都能解 https://mp.weixin.qq.com/s/fOGbijWnqEloziC3TISz_w
2025-06-17 11:20:40 Tuesday ｜开源代码模型 Kimi-Dev ，在SWE-bench Verified上以60.4%的成绩 取得开源SOTA： 项目主页：https://moonshotai.github.io/Kimi-Dev/ GitHub：https://github.com/MoonshotAI/Kimi-Dev HuggingFace：https://huggingface.co/moonshotai/Kimi-Dev-72B
2025-06-17 11:11:46 Tuesday ｜ MiniMax开源MiniMax-M1，目前模型权重已可在HuggingFace下载，技术报告同步公开。
2025-06-12 10:53:36 Thursday | 豆包大模型1.6发布
2025-06-11 11:15:20 Wednesday｜o3-pro发布，严格的「4/4 可靠性」评估，即只有在四次尝试中（而不仅仅是一次）正确回答问题，模型才被视为成功
20250606｜gemini-2.5-pro-0605发布
20250606｜Qwen3-Embedding系列发布：Qwen3-Embedding系列支持119种语言，涵盖主流自然语言及多种编程语言。

多模态模型

2025-07-01 11:20:23 Tuesday ｜Black Forest Labs刚刚宣布开源旗舰图像模型 FLUX.1 Kontext[dev] ，专为图像编辑打造，还能直接在消费级芯片上运行。 https://mp.weixin.qq.com/s/Cu-58gySRJ0-bWCwO8ViuQ

2025-06-30 18:00:22 Monday ｜阿里多模态模型Qwen-VLo https://mp.weixin.qq.com/s/RiAnvEhp0lkPpC-ED24Tgw

VLM

2025-07-03 10:59:19 Thursday ｜ 9B“小”模型干了票“大”的：性能超8倍参数模型，拿下23项SOTA | 智谱开源 https://mp.weixin.qq.com/s/5jcSAR6I7MyHc4INo7f9BQ

智谱发布并开源了一个仅9B大小的模型——GLM-4.1V-9B-Thinking

引入了 思维链 （Chain-of-Thought）推理机制，并通过 课程采样强化学习 （RLCS，Reinforcement Learning with Curriculum Sampling）来全面提升模型能力。

团队采用“课程学习”的方式进行大规模强化训练，也就是先让模型从简单任务开始，逐步挑战更难的任务。通过这种由浅入深的训练策略，模型在实用性、准确性以及稳定性方面都有了明显的提升。

2025-07-03 11:01:58 Thursday ｜字节最新发布多主体控制生成模型 Xverse ——

既可以对设定好的每个主体进行精确控制，也不会破坏图像的生成质量 https://mp.weixin.qq.com/s/JzuyHDfRGd-hFoL_VOXCAg

XVerse的核心是通过学习DiT（Diffusion Transformer，一种扩散模型和Transformer架构的生成模型）中文本流调制机制中的偏移量，实现对多个主体身份和语义属性的****一致控制。

音频

2025-07-02 14:54:01 Wednesday ｜阿里通义开源首个CoT音频模型，音·画同步被狠狠拿捏了 https://mp.weixin.qq.com/s/NPb2iQvAiTJb0LZG8CSdXg

没错，这就是阿里通义语音团队最新开源的 泛音频生成模型ThinkSound ，主要用于视频配音，主打 让每一帧画面都有专属匹配音效 。

就在上个月，团队发布了语音生成大模型 Cosyvoice 3.0 ，通过大规模数据预训练和特殊设计的强化学习后训练，它能提供多语言语音生成、零样本语音复刻等功能。

更早之前，团队还推出了基于模态对齐实现的端到端音频多模态大模型 MinMo 。

智能体模型

2025-06-28 17:18:09 Saturday ｜ AI自动修bug，解决率达44%！这是全球开源模型的最新最强水平。来自蚂蚁的开源新模型，在SWE-bench Lite上超越所有开源方案，性能媲美闭源模型。 https://mp.weixin.qq.com/s/Y-vqZG2dQMOwvXTinDbT1Q

端侧模型

vivo突破手机AI部署难题，绕开MoE架构限制，骁龙8 Elite流畅运行｜ICCV 2025 https://mp.weixin.qq.com/s/ztTdARR4Q0opOGP139NQkQ

2025-06-28 17:02:38 Saturday ｜最低仅需2G显存，谷歌开源端侧模型刷新竞技场纪录，原生支持图像视频，今天凌晨，谷歌正式官宣了 Gemma 3n ，原生支持文本、图像和音视频等多种模态。 https://mp.weixin.qq.com/s/iN4Fir3tSt96vPJufn5PSQ

模型、权重：https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4

文档：https://ai.google.dev/gemma/docs/gemma-3n

博客：https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/

2025-06-28 17:11:15 Saturday ｜ https://mp.weixin.qq.com/s/1jIi40A9Jm9zFLuuCuE3OA

早在两个月前的阿里云AI势能大会上，阿里云百炼就透露了要做Agent Store的计划。

现在，这个**Agent Store正式上线**了，提供了覆盖各行各业的上百个Agent模板。

CGM的技术论文、核心代码、模型权重与训练数据均已开源 ，感兴趣的同学可进一步了解详情。

技术论文：https://arxiv.org/abs/2505.16901
开源代码：https://github.com/codefuse-ai/CodeFuse-CGM
模型权重：https://huggingface.co/codefuse-ai/CodeFuse-CGM-72B
训练数据：https://huggingface.co/datasets/codefuse-ai/CodeGraph

😎团队此前工作：

Code LLM综述：Awesome-Code-LLM（TMLR）https://github.com/codefuse-ai/Awesome-Code-LLM
Graph+LLM前序研究：GALLa（ACL 2025）https://github.com/codefuse-ai/GALLa
高效注意力架构：Rodimus（ICLR 2025）https://arxiv.org/abs/2410.06577
代码多任务微调框架：MFTCoder（KDD 2024）https://arxiv.org/abs/2311.02303

谷歌版小钢炮开源！0.27B大模型，4个注意力头，专为终端而生

2025-8-15

谷歌开源Gemma 3 270M
值得一提的是，新模型只有 4个注意力头 ，比Qwen 3 0.6B少12个，真是切实符合其轻量化的定位。
新模型的核心功能可概括为以下4部分：
1. 紧凑且高效的架构
2. 极致的能源效率
3. 指令遵循
4. 可用于生产的量化支持
5. https://developers.googleblog.com/en/introducing-gemma-3-270m/

新模型

新模型