具身智能

Genesis是一个生成式物理引擎，由 CMU 联合 20 多所研究实验室历时两年联合开发，能够生成 4D 动态世界、模拟广泛的材料和物理现象，专为通用机器人、具身 AI 和物理 AI 应用而设计。https://mp.weixin.qq.com/s/TsmMqip3r9kWxJdg1HfIrw
2025-06-26 13:57:58 Thursday

论文链接：https://www.roboticsproceedings.org/rss21/p020.pdf
论文主页：https://playground.mujoco.org/
机构：UC 伯克利、Google DeepMind、多伦多大学、剑桥大学
作者：Kevin Zakka, Baruch Tabanpour, Qiayuan Liao, Mustafa Haiderbhai, Samuel Holt, Jing Yuan Luo, Arthur Allshire, Erik Frey, Koushil Sreenath, Lueder Alexander Kahrs, Carmelo Sferrazza, Yuval Tassa, Pieter Abbeel

论文摘要： 该研究提出了 MuJoCo Playground—— 这是一个基于 MJX 构建的完全开源机器人学习框架，其核心设计目标是大幅简化仿真环境搭建、模型训练以及仿真到现实场景的迁移全流程。研究人员仅需执行简单的「pip install playground」安装命令，即可在单 GPU 硬件上完成分钟级策略训练。

2025-06-26 14:05:00 Thursday

由香港大学与上海AI Lab联合提出的 VLN-R1 ，具备将自然语言指令直接转化为第一人称视角下的连续导航动作的能力，无需依赖离散地图，能在复杂环境中灵活感知、决策与行动，实现类人级别的具身智能导航。

https://mp.weixin.qq.com/s/XhcnUxYUXi2jvX51u3zpsw

2025-06-26 14:06:50 Thursday

Google DeepMind团队首个可以完全在机器人本地运行的视觉-语言-动作（VLA）模型Gemini Robotics On-Device发布。https://mp.weixin.qq.com/s/oyT1CRRdbUxfF9cvApePRg

2025-06-27 14:06:04 Friday ｜中科院自动化所提出BridgeVLA模型，通过将3D输入投影为2D图像并利用2D热图进行动作预测，实现了高效且泛化的3D机器人操作学习。实验表明，BridgeVLA在仿真和真实场景中均展现出卓越的性能和数据效率，仅需3条轨迹即可在基础任务中达到96.8%的成功率。 https://mp.weixin.qq.com/s/PKA5T4ybjYwc46WH6QmcDg

世界模型

2025-07-02 13:11:27 Wednesday ｜伯克利&Meta面向具身智能的世界模型：让AI通过全身动作「看见」未来 https://mp.weixin.qq.com/s/id_ISbf7wVvk3pl2GCIgWA

论文标题：Whole-Body Conditioned Egocentric Video Prediction

论文地址：https://arxiv.org/pdf/2506.21552

项目地址：https://dannytran123.github.io/PEVA/

参考阅读链接：https://x.com/YutongBAI1002/status/1938442251866411281

相比传统模型只用「速度 + 方向」做预测，PEVA 把整个人的 3D 姿态（包括关节位置和旋转）一并喂进模型，和历史的视频帧一起输入，从而让 AI 学会：身体的动作，会如何重新组织我们能看到的世界。

2025-07-01 11:27:15 Tuesday ｜世界模型。而且就在最近，LeCun团队的世界模型新进展来了。名叫**PEVA模型 **https://mp.weixin.qq.com/s/MBTNAYeu-J_9MI_-jpxQBA

该模型通过结构化动作表示将人体48维关节运动学数据与条件扩散Transformer结合。

利用VAE编码视频帧、自适应层归一化嵌入动作条件及跨历史帧注意力机制等，实现了从全身动作预测第一视角视频的高精度生成与长期时序连贯。

论文地址：https://arxiv.org/abs/2506.21552

项目地址：https://dannytran123.github.io/PEVA/

2025-06-19 19:34:50 Thursday｜ EX-4D来了，实现单目视频到自由视角生成

https://mp.weixin.qq.com/s/U4zom1havvpV4NwNXL65Vg

相机可控的视频生成技术堪称核心拼图 —— 它让视频生成模型不再是单向的 “世界模拟器”，而是能被用户自由探索的 “平行宇宙”，为沉浸式 3D 电影等颠覆性应用奠定基础！

对此，PICO-MR 团队提出了一个破局方案：EX-4D，可以从任意单目视频生成其对应的新视角视频。 EX-4D ：

一致性更强： EX-4D 在 FID、FVD 等指标上超越了最新的开源方法，支持生成高物理一致性的新视角视频。
视角跨度更大： 得益于新几何先验格式，EX-4D 能支持极端视角下的高质量视频生成。
综合效果更好： 轻量级 LoRA Adapter 能充分利用 WAN-2.1 基座模型的强大生成能力，生成细节、质量更好的视频。

Arxiv 链接: https://arxiv.org/abs/2506.05554

项目主页链接: https://tau-yihouxiang.github.io/projects/EX-4D/EX-4D.html

代码链接: https://github.com/tau-yihouxiang/EX-4D

数字人

2025-06-26 12:02:42 Thursday ｜如何做到在手机上实时跑3D真人数字人？MNN-TaoAvatar开源了！ https://mp.weixin.qq.com/s/YW9ASa_bPDdwQ2nANqPKEw

TaoAvatar 基于先进的 3D 高斯泼溅技术，提供了一套全身互动式的真人数字人解决方案。

机器人

20250808｜哇塞，今天北京被机器人人人人人塞满了！
1. 通用机器人的特点就是能力非常广泛，可以胜任多种任务和环境；不再像以往的专用机器人，只能处理例如扫地、焊接这样单一的任务。
2. 目标就是实现 类人或类通用智能体的灵活性和适应性 ，可以根据不同指令、上下文甚至环境变化，自主决策并完成任务。
3. 全域全身视觉-语言-行动大模型 —— GOVLA （Global & Omni-body Vision-Language-Action Model）