栖居在城市的大地上,分享城市中的感想予你,在留言板留下你的足迹,希望你在这里有所收获,祝幸运

一个年轻人,一个小镇青年,如果获得更好的人生,第一步要摆脱异托帮,凡是别人向你建构、推销那些快乐,要一概拒绝;虽然你做不到,我还是愿意这么提。然后把那些所有的及时性的,就像那个肥宅水一样,能够让你瞬间高兴的东西,你都应该把它视若为敌人,是你生活中的毒药,你应该去做那些吃力不讨好的事情,比如说学一门技艺,精益求精锤炼一门技艺,这能够使你获得人生的支撑,或者你非常努力的去读书考一个好大学,也可以。这些东西才是你生活的真谛

最新文章

今日 AI 领域呈现"中国全栈对抗 + 具身智能规模化"双主线:智谱发布 ZCode 桌面 Agent IDE 正面挑战 Cursor/Claude Code,价格直降 82%;首届上海国际具身智能产业博览会开幕,市场规模预计突破 1.09 万亿;上海国家地方共建人形机器人创新中心发布"格物"仿真平台并主导 ISO 国际标准。

智谱 Z.ai 发布 ZCode,744B 参数 GLM-5.2 全栈出击 Cursor/Claude Code

7 月 2 日,智谱(Z.ai)在太平洋时间凌晨 3 点正式发布 ZCode——一款基于 GLM-5.2 的免费桌面端"智能体开发环境",直接对标 Cursor、Claude Code、GitHub Copilot 与 Google Antigravity。GLM-5.2 拥有 744 亿参数 MoE 架构(400 亿活跃),100 万 token 上下文窗口,训练数据 28.5 万亿 token,完全使用华为芯片训练、零美国芯片依赖,MIT 协议开源。基准表现上,Code Arena 全球第二(仅次于 Anthropic Fable 5),FrontierSWE 仅落后 Claude Opus 4.8 一个百分点、超越 GPT-5.5。ZCode 强调"Agent 优先"架构,跨设备共享工作区,并支持通过微信、飞书、Telegram 远程操控编码 Agent——这一针对中国开发者的差异化功能在海外 IDE 中尚属首创。定价上,桌面应用免费下载,Coding Plan Max 仅 144 美元/月,API 价格较 Claude Opus 4.8 降低最多 82%。智谱市值 6 月 22 日已突破 1 万亿港元(约 1280 亿美元),摩根大通将 2026 年收入增长预测上调至 534%。ZCode 的发布与 6 月 12 日美国对 Anthropic Fable 5 实施出口管制(6 月 30 日撤销)形成精准呼应,"主权 AI 访问"成为企业选型的关键变量。

首届上海国际具身智能产业博览会 CIEI 2026 开幕,市场规模剑指 1.09 万亿

7 月 2 日至 4 日,首届上海国际具身智能产业博览会(CIEI 2026)在国家会展中心(上海)举办,宇树、加速进化、乐聚、中科新松、上海人形机器人、七腾、珞石、云深处、海克斯康、因时机器人等全产业链领军企业悉数参展,京东集团以超大展区亮相。开幕式上发布的《中国具身智能产业发展报告(2026)》显示,中国具身智能市场规模从 2018 年的约 2133 亿元跃升至 2026 年预计的 1.09 万亿元,年均复合增长率 22%–23%,成为全球增长最快的市场之一。报告指出,中国拥有全球唯一且最完整的全链条产业配套——从核心传感器、伺服电机、谐波减速器到整机组装、算法适配,长三角与珠三角的零部件集聚效应使新品样机迭代速度大幅领先欧美,整体制造成本较国外低 30%–50%。细分赛道中工业机器人占 45%、服务机器人占 25%、特种机器人占 15%,人形机器人虽仅占 5%,但增速最快,被普遍视为最大增长引擎。同日税收数据显示,今年前五个月具身 AI 机器人销售收入同比增长 22.4%,工业企业采购量同比增长 2.3 倍。

  • 值得关注的原因:CIEI 是国内首个全产业链级具身智能展会,京东展区+宇树/加速进化/智元等头部集中亮相标志着"具身+"进入规模化商业落地阶段;1.09 万亿市场预测与 30%–50% 成本优势为国产具身智能出海奠定基础。
  • 信息来源:https://www.chinanews.com.cn/cj/2026/07-02/10651284.shtml

上海"格物"具身智能仿真平台发布,单代码库支持 100+ 机器人训练

7 月 3 日,国家地方共建人形机器人创新中心在上海发布"格物"(Ge Wu)具身智能仿真平台,旨在为人形机器人从实验室走向市场提供高性能仿真环境。平台整合先进强化学习框架与多模态运动控制技术,核心创新在于通用强化学习框架与自动化模型适配技术,单一代码库可支持 100+ 不同类型机器人训练而无需额外编程。首席科学家江磊介绍,平台面向科研机构、高校与企业提供完整的开发与测试解决方案。中心已建成国内首个异构人形机器人训练设施,目前可同时训练 100+ 台机器人,计划 2027 年扩展至 1000 台,并与本地机器人企业合作汇聚 1000 万条高质量物理数据集(覆盖 2025 年目标)。配套设施方面,上海市经信委副主任张宏韬宣布将牵头联合人形机器人(上海)有限公司、上海市人工智能研究院等机构,在 ISO/TC299 机器人技术委员会下设人形机器人分委会,主导国际标准制定。上海贡献了全国三分之一的机器人产量、占全球产量的三分之一。优必选 Unitree G1 侧空翻视频与美的集团多动作人形机器人原型(握手/递水/比心/跳舞)成为具身智能动作泛化能力的标志性展示。

Anthropic 发布 Claude Sonnet 5,主打"更便宜地运行 Agent"

6 月 30 日,Anthropic 正式发布 Claude Sonnet 5,定位为"至今最具 Agent 能力的 Sonnet 模型",能够制定计划、调用浏览器/终端等工具、并在数月前还需人工介入的自主水平上运行。Sonnet 5 同步成为 claude.ai 免费版与 Pro 版的默认模型,并向 Max、Team、Enterprise 套餐逐步推送。Anthropic 在官方介绍中强调其在长程任务、Agent 执行、计算机使用场景下的显著提升,并将其定位为运行 Agent 时的更经济选择,矛头直指 Opus、GPT-5.5 与 Gemini Pro 的同类 Agent 场景。TechCrunch 评论指出,Sonnet 5 的定价策略是 Anthropic 在 Fable 5/Mythos 5 因美国出口管制短暂下线 18 天后对市场预期的快速修复——通过中端模型重新夺回被 Z.ai GLM-5.2、GPT-5.6 Sol 蚕食的开发者心智。开发者社区反馈显示,Sonnet 5 在常规编码任务上仍偶有 Opus 4.8 回退的情况,但限速策略已重置,分歧集中在"是否值得从 Fable 5 切回"。

  • 值得关注的原因:Sonnet 5 作为 Sonnet 系列首个"真正的 Agent 模型",是中端价位 Agent 工作流的新基准;其发布节奏显示 Anthropic 在地缘政治冲击下通过"中端反扑"修复开发者生态的战略转向。
  • 信息来源:https://www.anthropic.com/news/claude-sonnet-5

NVIDIA 机器人团队开放四大方向招聘,黄仁勋再定"物理 AI"为下一波浪潮

7 月 1 日,据每日经济新闻报道,英伟达机器人团队将围绕具身智能、仿真、部署及解决方案架构四大核心方向开放大规模招聘。同日黄仁勋再次强调"物理 AI"是人工智能未来发展的主要趋势,并将"物理 AI"明确定义为下一波增长浪潮——机器人、汽车和智能工厂将成为现实世界中的智能体,具备感知、推理与执行能力。A 股人形机器人概念同步走强,机器人 ETF 招商(560770)午后涨近 1%,汇川技术涨超 2%,三花智控、拓普集团、大华股份表现活跃。产业层面,Optimus V3 被曝投产在即,国产"优世界 U1"预售破万,智元万台级交付形成中美"万台对万台"的产能对标。

  • 值得关注的原因:英伟达同时卡位"模型+仿真+部署+解决方案"四层具身智能基础设施,是具身智能从单点能力走向平台化竞争的关键信号;中美双线进入万台级量产阶段,"物理 AI"正式从概念进入产业兑现窗口。
  • 信息来源:https://www.sfccn.com/2026/7-1/3MMDE1MjBfMjE3MTk3Mw.html

今日 AI 领域热度集中在编程工具国产替代与具身智能商业化落地上:智谱推出对标 Claude Code 的 ZCode,Godot 则率先为开源项目划定 AI 贡献边界;具身智能方面,家用机器人融资、城市级人形机器人部署与斯坦福偏好学习新范式同步推进。

智谱发布 ZCode:Claude Code 的国产替代方案

智谱(Z.ai)正式发布面向开发者的 AI 编程助手 ZCode,基于 GLM-5.2 构建,定位直接对标 Anthropic 的 Claude Code。该产品支持多智能体协作,可通过微信、飞书、Telegram 等即时通讯工具远程发起编码任务,月费起步约 16.20 美元。除了代码生成与调试,ZCode 强调在中文开发场景下的工具链适配与团队协作体验。

值得关注的原因:国产大模型厂商开始从“模型能力竞赛”转向“垂直工作流产品”竞争,AI Coding 赛道进入 Claude Code、Cursor、ZCode 等多强并立阶段;同时,IM 入口的引入可能显著降低非专业开发者使用门槛。

信息来源:aiweekly.co

Godot 引擎正式禁止 AI 生成代码贡献

开源游戏引擎 Godot 更新贡献者协议,明确禁止将 AI 生成的代码作为项目提交,仅允许 AI 用于“简单的自动补全”和“查找/替换”操作。官方理由是需保证代码权属清晰、可审计并对法律责任有明确归属。该政策被视为大型开源项目对 AI 辅助编程风险的一次制度化回应。

值得关注的原因:在 AI 生成代码日益普及的背景下,Godot 率先划定“可用”与“可贡献”的边界,可能为 Linux 内核、Mozilla 等同类社区提供政策参考,也提醒开发者关注代码版权与合规风险。

信息来源:godotengine.org

乐享科技完成 5 亿元 Pre-A 轮融资,发布家庭具身智能品牌“元点”

家用具身智能公司乐享科技宣布完成近 5 亿元人民币 Pre-A 轮融资,由蚂蚁集团领投,吉利资本、三七互娱等参投。公司同步发布消费级品牌“元点”(Zeroth),预览 Jupiter 人形机器人与 N1 异构臂家庭协作机器人两款产品。官方披露累计融资已达 10 亿元,积压订单超过 3 万台,上半年收入同比增长 600%。

值得关注的原因:蚂蚁集团领投表明互联网巨头正加速布局家庭服务机器人入口;同时“3 万台积压订单”与 600% 收入增长显示消费级具身智能正在从概念验证走向规模订单。

信息来源:embodiedglobal.com

成都人形机器人部署场景超 60 个,年底目标 1 万台

成都市公布,已在工业、民用服务和特种作业等领域部署超过 60 个人形机器人及具身智能应用场景,响应工信部与国资委 2026 年人形机器人实环境训练行动计划。成都计划 2026 年 11 月前部署 6400 台以上,年底前实现多场景 1 万台部署,成为继北京之后第二个公布万台级年度目标的中国城市。

值得关注的原因:城市级量化部署目标将倒逼数据采集、安全标准、运维体系等基础设施快速成熟;对于关注具身智能产业链的从业者而言,这相当于一次国家级“压力测试”,决定哪些技术路线能在真实场景跑通。

信息来源:embodiedglobal.com

斯坦福 FPL:自然语言多轴偏好学习提升长时序操作 38 个百分点

斯坦福 IRIS 实验室(Chelsea Finn 团队)提出自由形式偏好学习(Freeform Preference Learning, FPL),让标注者用自然语言自定义奖励维度(速度、安全性、细致度、放置质量等),替代传统二元“哪个更好”偏好标注。在 4 项真实世界和 2 项模拟长时序操作任务中,FPL 比稀疏奖励 RL 与二元偏好 RLHF 基线平均高出 38 个百分点,并支持测试时零重训风格切换(如“快速” vs “谨慎”)。

值得关注的原因:FPL 将“人类价值观对齐”从粗粒度打分推进到细粒度自然语言维度,对机器人长程任务、家务助理等人机协作场景具有直接借鉴意义;同时也为具身智能的数据标注成本下降提供了新思路。

信息来源:embodiedglobal.com

Anthropic 正式发布 Claude Science 科研工作台,将 AI 从编程工具延展到科学研究全流程;OpenAI 推理成本减半方案曝光,AI Coding 降本趋势加速;智元 AGIBOT 第 15000 台人形机器人下线,具身智能从验证走向量产交付;国产阵营同步发力,中科南京软件院发布 Focus VLA 具身模型与 BoCoder 编程智能体。

Anthropic 发布 Claude Science 科研工作台

6月30日,Anthropic 在"AI for Science"大会上正式发布 Claude Science——面向科学家和科研人员的 AI 工作台产品。该产品并非新模型,而是在现有 Claude(包括 Opus 4.8)基础上构建的垂直科研环境,整合 60+ 科学数据库与工具(PubMed、UniProt、PDB、Ensembl、ChEMBL 等),覆盖基因组学、单细胞、蛋白质组学、化学信息学等领域。核心架构采用"协调 Agent + 专业子 Agent + 审校 Agent"三层设计:协调 Agent 管理项目全局,可调度子 Agent 分拆任务,审校 Agent 独立检查引用与计算准确性。所有输出附带可审计的代码、环境与消息历史,确保可复现性。产品支持本地 macOS/Linux 运行及 SSH/HPC 远程部署,数据不离开实验室基础设施。AlphaFold 诺奖得主 John Jumper 在加盟 Anthropic 仅 11 天后首次公开亮相,诺华 CEO Vas Narasimhan、BMS CEO Chris Boerner 等制药巨头高管同台站台。Anthropic 同时宣布支持最多 50 个科研项目,每个项目最高 3 万美元 credits,申请截止 7 月 15 日。

值得关注的原因: Claude Science 代表 AI 从"编程辅助"走向"科研全流程工程化"的关键拐点。与 Claude Code 占据软件开发操作系统层类似,Claude Science 正在抢占科研操作系统层——这预示 AI Coding 工具的垂直化趋势将从软件扩展到更多专业领域。三层 Agent 架构(协调+专业+审校)为 AI Coding 的可靠性设计提供了可借鉴范式。

信息来源: Anthropic 官方公告 | TechCrunch 报道

OpenAI 推理成本减半方案曝光

6月30日,据知情人士透露,OpenAI 工程师本月早些时候向部分同事表示,通过几项全新研发的优化技术,已找到将模型推理成本削减一半以上的方案。该方案已在 ChatGPT 免费访客场景落地,所需英伟达 GPU 数量从数千块压缩至仅数百块。具体优化方向涵盖量化压缩、键值缓存优化、批量查询调度、子模型路由等。OpenAI 同时与博通合作研发专用推理芯片 Jalapeño(3nm/216GB HBM3e/FP4),进一步降本增效。此前 GPT-5.6 Sol 旗舰模型已在 Terminal-Bench 2.1 以 91.9%(Ultra 模式)刷新编码跑分纪录,而推理成本减半意味着更强的模型可以以更低的价格部署——2026 年目标毛利率 58%,下半年盈利修复弹性充足。

值得关注的原因: 推理成本是 AI Coding 工具商业化的核心变量。成本减半直接降低 Agent 持久运行的经济门槛,使得"24/7 Agent"从概念走向现实。结合专用推理芯片路线,OpenAI 正在构建"模型能力+推理效率+定制芯片"三位一体的成本优势,这将对 Claude Code、Cursor 等竞品形成价格压力,加速 AI Coding 市场从"按座位收费"向"按 token/按量计费"的结构性转型。

信息来源: 财联社报道 | 东方财富网

智元 AGIBOT 第 15000 台人形机器人下线

6月28日,智元机器人(AGIBOT)宣布第 15000 台人形机器人正式下线,里程碑机型为 Agibot G2——工业级具身作业机器人。从 2023 年 2 月成立至今,AGIBOT 产量增速持续加快:1000→5000 台耗时约一年,5000→10000 台仅用三个月(产量提速 4 倍以上),10000→15000 台进一步缩短周期。G2 机器人已在平板电脑量产质检工位完成约 100 小时工厂直播操作,与产线工人协同工作,验证了从"下线"到"上线"的全链条交付能力。据 Omdia 数据,AGIBOT 2025 年以 5168 台年出货量和 39% 市场份额排名全球人形机器人第一。合伙人姚毛青表示,15000 台不仅是量产里程碑,更标志着行业从概念验证走向规模化部署——具身 AI 机器人竞争已超越单机演示,进入量产交付与真实场景部署阶段。

值得关注的原因: 15000 台是全球人形机器人迄今最大规模的量产交付纪录。产量加速曲线(每阶段提速 4 倍)验证了具身智能硬件的规模化制造可行性,与 AI Coding 的"Agent 从实验室到生产线"逻辑形成镜像——软件 Agent 的量产是 API 调用量,硬件 Agent 的量产是物理交付量。AGIBOT 的供应链标准化、质检体系与工程交付能力,为桌面级机器人创业提供了可参照的工业化路径。

信息来源: Robotics and Automation News | AGIBOT 官方

中科南京软件院发布 Focus VLA 具身模型与 BoCoder 编程智能体

6月26日,2026 南京软件大会 AI 创新与产业赋能专场集中发布 4 项核心 AI 技术成果。中科南京软件技术研究院推出 Focus VLA 具身智能模型——可预判机器人动作意图,提升复杂场景作业精度与稳定性,面向工业与物流场景落地;同步发布 Zenk 决策智能体,融合大模型与决策模型,搭建行业知识库实现可解释可追溯推理。江苏博云发布 BoCoder 编程智能体,依托云原生与 AI 工程化积累推动智能编程产业化落地,面向工业、金融、政务领域输出安全可控一站式 AI 编码方案。智往未来(中科南京孵化企业)发布第二代具身智能机器人 Armstrong Pro,初代已在头部物流企业完成多场景实测,新款已入驻世界 500 强外企仓库,实现从技术验证到商业应用的关键一跃。同期启动"中科·智原" OPC 产业生态创新中心,为 AI 创业团队提供技术支撑、模型工具、场景验证、商业孵化全链条服务。

值得关注的原因: Focus VLA + BoCoder 的组合发布,体现了国产 AI 在"具身智能+AI Coding"双线的同步布局——与 Anthropic 的 Claude Science + Claude Code 双产品线逻辑一致。BoCoder 的"安全可控一站式"定位,对应国内 AI Coding 市场的差异化需求(数据安全、私有化部署)。Armstrong Pro 从实测到入驻 500 强外企仓库的商业化路径,为桌面级/工业级机器人创业提供了"场景验证→商业落地"的参照案例。

信息来源: 新华日报 | 新浪财经

Anthropic 今日举办「AI for Science」线上大会,诺奖得主 John Jumper 加盟后的首秀;港大教授李弘扬创立源策未来,数亿元种子轮押注全身具身大脑;开源编码 Agent Ornith-1.0 凭 RL 自改进范式登顶多个基准——AI Coding 与具身智能双线并行,从模型自主进化到机器人全身智能,产业纵深持续扩展。

Anthropic「AI for Science」大会:John Jumper 首秀 + 诺华/BMS/Genentech 联合站台

6月30日,Anthropic 举办「The Briefing: AI for Science」线上直播活动,演讲嘉宾包括诺华 CEO Vas Narasimhan(Anthropic 董事)、BMS 董事长兼 CEO Chris Boerner、Genentech 研发负责人 Aviv Regev,以及 AlphaFold2 共创者、诺贝尔化学奖得主 John Jumper。这是 Jumper 6月19日从 Google DeepMind 加盟 Anthropic 后的首次公开亮相。大会核心议题:Claude 如何压缩药物研发时间线、BioMysteryBench/VirBench 基准发现(确定性检索工具比模型选择更关键),以及 Anthropic 90天内的五步生命科学布局——Coefficient Bio 4亿美元收购、自建湿实验室、两个基准发布、Jumper 引进、本次大会。

值得关注的原因:Anthropic 不再只是"AI编程公司",正在系统性构建生命科学全栈能力(从蛋白质预测到监管策略),John Jumper 的加盟使 AI for Science 从概念验证进入实质推进阶段。VirBench 的核心发现——74分差距几乎是数据访问问题而非模型问题——对所有 AI 应用开发者具有普遍启示。

信息来源:Anthropic 官方活动页 | ChatForest 深度分析

源策未来 Archon Robotics:数亿元种子轮押注「全身具身大脑」

港大计算与数据科学学院助理教授李弘扬创立的「源策未来 Archon Robotics」完成数亿元种子轮融资,投资方包括真格基金、高榕创投、IDG资本、五源资本等头部美元基金及港大联名基金、奇绩创坛。公司成立于2026年4月,研发总部位于上海漕河泾,专注研发通用全身人形基座模型。核心洞察:现有具身数据集结构性缺位——第一视角视频缺全身位姿、机械臂数据缺物理交互、人形真机数据成本高达每小时数百至近千元,导致现有方案只能做桌面抓取,无法应对推门、双手持物开关门等需要重心转移的任务。本轮资金主要用于全身人形基础模型研发、多模态全身动作数据采集,以及年底前开源人形基座模型落地。

值得关注的原因:从"桌面抓取"到"全身移动操作"是具身智能的核心跨越。源策未来直接瞄准数据结构性缺位这一最大瓶颈,并提出开源基座模型路线,与国内银河通用、千寻等"演示→量产"路径形成差异化互补。港大教授创业+顶级美元基金种子轮的组合,标志着学术界对具身数据问题的系统性回应。

信息来源:36氪独家 | 搜狐报道

Ornith-1.0:RL 自改进开源编码 Agent,9B 超越 35B 同级模型

deepreinforce-ai 团队发布 Ornith-1.0 系列,定位「自改进开源编码 Agent」,提供 9B-Dense、31B-Dense、35B-MoE、397B-MoE 四档模型,MIT 协议全球可访问。核心训练范式:用强化学习同时优化「生成解决方案」与「驱动方案展开的 scaffold」,通过联合优化让模型自主发现更好的搜索轨迹,而非依赖预设 Agent 流程。基准测试中,9B 版本在 Terminal-Bench 2.1 拿到 43.1 分(超过 Qwen3.5-35B 的 41.4),SWE-bench Verified 69.4%(超过 Qwen3.5-35B 的 70% 接近持平),397B 版本在 Terminal-Bench 2.1 达 77.5 分,与 Claude Opus 4.7/4.8 同台竞技。

值得关注的原因:Ornith-1.0 的 RL 自改进范式代表 AI Coding 的下一阶段——不再是"更好的补全",而是"模型自己学会如何搜索和规划"。9B 小模型超越 35B 大模型的同级对比,直接挑战了"参数量=编码能力"的传统认知。MIT 开源+多规模覆盖,对本地部署和边缘场景的 AI Coding 生态具有实际撬动力。

信息来源:GitHub deepreinforce-ai/Ornith-1 | HackerNews 讨论

韩国1万亿美元AI投入:半导体 + 物理AI + 人形机器人2028商用

韩国政府与头部科技公司联合宣布约1万亿美元一揽子计划,三大旗舰项目:Samsung/SK海力士投入585亿美元建设新晶圆厂(目标5年内DRAM产能翻倍);SK集团/GS集团/Naver投入357亿美元建设大规模AI数据中心;现代汽车投入58亿美元建设机器人制造工厂和AI数据中心,Boston Dynamics Atlas 人形机器人目标2028年年产3万台。韩国总统李在明将"半导体、物理AI、AI数据中心"列为国家跃迁三大轴心,政府同时将物理AI定为"国家战略产业",目标3年内开发基于世界模型的通用基础模型,2028年实现人形机器人在10个主要行业商业化部署。

值得关注的原因:这是迄今全球最大的国家级AI综合投入计划,物理AI与人形机器人首次被提升至与半导体同等的国家战略高度。现代工会已投票批准罢工以抗议 Atlas 机器人部署,折射出"AI替代人类劳动"的社会张力正在从理论讨论走向现实冲突。中国具身智能产业可从韩国"半导体→物理AI→数据中心"三轴联动模式中获得产业链协同的参考框架。

信息来源:Ars Technica 报道 | BBC News

普林斯顿 CEO-Bench:14位硅基CEO仅有4位保住本金

普林斯顿团队搭建 CEO-Bench,将14款主流大模型放入"100万美元启动金、500天模拟周期、零客户"的真实 SaaS 经营场景,让模型自主运营虚拟公司。结果:14位硅基CEO仅4位保住本金——Claude Fable 5 以4715万美元位列第一(本金翻47倍),Claude Opus 4.8 第二(2780万),GPT-5.5 第三(2130万),第四名竟是纯 rule-based 启发式算法(1576万),而非任何大模型。5个模型中途破产离场(GLM 5.1、Haiku 4.5、Gemini 3 Flash、DeepSeek V4 Pro、Grok 4.20)。核心发现:探索型策略远优于保守型;编程 Agent(Claude Code/Codex)硬套 CEO 角色反而表现大幅下降——"强加马鞍,不如裸骑"。

值得关注的原因:CEO-Bench 是迄今最严格的 AI Agent 商业决策压力测试。Fable 5 的压倒性优势印证了 Anthropic 在长程推理上的领先,但 rule-based 算法排第四揭示了"简单规则+领域知识"可能比"通用智能无约束"更稳健。编程 Agent 不等于万能 Agent 的结论,直接指向垂直场景 Harness 框架的必要性——对 AI Coding 工具开发者而言,这是一个关于产品边界的重要信号。

信息来源:CEO-Bench 官方 | 量子位报道

今日聚焦两个方向:AI 编程领域,Anthropic 联合创始人首次给出 RSI(递归自我改进)落地时间表,DeepSeek 开源推理加速框架大幅降低 Coding Agent 使用成本;具身智能方面,深度机智与 Generalist AI 同日传出巨额融资信号,物理 AI 基础设施之争进入白热化阶段。

Anthropic 联合创始人 Jack Clark:2028 年底 RSI 成真概率 60%

Anthropic 联合创始人 Jack Clark 在 Aspen Institute 活动上给出明确时间表:到 2028 年底之前,递归自我改进(Recursive Self-Improvement, RSI)很可能成真——AI 将自主发明并构建比自己更强的下一代模型,整个过程无人类研究员参与。Clark 将置信度明确打在 60%,并描绘了具体画面:Claude 10 将是这一节点的产物。

值得关注的原因:这是 AI 行业核心人物首次将 RSI 从哲学讨论和 PR 辞令切换为具体路线图。如果 60% 的概率成真,意味着未来 3 年内 AI 编程 Agent 将从"辅助人类写代码"进化到"自主设计并构建更好的 AI",对软件开发范式的冲击将是根本性的。同期英伟达与剑桥大学联合发布的"红皇后哥德尔机"论文,已在工程层面为 RSI 提供了可训练的实现路径。

来源:36氪

DeepSeek 开源 DSpark 推测解码框架,单用户推理速度提升 85%

DeepSeek 开源推测解码框架 DSpark 与配套训练框架 DeepSpec,由创始人梁文锋署名、联合北京大学完成。技术核心是半自回归生成与置信度调度验证:用轻量草稿模型并行生成候选 token,再由目标模型批量校验,对极可能被驳回的尾部 token 提前剪枝。对比生产基线 MTP-1,DSpark 在保持整体吞吐不变的前提下,将单用户生成速度提升 60%-85%,并避免了高并发下的吞吐率大幅滑坡。

值得关注的原因:推理速度是 AI Coding Agent 的核心瓶颈之一——Coding Agent 往往需要多轮迭代、长上下文推理,延迟直接影响开发体验。DSpark 以无额外硬件成本的方式将速度提升近一倍,对 Claude Code、Codex 等 Agent 产品的响应效率有直接改善意义。同时,这也是 DeepSeek 在 510 亿巨额融资后的首个重量级开源动作。

来源:36氪

深度机智完成新一轮数亿元融资,物理 AI 基座模型持续获投

北京中关村学院与中关村人工智能研究院联合孵化的深度机智(Deepcybo)宣布完成新一轮数亿元融资,由国寿长三角科创基金领投,普华资本、诚通科创基金等跟投。这是该公司近两个月内的第二轮数亿元融资。深度机智聚焦物理 AI 全栈技术,已建设数十万小时级 DeepAct 多模态人类第一视角数据集,发布了 PhysBrain 1.0 具身通用智能基座模型,并推出了 Prime 系列拟人体机器人产品线。

值得关注的原因:深度机智代表了一条独特的具身智能技术路线——"人类学习"范式,即通过人类第一视角数据直接训练机器人执行任务,而非依赖仿真环境或预编程。公司近期已验证了纯人类操作数据直驱机器人完成新任务的可行性,这比美国 Generalist AI 的 GEN-1 早一周发布。中关村体系孵化首个具身智能企业的身份,也意味着国家队在该领域的战略布局。

来源:网易科技DoNews

Generalist AI 获 4 亿美元融资,打造通用机器人智能平台

由前 Google DeepMind 和 Boston Dynamics 工程师创立的 Generalist AI 完成 4 亿美元融资,估值达 20 亿美元,投资方包括 NVIDIA、Fei-Fei Li、Jeff Bezos 等。公司定位为构建面向所有机器人形态的通用智能平台——"Physical AGI",即一套能理解物理世界并在各类机器人本体上运行的基座模型。此前,Generalist AI 总融资已超过 7 亿美元。

值得关注的原因:Generalist AI 代表了具身智能领域的"平台化"路线——不是造机器人,而是为所有机器人提供通用大脑。NVIDIA 的投资意味着硬件巨头正在为下一波机器人计算需求铺路,而 Fei-Fei Li 的站台则连接了学术前沿与产业落地。4 亿美元的单笔融资在具身智能赛道属于第一梯队,与国内深度机智的"人类学习"路线形成中美两条并行路径的竞争格局。

来源:Robotics 24/7The Robot Report

Semgrep 安全基准测试:GLM-5.2 首次正面击败 Claude

代码安全平台 Semgrep 发布详细测试报告:在其自研的 IDOR(不安全直接对象引用)基准上,智谱 GLM-5.2 以 39% F1 得分击败了 Claude。这是国产开源权重模型首次在严肃安全基准上对闭源前沿模型形成明确领先。Semgrep 给文章起的标题 "We have Mythos at home" 暗指此前被业内视为网络安全领域王者的 Anthropic Mythos 系列。

值得关注的原因:安全基准不同于通用编程基准——它要求模型具备深层代码理解能力,能发现逻辑漏洞而非简单的语法错误。GLM-5.2 在安全领域的突破,意味着国产开源模型在 AI Coding 的高价值细分场景中已具备与闭源前沿模型正面竞争的能力。结合 Anthropic 同日向美国参议院指控阿里 Qwen 蒸馏 Claude 的事件,中美 AI Coding 模型的竞争已从技术层面上升到叙事权与规则制定权的争夺。

来源:Semgrep Blog量子位