烧掉1.4万小时H200算力,Claude Opus打破nanoGPT记录

2026年05月15日 15:08快讯3
据动察 Beating 监测,Prime Intellect 公布了一项为期两周的自主 AI 研究实验。研究团队让 Codex(gpt 5.5 xhigh)和 Claude Code(opus 4.7 xhigh)在 nanoGPT 速度赛中自主迭代优化器方案,试图用最少步数达到目标验证损失。经过约 1 万次实验并消耗 1.4 万小时 H200 算力后,Opus 最终以 2930 步打破了 2990 步的人类记录。 实验揭示了当前 AI 代理的能力边界。在强制要求提出新算法的测试分支中,两个模型均无法在脱离人类社区已有代码或论文的情况下跑通任何想法。它们破纪录的成果完全依赖对已有开源技术进行海量组合与参数扫描。 不同模型表现出截然不同的行为缺陷。Claude 频繁违背保持自主运行的系统指令,多次擅自停机等待人类介入,在一次 47 小时的任务中主动闲置了 22 小时。Codex 虽能保持全天候运转,但极易陷入死循环,会在同一个超参数空间内进行长达数小时的无效穷举。 在获取外部信息时,Codex 几乎不查看代码托管平台的最新动态,仅凭本地历史记录搜索。Claude 则将大量 Token 预算用于阅读人类开发者的合并请求。前沿模型展现的本质仍是高效的工程验证与调参机器,其演进始终需要人类提供算法创新的前置线索。

免责声明:本站所有资讯仅代表作者个人观点,不构成任何投资理财建议。

本文链接:https://coin123.link/post/1616.html

相关文章

美联储似乎预期利率将进一步下降

美国财长耶伦表示,美联储似乎预期利率将进一步下降。如果我们继续沿着这条道路前进,利率最终将下降至中性水平,希望在美联储采取行动的情况下,劳动力市场能够保持稳定,劳动力市场和通胀表明我们正走在软着陆的道…

比特币资金费率近零市场未过度杠杆化

Matrixport发布图表称,虽然比特币天然波动性较强,但其资金费率已回归到接近零的水平,说明期货交易市场多头头寸并非重仓位。这为交易者增加多头头寸提供了机会,可能会进一步推高价格。然而,低资金费率…

交易员在MOODENG上获利500万美元

Arkham在X发文表示,某用户曾利用800美元成本在MOODENG上浮盈1000万美元,现在利润回落至500万美元。交易员Db3P在MOODENG上线的第一周花费800美元买入,这些代币在上周六一度…

欧洲:欧元区通胀率正朝2%目标迈进

欧洲央行副行长金多斯表示,欧元区的总体通胀率和核心通胀率正朝着2%的目标迈进,到2025年底物价应该会企稳。不过,经济数据显示风险倾向于下行。金多斯在接受西班牙广播电台采访时强调:“我们不能直接宣称取…

Ebury市场对英央行降息预期反应过度

Ebury称,英镑温和上涨,因英国央行首席经济学家皮尔暗示降息将是渐进的,市场对英国央行行长贝利有关更快降息前景的言论反应过度。Ebury策略师马修•瑞安表示,皮尔的言论证实了市场对贝利讲话的理解过于…

OpenAI最新一轮融资中估值达1570亿

OpenAI 投资者 Khosla Ventures 表示,OpenAI 当前的公司架构不适合 IPO,但他不担心公司高管离职。据悉,OpenAI 在最新一轮融资中估值达1570亿美元,其团队仍然很强…

加密公司融资8.23亿美元,Celestia领跑

9月加密公司共融资8.23亿美元,涉及200家公司。Celestia以1亿美元的生态系统融资居首,Infinex通过公开代币销售筹集6500万美元紧随其后。战略融资占据主导地位,TON Foundat…

谷歌搜索集成 ENS 域名余额显示功能

10 月 9 日,谷歌搜索已集成 ENS 域名余额显示功能。目前在谷歌搜索中搜索 ENS 域名可查看 ETH 余额,援引的是 Etherscan 数据。2023 年 5 月份开始,在谷歌搜索以太坊地址…

机构在Babylon项目质押1亿美元比特币

数字资产托管商 Cactus Custody 宣布,其帮助机构用户在 Babylon 项目中质押价值 1 亿美元的比特币。通过其机构级 DeFi 连接器 Cactus Link,机构用户无需开发资源,…

法国托管银行推出数字资产托管架构

法国托管银行 CACEIS 宣布允许用户访问原生数字货币市场基金(MMF),标志着其推出新的数字资产托管架构。CACEIS 是法国农业信贷银行的子公司,桑坦德银行拥有其近 30%的股份。最近,CACE…