AI能取代金融分析师?Vals AI新版测试全军覆没,GPT 5.5准确率勉强过半

2026年05月14日 17:54快讯11
据动察 Beating 监测,AI 评测机构 Vals AI 发布了第二代金融智能体基准测试(Finance Agent v2)。这是一个模拟初级金融分析师工作流的端到端测试,包含 927 道专家审核问题。新版测试的难度大幅飙升,GPT 5.5 仅以 51.76% 的准确率登顶,与 Claude Opus 4.7(51.51%)和 Claude Sonnet 4.6(51.03%)的比分极度胶着。 与单轮问答不同,该测试要求模型在数百页的 10-K 和 10-Q 财报中自主寻找相关段落,处理跨年份财务报表调整,并带着精确的中间数字完成多步计算。Vals AI 透露,如果采用「必须完全答对」的严格评分标准,所有前沿模型的准确率全部跌破 40%;在最难的「财务建模」和「先例分析」类别中,最高分仅有 23%。 在其他模型方面,Kimi K2.6 以 44.87% 排在第五,是得分最高的国产模型;紧随其后的是 GLM 5.1(44.79%)和 DeepSeek V4(44.08%)。此外,官方将「最快速度」标签授予了 Claude Opus 4.7(单次耗时 360 秒),GLM 5.1 则拿下了「最省预算」标签(单次成本 0.62 美元)。 这次测试得分的集体下挫(上一代测试中 Opus 4.7 得分为 64.4%)证明了一点:目前的 AI 已经可以搞定简单的检索,但在需要遵守特定行业惯例、且对数字精准度要求极高的金融深水区,还远远无法取代人类分析师。

免责声明:本站所有资讯仅代表作者个人观点,不构成任何投资理财建议。

本文链接:https://coin123.link/post/1463.html

相关文章

人工智能可能对就业产生负面影响

美联储理事库克在以人工智能为主题的会议开幕致辞中未提及货币政策或经济前景,但他表示人工智能可能对就业产生负面影响,尽管乐观认为人工智能可以提升生产力。…

10月30日将解锁 1.75 亿枚 TIA 代币

数据显示,10 月 30 日模块化区块链 Celestia 将有超 1.75 亿枚 TIA 代币解锁,解锁量在 TIA 总供应量占比高达 17.68%,价值约 10.8 亿美元。此前消息,9 月 24…

集成 Chainlink 储备证明以防止漏洞利用

Chainlink 在 X 平台发文宣布,在因安全漏洞攻击后,Bedrock 将集成 Chainlink 的储备证明,以原生保护铸造功能并帮助防止未来的漏洞利用。Chainlink 储备金证明将为 B…

DIA宣布与Termina合作扩展SVM生态系统

9 月 28 日,预言机项目 DIA 宣布与首个 SVM 即服务平台 Termina 达成合作。Termina 利用 Solana 虚拟机 (SVM) 的强大功能,通过专用的区块空间和吞吐量来扩展生态…

比特币是当前市场上最明显的增值资产

资产管理公司VanEck首席执行官Jan Van Eck在接受CNBC采访时表示,比特币是当前市场上最明显的增值资产。他强调,比特币的增值和成长空间将与黄金具有同等重要性。Jan Van Eck提到,…

台湾计划2025年试点银行加密托管服务

台湾金融监督管理委员会(FSC)准备启动加密托管服务的机构试点。中央通讯社10月8日报道称,FSC计划在2025年第一季度开始收集申请。目前已有三家台湾私人银行表示有兴趣试点加密托管业务。金管会指出,…

比特币期货未平仓的合约创出历史新高

10 月 16 日,K33 Research 高级研究员 Vetle Lunde 表示,CME 比特币期货未平仓合约昨日创下名义历史新高,达到 172,430 BTC。随着未平仓合约的大幅增加,期货溢…

设定以太坊达到 100,000 TPS 的目标

以太坊联合创始人 Vitalik Buterin 在周四的博客文章中设定了以太坊达到 100,000 TPS 的目标。Buterin 表示,这一目标将通过 Layer 2 的集成实现,但首先需要进行标…

俄罗斯反洗钱系统会继续有效的运作

俄罗斯联邦金融监督局(Rosfinmonitoring)强调,即便金融行动特别工作组(FATF)将俄罗斯列入黑名单,其反洗钱系统依然会继续有效运作。该监管机构表示,俄罗斯在三项 FATF 建议的评级上…

过去七天内比特币的价格上涨约13%

过去七天内,BTC 价格上涨约 13%。特朗普承诺将美国打造成全球加密货币中心,与民主党对手哈里斯展开激烈竞选。Polymarket 平台上,特朗普的胜率升至 60%,哈里斯降至 40%。Predic…