人工智能代理是否已为工作场所做好准备?一项新的基准测试引发了人们的质疑。
2026-01-23 05:50:20
作者:佚名
来源:本站整理
0 阅读
来自训练数据公司Mercor的一项最新基准测试表明,人工智能模型在应对现实世界中的白领工作任务时仍然面临挑战。这项名为Apex-Agents的测试基于咨询、银行和法律等行业的实际工作数据,结果显示,即使是Gemini 3 Flash和GPT-5.2这样的顶级模型,在大多数查询中也表现不佳,准确率低于25%。关键挑战在于多领域信息检索,而这正是人类的核心技能。研究人员注意到人工智能技术正在快速进步,但最终得出结论:人工智能尚未做好取代专业人士的准备。
免责声明:
本文仅为提供市场讯息,所有内容及观点仅供参考,不构成投资建议,不代表本站观点和立场。
投资者应自行决策与交易,对投资者交易形成的直接或间接损失,作者及本站将不承担任何责任。