(SeaPRwire) – 这些任务类似于律师、医生、金融分析师和管理顾问赖以谋生的工作。其中一项任务是根据九项多媒体证据诊断一名六岁患者;另一项任务是就音乐家的遗产提供法律建议;第三项任务是对一家医疗技术公司的一部分进行估值。
Mercor声称向所有顶级AI公司提供“专家数据”,该公司表示已投入超过50万美元开发了200项任务,旨在测试AI是否“能在法律、医学、金融和管理咨询领域执行具有高经济价值的知识工作”。周三发布的成果(APEX)的合著者包括一位前McKinsey全球董事总经理、一位前Harvard Business School院长和一位Harvard Law School教授。Mercor表示,他们就各自领域的任务设计和范围提供了建议。该公司22岁的CEO Brendan Foody表示,APEX“专注于深入研究”。“我们如何才能非常全面地理解成为一名顾问、银行家、医生或律师意味着什么?”
为了创建这些任务,Mercor与白领专业人士签订了合同,这些专业人士的前雇主包括顶级银行(Goldman Sachs, JPMorgan)、咨询公司(McKinsey, Boston Consulting Group)、律师事务所(Latham & Watkins)和医院(Mount Sinai)。他们平均拥有7.25年的专业经验,Mercor支付给他们的报酬与他们之前声望极高的雇主具有竞争力。Mercor的网站宣传平均每小时81美元的费率,对于需要至少四年专业经验的“高级领域专家”,可达每小时200美元以上,相当于年薪约40万美元。
“从薪资角度来看,很难想象有比这更好的按小时计酬的工作了,”前Bank of America投资银行分析师Matt Seck说道,他受Mercor雇佣撰写与该报告中包含的金融任务类似的任务。
基准测试长期以来一直被用于评估AI能力,但直接量化AI模型从事经济上有用的工作的能力代表着一种“范式转变”,该论文的作者之一Osvald Nitski表示。在Mercor的基准测试中,“获得100%意味着你基本上拥有了一个可以随时发送任务的盒子里的人工分析师或助理,然后他们会按照合伙人、董事总经理或任何评分者的要求交付工作,”Nitski说。
这些模型尚未达到这个水平,但它们正在快速进步。OpenAI于2024年5月发布的GPT-4o在基准测试中得分35.9%。一年多后发布的GPT-5达到了64.2%,是基准测试中的最高分。在基准测试中获得64.2%并不意味着GPT-5交付了人类工作者64.2%的价值——论文作者写道,未能达到100%的工作“可能实际上毫无用处”。GPT-5在200项任务中只有两项获得了满分,一项在法律领域,一项在投资银行领域,Mercor表示,这些任务“主要涉及基本推理、简单计算和大量基本信息搜索”。
即使一个模型在Mercor的基准测试中达到100%,它可能仍然难以替代人类专业人士。Mercor基准测试中的任务侧重于“范围明确的交付物”,例如做出诊断或建立财务模型,而不是可能存在多个正确答案的更开放性任务。这要求任务描述包含确保所需输出明确的众多假设。AI的输出完全基于文本,这意味着基准测试不测试AI使用计算机的能力,而人类工作者则需要这种能力。(Mercor表示,APEX的未来版本将解决这些限制。)Seck表示,起草模型完成任务所需的冗长提示“会比自己做更繁琐”。
尽管如此,仍有迹象表明AI模型正在与人类竞争。OpenAI于9月25日(周四)发布的另一项基准测试显示,在220项任务中,包括设计房地产销售手册和评估皮肤病变图像,人类专家评估者有47.6%的时间更喜欢AI的工作而不是人类的工作。OpenAI还发现,其模型的表现短期内大幅提升,在2024年6月至2025年9月期间,它们相对于人类的“胜率”增加了一倍多。
随着模型能力的增长,它们所测试任务的复杂性以及创建足够具有挑战性任务所需的人类技能也随之增长。早期的测试衡量了在和问题上的相对抽象能力。2022年ChatGPT发布之前的基准测试,通常从众包服务获取数据,这些服务向工人支付每小时的费用。到2023年,博士生被雇佣来在生物学、物理学和化学领域创建具有挑战性的多项选择题。9月,xAI解雇了500名“通才”数据工作者,作为公司“专业”数据工作者“扩张和优先化”的一部分。诚然,低薪数据工作者对AI模型的开发有所贡献,但开发AI基准测试所需的技能和报酬上限正在迅速增加。
直接衡量AI模型在具有经济价值的任务上的效用“非常难以实现”,Nitski说。金融和咨询等领域的成功标准比软件工程等领域更难定义。即使手头有完美的标准,大规模标记AI的输出也比软件工程更难,因为软件工程中自动化测试可以检查一段代码是否正确运行。这部分解释了为什么旨在衡量AI模型实际效用的测试至少自2023年以来已在软件工程领域出现,但在其他白领领域却滞后。然而,随着AI的改进,它们帮助解决了复杂任务的评分问题。Mercor任务的成功标准由人类专家编写,但评分由AI完成,Mercor表示,AI与人类评分员的意见一致性达到了89%,有助于扩展评估规模。
开发基准测试不仅是为了了解模型的优劣。在AI领域,正如在商业领域一样,“衡量什么,就成就什么”——好的测试往往会促使AI在这些测试上取得进展。“评估和训练最终是相同的数据类型,”Foody说。评估在围棋等游戏中的表现是直截了当的;到2016年,AI已经击败了围棋大师。2023年,基准测试开始评估AI在软件工程中真实世界任务的表现。两年后,初级程序员的劳动统计数据变得令人怀疑。
“AI获得了博士学位,”Foody说。“现在它开始进入就业市场了。”
本文由第三方内容提供商提供。SeaPRwire (https://www.seaprwire.com/)对此不作任何保证或陈述。
分类: 头条新闻,日常新闻
SeaPRwire为公司和机构提供全球新闻稿发布,覆盖超过6,500个媒体库、86,000名编辑和记者,以及350万以上终端桌面和手机App。SeaPRwire支持英、日、德、韩、法、俄、印尼、马来、越南、中文等多种语言新闻稿发布。