这篇文章《StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets?》是一篇关于评估大语言模型在真实股票交易中表现的学术论文。以下是其核心研究内容的总结概括:
一、核心目标
论文旨在填补现有评估体系的空白,创建一个无数据污染、动态、真实的基准测试(名为 StockBench),以评估LLM智能体在现实世界多股票、长时间跨度环境中的盈利能力和风险管理能力。
二、解决的关键问题
现有金融基准测试(如FinQA)多是静态知识问答,无法反映真实交易中动态、连续决策的特性。本文提出的StockBench克服了以下三个缺陷:
- 非真实交互 → 改为模拟真实市场(价格、基本面、新闻)。
- 非连续决策 → 要求智能体在数月内每日做出买卖决策。
- 数据可能被污染 → 使用未来数据(2025年3-6月),确保模型训练时未见过测试数据。
三、StockBench的设计与构成
- 回溯交易环境:
- 投资标的:精选道琼斯工业指数中权重最高的20只股票,覆盖多个行业,代表性强且波动相对稳定。
- 数据源:包含每日的价格、基本面指标以及过去48小时内的新闻摘要。
- 时间窗口:使用2025年(未来)数据,严格避免训练数据泄露。
- 智能体工作流:
模拟散户投资者的决策流程,分为四个步骤:投资组合概览 → 深度股票分析 → 决策生成 → 执行与验证。
四、主要实验与发现
评估了包括GPT-5、Claude-4、Qwen3、Kimi-K2、GLM-4.5、DeepSeek等在内的多个顶尖开源和闭源模型,使用最终收益、最大回撤、索提诺比率三个关键金融指标。
核心发现如下:
- LLM智能体可以盈利,但难以稳定跑赢基准:大多数测试模型能够获得正收益,且风险控制能力普遍优于简单的“买入并持有”基准策略(回撤更小)。然而,在绝对收益上,多数模型并未显著或稳定地超越这个简单的被动策略。
- 静态金融知识 ≠ 动态交易能力:许多在金融QA测试中表现优异的模型,在实际交易任务中表现平平,说明掌握知识不代表能做好决策。
- 推理模型并非总是更优:专门为复杂推理(如数学、编程)优化的模型(如Qwen3-Think)在此交易任务中并未显示出明显优势,有时甚至不如同系列的指令调优模型。它们虽然算术错误更少,但更容易产生格式错误。
- 模型表现受多种因素影响:
- 投资组合规模:股票数量增加会降低所有模型的平均收益并增加波动性,说明可扩展性是挑战。
- 输入信息:移除新闻和基本面数据会导致模型性能显著下降,说明多模态信息整合至关重要。
- 市场环境:在市场下跌期,所有LLM智能体均未能击败被动基准;在上涨期,大多数则可以。这表明当前LLM智能体应对熊市的能力较弱。
五、主要贡献
- 提出新基准:首个专注于无污染、多股票、连续决策的LLM金融交易评估平台StockBench。
- 提供全面评估:设计了结合市场动态、多样化数据和严格金融指标的评估框架。
- 揭示关键洞见:通过大规模实验,系统性地揭示了当前LLM作为交易智能体的能力边界与核心挑战。
- 开源促进研究:公开了基准测试的代码和数据,以推动该领域的可重复性与未来发展。
这项研究证明,LLM已具备在真实市场中执行基本交易和风险控制的能力,但要成为持续稳定跑赢市场的成熟“基金经理”,仍有很长的路要走。StockBench的建立为后续研究提供了一个重要的测试平台,未来需要在智能体架构、对市场机制的深入理解以及应对不同市场状态的能力等方面进行更多探索。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看,如下所示:
官方项目主页地址在,如下所示:
项目地址在,如下所示:
大语言模型最近展现了作为自主智能体的强大能力,在推理、工具使用和序列决策方面表现出潜力。虽然先前的基准测试已在软件工程和科学发现等领域评估了LLM智能体,但金融领域尽管与经济价值和高风险决策直接相关,却仍未得到充分探索。现有的金融基准测试主要通过问答来测试静态知识,但未能捕捉交易的动态和迭代特性。为弥补这一空白,我们引入了StockBench,一个无污染的基准测试,旨在真实、多月的股票交易环境中评估LLM智能体。智能体接收每日市场信号——包括价格、基本面和新闻——并必须做出连续的买入、卖出或持有决策。使用累积收益、最大回撤和索提诺比率等金融指标评估性能。我们对最先进的专有模型(例如GPT-5, Claude-4)和开源模型(例如Qwen3, Kimi-K2, GLM-4.5)的评估表明,虽然大多数LLM智能体难以超越简单的买入并持有基准,但有几个模型显示出提供更高回报和更有效管理风险的潜力。这些发现凸显了开发基于LLM的金融智能体所面临的挑战和机遇,表明在静态金融知识任务上表现出色并不一定能转化为成功的交易策略。我们将StockBench作为开源资源发布,以支持可重复性并推动该领域未来的研究。
大语言模型(LLMs)催生了一波新的自主智能体,展现了在推理、工具使用和长程决策方面的强大能力 (OpenAI, 2024; Anthropic, 2025a; DeepMind, 2025; Liu et al., 2024; Guo et al., 2025b; Meta-AI, 2025; Yang et al., 2024a; Bai et al., 2025; OpenAI, 2025b)。这种智能体能力已在多个不同领域的基准测试中得到验证,例如软件工程 (Jimenez et al., 2024; Yang et al., 2024b)、科学发现 (Mialon et al., 2023) 和市场营销 (Chen et al., 2025; Barres et al., 2025),使用的都是最近先进的大语言模型,如GPT-5 (OpenAI, 2025a) 和 Claude-4 (Anthropic, 2025a),突显了它们在工作流自动化和提升生产力方面的前景。LLMs不断进化的智能体能力正将其应用推向现实世界的生产力和经济价值。
在各种智能体应用场景中,金融领域因其与经济价值的直接联系以及决策中涉及的高风险而脱颖而出 (Wu et al., 2023; Lee et al., 2024; Nie et al., 2024)。为了全面评估LLM智能体在金融领域的盈利能力和风险管理能力,一个理想的基准测试应遵循三个关键原则:
(1) 真实市场交互。 智能体必须在动态市场环境中操作,响应实时的价格变动和新闻事件。
(2) 连续决策制定。 智能体应在较长时间范围内做出连续的交易决策,反映投资策略的迭代特性。
(3) 数据无污染。 为确保公平评估,智能体在训练期间不得预先接触测试数据,这需要仔细的数据策划和时间分离。
然而,现有的金融智能体基准测试主要关注静态问答任务 (Chen et al., 2021; Zhu et al., 2021; Yin et al., 2023),这些任务旨在测试LLMs的金融知识覆盖范围,但未能反映实际的交易场景。尽管最近如INVESTORBENCH (Li et al., 2025a) 等努力向模拟交易环境迈进了一步,但这部分工作仅关注单只股票交易,且使用的是2021年之前的历史数据,引发了潜在的训练数据污染担忧。
为弥补这一空白,我们提出StockBench,一个不断演进的基准测试,将LLM智能体置于真实的股票交易环境中,直接衡量其盈利能力和风险管理能力。具体来说,StockBench旨在实现:
(1) 真实性。 智能体接收每日市场信号,包Agent 智能体括价格、公司基本面和新闻标题,反映真实世界的交易情境。
(2) 连续性。 智能体必须在数月的时间范围内做出连续的每日交易决策(买入、卖出或持有),反映投资策略的迭代特性。
(3) 无污染。 该基准测试使用2025年3月至2025年7月的最新市场数据进行实例化,并将持续更新以避免与当代LLMs的训练语料库重叠。使用累积收益、最大回撤和索提诺比率等关键金融指标评估性能,直接且定量地评估交易成功与否。
作为概念验证,我们评估了一系列多样化的LLM智能体,包括专有模型(例如,GPT-5 (OpenAI, 2025a), Claude-4 (Anthropic, 2025a))和开源模型(例如,Qwen3 (Yang et al., 2025), Kimi-K2 (Team et al., 2025), GLM-4.5 (Zeng et al., 2025)),以及一个等权重买入并持有的基准策略。令人惊讶的是,尽管这些模型在金融问答基准测试中表现出色,但大多数LLM智能体在累积收益和风险调整后收益方面都未能超越这个简单的基准。这一发现表明,在静态问答任务上的卓越表现不一定能转化为动态市场环境中的有效交易策略,突显了开发基于LLM的金融智能体所面临的一个关键挑战。
本研究的主要贡献总结如下:
- 我们引入了StockBench,一个在真实股票交易环境中评估LLM智能体的新型基准测试,直接衡量其盈利能力和风险管理能力。
- 我们设计了一个全面的评估框架,整合了真实的市场动态、多样化的输入数据和多种金融指标,以整体评估智能体性能。
- 我们通过将各种骨干LLM实现为股票交易智能体进行了广泛的实验,揭示了它们目前在实现盈利交易策略方面的局限性,并强调了该领域需要进一步进展。
- 我们将StockBench的实现开源,以促进可重复性并鼓励社区贡献,推动关于基于LLM的金融智能体的进一步研究。
表 1: StockBench 与现有金融基准测试的比较。
StockBench的构建包含两个主要组成部分。(1) 一个回溯交易环境,包含股票交易决策所需的历史数据。我们使用这个回溯交易设置来模拟真实世界的股票交易。(2) 一个相关的股票交易智能体工作流。这个工作流使我们能够将骨干LLM作为智能体来评估,使其参与回溯交易环境。StockBench的总体框架如图1所示。
2.1 回溯交易环境
我们设计回溯交易环境以模拟真实的股票交易,其中交易智能体在每个决策时刻只能接触到截至该时刻可获得的数据。为设置该环境,我们确定了交易决策的三个关键信息来源:(1) 一组投资标的,定义了环境的范围。我们预先定义了这些投资标的,以便于在StockBench上进行可重复的评估。(2) 历史市场数据,包括价格和基本面指标。这些数据使被评估的交易智能体能够进行定量分析。(3) 新闻语料库,捕捉驱动股价波动的事件。下面我们详细说明数据收集过程。
投资标的。 投资标的是允许交易智能体执行买入和卖出操作的一组股票。我们手动选择StockBench中的投资标的,以防止由股票选择引起的潜在结果波动——例如,否则交易智能体可能恰好选中一只受非理性市场情绪驱动的股票——从而稳定评估结果。
为此,我们从道琼斯工业平均指数(DJIA)中选择了权重最高的20只股票作为我们的投资标的。特别是,高权重的DJIA股票代表了全球股票市场,并且不易受到短期非理性情绪驱动事件的影响。将交易操作空间限制在我们选定的投资标的,既反映了现实世界中投资者的关注点,又保持了数据集在计算上的可处理性。此外,这些知名股票的信息透明且易于收集,可通过网络搜索引擎方便地获取。我们在图2中展示了所选投资标的在不同行业中的分布。我们的选择涵盖了技术、金融和制造业,确保了股票的多样性。
图 1: StockBench概述。StockBench的设计包括一个回溯交易基准数据集,以及一个将骨干LLM转换为智能体的相关工作流。
图 2: 所选股票的行业分布。
历史市场数据。 我们收集并保存包含关键定量信息的历史市场数据。对于每只股票,我们使用官方开盘价以及一组简洁的基本面指标,如市值、市盈率、股息率和交易区间。这些信号提供了公司健康状况和估值的可靠快照,支持知情决策。我们还保留了所收集数据的时间戳,以防止任何未来信息泄露给智能体。
新闻语料库。 我们为股票构建新闻语料库,使股票交易智能体能够解释情绪和事件,其方式类似于散户投资者对市场叙述的反应。对于每只股票,我们每天收集过去48小时内发布的新闻文章。这些文章是通过具有时间限制的新闻搜索API¹检索得到的。由于新闻分析会消耗骨干LLMs大量的上下文长度,我们通过保留搜索引擎每次返回结果中最相关的五篇新闻文章来平衡信息覆盖范围和计算成本。
我们还在回溯交易环境中仔细选择了数据收集的时间窗口。原则上,评估窗口应满足两个条件:(1) 包含的股票信息不得在被评估的股票交易智能体模型训练阶段暴露;(2) 窗口应足够长,以减轻仅影响短时间段的随机噪声的影响。为此,我们收集了从2025年3月3日到2025年6月30日的数据,这是一个四个月的时期,包含了波动和趋势反转。这一时期也处于主流LLMs知识截止日期之后,确保没有数据泄露。值得注意的是,我们将持续更新回溯交易环境,以避免与当代LLMs的训练语料库重叠。
2.2 股票交易智能体工作流
我们提供了一个股票交易智能体工作流,使骨干LLMs能够作为智能体与回溯交易环境交互。工作流的设计遵循两个目标。(1) 最小化工作流。我们保持工作流最小化,因为过于复杂的工作流会引入归纳偏置,可能偏袒某些骨干LLMs。(2) 真实性。我们将工作流设计得与散户投资者的迭代决策过程相一致。
具体来说,我们遵循先前的研究框架 (Zhang et al., 2020; Tsantekidis et al., 2017; Moody & Saffell, 2001; Deng et al., 2016),将股票交易工作流组织为四个基本阶段:投资组合概览、深度股票分析、决策生成、以及执行和验证。
总体而言,该设计优先考虑真实性、公平性和可重复性,这与先前关于交易环境基准构建的研究一致。
步骤 1: 投资组合概览。 智能体首先扫描市场中所有可用的股票(”投资标的”),接收每只股票的相关数据。这包括最近的新闻、智能体的当前持仓、历史操作以及开盘价。这一步模拟了交易者如何评估整个市场及其投资组合中每只股票的总体状况。
步骤 2: 深度股票分析。 在初步概览之后,智能体选择特定的股票进行更深入的分析。对于这些选定的股票,智能体将获得额外的基本面数据,如市值、市盈率和股息率。这一步模拟了交易者如何关注初步概览中确定的一部分股票,更深入地审查它们的财务状况和其他关键指标。
步骤 3: 决策生成。 在信息丰富的上下文基础上,智能体为每只股票生成决策,在三种可能的操作中选择:(1) 增持,(2) 减持,或 (3) 持有仓位。这些选项确保智能体的操作在散户投资者决策过程的限制内清晰、可操作且可执行。
步骤 4: 执行和验证。 最后,通过基于开盘价将美元目标转换为股份数量来执行决策。如果智能体的决策超出可用流动性,系统会标记问题并要求智能体修改其决策,直到能够在可用资源内执行为止。一旦验证通过,新的投资组合权重将被锁定,模拟进入下一天。
2.3 StockBench的特性
我们现在讨论StockBench的设计如何满足以下关键原则:
真实的市场交互。 回溯交易环境的设计通过三个关键要素模仿了真实世界的交易场景:(1) 精心挑选的一组投资标的,(2) 可靠的价格和基本面数据,以及 (3) 简洁而及时的新闻语料。这些要素确保智能体接触到反映真实交易环境复杂性的信息,同时避免不切实际或过于宽泛的输入。
连续决策制定。 在工作流中,智能体首先执行投资组合概览,然后进行深度股票分析,最后基于此分析生成每日交易决策(买入、卖出或持有)。这些步骤反映了散户投资者连续的决策过程,使智能体能够根据市场条件随时间调整其策略。
数据无污染。 我们确保智能体在训练期间没有预先接触过测试数据。为实现这一点,该基准测试使用最新的市场数据进行实例化,确保时间分离,并避免与当代LLMs的训练语料库有任何重叠。
在本节中,我们展示了在StockBench交易工作流中评估各种LLM智能体的实验设置和结果。我们描述了交易环境、选定的模型、基准策略和评估指标。然后我们分析性能结果,重点阐述关于LLM智能体在现实世界金融市场中能力的关键见解。
3.1 实验设置
我们详细说明了在StockBench交易工作流中评估LLM智能体的实验设置。具体来说,我们描述了交易环境、用于基准测试选定的模型、被动基准策略以及用于评估性能的指标。
交易环境。 选择道琼斯工业平均指数(DJIA)前20名的股票作为投资标的,确保跨行业多样性代表性。评估期从2025年3月3日至6月30日,为期四个月,涵盖82个交易日并捕捉了一系列市场状况。每个模型初始有100,000美元现金且零持仓,在每日市场开盘时做出交易决策。关键输入包括 (1) 过去七天内对所持股票的历史操作,(2) 过去48小时内最多五篇近期新闻文章,以及 (3) 对于选定的股票,基本面数据如市值、市盈率、股息率、52周高/低点和最近季度股息。
待评估的模型。 我们对一系列多样化的LLMs进行基准测试,包括开源模型如Qwen3 (Yang et al., 2025)²、DeepSeek (Guo et al., 2025a; Liu et al., 2024)、Kimi-K2 (Team et al., 2025)、GLM-4.5 (Zeng et al., 2025) 和 GPT-OSS (OpenAI, 2024),以及闭源API如OpenAI的O3 (OpenAI, 2025b)和Anthropic的Claude-4-Sonnet (Anthropic, 2025a)。这一选择涵盖了不同的架构、大小和训练方法,以评估跨不同LLM设计的通用性。所有模型都配备了32,768个令牌的上下文窗口,并使用官方推荐的设置进行解码,以确保其性能针对任务进行了优化。为获得可靠结果,每个LLM智能体将使用不同的随机种子运行三次,并报告平均性能。
被动基准策略。 作为参考点,我们实施了一个被动的等权重买入并持有策略,该策略在评估期开始时将初始资本平均分配给所有选定的股票,并保持这些仓位不变直至结束。这种简单的分配方式是投资组合研究中广泛接受的基准,反映了被动指数跟踪行为,并提供了一个稳健的下界,可与更复杂的主动策略进行比较 (DeMiguel et al., 2009; Duchin & Levy, 2009)。
评估指标
我们采用金融分析中三种广泛使用的衡量指标:
3.2 实验结果
表2展示了所有评估模型在四个月无污染期间内的性能。结果报告了三个关键指标——百分比收益、最大回撤和索提诺比率——以及从这些指标的综合z得分得出的总体排名。
以下是关键观察结果:(1) LLM智能体可以在现实世界市场中盈利交易。 大多数测试模型的表现优于被动的买入并持有基准策略,该基准策略实现了0.4%的微薄回报,回撤为-15.2%,索提诺比率为0.0155。有几个智能体实现了高于2%的回报,并且风险状况有所改善。(2) LLM智能体可以有效地管理下行风险。 所有测试模型的最大回撤均低于基准策略,表明它们能够减轻市场下跌期间的损失。表现最佳的智能体将回撤限制在约-11%到-14%之间,而基准策略为-15.2%。(3) 推理模型并不保证更好的性能。 尽管推理调优的模型如Qwen3-235B-Think和Qwen3-30B-Think在需要复杂推理(包括数学和编程)的任务中表现出色 (Yang et al., 2025),但在此交易任务中,它们并未始终优于指令调优的对应模型。例如,Qwen3-235B-Ins以较低的最大回撤(-11.2% 对 -14.9%)超越了其推理调优版本。这表明在金融市场等动态、嘈杂的环境中,推理能力和有效决策制定之间仍存在差距。
表 2: 测试模型在评估期内的性能。每个指标中的最佳性能以粗体标出。模型基于所有三个指标的z得分聚合进行排名。RT代表最终收益(%),DDN代表最大回撤(%)。
4.1 投资标的数量的影响
为了评估投资标的数量对智能体性能的影响,我们使用5、10、20和30只道琼斯工业平均指数成分股作为投资标的进行了每日交易任务,将任务重复三次并记录不同运行间的投资组合权重差异。结果显示,随着投资标的数量的增加,变异性也随之增加。
具体来说,如表3所示,(1) 可扩展性本质上具有挑战性。 所有评估模型都随着投资组合规模的增加而出现性能下降,表现为平均收益下降和收益波动性上升。这表明增加可交易资产的数量对LLM智能体而言并非微不足道的挑战。(2) 模型规模带来稳健性。 规模较大的模型Kimi-K2在面对投资组合扩张时表现出更强的稳健性,在适中的投资组合规模(例如10-20只股票)下保持相对稳定的风险-收益特征并实现正预期收益,而较小的模型GPT-OSS-120B则遭受严重的性能恶化和过度的变异性,这表明增加模型容量在多资产决策环境中增强了一般化和稳定性。
4.2 交易工作流中错误的影响
在交易过程中,智能体与环境的交互中会发生各种错误。最常见的两种错误是:(1) 算术错误,智能体在根据提供的预算和股价计算买卖股份数量时出错。(2) 模式错误,智能体未能遵守指定的JSON输出格式,导致解析失败。
表 3: 代表性模型(Kimi-K2和GPT-OSS-120B)在不同投资标的数量下的性能。结果以平均收益(% Mean)、收益标准差(% Std)和变异系数(CV)报告。
图 3: 思考模型 vs 指令模型按错误类型的分布(%)。
图3展示了这些错误在思考模型和指令模型中的发生频率。具体来说,我们观察到:与指令模型相比,思考模型表现出更低的算术错误发生率,这一观察结果与思考模型在数学推理等推理任务中的出色表现相一致 (Yu et al., 2025; Guo et al., 2025a; Yang et al., 2025)。然而,对于模式错误,思考模型比指令模型表现出更高的此类错误频率。这种差异与最近的发现一致,即推理模型往往过度思考并产生更复杂的输出,这可能导致偏离预期格式 (Fu et al., 2025; Li et al., 2025b)。
4.3 数据源消融研究
在我们的工作流中,LLM智能体主要依赖两种类型的信息源:新闻文章和基本面财务数据。这两种模态提供了互补的信号,新闻捕捉市场情绪,而基本面将模型锚定在关键的财务指标上。为了更好地理解它们各自的贡献,我们通过逐步移除这些输入进行了一项消融研究。
如表4所示,当我们移除新闻,然后移除基本面数据时,累积收益持续下降。这种行为符合我们的预期,即这两个信息源在指导交易决策中都扮演着重要角色。Kimi-K2模型在仅移除新闻时保持相对稳健,但当两种输入都缺失时,其性能会下降。相比之下,GPT-OSS-120B经历了更大幅度的下降,表明它更依赖新闻和基本面提供的明确信号。总体而言,这些发现突显了基于LLM的交易智能体能够整合异构输入,将新闻的文本信息与数字基本面相结合,以产生更明智、更有效的交易策略。
4.4 评估窗口的影响
一个好的交易模型应能随时间适应不断变化的市场状况。为了调查评估窗口的选择如何影响模型排名,我们使用两个不同的时间段进行了实验:一个下跌期(2025年1月至4月)和一个上涨期(2025年5月至8月),以Kimi-K2、DeepSeek系列模型、GPT-OSS系列模型和被动基准策略作为参考。通过此分析,我们旨在了解模型在不同市场状态下的表现,以及它们的盈利能力和风险状况是否相应变化。
图4展示了基于两个评估窗口累积收益的模型排名。值得注意的是,我们观察到模型排名在下跌期和上涨期之间发生了显著变化。例如,GPT-OSS-120B的排名从下跌期的底部上升到上涨期的顶部,表明它可能更适合看涨的市场条件。而Kimi-K2在两个时期内都保持了相对稳定的排名,表明其对市场波动的稳健性。这表明某些模型可能更适合特定的市场条件,这可能是由于其底层架构或训练数据所致。此外,我们还观察到,在下跌期间,所有LLM智能体都未能超越被动基准策略,而在上涨期间,大多数LLM智能体超过了基准策略。这表明LLM智能体可能在应对看跌市场时遇到困难,突显了一个未来需要改进的关键领域。
表 4: Kimi-K2和GPT-OSS-120B在三种输入设置下的累积收益(CR, %):完整输入(完整)、不含新闻文章(无新闻)、以及不含新闻和基本面数据(无新闻与基本面)。
图 4: 基于累积收益的模型性能排名,横跨两个评估窗口:下跌期(2025年1月-4月)和上涨期(2025年5月-8月)。
5.1 LLM智能体与通用基准测试
大语言模型已从强大的文本补全系统迅速发展成为能够推理、规划并与外部环境交互的自主智能体 (OpenAI, 2024; Anthropic, 2025a; DeepMind, 2025; Liu et al., 2024; Guo et al., 2025b; Meta-AI, 2025; Yang et al., 2024a; Bai et al., 2025; OpenAI, 2025b)。越来越多的共识认为,智能体行为代表了LLM发展的下一阶段,因为它将语言理解与现实世界的生产力和经济价值直接联系起来 (OpenAI, 2025a; Anthropic, 2025a)。在这种范式中,LLMs不仅根据其静态知识进行评估,还根据其持续感知、决策和行动的能力进行评估。
为了捕捉这些新兴能力,各领域引入了多种基准测试。例如,SWE-Bench (Jimenez et al., 2024) 和 SWE-Agent (Yang et al., 2024b) 针对软件工程任务,GAIA (Mialon et al., 2023) 专注于科学发现,而面向营销的基准测试如XBench (Chen et al., 2025) 和 Tau2Bench (Barres et al., 2025) 考察商业工作流。这些基准测试突显了LLM智能体在解决复杂多步骤问题和自动化工作流方面的前景。然而,尽管涵盖广泛,但现有的努力很少考察决策与可衡量的经济成果直接相关的领域,例如金融交易。
5.2 金融智能体与基准测试
由于金融领域与盈利能力、风险管理和高风险决策的直接联系,长期以来一直是LLM应用关注的领域 (Wu et al., 2023; Lee et al., 2024; Nie et al., 2024)。然而,大多数现有基准测试主要关注静态问答任务,例如FinQA (Chen et al., 2021)、TAT-QA (Zhu et al., 2021) 和 FinBench (Yin et al., 2023)。虽然这些任务对于评估金融推理和领域知识有用,但它们并未反映现实世界交易环境的迭代、动态特性。
最近的工作开始转向更真实的评估设置。例如,INVESTORBENCH (Li et al., 2025a) 引入了一个用于测试交易决策的环境,标志着朝着基于智能体的金融评估迈出了重要一步。然而,它主要考虑单只股票交易,并且依赖于截至2021年的历史数据,引发了关于范围和潜在数据污染的担忧。
相比之下,我们提出的基准测试StockBench是第一个将LLM智能体嵌入到真实的、多股票交易环境中,并带有持续更新的市场数据。通过要求智能体在较长的时间范围内做出连续的交易决策,StockBench直接评估盈利能力和风险管理能力。这种设置弥合了静态金融问答基准测试与现实世界投资策略实际挑战之间的差距,使得对基于LLM的金融智能体准备就绪度的评估更加忠实。
在这项工作中,我们引入了StockBench,一个设计用于在真实股票交易场景中评估LLM智能体性能的新型基准测试。通过模拟动态市场环境并要求在多个月的时间范围内进行连续决策,StockBench提供了一个全面的框架来评估盈利能力和风险管理能力。我们广泛的实验表明,虽然当前的LLM智能体能够盈利操作,但它们仍然难以持续超越简单的基准策略,突显了该领域仍然存在的挑战。
我们相信StockBench将成为研究社区的宝贵资源,推动开发能够驾驭复杂市场动态的智能、自主金融智能体的进一步进展。未来的工作将侧重于通过增加额外的市场场景来增强该基准测试,并探索新颖的智能体架构以提高交易性能。
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/237042.html原文链接:https://javaforall.net
