IT之家11月4日报道,美国研究机构Nof1近日开始实际市场测试。他们分别向六大人工智能大型语言模型(LLM)注入了 10,000 美元的种子资金,使它们能够在现实市场中自主交易。今天第一届阿尔法竞技场正式宣布结束。阿里巴巴的同易钱文Qwen3-Max在最后时刻保持领先,以22.32%的回报率夺得投资冠军。 Alpha Arena的目标是在动态且竞争的现实环境中测试这些模型在“量化交易”领域的能力。尽管AI模型能够完成指定的任务,但研究人员观察到,模型在风险管理、交易行为、仓位久期、方向偏好等方面表现出显着差异。研究团队强调,这不是“选择最强模型”,而是将AI研究从静态、考试-ype 基准测试考虑“现实世界”和“实时决策”。实验设计中每个模型的初始资金为10,000美元(IT商会注:当前汇率约为71,218人民币),用于在Hyperliquid交易平台上交易加密货币永续合约(包括BTC、ETH、SOL、BNB、DOGE和XRP)。该模型只能根据数字市场数据(价格、交易量、技术指标等)做出决策,并且不允许访问新闻或时事。每个模型的目的都是“最大化PnL(利润和损失)”,并提供夏普比率作为风险调整指标。交易行为被简化为买入(多头)、卖出(空头)、持有和平仓。 TodB两种型号使用相同的信号词(指示)、相同的数据接口并且没有特定的设置。初步结果报告指出,虽然每个模型的运作结构相同,但交易风格存在明显差异、风险偏好、持仓期限和交易频率。例如,某些模型缩短(短路)的频率较高,而另一些模型则缩短的频率较低。不客气。有些型号维护时间较长,销售不频繁,而另一些则销售频繁。关于数据格式敏感性,该团队指出,将消息的“数据顺序”从“新→旧”更改为“旧→新”可以修复某些模型中因误读数据而导致的错误。该研究还指出,该测试有许多局限性。样本有限、交付周期短、执行时间短、模型历史未经测试以及缺乏累积学习能力。该团队表示,下赛季将引入更多的控制、更多的功能和更强的统计能力。意义和讨论该项目试图回答一个基本问题:“一个仅依赖于数值数据输入、无需特定调整的大规模语言模型能否充当零样本系统?通过这个实验,Nof1旨在加速人工智能研究向“进行现实的、动态的、基于风险的基准测试”而不是简单的静态数据集转变。尽管实验尚未得出“哪个模型最强”的结论,但很明显,即使是最先进的LLM在真实交易中仍然面临着许多挑战,例如“采取行动”、“风险管理”、“了解条件市场”和“即时格式的敏感性”。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。