Hip Crazy 发布者:奥菲斯量子比特 | QbitAI公众号NeurIPS 2025最佳论文奖和时间测试奖提前揭晓!今年有四篇最佳文章,其中三篇来自中国作者。阿里巴巴Qwen的Gated Attention Award还颁发了三项最佳文章奖。这七篇文章重点关注扩散模型理论、自监督强化学习、大规模语言模型的注意力机制、大规模语言模型的推理能力、在线学习理论、神经尺度定律以及语言模型的比较多样性测试方法等领域的创新发展。此外,2015年,任少卿、何凯明、Ross Girshick、孙健团队提出的Faster R-CNN深度学习模型获得了Time Test奖。使用更快的 R-CNN 解决目标检测口号问题。目标检测任务不仅需要知道图像中有哪些对象(分类),还需要知道这些对象在哪里s 在图像中(定位)。它的名字“Faster”就已经表明了它最大的贡献:显着提升目标检测的速度,真正实现近实时的端到端检测。 Top 4 论文,3 位中国作者 1. “Artificial Hivemind: The Open Homogeneity of Language Models (and Beyond)” 第一篇论文由华盛顿大学的 Liwei Jiang 撰写。本研究关注开放生成任务中大规模语言模型多样性问题,提出“Artificial Hivemind”的概念。主要发现是当前的大型模型具有显着的模型内重叠和模型间同质性。单一模型产生的响应类似于minesma公开咨询,并且不同的模型(开源或闭源、不同规模)也趋向于类似的结果。即使使用 min-p 和其他增强多样性的解码策略,超过 60% 的响应相似度也超过 0.8。例如,对将句子嵌入减少到二维后,使用主成分分析(PCA)对查询“写一个关于时间的隐喻”进行聚类。不同系列和尺寸的 25 个模型产生了 50 个响应,p-top=0.9,温度=1.0。所有答案仅形成两个主要组:“时间是一条河”和“时间是一块布”。为了支持这项研究,作者创建了 INFINITY-CHAT 数据集,其中包含 26,000 个现实世界的开放式查询,涵盖创意内容生成、头脑风暴和尖锐问题等六大类中的 17 个子类别。ophics,并收集了 31,250 个人工注释,形成了第一个系统评估开放式查询的资源。同时,本研究还发现,现有的大规模模型、奖励模型和大规模模型评估器与人类评分的协调性较差,在评估人类偏好差异较大且 q 相似的开放式响应时,难以捕获多种人类偏好。的品质。本文基于大量实验(涉及70多个模型),验证了“人工群体思维”的普遍性,讨论了人类思维同质化的潜在风险,为未来发展更加多样化、更好适应人类多样化需求的人工智能系统提供了基准和方向。他们还指出了该研究的缺陷,例如数据集语言的限制以及创意表达的简化方面。 2. 论文《Gated Attention in Large-Scale Language Models: Nonlinearity, Sparsity, and Attention Sink-Free》的共同作者为阿里巴巴Qwen团队的Zihan Qiu、Zekun Wang、Bo Cheng和爱丁堡大学的Zeyu Huang。在本文中,我们重点关注大规模语言模型中的封闭注意力机制。 30 个模型变体 150 亿混合专家 (MoE) 和 3.5 万亿代币数据集上的 17 亿通过在密集模型上进行大量实验,系统地研究了门增强的 softmax 注意力的效果。我们研究的核心是,我们发现在缩放产品注意力(SDPA)之后应用头部特定的 sigmoid 激活可以不断提高模型性能,同时提高训练稳定性,实现更高的学习率并改善缩放特性。这种激活机制的有效性取决于两个重要因素。一是在softmax注意力低范围映射中引入非线性,二是使用依赖于查询的稀疏门得分来调整SDPA输出。这种稀疏激活不仅缓解了大激活和注意力下降的问题,将针对第一个 token 的平均注意力比例从基线模型中的 46.7% 降低到 4.8%,而且还提高了长上下文外推的性能,在 RULER 基准上实现了 10 多点的提升。本实验还比较了不同的效果不同的门位置、粒度、共享方法、动作格式和激活函数,并确认SDPA的元素级门输出是最优的,头部特定门比共享头部门更有效,乘法门比加法门更好,并且sigmoid激活函数具有最好的性能。此外,这种激活机制对 MoE 和密集模型都有效,可以支持具有更高学习率和批量大小的稳定训练,并且即使上下文长度扩展到 128k 也能保持良好的性能。相关代码和模型已公开,核心设计也应用于Qwen3-Next模型。 3. 论文《1000-Layer Networks for Self-Supervised RL: Depth of Scaling Enables New Capativity to Achieve Objectives》的主要作者是普林斯顿大学 OpenAI 研究员 Kevin Wang。在本文中,我们重点解决强化学习中的模型缩放问题并讨论了 autosup 强化学习性能的重要影响。ervised。我们研究了网络深度作为关键因素的影响。近年来,2-5在RL领域已被普遍使用。表层架构不同。研究团队将网络深度增加到1024层,结合自监督RL算法(Contrast RL、CRL)、GPU加速框架、残差连接、层归一化、Swish激活等架构技术,在建立无监督目标条件下进行实验,无需演示或奖励。这些实验涵盖了运动、导航和机器人操纵等各种任务。结果表明,增加网络深度使CRL算法的性能提高了2到50倍,在一半的环境下实现了20倍以上的性能跳跃,优于传统的目标条件基准算法诸如 SAC 和 TD3+HER 之类的算术,在 10 项任务中的 8 项中。增加深度不仅可以提高任务成功率,还可以引起行为的质变。当达到一定的临界深度(例如蚂蚁大迷宫的第 8 层,人形 U 迷宫的第 64 层)时,智能体将获得新的能力(例如人形机器人爬墙、坐着和移动等)。这项研究还表明,深度缩放比宽度缩放在计算上更高效(参数和计算的增加更慢),并且与批量大小缩放协同工作。同时,演员-评论家网络深度的联合拓展使得他们能够优势互补,提高各自的表现。深度网络通过提高对比表示能力、优化搜索效率与表示效率的协同、以及重点州区域表示能力的合理配置等机制实现性能提升,同时也提高了网络性能。e 组合泛化任务的性能。此外,研究发现深度扩展的好处主要体现在在线强化学习场景中,而在离线环境中效果有限。只有像CRL这样的自监督算法才能有效地利用深度扩展,而传统的TD算法很难从中受益。本文提供了详细的实验验证,通过架构消融和机制分析,我们提供了扩展 RL 的新范式,同时指出了计算成本高等局限性。 4. 论文《Why Diffusion Models Don’t Remember: The Role of Implicit Dynamic Regularization in Training》的共同作者是巴黎高等教育科学研究所的 Tony Bonnaire 和 Raphaël Urfin。本文深入研究扩散模型的核心机制,重点关注训练动态中隐含的动态正则化效应,避免记忆训练数据ta 并实现泛化。文章首先指出,扩散模型适用于图像、音频、视频和其他生成任务,但一个关键挑战是理解阻碍记忆和确保泛化性的机制。在这项研究中,我们通过大量的数值实验和理论分析确定了两个主要的训练时间尺度。一是泛化时间,即模型开始产生高质量样本所需的最短训练时间。这个时间与训练集的大小无关。另一件事是你的记忆时间。此后,模型开始记住训练数据,并且该时间随着训练集的大小线性增加。随着训练集大小的增加,这两个时间尺度形成的泛化窗口变宽。只要训练停止在泛化窗口内,模型就可以有效地泛化。无限训练时间的过度拟合只会消失训练集有效且训练集大小超过模型相关阈值。这一发现表明,即使在高度过度参数化的场景中,隐式动态正则化也允许扩散模型避免记忆化。从实验验证的角度来看,本研究以CelebA人脸数据集为对象,将图像转换为降尺度的灰度图像,利用U-Net架构构建分数模型,并通过改变训练集的大小和模型参数的数量(通过调整U-Net的基宽)进行实验。结果表明,泛化时间在不同的训练集大小上基本稳定,并且记忆时间随着训练集的增加而线性增加,表明模型容量影响两个时间尺度(更多的参数表明更快的泛化和记忆)。同时,我们排除了因数据重复而导致记忆的可能性,并证明了这一点。记忆的丧失是由丢失情况的本质变化引起的。在理论分析层面,研究利用随机特征的神经网络模型结合静止高维摩擦下的随机矩阵理论等工具来分析训练动态。结果表明,训练动态的时间尺度与随机特征相关矩阵的特征值的逆有关。在过参数化场景中,出现两个独立的特征值区间,分别对应于泛化时间尺度和内存时间尺度。泛化阶段取决于数据之间的协方差,与特定数据集无关,而记忆阶段则与数据集相关的高频特征有关,进一步证实了实验中观察到的规则。此外,文章还讨论了优化器的影响、条件生成场景的扩展等,并指出了该研究存在局限性,例如缺乏对更广泛的模型参数范围的充分探索,以及缺乏对生成条件对时间尺度的具体影响的详细分析。 Faster R-CNN 荣获时间测试奖。 Faster R-CNN目标检测框架的主要创新在于引入了区域提议网络(RPN)。通过与检测网络共享完整的图像卷积能力,解决了传统目标检测中区域提议计算耗时的瓶颈问题,实现了高效、高精度的目标检测。作为一个全卷积网络,RPN 可以同时预测每个特征图位置的目标边界框和目标得分。其设计的“锚点”机制通过3尺度、3纵横比参考系支持多种尺度和形状,无需图像金字塔或pifilter阵列。可以覆盖任何尺寸的镜片。它有转变保持不变性且参数规模比MultiBox等方法小很多,有效降低了过拟合的风险。在本文中,我们设计了一种结合分类损失(对数损失)和回归损失(软L1损失)的多任务损失函数,并通过四步交替训练策略将RPN和Fast R-CNN集成到统一网络中,实现卷积特征共享。 RPN 起到向检测网络指示感兴趣区域的注意力作用,Fast R-CNN 负责对建议区域进行准确分类和边界框校正。在实验验证方面,该框架在 PASCAL VOC 2007、2012 和 MS COCO 等数据集上实现了最先进的检测精度,并且使用 VGG-16 模型(仅 300 个建议区域)在 GPU 上实现了 5 fps 的帧速率(包括所有 pasos)。它优于传统的选择搜索(2000 个建议),并且计算建议只需要 10 毫秒。在ILSVRC 和 COCO 2015 比赛中,Faster R-CNN 和 RPN 成为多赛道锦标赛解决方案的基础。此外,论文还通过消融实验验证了锚点设置、损失函数平衡参数等超参数的鲁棒性,比较了一阶段检测框架和两阶段检测框架的优缺点,表明两阶段架构在准确率方面更优。我们还研究了大规模MS COCO数据集的迁移和增强对PASCAL VOC任务的影响,并通过跨数据集预训练实现了检测精度的显着提高。该框架不仅没有为实时目标检测提供实用的解决方案,其共享特性和锚点机制也极大地影响了计算机视觉多个领域的后续发展,例如3D目标检测和实例分割。阿索引用的代码可供学术界和工业界公开使用。 [1]https://blog.neurips.cc/2025/11/26/paid-the-neurips-2025-best-paper-awards/[2]https://blog.neurips.cc/2025/11/26/announcement-the-test-of-time-paper-award-for-neurips-2025/
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。