n是火线,l是零线吗


n是火线,l是零线吗  

近日,在大型语言模型(LLMs)竞争愈发激烈的背景下,「推理能力」已成为评判模型优劣的关键指标之一。在众多表现惊艳的模型中,如OpenAI的o系列、Anthropic的Claude和DeepSeek-R1等,测试时缩放(TTS)技术发挥了重要作用。

研究表明,TTS在计算效率上优于预训练阶段扩大模型规模,能以更低的资源成本实现更好的性能。TTS依赖于预训练知识,面对未标注新数据或输入分布变化时,泛化能力受限。例如,OpenAI o3在某基准任务上虽然达到75.7%的成功率,但面对更复杂的新任务,解决率仅4%。

为了克服TTS的局限,测试时训练(TTT)一度受到广泛关注。TTT通过测试阶用强化学习(RL)等技术动态更新模型参数,使模型适应新数据或任务,弥补了TTS在泛化能力上的不足。TTT同样面临挑战:测试阶段缺乏奖励函数或验证信号,人工标注数据的高成本使得无监督环境下的RL应用受限。

最新的一篇论文中,清华大学和上海人工智能实验室提出了一种新方法——测试时强化学习(Test-Time Reinforcement Learning,TTRL)。该方法能够在无标注数据上对LLM进行强化学习训练。论文标题为:TTRL: Test-Time Reinforcement Learning。

论文提出一种利用预训练模型中的先验知识,使LLM具备自我演化的能力。实验证明,TTRL在多种任务和模型上都能持续提升性能:在仅使用未标注测试数据的情况下,TTRL将Qwen-2.5-Math-7B在AIME 2024任务中的pass@1指标提升了约159%。

方法

图2展示了研究者如何应对此类挑战。给定状态表示为输入提示x(prompt x),模型依据参数化策略_(y | x)生成输出y。为了在无真实标签的条件下构造奖励信号,研究者通过重复采样的方法,从模型中生成多个候选输出 {y₁, y₂, ..., y_N}。接着,使用多数投票(majority voting)或其他聚合方法从这些候选中推导出共识输出y,作为近似的最优动作的替代。

环境反馈的奖励r (y, y)则根据当前动作y与共识输出y之间的一致性进行设定。模型的RL目标是最大化期望奖励,并通过梯度上升更新参数。该方法能够在推理阶段实现模型的动态适应,无需标注数据即可提升模型应对分布变化输入时的性能。

实验

  n是火线,l是零线吗