【论文速读】Agentic Reinforced Policy Optimization 论文速读:在TIR环境下基于熵进行控制的探索策略 2025-11-24 18:37 | 66 | 0 | 学术,论文速记 8766 字 | 38 分钟
【论文速读】Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? 论文速读:强化学习是否真的能激励超出基础模型的LLM推理能力? 2025-11-24 0:10 | 59 | 0 | 学术,论文速记 8386 字 | 37 分钟
【论文速读】Single-stream Policy Optimization 论文速读:单流策略优化 2025-11-20 21:26 | 66 | 0 | 学术,论文速记 8852 字 | 39 分钟
【论文速记】Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation 论文速记:基于难度的计算成本分配研究 2025-10-11 16:33 | 87 | 0 | 学术,论文速记 5247 字 | 22 分钟
【论文速记】RL Squeezes, SFT Expands: A Comparative Study of Reasoning LLMs 论文速记:不同训练方法塑造推理过程的方式差异 2025-10-01 22:30 | 101 | 0 | 学术,论文速记 4443 字 | 18 分钟
【论文速记】Subliminal Learning: Language models transmit behavioral traits via hidden signals in data 论文速记:关于蒸馏过程中模型行为的传递研究 2025-10-01 19:36 | 95 | 0 | 学术,论文速记 4791 字 | 19 分钟
【论文速记】Learning to Reason under Off-Policy Guidance 论文速记:LUFFY 2025-9-29 17:39 | 91 | 0 | 学术,论文速记 5355 字 | 23 分钟
【论文速记】On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting 论文速记:CHORD 2025-9-23 9:04 | 104 | 0 | 学术,论文速记 5176 字 | 21 分钟
【论文速记】Cautious Optimizers: Improving Training with One Line of Code 论文速记:一篇关于优化器优化方向的工作 2025-9-17 16:40 | 141 | 0 | 学术,论文速记 4459 字 | 20 分钟