远视台
  • 学术
    Liunanfu Learning Map论文速记Standford:CS106LUC Berkeley:CS61BCMU:15-213Andrej Karpathy:Zero to HeroMIT:6.S191西湖大学:强化学习
  • 文章
  • 归档
  • 关于
搜索
   
夜间模式暗黑模式
字体
阴影
滤镜
圆角
阳春白雪,和者盖寡 盛名之下,其实难副
    • 站点概览
    刘南府
    北京邮电大学-物联网工程
    77 文章
    13 分类
    0 标签
    GitHub
    RSS
    分类
    Andrej Karpathy:Zero to Hero 4CMU:15-213 2MIT:6.S191 6RL for LLM 0Standford:CS106L 6UC Berkeley:CS61B 15关于 5学术 64文章 8未分类 0杂记 17西湖大学:强化学习 4论文速记 9
    标签
    【论文速读】Agentic Reinforced Policy Optimization
    论文速读:在TIR环境下基于熵进行控制的探索策略
    2025-11-24 18:37
    |
    66
    |
    0
    |
    学术,论文速记

    8766 字
    |
    38 分钟
    【论文速读】Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
    论文速读:强化学习是否真的能激励超出基础模型的LLM推理能力?
    2025-11-24 0:10
    |
    59
    |
    0
    |
    学术,论文速记

    8386 字
    |
    37 分钟
    【论文速读】Single-stream Policy Optimization
    论文速读:单流策略优化
    2025-11-20 21:26
    |
    66
    |
    0
    |
    学术,论文速记

    8852 字
    |
    39 分钟
    【论文速记】Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation
    论文速记:基于难度的计算成本分配研究
    2025-10-11 16:33
    |
    87
    |
    0
    |
    学术,论文速记

    5247 字
    |
    22 分钟
    【论文速记】RL Squeezes, SFT Expands: A Comparative Study of Reasoning LLMs
    论文速记:不同训练方法塑造推理过程的方式差异
    2025-10-01 22:30
    |
    101
    |
    0
    |
    学术,论文速记

    4443 字
    |
    18 分钟
    【论文速记】Subliminal Learning: Language models transmit behavioral traits via hidden signals in data
    论文速记:关于蒸馏过程中模型行为的传递研究
    2025-10-01 19:36
    |
    95
    |
    0
    |
    学术,论文速记

    4791 字
    |
    19 分钟
    【论文速记】Learning to Reason under Off-Policy Guidance
    论文速记:LUFFY
    2025-9-29 17:39
    |
    91
    |
    0
    |
    学术,论文速记

    5355 字
    |
    23 分钟
    深海里的长夜短歌
    听华北浪革听的
    2025-9-27 23:38
    |
    108
    |
    0
    |
    文章

    1859 字
    |
    7 分钟
    【论文速记】On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting
    论文速记:CHORD
    2025-9-23 9:04
    |
    104
    |
    0
    |
    学术,论文速记

    5176 字
    |
    21 分钟
    【论文速记】Cautious Optimizers: Improving Training with One Line of Code
    论文速记:一篇关于优化器优化方向的工作
    2025-9-17 16:40
    |
    141
    |
    0
    |
    学术,论文速记

    4459 字
    |
    20 分钟
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 1
    • 2
    • 3
    • 4
    • 5
    Copyright ©2024-2025 版权所有 刘南府
    Theme Argon