响应式网站简单模板建设旅游网站的目标

张小明 2025/12/31 17:00:14
响应式网站简单模板,建设旅游网站的目标,asp 该网站正在进行维护.,北京网站设计制作飞沐本文系统梳理了大模型强化学习算法演进脉络#xff0c;从经典PPO开始#xff0c;到GRPO、DAPO、GSPO#xff0c;再到最新SAPO。详细解析了各算法的核心原理与优化点#xff1a;PPO的clip约束确保策略稳定更新#xff1b;GRPO通过采样省去Value Model#xff1b;DAPO引入不…本文系统梳理了大模型强化学习算法演进脉络从经典PPO开始到GRPO、DAPO、GSPO再到最新SAPO。详细解析了各算法的核心原理与优化点PPO的clip约束确保策略稳定更新GRPO通过采样省去Value ModelDAPO引入不对称clip提升训练效率GSPO将importance ratio提升至序列级别SAPO采用soft gate实现平滑过渡。这些算法不断优化训练的稳定性与效率共同构成了大模型强化学习的完整技术栈。本文面向已了解强化学习中策略梯度policy gradient、优势函数advantage、重要性采样importance sampling等概念的读者重点对大模型强化学习主流算法做一条线的梳理与比较。强化学习 (RL, Reinforcement Learning) 已成为大模型后训练必不可少的环节。本篇将介绍PPO, GRPO, DAPO, GSPO, SAPO等大模型主流强化学习算法在此之前我先简短回答几个问题让大家对强化学习在大模型训练中有更直观、全面的认识•一般情况下强化学习训练前为何要先进行监督微调SFT, Supervised Finetuning•为什么强化学习训练在大模型领域是重要的首先大模型在前期会使用大量文本进行自监督self-supervised预训练文字接龙这个阶段决定了模型能力的上限模型在过程掌握大量知识但缺乏指令遵循能力。此时直接进行 RL 训练会导致大部分采样样本没有奖励信号训练效率低下为提高训练效率SFT 训练能快速提升模型指令遵循的能力提高 RL 阶段的训练效率。SFT 相当于 RL 训练前的 warm start。这时大家会好奇既然 SFT 能提升指令遵循能力为什么不直接使用 SFT 就完事了非要加入 RL训练呢这是因为 SFT 训练大模型容易导致过拟合以数学推理任务为例SFT 会直接强迫模型输出分布与标准解题过程一致这可能导致模型仅学会了 “模仿” 解题过程的输出风格但没有学会真正的数学解题能力。另一方面SFT 训练并非渐进式的以数学推理任务为例训练初期若训练样本中包含难度较高的数学问答样本模型因推理能力有限会倾向去 “背题memorize” 而非 “理解题目”这类样本产生的梯度会严重损害模型泛化能力反观 RL 训练使用渐进学习策略训练样本通过模型采样生成这能保证训练样本 (prompt response) 与模型分布间差距不大模型能理解当前能力所及的题目而不是去 “背题”。具象一点说SFT 更像是老师给学生“灌输”知识学生能在短时间内学会一套解题套路但模型尚未将这些知识完全内化成能力。RL 则更像是学生在老师布置的题库上不断做题、订正和反思解题方法是模型自己采样出来的分布始终贴着模型当前能力从而在“做题—反馈—调整”的循环中逐步把知识沉淀为真正的能力。下面我将按照技术发展脉络依序介绍大模型主流强化学习方法。从最早的 PPO 出发依次经过 GRPO、DAPO、GSPO再到最新的 SAPO每一个方法都在前一代技术的基础上改进与演化。PPO (Proximal Policy Optimization)旧策略采样 clip 约束的新策略更新PPO 是经典的强化学习算法通过旧策略采样轨迹来估计新策略的梯度这种方法必须保证新、旧策略分布差距不大否则估计新策略的梯度会失准会使用hard-clipping技巧避免新、旧策略分布差距过大PPO公式如下其中 为序列的Advantage, 分别为新、旧策略。 随 的变化如下图当 时策略梯度会迫使 importance ratio变大即提高当前token类别的输出概率。当 importance ratio 大于 时策略梯度为0避免新、旧策略分布差异过大 时同理可推。PPO 训练流程如下1、采样轨迹 (Rollout)通过模型生成当前批次 prompt 的 response2、奖励计算 (Reward)对生成的 response 进行 sequence-level reward 计算可通过 Reward model 预测或基于规则的方式计算奖励3、计算ValueValue Model 估计每个response token的价值 (Value)即截止到当前response token未来生成完整个response的期望奖励回报估计4、计算token-level advantage通过 GAE (Generalized Advantage Estimation算法如下) 分配 advantage 给每个 token形成 token-level 的监督信号5、Value Model 梯度更新6、策略梯度更新。GRPO (Group Relative Policy Optimization)丢掉 Value Model通过采样同一 prompt 下的样本组来估计 advantagePPO与GRPO的对比GRPO舍弃了Value Model通过采样来估计 empirical-based advantage降低资源开销。PPO 存在以下几点缺点1、需同时训练 Value Model造成额外计算与资源开销2、Advantage 估计依赖 Value Model导致训练稳定性受到影响PPO 的 token-level advantage 估计来自 Value Model 的预测值因此Value Model 的训练品质会直接影响 advantage 的准确性。一旦 Value Model 的估计不稳定就会使得策略模型训练变得高度不稳定。GRPO 巧妙避开Value Model的估计其核心想法是通过多次轨迹采样来估计 advantage。给定一条promptGRPO算法会采样该条 prompt 的 G 条轨迹 并计算对应的奖励 GRPO 直接使用(这个advantage会平均分配给response的每个token)。GRPO 的目标函数如下GRPO 保留了 KL divergence项避免模型因reward hacking导致模型崩塌。DAPO (Dynamic Sampling Policy Optimization)在 GRPO 的框架上通过不对称 clip、动态采样、token-level loss 等技巧缓解训练效率和稳定性问题DAPO是字节跳动提出针对GRPO的一系列改进方法分为以下几个方面Clip HigherGRPO存在Entropy Collapse问题即训练早期模型输出分布的Entropy快速下降这会抑制模型探索能力 (exploration) 导致empirical-based advantage计算为0降低训练效率。Entropy Collapse源于GRPO的 clip 设计考虑 情况由于PPO算法只会在 情况下才会提高 的概率因此当 接近 0 时 提升幅度十分有限相反若 较大 提升幅度将相当可观结果就是原本概率大的 token 反而越容易被进一步放大而那些原本概率很小但 advantage 为正的 token 几乎得不到提升从而明显削弱了模型的探索能力。通过提高 clip 的上界有效缓解了 Entropy Collapse 的发生。Dynamic SamplingGRPO存在训练效率低的问题主要原因是模型看到太简单全对或太难全错的样本以至于采样出来的轨迹advantage全为0没有策略梯度因此训练过程会滤除全对或全错的样本。Token-Level Policy Gradient LossGRPO训练会将sequence-level advantage平均分配给每个response token这导致长推理序列中每个response token被分配到的advantage相当少策略梯度强度非常弱。因此论文提出Token-Level Policy Gradient Loss让同个mini-batch内每个response token的advantage权重相同。Overlong Reward Shaping传统方法会将过长的 response 截断这些被截断的样本也会参与到奖励计算造成 reward noise导致训练不稳定通过超长过滤策略 (Overlong Filtering)对被截断的样本进行 loss 屏蔽提高训练稳定性。另外为避免模型生成过长的response会在原有奖励基础上加入length-aware penalty (公式如下)惩罚长度过长的样本Qwen2.5-32B模型微调后在AIME测试集上准确率以及在 RL 训练过程中【采用/未采用】Clip-Higher 策略时模型生成概率的entropy变化。Qwen2.5-32B模型微调后在AIME测试集上准确率以及其生成概率的entropy变化对比【采用/未采用】Overlong Reward Shaping策略的情况。【采用/未采用】Dynamic Sampling 策略的对比。GSPO (Group Sequence Policy Optimization)把 importance ratio 提升到 sequence 级别在 MoE 模型上能明显提升稳定性GSPO是阿里巴巴提出针对GRPO 训练不稳定且效率低的改善方法GSPO 将token级别的advantage与importance ratio改为sequence级别GSPO中sequence-level important ratio 定义为目标函数为下面简短说明GSPO为什么比 GRPO更有优势梯度更稳定GRPO与GSPO的策略梯度公式如下可以明显看到GRPO的策略梯度方向受到了 importance ratio 的扭曲这会影响策略梯度更新的稳定性与效率反观GSPO每个token的策略梯度权重相等importance ratio仅决定策略梯度的强弱不决定方向。MOE训练更稳定MoE 模型训练难度大每次策略梯度更新都可能改变激活的专家从而导致同个序列的 token-level importance ratio 出现剧烈震荡阻碍模型有效收敛。论文以微调 Qwen3-30B-A3B-Base 为例每次策略梯度更新平均会激活约 10% 的新专家。GSPO 通过约束 sequence-level importance ratio在 MoE 训练会更具优势因为后训练阶段MoE 的每个专家都具备一定的语言建模能力这保证了即使 token-level importance ratio 波动剧烈整体的 sequence-level importance ratio 仍能保持相对稳定因此 GSPO 更有利于MoE 模型训练的效率与稳定性。由 Qwen3-30B-A3B-Base 冷启动微调所得模型的训练曲线。 GSPO 的训练效率明显高于 GRPO。SAPO (Soft Adaptive Policy Optimization)用 soft gate 代替硬 clip在 GSPO 与 GRPO 之间连续平滑过渡兼顾稳定性与效率SAPO对GSPO做了进一步优化GSPO使用sequence-level hard-clipping机制这导致部分序列因sequence-level importance ratio过大而被clip掉以致整条序列的策略梯度为 0影响训练效率。SAPO将hard-clipping改为soft gate函数 避免了策略梯度为 0 的问题。SAPO目标函数为其中为sigmoid函数。SAPO的策略梯度为右下图为 情况下 与 间的变化结合SAPO策略梯度公式可观察• 策略梯度强度随着 远离 1 呈现平滑递减对比hard-clipping方法在 时策略梯度直接为 0• 随着温度 上升策略梯度递减速度增加SAPO使用不同的 其实在控制 的策略梯度强度advantage0 情况下的比较。左图展示目标函数随 importance ratio 的变化曲线右图展示对应的梯度权重随 importance ratio 变化的曲线。总结来说SAPO有两个主要创新点• soft gate 取代 hard-clipping提高训练稳定性与效率• 正负token非对称温度 由于 negative advantage token 倾向提高所有非当前token类别概率导致许多无关token类别概率增加引发训练不稳定因此设定 旨在降低negative advantage token的影响提高训练稳定性。SAPO同时具有GSPO与GRPO的优势论文证明当轨迹满足以下条件(A1) Small-step/on-policy要求 token-level importance ratio (A2) 序列内低离散性令要求很小。SAPO可近似为smooth gate版本的 GSPO因此SAPO 同时具有 sequence-level 与 token-level 特性。在 (A1)–(A2) 条件满足时其目标函数与 GSPO 相近而在条件不满足时其行为退化为 GRPO。同时SAPO 通过soft gate 在 on-policy 与 off-policy 策略间进行连续化的权重调整以避免硬式切换造成的非平滑策略梯度从而增强整个优化过程的稳定性。对 Qwen3-30BA3B-Base 模型进行不同 RL 方法下的训练与验证表现。 SAPO 的学习过程始终稳定最终性能也更高相比之下GSPO 与 GRPO-R2 都在训练早期出现崩塌现象。总结PPO, GRPO, DAPO, GSPO, SAPO 可以视作一条面向大模型强化学习微调的算法演进链PPO 作为经典强化学习算法在旧策略采样、clip 约束小步更新的框架下让大模型可以稳定做策略梯度GRPO 通过同一 prompt 下的样本组来估计 empirical advantage省去了 Value Model 的训练开销DAPO 在 GRPO 的基础上加入不对称 clip、动态采样、token-level policy loss 与长度奖励等技术显著提升长推理序列的训练效率与稳定性GSPO 将 importance ratio 与 advantage 提升到 sequence 级别缓解 MoE 等大模型训练中token-level importance ratio剧烈波动带来的不稳定在此之上SAPO 以 soft gate 取代 hard-clipping并通过正负 advantage 不同温度在 sequence-level 与 token-level、on-policy 与 off-policy 之间实现自适应折中兼顾了训练稳定性与效率。如何学习AI大模型 “最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】CSDN粉丝独家福利这份完整版的 AI 大模型学习资料已经上传CSDN朋友们如果需要可以扫描下方二维码点击下方CSDN官方认证链接免费领取【保证100%免费】读者福利CSDN大礼包《最新AI大模型学习资源包》免费分享 安全链接放心点击对于0基础小白入门如果你是零基础小白想快速入门大模型是可以考虑的。一方面是学习时间相对较短学习内容更全面更集中。二方面是可以根据这些资料规划好学习计划和方向。1.大模型入门学习思维导图要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。对于从来没有接触过AI大模型的同学我们帮你准备了详细的学习成长路线图学习规划。可以说是最科学最系统的学习路线大家跟着这个大的方向学习准没问题。全套教程文末领取哈2.AGI大模型配套视频很多朋友都不喜欢晦涩的文字我也为大家准备了视频教程每个章节都是当前板块的精华浓缩。3.大模型实际应用报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示。全套教程文末领取哈4.大模型实战项目项目源码光学理论是没用的要学会跟着一起做要动手实操才能将自己的所学运用到实际当中去这时候可以搞点实战项目来学习。全套教程文末领取哈5.大模型经典学习电子书随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。全套教程文末领取哈6.大模型面试题答案截至目前大模型已经超过200个在大模型纵横的时代不仅大模型技术越来越卷就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道我总结了大模型常考的面试题。全套教程文末领取哈为什么分享这些资料?只要你是真心想学AI大模型我这份资料就可以无偿分享给你学习我国在这方面的相关人才比较紧缺大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。CSDN粉丝独家福利这份完整版的 AI 大模型学习资料已经上传CSDN朋友们如果需要可以扫描下方二维码点击下方CSDN官方认证链接免费领取【保证100%免费】读者福利CSDN大礼包《最新AI大模型学习资源包》免费分享 安全链接放心点击
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网页设计适合什么岗位泽成seo网站排名

揭秘OpenCode AI测试工具:如何实现90%代码覆盖率的技术原理 【免费下载链接】opencode 一个专为终端打造的开源AI编程助手,模型灵活可选,可远程驱动。 项目地址: https://gitcode.com/GitHub_Trending/openc/opencode 在当今快节奏的软…

张小明 2025/12/29 0:52:35 网站建设

雷神代刷网站推广建站软件可以不通过网络建设吗

在学术研究和专业文档处理中,PDF翻译一直是个技术难题。传统的在线翻译工具无法完整保留数学公式、专业图表和复杂排版,而商业翻译服务又面临数据安全和成本压力。PDFMathTranslate作为一款专业的PDF文档翻译工具,通过本地大模型技术完美解决…

张小明 2025/12/29 7:41:54 网站建设

网站建设PHP开发是什么意思域名权重查询

导语 【免费下载链接】glm-edge-v-2b 项目地址: https://ai.gitcode.com/zai-org/glm-edge-v-2b 清华大学知识工程实验室推出的GLM-Edge-V-2B模型,以20亿参数实现图像-文本跨模态理解,将边缘设备AI推理效率提升4倍,重新定义终端智能应…

张小明 2025/12/29 2:18:34 网站建设

公司开发网站没有icp备案的网站

零基础也能玩转STM32&#xff1f;手把手带你装好CubeMX&#xff0c;5分钟点亮LED&#xff01; 你是不是也遇到过这种情况&#xff1a;买了一块STM32开发板&#xff0c;兴冲冲打开资料&#xff0c;结果一看代码全是寄存器操作&#xff0c; RCC->APB2ENR | 1<<2; 这种…

张小明 2025/12/28 21:28:27 网站建设

网络网站制作技巧wordpress修改博客

F3D三维查看器终极指南&#xff1a;从零掌握高效模型预览技巧 【免费下载链接】f3d Fast and minimalist 3D viewer. 项目地址: https://gitcode.com/gh_mirrors/f3/f3d 还记得上次收到同事发来的3D模型文件时&#xff0c;你为了打开它安装了多少软件吗&#xff1f;从笨…

张小明 2025/12/29 7:54:36 网站建设