CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

重构训练框架，开源新方法：抛弃替代损失函数，仅需优化原始目标

2025-04-27 12:22:37

允中发自凹非寺
量子位 | 公众号 QbitAI

抛弃替代损失函数，仅需优化原始目标，强化学习新范式来了:

消除critic和reference模型，避免KL散度约束；解决优势函数和梯度估计两个偏差。

来自阿里-高德地图的团队提出了一种相当简单的强化学习训练新方法：组策略梯度优化GPG（Group Policy Gradient）。

GPG开创性地从底层重构强化学习训练框架，仅需优化原始目标，解决已有方法偏差，提高训练效率。革新强化学习训练流程，推动智能体性能突破。

在实验中，GPG在单模态和多模态两类任务中表现遥遥领先，其极简架构与高性能表现，有望成为下一代基础模型训练的关键方法。

以下是更多GPG有关细节。

一、背景介绍

近年来，以OpenAI和DeepSeek R1为代表的LLMs模型表现亮眼，深究成功背后，是强化微调技术（RFT）联合现有强化学习方法（如PPO、GPPO）在激励模型构建严谨的推理链上发挥了关键作用。

但在面对高昂的训练成本与性能平衡，主流方法PPO也陷入巨大瓶颈，与此同时，其他研究团队也在尝试使用ReMax、GRPO等简化训练流程，并在性能上取得了很大的突破，但他们都依然存在一些问题。

研究团队认为，当前针对RL算法的优化都在围绕替代损失函数展开，但两个核心问题始终悬而未决：

1.能否绕过替代策略，直接优化原始目标函数？
2.如何最大限度简化学习策略的设计？

由此，团队提出了GPG，其核心创新包括：

直接目标优化：摒弃传统替代损失函数设计，直接优化原始强化学习目标，突破算法效率瓶颈。
极简训练架构：无需评论模型和参考模型支持，摆脱分布约束，为模型扩展性提供更大空间。
精准梯度估计技术（AGE）：首次揭示现有方法的奖励偏差问题，提出轻量化且高精度的梯度估计方案，显著提升策略稳定性。
单模态多模态任务SOTA验证：在数学推理、视觉理解、跨模态推理等任务中，GPG性能全面超越现有方法，验证其通用性与鲁棒性。

二、组策略梯度GPG方法

1）方法对比

各种强化学习方法的比较，作者以最简单的形式解释：

下面是GPG方法和已有RL方法各个模块的对比：

2）GPG方法

GPG旨在解决在没有价值模型的情况下，策略梯度估计中的高方差问题。通过利用group-level的奖励，GPG稳定了训练过程并增强了强化学习训练的鲁棒性。

具体而言，GPG利用每个Group内的平均奖励来归一化奖励，从而有效降低方差。这个方法可以移除传统的价值模型，从而简化了训练过程并提高了计算效率。 GPG的名称反映了作者方法核心机制，即利用group-level的平均奖励来稳定和优化学习。

GPG的核心优化目标定义为：

作者提出的GPG方法通过组内优势函数计算梯度校正机制实现了高效稳定的策略优化。在优势函数设计上，采用组内奖励均值归一化方法

3）现有RL方法中的两个bias

优势函数中的bias

组内样本全对全错时，引入梯度估计的bias

针对组内全对/全错样本的梯度估计bias问题，GPG创新性地引入动态梯度校正因子。

实验表明该机制可使模型准确率从43.9%提升至47.8%，显著改善训练稳定性。

三、实验

1）在单模态数据集上的结果

2）在多模态数据集上的结果

四、结论

在本文中，作者介绍了GPG，它有效地解决了强化微调方法（如PPO和GRPO）中现有的关键挑战。

通过将基于组内的决策动态直接纳入标准的PG方法，GPG简化了训练过程，并显著减少了计算开销，而不削弱模型效果。这一突破为训练能够进行复杂推理的先进LLM提供了更高效的框架，从而为更具资源效率和可扩展性的人工智能系统做出了贡献。

此外，团队将本文代码全面开源，希望促进技术透明化发展，也鼓励更多人参与到该项工作中来。

论文链接：https://arxiv.org/pdf/2504.02546
代码链接：https://github.com/AMAP-ML/GPG

AI大厦需要新的地基！

机器之心Pro 2025-05-19 19:15:40

翁荔最新万字长文：Why We Think

翁荔最新万字长文：Why We Think

量子位 2025-05-18 13:39:52

从算法到模型推理：应届生成功转型并收获6个offer的进阶之路

从算法到模型推理：应届生成功转型并收获6个offer的进阶之路

算法与数学之美 2025-05-15 12:01:10

当你同理心过于强大，老板的指示可能会被 “脑洞重构”

当你同理心过于强大，老板的指示可能会被 “脑洞重构”

祝晓晗 2025-05-18 09:00:00

水泥航母模型变成了核动力，暗示下一艘核动力航母妥了

水泥航母模型变成了核动力，暗示下一艘核动力航母妥了

缘史记 2025-05-18 07:24:15

牛弹琴：很让人震惊拜登确诊癌症癌细胞已扩散至骨骼

牛弹琴：很让人震惊拜登确诊癌症癌细胞已扩散至骨骼

现代快报 2025-05-19 08:14:37

全新GPU高速互联设计，为大模型训练降本增效

全新GPU高速互联设计，为大模型训练降本增效

量子位 2025-05-19 14:32:44

美邦创始人奖员工极氪007GT，网友们全都酸了

美邦创始人奖员工极氪007GT，网友们全都酸了

武汉广播电视台 2025-05-19 14:24:48

8秒极速生成！复杂场景图像定制低成本轻松驾驭，已开源

8秒极速生成！复杂场景图像定制低成本轻松驾驭，已开源

量子位 2025-05-14 17:33:28

市民家中漏水维修人员直接灌了80斤胶水总价19800元

市民家中漏水维修人员直接灌了80斤胶水总价19800元

每日经济新闻 2025-05-19 11:56:20

南京政府的决策影响淞沪战场，英勇将士奋战却遭遇停火的遗憾

南京政府的决策影响淞沪战场，英勇将士奋战却遭遇停火的遗憾

全球直击 2025-05-18 09:15:54

当年4.8G极限压缩主创感慨如今老滚4RE飙到125G

当年4.8G极限压缩主创感慨如今老滚4RE飙到125G

游民星空 2025-05-19 22:07:24

把窜天猴绑在模型飞机上，能飞上太空吗？

把窜天猴绑在模型飞机上，能飞上太空吗？

超人飞不高 2025-05-19 11:54:11

叙利亚新政府货币印制策略转向：从大鹅到德国、阿联酋地缘博弈

叙利亚新政府货币印制策略转向：从大鹅到德国、阿联酋地缘博弈

神颜贩卖机 2025-05-19 04:03:59

周杰伦“逆天匹配机制”，歌手一人一首代表作，首首专打周杰伦

周杰伦“逆天匹配机制”，歌手一人一首代表作，首首专打周杰伦

小唧MUSIC 2025-05-15 21:36:08

中美会谈后，特朗普称中国等国家是特例，对其他国家会换一种策略

中美会谈后，特朗普称中国等国家是特例，对其他国家会换一种策略

莹莹观点 2025-05-19 12:04:05

奥特曼逼梁文锋出大招

直面派 2025-05-19 14:43:28

特朗普中东之行，不仅仅是收获订单，而是重构战略格局

特朗普中东之行，不仅仅是收获订单，而是重构战略格局

知兵堂军事 2025-05-17 10:39:40

歼 50，从出鞘到制霸，重构空中格局的 “终极战鹰”

歼 50，从出鞘到制霸，重构空中格局的 “终极战鹰”

超感科学 2025-05-19 15:29:42

学术诚信不该被“算法”绑架

河南民生频道 2025-05-18 16:33:03

颜水成领衔，给AI分段位！超100款多模态模型，无人达到L5

颜水成领衔，给AI分段位！超100款多模态模型，无人达到L5

新智元 2025-05-19 12:51:43

母子大闹机场后续：儿子错过考公崩溃，机场冷漠回应，原因太可笑

母子大闹机场后续：儿子错过考公崩溃，机场冷漠回应，原因太可笑

书雁飞史oh 2025-05-19 17:03:52

美印关系出现重大转折，莫迪果断反击美国，这一策略借鉴自中国

美印关系出现重大转折，莫迪果断反击美国，这一策略借鉴自中国

骑扫把评天下 2025-05-18 13:07:59

黑崎一护对决银城空吾！灵纹共振，斩月重构

黑崎一护对决银城空吾！灵纹共振，斩月重构

夏雪漫看 2025-05-16 13:51:58

5月19日俄乌最新：库尔斯克的包围圈

5月19日俄乌最新：库尔斯克的包围圈

西楼饮月 2025-05-19 18:14:04

问题被曝光后，夜里11点常务副市长率队到现场，市长牵头专项整治，市纪委启动问责

问题被曝光后，夜里11点常务副市长率队到现场，市长牵头专项整治，市纪委启动问责

新京报政事儿 2025-05-19 14:20:06

媒体：印度遭巴军"猎杀"损失惨重仍不忘煮"自嗨锅"

媒体：印度遭巴军"猎杀"损失惨重仍不忘煮"自嗨锅"

新民周刊 2025-05-19 09:06:12

曾仕强：当你有强弱两个对手，你会先打谁？太多人不懂怎么决策！

曾仕强：当你有强弱两个对手，你会先打谁？太多人不懂怎么决策！

UP主硬照鬼才 2025-05-19 12:18:52

AI是理解人类智能的钥匙，Sutton学生万一博士分享强化学习应用

AI是理解人类智能的钥匙，Sutton学生万一博士分享强化学习应用

机器之心Pro 2025-04-08 12:43:15

雷军官宣小米3nm芯片来了系中国内地3nm芯片设计突破

雷军官宣小米3nm芯片来了系中国内地3nm芯片设计突破

鲁中晨报 2025-05-19 12:09:05

136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体预测

136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体预测

机器之心Pro 2025-04-08 18:40:57

差分注意力机制引领变革，DIFF Transformer攻克长序列建模难题

差分注意力机制引领变革，DIFF Transformer攻克长序列建模难题

机器之心Pro 2025-04-29 11:03:19

前端程序员请注意！首个截图就能生成现代前端代码的AI来了|开源

前端程序员请注意！首个截图就能生成现代前端代码的AI来了|开源

量子位 2025-02-26 11:56:35

爱诗科技PixVerse V4.5上线，APP热度赶超TikTok跻身总榜第四

爱诗科技PixVerse V4.5上线，APP热度赶超TikTok跻身总榜第四

机器之心Pro 2025-05-19 15:18:07

突破多模态奖励瓶颈！R1-Reward用强化学习赋予模型长期推理能力

突破多模态奖励瓶颈！R1-Reward用强化学习赋予模型长期推理能力

量子位 2025-05-08 17:47:02

从非洲铁矿开发到钢材关税调整：中国破解资源困局的双重策略(3)

从非洲铁矿开发到钢材关税调整：中国破解资源困局的双重策略(3)

断墨的笔 2025-05-18 00:14:32

流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

机器之心Pro 2024-11-29 15:13:38

首次引入强化学习！火山引擎Q-Insight让画质理解迈向深度思考

首次引入强化学习！火山引擎Q-Insight让画质理解迈向深度思考

机器之心Pro 2025-04-08 10:44:59

打破56年数学铁律！谷歌AlphaEvolve自我进化实现算法效率狂飙

打破56年数学铁律！谷歌AlphaEvolve自我进化实现算法效率狂飙

量子位 2025-05-18 12:03:34

LLM又曝致命缺陷：根本不会看时钟！博士惊呆，准确率不及50%

LLM又曝致命缺陷：根本不会看时钟！博士惊呆，准确率不及50%

新智元 2025-05-19 12:43:49