CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

DeepSeek前实习生魔改MoE，用迭代机制把内存需求砍了42%

2025-03-04 15:38:32

西风发自凹非寺
量子位 | 公众号 QbitAI

DeepSeek MoE“变体”来了，200美元以内，内存需求减少17.6-42%！

名叫CoE（Chain-of-Experts），被认为是一种“免费午餐”优化方法，突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。

与并行处理不同，CoE使专家能在单层内串行通信，形成一种迭代机制，即专家能“沟通”，在其它专家输出之上处理token。

研究团队在实验中发现，经过2次迭代的CoE，在相同的计算预算下将数学任务的验证损失从1.20降低至1.12，仅仅通过重构信息流就获得了性能提升。

通过扩展CoE的迭代次数，在性能相当的情况下，内存使用比通过增加模型层数或扩展专家选择数量的方法降低了17.6-42%。

另外，在专家组合自由度、专家使用效率等其它方面，CoE也都具有显著优势，专家组合增加823倍。

目前，研究团队晒出了CoE技术Blog（完整论文即将发布），引起不少网友围观。

翻看作者主页，还发现作者Zihan Wang真曾在DeepSeek实习过

有网友看过这项研究表示：

MoEs中的IsoFLOP层迭代设计，非常奈斯。

还有网友已经开始预测下一代架构了。

CoE究竟长啥样？以下是团队发布的Notion Blog介绍。

CoE专门针对稀疏MoE打造

CoE关键创新在于建立沟通性处理机制，改变了稀疏神经网络的信息处理方式。

具体来说，是通过在单个层的迭代中将MoE输出反馈为多次迭代的输入来实现的。

CoE迭代处理机制可以形式化表示为下面这个样婶儿：

参考DeepSeek-V2的实现，研究团队定义门控机制为如下：

团队介绍，这种设计的好处在于每次迭代的专家选择由前一次迭代的输出决定，形成专家间的依赖关系和更动态的路由机制

而且串行信息可以在迭代过程中累积，实现专家间的直接通信。

实验采取DeepSeek V2架构，在参数规模为500M的MoE模型上使用32K Tok的batch size训练1000步，以此来验证CoE的有效性。

结果CoE在性能、扩展策略、资源效率优化、专家组合自由度、专家使用效率方面具有显著优势。

除了开头所展示的在相似的算力和内存要求下，CoE将loss从1.20下降至1.12，且有更陡峭的下降趋势。

团队进一步在“dense”（专家8选8）模型上也进行了测试，结果证明了串行处理在Sparse MoE上相比Dense模型更有效，CoE是一种专为（细粒度）稀疏混合专家模型（Sparse MoE）设计的方法

采取2次序列化处理并不能显著提升Dense模型性能。

另外，在计算量和效果相似的情况下，CoE可以减小对内存的要求。如下，CoE-2（4/48）的效果与MoE（8/64）相近，但使用更少的总专家数量。loss match的情况下减小了17.6%的内存需求。

团队还对比了在预算相似的情况下，扩展CoE迭代次数和扩展模型层数、扩展专家选择个数的效果，结果扩展CoE迭代次数更优。

CoE-2（8/64）,4层 vs MoE（8/64）,8层/12层，8层MoE和CoE效果几乎相同，但是对内存要求高72%，即CoE相对节省了42%内存。

团队强调，独立门控机制内残差连接是CoE的关键架构创新，消融研究表明，移除任何组件都会显著降低性能。

更多细节，感兴趣的童鞋可以查看技术报告原文～

谁造的？

CoE由一个5人组成的团队提出。

Zihan Wang是美国西北大学计算机科学专业博士生，本科毕业于中国人民大学高瓴人工智能学院，研究聚焦于基础模型的自主性、效率以及长上下文理解。

Zihan Wang曾在DeepSeek工作过，是ESFT（Expert-Specialized Fine-Tuning）的论文一作。

ESFT通过仅调整与任务相关的部分高效地定制采用MoE，从而在减少资源和存储使用的同时提升效率和性能。

CoE不是Zihan Wang第一次针对DeepSeek搞的“变体”。

之前他还曾基于verl复现了DeepSeek-R1（-Zero）框架——RAGEN （Reinforcement learning AGENt），在GitHub揽星近1k：

Zihan Wang师从Manling Li。Manling Li是西北大学计算机科学系助理教授，此前曾在吴佳俊教授的指导下工作，并得到李飞飞教授的指导。

RAGEN的贡献者名单中也有Manling Li、吴佳俊、李飞飞的身影。

CoE技术报告：http://sandy-server-87f.notion.site/Chain-of-Experts-Unlocking-the-Communication-Power-of-MoEs-1ab9bb750b7980048d43e6aab3537cea
CoE GitHub链接：https://github.com/ZihanWang314/coe
[1]https://x.com/wzihanw/status/1896601518612021709
[2]https://github.com/ZihanWang314/RAGEN?tab=readme-ov-file
[3]https://github.com/deepseek-ai/ESFT

历时6个月，Hugging Face开源LLM「超大规模实战手册」！200页3万字4000次训练

历时6个月，Hugging Face开源LLM「超大规模实战手册」！200页3万字4000次训练

新智元 2025-03-03 13:15:34

实习生闯祸引发公关危机，下秒女霸主霸气护犊子

实习生闯祸引发公关危机，下秒女霸主霸气护犊子

神手甜西吖 2025-03-03 09:48:44

携手智慧康养机构，访企拓岗促就业——枣庄科技职业学院医药卫生学院走访养老机构看望实习生

携手智慧康养机构，访企拓岗促就业——枣庄科技职业学院医药卫生学院走访养老机构看望实习生

山东商报枣庄新闻 2025-03-04 14:09:38

历史不太冷丨这些“天下第一”，个个都站C位

历史不太冷丨这些“天下第一”，个个都站C位

大众日报 2025-03-03 10:46:04

实习生陪领导打球，怎么和别人不太一样，领导：00后的！

实习生陪领导打球，怎么和别人不太一样，领导：00后的！

奥力给趣笑堂 2025-02-28 13:47:21

兰剑智能：目前公司产品尚未接入DeepSeek大模型产品

兰剑智能：目前公司产品尚未接入DeepSeek大模型产品

每日经济新闻 2025-03-04 18:04:06

老板突击查迟到，那料实习生的一句话，绝对标准的00后！

老板突击查迟到，那料实习生的一句话，绝对标准的00后！

苏尼亚旅行者 2025-03-03 09:10:02

匹配机制改了，论闪电持久战#影画演绎未来之星

匹配机制改了，论闪电持久战#影画演绎未来之星

摩根大说 2025-03-01 22:50:24

实习生竟然比老板有钱，一顿神操作直接把老板整懵

实习生竟然比老板有钱，一顿神操作直接把老板整懵

小暖暖追剧社 2025-02-28 11:26:12

2月医学新闻汇总丨全国首个AI儿科医生在北京“上岗”、DeepSeek助攻82岁癌症老人成功手术

2月医学新闻汇总丨全国首个AI儿科医生在北京“上岗”、DeepSeek助攻82岁癌症老人成功手术

春雨医生 2025-03-04 18:39:54

长亮科技：公司已经引入DeepSeek - R1/V3大模型进行内部研发、测试、交付以及运营管理

长亮科技：公司已经引入DeepSeek - R1/V3大模型进行内部研发、测试、交付以及运营管理

每日经济新闻 2025-03-04 18:36:19

骨干的重要性远超实习生

萌萌酱追剧 2025-03-04 18:02:03

打针遇上了实习生，手法略显粗苯，但效果出奇的好！

打针遇上了实习生，手法略显粗苯，但效果出奇的好！

欢乐多爆笑 2025-03-04 09:09:20

蓝星匹配机制正式更新！

在下大志 2025-03-01 22:48:31

廊坊一分为三，广阳、安次、固安、永清整体划入北京？看看deepseek给出的答案

廊坊一分为三，广阳、安次、固安、永清整体划入北京？看看deepseek给出的答案

廊坊掌上通 2025-03-04 19:14:37

两会观察丨人大首场发布会89分钟13问，发言人娄勤俭为何点赞DeepSeek？

两会观察丨人大首场发布会89分钟13问，发言人娄勤俭为何点赞DeepSeek？

红星新闻 2025-03-04 19:19:20

隆鑫通用：公司已完成DeepSeek的深度融合以及本地化部署

隆鑫通用：公司已完成DeepSeek的深度融合以及本地化部署

每日经济新闻 2025-03-04 19:08:05

有人脉还当什么实习生啊直接横着走

有人脉还当什么实习生啊直接横着走

世界看剧 2025-03-04 08:09:34

模特刁难实习设计师，没想到实习设计师是个狠人

模特刁难实习设计师，没想到实习设计师是个狠人

萌妹观影 2025-03-03 17:39:07

经理压榨实习生，不料美女身份不简单，老板：给你个眼神自己体会

经理压榨实习生，不料美女身份不简单，老板：给你个眼神自己体会

航道搞笑 2025-03-04 16:05:54

酒店实习生看不上穷小伙，怎料对方竟是上市公司老总

酒店实习生看不上穷小伙，怎料对方竟是上市公司老总

黑衬衫剪辑 2025-03-04 17:38:32

关于长江，DeepSeek还挺懂的

关于长江，DeepSeek还挺懂的

上观新闻 2025-03-04 19:02:09

杨颖离婚策略：共同抚养背后的原因

杨颖离婚策略：共同抚养背后的原因

娱乐爱天地 2025-03-03 14:22:15

沙特外长发布宣传片，脱掉了长袍，换上了西装

沙特外长发布宣传片，脱掉了长袍，换上了西装

青蛙视频 2025-03-03 21:25:29

《怪物猎人荒野》着色器崩溃/崩溃闪退/不支持此显卡/无法联机

《怪物猎人荒野》着色器崩溃/崩溃闪退/不支持此显卡/无法联机

爱游戏的小梦怡 2025-03-02 23:58:47

大家注意看！这就是乌军女兵在战场的勇猛表现，太可怕了！

大家注意看！这就是乌军女兵在战场的勇猛表现，太可怕了！

大国说军武 2025-03-03 23:55:08

斗地主策略秘籍：王炸的保留与使用

斗地主策略秘籍：王炸的保留与使用

欢欢斗地主 2025-03-01 04:23:51

泽连斯基在白宫舌战特朗普，蔡正元：翻脸是最好的策略

泽连斯基在白宫舌战特朗普，蔡正元：翻脸是最好的策略

金日事 2025-03-03 11:20:21

揭秘液压挖掘机的强大性能与技术：采矿行业中的无畏巨头

揭秘液压挖掘机的强大性能与技术：采矿行业中的无畏巨头

全球见闻笔记 2025-03-03 09:57:59

北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集

北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集

机器之心Pro 2025-03-04 13:55:36

实测腾讯元宝电脑版：搭载满血版DeepSeek，装上就是AI PC

实测腾讯元宝电脑版：搭载满血版DeepSeek，装上就是AI PC

量子位 2025-03-02 20:11:12

智谱2025开源年第一枪！60亿参数文生图模型亮相，达到SOTA

智谱2025开源年第一枪！60亿参数文生图模型亮相，达到SOTA

智东西 2025-03-04 13:53:28

太牛了！400块洋垃圾，也能在本地部署DeepSeek？！

太牛了！400块洋垃圾，也能在本地部署DeepSeek？！

雷科技 2025-02-14 11:33:42

女生100多页实习手册粘上油渍，用科技与狠活挽救了作业

女生100多页实习手册粘上油渍，用科技与狠活挽救了作业

中国财富网 2025-03-03 21:50:48

比老板还有钱的实习生，句句诛心啊

比老板还有钱的实习生，句句诛心啊

行者看剧 2025-02-28 13:10:22

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

机器之心Pro 2025-03-04 16:23:43

公司老总欺负实习生，结果公司是人家的

公司老总欺负实习生，结果公司是人家的

片场丝带儿V 2025-03-02 14:55:00

实习生趁女孩不注意，给她打了一针镇静剂

实习生趁女孩不注意，给她打了一针镇静剂

婆婆爱剪辑 2025-03-04 09:30:24

女生实习月薪三千房租就已花费一半工资，奶奶知道后

女生实习月薪三千房租就已花费一半工资，奶奶知道后

奇妙观探 2025-03-03 21:11:01

讯飞星火X1大模型升级，单挑DeepSeek-R1

讯飞星火X1大模型升级，单挑DeepSeek-R1

财天COVER 2025-03-04 16:13:23