CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

DeepSeek开源为MoE和EP量身定制的通信库！暂和英伟达显卡绑定

2025-02-25 11:28:29

衡宇发自凹非寺
量子位 | 公众号 QbitAI

好消息如约而至，DeepSeek开源周第二弹来了！

DeepEP，第一个用于MoE模型训练和推理的开源EP通信库（expert parallelism，专家并行）。

它提供高吞吐量和低延迟的all-to-all GPU内核，也称为MoE dispatch和combine。

该库还支持低精度运算，包括FP8。

同时按惯例，开源协议用的是最为宽松的MIT。

今天的DeepSeek选择了先在GitHub上线，然后再在官推发上新通知。

不出所料，底下一片叫好：

DeepSeek开源列车永不停止。

DeepEP性能如何？

DeepSeek官推对DeepEP进行了要素提炼：

高效和优化的all-to-all通信
NVLink和RDMA的节点内和节点间支持
用于训练和推理预填充的高吞吐量内核
用于推理解码的低延迟内核
原生FP8调度支持
灵活的GPU资源控制，用于计算通信重叠

我们先来看看性能方面的两个重点。

（注：DeepEP中的实现可能与DeepSeek-V3论文有一些细微的差异）

具有NVLink和RDMA转发的普通内核

为了与DeepSeek-V3论文中提出的组限制门控算法保持一致，DeepEP提供了一组针对非对称域带宽转发进行了优化的内核，例如将数据从NVLink域转发到RDMA域。

这些内核提供高吞吐量，使其适用于训练和推理预填充任务。

此外，它们还支持SM（Streaming Multiprocessors）号码控制。

DeepEP团队在在H800（~160 GB/s NVLink最大带宽）上测试普通内核，每个内核都连接到CX7 InfiniBand 400 Gb/s RDMA网卡（~50 GB/s 最大带宽）。

且遵循DeepSeek-V3/R1预训练设置（每批4096个tokens，隐藏7168个，前4组，前8个专家，FP8调度和BF16组合）。

具有纯RDMA的低延迟内核

针对延迟敏感型推理解码场景，DeepEP包括一组具有纯RDMA的低延迟内核，以最大限度地减少延迟。

该库还引入了一种基于hook的通信计算重叠方法，不占用任何SM资源。

DeepEP团队在H800上测试低延迟内核，每个内核都连接到CX7 InfiniBand 400 Gb/s RDMA 网卡（~50 GB/s 最大带宽）。

且遵循典型的DeepSeek-V3/R1生产设置（每批128个tokens，7168个隐藏，前8个专家，FP8调度和BF16组合）。

暂不支持消费级显卡，建议使用最佳自动优化配置

在GitHub上，DeepSeek团队明确写出了关于DeepEP的使用方式，涵盖各种适配环境、配置要求等。

首先是DeepEP需要的软硬件环境版本：

Hopper GPUs（以后可能支持更多架构或设备）
Python 3.8及更高版本
CUDA 12.3及更高版本
PyTorch 2.1及更高版本
用于节点内通信的NVLink
用于节点内通信的RDMA网络

其次，使用DeepEP需要下载并安装团队修改后的NVSHMEM依赖项（有关说明，请参阅DeepSeek团队的NVSHMEM安装指南）。

然后，将 deep_ep 导入到Python项目中，就开始“尽情享受吧”！

至于网络配置方面，DeepEP已通过InfiniBand网络的全面测试。

但理论上，它也与基于融合以太网的RDMA（RoCE）兼容。

其中，InfiniBand通过虚拟通道（Virtual Lanes， VL）支持流量隔离。

为了防止不同类型流量之间的干扰，DeepEP图男队建议将工作负载隔离到不同的虚拟通道中，如下所示：

使用普通内核的工作负载
使用低延迟内核的工作负载
其它工作负载

对于DeepEP，开发者可以通过设置 NVSHMEM_IB_SL 环境变量来控制虚拟通道分配。

值得注意的是，自适应路由是InfiniBand交换机提供的一项高级路由功能，可以在多个路径之间均匀分配流量。

目前，低延迟内核支持Adaptive Routing，而普通内核不支持（可能很快就会添加支持）。

为普通的节点间内核启用自适应路由，可能会导致死锁或数据损坏问题。

对于低延迟内核，启用Adaptive routing可以完全消除路由冲突导致的网络拥塞，但也会带来额外的延迟。

DeepEP团队建议使用以下配置以获得最佳性能：

在网络负载较重的环境中启用自适应路由
在网络负载较轻的环境中使用静态路由

BTW，DeepEP已禁用拥塞控制（Congestion control），因为团队在生产环境中没有观察到明显的拥塞。

最后一点来自DeepEP团队的叮嘱——

为了获得极致性能，团队发现并使用了一条out-of-doc PTX指令ld.global.nc.L1::no_allocate.L2::256B 。

此指令将导致未定义的行为：使用非相干只读PTX修饰符 .nc 访问易失性GPU内存。

但是，正确性已经过测试，以保证。L1：：no_allocate 在 Hopper 架构上，性能会好得多。

如果您发现内核在某些其他平台上无法运行，您可以添加到DISABLE_AGGRESSIVE_PTX_INSTRS=1 setup.py并禁用此功能，或提交问题。

为了在集群上获得更好的性能，DeepSeek建议运行所有测试并使用最佳的自动优化配置。

因为默认配置在DeepSeek的内部集群上进行了优化～

One More Thing

DeepSeek为了本次开源周专门在GitHub上新开了一个库：

https://github.com/deepseek-ai/open-infra-index

根据这两天的发布，猜测本次开源周发布内容maybe均与AI Infra有关。

不过一个不那么好的消息，DeepSeek的开源周更新时间，好像不太稳定。

昨天是上午9:34，今天是10:24，明天……

DeepEP GitHub：

https://github.com/deepseek-ai/DeepEP

马斯克Grok3大翻车，郭正亮：不是Deepseek的对手

马斯克Grok3大翻车，郭正亮：不是Deepseek的对手

金日无事 2025-02-24 11:55:05

俄乌三周年，泽连斯基感谢到访的各国领导人

俄乌三周年，泽连斯基感谢到访的各国领导人

小A看世界 2025-02-24 19:04:14

赵丽颖四平台破万无差别扛剧，配音纪录片热度破万，登顶热度总榜

赵丽颖四平台破万无差别扛剧，配音纪录片热度破万，登顶热度总榜

贵圈星娱 2025-02-24 17:16:12

95后年入百万程序员：妈妈的同学对我很好

95后年入百万程序员：妈妈的同学对我很好

封面新闻 2025-02-25 10:35:46

算力网络架构演进的思考

通信世界 2024-10-16 15:52:27

《失落之魂》PC进阶配置公开:顶级光追画质需5070 Ti!

《失落之魂》PC进阶配置公开:顶级光追画质需5070 Ti!

游民星空 2025-02-23 10:20:13

温以凡的勇敢应该被看见，独立坚定内核强大

温以凡的勇敢应该被看见，独立坚定内核强大

圈内芒果捞 2025-02-22 21:56:58

我们为什么要用GPU“暴力”找质数？

我们为什么要用GPU“暴力”找质数？

量子位 2024-12-17 16:42:34

《解限机》支持DLSS 3与RTX Demo测试在线峰值人数已破31万

《解限机》支持DLSS 3与RTX Demo测试在线峰值人数已破31万

中关村在线 2025-02-25 12:03:09

美团王兴紧急应对，取消超时扣款：你敢抢我生意，我就掀你桌子！

美团王兴紧急应对，取消超时扣款：你敢抢我生意，我就掀你桌子！

乌娱子酱 2025-02-24 16:46:39

《哪吒2》：中国动画这是连夜把好莱坞显卡给拔了吧？

《哪吒2》：中国动画这是连夜把好莱坞显卡给拔了吧？

笑熬浆糊111 2025-02-25 00:05:15

越过曼昱和莎莎握手，体育局局长回应不以金牌论英雄，有人尴尬了

越过曼昱和莎莎握手，体育局局长回应不以金牌论英雄，有人尴尬了

阿矗论古今 2025-02-24 16:26:55

除了大还有啥？第五代林肯领航员静态深度解析

除了大还有啥？第五代林肯领航员静态深度解析

胖哥汽车频道 2025-02-21 11:00:00

为什么只有AI编程成功落地？

虎嗅APP 2025-01-14 12:02:04

日本买的一个普通打火机，国内为啥做不出来，很独特的设计

日本买的一个普通打火机，国内为啥做不出来，很独特的设计

乌雅恺歌 2025-02-25 03:24:50

东北规模最大跨海大桥开建，将终结全国唯一海岛边境县的交通困局

东北规模最大跨海大桥开建，将终结全国唯一海岛边境县的交通困局

澎湃新闻 2025-02-25 11:44:27

湖北师大回应录用初中学历人员：其丈夫是高层次人才

湖北师大回应录用初中学历人员：其丈夫是高层次人才

澎湃新闻 2025-02-24 17:42:20

独家｜波士顿动力创始人：已购买宇树机器人，DeepSeek创新只是个开始

独家｜波士顿动力创始人：已购买宇树机器人，DeepSeek创新只是个开始

第一财经资讯 2025-02-25 09:01:26

纳指跌1.21%，伯克希尔创新高！财报前夕，英伟达跌超3%！华尔街突发警告，啥情况？

纳指跌1.21%，伯克希尔创新高！财报前夕，英伟达跌超3%！华尔街突发警告，啥情况？

每日经济新闻 2025-02-25 06:26:04

泫雅在国内的平台开直播了

奇v来了 2025-02-22 22:13:02

电信支局长被殴致死24年后：永州中院指令再审，主犯曾被以聚众斗殴定罪

电信支局长被殴致死24年后：永州中院指令再审，主犯曾被以聚众斗殴定罪

澎湃新闻 2025-02-24 16:11:03

儿媳随口一句手机内存不够了，公公便立刻给儿媳换上最新款手机，婆婆还给儿媳带了奶茶和水果

儿媳随口一句手机内存不够了，公公便立刻给儿媳换上最新款手机，婆婆还给儿媳带了奶茶和水果

棱镜视听 2025-02-24 15:27:37

张子宇静态天赋太恐怖，双手抓筐太轻松，单手抓球也手到擒来！

张子宇静态天赋太恐怖，双手抓筐太轻松，单手抓球也手到擒来！

宗介爱搞笑 2025-02-25 11:45:29

关键比赛的关键局，出了啥状况，河池何俊双双吐槽平台

关键比赛的关键局，出了啥状况，河池何俊双双吐槽平台

游手好闲咻咻 2025-02-24 14:39:05

早报|苹果新系统「HomeOS」曝光/小米「双 Ultra」发布会定档/余承东：华为新形态手机 3 月见

早报|苹果新系统「HomeOS」曝光/小米「双 Ultra」发布会定档/余承东：华为新形态手机 3 月见

爱范儿 2025-02-25 09:03:38

淡定内敛只是陈楚生的保护色，可爱调皮的陈里里才是他真正的内核

淡定内敛只是陈楚生的保护色，可爱调皮的陈里里才是他真正的内核

娱乐八卦圈地 2025-02-21 14:51:43

女子自述“终于找到没对象的原因了”“择偶标准给到DeepSeek”，DeepSeek：这样的标准只有51个

女子自述“终于找到没对象的原因了”“择偶标准给到DeepSeek”，DeepSeek：这样的标准只有51个

新知速报 2025-02-22 16:46:07

管不了那么多！普京再向西方示好，下达新指令

管不了那么多！普京再向西方示好，下达新指令

梁瞠侃世界 2025-02-25 10:02:18

卫报：拉爵将关闭曼联员工食堂，球场员工将只会得到免费水果

卫报：拉爵将关闭曼联员工食堂，球场员工将只会得到免费水果

懂球帝 2025-02-24 20:20:04

东华软件：未与Deepseek签署服务合作协议，与其并无业务合作

东华软件：未与Deepseek签署服务合作协议，与其并无业务合作

每日经济新闻 2025-02-25 15:37:19

全球首个混合推理模型降世！程序员集体过年，最强AI编程秒全场，多平台火速接入

全球首个混合推理模型降世！程序员集体过年，最强AI编程秒全场，多平台火速接入

智东西 2025-02-25 14:53:34

实测Claude 3.7：3200行代码一口气输出，弱智吧已失守

实测Claude 3.7：3200行代码一口气输出，弱智吧已失守

量子位 2025-02-25 13:51:45

太牛了！400块洋垃圾，也能在本地部署DeepSeek？！

太牛了！400块洋垃圾，也能在本地部署DeepSeek？！

雷科技 2025-02-14 11:33:42

DeepSeek发布FlashMLA，一个专为英伟达Hopper架构GPU设计的高效MLA解码内核

DeepSeek发布FlashMLA，一个专为英伟达Hopper架构GPU设计的高效MLA解码内核

量子位 2025-02-24 14:17:02

快检查你的5090!英伟达确认缺陷,部分显卡ROP短少,玩老头环受影响

快检查你的5090!英伟达确认缺陷,部分显卡ROP短少,玩老头环受影响

量子位 2025-02-24 17:15:20

秘籍！一条隐藏指令，让Deepseek学会生成图片

秘籍！一条隐藏指令，让Deepseek学会生成图片

AI楼叔 2025-02-21 20:07:04

黄仁勋首度回应DeepSeek冲击：英伟达暴跌系投资者误解

黄仁勋首度回应DeepSeek冲击：英伟达暴跌系投资者误解

每日经济新闻 2025-02-22 18:40:16

诺澜的内核真的很强大，不敢想要是我我得有多崩溃

诺澜的内核真的很强大，不敢想要是我我得有多崩溃

娱蜀黍ss 2025-02-24 17:48:48

印度将deepseek送上法庭，结果惨遭本土民众打脸

印度将deepseek送上法庭，结果惨遭本土民众打脸

AI次世代 2025-02-23 20:32:37

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

机器之心Pro 2024-09-05 10:30:36