CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破模型推理门槛

2025-02-12 12:51:41

DeepSeek-R1火遍海内外，但推理服务器频频宕机，专享版按GPU小时计费的天价成本更让中小团队望而却步。

而市面上所谓“本地部署”方案，多为参数量缩水90%的蒸馏版，背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。因此，想在本地小规模硬件上跑真正的DeepSeek-R1，被认为基本不可能。

但就在近期，清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新：

支持24G显存在本地运行DeepSeek-R1、V3的671B满血版。预处理速度最高达到286 tokens/s，推理生成速度最高能达到14 tokens/s。

其实早在DeepSeek-V2 时代，这个项目就因“专家卸载”技术而备受关注——它支持了236B的大模型在仅有24GB显存的消费级显卡上流畅运行，把显存需求砍到10分之一。

△HuggingFace 的开源负责人的点赞

随着DeepSeek-R1的发布，社区的需求迅速激增，在GitHub盖起上百楼的issue，呼吁对其进行支持。

版本更新发布后，不少开发者也纷纷用自己的3090显卡和200GB内存进行实测，借助与Unsloth优化的组合，Q2_K_XL模型的推理速度已达到9.1 tokens/s，真正实现了千亿级模型的“家庭化”。

此外，KTransformers团队还公布了v0.3预览版的性能指标，将通过整合Intel AMX指令集，CPU预填充速度最高至286 tokens/s，相比llama.cpp快了近28倍。对于那些需要处理上万级Token上下文的长序列任务（比如大规模代码库分析）来说，相当于能够从“分钟级等待”瞬间迈入“秒级响应”，彻底释放CPU的算力潜能。

另外，KTransformers还提供了兼容Hugginface Transformers的API与ChatGPT式Web界面，极大降低了上手难度。同时，其基于YAML的“模板注入框架”能够灵活切换量化策略、内核替换等多种优化方式。

目前，KTransformers在localLLaMa社区持续位居热榜第一，有上百条开发者的讨论。

项目背后的技术细节，团队也给出了详细介绍。

利用MoE架构的稀疏性

DeepSeek-R1/V3均采用了MoE（混合专家）架构，这种架构的核心是将模型中的任务分配给不同的专家模块，每个专家模块专注于处理特定类型的任务。MoE结构的模型具有很强的稀疏性，在执行推理任务的时候，每次只会激活其中一部分的模型参数。

因此，MoE架构需要大量的存储空间，但是并不需要很多的计算资源。

基于此，团队采用了GPU/CPU的异构计算划分策略：仅将非Shared部分的稀疏MoE矩阵放在CPU/DRAM上并使用llamafile提供的高速算子处理，剩余稠密部分放在GPU上使用Marlin算子处理。

在这样的情况下，同样使用4bit量化，GPU上的参数只需要24GB的显存环境，这样的消耗只需要一张4090就能满足。

此外通过这样的组合，还能够大幅度提升整个推理的性能，达到286 token/s的预填充和14 token/s的生成速度，比llama.cpp快28倍。

具体到技术实现中，团队采用了基于计算强度的offload策略、高性能的CPU和GPU算子、CUDA Graph加速的多种方式来加速推理速度。

基于计算强度的offload策略

在Attention的核心，DeepSeek引入了一种新的MLA算子，它能够充分利用显卡算力，能够很大程度提升效率。然而，MLA运算符在官方开源的v2版本中，是将MLA展开成MHA进行的计算，这个过程不仅扩大了KV cache大小，还降低了推理性能。

为了真正发挥MLA的性能，在KTransformers推理框架中，团队将矩阵直接吸收到q_proj和out_proj权重中。因此，压缩表示不需要解压缩来计算Attention。

这种调整显著减少了KV缓存大小，并增加了该运算符的算术强度，这非常显著地优化了GPU计算能力的利用率。

在计算中，MLA和Expert的计算强度相差数千倍。因此，团队通过计算强度来决定划分策略，优先将计算强度高的放入GPU（MLA > Shared Expert > Routed Expert），直到GPU放不下为止。

引入CPU和GPU的高性能算子

在CPU算子中，团队使用llamafile作为CPU内核，使用expert并行和其他优化，组成高性能算子框架CPUInfer。此外增加多线程、任务调度、负载均衡、NUMA感知等优化。

在GPU算子的使用上，团队引入Marlin算子作为GPU计算的内核，它能够非常高效地进行量化后的矩阵计算，和torch这些计算量化后的矩阵乘法的库相比，使用Marlin算子完成在GPU上面的计算大概可以达到3.87倍的理想加速效果。

CUDA Graph的改进和优化

为了平衡推理性能和框架本身的易用性/可扩展性，基于Python构建KTransformers框架，同时使用CUDA Graph降低Python调用开销是一个必然的选择。

KTransformers中使用CUDA Graph过程中尽可能地减少了CPU/GPU通讯造成的断点，在CUDA Graph中掺杂和CPU异构算子通讯，最终实现一次decode仅有一个完整的CUDA Graph调用的结果。

灵活高效的推理实验平台

值得关注的是，KTransformers不止是一个固定的推理框架，也不只能推理DeepSeek的模型，它可以兼容各式各样的MoE模型和算子，能够集成各种各样的算子，做各种组合的测试。

此外还同时提供了Windows、Linux的平台的支持，方便运行。

当大模型不断往上卷，KTransformers用异构计算打开一条新的推理路径。基于此，科研工作者无需巨额预算也能够探索模型本质。

GitHub 地址：https://github.com/kvcache-ai/ktransformers
具体技术细节指路：https://zhuanlan.zhihu.com/p/714877271

— 完 —

景嘉微：JM系列产品已适配DeepSeek R1系列模型

景嘉微：JM系列产品已适配DeepSeek R1系列模型

财联社 2025-02-12 17:19:32

奔腾小马新增车型上市，新增中控大屏+Deepseek，4.09万起

奔腾小马新增车型上市，新增中控大屏+Deepseek，4.09万起

汽车公告板 2025-02-12 16:55:53

民进党当局对DeepSeek发禁令，国务院台办：“恐中”“反中”意识作祟

民进党当局对DeepSeek发禁令，国务院台办：“恐中”“反中”意识作祟

齐鲁壹点 2025-02-12 16:57:18

汇洲智能：公司及控股公司热热文化与deepseek无合作关系

汇洲智能：公司及控股公司热热文化与deepseek无合作关系

每日经济新闻 2025-02-12 16:52:18

泽连斯基：乌克兰计划同俄罗斯互换部分领土

泽连斯基：乌克兰计划同俄罗斯互换部分领土

新京报 2025-02-12 07:54:44

市场份额50%！ openEuler系装机量过千万国产操作系统借开源突围

市场份额50%！ openEuler系装机量过千万国产操作系统借开源突围

量子位 2024-11-19 14:35:43

蔡正元：DeepSeek开源大模型应该得计算机界的图灵奖

蔡正元：DeepSeek开源大模型应该得计算机界的图灵奖

台海青年 2025-02-08 00:00:00

原子核之父卢瑟福，原子模型震惊世界，荣获诺贝尔化学奖

原子核之父卢瑟福，原子模型震惊世界，荣获诺贝尔化学奖

东北小霞的乡村生活 2025-02-10 18:03:17

吴恩达押注Agent新成果出炉，推理新方法颠覆AI目标检测认知

吴恩达押注Agent新成果出炉，推理新方法颠覆AI目标检测认知

量子位 2025-02-11 17:02:35

花199买个固体火箭模型，真的能飞上天实现降落伞回收吗？

花199买个固体火箭模型，真的能飞上天实现降落伞回收吗？

大叔记录农村的生活 2025-02-11 13:37:43

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40

突然恶化！“白龙马”高烧超40℃，已停止进食

突然恶化！“白龙马”高烧超40℃，已停止进食

鲁中晨报 2025-02-11 17:59:50

国内两大汽车央企合并一汽被指或在整合完成后加入

国内两大汽车央企合并一汽被指或在整合完成后加入

界面新闻 2025-02-12 08:36:38

满血版DeepSeek免费用，7种国产AI芯片打通！一条“中国特色”算力路线浮出水面

满血版DeepSeek免费用，7种国产AI芯片打通！一条“中国特色”算力路线浮出水面

智东西 2025-02-12 00:02:00

荒野整理开阔土地准备建房，实木打造好费力，框架完成还是很开心

荒野整理开阔土地准备建房，实木打造好费力，框架完成还是很开心

公路车和山地车 2025-02-12 13:07:51

比亚迪宣布璇玑架构全面接入DeepSeek

比亚迪宣布璇玑架构全面接入DeepSeek

财联社 2025-02-10 21:26:48

太厉害了，把木板切成框架，就是贴瓷砖神器了

太厉害了，把木板切成框架，就是贴瓷砖神器了

小冯聊体育 2025-02-11 00:00:00

美舰船今年首次过航台湾海峡过航方式出现了"新花样"

美舰船今年首次过航台湾海峡过航方式出现了"新花样"

环球网资讯 2025-02-12 10:37:16

亚冠精英-海港客场0-4惨败神户颜骏凌扑点

亚冠精英-海港客场0-4惨败神户颜骏凌扑点

网易体育 2025-02-11 19:59:21

小伙疑看了房没买发生纠纷售楼处小姐追上车掐脖薅头

小伙疑看了房没买发生纠纷售楼处小姐追上车掐脖薅头

南北分界线 2025-02-12 08:07:31

北航推出TinyLLaVA-Video，有限计算资源优于部分7B模型

北航推出TinyLLaVA-Video，有限计算资源优于部分7B模型

机器之心Pro 2025-02-10 14:33:30

王一博强大的精神内核，从不是矫情的人

王一博强大的精神内核，从不是矫情的人

言语誓 2025-02-11 12:09:44

苹果和阿里巴巴将为中国iPhone用户开发AI功能

苹果和阿里巴巴将为中国iPhone用户开发AI功能

财联社 2025-02-11 22:13:43

为什么只有AI编程成功落地？

虎嗅APP 2025-01-14 12:02:04

DeepSeekR1模型详解-大模型训练为什么需要强化学习？

DeepSeekR1模型详解-大模型训练为什么需要强化学习？

卢菁老师 2025-02-09 08:41:35

美国纽约八大道举行游神活动网友：福建这波全球第一

美国纽约八大道举行游神活动网友：福建这波全球第一

范竹视频 2025-02-12 08:32:05

进阶必看的GitHub计算机底层神贴！架构硬件语言全资料收集

进阶必看的GitHub计算机底层神贴！架构硬件语言全资料收集

量子位 2025-01-12 12:08:17

突破英伟达封锁、打破李彦宏断言，DeepSeek凭什么逆袭？

突破英伟达封锁、打破李彦宏断言，DeepSeek凭什么逆袭？

雷科技 2025-02-10 16:45:36

女子骑电瓶车外出刚刚起步就一头扎进池塘

女子骑电瓶车外出刚刚起步就一头扎进池塘

征垣之路 2025-02-12 00:02:41

智驾独角兽爆雷，创始人失联！纵目科技七百多名员工困境待解

智驾独角兽爆雷，创始人失联！纵目科技七百多名员工困境待解

南方都市报 2025-02-11 22:16:15

用户加钱买罪受！英伟达RTX 50系列显卡遭遇蓝屏、掉驱动问题

用户加钱买罪受！英伟达RTX 50系列显卡遭遇蓝屏、掉驱动问题

钛媒体APP 2025-02-12 15:44:13

3199就能入手骁龙PC？华硕新款笔记本彻底杀红了眼

3199就能入手骁龙PC？华硕新款笔记本彻底杀红了眼

雷科技 2025-02-12 13:58:42

o3拿下IOI 2024金牌！新论文公布秘诀：AI自己设计测试时推理策略

o3拿下IOI 2024金牌！新论文公布秘诀：AI自己设计测试时推理策略

量子位 2025-02-12 15:21:59

超越思维链？深度循环隐式推理引爆AI圈，LLM扩展有了新维度

超越思维链？深度循环隐式推理引爆AI圈，LLM扩展有了新维度

机器之心Pro 2025-02-12 16:35:29

直指端侧痛点豆包向推理算力又“砍了一刀”：新模型架构最高降本83%

直指端侧痛点豆包向推理算力又“砍了一刀”：新模型架构最高降本83%

财联社 2025-02-12 14:04:40

天融信：公司发布的天问大模型已完成与DeepSeek-R1的对接

天融信：公司发布的天问大模型已完成与DeepSeek-R1的对接

每日经济新闻 2025-02-12 12:16:13

统一的多模态大模型将理解、感知、推理整个世界

统一的多模态大模型将理解、感知、推理整个世界

量子位 2024-12-23 13:09:38

登顶全球！百亿《哪吒2》里的中式内核

登顶全球！百亿《哪吒2》里的中式内核

映画君Star 2025-02-10 08:33:29

生活不是公式，幸福也没有模板

娱蜀黍ss 2025-02-10 22:01:35

被AI追杀，还要解谜逃生！UCSD等发布LLM测试神器，边玩游戏边评估

被AI追杀，还要解谜逃生！UCSD等发布LLM测试神器，边玩游戏边评估

新智元 2025-02-12 16:59:40