2022 年底,ChatGPT 以“对话即服务”的模式掀起全球 AI 革命。这场由 1750 亿参数大模型引发的浪潮将科技行业卷入了一场算力储备竞赛:云端 GPU 集群规模不断扩大,训练成本持续攀升。

然而短短两年后,这场竞赛的规则正被改写。2025 年初,DeepSeek-R1 的亮相又一次在全球掀起了热潮,其以“极少”的参数量在 GPQA、LiveCodeBench 等基准测试中接近甚至超越 GPT-4o 等千亿级参数模型,破除了“参数至上的行业迷信”。

在技术层面,作为一款推理模型,它打破传统模型开发模式,通过算法优化构建出性能强大的模型,从而降低了算力需求,让“靠硬件堆算力”的时代逐渐进入尾声。

在产业层面,它开启了 AI 普惠化,中小开发者无需斥巨资搭建算力集群,也可在智能手机、工业控制器等边缘设备上部署高性能 AI 应用。

DeepSeek-R1 的出现加速了模型向终端侧的过渡进程,未来将有越来越多的高质量小模型运行在终端设备上。而这也正是接下来的发展趋势:AI 从云端“巨无霸”向终端“轻骑兵”的范式转移。

近期,作为始终引领终端侧 AI 发展的企业,高通发布了《AI 变革正在推动终端侧推理创新》的白皮书 [1](下文简称《白皮书》),揭示了这一发展趋势的技术逻辑,同时也描绘了未来 AI 融入生活的全景图。


(来源:高通)

下面,本文将从技术突破、行业变革、生态布局三个层面解读白皮书的核心观点,并探讨 DeepSeek 的崛起如何加速 AI 从云端向终端的范式转移。



算法优化让大模型变得“小而美”

随着算法技术的发展,基于大模型进行蒸馏、量化、剪枝等一系列技术优化处理后得到的小模型,可在不牺牲质量的前提下简化开发过程,能够实现本地部署,甚至运行在智能手机、笔记本等移动设备上。

以蒸馏为例,其利用一个复杂、庞大的模型(教师模型)去训练一个更小、更简单的模型(学生模型),在迁移知识的同时保持准确性,使后者能够达到相似的性能。如今,蒸馏已经成为开发高效小模型的关键技术之一,催生出一系列高效小模型,尤其是面向特定任务调优的模型。


(来源:《白皮书》)

如上图所示,通过两个模型(Llama-3.3-70B 模型与 DeepSeek R1 对应蒸馏模型)的 LiveBench 平均基准测试数据可以看出,蒸馏在相同参数规模下可显著提高推理、编程和数学任务的性能。

要知道,DeepSeek R1“满血版”拥有 6710 亿(671B)的庞大参数,但蒸馏等技术则可以将原本需云端运行的数千亿级参数大模型的“知识”压缩至终端可承载的百亿乃至十亿级规模,使参数量大幅缩减的同时保留较强数学推理能力。

这也就是我们看到的参数规模从 1.5B 到 70B 不等的一系列 DeepSeek R1 蒸馏模型,用来满足不同场景的特定需求。那经过一系列算法技术压缩后的小模型的性能会缩水吗?其实并不会。

高通在《白皮书》中称,得益于蒸馏等技术,小模型正在接近前沿大模型的质量。量化、压缩和剪枝等进一步优化技术,有助于缩小模型规模。量化能够降低功耗,且在不明显影响准确性的情况下通过降低精度加速运算,剪枝则可以消除不必要的参数。

如下图所示,在不同模型的数学和编程基准测试中,DeepSeek R1 32B 版本的 GPQA 基准测试得分达 62.1,接近 Claude 3.5 的得分(65.0),超过早先发布的 GPT-4o 得分(49.9),而 DeepSeek R1 7B 版本的得分(49.1)与之接近。综合对比可见,通过一系列算法优化技术,小模型的性能表现逐渐接近甚至超越(早期发布的)大模型。


图|不同模型的数学和编程基准测试(来源:《白皮书》)

实际上,不只是 DeepSeek,其他诸如 Llama、Granite、Ministral 主流模型也都拥有小参数版本的模型,对比完整版大模型,这些小模型在面向特定任务的性能和基准测试表现方面也毫不逊色。

这种变革其实是由众多技术进步共同驱动的,比如,通过采用更长的上下文文本并简化部分训练流程,可以有效降低对计算资源的需求;再比如,最新的网络架构(包括从混合专家模型(MoE)到状态空间模型(SSM)),能够进一步减少计算成本和功耗等。

因此,借助算法优化技术将大型基础模型“浓缩”为更小型、更高效的版本,不仅能实现更快的推理速度、更少的内存占用和更低的功耗,同时可以保持较高的性能水平,适合部署在智能手机、笔记本甚至汽车等终端侧设备上,能够本地运行复杂 AI 任务,比如实时翻译、代码生成和多模态交互等。

正如高通技术公司高级副总裁兼技术规划和边缘解决方案业务总经理马德嘉(Durga Malladi)所指出的那样,“随着模型规模的不断缩小,模型的质量仍在不断提升。这意味着如今终端上运行的模型已经有非常出色的表现。”

“从全局来看,AI 进入了一个新的发展阶段,尽管模型训练、聚合仍将在云端进行,但同时模型推理将在终端进行,带来卓越的性能、隐私性及安全性,同时大幅度降低时延,也就是我们所称的即时性。此外,这些模型和用户体验也可以面向消费者和企业实现个性化。”他补充说。



越来越多模型加速“落户”终端

随着模型越来越小、性能越来越强,终端设备上跑 AI 早已成为现实,而这也带来诸多优势。

首先,本地部署模型具有低延迟、高效率,并且离线也可使用。由于所有计算任务均在终端设备上执行,无需依赖网络请求,对于那些对实时性要求极高的应用尤为合适,比如实时翻译、语音识别、自动驾驶,以及工业检测等,只要终端设备拥有足够算力就能带来非常优秀的即时性能。

举个例子,DeepSeek-R1 自发布后迅速走红,用户量爆炸式增长,很多用户在使用中都频频遇到“服务器繁忙,请稍后再试”的提示,而把模型部署在本地以后这一问题便可以解决。

其次,隐私方面。由于无需将数据上传到云端,可以有效防止数据泄露,尤其是在金融、医疗、法律等领域,这一点尤为重要。

最后,成本方面。由于没有 API 订阅费用,可大幅减少长期使用的成本。据 Artificial Analysis 估计,OpenAI 的云推理成本为 4.38 美元/百万 token,而在终端上运行几乎是免费的。

虽然把模型部署在终端设备有一定门槛,但这个门槛正变得越来越低:一方面是上面提到的模型越来越小,性能越来越强;另一方面,终端设备芯片算力不断提升。事实上,随着模型从云端向终端渗透,这也催生并加速了行业对终端设备高算力芯片的需求。

在这个过程中,高通凭借自身在硬件整合、软件生态、跨领域覆盖以及与合作伙伴协作等方面的全方位优势,在持续推动 AI 在终端侧的规模化应用。

在硬件方面,通过定制 NPU、CPU、GPU 和低功耗子系统,开发高能效的 SoC(比如骁龙 8 至尊版以及骁龙 X 系列平台),支持终端设备执行复杂 AI 任务;在软件方面,通过提供高通 AI 软件栈、AI Hub 等工具,简化模型优化与部署,加速开发者创新周期。

细分领域来看,比如针对工业物联网,高通推出的 AI 边缘计算方案(Qualcomm AI 本地设备解决方案和 Qualcomm AI 推理套件)可以让敏感客户数据、调优模型和推理负载能够保留在本地,增强隐私性、可控性、能效和低时延;此外,高通推出的 Wi-Fi 联网平台(高通 A7 Elite 专业联网平台)集成了 AI 技术和 Wi-Fi 7 标准,使路由器与接入点能够直接在网络内为各种智能设备执行高效的生成式 AI 推理。

在车机端,高通骁龙数字底盘解决方案在其情境感知智能座舱系统中使用终端侧 AI,增强汽车安全和驾驶体验。通过利用摄像头、生物识别、环境传感器以及多模态 AI 网络,可提供根据驾驶员状态和环境条件而调整的实时反馈和功能。


(来源:《白皮书》)

具体而言,为提升自动驾驶和辅助驾驶系统的性能,高通设计了一套完整的解决方案,利用大量真实路况数据和增强的 AI 数据进行快速训练,并支持通过 OTA 升级系统;此外,它还涵盖一个软件平台能够在车机处理多种类型的数据(包括图像、声音等),并通过因果推理来更好地理解复杂的交通状况,让自动驾驶和辅助驾驶更加智能和可靠,适应现代道路的各种挑战。

在 PC 端,高通推出的骁龙 X 系列平台,专门为实现高性能和高能效推理而开发的 NPU 进一步提升了 Windows 应用程序的表现,通过在终端设备上进行推理,用户的敏感数据无需上传至云端,从而进一步增强了隐私保护。比如 Zoom、剪映等流行的第三方应用,基于骁龙 X 系列平台的 NPU 为 Windows 11 AI+PC 提供特定的 AI 功能,可以带来更快速、更安全的用户体验。

在手机端,高通推出的骁龙 8 至尊版移动平台,让越来越多的智能手机具备 AI 推理能力,也催生出了更多种类的 AI 应用程序和助手,比如文档摘要、图像生成与编辑以及实时翻译等。

更为关键的是,AI 还可以通过预测用户需求并主动执行复杂的工作流程来进行决策和任务管理,而这,将成为下一代用户界面(即 AI 智能体)的核心。

“因此我们关注的焦点已不再是模型本身,而是演进到终端上的应用发展。”马德嘉指出,“随着终端侧可以运行越来越多高质量的模型,越来越多的 AI 应用和用例开始涌现。AI 正在重新定义所有终端的用户界面,这也意味着,AI 正在成为终端侧新的 UI。”他补充道。



交互范式迎来变革:“AI 正在成为新的 UI”

传统意义上,UI 无非是图形用户界面(GUI)或是命令行界面(CLI),随着 AI 的渗透,通过自然语言,或语音、手势等多模态方式进行交互成为未来趋势。

《白皮书》中指出,“AI 正在成为新的 UI。”在高通看来,AI 智能体是下一代用户交互的核心,它将简化交互,通过预测用户需求,并在终端和应用内主动执行复杂工作流,高效地跨越各种应用进行决策和管理任务。

要知道,传统 UI(如按钮、菜单)依赖用户明确操作,而 AI 驱动的 UI 能通过分析用户行为、环境数据和上下文,主动预测需求并提供服务。例如,根据日程自动调整设备模式、预加载常用应用等。

同时,AI 的加持实现从单一到多模态“升维”,交互不再局限于点击或输入,而是整合语音、手势、视觉(如摄像头识别情绪)、传感器数据(如位置、光线)等多种输入方式,形成更自然的“类人”交互体验。

这意味着,AI 不仅仅是被动响应用户指令,还能够主动预测需求并执行任务,这是交互方式从被动到主动的根本性转变。

从这个意义上讲,AI 作为 UI 不仅仅是交互方式的转变,也标志着交互范式的变革,从“人适应机器”转向“机器适应人”。

“包括语音/音频、文本、图像、视频和传感器数据等不同类型信息输入,不再直接应用于某个具体的 App,而是先传输到 AI 智能体。随后,AI 智能体对其进行相应的处理,再将工作负载分配给后台的不同应用。”马德嘉解释道,“对于用户而言,AI 智能体就是唯一在前端与他们交互的 UI,而所有实际应用的处理都是在后台完成的。”


(来源:高通)

云端算力固然强大,但面对这类即时响应、个性化的用户交互难免“力不从心”,而这恰恰是终端算力的主战场。

高通借助 NPU、CPU、GPU 等硬件优化,在手机、PC、汽车等可实现低延迟、高能效的多模态 AI 处理。比如,在手机上直接进行实时翻译、AI 图像编辑、个性化推荐等;在汽车上通过摄像头和生物识别监测驾驶员状态,自动调整驾驶模式或发出警示。

如上文所述,通过硬件创新(高性能 SoC)、软件生态(AI Hub、AI 软件栈)和跨领域布局(手机、PC、汽车、工业),高通与众多合作伙伴正推动 AI 从“功能附加”转型为“交互核心”,让 AI 更隐形、更人性化地融入人们的日常生活。



AI 变革加速推动终端侧推理创新

随着训练成本的降低、快速推理部署,以及针对边缘设备的新技术不断涌现,AI 产业正在经历一场重大变革。业界的关注点不再仅仅是单纯地通过拼算力、堆参数来构建超大模型,而是更多地转向如何在实际应用中,尤其是在终端设备上高效地部署和使用这些模型。

值得一提的是,近年来,高效小模型的发布数量变得越来越多,或将在未来占据主导地位。如下表所示,据 Epoch AI 发布的统计数据,2024 年发布的大模型中,有超 75% 的模型不到 1000 亿参数。


(来源:《白皮书》)

毕竟,经过算法优化后“小而美”的高质量小模型,在特定任务性能表现、成本、能耗,以及本地部署等众多方面都更具优势,与此同时,越来越多高效小模型的涌现可供开发者选择并帮助他们进行应用开发。

凭借“硬件 - 软件 - 生态”的全栈能力,高通与合作伙伴正引领 AI 从“云端训练”向“边缘推理”的转型,推动 AI 技术更高效、更普及地融入日常生活与行业应用,开启终端侧 AI 的新时代。

不久的将来,AI 应用将更加智能、高效且无处不在,就像由斯派克·琼斯执导的科幻电影《Her》中的虚拟人工智能助手萨曼莎,每个人的智能手机中都拥有一个 AI 智能体。

正如高通公司总裁兼 CEO 安蒙所预测的那样,“五年后,大多数应用将成为 AI 优先的体验,若要大胆一点,我认为在两年后就将看到改变。”

参考资料:

[1].https://www.qualcomm.com/content/dam/qcomm-martech/dm-assets/documents/ai-disruption-driving-innovation-on-device-inference.pdf

[2].https://www.qualcomm.com/news/onq/2024/12/how-ai-on-the-edge-fuels-the-7-biggest-consumer-tech-trends-of-2025

ad1 webp
ad2 webp
ad1 webp
ad2 webp