单一模型无法解决生产级问题,AI落地产业有三要素。

2025中国生成式AI大会于4月1日-2日在北京举行,在大会首日GenAI应用论坛上,枫清科技创始人兼CEO高雪峰以《知识引擎和大模型双轮驱动的下一代行业智能体平台》为题发表演讲。

自2021年成立以来,高雪峰介绍到,枫清科技(Fabarta)在过去的几年当中一直致力于把人工智能的技术跟实际的产业落地的场景融合在一起,完成真正的AI产业落地。

总结过往经验,高雪峰认为AI技术在产业中落地有三个关键要素:知识引擎、行业大模型、智能体平台。要把生成式AI技术应用到产业端,最需要实现决策智能。

对此,枫清科技采取了以数据为中心的AI平台架构落地的范式,还推出知识引擎和行业大模型双轮驱动的智能体平台,帮助企业实现多场景价值落地。

以下为高雪峰的演讲实录:

今天将提及三个概念:第一是知识引擎,我们属于多模态的知识引擎;第二是懂行业的行业大模型;第三是行业的智能体平台。

当人工智能技术真正融入产业时,必须具备这三个要素,才能实现平台驱动下多价值场景的人工智能技术落地。

我们先回顾这张图,大家应该在很多场合见过,它展示的是人工智能的发展历史。我们都清楚,“人工智能” 一词于 1956 年的达特茅斯会议被提出。


自人工智能概念提出至今,至少经历了两个波峰与两个寒冬。

第一个是在最开始,我记得在一个跳棋程序中,人工智能借助机器学习战胜了所有人类棋手,致使1956年的人们就宣称人工智能时代即将来临。

然而,不到十年,因算力不足无法将机器学习能力提升至超越人类专家水平,行业迅速进入首个寒冬。

随后,基于符号逻辑推理的专家系统诞生,即我们所说的 “符号与知识工程”。这推动人工智能迎来第二个波峰,各行业涌现出大量专家系统。

但人们逐渐发现,此类系统难以突破认知局限,无法向通用知识拓展,且构建成本高昂,行业旋即陷入第二个寒冬。

此后,深度学习技术不断发展,直至当下,我们已共同见证人工智能拥抱产业的意义重大波峰来临,或即将到来。

这一阶段的标志性技术成果,就是那篇有关Transformer的论文。深度学习与强化学习的发展,已让我们认识到泛化智能的存在。

我们常混淆一个概念:将大语言模型或多模态大模型这类生成式人工智能,误作通用智能。

而把生成式人工智能技术应用到产业端,最需要的是决策智能。

生成智能到决策智能的演进是一个漫长且需构建诸多技术壁垒的过程,无法单纯依赖基于概率的Transformer技术实现跨越。

所以,纵观AI发展的历史,只有把符号逻辑推理和概率体系深度融合,才能真正地从生成式智能迈向企业需要的决策智能。


在过去两年,大家对人工智能领域的关注点发生了转变。

第一,起初人们多用大语言模型聊天,如今越来越多的人开始关注人工智能技术能否真正融入产业,并带来产业价值的切实提升。

我国也在这两年提出了人工智能+的概念和理念,并写进了政府工作报告,强调人工智能与产业融合,发挥新质生产力的作用。

第二,以往人们以模型为中心进行探索,如今逐渐转向以数据为中心,或模型与数据双中心的体系架构。

还有最重要的一点,大家不再盲目追求巨量参数模型,而是在模型参数增大、泛化能力提升的同时,开始注重逻辑推理能力的增强。

因此我们知道,连接主义、符号主义、行为主义(即具身智能)三者融合,才能开启真正意义上的强人工智能时代。

一、用平台驱动解决人工智能产业落地的四大挑战


那么,生成式的人工智能技术在产业端落地,一定会遇到几个无法绕开的问题:

第一是模型幻觉。无论大语言模型或多模态大模型多么强大,都不可避免存在幻觉,即所谓 “一本正经的胡说八道”。

第二是可解释性。任何大语言模型给出决策建议时,都无法提供该建议背后详尽的逻辑依据。

第三是推理能力。即使我们通过强化学习改进模型COT(思维链)的推理能力,但其精准推理仍存在幻觉问题。

所以在企业决策场景中,如果涉及精准推理,还是需要其他技术辅助完成。

最后是企业级的能力以及数据的安全和时效方面的考虑。

针对以上人工智能技术在企业落地必须考虑的问题,枫清科技采取了两个步骤:

第一,落地以数据为中心的人工智能平台架构范式。

第二,推出知识引擎与行业大模型双轮驱动的新一代行业智能体平台,辅助企业实现人工智能场景价值落地。

这里有诸多具体且有价值的创新:例如,我们把图结构跟向量、JSON以及各种原文的文本信息进行多模态的存储和计算;

同时自研Hybrid RAG体系,能够更容易地提取多元异构数据与大模型的提示词(prompts)相结合,融合企业的多模态数据与AI能力,智能化构建知识。

我们给大型的产业或是企业去做人工智能的场景落地时,一定是用平台驱动的方式。

二、人工智能平台架构的演进:从烟囱式到统一汇聚、双轮驱动

回到人工智能平台,我相信大家对此都不陌生,早在十年前我们就在谈人工智能平台的概念。

接下来来看看我们的行业智能体平台有什么不同:


从六七年前我们做人工智能平台的时候,应用场景、数据以及模型各自独立,像一个个 “烟囱” 般存在。所以,那时的人工智能平台更像是人工智能应用的交易市场(marketplace)。随着大语言模型的推出,所有的模型慢慢地汇聚到一个或者几个大模型体系中。

同样的,我们会把企业的所有的多模态数据汇聚到企业统一的知识引擎中。如此一来,底层的数据知识与中间层的模型至少已逐步完成了汇聚整合。

这种汇聚使得人工智能平台驱动并实现多场景价值落地成为可能。

那么我们也不是单纯拿一个现成的大模型,或者对一个行业模型进行调优,又或者给企业提供一款产品,让其开箱即用就实现整个产业的智能化,这是完全不现实的。

我们会通过行业智能体的平台,结合统一的模型、数据和知识,从而赋能企业当中丰富多样的智能化场景。


在切实帮助企业进行人工智能产业落地的时候,一定会经历这样的几个阶段:

第一个阶段是关注。现在大家已经不用强调这一点了,从春节期间DeepSeek火爆出圈以来各行各业基本上都会与我们的团队交流:我们想要运用人工智能,改变场景价值和实际产业价值,我们可以有什么样的路径?

第二个阶段是评估。我们需要对企业的数据状况,以及企业对想要实现的人工智能场景价值的预期,进行梳理和评估。

接着是设计阶段。要明确企业实施人工智能时,其智能化应用的具体形态。

最后才是搭建平台。在搭建好的平台上选取1至3个试验性场景来落地实施。由于模型能够完全整合在一起,底层的数据和知识也可随着不同场景的实现而汇聚,进而真正达成平台驱动。

这是我们给所有的产业中的龙头企业、大型企业,赋能全平台实现人工智能场景落地时,一定会采用的企业架构。


最底层存在典型的基础设施,涵盖不同的大模型、模型工厂,甚至还涉及模型训练推理的加速等基础能力。

然后行业的数据集是不断地要丰富的。

大约两年前,我们跟所有的大型的客户、链主企业沟通时发现,他们只构建了最底层的基座,然后就要拿底层基座的能力去赋能上面丰富的场景价值,结果遭遇了前文所提及的大语言模型在产业落地过程中的各类问题。

因此,我们帮他在中间加了一层,即构建企业的知识中台。

其中包含我刚才所提到的,我们需要智能化地搭建企业多模态知识引擎,还需构建契合该行业的智能体平台,从而真正通过以数据为中心的这一层,将底层的模型与上层丰富的智能化应用连接起来。

三、从数据到知识再到应用:做真正懂行业的模型

谈到我刚才提到的三要素,我们先看一下懂行业的模型。

我前一阵跟一位三甲医院的科室主任交流,他提到自己正在使用DeepSeek满血版本的大模型,把所有复杂的病例扔进去,让它给出诊断建议(不是诊疗建议),据他所说,该模型的表现已能达到真正研究生或博士水平的 80%-90%。

这是由于在这个细分行业里,大量开放的诊疗路径、医学文献等相关数据,都已纳入到泛化的大语言模型的训练数据之中。

所以,在任何一个精准行业里,其实我们很少会对大参数的模型进行微调,因为拿少量的数据进行微调反而会造成“泥牛入海”的反作用效果。


但是,懂行业的模型的需求依然存在。

在与诸多龙头行业合作时,我们发现像新材料这类公开数据较少的领域,需要利用行业的推理数据来蒸馏出规模并非很大的模型,尽管生成这些推理训练数据颇具难度。

这里面存在两个关键诉求:

第一,细分行业的数据具有特殊性,不会出现在自然界的公域数据中。所以我们必须依靠这些独特数据来训练行业模型,以提升模型在该细分行业的推理和生成能力。

第二,模型尺寸问题。考虑到企业在端测、边测等场景下的模型推理需求,我们需要从大参数模型中蒸馏出一些中小参数模型,来实现云边端模型智能一体化的效果。


其次是我们提到的知识引擎。这是我们对整个行业的多模态数据,用AI的方式智能构建相应知识引擎的具体步骤。

我们把传统的数据存储和计算转变为知识的记忆和推理,并开放基本问答、智能问述、权限管理、安全管理以及知识反馈等众多企业级能力。通过智能体平台的智能体大脑,连接各类处理和分析数据的工具,最终赋能多场景价值的应用。


这里要特别提到,只有符号逻辑推理、概率和向量融合在一起,才能产生更智能的价值。

我们将图的数据结构融入产品的每个角落,把多模态数据各种描述信息的元数据,整个成一张庞大的企业数据资产地图。同时,抽取文本、视频等非结构化数据的元数据,借助图结构构建知识体系。

企业结构化数据(如数仓和数据源里的数据)之间存在如血缘关系、列算子级血缘等复杂的关系,我们可智能构建呈现此类结构化数据的图结构复杂关系。

并且,还能把结构化数据中的复杂血缘关系,与企业文本中的实体和文本向量化数据,进一步构建出更复杂的关系。


这是我们完整的企业工作流:把多模态引擎的知识数据与企业知识库中的数据相结合,再配合行业模型,借助智能体大脑,优化梳理知识库与各类数据、智能问述、指标以及科技情报等分析之间的基本链路逻辑。

四、行业智能体平台赋能产业:场景案例全解析

这是我们为头部央企实施的方案:基于知识引擎与行业模型,融合开放、基础的通用智能体能力,通过深谙企业知识的智能体大脑,将其赋能于企业全产业链周期与版图,真正实现了以企业内部知识驱动的人工智能多场景价值落地。


更深入的举几个例子,比如说我们可以帮助企业实现更精准、丰富的知识问答,这并非简单上传文档后进行泛化聊天。

企业级的知识问答会涵盖复杂的权限管控信息,甚至会精确到这个用户不能问该Excel文件里相关的任何的信息,或者是只有经理级别的员工才能访问某文件夹里面所有文档内容。

我们都知道,这是无法通过向大模型投喂全部数据并微调来实现的,但是我们知识引擎就能够解决这样的问题。


还有企业的智能指标管理。这也并非传统BI报表叠加自然语言处理形成的ChatBI,它是具备多模态数据深度根因分析能力的。

举个例子,财务报表场景中,二级公司做账时可能将退款误纳入收入计算,导致收入虚高并与供应链数据严重不匹配。此类问题仅凭 ChatBI 或常规数仓指标报表难以发现。

但是通过多模态数据——链接了所有供应链的详细数据,系统可精准识别上述风险点,提示财务收入确认与供应链信息存在显著矛盾。

这才是真正意义上的企业智能决策辅助。

再包括我们在辅助AI科技情报上面也做了大量特定的知识处理,比如论文、专利、各种实验数据等等。

在特定的领域里面,如晶体、化工催化和蛋白质新材料领域,都有十分复杂的论文或数据结构表达,天然地与图和向量融合的分布式存储模式匹配起来。

基于此,我们就能够在精准的知识逻辑上做复杂的推理,调用模型的生成能力,生成相应的文章、综述和翻译等等。

还有一个多模态领域的应用就是企业的安全生产。这个场景涉及高频的实时视频流反馈,我们会通过综合分析复杂的产线标准作业流程(SOP)及各类操作手册,识别产线操作中的风险点,并预判可能引发的严重后果。


在科技情报的领域里面,前两天我们刚刚跟中国中化与吉林大学的计算机学院成立了“AI + 新材料”的联合实验室。

依托我们的知识引擎和智能体平台能力,真正地推动传统的科学计算的产业链的信息向新一代AI技术智能规划的转型,为传统科学计算领域赋予了强大的生成式智能化能力。

同时,结合公域和实验室积累的科技情报的知识性数据,我们会在不久的将来开放高质量材料数据及科学计算智能化服务,面向全社会共享。

此次新成立的联合实验室,正是产学研一体化的典型实践案例。

最后分享一个小型的、基于复杂的架构的知识引擎和行业智能体平台以及我们的智能体大脑产生的,针对金融客户的智能指标问述的例子。

下面为大家详细解读,我们以企业的不良贷款这一指标进行深入分析。


首先,智能体大脑会调用多种展示工具、生成工具和分析工具,以此来理解用户的需求,并智能检索数仓及指标中的各类数据,以丰富多样的形式将这些数据展示出来。

其次,智能体大脑不仅能完成上述操作,同时也能调用最基本的线性分析的回归计算等传统的小模型,借助这些模型为用户解读数据的基本规律。

再者,除了展示数据和分析规律外,智能体大脑还具备多维度分析能力,其中涵盖了最基本维度的根因分析。

除此之外,我们也能够进行相应的预测,即判断这个指标数据后期的发展趋势。

最后,文本中的全部数据和信息都被融合到了统一的底层知识网络中。

此时,我们可以发现,企业知识库的信息以及金融监督管理局的所有风险数据,都会自动融入我们的知识网络,这一过程是智能构建的,无需人工进行数据提取、标注等任何操作。


我们会梳理金融监督管理局的各项要求,以此判断具体违反了哪些规定。针对不良贷款超标的情况,可总结出可能由两个事件原因导致。

此时能够追溯众多数据源头展开分析。具体而言,情况分析客户在更丰富的企业数据图谱中存在哪些不良交易,或者存在何种风险实控情况;也包括客户在企业数据图谱上,是否有不良交易,以及风险实控人的担保风险状况。

这些都可以通过庞大的地下链接到一起的知识网络,通过智能体的大脑去分析所有的原因。

这就是我们展示的一个关于智能指标的例子。它不再是单纯的BI工具套上自然语言的外衣,而是真正地去重构了指标和BI体系的底层数据到知识的管理架构,是智能化高效地建立的知识体架构。

今天我简短的分享,是为了表达:人工智能各种技术要真正在实际的企业或者产业中落地,并带来实现高价值场景,绝非依靠单一产品、单一技术或单一模型就能解决,这是一个复杂的、生产层面的问题。

只有我们把各种人工智能技术融合成生态跟产业相融合,才能真正地让我们当下都非常痴迷的人工智能技术的生命力变得更加完全和繁荣。

以上是高雪峰演讲内容的完整整理。

ad1 webp
ad2 webp
ad1 webp
ad2 webp