智谱AI CEO张鹏：担心Scaling Law碰到天花板，为时过早

环境持续变化，时代总在迭变，“商业之王”们紧随时代浪潮，坚持创造，谋求新动能。立足中国经济大转型的当下，WISE2024 商业之王大会，一同发现真正有韧性的“商业之王”，探寻中国商业浪潮里“正确的事”。

11月28-29日，为期两日的36氪WISE2024 商业之王大会于北京隆重召开，作为中国商业领域的全明星盛典，WISE大会今年已经是第十二届，在不断变化的时代里见证着中国商业的韧性与潜力。

2024，是有些模糊且变化多于稳定的一年。相比过去十年，大家的脚步正放缓，发展更加理性。2024，也是寻求新的经济动力的一年，新的产业变化对每个主体的适应性提出了更高的要求。今年WISE大会以Hard But Right Thing（正确的事）为主题，在2024，什么是正确的事，成为我们更想交流的话题。

在上午的WISE会场上，智谱CEO张鹏对近期的AI热议话题，以及AI发展阶段做了一次题为《GLM大模型与通用人工智能》的分享。

智谱AI是国内大模型明星初创。早在OpenAI的ChatGPT推出之前，国内还没有多少人深入大模型领域之时，智谱AI就已经开展了大模型的探索。

GLM大模型作为通用人工智能的重要基石，不仅融合了深度学习的强大算力与泛化能力，更在语义理解、知识推理等方面展现出卓越的性能。

在演讲中，张鹏不仅回顾了人工智能领域发展的经典曲线，并且也对近期大模型领域Scaling Law碰壁、大模型研发进度延缓等热门话题，进行了阐释。

张鹏表示，但本质上，从研究、技术角度来看，这一代大模型并不像上一代的人工智能技术。随着语言能力的大幅提升，大模型在包括视觉、听觉等其他模态上，还有长足的发展空间。

“大量研究人员在做新的突破，每一次新的突破都会带来一些新的机会，我们担心碰到天花板或者碰到南墙，这个事情确实是有一点过早。”张鹏说。

此外，张鹏也提出了AI的五个发展阶段，包括语言能力、逻辑思维能力、工具调用能力、自我学习能力等。

张鹏

以下是张鹏的演讲实录：

张鹏：大家中午好！已经过了12点了，在外面很冷的情况下馆里面还热火朝天，现在还在这儿听我讲的应该是真爱。

今天我在来的路上在想应该跟大家聊什么事情，我们的市场部要求比较早做出来，交给我们的主办方，可能里面的内容还是我们之前准备的一些东西。

最近两天大家也在讨论一些新的东西，包括Scaling Law是不是已经碰到天花板，大模型这个事情是不是还会走下去，有很多的看法，我也不断被大家来问这样的问题。所以我也不一定会按照这个里面的所有内容来讲，还是跟大家讲一讲我们最近的思考。

这是今年年中发布的关于人工智能曲线，可以看到这上面有很多跟人工智能，跟大语言模型相关的词汇，这些词处在里面不同的位置上，也代表着公众对于这件事的关注度。我个人理解，现在已经越来越像舆论，媒体热度的曲线，而不是真正技术引领上的曲线了。

大家可以看到，里面有很多的新的东西，包括具身智能、智能体等等的技术，仍然处在非常快速上升的曲线上。所以，从这一波人工智能发展的角度来看，当下还是处在非常快速上升的阶段。

所以，大家因为Scaling Law撞墙，就担心整个行业会突然进入低谷期，这个担心可能有点多余。就像我们担心人工智能会统治人类一样，还有点太早，不妨让子弹飞一会儿。

在非常狭窄的意义上来说，Scaling Law确实遇到了一些挑战。可以看这条曲线，在语言能力上，单单从语言能力上来看，大模型确实已经类似到了上一代人工智能遇到的天花板问题：所有的能力已经接近了人类的极限、人类专家可以评价的极限。

大家可以回想一下，上一代人工智能之所以进入发展瓶颈期，就是因为这个，我们人类已经没有办法教AI如何来突破了。我们人类的天花板在那儿摆着，所有数据，喂给AI的数据都是来自人类。是不是能突破这个天花板？这可能是现在大家要想的问题。

这是从语言模型的角度来看。但本质上，从研究、技术角度来看，它不像上一代的人工智能技术。

上一代人工智能技术底层的神经网络、卷积神经网络等等，现在看起来还比较简单，基本上大家已经非常快速收敛，并且趋于稳定了。

但是预训练模型或者大训练模型底层的研究，仍然在非常快速地迭代，还有大量空白的空间，大量研究人员在做新的突破，每一次新的突破都会带来一些新的机会，我们担心碰到天花板或者碰到南墙，这个事情确实是有一点过早。

我们刚才说的是语言模型，语言模型确实碰到了很现实的问题，数据好像都喂进去了，智能提升速度已经有一些放缓。但是除了语言之外，还有很多的事情，比如说视觉、听觉，这些空间还非常非常的大。

比如，视觉理解还有大量的问题需要去研究。对于人眼所看到的复杂情景，现在的模型还不能很好地全面地类比，跟人类的差距还是非常非常明显，这里面我们还有很多事情要做。

我们最近也在这方面花了很多的力气做这样的事情，让我们的视觉理解的能力跟硬件、端侧的设备结合，让端侧设备具备更强的理解能力。因为我们现实世界很多的任务，都是要结合不同模态信息的输入，包括语言、视觉、听觉。

总结起来看，我们可以看这一张图。我们把人工智能发展的阶段、进步的阶梯分为五个层次，其实OpenAI也有类似的分法。

在我们的理解里面，前三级跟OpenAI非常类似。首先，最简单的、最重要的是语言能力，以及其他模态，我们统称为多模态能力——视觉、听觉还有大量的空间。

第二层，逻辑思维能力，也是最近大家热议的OpenAI的o1。我们国内也有很多的团队在做强推理能力，复杂问题解决能力的模型，也在持续往前演进。逻辑推理能力上，我们大概能走到接近60%的人类水平。

再往上，我们怎么让大模型，AI长出手脚，使用各种各样丰富的工具，产生更大的生产力，也就是工具调用的能力，也是最近热议的一件事。

我们最近也有小小的突破，让 agent 帮助人操作手机上的APP，PC上的应用，解决一些重复性的、过程性的工作。

再往上，可能（和OpenAI）略微有一些差异，我们认为四五两级分别是AI的自我学习能力。

人的能力、人的智能之所以能持续不断的更新迭代，在于人是有自我学习能力的。人可以在不断的实践，反馈当中不断的提升自己，创造新的数据、经验、智能、工具，这些能力才是人类往前得以突进，创造新事物的核心能力。

我们希望AI能够具备更强的自我学习能力，这样才有可能像人一样去突破现有的天花板，创造新的东西，未来利用这种能力去探索、研究、寻找科学的新边界。

我们最近做的一件事，包括在多模态能力上研究如何把视觉、听觉能力，声音的能力融合起来，加上非常强大的语言理解能力，去解决现实当中的一些问题。

OpenAI对于人工智能发展的分级发展脉络，叫通用人工智能之路，大家可以看到清晰的演进路线。大语言模型到多模态，到工具的使用，到自学习，我们可以看到整个路径是非常清晰的。

为什么会这样？语言是基础，人类本身的大脑智能就是多模态的，再使用工具连接物理世界，最终实现自我学习。

我们跟脑科学研究的专家、神经科学专家等等跨学科的专家一起来做了一些探讨。现在人工智能技术的演进，已经触及到通用人工智能的一些方面。

人类的大脑分区块，多样化，这是现代脑科学证实的事情，包括语言能力、逻辑推理能力、视觉能力、触觉能力、运动能力等等。彩色部分，其实是现在AI或者大模型已经触及到的部分，灰色的部分，是我们暂时还没有触及或者相对比较少的部分，包括手脚这种使用外部工具的能力。就跟刚才我们画的阶梯状图一样，在自然语言的理解和使用这方面，已经接近人类最好的上限。

在逻辑推理、情感、创新方面、工具使用方面，我们也有一定的突破，但是仍然还有一些地方仍有大量的空白，所以下一代的Scaling law到底是什么？我们可能在这些空白区域，或者说发展得还没有那么完善的区域，去找到更多的Scaling law发挥效果的地方。

在这个过程里，我们可以发现，智谱的发展路径其实是在对标OpenAI。对标OpenAI，在于我们的理念非常相似。我们认为，人类智能或者通用人工智能一定不是单向能力上限的突破。

大家想一想，上一代人工智能，不管是NLP（自然语言处理）还是计算机视觉，单向能力上限突破最终结局是什么？仍然是工具型的成果，无法解决现实生活当中、我们期待解决的通用性问题，只能利用大数据解决小任务。

这一代生成式人工智能或者大模型能够解决的问题，恰恰是另外的问题，我用大数据、小任务，简单的任务进行训练，去解决更多的问题，这才是这一代生成式人工智能要解决的核心问题。

但是要解决多样化问题，一定是多项目能力的组合。很难想象大家在日常工作的任务当中，或者说跟社交的生活当中，只使用一种感知能力，仅仅只使用一种感知能力，这是很难想象的事情。

解决现实生活、工作当中的问题，一定是多项能力的组合，这也是为什么我们做各种类型的，不同模态各种能力的全面组合。

我们8月份新发布的新一代模型，是包含了各种能力组合的产品矩阵，从文本能力开始作为最好的底座，上面结合视觉、语言、代码能力，我们让它能够具备全面的、通用化的能力，来面对通用化的任务。

8月，我们也接受了业界、学术界、公众公开的评测和检查检验，效果还是非常不错的。四代的模型跟国际上第一梯队模型打得有胜有负，这是我们很欣慰看到的事情。

在这个基础之上，还会有更新的能力，比如视频生成的能力，我们做了全新升级，有更高的码率，每秒60祯视频生成，更高的4K清晰度，更逼真的画面，并且还可以结合我们的声音能力，为视频自动的进行配音。

大家知道，电影从默片到有声电影的进步，是电影史上非常重要的跨越，视频的生成从完全无声画面，到能够同时生成配音，也是巨大的进步，表示着我们再一步向物理世界的理解和生成迈进一步。

我们不仅能够生成更高清晰度的视频，而且视频比例，更高的生成速度，多通道同时生成多个视频，这样大家可以效率更高一些。

这是AutoGLM，让大家体验用语言、语音操纵手机的能力，相信关注我们的朋友，最近也看过这样的视频介绍，体验过我们相应产品的内测。