【GET2024】声网钱奋：AI + RTE 驱动教育产品的颠覆式创新机遇

声网教育行业负责人钱奋在GET2024分享

11月11日至12日，芥末堆在北京举办以“新质学习力，通向更美好的教育未来”为主题的GET2024教育科技大会。在11日的领袖论坛上，声网教育行业负责人钱奋就《AI + RTE 驱动教育产品的颠覆式创新机遇》进行了主题分享。

以下为演讲实录，经编辑：

熟悉声网的朋友知道，声网不是一家教育公司，而是一家全球化技术公司，我们为全球的客户提供实时互动的技术方案，满足他们对实时互动的需求。今天想跟大家分享AI+RTE实时互动技术会带来什么改变，特别是对教育行业来说。

今天的演讲分为四个部分：

一、声网介绍二、生成式AI时代的趋势和发展方向三、AI+RTE催生教育新机遇四、声网AI Agent服务平台

一、声网介绍

声网专注于RTE实时互动领域，是该领域的开创者，定义这个赛道的玩法和业务，我们还有首创全球实时互联网SD-RTN™。

作为RTE行业的领导者，声网的市场占有率稳居第一，我们有50多项自主创新专利，全球注册应用数74.2万+，单月支撑通话分钟数700亿+。

声网RTE图谱显示，声网已经覆盖20+行业和200+场景。和教育相关的在线教育的所有场景，包括1对1、小班课、大班课、AI自习室、在线自习室，声网都有覆盖到。

二、生成式 AI 时代的趋势和发展方向

AI这两年发展非常快，为各行各业带来了很多变化，一些行业甚至受到了较大的冲击。在我们看来，随着AI发展，教育行业是受益较多的行业。生成式AI到来之后，出现了几大趋势：

趋势一：终端的进化将以对大模型的能力支持为核心驱动。大模型对语音、实时图像、自然语言有非常强的理解力，能使终端和交付变得更加自然和流畅。以预订机票为例，传统的方式一步一步操作，但是当手机变成私人助理，人们对手机说订明天去北京的机票，手机就会根据日历和行程，直接推荐航班。
趋势二：所有软件都可以或将会用大模型重新实现。这也是基于大模型本身非常强大的通用力。所有的软件可以依赖于大模型能力，优化场景、功能。举一个例子，目前的一些CRM系统都有这样的能力，可以精准分析所有客户的资料，并且为销售人员提供非常精准的销售策略，从而大大提高销售效率和客户满意度。
趋势三：所有云都需要具备对大模型训练和推理的能力。所有大模型训练和推理能力需要大量的计算资源，云有天生的弹缩能力，企业可以配置一些资源，并不需要购买非常昂贵的实体资源，云会有非常好的数据安全合规能力，甚至还可以对一些AI应用快速回应。
趋势四：人机界面从键盘、鼠标、触屏变成自然语言对话界面（LUI）。大家可以明显感受到，以前在与机器交流的时候，都是通过图形、手机的触摸来实现，现在人机交流可以通过对话式的语音来进行，真正贴近人与人交互的流畅。

在声网看来，生成式AI的发展中OpenAI带来了一定的导向性趋势。今年5月，GPT-4o发布，向前迈了一大步，语音交互支持多语音，意味着实时语音交互是生成式AI未来的趋势方向。今年10月OpenAI发布实时API能力，声网的兄弟公司Agora也参与了这一次发布，OpenAI也官宣与Agora联合提供API能力。

经过对AI的研究，以及与OpenAI的合作，声网目前发现未来生成式AI有两个趋势、两大方向。

第一是大模型多模态能力将会加速到来。大模型具备高度拟人化特征，具备听、说、看、写、绘、思的能力。

第二是RTE成为多模态应用和基础设施的关键部分。对话模式将成为多模态大模型的主要交互形式，包括对话式音频和对话式视频。

RTC技术还有很多优势：

传输延时低：RTC基于智能路由算法，全球网络覆盖，实现毫秒级端到端多媒体传输延迟，对比传统方案秒级延迟，实现量级跨越提升。
支持全双工通信：RTC在低延迟的基础上，通过回声消除能力、VAD能力（语⾳活动检测）可实现实时流畅的语音的双讲功能，使得交互更加自然、流畅。
弱网质量保障：RTC通过弱网对抗算法以及丢包补偿机制，保证媒体传输质量平稳，在极致弱网条件下也能保证通话质量，保障ASR识别率。
音频降噪效果好：RTC具备成熟的降噪、⾃动增益能力和ASR技术可以深度配合，准确过滤背景音，精确识别⼈声，提升语⾳转文字的识别准确率。
高清视频传输：RTC通道在音视频实时传输过程中，对首帧出图、低卡顿、端到端延时指标等均有较高的体验保障，支持多模态信息交互。

三、AI+RTE 催生教育新机遇

AI+RTE技术正在催生教育新机遇。多模态大模型与对话式交互结合，等于场景升级。老场景和老案例包括AI助教备课、AI答疑/智能辅导、AI批改、个性化推荐。

我们看到很多AI+教育案例已经落地。AI备课方面，教师通过输入一些知识点，就可以用AI大模型生成教案、讲义，以前备课需要数个小时，现在只需要几分钟。

AI智能辅导有利于学生找到正确答案，也有助于老师给出好的辅导方法。我前两天看到一个家长拿手机拍孩子的作业，拍的时候解题过程就全部显示出来了。此外还有AI作文批改、英语陪练等场景。

AI+教育是大家都想得到的结果。通过学生画像、知识点、学生表现、成绩，通过大模型的学情分析，为学生提供学习规划、个性化学习目标、个性化教学内容等等，也是未来教育希望抵达的目的地。

同时我们也看到了AI+RTE技术的新场景和新案例，包括AI口语陪练，这与大家理解的陪练不太一样，现在市面上大多数是对讲机模式的沟通和练习，这并不是人与人之间的沟通。如今，AI+RTE已经可以模拟人，实现可以随时打断的AI口语陪练场景，我们已经有客户在提供这样的服务。还有AI助手同声传译和AI在线音乐学习，都需要AI+RTE。

与AI和教育相关的还有AI智能监护，也就是通过音视频观察孩子的表现，模拟家长的声音来陪伴宝宝、监护宝宝。还有AI陪伴学习机器人，可以与三至六岁孩子实时互动，提供情感陪伴。

AI讲故事也是客户的案例，以前大家觉得AI讲故事是AI对我讲，或者我对AI讲，而现在的AI讲故事是我讲一半，AI讲一半，我们共创一个故事，让整个场景变得更丰富。

AI+RTE在未来还会有非常多的新场景出现，场景将得到很大的升级。

四、声网 AI Agent 服务平台

基于AI+RTE实时互动场景，声网推出了基于实时互动的AI Agent服务平台。

声网AI Agent是一套云边端一体的PaaS服务，聚焦实时音视频互动场景，结合市场上最优秀的模型能力，充分发挥声网音视频算法及 SD-RTN 的传输优势，助力中小客户快速搭建低延迟、高可用的人机交互应用，适用于泛娱乐、教育、企业协作等多个行业场景。

AI Agent具备四大核心优势，在体验和成本方面进一步优化。

低延迟：通过声网自研语音识别及处理技术，实现更细粒度的语音切割，智能体对话端到端延迟低至500ms，同声传译尾字到尾字延迟<4s。
极致拟真：声网自研AI VAD技术，适应人类对话的停顿、语气和对话节奏，支持AI对话过程中随时打断，深度优化AI角色，最大程度保留情绪情感等关键信息，语音合成音色更逼真。
低成本接入：很多教育公司在研发投入上比较谨慎，这个方案成本可控，客户无需单独部署推拉流服务，简单调用Agent接口，即可将智能体快速集成到客户的实时互动业务中，极大地降低了开发和服务成本。
业务高度灵活：提供20+音视频高级引擎及AI算法积木，客户可根据业务需求，任意拼插，同时支持通用模板和自定义模板配置。

这是声网的RTE+AI能力全景图，我们相信未来十年内，能用RTE+AI支持更多的场景，我们也希望更多的教育客户与我们共创场景。