亚马逊新版Alexa“换脑”，被曝因内部管理混乱，将延迟推出

智东西
编译施佳璇
编辑程茜

智东西1月15日消息，据英国《金融时报》报道，大型科技集团亚马逊升级版语音助手Alexa的推出延迟，或与内部管理问题有关。将大语言模型接入Alexa是顺应用户需求亦是时代所趋，而如何在已然强手如云的生成式AI领域占领有利生态位是个挑战，亚马逊正多方面寻求调整。

Alexa被期待功能多样且强大，但因为原有算法与大语言模型的融合不洽，目前推进困难，解决起来仍需时间。产业下游公司表示设备推出因此受阻。Alexa在安全性、可靠性、可预测性方面具有的问题是当前生成式AI所共有的，行业内尚未找到明确解决办法，亚马逊也在努力攻克中。

一、给Alexa装上“大脑”，从语音助手转变为私人管家

亚马逊的科技团队积极处理困扰该AI系统改革的挑战，因此正准备重新推出语音助手Alexa，试将其打造成能够完成实际任务的AI代理。团队正积极解决困扰该系统人工智能全面改革的挑战。

这家市值2.4万亿美元的公司过去两年来一直试图重新设计Alexa，它的对话系统嵌入了全球范围内5亿消费者设备，运作方式从原先的算法系统变成了AI算法模型。

亚马逊通用人工智能（AGI）的领队Rohit Prasad告诉英国《金融时报》，这款语音助手在推出前仍需克服几道技术障碍。

这包括解决“幻觉”或捏造答案、响应速度或“延迟”、可靠性问题。“捏造答案必须被降低到接近没有。”Prasad说，“这仍然是行业内一个尚未知晓答案的问题，但我们正在极其努力地解决它。”

亚马逊领导层的愿景是将目前仍主要局限于播放音乐、设置闹钟等简单任务的Alexa转变为一个“代理型”产品，让它充当个性化的私人管家，这可能包括从推荐餐厅到根据个人的睡眠周期调节卧室灯光等各种功能。

二、Alexa每周应对数十亿次请求，需兼顾生成式AI新功能与原始优势

自2022年底微软支持的OpenAI推出ChatGPT以来，Alexa的重新设计工作便已启动。当微软、谷歌、Meta等公司迅速将生成式AI嵌入其计算平台并增强了软件的服务，批评者质疑亚马逊是否能及时解决其技术和组织上的困境来与竞争对手抗衡。

据近年来曾在亚马逊语音助手团队工作的多名员工表示，Alexa的人工智能研究与开发经历了很多年，因此团队的相关工作一直饱受复杂情况困扰。

一些前员工称，迟迟未能推出的原因主要是由于将Alexa所基于的更简单、预先定义好的算法与更强大但不可预测的大型语言模型进行切换和结合时，研究团队遇到了意想不到的困难。

对此，亚马逊回应，他们正“努力使语音助手能提供更加主动和强大的帮助”。亚马逊还补充说，曾经从未有过像这样大规模地将技术实施到一个全球用户都在使用的实时服务和一系列设备中，这并非简单地将大型语言模型叠加到Alexa服务上就能实现。

亚马逊前Alexa首席架构师Prasad透露，公司上个月发布的内部亚马逊Nova模型——由其AGI团队主导——部分出于对最优速度、成本、可靠性的特定需求，以帮助像Alexa这样的AI应用“完成确实很难的最后一英里”。

Prasad说，若要作为代理运行，Alexa的“大脑”必须能调用数百个第三方软件和服务。

“有时我们低估了被整合到Alexa中的服务数量，它是一个庞大数字。这些应用每周会收到数十亿次请求，所以当你试图快速地采取可靠行动……你必须以一种非常划算的方式来实现。”他补充道。

复杂性源于Alexa用户既期望快速响应又期望极高的准确度，而这些品质与基于语音和语言模式的统计性词汇预测软件，即当今生成式AI的固有概率性质相悖。

一些前员工还指出，在为助手注入新的生成式功能（如创造力和自由流畅对话）的同时，保留其原始属性（包括连贯性和功能性）存在困难。

据知情人士透露，由于大语言模型（LLM）更具聊天属性，公司还计划聘请专家来塑造AI的个性、声音和措辞，来保持Alexa用户的熟悉感。

三、规避“幻觉”不简单，锅在“技术和官僚问题”

一位前Alexa团队高级成员分享，尽管大型语言模型非常复杂，它们也存在风险，比如有时会“完全凭空捏造答案”。亚马逊说：“以亚马逊的运营规模，这种情况可能每天都会发生很多次”，这会损害公司的品牌和声誉。

去年6月， Alexa的前机器学习科学家、“对话建模团队（conversational modelling team）”的创始成员Mihail Eric分享，亚马逊在使Alexa成为“无可争议的对话式AI市场领导者”方面错失良机。尽管拥有强大的科研人才和“巨大”的财力资源，公司却“充斥着技术和官僚问题”，暗指“数据标注不当”以及“说明要么不存在要么过时”。

据两位从事与Alexa相关AI工作的亚马逊前员工透露，支撑语音助手的历来技术一直不够灵活、难快速改善，是受到笨拙且杂乱无章的代码库以及“过于扁平式分散”的工程团队的拖累。

最初的Alexa软件是基于2012年亚马逊从英国初创公司Evi收购的技术构建的，它是一个问答机器，通过在既定的事实范围内搜索来找到正确的回答，比如当天的天气或你音乐库中的一首特定歌曲。

新的Alexa使用多种不同的AI模型来识别和翻译语音提问并生成回答，并且识别违规行为，例如筛选出不恰当的回答和“幻觉”。构建软件在旧系统和新AI模型之间进行转换一直是Alexa与大型语言模型整合过程中的主要障碍。

这些模型包括亚马逊自己最新的Nova模型，以及生成式AI初创公司Anthropic的AI模型Claude（过去18个月里亚马逊已向其投资80亿美元）。

他补充道，代理型AI软件需要达到“人们对系统真的信任”的程度。“一旦我们达到这一点，我们将发布这些系统。”

一位现任员工表示更多步骤仍被需要，例如叠加儿童安全过滤器并测试Alexa的自定义集成（如智能灯和Ring门铃）。

“可靠性是问题——让它接近100%的时间都能正常工作。”该员工补充道，“这就是为什么你会看到我们……或苹果或谷歌推出产品缓慢且渐进。”

众多为Alexa开发“技能”或功能的第三方公司表示，他们不确定新的可适用生成式AI的设备何时会推出、如何为它创建新功能。

“我们正在等待细节和理解。”瑞典内容开发商Wanderword的联合创始人Thomas Lindgren说，“我们刚开始合作时他们开放得多……随着时间推移他们已然变化。”

另一位合作伙伴表示，在最初亚马逊对开发者“施压”让他们开始为下一代Alexa做好准备的一段时间后，事情变得安静了。

结语：亚马逊Alexa团队的长期挑战：走出裁员阴影，攻克盈利难关

对于亚马逊的Alexa团队来说，在遭受了2023年大规模裁员的打击后，一个长期的挑战是如何赚钱。弄清楚如何让助手“足够便宜以实现大规模运行”将是一项重大任务，该团队生成式AI组织（OctoAI）的联合创始人Jared Roesch说。