新智元报道

编辑:LRST

【新智元导读】通过收集六名志愿者一周的多模态生活数据,研究人员构建了300小时的第一视角数据集EgoLife,旨在开发一款基于智能眼镜的AI生活助手。项目提出了EgoButler系统,包含EgoGPT和EgoRAG两个模块,分别用于视频理解与长时记忆问答,助力AI深入理解日常生活并提供个性化帮助。

当AI智能体(如Manus)接管你的大部分工作后,你是否曾想过,如何让自己的生活变得更加轻松与智能?

试想一个未来场景:你佩戴着智能眼镜,一个AI助理能无缝融入你的日常生活,根据你的个人习惯提供贴心的美食建议,下班后提醒你曾经购买过的物品,甚至通过分析你和家人过去的活动来主动预测你的需求。

这样一款「生活助手」将极大提升个人效率和家庭协作,让AI真正成为我们生活中的得力管家。

然而,要实现这个愿景,AI需要具备对超长时间跨度行为模式的理解能力,以及对社交互动细节的把握——这是现有第一人称视角(Egocentric)人工智能系统所欠缺的。

目前已有的一些第一视角数据集(如Epic-Kitchens、Ego4D等)支持了许多视频理解任务,但它们通常录制时长较短,而且大多只涉及单人的视角。这些局限使得模型难以捕捉人们长期的生活习惯和复杂的社交互动细节。

换言之,目前还缺少一种跨越长时间、多人物、多模态的数据资源和方法,来训练出真正懂得「日常生活全貌」的AI助理。

针对这一挑战,来自LMMs-Lab和MMLab@NTU的研究者们启动了EgoLife项目,致力于迈出打造以第一人称视角为中心的AI生活助手的关键一步,其核心是在真实生活场景中收集海量多模态数据,并研发创新模型来理解和利用这些数据,最终实现对人类日常生活的智能辅助。


论文地址:https://huggingface.co/papers/2503.03803

可交互项目主页:https://egolife-ai.github.io/

技术向项目主页:https://egolife-ai.github.io/blog/

项目代码:https://github.com/EvolvingLMMs-Lab/EgoLife

数据和模型:https://huggingface.co/collections/lmms-lab/egolife-67c04574c2a9b64ab312c342

真实场景下的AI进化实验:前所未有的多模态生活记录

EgoLife 项目的基础是一套规模空前的第一视角多模态生活日志数据集。项目组招募了6名志愿者,让他们共同在一个装备了大量传感器的房屋中生活7天,以筹备「地球日」活动为背景。

每位参与者都佩戴了Meta Aria智能眼镜,连续一周每天录制约8小时的第一人称视频和音频。同时,房屋中安装了15台固定相机和2个毫米波雷达装置,以同步记录第三人称视角的视频和动作捕捉信息。

借助这些设备,EgoLife数据集中不仅有参与者主观视角的影像,还包括客观环境的全景监控和精确的空间位置数据,甚至通过多摄像头融合重建出了房屋的3D模型。

最终,项目采集到了大约300小时的多视角、多模态视频数据——这是迄今为止极为丰富、逼真的日常生活记录,为研究长时序行为和人际互动提供了前所未有的资料。


图1: EgoLife邀请了6名参与者佩戴智能眼镜同住一屋7天,录制了总计约300小时的第一人称视频。研究团队还在房屋内布置了15个第三人称摄像头和毫米波雷达(如图左所示),获取同步的环境视角数据。右侧展示了所有摄像机同步的采集结果

高强度数据标注,为模型训练和评测铺路

为了让AI深入「读懂」人们的生活,仅有原始视频还不够,EgoLife数据集还配备了密集而详细的标注。研究人员为视频标注了密集的描述和旁白:包括完整的语音转录文本,以及不同时间粒度的视觉-音频叙事。

简单来说,数据集中既有细粒度的即时字幕(描述当下看到和听到的内容),也有每隔30秒总结性的长段说明。


图2: 该图是论文的主图。右侧示例展示了志愿者Lucia看到Shure正在弹吉他的片段,对应的多模态数据流(视频+音频+凝视轨迹+语音转录+音视频描述)以及EgoLife定义的「五大任务板」(底部)

这些详尽标注不仅为训练AI模型提供了监督信号,也方便构建起各种高层语义任务。例如,基于这些标注,研究团队构建了一个EgoLifeQA基准,收集了每位参与者约500个与生活相关的问题,共计3000道,以评测AI助理对长时记忆和复杂情境的理解能力。

值得一提的是,这些问题专门设计为需要「长时回溯」才能回答——66%以上的问题答案需要追溯2小时以前的事件,15%以上甚至涉及超过24小时之前的信息。

问题覆盖了五大类生活助理任务:例如询问物品细节和使用历史的「实体日志(EntityLog)」 、回忆过去活动的 「事件追忆(EventRecall)」、分析个人习惯规律的习惯洞察(HabitInsight)」、理解社交互动关系的「关系图谱(RelationMap)」 ,以及根据以往经历辅助规划任务的「任务管理(TaskMaster)」 。

每个问题都要求AI从用户过去几小时、甚至几天的生活记录中提取线索,给出有依据的回答。这些精心标注的数据和任务,为EgoLife项目中的核心AI系统提供了训练和评价的平台,也推动着智能生活助手这一新兴领域的发展。


图3: 以志愿者Katrina为例,黑色线条表示问题提问的时间,彩色线条表示需要回答该问题需要寻找的线索所在的时间

EgoButler: 双引擎架构实现第一视角超长信息理解

有了如此丰富的第一视角数据,EgoLife项目接下来的关键在于如何让AI高效地理解和利用这些信息。研究团队提出的解决方案是一个名为「EgoButler」的集成系统,由两个核心组件组成:EgoGPT和EgoRAG


EgoGPT担当「感知描述」的角色,而EgoRAG负责「记忆检索」和「推理回答」,二者相辅相成,使AI助理既能看懂当前发生了什么,又能回忆起过去发生过什么。

EgoGPT:全模态第一视角片段理解引擎

EgoGPT 是EgoLife研制的视觉-听觉-语言模型,可以被视为AI助理的大脑中「实时描述器」和「短期分析」部分。它在现有的大型多模态模型LLaVA-OV的基础上,专门针对第一人称视角视频进行了优化训练。

与通用的视觉语言模型不同,EgoGPT具备以下显著特点:

融合视觉和音频,多模态「看懂」视频片段

EgoGPT能够同时处理来自摄像头的视频画面和麦克风的音频输入,从而「看」和「听」用户所经历的一切。研究人员为此引入了音频编码器(使用Whisper模型)并训练了一个投影模块,将声音信号融入原有的视觉语言模型中。

经过这样的扩展,EgoGPT成为一个真正的「omni-modal」(全模态)模型,可以对30秒左右的生活视频片段生成详细的字幕式描述。

例如,当用户走进厨房时,它可以同时描述「视觉上看到有人在做饭,边做边在讲这是什么菜」等细节,为后续理解提供丰富信息。

连续密集字幕,构建时序语义流

EgoGPT的第一个功能是对每个30秒的视频片段连续进行描述,形成时间上密集的「活动日志」。这些生成的文字描述涵盖了用户视角中的关键事件、对象、人物对话等,为后续的记忆检索提供了语义线索。

可以将EgoGPT看作是一个随时记录用户所见所闻的「AI记录员」,把海量的视频变成可检索的文本和特征,这一步极大压缩并提炼了原始视频数据的内容,使后续模块不用直接处理视频就能了解发生过的事情。

个性化的身份识别能力

EgoGPT还经过了个性化微调,能够识别特定环境中的人物身份。研究人员利用EgoLife数据集中第1天的视频,对EgoGPT进一步微调,使模型学会了6位参与者的长相、声音和名字。

因此,在描述或回答问题时,EgoGPT可以提到人物名字,而不是像普通模型那样仅仅检测到「一个人」,让助理具备了上下文中的身份感知。这种个性化能力对于家庭场景尤其重要,它意味着AI能区别家庭成员,从而提供更贴合用户的协作帮助。

第一视角领域优化,性能业界领先

由于在海量的egocentric数据上进行了专门训练,EgoGPT在第一人称视频理解上的表现达到了当前最先进水平。论文中的实验对比显示,EgoGPT在多个既有的egocentric基准任务取得领先效果。

综上,EgoGPT为EgoLife系统提供了一个强大的「感知与叙事」引擎。它将长时间的视频流转化为结构化的语言和特征表述,为后续的记忆存储和问答打下基础。

在生活助理类比中,EgoGPT就好比一个随身携带的智能「摄像师+记录员」,源源不断地记录并解说着用户视角下的故事。


图4: 目前团队已开源EgoGPT模型权重及训练框架,并提供在线Demo体验。值得注意的是,系统展现出惊人的场景理解能力:在五月天MV解析测试中,不仅能描述画面内容,还能结合歌词进行意境分析。体验链接:https://egolife.lmms-lab.com

EgoRAG:超长时记忆检索与问答模块

有了EgoGPT持续产出的「生活日志」,下一步就是让AI助理真正具备长时记忆和问答推理能力——这正是 EgoRAG 发挥作用的地方。


EgoRAG的名字来源于「Retrieval-Augmented Generation」,意味着它将信息检索和生成式AI结合,专门用于处理超长时间跨度的提问。简单来说,EgoRAG可以被视为AI助理的大脑中「记忆库」与「知识检索官」的部分。当用户提问时,EgoRAG能够在庞大的历史记录中快速找到相关片段,并结合EgoGPT等模型生成答案。

其核心步骤如下:

分层记忆库构建

面对长达数百小时的生活记录,EgoRAG首先通过EgoGPT生成的描述建立起一个多层级的记忆。具体而言,EgoGPT对每30秒视频的描述会被存入记忆库中作为细粒度记录,同时系统会定期将一段时间内的描述汇总生成更高层次的摘要。例如,它可以把每小时的主要事件总结成一段概要,再把每天的概要进一步凝练成更粗的日记。

如此一来,EgoRAG的记忆库中同时保存着片段级别、小时级别和天级别的多层次信息。这种分层结构让系统能够先粗略定位大致相关的时间范围,再深入检索具体片段,就像人类回忆事情时也会先想是哪一天、随后细想当时的细节一样。

智能检索策略

当用户提出一个问题时,EgoRAG会启动两阶段的检索机制。第一步,它会先在高层次的摘要中搜索线索,找出这个问题最可能涉及的是哪一天、哪一段时间。

例如,若用户问「我这周哪天吃了意大利面?」,系统会先扫描每天的摘要,发现「周二晚餐」提到了意大利面。第二步,在锁定相关的时间段后,EgoRAG会在该时间段内更精细地检索具体的片段描述。

最终,EgoRAG会挑选出最相关的若干视频片段作为支撑证据,将这些检索到的相关内容发送给一个生成式模型(可以是EgoGPT本身或类似GPT-4的更强大模型),让它基于证据来生成回答。

通过这样的分层检索与生成,EgoRAG能够在浩如烟海的个人记录中迅速定位答案要点,并确保回答所依据的信息可靠且有据可循。

高效且可扩展

EgoRAG的设计使得对超长视频的问答变得计算上可行。相比朴素地将几百小时的视频硬塞给一个大模型(这几乎不可能),EgoRAG极大地缩小了需要处理的数据范围,每次问答只聚焦于可能相关的极小片段集合。

这种「提取式记忆」不仅提高了效率,也让系统具备了可扩展性——无论积累了多少天的记录,检索的成本都在可控范围。

此外,由于EgoRAG把视频内容转化为了文本和特征空间的表示进行搜索,它可以方便地持续更新记忆库(EgoGPT不断产生新记录),并长久保留旧有知识,正如一个理想的生活管家,不仅能记住你昨天做过什么,几年后的今天依然能快速翻出相关回忆供你查询。

综合来看,EgoRAG赋予了EgoLife助理真正的长时记忆和知识提取能力。当用户询问诸如「我这瓶酸奶是什么时候买的?」这样需要跨天甚至跨周的信息时,EgoRAG能够在庞大的回忆库中找到相关证据,并配合EgoGPT给出答案。

例如,基于检索到的证据,模型可能回答:「您分别在3天和5天前去过超市,这一瓶是在您五天前那一次购物采购的,您当时和其他几瓶酸奶比价,最终选择了这个,花了五块钱」。

这里列举5个实际场景的例子。

未来计划

拓展数据维度,构建更通用的智能认知

目前基于6人单语言环境的数据已经展现出很强的潜力,而下一步,研究人员希望让它走向更广阔的世界。

通过引入多语言交流(如纯英文、西班牙语等)、长期生活记录以及不同家庭结构的数据,系统可以减少个体经验的局限,建立更具普遍适用性的认知模型,不仅能让AI更准确地理解不同文化背景下的人类行为,也能提升个性化服务的跨场景适应能力。

让AI从「记录」走向「推理洞察」

当前的EgoGPT+EgoRAG体系其实是一个基础的框架,目前也有很多不完美的地方,例如对于人的辨认依然不稳定,对于语音的识别可能还停留在人的对话上,对于重要的环境声尚且还没有识别。在增强AI识别的精度的基础上,研究人员还希望利用推理框架对目前方法进行重构,将长视频搜索变得更加智能。

多视角协同,重塑环境认知

当前的数据集是一个多人同步、多视角协作的数据网络,通过第一视角(佩戴式设备)、第三视角(固定摄像头)、以及3D房屋模型的融合,可以解锁更多的功能探索。

例如AI可以利用多视角视频流和3D坐标,还原某个时间点的完整场景。例如,当用户问「上周三客厅发生了什么?」系统可以自动结合空间信息,生成带有完整场景语义的叙述。

展望:隐私保护

因为生活助理涉及持续记录个人隐私数据,如何安全地存储、处理这些信息至关重要。未来的系统需要在本地化(尽量在用户设备上处理数据)和隐私保护算法(如差分隐私、联邦学习)上加大投入,确保用户的数据仅为用户所用。只有解决了隐私顾虑,公众才能真正安心地拥抱这样全天候的AI助手。

开发团队

EgoLife不仅仅是一个研究项目,更是一场关于 AI 如何真正融入人类日常生活的探索。

未来的AI生活助手不仅能理解用户的行为、记住关键细节,还能主动提供帮助,让科技成为每个人生活中不可或缺的伙伴。

这是一项长期演进的计划,研究团队正在不断扩展数据规模、优化AI模型、探索新的交互方式,并推动AI生活助手的真正落地。

参考资料:

https://huggingface.co/papers/2503.03803

ad1 webp
ad2 webp
ad1 webp
ad2 webp