近期,上海交通大学顾磊磊副教授团队开发了一款融合 AI 和柔性电子的多模态可穿戴助盲系统,为改善视障群体的生活质量提供了新的解决方案。
该系统的核心创新在于通过多感官反馈机制(视觉、听觉、触觉)的协同作用,以听觉和触觉代偿视觉功能,显著提升了自主生活能力,包括在复杂环境中的自主行动和日常任务的执行效率等。
图丨顾磊磊(来源:顾磊磊)
在感知与导航模块设计上,系统采用多模态融合的智能处理架构:通过 RGB-D(Red Green Blue Depth)摄像头实时采集环境数据,经 AI 算法处理后可精准估算目标方位并规划无障碍路径。
空间音频技术通过骨传导耳机为用户提供具有方位感的导航提示;同时,集成于手腕处的柔性人工皮肤(A-skins)能有效探测侧方障碍物,并通过差异化振动模式扩展用户的周边环境感知能力。
(来源:Nature)
特别值得关注的是,该系统在硬件设计上突破了传统助盲设备的局限性,通过创新的结构优化实现了仅 195 克的超轻量化设计,同时兼顾了穿戴舒适性与美观性。
在软件算法层面,该课题组基于人类感知-认知机制进行了深度优化:一方面,通过仿生学设计使信息输出方式(如声音方向、振动节奏)严格匹配人体生理特征;另一方面,采用认知心理学原理优化信息编码策略,使用户可以像调用自身感官一样自然地理解系统反馈。
为加速用户适应过程,研究人员还配套开发了基于虚拟现实(VR,Virtual Reality)的沉浸式训练系统,通过精心设计的虚实结合训练场景,帮助用户快速建立人机协同的空间认知模式。
经严格测试验证,该系统展现出卓越的性能指标:
在完全黑暗环境下,结合红外深度成像与独创的地面区间算法,对低矮障碍物的识别准确率高达 95%;在动态环境测试中,面对突发移动障碍物(如行人)的平均响应时间仅为 18 毫秒。
值得关注的是,该系统在标准化可用性评估中获得 79.6 分(满分为 100 分),性能表现超越 85% 的现有商用辅助设备。这项研究不仅为视障群体提供了切实可行的辅助技术方案,更为人机融合智能系统的开发树立了新的技术范式。
近日,相关论文以《以人类为中心的可穿戴多模态视觉辅助系统的设计与制造》(Human-centred design and fabrication of a wearable multimodal visual assistance system)为题发表在Nature Machine Intelligence[1]。
上海交通大学博士生唐健是第一作者,顾磊磊担任通讯作者。
图丨相关论文(来源:Nature Machine Intelligence)
在硬件和软件同时“做减法”:从机器视觉到以人为中心
顾磊磊本科和硕士毕业于复旦大学,之后在香港科技大学获得博士学位,师从范智勇教授。
目前担任上海交通大学计算机学院清源研究院长聘教轨副教授,以及上海人工智能实验室双聘青年研究员,主要研究方向是微纳仿生与智能感知交叉,专注于仿生视觉器件及系统的研究。
(来源:Nature)
2020 年,顾磊磊以第一作者身份在 Nature 报道了新型纳米线球形仿生眼的开创性工作 [2](DeepTech 此前报道:中国科学家发明纳米线仿生眼球,被评为该领域数十年来重要突破!活体实验计划已提上日程)。
这项研究不仅获得了学术界的广泛关注,更收到了来自视障群体的积极反馈。“当时,我们收到了很多关于植入式设备和视觉恢复等方面的咨询,视障群体也对这类技术表现出极大的兴趣。”顾磊磊说。
这一经历促使他的研究视角发生了重要转变:从专注于机器人技术转向更关注人类需求本身。
在成立独立课题组后,顾磊磊带领团队进行调研。他们发现,虽然已经有不少关于助盲系统的研究,但相关系统的实用性并不理想。尽管这些设备在实验室环境下表现出良好的性能参数,但本质上仍然属于基于计算机视觉的电子导航系统。
通过深入分析,顾磊磊课题组识别出制约现有技术实用性的两大关键问题:
在硬件方面,现有设备为实现强大功能往往需要集成大量组件,这会导致其体积庞大、重量超标。这种设计类似于外骨骼系统,需要用户携带电脑主机和重型电源等设备,严重影响了穿戴舒适性和日常使用便利性。
在软件方面,现有系统主要依赖语音播报来描述环境信息。这种持续不断的语音输入不仅容易造成信息过载,还会使用户大脑长期处于高度紧张状态,产生显著的认知疲劳。正是这些因素导致大多数研究成果难以落地转化,鲜有视障人士愿意长期使用这些设备。
基于这些发现,顾磊磊发挥其在半导体器件和微纳加工方面的专业优势,提出了一套创新的研发策略。
他认为,应该在硬件和软件方面同时“做减法”,只保留最核心的功能。也就是说,在硬件上通过微纳技术实现功能集成和轻量化设计,在软件上优化信息呈现方式以降低认知负荷。
这一策略的核心是贯彻“以人为中心”的设计理念,最终目标是开发出实用性的新一代助盲系统。
从“功能堆砌”到“智能协同”的范式转变
该课题组开发的智能助盲系统创新性地借鉴了生物视觉的“注意力分配”机制,实现了高效节能的环境感知。
与普通相机全域高分辨率成像不同,该系统模拟了人眼视觉的特性:中央区域(约 60 度视野)作为高精度感知区,相当于人眼的黄斑区,负责精细分析关键信息;而周边区域则通过电子皮肤实现广域监测,类似人眼周边视觉的“警戒”功能。
这种仿生架构在保证核心功能的同时,由于采用了小型化算法,使得推理过程更快,显著降低了系统功耗(仅 6.4 瓦,为同类设备的 60%)。
顾磊磊指出,多模态系统很容易陷入的困境是:信息过多导致用户疲劳,但信息太少又无法提供足够的安全保障。
(来源:Nature Machine Intelligence)
在感知-决策闭环设计上,该系统展现出三大技术创新:
首先,中央视觉模块采用优化算法,可在 200-300 毫秒内完成环境分析并生成导航指令,与人脑反应速度完美匹配。
其次,腕部电子皮肤通过触觉振动提供周边障碍预警,形成互补感知网络。
再次,智能鞋垫系统将虚拟训练与现实导航无缝衔接,通过摩擦电效应实现自供能,使用户能在安全环境中熟悉设备反馈模式。
顾磊磊解释说道:“这种设计减少了训练风险,帮助使用者熟悉设备节奏,从而增强操作准确性。并且,在实际使用该系统时如果训练已经完成,则不需要使用 VR 部分。”
测试结果表明,经过 2 小时的 VR 训练后,受试者在真实环境中的行走效率提升 24%,碰撞次数减少了 67%。经过训练的用户导航速度提升了 28%,导航时间和行走距离显著减少。
针对家庭环境的动态特性,该系统摒弃了传统全局建图方法,转而采用“即时感知-实时决策”的渐进式导航策略。
顾磊磊解释道:“就像人在陌生环境中摸索前进一样,我们的系统不需要记忆完整地图,而是通过每一步的局部感知来动态调整路线。”
这种策略有效解决了家具移动等环境变化带来的路径规划失效问题,使系统在动态测试中对突发障碍的平均响应时间达到 250 毫秒。
(来源:Nature Machine Intelligence)
多模态信息融合是该系统的另一大亮点。研究人员基于认知心理学原理,精心设计了信息呈现的优先级和方式:重要导航指令通过空间化骨传导音频传递,次要环境信息则转化为触觉提示,避免传统语音导航造成的信息过载。
这种“杂而不乱”的感官分配使得系统可用性评分达 79.6 分,超越 85% 的商用设备。顾磊磊强调:“其关键在于模拟生物系统的效能平衡——既不能因信息不足而影响安全,也不可因信息过载导致认知疲劳。”
从技术演进来看,该研究标志着助盲设备从“功能堆砌”到“智能协同”的范式转变。通过仿生设计、多模态优化和虚实结合训练的三重创新,不仅解决了现有设备笨重、低效的痛点,更开创了“以人为中心”的智能辅助技术新方向。
正如顾磊磊所言:“真正的突破不在于单项指标的提升,而在于打造一个让使用者感到'自然'的系统——就像使用自己的感官一样得心应手。”
学术探索与产业转化“双轨并行”
目前市面上的智能眼镜和导航系统功能丰富,涵盖路径规划、商场导航、停车信息,甚至上网娱乐等。然而,该课题组选择了一条不同的路线,通过对软硬件“做减法”,专注于系统最核心的功能,从而有效控制整体成本。
未来,该技术将沿着“学术探索与产业转化双轨并行”的方向发展。一方面,团队将继续拓展和深化研究,例如将摄像头优化为类似隐形眼镜或电子皮肤的设备;另一方面,研究人员将致力于与工业界合作,注重系统在工程性和可靠性方面的提升。
在谈及技术发展路线时,顾磊磊提到一种有趣的说法——既要向前推进,也要注意沿途“下蛋”。他指出,可以从一些简单但要求较高的方向入手,先将技术推向产品化。例如,将目前系统中所使用的树莓派换成专用芯片,这样可以大幅降低设备体积。
从人机融合角度来看,接下来的研究阶段中可能会引入脑机接口,通过个性化的脑机接口来反馈并优化反馈编码。
此外,如果要更大规模地推进该项目,需要更广泛的测试。目前,磊磊团队正在联合北京大学、山东大学相关团队制定并推行可穿戴助盲系统的行业标准。“这是一个好的方向,我们也希望更多业内人士参与进来,共同推动该领域的发展。”顾磊磊说。
该团队的“终极目标”是希望能够实现包括器件、算法、芯片在内的软件和硬件的完全自主开发,从而实现更好的定制化。顾磊磊强调:“未来,我们将继续秉承‘做减法’的研究思路,让科技向善之光照射到更广泛的群体。”
参考资料:
1.Tang, J., Zhu, Y., Jiang, G. et al. Human-centred design and fabrication of a wearable multimodal visual assistance system.Nature Machine Intelligence(2025). https://doi.org/10.1038/s42256-025-01018-6
2.Gu, L., Poddar, S., Lin, Y. et al. A biomimetic eye with a hemispherical perovskite nanowire array retina.Nature581, 278–282 (2020). https://doi.org/10.1038/s41586-020-2285-x
运营/排版:何晨龙