Meta公布黑科技：戴上腕带即可隔空打字，引领神经接口AR革命

新智元报道

编辑：peter东乔杨

【新智元导读】只需要在手腕上戴一个腕带，就能够实现隔空打字。Meta近期推出的开源表面肌电图（sEMG）数据集，可进行姿态估计和表面类型识别，推动神经运动接口发展。

每一个新的计算平台都带来了我们与设备互动方式的范式转变。鼠标的发明为今天主导PC世界的图形用户界面（GUIs）铺平了道路，而智能手机直到触摸屏的出现才开始真正获得影响力。

同样的规则也适用于可穿戴设备和AR，想象一下，在晨跑时只需轻轻一触指尖就能拍照，或者用几乎察觉不到的手部动作来导航菜单。

AR时代革新人机交互

在Connect 2024大会上，Meta展示了EMG腕带与Orion增强现实眼镜的产品原型。这两大神器叠加在一起，科幻电影中才会出现的「隔空打字」场景或许即将实现。

Orion AR眼镜

meta推出的肌电图腕带

戴上这样一个腕带，你让双手舒适地放在身侧，同时进行鼠标的滑动、点击和滚动等操作，无缝控制数字内容。

未来还将有许多其他应用场景，包括在增强现实中操纵物体，或者像在键盘上打字一样——甚至更快，快速输入完整信息，几乎无需费力。

在近日的NeurIPS 2024 的「数据集和基」子会场中，Meta发布了两个数据集——emg2qwerty 和 emg2pose，展示在硬件层面仅仅依靠腕带的情况下，如何产生比细微手势更丰富的输入数据集。

原文地址：https://arxiv.org/abs/2410.20081

原文地址：https://arxiv.org/abs/2412.02725v1

用于隔空打字的数据集emg2qwerty

表面肌电图（sEMG）是在皮肤表面测量由肌肉产生的电势，它能够检测到由单个运动神经元引起的活动，同时是非侵入性的。

具体来说，对于单个的脊髓运动神经元，其细胞体位于脊髓中，向肌纤维中投射一条长轴突，每条肌纤维只被一个运动神经元支配。

脊髓运动神经元放电时，就会触发它支配的所有肌纤维收缩，同时放大了来自神经元的电脉冲。正是这些来自肌纤维的电信号，可被皮肤上的sEMG传感器检测到。

用于数据收集的表面肌电图研究设备（sEMG-RD）及其腕围电极放置的示意图

基于腕带的打字系统旨在解决可穿戴设备的文本输入问题，实现无需物理键盘的触摸打字。

仅使用手腕上检测到的肌肉电信号，系统将可自动解码并对应至虚拟现实中投影的计算机键盘按键。

这意味着，用户未来可以在没有物理键盘的情况下，无论在桌子上、腿上还是厨房桌子上打字，都能如同在实际键盘上一样输入。

一个针对提示「the quick brown fox」的表面肌电图（sEMG）记录示例，显示左右腕带上32通道的表面肌电图信号和按键时间；垂直线表示按键开始，每个电极通道的信号经过高通滤波

emg2qwerty数据集包括从两只手腕获取的高分辨率sEMG 信号，与QWERTY 键盘的真实按键同步。该数据集总计包含108名参与者完成的、涵盖广泛单字和句子打字提示的346小时记录，共计超过520万次按键。

emg2qwerty数据集分割的可视化。每一列代表一个用户，每一个方块代表一个会话，方块的高度表示其持续时间

如何仅通过表面肌电图数据中检测到用户按了哪个键呢？为了解决这个核心问题，Meta开发了受自动语音识别（ASR）领域启发的方法。

该方法同样模拟了给定连续多通道时间序列下，预测离散字符输出序列的任务。为了给emg2qwerty构建强大的基线，Meta尝试了新颖的网络架构、不同的训练损失以及语言模型的使用，始终关注表面肌电图数据的独特领域特征要求。

研究发现，在100个用户的规模上，尽管生理、解剖、行为、带宽大小和传感器放置存在差异，用户间的泛化仍然可出现。

当使用大约半小时的个体用户打字数据来个性化模型时，性能的进一步提升随之而来。通过整合语言模型来优化结果，可将字符错误率降至 10%以下——这个值被认为是一个使文本模型可用的关键阈值。

随着数据集的增加，类似语言模型中的Scaling Law将会生效，从而使得对用户输入的预测更加准确。

emg2pose姿态估计：可完全预测用户的手部配置

另一个名为emg2pose的数据集，旨在解决肌电信号与手部运动之间的映射问题，这对于人机交互、康复工程和虚拟现实等领域具有重要意义。

该数据集包含来自193名参与者的370小时sEMG和手部姿态数据，从29个不同的行为组中采集，包括拳头、从一数到五等众多动作。

数据集包含25253个HDF5文件，合计达到431GB。每个文件包含时间对齐的2kHz表面肌电图数据和单手在单一阶段的关节角度。

手部姿态标签是通过高分辨率动作捕捉阵列生成的。完整数据集包含超过8000万个姿态标签，其等效规模已经可以与最大的计算机视觉数据集比肩。

emg2pose数据集组成：a)sEMG-RD腕带和动作捕捉标记（白色圆点）设置 b) 数据集分解；i）用户被提示执行一系列动作类型（手势），如上下计数，同时记录 sEMG 和姿态 ii) 特定手势类型的组合构成一个阶段

emg2pose数据集的主要特点在于其高频率的表面肌电图记录（2kHz）与精确的动作捕捉数据相结合，提供了对手部细微运动的深入洞察。

此外，数据集包含详细的元数据，如用户ID、会话、阶段、手部侧向、是否移动等，便于进行多样化的分析和实验。数据集还提供了训练、测试和验证的划分，支持多种泛化类型的研究，包括跨用户、跨阶段以及跨用户和阶段的泛化。

在基准测试中，emg2pose还提供了具有竞争力的基线和具有挑战性的任务，这些任务评估了在排除用户、传感器放置和手势姿态方面的物理世界泛化场景。

该研究还介绍了一种新的最先进模型，用于从表面肌电图进行姿态估计的 vemg2pose模型，通过整合对姿态速度的预测来重建手势姿态。

研究人员将emg2pose以及另外两种当代基线用于sEMG的姿态估计，并分析了它们在泛化条件下的性能。结果显示：emg2pose模型在对不同用户的数据集进行预测时，仅显示1厘米误差，从而在广泛的运动范围内实现了高保真跟踪。

在不同采集阶段及不同用户间，基于vemg2pose预测的泛化能力

emg2pose不仅提升了动作识别的准确性，还为手势控制、康复治疗等有潜在的应用可能。

在医疗康复领域，通过分析患者的sEMG信号，可以实时监测和评估手部功能的恢复情况，为个性化康复方案的制定提供科学依据；
在人机交互领域，该数据集支持开发更加自然和精准的手势控制系统，提升用户体验；
此外，emg2pose还可应用于虚拟现实和增强现实技术中，实现更加逼真的手部动作捕捉和交互。

参考资料：

https://x.com/perlinwarp/status/1864745303796257236

CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦