UEDBETAPP官方网站

热点资讯

UEDapp下载

你的位置：UEDBETAPP官方网站 > UEDapp下载 > UEDBET 补全具身智能「触觉」拼图！哈工深发布EgoTouch：300项操作任务，百万帧视觉触觉同步对都

UEDBET 补全具身智能「触觉」拼图！哈工深发布EgoTouch：300项操作任务，百万帧视觉触觉同步对都

发布日期：2026-04-06 11:58 点击次数：91

面前机器东说念主学会"看"和"听"，下一步是让它领有"触觉"。

但是触觉数据的取得并抑遏易…

跟着 Ego4D 等大界限第一东说念主称数据集的建议，基于第一东说念主称（ego-centric）视频数据的具身学习受到了闲居关怀。比拟传统的真机遥操作数据集，ego-centric 数据在收集本钱、视角遮蔽以及交互当然性等方面具有权臣上风，能够愈加真正地响应东说念主类与环境的交互过程，因而缓缓成为该界限的重要发展地方。

可是，现存的 ego-centric 数据集大量穷乏东说念主类与环境交互中至关重要的一种模态信息——触觉模态。这一关键模态的缺失，使得现存模子难以建模机器东说念主与物理全国之间的战争与力学交互。即即是在抓取、搬运等基础操作任务中，穷乏触觉信息也会导致系统难以判断战争是否褂讪或操作是否见效，从而控制了模子在真正场景中的应用能力。

为了处分上述问题，哈尔滨工业大学（深圳）杨朔阐明注解团队建议了业内首个基于第一东说念主称视角的多模态触觉数据集EgoTouch。该数据集同步收集了第一东说念主称视觉信息、双手腕视角视频、双手全掌高永别率触觉信号以及双手多重要三维位姿数据，杀青了视觉与触觉的紧密对都。在此基础上，团队进一步研发了首个基于第一东说念主称视频的双手触觉揣摸模子TouchAnything，为从视觉推理触觉信息提供了新的时期旅途。

EgoTouch 数据集概览

EgoTouch 数据集具有以下关键特点：

多视角结合双手全掌触觉：EgoTouch 是首个将第一东说念主称视角与双手腕部视角的多视角视频，与双手全掌真正触觉压力数据进行同步收集的数据集。第一东说念主称相机提供全局操作语境，而腕部相机补充了常被讳饰的手物战争细节。

密集且勾通的全掌压力：EgoTouch 提供了由可衣裳触觉收集手套提供的精准压力散布数据。

极丰富场景的双手操作：EgoTouch 数据集提供了卓绝 300 项手部紧密操作任务，涵盖抓取，按压，器用使用，双手配合等；同期包括室内，室外，营业等丰富的环境场景。

全模态数据且时间同步：统统模态均进行了逐帧时间对都，包括：三视角视频，双掌压力争，双手手部精准位姿（42 个重要）。

1. 与现存数据集比拟，开云app官方在线入口EgoTouch 提供了最全面的模态信息

EgoTouch 数据集包含室内室外等丰富环境信息，包含双掌的全掌精准压力触觉信息，操作物品类型超 1000 种，总和据卓绝两百万帧。

2. EgoTouch 有着极其丰富的任务和场景散布

总体任务被分为：居家，工坊，办公，UEDBETapp下载零卖，户外等五个场景类别，每个类别都包含丰富的任务类型。

3. 提供了一种可复现的圭臬化具身灵敏操作全模态数据收集过程

下图展示了杨朔团队联想的圭臬数采决策，包括三个可衣裳式录像头，一对 Rokoko 手部重要动捕手套，三个 HTC_Vive 定位跟踪器和一对压力触觉手套。

模子架构

在 EgoTouch 数据集的基础上，哈工深杨朔团队杀青了一种多视角触觉预测模子 TouchAnything，建造了该任务的基准方法。该模子使用 DINOv2 动作视觉主干，联想了可学习的视角镶嵌和跨视角的交叉注见地机制。即使在缺失视角，如只消 ego 视角时，也不错提供相瞄准确的触觉预测。

执行收尾展示

下列视频与图片展示了 TouchAnything 模子的具体推理收尾，不错看到，模子能够准确预测出触觉信息在手掌中的散布情况：

多视角拔插充电器：

双手抛接网球：

单手鼠标操作：

便利店饮料抓捏：

超市货物购买：

单手颠乒乓球：

多视角输入不错进步触觉预测准确性

执行收尾标明，多视角输入能够进步触觉预测性能。比拟仅使用第一东说念主称视角（ego-centric），会通驾御手腕视角的多视角输入在已见与未见物体诞生下均取得一致的性能进步，其中三视角聚拢输入（Ego+wL+wR）在 Temporal_Accuracy、Contact_IoU、Volumetric_IoU 和 MAE 等主张上阐扬最好。

这一进步主要源于不同视角的互补性：第一东说念主称视角提供全体交互语境，而手腕视角能够补充被自讳饰的战争细节，尤其在抓取和施力阶段有助于更准确地收复触觉散布。

数据界限进步权臣增强触觉预测性能

执行收尾标明，模子性能随覆按数据界限呈现出褂讪的扩张趋势（scaling_behavior）。跟着数据比例从 25% 进步至 100%，Contact_IoU 与 Volumetric_IoU 不时进步，而 MAE 冉冉缩小，且在未见物体上的进步相同权臣。这阐明所建议方法能够有用从大界限数据中学习鲁棒的视觉 - 触觉映射估量，并具备较强的跨对象泛化能力。

瞻望

触觉模态可能是具身智能界限面前最需要的一块拼图。在多模态大模子赶快发展确当下，具身机器东说念主穷乏的是和物理全国紧密交互的触觉信息信息。

EgoTouch 数据集为面前具身灵敏操作界限提供了稀缺的触觉信息。同期 TouchAnything 又为现存第一东说念主称视角数据集提供了全新的触觉预测方法，进一步进步了关于第一东说念主称视角信息的运用收尾。

缠绵团队以为，灵敏操作大致是具身智能急需攻克的下一个时期难关，而触觉模态将会阐明主导作用，为高难度的紧密操作提供最平直的反馈。另一方面，在 World_Action_Model 越发引东说念主关怀确当下，触觉模态也不错为全国模子提供关键的力学信息，共同构建高置信的情状预测和可靠的动作生成。

论文标题：

TouchAnything: A Dataset and Framework for Bimanual Tactile Estimation from Egocentric Video

作家先容：

Jianyi Zhou， Ziteng Gao， Feiyang Hong， Zirui Liu， Guannan Zhang， Weisheng Dai， Ruichen Zhen， Haotian Wu， Yinian Mao， Xushi Wang， Yuxiang Jiang， Shuo Yang（通信作家，shuoyang@hit.edu.cn）

执行室名：

M-PAI Lab， HITSZ

神色地址：

https://jianyi2004.github.io/TouchAnything-Website/

一键三连「点赞」「转发」「防范心」

宽饶在褒贬区留住你的念念法！

— 完 —

咱们正在招聘又名眼疾手快、关怀 AI 的学术剪辑实习生 � �

感兴味的小伙伴宽饶关怀 � � 了解细目