
本文的联合第一作者是纽约大学的研究生Hongyi Zeng和Wenxuan Liu。合着者是Tianhua Xia,Jinhui Chen和Ziyun Li。与纽约大学电子工程与计算机科学系教授-sai Qian Zhang相对应,并提供了有关大人工智能,加速硬件和扩大现实的研究指示。现在,当XR逐渐从概念转移到实现时,如何准确理解“作为用户看到的智能计算”始终是视觉计算领域的主要挑战之一。最近,纽约大学和Meta Reality Labs的一项联合研究引起了行业的关注:FOVEATED实例细分 - 一种新的组合眼部监控信息的新方法,被CVPR 2025正式接受。代码连接:https://github.com/github.com/github.com/sai-lab-yu,从计算机上的计算机启动式瓶颈,建造了目前的大型AR/VR SERDSETSSELT,建立了Ar-vr seledsetssets, - 在相机中,通常具有720 P射击功能,1080 P,甚至1440P。但是,如果您想在高分辨率照片中分割实例,则延迟通常会增加数百毫秒的眼睛。该示例的纸张段段始于“为什么要划分整个图片”,指出大多数计算确实在用户不关注的领域浪费了。图1中的房间-t含义的示例表明,用户的眼睛仅保留在非常小的区域,例如床或沃德罗斯,而图3则确定了分辨和延迟之间的关系:当输入从640×640×64×64降低时,延迟可能落在300毫秒内的tenth -millisecond中。 2。人眼的凝视模式带来的灵感与桌面视觉作品不同。 XR用户的目光是“凝视-sac”替代方案:每秒1-3个SAC,每小时20-200毫秒;在扫视过程中,视觉输入受到大脑的约束,只有观点在凝视过程中具有很高的视力。图2是直观地显示出凝视/扫视节奏,而ARIA每日活动中设置的统计数据将进一步显示,只有像素差异,可以将视频切成“观看片段”,而段框架之间的差异很小;如果去除视线比0.1的阈值更烈性,则可以直接将上一个框架段的结果多路复用(图4)。这是面具的跨框架重复使用,该地区有限的细分市场是人类原因和统计的稳定基础。 3。系统的一般系统:基于此提出的Fovealsg框架。 FOVEALSG:内向摄像机以120 Hz捕获眼睛图像,可以通过监视5-10毫秒的眼睛运动来获得外观坐标;外部摄像机同步了前向高分辨率的图片。首次在扫视(阈值α)时首次看到轮廓,然后确定场景是否waS突变(阈值β)。如果不是真的,则该部分在IOI区域的工作仅限于目前的当前坐标和多重历史掩膜。查看图5的dalChartoy。 4。4。FSNETFOVEASG的核心网络模块是FSNET:1。显着的自适应下降采样 - 在图形距离处编码凝视坐标,并将其隔离为具有原始图像的四通道男高音; Salency DNN扩大IOI并根据图形距离迫使背景。 2。划分/分类一个双分支 - 前部分支的输出是二进制IOI掩码,而后分支输出向量类别则是外部的,以获得最终掩码。 3。基于第一个使用固定片段网络的第一个火车盐度DNN进行练习,然后逆转分割/分类分支的曲调;骰子损失 +面积重量损失将解决慢性疼痛,而小目标很容易下沉。图6显示了视觉图,网络结构图d交替处理局部IOI加强的处理局部方法。 5。影响验证:速度和准确性双赢。在诸如ADE20K,LVIS,CITYSCAPES等数据集中,Jetson Orin NX使用了Jetson Orin NX进行测试:FSNET以64×64的价格备份输入,并且仍然可以将IOU提高到0.36以上,这比一个付费采样高0.14; Fovealsg甚至使用跨框架的重复使用,并在α= 0.1和β= 0.01的设置下将拖曳量降低到ND的1⁄75(无基线塌陷),这进一步降低了NS的两倍(无框架的多重多路复用基线)。图7的直方图在α和β的不同组合下直观地呈现了三个溶液之间的差距,端到端延迟仅为84 ms,返回实时交互式红线。 6。消融和讨论的作用iSlicking因素,例如放大倍率,高斯内核大小,凝视和其他因素:虽然下降太强,但精确度太强Y减少,FSNET比平均池基线更好。内核越大,重要区域的重量越高,并且准确性得到相应提高。用随机噪声替换凝视坐标,然后将iOU减少至少0.3,表明凝视信息是程序的基础。尽管表中显示了这些比较(表3-5),但他们也证明了“人类驾驶员 +阻碍了模型设计的统计数据。分类; Foveasg使用扫视检测和框架间多路复用UTION用于“毫秒IOI细分”。 Sa katanyagan ng mas mataas na kawastuhan at mababang mga sensor ng paggalaw ng latency, at ang demand para sa multi-ioi parallelism at multi-task fusion, ang foveated visual computing ay maaaring maging XR ecosystem ang "default na paradigma" ay nagbibigay din ng mga bagong ideya ng balanse ng kahusayan ng eng enghiya para sa sa mas实时na mga gawain sa计算密集型(tulad ng pag-unawa sa eksena,tatlong-dimumential na Repuilding)。