风险提示:理性看待区块链,提高风险意识!
  • 机器人看不清,蚂蚁给治好了
    首页 > 业界 > 区块链 2026-01-27 14:29
    摘要
    天下苦机器人看不清透明和反光物体久矣,透明物体的问题在于信息缺失,蚂蚁灵波团队想到了一个非常反直觉的解法: 既然传感器在这些地方失效了,那这个失效本身,就是一种最有力的特征。LingBot-Depth在训练的过程中,会把深度图中那些天然缺失的区域作为掩码,然后要求模型仅凭完整的RGB彩色图像和剩余的有效深度信息,去脑补出被掩码遮住的那部分深度 。
    币界网报道:

    天下苦机器人看不清透明和反光物体久矣。

    毕竟就连小动物甚至人,有时候一个不小心,都会搞笑地撞到干净的玻璃门......

    不仅如此,若是让机器人拿起透明的玻璃杯、反光的不锈钢物体,他们也会经常出现“突然瞎了”的情况。

    这一切的问题,正是出在了机器人的眼睛——深度相机。

    因为无论是基于结构光还是双目立体视觉的深度相机,它们的工作原理都是依赖物体表面对光线的稳定反射。

    而透明材质会让光线直接穿透,高反光材质则会将光线漫反射到四面八方,导致传感器无法接收到有效的回波信号,从而产生大量缺失或错误的深度值。

    对比一下我们人类看到的场景和机器人眼中的场景,就一目了然了:

    毫不夸张地说,这类让机器人睁眼瞎的问题,一直是阻碍它们安全地走进家庭、商场和医院等场景的Big Big Big Problem!

    但现在,随着一项新技术的提出,机器人的眼疾终于算是被治好了——

    蚂蚁集团的具身智能公司蚂蚁灵波(RobbyAnt),开源了全球看得最清楚的深度视觉模型,LingBot-Depth。

    同样是上面两个场景,我们直接来看下在LingBot-Depth加持下的效果:

    也正因如此,机器人现在不论是抓取反光的不锈钢杯子,还是透明的玻璃杯,都是易如反掌:

    用一句经典歇后语来表达这个feel,或许就是“老太太戴眼镜——不简单”。

    确实不简单。

    因为LingBot-Depth不仅解锁了“全球看得最清楚”的头衔,还是首次在不需要换硬件的条件下就能实现的那种。

    那么蚂蚁灵波到底是怎么做到的,我们这就细扒一下论文。

    咋就一下子能看清了?

    在很多非专业讨论中,透明和反光常常被混为一谈,统称为视觉难点。

    但若是从算法层面来看,它俩其实是两类截然不同、甚至相反的问题。

    首先,透明物体的问题在于信息缺失。

    玻璃几乎不提供稳定的纹理,也不会像普通物体那样反射环境光,相机看到的,更多是背景的延续。

    对于深度模型来说,它既不知道玻璃本身到哪儿才算结束,也不知道真实厚度和形态。

    而反光物体的问题,恰恰相反,是信息过载。

    高反射率表面会把环境、光源、相机本身统统映射进画面,导致同一物体在不同角度、不同时间下呈现完全不同的外观。

    因此,模型很难判断,哪些像素属于物体,哪些只是倒影。

    这也意味着,如果用一套统一的假设去处理这两类问题,往往两头都做不好。

    LingBot-Depth的一个重要设计思想,正是明确区分透明和反光这两种类型的物理成因,而不是把它们简单当成噪声。

    为此,蚂蚁灵波团队想到了一个非常反直觉的解法:

    既然传感器在这些地方失效了,那这个失效本身,不就是一种最有力的特征吗?

    因为传感器输出的那些缺失区域,其实是一个天然的掩码(Natural Mask),起码可以告诉模型这块区域有问题。

    受今年大火的MAE(Masked Autoencoders)的启发,团队便提出了一种名为Masked Depth Modeling(MDM,掩码深度建模)全新范式。

    简单来说,LingBot-Depth在训练的过程中,会把深度图中那些天然缺失的区域作为掩码,然后要求模型仅凭完整的RGB彩色图像和剩余的有效深度信息,去脑补出被掩码遮住的那部分深度。

    但这个过程也是非常具备挑战性的。

    模型必须学会从RGB图像中挖掘出极其细微的线索,比如玻璃边缘的折射畸变、反光表面的环境倒影、物体的轮廓和阴影,然后将这些视觉上下文与已知的几何信息进行深度融合,才能做出准确的推断。

    为了实现这一目标,LingBot-Depth在技术架构上也是做了一些小巧思:

    首先是联合嵌入的ViT架构。

    模型采用视觉Transformer(ViT-Large)作为主干网络,它会对输入的RGB图像和深度图分别进行分块(Patch Embedding),生成两组Tokens。

    为了区分这两种模态,模型还引入了模态编码(Modality Embedding),告诉网络哪些令牌来自颜色,哪些来自深度。随后,通过自注意力机制,模型能够自动学习颜色与深度之间的精细对应关系,建立起跨模态的联合表征。

    其次是智能掩码策略。

    不同于MAE中完全随机的掩码,MDM的掩码策略更聪明。它优先使用传感器天然产生的缺失区域作为掩码;对于部分有效、部分无效的深度块,则以高概率(如75%)进行掩码;如果天然掩码不够,才会补充一些随机掩码。

    这种策略确保了模型始终在解决最困难、最真实的问题。

    最后是ConvStack解码器。

    在重建阶段,模型放弃了传统的Transformer解码器,转而采用一个名为ConvStack的卷积金字塔解码器。

    这种结构在处理密集的几何预测任务(如深度图)时,能更好地保留空间细节和边界锐度,输出的深度图更加清晰、连贯。

    此外,在数据采集与实验验证环节,团队还使用了奥比中光(Orbbec)的Gemini 330系列双目3D相机进行了大量真实场景的采集与测试。

    这不仅保证了数据来源的多样性与真实性,也为模型在实际硬件平台上的部署提供了重要支持。

    通过这种方式,LingBot-Depth不仅学会了补全深度,更重要的是,它将对3D几何的深刻理解内化到了模型的“骨髓”里。

    即使在推理时只给它一张单目RGB图片(没有任何深度输入),它也能凭借学到的先验知识,估算出相当准确的深度图,展现出强大的泛化能力。

    200万真实数据炼出来的

    一个模型再强大,也离不开高质量、大规模的数据。

    蚂蚁灵波团队构建了一套可扩展的数据采集与合成的pipeline,最终汇集了总计约300万的高质量RGB-D样本用于模型预训练。

    其中,200万来自真实世界,100万来自高保真仿真。

    在真实数据方面,团队设计了一套模块化的3D打印采集装置,可以灵活适配多种商用RGB-D相机(如Orbbec Gemini、Intel RealSense、ZED等)。

    他们走遍了住宅、办公室、商场、餐厅、健身房、医院、停车场等数十种场景,系统性地收集了大量包含透明、反光、低纹理等挑战性物体的真实数据。这些数据覆盖了极其丰富的长尾场景,为模型的鲁棒性打下了坚实基础。

    在仿真数据方面,为了模拟真实深度相机的成像缺陷,团队没有简单地渲染完美的深度图,而是在Blender中同时渲染RGB图像和带散斑的红外立体图像对。再通过经典的半全局匹配(SGM)算法生成有缺陷的仿真深度图。

    这种方法能高度还原真实传感器在面对复杂材质时的失效模式。

    值得注意的是,这套包含200万真实和100万仿真数据的庞大数据集,是蚂蚁灵波团队近期计划开源的重要资产,旨在降低整个行业在空间感知领域的研究门槛。

    算法够创新,数据够硬核,这才有了LingBot-Depth突出的性能表现。

    在多个权威的深度补全基准测试(如iBims、NYUv2、DIODE)上,它全面碾压了当前最先进的SOTA。

    尤其是在最严苛的极端设定下(深度图大面积缺失并伴有严重噪声),LingBot-Depth的RMSE指标比此前最好的方法降低了超过40%。

    除此之外,尽管模型是在静态图像上训练的,但它在视频序列上展现出了惊人的时空一致性。

    在一段包含玻璃大门、有镜子和玻璃的健身房、海洋馆隧道的视频中,LingBot-Depth 输出的深度流不仅填补了原始传感器的大片空洞,而且在整个视频过程中保持平滑、稳定,没有任何闪烁或跳变。

    为了验证LingBot-Depth 在真实世界中的价值,蚂蚁灵波团队将其部署到了一台真实的机器人平台上。

    这套系统由Rokae(节卡)XMate-SR5机械臂、X Hand-1灵巧手和Orbbec Gemini 335 RGB-D相机组成。

    实验目标是抓取一系列对深度感知极具挑战的物体:不锈钢杯、透明玻璃杯、透明收纳盒和玩具车。

    在20次抓取尝试中,使用LingBot-Depth的成功率远高于使用原始深度数据。

    缺点,有时也是一种优势

    解决物理世界的感知难题,好的硬件固然重要,但不一定非要死磕。

    这或许就是LingBot-Depth给行业带来的一种启发。

    因为在过去,当现有深度相机无法满足需求时,唯一的出路往往是斥巨资更换更昂贵、更专业的硬件。

    而LingBot-Depth提供了一条软硬协同的路径:它可以在不更换现有相机硬件的前提下,通过算法大幅提升深度感知的鲁棒性与完整性。

    它可以作为一个即插即用的算法模块,无缝集成到现有的机器人、自动驾驶汽车或AR/VR设备的感知链路中,以极低的成本,显著提升其在复杂真实环境下的3D感知鲁棒性。

    例如,在与奥比中光等硬件适配的过程中,团队验证了LingBot-Depth能够在其现有消费级深度相机上实现接近专业级传感器的感知效果。

    这无疑将大大加速具身智能在家庭服务、仓储物流、商业零售等场景的落地进程。

    更重要的是,灵波团队秉承开放精神,已经开源了LingBot-Depth的代码和模型权重,并计划开源其庞大的300万RGB-D数据集。

    这一举动将极大地降低学术界和工业界在空间感知领域的研究与开发门槛,有望催生更多创新应用,共同推动整个行业的向前发展。

    除此之外,LingBot-Depth也是有哲学意味在身上的:

    有时候,缺点本身就是一种优势。

    你觉得呢?

    本文来源: 量子位

    相关阅读
    币界百科
    币界资讯
    Meme 币已经从造神、蹭神,发展为绑神了。
    区块链
    2026-01-27 18:23:25
    量子计算已不再是遥远的理论威胁,如今,它正在影响着加密货币行业未来几十年的基础设施规划。Coinbase、以太坊以及以太坊二层网络Optimism正在公开阐述时间表、治理框架和迁移策略,为后量子时代做好准备。这与……形成了鲜明对比。
    区块链
    2026-01-27 15:21:09
    英伟达将以每股87.20美元的价格认购CoreWeave普通股,投资金额达20亿美元。Evercore ISI分析师表示,尽管这一消息可能加剧市场对AI循环融资的担忧,但此举有望改善CoreWeave的资产负债表。此外,通过提前锁定英伟达Rubin产品,CoreWeave可能在与竞争对手的较量中占据优势。
    区块链
    2026-01-27 09:04:35
    在当今的加密货币领域,OMI平台备受关注。你是否对它充满好奇,却又不知从何了解?本文将带你深入探究OMI平台,详细剖析其特点、优势等。通过专业的分析和解读,让你对OMI平台有一个全面的认识。无论你是新手小白,还是资深玩家,都能在本文中找到有价值的信息,解开心中关于OMI平台的诸多疑惑。
    区块链百科
    2025-03-07 19:22:49
    在加密货币交易的热潮中,HTM交易平台宛如一颗新星备受瞩目。它究竟有何独特之处,能在众多平台中脱颖而出?是卓越的交易功能,还是创新的安全机制?本文将带你深入了解HTM交易平台,从平台的交易模式、安全保障、用户体验等多个维度进行详细分析,为你揭开HTM交易平台的神秘面纱,让你在选择交易平台时不再迷茫。
    数字货币百科
    2025-03-08 09:53:01
    在加密货币交易领域,SEKOIA交易平台与ATR交易所备受关注。SEKOIA交易平台以其独特的交易模式和功能吸引着众多投资者。而ATR交易所则依托Artrade项目,其原生代币ATR币近期市场表现不错,引发投资者关注。本文将对这两个平台进行深入剖析,探讨它们的特点、优势,为投资者提供全面的参考,帮助大家在加密交易中做出更明智的选择。
    区块链书籍
    2025-03-07 13:32:50
    在加密货币的世界里,PUFFER交易平台宛如一颗耀眼的新星。Puffer Finance作为基于EigenLayer建构的原生流动性再质押协议,自2024年2月1日上线后就备受瞩目,首日总锁仓值(TVL)达1.46亿美元,如今已超8.5亿美元。其原生代币PUFFER币不仅用于奖励流动性提供者,还具备治理功能。此外,平台还推出了多种特色产品。快来深入了解PUFFER交易平台的魅力吧!
    区块链书籍
    2025-03-07 20:24:21
    进入2025年,加密货币市场不确定性加剧,Meme币领域却异军突起。自比特币减半后,加密市场走势低迷,但Meme币板块涨势明显,类别市值已突破570亿美元,日内涨幅达9.3%。其中,特朗普概念币TRUMP持续上涨,已突破10美元,24小时涨幅达29.7%。此外,狗狗币、佩佩币和柴犬币等也展示了显著的市场表现。不过,Meme币通常缺少真实价值和实际效用,价格易受投机、市场情绪和突发新闻事件影响。此前特朗普Meme币TRUMP火爆,但价格上涨过快,泡沫风险高,且未来锁仓代币释放或致价格回调。自Trump币热潮后,不少名人币热度褪去便快速回调。在市场情绪复杂、多空比变化等因素影响下,Meme币的回调可能性值得投资者高度关注。投资者需保持理性,谨慎决策,切勿盲目追涨。
    区块链百科
    2025-03-07 22:01:52
    交易所的冷钱包是否可靠?用户能否真正掌控自己的币? 今天我们就来扒一扒主流交易平台的冷钱包支持情况,并分析新兴去中心化平台XBIT的差异化策略。
    钱包知识
    2025-04-08 15:11:55
    数字资产财库(DAT)公司的的净资产价值比(mNAV)正在下降。
    比特币新闻
    2025-11-19 12:31:39
    交易手续费是一个常常被忽视但又至关重要的因素。每一次交易,手续费都会像一个隐形的“小怪兽”,悄悄吞噬我们的利润。今天,咱们就来深入揭秘币圈十大交易所的手续费排行榜,教大家如何在交易中省下真金白银。
    交易所知识
    2025-04-08 16:03:33
    Strategy推出了一种创新型资本工具STRC,本文将探讨 STRC 以及 Strategy 的其他资本工具(如 STRK 和 STRF),并重点分析它们对不同类型投资者的独特吸引力。
    比特币新闻
    2025-08-12 10:31:08
    从比特币到以太坊,主流交易所支持多币种的源码架构经历了从简单到复杂的演变过程。了解这些架构的原理和升级过程,对于我们币圈的投资者和爱好者来说,有助于更好地理解交易所的运作机制,从而做出更加明智的投资决策。
    币种知识
    2025-04-10 15:45:40
    推荐专栏
    热门币种
    更多
    币种
    美元价格
    24H涨跌幅
    BTC比特币
    87,966.96 USDT
    ¥611,766.22
    -0.14%
    ETH以太坊
    2,912.80 USDT
    ¥20,257.06
    -0.13%
    USDT泰达币
    0.99810 USDT
    ¥6.94
    -0.02%
    BNB币安币
    881.36 USDT
    ¥6,129.41
    +0.8%
    XRP瑞波币
    1.88 USDT
    ¥13.09
    -1.94%
    USDC
    1.00 USDT
    ¥6.96
    +0.08%
    SOL
    123.54 USDT
    ¥859.15
    -0.15%
    TRX波场币
    0.29330 USDT
    ¥2.04
    -0.54%
    DOGE狗狗币
    0.12190 USDT
    ¥0.84770
    -0.49%
    ADA艾达币
    0.34940 USDT
    ¥2.43
    -0.77%
    热搜币种
    更多
    币种
    美元价格
    24H涨跌幅
    AXS
    Axie Infinity
    2.5146 USDT
    ¥17.49
    +1.9%
    FIL
    Filecoin
    1.2478 USDT
    ¥8.68
    -1.8%
    BTC
    比特币
    87966.96 USDT
    ¥611,994.94
    -0.14%
    LPT
    Livepeer Token
    3.1982 USDT
    ¥22.25
    -0.59%
    ZEC
    大零币
    381.09 USDT
    ¥2,651.28
    +6.24%
    OKB
    OK币
    104.37 USDT
    ¥726.11
    +1.37%
    AR
    Arweave
    3.2582 USDT
    ¥22.67
    -1.25%
    狗狗币
    0.1219 USDT
    ¥0.85
    -0.49%
    YGG
    Yield Guild Games
    0.06227 USDT
    ¥0.43
    -1.93%
    ZEN
    Horizen
    9.0392 USDT
    ¥62.89
    -0.89%
    CFX
    Conflux
    0.066797 USDT
    ¥0.46
    -1.01%
    ETH
    以太坊
    2912.8 USDT
    ¥20,264.64
    -0.13%
    最新快讯
    更多
    前美国证券交易委员会律师支持Ripple公司遵守《CLARITY法案》的立场——称投机行为不属于证券法范畴。
    2026-01-27 22:43:16
    HYPE代币价格飙升24%,原因是Hyperliquid交易所的白银期货交易量激增。
    2026-01-27 22:43:15
    白宫加密货币顾问:达沃斯2026世界经济论坛是全球加密货币正常化的转折点
    2026-01-27 22:43:14
    一位以 0.0006 美元买入狗狗币的百万富翁揭示了为什么 Pepeto 是下一个重大投资机会
    2026-01-27 22:37:00
    火币HTX 将于明日11时上线 Tether 全新稳定币 USAT (USAT),并同步新增 USAT/USDT (10X) 逐仓杠杆交易
    2026-01-27 22:36:59
    20万美元路线图:为什么分析师需要类似Solana的实用工具来帮助比特币摆脱风险偏好困境
    2026-01-27 22:30:45
    币安下架10个加密货币交易对,目标直指DeFi、Web3和元宇宙领域
    2026-01-27 22:30:44