风险提示:理性看待区块链,提高风险意识!
踹了OpenAI后 Figure光速发布具身大模型Helix 能力前所未有 创多项第一
首页 > 业界 > 区块链 2025-02-21 14:31
摘要
本地 GPU 运行,7B 系统 2 模型 + 80M 系统 1 模型,可多机器人共用「大脑」 。
币界网报道:

来源:机器之心

在 2 月份突然宣布终结与 OpenAI 合作之后,知名机器人初创公司 Figure AI 在本周四晚公开了背后的原因:他们已经造出了自己的通用具身智能模型 Helix。

Helix 是一个通用的视觉 - 语言 - 动作(VLA)模型,它统一了感知、语言理解和学习控制,以克服机器人技术中的多个长期挑战。

Helix 创造了多项第一:

  • 全身控制:它是历史上第一个类人机器人上半身的高速连续控制 VLA 模型,覆盖手腕、躯干、头部和单个手指;

  • 多机器人协作:可以两台机器人用一个模型控制协作,完成前所未见的任务; 

  • 抓取任何物品:可以捡起任何小型物体,包括数千种它们从未遇到过的物品,只需遵循自然语言指令即可;

  • 单一神经网络:Helix 使用一组神经网络权重来学习所有行为 —— 抓取和放置物品、使用抽屉和冰箱、以及跨机器人交互 —— 无需任何任务特定的微调;

  • 本地化:Helix 是史上第一个在本地 GPU 运行的机器人 VLA 模型,已经具备了商业化落地能力。

在智能驾驶领域,今年各家车厂都在推进端到端技术的大规模落地,如今 VLA 驱动的机器人也已进入了商业化的倒计时,如此看来 Helix 可谓是具身智能的一次重大突破。

一组 Helix 神经网络权重同时在两个机器人上运行,它们协同工作,将从未见过的杂货物品收纳起来。

人形机器人技术的新扩展

Figure 表示,家庭环境是机器人技术面临的最大挑战。与受控的工业环境不同,家庭中充满了无数非规则物体,如易碎的玻璃器皿、皱巴巴的衣物、散落的玩具,每件物品的形状、大小、颜色和质地都难以预测。为了让机器人在家庭中发挥作用,它们需要能够按需生成智能的新行为。

当前的机器人技术无法扩展到家庭环境中 —— 目前,即使教机器人一个单一的新行为,也需要大量的人力投入。要么需要数小时的博士级专家手动编程,要么需要数千次的演示,这两种方法的成本都高得令人望而却步。

图 1:不同方法获取新机器人技能的扩展曲线。在传统的启发式操作中,技能的增长依赖于专家手动编写脚本。在传统机器人模仿学习中,技能的扩展依赖于收集的数据。而通过 Helix,新技能可以通过语言即时指定。

当前,人工智能的其他领域已经掌握了这种即时泛化的能力。如果能简单地将视觉 - 语言模型(VLM)中捕获的丰富语义知识直接转化为机器人动作,或许会实现技术突破。

这种新能力将从根本上改变机器人技术的扩展轨迹(图 1)。于是,关键问题变成了:如何从 VLM 中提取所有这些常识性知识,并将其转化为可泛化的机器人控制?Figure 构建了 Helix 来弥合这一差距。

Helix:首个机器人系统 1 + 系统 2 VLA 模型

Helix 是机器人领域上首创的「系统 1 + 系统 2」VLA 模型,用于高速、灵巧地控制整个人形机器人上半身。

Figure 表示,先前的方法面临一个根本性的权衡:VLM 主干是通用的,但速度不快,而机器人视觉运动策略是快速的,但不够通用。Helix 通过两个互补的系统解决了这一权衡,这两个系统经过端到端的训练,可以进行通信:

  • 系统 1 (S1):一种快速反应的视觉运动策略,可将 S2 产生的潜在语义表征转换为 200 Hz 的精确连续机器人动作;

  • 系统 2 (S2):一个机载互联网预训练的 VLM,以 7-9 Hz 运行,用于场景理解和语言理解,实现跨物体和上下文的广泛泛化。

这种解耦架构允许每个系统在其最佳时间尺度上运行。S2 可以「慢慢思考」高层次目标,而 S1 可以「快速思考」机器人实时执行和调整的动作。例如,在协作行为中(见下图),S1 可以快速适应伙伴机器人不断变化的动作,同时保持 S2 的语义目标。

Helix 能让机器人快速进行精细的运动调整,这是在执行新语义目标时对协作伙伴做出反应所必需的。

Helix 的设计相较于现有方法具有以下几个关键优势:

  • 速度与泛化能力:Helix 在速度上与专门用于单一任务的行为克隆策略相当,同时能够零样本泛化到数千种新测试对象上;

  • 可扩展性:Helix 直接输出高维动作空间的连续控制,避免了之前 VLA 方法中使用的复杂动作标记化方案。这些方案在低维控制设置(例如二值化平行夹爪)中取得了一些成功,但在高维人形控制中面临扩展挑战;

  • 架构简洁性:Helix 使用标准架构 —— 一个开源的、开放权重的 VLM 用于系统 2,以及一个简单的基于 Transformer 的视觉运动策略用于系统 1;

  • 关注点分离:将 S1 和 S2 解耦使我们能够分别迭代每个系统,而无需受限于寻找统一的观察空间或动作表示。

Figure 介绍了部分模型及训练细节,其收集了一个高质量、多机器人、多操作员的多样化遥操作行为数据集,总计约 500 小时。为了生成自然语言条件下的训练对,工程人员使用了一个自动标注的视觉语言模型(VLM)来生成事后指令。

该 VLM 会处理来自机器人机载摄像头的分段视频片段,并提示:「你会给机器人什么指令以使其执行视频中看到的动作?」训练期间处理的所有物品在评估中被排除,以防止数据污染。

模型架构

Helix 系统主要由两个主要组件组成:S2,一个 VLM 骨干网络;S1,一个潜在条件视觉运动 Transformer。

S2 基于一个 70 亿参数的开源、开放权重的 VLM 构建,该 VLM 在互联网规模数据上进行了预训练。它处理单目机器人图像和机器人状态信息(包括手腕姿态和手指位置),并将它们投影到视觉语言嵌入空间中。结合指定期望行为的自然语言指令,S2 将所有语义任务相关信息提炼为一个连续的潜在向量,传递给 S1 以调节其低级动作。

S1 是一个 8000 万参数的交叉注意力编码器 - 解码器 Transformer,负责低级控制。它依赖于一个完全卷积的多尺度视觉骨干网络进行视觉处理,该网络完全在模拟环境中进行预训练初始化。虽然 S1 接收与 S2 相同的图像和状态输入,但它以更高的频率处理这些输入,以实现更灵敏的闭环控制。来自 S2 的潜在向量被投影到 S1 的标记空间中,并与 S1 视觉骨干网络提取的视觉特征沿序列维度连接,提供任务条件。

在工作时,S1 以 200 赫兹的频率输出完整的上半身人形控制,包括期望的手腕姿态、手指屈曲和外展控制,以及躯干和头部方向目标。Figure 在动作空间中附加了一个合成的「任务完成百分比」动作,使 Helix 能够预测自身的终止条件,从而更容易对多个学习到的行为进行排序。

训练

Helix 的训练是完全端到端的:从原始像素和文本命令映射到具有标准回归损失的连续动作。

梯度的反向传播路径是通过用于调节 S1 行为的隐通信向量从 S1 到 S2,从而允许对这两个组件进行联合优化。

Helix 不需要针对具体某某任务进行调整;它只需维持单个训练阶段和一组神经网络权重,无需单独的动作头或针对每个任务的微调阶段。

在训练期间,他们还会在 S1 和 S2 输入之间添加一个时间偏移量。此偏移量经过校准以匹配 S1 和 S2 部署的推理延迟之间的差距,确保部署期间的实时控制要求准确反映在训练中。

经过优化的流式推理

Helix 的训练设计可实现在 Figure 机器人上高效地并行部署模型,每台机器人都配备了双低功耗嵌入式 GPU。推理管道分为 S2(高级隐规划)和 S1(低级控制)模型,每个模型都在专用 GPU 上运行。

S2 作为异步后台进程运行,用于处理最新的观察结果(机载摄像头和机器人状态)和自然语言命令。它不断更新编码高级行为意图的共享内存隐向量。

S1 作为单独的实时进程执行,其目标是维持让整个上身动作平滑执行所需的关键 200Hz 控制回路。它的输入是最新的观察结果和最新的 S2 隐向量。由于 S2 和 S1 推理之间存在固有的速度差异,因此 S1 自然会在机器人观察上以更高的时间分辨率运行,从而为反应控制创建更紧密的反馈回路。

这种部署策略有意反映了训练中引入的时间偏移量,从而可最大限度地减少训练推理分布差距。这种异步执行模型允许两个进程以各自最佳频率运行,使 Helix 的运行速度能与最快的单任务模仿学习策略一样快。

有趣的是,在 Figure 发布 Helix 之后,清华大学博士生 Yanjiang Guo 表示其技术思路与他们的一篇 CoRL 2024 论文颇为相似,感兴趣的读者也可参照阅读。

论文地址:

结果

细粒度 VLA 全上身控制

Helix 能以 200Hz 的频率协调 35 自由度的动作空间,控制从单个手指运动到末端执行器轨迹、头部注视和躯干姿势等一切。

头部和躯干控制具有独特的挑战 —— 当头部和躯干移动时,会改变机器人可以触及的范围和可以看到的范围,从而产生反馈回路,过去这种反馈回路会导致不稳定。

视频 3 演示了这种协调的实际操作:机器人用头部平稳地跟踪双手,同时调整躯干以获得最佳触及范围,同时保持精确的手指控制以进行抓握。在此之前,在如此高维的动作空间中实现这种精度水平是很难的,即使对于单个且已知的任务也是如此。Figure 公司表示,之前还没有 VLA 系统能够表现出这种程度的实时协调,同时保持跨任务和物体泛化的能力。

Helix 的 VLA 能控制整个人形机器人上半身,这是机器人学习领域首个做到一点的模型。

零样本多机器人协同

Figure 表示,他们在一个高难度多智能体操作场景中将 Helix 推向极限:两台 Figure 机器人协作实现零样本杂货存放。

视频 1 展示了两个基本进步:两台机器人成功地操作了全新的货物(训练期间从未遇到过的物品),展示了对各种形状、大小和材料的稳健泛化。

此外,两个机器人都使用相同的 Helix 模型权重进行操作,无需进行特定于具体机器人的训练或明确的角色分配。它们的协同是通过自然语言提示词实现的,例如「将一袋饼干递给你右边的机器人」或「从你左边的机器人那里接过一袋饼干并将其放在打开的抽屉里」(参见视频 4)。这是首次使用 VLA 展示多台机器人之间灵活、扩展的协作操作。考虑到它们成功处理了全新的物体,这项成就就显得尤其显著了。

Helix 实现精确的多机器人协同

涌现出「拿起任何东西」能力

只需一个「拿起 [X]」指令,配备了 Helix 的 Figure 机器人基本就能拿起任何小型家用物品。在系统性测试中,无需任何事先演示或自定义编程,机器人就成功地处理了杂乱摆放的数千件新物品 —— 从玻璃器皿和玩具到工具和衣服。

特别值得注意的是,Helix 可以建立互联网规模的语言理解和精确的机器人控制之间的联系。例如,当被提示「拿起沙漠物品」时,Helix 不仅能确定出玩具仙人掌与这个抽象概念相匹配,还能选择最近的手并能通过精确运动命令安全地抓起它。

Figure 公司表示:「对于在非结构化环境中部署人形机器人,这种通用的『语言到动作』抓取能力开辟了令人兴奋的新可能。」

Helix 可将「拿起 [X]」等高层面指令转译成低层动作。

讨论

Helix 的训练效率很高

Helix 以极少的资源实现了强大的物体泛化。Figure 公司表示:「我们总共使用了约 500 小时的高质量监督数据来训练 Helix,这仅仅是之前收集的 VLA 数据集的一小部分(<5%),并且不依赖多机器人具身收集或多个训练阶段。」他们注意到,这种收集规模更接近现代单任务模仿学习数据集。尽管数据要求相对较小,但 Helix 可以扩展到更具挑战性的动作空间,即完整的上身人形控制,具有高速率、高维度的输出。

单一权重集

现有的 VLA 系统通常需要专门的微调或专用的动作头来优化执行不同高级行为的性能。值得注意的是,Helix 仅使用一组神经网络权重(系统 2 为 7B、系统 1 为 80M),就可以完成在各种容器中拾取和放置物品、操作抽屉和冰箱、协调灵巧的多机器人交接以及操纵数千个新物体等动作。

「拿起 Helix」(Helix 意为螺旋)

总结

Helix 是首个通过自然语言直接控制整个人形机器人上半身的「视觉 - 语言 - 动作」模型。与早期的机器人系统不同,Helix 能够即时生成长视界、协作、灵巧的操作,而无需任何特定于任务的演示或大量的手动编程。

Helix 表现出了强大的对象泛化能力,能够拿起数千种形状、大小、颜色和材料特性各异的新奇家居用品,并且这些物品在训练中从未遇到过,只需用自然语言命令即可。该公司表示:「这代表了 Figure 在扩展人形机器人行为方面迈出了变革性的一步 —— 我们相信,随着我们的机器人越来越多地协助日常家庭环境,这一步将至关重要。」

虽然这些早期结果确实令人兴奋,但总体来说,我们上面看到的还都属于概念验证,只是展示了可能性。真正的变革将发生在能大规模实际部署 Helix 的时候。期待那一天早些到来!

最后顺带一提,Figure 的发布可能只是今年具身智能众多突破的一小步。今天凌晨,1X 机器人也官宣即将推出新品。


发表评论
发表评论
暂无评论
    相关阅读
    币界百科
    币界资讯
    NextVault 是一个基于区块链的去中心化收藏品金融生态系统,融合拍卖、借贷、保险与电商功能,致力于成为 Web3 时代的 「苏富比 + 亚马逊」。
    区块链
    2025-05-29 00:31:44
    日本周三拍卖的 35 亿美元 40 年期政府债券跌至 10 个月来的最低水平,投标倍数为 2.2,为史上最弱
    区块链
    2025-05-29 00:09:00
    继比特币近期的突破之后,加密货币市场目前正在盘整,这为山寨币和表情包币带来了新的上涨动力。随着BTC上涨至关键阻力位,像Shiba Inu这样的代币正在……
    比特币
    2025-05-28 23:37:05
    在 GameStop 宣布首次购买比特币后,GME 的价格于周三大幅下跌。
    比特币
    2025-05-28 22:39:36
    富国银行正在更新对 Ares Management Corporation (ARES) 的展望,据报道,该行对这家价值 520 亿美元的全球另类投资管理公司做出了乐观预测。
    区块链
    2025-05-28 22:33:11
    在加密货币交易领域,Gate.io作为全球知名的加密货币交易所,为用户提供了杠杆交易这一增强交易效力的工具。用户可利用有限自有资金参与更大市场波动,灵活调整交易策略。本文将深度探讨Gate.io平台杠杆交易,涵盖开设杠杆账户、保证金管理、借款规则、下单操作及风险管理等核心环节。通过实际案例,如小李的交易操作,为你详细解析杠杆交易的流程。同时,还会介绍风险率计算等重要指标,助你在杠杆交易中更好地把控风险,实现更高效的交易。
    交易所百科
    2025-03-07 19:45:24
    今日狗狗币市场波动剧烈,价格出现明显下跌。据币界网和区块链网消息,狗狗币价格跌破关键点位,日内跌幅分别达-3.02%和-3.01%。不同时段的价格与交易量呈现出复杂态势,有时交易量上升但价格下降,反映出卖压增加;有时价格和交易量同时下降,显示市场冷清。从K线图来看,狗狗币走势有下降趋势,也有震荡趋势。威廉指标表明目前没有超买和超卖情况。近期狗狗币价格大跌或与美联储鹰派言论及比特币走势有关。市场变化频繁,建议投资者持续关注行情,待趋势明朗后再做决策。
    交易所百科
    2025-03-07 14:00:38
    近期,加密货币市场受特朗普相关动态影响剧烈波动。当地时间2月24日周一,特朗普表示将对加拿大和墨西哥征收关税并推进对等关税计划,引发市场对“贸易战”的担忧,避险情绪升温,投资者抛售比特币等风险资产,2月25日早间加密货币市场大幅杀跌,24小时内超31万人爆仓,爆仓金额超9亿美元。3月2日深夜特朗普宣布新的加密货币战略储备标的,此前比特币等加密货币价格已现暴涨,过去24小时内超17万人爆仓。在此背景下,川普币爆仓风险也随之激增,投资者需保持警惕,DYOR,密切关注市场动态和特朗普相关政策走向,以应对潜在的市场风险。
    矿业百科
    2025-03-07 12:29:56
    你是否在寻找一个安全可靠、功能丰富的加密货币交易平台?BingX交易平台或许是你的不二之选!它为全球100多个国家和地区提供现货、衍生品、跟单和网格交易服务。尽管曾遭遇热钱包安全事件,但迅速恢复并推出「ShieldX计划」,展现强大危机管理能力。深入了解BingX,探索它受超1000万用户青睐的原因!
    交易所百科
    2025-03-08 09:32:37
    近期以太坊价格波动频繁,市场备受关注。在2025年3月6日,以太坊表现亮眼,成功站上2300美元/枚,日内涨幅达2.67%。此前不同日期以太坊价格也各有表现,有时处于震荡或下降趋势。价格和交易量的变化反映着市场情绪,当价格和交易量同时上升,显示市场买盘强劲、情绪乐观;而价格和交易量同时下降则意味着市场活跃度降低。投资者需密切关注市场动态,DYOR。
    区块链百科
    2025-03-07 17:51:45
    本文将深入探讨去中心化交易所和中心化交易所各自的特点,以及如何根据个人的投资策略来做出最佳选择。
    交易所知识
    2025-04-07 09:19:45
    周末BTC突然下跌,来到82k附近。加密市场一片凄凄惨惨戚戚。这个三月BTC已经踩过10个月均线78.5k,现在似乎是拉开架势要再次测试。
    比特币新闻
    2025-03-30 13:31:00
    在加密货币的世界里,WILDw平台与BANANAS31合约正成为备受瞩目的焦点。BANANAS31币是社区驱动的人工智能治理meme,在BNB智能链上100%公平发布,其独特灵感源自互联网模因,以香蕉图案融入设计,为去中心化金融领域带来轻松幽默的氛围。WILDw平台与BANANAS31合约又有着怎样的关联与创新?它们将如何在加密浪潮中发展?深入了解,一起探寻加密世界的新动向。
    矿业知识
    2025-03-04 11:57:45
    在加密货币的浪潮中,TST交易和SANTOS合约备受关注。TST币起初由BNB Chain团队作为教育演示创建,后演变成热门的meme币,其价格曾因意外事件而暴涨,但这种基于误解和炒作的上涨缺乏基本面支撑,其可持续性存疑。SANTOS币是基于以太坊区块链的ERC - 20代币,由瑞士的SANTOS公司发行,构建了一个健身奖励生态系统,用户可通过健身赚取并用于购买相关产品和服务,还拥有治理权。不过,SANTOS币在发展初期面临市场认可度和法律监管等挑战。深入了解TST交易和SANTOS合约,有助于把握加密货
    币种知识
    2025-03-04 11:50:03
    在当今的加密货币领域,VIRTUAL交易所官网和NEIROe交易所备受关注。VIRTUAL币是Virtual X平台的原生代币,该平台致力于打造去中心化、高效且环保的数字通信生态系统,VIRTUAL币不仅可用于支付平台服务费用,还能作为参与治理和投票的凭证。近期,Coinbase国际站还将上线VIRTUAL永续合约,足见其影响力不断扩大。而NEIROe交易所虽暂未获取详细信息,但在竞争激烈的数字货币交易市场中,也有着自身独特的发展路径和潜力。投资者和爱好者们都对这两者的未来充满期待,想了解更多关于它们的详
    交易所知识
    2025-03-03 21:13:41
    推荐专栏
    热门币种
    更多
    币种
    美元价格
    24H涨跌幅
    BTC比特币
    107,604.26 USDT
    ¥774,115.80
    -2.38%
    ETH以太坊
    2,651.82 USDT
    ¥19,077.45
    -0.9%
    USDT泰达币
    1.00 USDT
    ¥7.20
    0%
    XRP瑞波币
    2.25 USDT
    ¥16.19
    -3.67%
    BNB币安币
    686.09 USDT
    ¥4,935.80
    -0.85%
    SOL
    171.12 USDT
    ¥1,231.05
    -3.95%
    USDC
    0.99940 USDT
    ¥7.19
    0%
    DOGE狗狗币
    0.21980 USDT
    ¥1.58
    -3.81%
    ADA艾达币
    0.74810 USDT
    ¥5.38
    -2.54%
    TRX波场币
    0.27530 USDT
    ¥1.98
    -0.04%
    热搜币种
    更多
    币种
    美元价格
    24H涨跌幅
    柚子
    0.758 USDT
    ¥5.52
    -2.21%
    比特币
    107604.26 USDT
    ¥783,359.01
    -2.38%
    PancakeSwap
    2.7101 USDT
    ¥19.73
    -2.14%
    Uniswap
    6.7141 USDT
    ¥48.88
    +2.33%
    Filecoin
    2.8317 USDT
    ¥20.61
    -2.45%
    Mask Network
    2.2043 USDT
    ¥16.05
    +18.56%
    大零币
    52.9194 USDT
    ¥385.25
    -0.96%
    Shiba Inu
    1.414E-5 USDT
    ¥0.00
    -2.82%
    币安币
    686.09 USDT
    ¥4,994.74
    -0.85%
    Horizen
    9.3704 USDT
    ¥68.22
    -2.52%
    狗狗币
    0.2198 USDT
    ¥1.60
    -3.81%
    以太坊
    2651.82 USDT
    ¥19,305.25
    -0.9%
    最新快讯
    更多
    美SEC发布“DeFi与美国精神”圆桌会议议程和参会成员
    2025-05-29 01:13:22
    Dogecoin展现出大幅价格上涨的强劲潜力
    2025-05-29 01:02:03
    市场消息:贝莱德计划购买10%的CircleIPO股份
    2025-05-29 00:59:56
    特朗普:我觉得我们可以“拯救”TikTok
    2025-05-29 00:50:58
    美国副总统万斯:比特币在国家未来的战略中可以发挥积极作用
    2025-05-29 00:49:37
    现货黄金跌破3290美元/盎司,日内跌0.30%
    2025-05-29 00:48:34
    美联储调查:2024年有29%的人表示经济状况良好或很棒
    2025-05-29 00:39:30