只需一张图片、一句动作指令，Animate124轻松生成3D视频

首页 > 业界 > 区块链 2023-12-21 17:05

币界网APP

苹果下载

安卓下载

摘要

Animate124，轻松将单张图片变成 3D 视频。

币界网报道：

Animate124，轻松将单张图片变成 3D 视频。

原文来源：机器之心

图片来源：由无界 AI生成

近一年来，DreamFusion 引领了一个新潮流，即 3D 静态物体与场景的生成，这在生成技术领域引发了广泛关注。回顾过去一年，我们见证了 3D 静态生成技术在质量和控制性方面的显著进步。技术发展从基于文本的生成起步，逐渐融入单视角图像，进而发展到整合多种控制信号。

与此相较，3D 动态场景生成仍处于起步阶段。2023 年初，Meta 推出了 MAV3D，标志着首次尝试基于文本生成 3D 视频。然而，受限于开源视频生成模型的缺乏，这一领域的进展相对缓慢。

然而，现在，基于图文结合的 3D 视频生成技术已经问世！

尽管基于文本的 3D 视频生成能够产生多样化的内容，但在控制物体的细节和姿态方面仍有局限。在 3D 静态生成领域，使用单张图片作为输入已经能够有效重建 3D 物体。由此受到启发，来自新加坡国立大学（NUS）和华为的研究团队提出了 Animate124 模型。该模型结合单张图片和相应的动作描述，实现了对 3D 视频生成的精准控制。

项目主页:
论文地址:
Code:

核心方法

方法概括

根据静态和动态，粗糙和精细优化，本文将 3D 视频生成分为了 3 个阶段：1）静态生成阶段：使用文生图和 3D 图生图扩散模型，从单张图像生成 3D 物体；2）动态粗糙生成阶段：使用文生视频模型，根据语言描述优化动作；3) 语义优化阶段：额外使用个性化微调的 ControlNet，对第二阶段语言描述对外观造成的偏移进行优化改善。

图 1. 整体框架

静态生成

本文延续 Magic123 的方法，使用文生图（Stable Diffusion）和 3D 图生图（Zero-1-to-3）进行基于图片的静态物体生成：

对于条件图片所对应的视角，额外使用损失函数进行优化：

通过上述两个优化目标，得到多视角 3D 一致的静态物体（此阶段在框架图中省略）。

动态粗糙生成

此阶段主要使用文生视频扩散模型，将静态 3D 视为初始帧，根据语言描述生成动作。具体来说，动态 3D 模型（dynamic NeRF）渲染连续时间戳的多帧视频，并将此视频输入文生视频扩散模型，采用 SDS 蒸馏损失对动态 3D 模型进行优化：

仅使用文生视频的蒸馏损失会导致 3D 模型遗忘图片的内容，并且随机采样会导致视频的初始和结束阶段训练不充分。因此，本文的研究者们对开始和结束的时间戳进行过采样。并且，在采样初始帧时，额外使用静态函数进行优化（3D 图生图的 SDS 蒸馏损失）：

因此，此阶段的损失函数为：

语义优化

即使采用了初始帧过采样并且对其额外监督，在使用文生视频扩散模型的优化过程中，物体的外观仍然会受到文本的影响，从而偏移参考图片。因此，本文提出了语义优化阶段，通过个性化模型对语义偏移进行改善。

由于仅有单张图片，无法对文生视频模型进行个性化训练，本文引入了基于图文的扩散模型，并对此扩散模型进行个性化微调。此扩散模型应不改变原有视频的内容和动作，仅对外观进行调整。因此，本文采用 ControlNet-Tile 图文模型，使用上一阶段生成的视频帧作为条件，根据语言进行优化。ControlNet 基于 Stable Diffusion 模型，只需要对 Stable Diffusion 进行个性化微调（Textual Inversion），即可提取参考图像中的语义信息。个性化微调之后，将视频视为多帧图像，使用 ControlNet 对单个图像进行监督：

另外，因为 ControlNet 使用粗糙的图片作为条件，classifier-free guidance (CFG) 可以使用正常范围（10 左右），而不用与文生图以及文生视频模型一样使用极大的数值（通常是 100）。过大的 CFG 会导致图像过饱和，因此，使用 ControlNet 扩散模型可以缓解过饱和现象，实现更优的生成结果。此阶段的监督由动态阶段的损失和 ControlNet 监督联合而成：

实验结果

作为第一个基于图文的 3D 视频生成模型，本文与两个 baseline 模型和 MAV3D 进行了比较。与其他方法相比，Animate124 有更好的效果。

可视化结果比较

图 2. Animate124 与两个 baseline 比较

图 3.1. Animate124 与 MAV3D 文生 3D 视频比较

图 3.1. Animate124 与 MAV3D 图生 3D 视频比较

量化结果比较

本文使用 CLIP 和人工评价生成的质量，CLIP 指标包括与文本的相似度和检索准确率，与图片的相似度，以及时域一致性。人工评价指标包括与文本的相似度，与图片的相似度，视频质量，动作真实程度以及动作幅度。人工评价表现为单个模型与 Animate124 在对应指标上选择的比例。

与两个 baseline 模型相比，Animate124 在 CLIP 和人工评价上均取得更好的效果。

表 1. Animate124 与两个 baseline 量化比较

总结

Animate124 是首个根据文本描述，将任意图片变成 3D 视频的方法。其采用多种扩散模型进行监督和引导，优化 4D 动态表征网络，从而生成高质量 3D 视频。

284

发表评论

暂无评论

相关阅读

币界百科

币界资讯

分析师称 Uber 司机知道 XRP 是唯一选择

XRP 社区一片沸腾，现实生活中的遭遇表明 XRP 正在获得主流认可，甚至在 Uber 司机中也是如此。

区块链

2025-08-15 21:35:26

晨间新闻：又一家市值超过 7 亿美元的比特币 TreasuryCo 诞生

ETH ETF 的流入量持续接近历史最高水平，Hyperliquid 的交易量和费用也创下了历史新高。

比特币

2025-08-15 19:23:38

TRON – 为什么这个指标表明 TRX 下一步可能达到 0.4 美元

Tron期货交易量泡沫图已稳定在中立区域，预示着还有更大的增长空间。

区块链

2025-08-15 17:36:19

Cardano创始人称ADA已过时，因其上涨至1美元，成为唯一上涨的顶级资产

过去一天，围绕卡尔达诺的看涨情绪飙升，因为该代币抵抗看跌趋势，短暂回升至 1 美元的价格。

区块链

2025-08-15 17:29:49

专家预测，当第一批现货 XRP ETF 上线时，XRP 价格应在 20 美元至 50 美元之间

分析师 Kenny Nguyen 预测，在结构性优势和批准几率上升的背景下，现货 ETF 推出后，XRP 的价格可能会飙升至 22 至 50 美元。

区块链

2025-08-15 15:47:51

POOLX交易平台深度剖析：你真的了解它吗？

在当今的加密货币领域，POOLX交易平台正逐渐走入投资者的视野。它究竟有着怎样的独特魅力与潜在风险？本文将为你全面解读POOLX交易平台，从其交易机制、安全保障到用户体验等多个维度进行深度剖析，帮助你更清晰地认识这个平台，在复杂多变的加密市场中做出更明智的决策。

矿业百科

2025-03-07 16:30:37

SUSHI交易所官网全揭秘！5大优势让你交易无忧？

在加密货币交易的浪潮中，SUSHI交易所备受关注。其官网是了解该平台的重要窗口。SushiSwap作为基于以太坊的去中心化交易所，官网提供了平台功能、特点、优势等详细信息，还有白皮书等有用资源。在这里，用户能体验无信任第三方交易，持有寿司代币享受特殊福利，通过流动性挖矿获取收益。官网的这些特性，让它成为众多投资者探索加密交易的热门之选，你准备好开启交易之旅了吗？

数字货币百科

2025-03-07 17:52:42

揭秘CLY交易所与GEOD交易：加密市场的新宠风云

在加密货币的浪潮中，CLY交易所和GEOD交易备受关注。CLY币全名为Cyclone Protocol Token，基于区块链技术，具有匿名性等特点，可在Binance、Coinbase等多家交易所交易。截至2025年3月7日06:51:54，CLY币价格约为0.94元。而GEOD在多个交易对中活跃，如Raydium的GEOD/SOL、GEOD/USDC等。深入了解它们，能让你在加密市场中更好地把握机会，DYOR，一起探索加密领域的无限可能。

区块链书籍

2025-03-07 12:34:01

2025年最新虚拟货币排名大揭秘！谁将引领未来潮流？

在科技飞速发展和全球经济数字化转型的浪潮下，虚拟货币市场持续升温。2025年部分虚拟货币排名备受关注。比特币作为虚拟货币的开山鼻祖，截至2025年1月29日，市值约1.98万亿美元，价格为100,309.15美元，其稀缺性赋予长期价值存储潜力。以太坊不仅是虚拟货币，更是智能合约和去中心化应用核心平台，市值378.71亿美元，价格3,141.83美元，以太坊2.0升级提升了性能和可扩展性。莱特币以快速交易确认时间和低交易费用受青睐，适合日常小额支付。币安币作为币安交易所原生代币，应用场景丰富，市值93.15亿美元，价格653.79美元，随着币安交易所发展，其需求和价值有望提高。这些虚拟货币凭借自身特点和优势，在市场中占据重要地位，未来发展值得期待。

数字货币百科

2025-03-07 19:14:32

KENDU交易所官网大揭秘！2025年你不可错过的加密交易宝藏之地？

在加密货币市场持续释放巨大活力与潜力的当下，KENDU交易所官网成为众多投资者关注的焦点。它是进入KENDU永续合约交易以及其他加密货币交易的重要门户。官网界面设计简洁明了，操作便捷，即使新手也能快速上手。同时，它还提供丰富的交易工具和数据分析功能，能实时显示加密货币价格走势、交易量等信息，助投资者制定交易策略。想在2025年的加密交易领域抢占先机，就一定不能错过探秘KENDU交易所官网！

交易所百科

2025-03-08 09:19:01

探秘WILDw平台与BANANAS31合约：加密世界的创新风暴来袭！

在加密货币的世界里，WILDw平台与BANANAS31合约正成为备受瞩目的焦点。BANANAS31币是社区驱动的人工智能治理meme，在BNB智能链上100%公平发布，其独特灵感源自互联网模因，以香蕉图案融入设计，为去中心化金融领域带来轻松幽默的氛围。WILDw平台与BANANAS31合约又有着怎样的关联与创新？它们将如何在加密浪潮中发展？深入了解，一起探寻加密世界的新动向。

矿业知识

2025-03-04 11:57:45

早报丨美国财长称美元即将上链伦敦证交所集团考虑推出24小时交易

推出加密货币和区块链行业早报《早8点》2761期，为您提供最新、最快的数字货币和区块链行业新闻。

比特币新闻

2025-07-21 08:31:30

深度剖析：SYN交易机制与LINGO平台的独特魅力

在当今复杂多变的网络与数据领域，SYN交易和LINGO平台都有着不可忽视的地位。SYN交易机制凭借其独特的原理，在数据同步和锁操作方面发挥着重要作用，从偏向锁到重量级锁的升级过程，都展现出其适应不同竞争环境的灵活性。而LINGO平台作为一款在多领域有应用的工具，无论是用于数学建模，还是作为融合笔记、AI创作和知识管理的团队协作平台，都有其独特的优势。本文将深入探讨SYN交易的运行机制以及LINGO平台的功能特点，帮助读者更好地了解这两者的奥秘，为相关领域的学习和应用提供有价值的参考。

矿业知识

2025-03-03 19:25:58