风险提示:理性看待区块链,提高风险意识!
规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B
首页 > 业界 > 区块链 2023-11-28 17:42:01
币界网报道:

文章来源:机器之心

性能优于规模更大的模型。

图片来源:由无界 AI生成

多模态学习面临的主要挑战之一是需要融合文本、音频、视频等异构的模态,多模态模型需要组合不同来源的信号。然而,这些模态具有不同的特征,很难通过单一模型来组合。例如,视频和文本具有不同的采样率。

最近,来自 Google DeepMind 的研究团队将多模态模型解耦成多个独立的、专门的自回归模型,根据各种模态的特征来处理输入。

具体来说,该研究提出了多模态模型 Mirasol3B。Mirasol3B 由时间同步模态(音频和视频)自回归组件,以及用于上下文模态的自回归组件组成。这些模态不一定在时间上对齐,但是按顺序排列的。

论文地址:https://arxiv.org/abs/2311.05698

Mirasol3B 在多模态基准测试中达到了 SOTA 水平,优于规模更大的模型。通过学习更紧凑的表征,控制音频 - 视频特征表征的序列长度,并根据时间对应关系进行建模,Mirasol3B 能够有效满足多模态输入的高计算要求。


方法简介


Mirasol3B 是一个音频 - 视频 - 文本多模态模型,其中将自回归建模解耦成时间对齐模态(例如音频、视频)的自回归组件,以及针对非时间对齐的上下文模态(例如文本)的自回归组件。Mirasol3B 使用交叉注意力权重来协调这些组件的学习进程。这种解耦使得模型内部的参数分布更合理,也为模态(视频和音频)分配了足够的容量,并使得整体模型更加轻量。

如下图 1 所示,Mirasol3B 主要由两个学习组件组成:自回归组件,旨在处理(几乎)同步的多模态输入,例如视频 + 音频,并及时组合输入。

该研究还提出将时间对齐的模态分割成时间段,在时间段中学习音频 - 视频联合表征。具体来说,该研究提出了一种名为「Combiner」的模态联合特征学习机制。「Combiner」融合了同一时间段中的模态特征,产生了更紧凑的表征。

「Combiner」从原始的模态输入中提取初级的时空表示,捕捉视频的动态特性,并结合与其共时的音频特征,模型可以在不同的速率接收多模态输入,在处理较长的视频时表现良好。

「Combiner」有效地满足了模态表征既要高效又要信息量丰富的需求。它可以充分涵盖视频与其他同时发生的模态中的事件和活动,并能够用于后续的自回归模型,学习长期依赖关系。

为了处理视频和音频信号,并适应更长的视频 / 音频输入,它们被分割成(在时间上大致同步)的小块,再通过「Combiner」学习联合视听表示。第二个组件处理上下文,或时间上未对齐的信号,如全局文本信息,这些信息通常仍然是连续的。它也是自回归的,并使用组合的潜在空间作为交叉注意力输入。

视频 + 音频学习组件有 3B 参数;没有音频的组件是 2.9B。多半参数用于音频 + 视频自回归模型。Mirasol3B 通常处理 128 帧的视频,也可以处理更长(例如 512 帧)的视频。

由于设计了分区和「Combiner」的模型架构,增加更多帧,或增加块的大小、数目等,只会使参数略有增加,解决了更长视频需要更多参数、更大的内存的问题。


实验及结果


该研究在标准 VideoQA 基准、长视频 VideoQA 基准和音频 + 视频基准上对 Mirasol3B 进行了测试评估。

在 VideoQA 数据集 MSRVTTQA 上的测试结果如下表 1 所示,Mirasol3B 超越了目前的 SOTA 模型,以及规模更大的模型,如 PaLI-X、Flamingo。

在长视频问答方面,该研究在 ActivityNet-QA、NExTQA 数据集上对 Mirasol3B 进行了测试评估,结果如下表 2 所示:

最后,该研究选择使用 KineticsSound、VGG-Sound、Epic-Sound 进行音频 - 视频基准测试,采用开放式生成评估,实验结果如下表 3 所示:

感兴趣的读者可以阅读论文原文,了解更多研究内容。

上一篇: TVL 30 天激增 5 倍,读懂 Solana 生态 LSD 协议 Jito
下一篇: AI 新智界丨每日必读:字节跳动成立新 AI 部门 Flow;英伟达 Q3 售出近 50 万个 A100 和 H100 AI GPU
推荐专栏
Boss Wallet Web3 Econom Pass
专注币圈最新资讯
通俗浅显地聊透Web3大事小情
读懂区块链生态与未来,尽在币界网!
热门币种
更多
币种
美元价格
24H涨跌幅
BTC比特币
63,208.88 USDT
¥451,128.09
+6.01%
ETH以太坊
3,108.11 USDT
¥22,182.89
+3.96%
BNB币安币
585.15 USDT
¥4,176.27
+3.24%
USDT泰达币
1.02 USDT
¥7.27
-0.19%
SOL
146.23 USDT
¥1,043.65
+4.66%
XRP瑞波币
0.53130 USDT
¥3.79
+0.85%
USDC
1.00 USDT
¥7.14
-0.02%
DOGE狗狗币
0.15170 USDT
¥1.08
+13.97%
TON
5.78 USDT
¥41.27
+7.44%
ADA艾达币
0.46720 USDT
¥3.33
+3.18%
热搜币种
更多
币种
美元价格
24H涨跌幅
比特币
63191.22 USDT
¥457,333.82
+6.42%
Solana
144.87 USDT
¥1,048.47
+4.74%
Arweave
35.0561 USDT
¥253.71
+0.57%
Filecoin
6.0749 USDT
¥43.97
+3.06%
狗狗币
0.1519 USDT
¥1.10
+14.04%
字节元
0.018811 USDT
¥0.14
+19.96%
Shiba Inu
2.482E-5 USDT
¥0.00
+8.1%
Yield Guild Games
0.8264 USDT
¥5.98
+5.19%
以太经典
26.9562 USDT
¥195.09
+4.46%
奇亚
33.4803 USDT
¥242.31
+1.75%
NEAR Protocol
6.8706 USDT
¥49.72
+9.68%
币安币
584.86 USDT
¥4,232.81
+3.19%
最新快讯
更多
目前排名前三的入口点加密货币:BLP、Polygon和Pepe
2024-05-04 18:08:19
将100美元转换为10000美元:终极加密货币投资策略
2024-05-04 18:07:00
加密货币巨头公布储量:聚光灯下有19个Altcoins,包括比特币(BTC)和以太坊(ETH)!
2024-05-04 18:06:12
6000万枚USDT从Bitfinex转入TetherTreasury
2024-05-04 18:05:23
加密用户在地址中毒骗局中损失6800万美元
2024-05-04 18:05:17
Synthetix创始人KainWarwick分享新加密团队的重要筹款建议
2024-05-04 18:04:20
到2024年第三季度,这5种加密货币可以带来30倍的利润
2024-05-04 18:02:33
下载币界网APP