风险提示:理性看待区块链,提高风险意识!
太炸裂了!阿里开发出 AI 图生视频模型EMO,“高启强”普法、蒙拉丽莎唱歌,B站鬼畜即将被AI取代
首页 > 业界 > 区块链 2024-02-29 10:56:45
币界网报道:

文章来源:钛媒体AGI

作者:林志佳


图片来源:由无界AI生成


继美国OpenAI公司推出Sora引爆网络之后,中国互联网科技巨头阿里巴巴(Alibaba Group)如今已加紧追赶。

钛媒体AGI 获悉,2月28日,阿里巴巴集团智能计算研究院日前上线了一款新的 AI 图片-音频-视频模型技术EMO,官方称其为“一种富有表现力的音频驱动的肖像视频生成框架”。

据悉,你只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的 AI 视频,以及实现无缝对接的动态小视频,最长时间可达1分30秒左右。表情非常到位,任意语音、任意语速、任意图像都可以一一对应。

比如,《狂飙》电视剧中“高启强”畅谈罗翔普法;蔡徐坤的一张图片,就能通过其他音频配合“唱出”一首rapper饶舌,连口型都几乎一模一样;甚至前不久OpenAI发布的Sora案例视频里面,一位 AI 生成的带墨镜的日本街头女主角,现在不仅能让她开口说话,而且还能唱出好听的歌曲。


B站鬼畜视频即将会被 AI 所取代。

阿里研究团队表示,EMO可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,其可以根据输入视频的长度生成任意持续时间的视频。

同时,EMO还拥有音频驱动的人像视频生成,表情丰富的动态渲染,多种头部转向姿势支持、增加视频的动态性和真实感,支持多种语言和肖像风格,快速节奏同步,跨演员表现转换等多个特点与功能。



技术层面,阿里研究人员分享称,EMO框架使用 Audio2Video 扩散模型,生成富有表现力的人像视频。

该技术主要包括三个阶段:一是帧编码的初始阶段,ReferenceNet 用于从参考图像和运动帧中提取特征;二是在扩散过程阶段,预训练的音频编码器处理音频嵌入。面部区域掩模与多帧噪声集成以控制面部图像的生成;三是使用主干网络来促进去噪操作。在主干网络中,应用了两种形式——参考注意力和音频注意力机制,这些机制分别对于保留角色的身份和调节角色的动作至关重要。此外,EMO的时间模块用于操纵时间维度,并调整运动速度。

目前,EMO框架上线到GitHub中,相关论文也在arxiv上公开。

GitHub:https://github.com/HumanAIGC/EMO

论文:https://arxiv.org/abs/2402.17485

事实上,过去一年,阿里巴巴在 AI 方面持续发力,包括阿里云推出通义千问、通义万相等多款对标 OpenAI 的 AI 大模型产品,以及基于双流条件扩散模型的真人百变换装技术Outfit Anyone、角色动画模型Animate Anyone等技术,实现多个场景应用。

今年1月26日,阿里推出的Qwen-VL模型实现多次迭代升级,并宣布 Plus 和 Max 两大版本升级,支持以图像、文本作为输入,并以文本、图像、检测框作为输出,让大模型真正具备了“看”世界的能力。

阿里方面称,相比于开源版本的 Qwen-VL,Plus 和 Max 版本模型在多项图文多模态标准测试中获得了堪比 Gemini Ultra 和 GPT-4V 的水准,并大幅超越此前开源模型的最佳水平。



钛媒体AGI了解到,目前阿里内部还在助力研发基于生成式 AI 技术的机器人、数字人以及Agent相关的技术应用。

另外,阿里是目前中国开源模型领域的大科技公司之一,创建并运营着中国 AI 模型开源社区“魔搭”。“魔搭”社区上线一年以来,模型下载量已突破1亿。早前阿里还发布了一站式大模型服务平台——阿里云“百炼”。

除了自研 AI 模型技术产品之外,阿里还推动投资一些 AI 大模型公司。

就在今年2月,阿里领投了国内 AI 大模型团队月之暗面(MoonShot AI)10亿美元的新一轮融资,促使该公司估值高达25亿美元,成为中国 AI 初创公司最大的一笔单轮融资。

更早之前,阿里还投资了百川智能、智谱 AI 等多个 AI 产业链公司,持续押注这一轮 AI 热潮。而其竞争对手腾讯,则在过去一年投资了百川智能、智谱 AI 、MiniMax和光年之外(Light Years Beyond)等公司。

据钛媒体AGI的不完全统计,目前阿里与腾讯已累计投资超过40家与 AI、数字化有关的初创企业。

毫无疑问,OpenAI 目前在美国以及全球其他地区占据行业主导地位,但在中国市场它没有运营。所以,无论是OpenAI还是微软,均不会成为中国 AI 大模型行业的领导者。

如今,阿里、腾讯等中国科技巨头已经采取行动,通过多种投资方式来支持中国 AI 大模型的早期创业公司,推进中国 AI 大模型发展。

不过,由于二级市场科技股持续下跌,因此整个中国 AI 领域投融资规模却呈现“不温不火”的状态。

研究机构 CB Insight 数据显示,2023 年,中国在 AI 领域的投资约为 232 笔,同比下降 38%,同期融资总额约为20亿美元,比上年减少70%。

高盛预测,到 2025 年,全球 AI 领域的投资额将达到约2000亿美元。

阿里巴巴集团新任CEO吴泳铭曾表示,为了服务好更多的企业和AI开发者,阿里坚持做好两件事:一是提供稳定高效的AI基础服务体系,特别是强大的云计算能力,为全行业训练AI、全社会使用AI打造坚实的基础底座。二是创建开放繁荣的AI生态。

“在可见的未来,我们生活中所有习以为常的产品形态都会发生变化,会有更智能的下一代产品进入我们的生活。更多中小企业将通过AI化协同,灵活替代一部分目前只有大企业才能提供的服务。生产、制造、流通的组织方式和协作方式也会发生根本性变革。AI助理会无处不在,成为每个人工作、生活、学习中的助手。每个企业也都会配备AI助手,就像我们今天的智能汽车,辅助驾驶和自动驾驶已经成为标配。”吴泳铭称。
上一篇: Gemini将返还11亿美元赚取客户,并在纽约结算中支付3700万美元罚款
下一篇: 比特币始本无名 待其有名天下惊
推荐专栏
Boss Wallet Web3 Econom Pass
专注币圈最新资讯
通俗浅显地聊透Web3大事小情
读懂区块链生态与未来,尽在币界网!
热门币种
更多
币种
美元价格
24H涨跌幅
BTC比特币
70,134.43 USDT
¥500,556.44
-1.74%
ETH以太坊
3,789.23 USDT
¥27,044.11
+3.24%
BNB币安币
619.51 USDT
¥4,421.50
+3.38%
USDT泰达币
1.01 USDT
¥7.20
-0.06%
SOL
178.96 USDT
¥1,277.25
-4.23%
XRP瑞波币
0.53640 USDT
¥3.83
-0.06%
USDC
1.00 USDT
¥7.14
+0.05%
DOGE狗狗币
0.17070 USDT
¥1.22
+3.58%
TON
6.35 USDT
¥45.35
-2.6%
ADA艾达币
0.49430 USDT
¥3.53
-1.65%
热搜币种
更多
币种
美元价格
24H涨跌幅
Gala
0.043236 USDT
¥0.31
+1.75%
Filecoin
6.2189 USDT
¥44.11
+0.98%
Solana
178.92 USDT
¥1,269.17
-3.96%
比特币
70179.59 USDT
¥497,818.92
-1.52%
Livepeer Token
20.7297 USDT
¥147.05
-1.57%
以太坊
3790.05 USDT
¥26,884.72
+3.04%
Fantom
0.8771 USDT
¥6.22
-3.68%
Arweave
44.2765 USDT
¥314.08
-6.26%
Shiba Inu
2.674E-5 USDT
¥0.00
+3.76%
Uniswap
9.6301 USDT
¥68.31
+2.6%
Yield Guild Games
0.933 USDT
¥6.62
+2.01%
以太经典
31.6601 USDT
¥224.58
-2.3%
最新快讯
更多
众议院民主党领导人不会反对两项支持加密货币的法案
2024-05-22 08:08:07
币界网整理:过去24小时融资信息一览(5月22日)
2024-05-22 08:02:00
XRP在以太坊ETF希望的推动下上涨
2024-05-22 08:00:51
以太坊波动率指数昨日升至81.14,接近一年来最高水平
2024-05-22 08:00:08
5家发行商已通过CboeBZX向SEC提交以太坊现货ETF19b-4修订文件
2024-05-22 08:00:07
币界网24小时行情早报(5-228:00)
2024-05-22 08:00:00
特朗普竞选团队接受加密货币捐赠
2024-05-22 07:56:27
下载币界网APP