风险提示:理性看待区块链,提高风险意识!
2024AI大趋势:“大模型”进入“小时代”?
首页 > 业界 > 区块链 2023-12-26 09:53:03
币界网报道:

原文来源:硬AI

作者 | 房家瑶

图片来源:由无界 AI生成

当前,人工智能领域正在尝试开发更小型、成本更低的AI模型,这可能会使AI技术更加普及和易于使用。

上周,Deutsche Bank(德银)的由Jim Reid and Luke Templeman领衔的研究团队发布了他们的主题展望报告,报告显示,德银把AI纳入了2024年度前十大主题并指出,大型AI模型可能将逐渐被更小型、更高效、成本更低的模型所取代。

OpenAI CEO、人工智能界当之无愧的先行者Sam Altman也承认:

“大模型”时代可能走向结束,未来我们会通过其他方式来改进它们。”

有人工智能专家预测,预计到2024年,小型语言模型将在特定任务部署AI的公司中发挥更大的作用。


01 大模型的局限性


当前大模型在成本和计算需求方面有局限性。

德银指出,过去五年来,AI领域通常以参数的数量来衡量一个模型的能力。参数越多,通常意味着模型能处理更复杂的任务,展示出更强的能力。

例如,最大模型的参数数量每年增加了十倍或更多,每次增加都带来了意想不到的能力扩展,如编程和翻译能力。所以大型神经网络模型通常被认为性能更优。

有观点指出:

“以参数数量作为能力或风险的衡量标准过于粗糙,我们应更关注模型的实际使用方式。”

这些大模型使用的参数数量极多(有的超过1000亿个),每个参数都需要计算资源来处理。尽管大模型(如GPT系列)在技术上领先,但这些模型往往规模庞大且对计算资源的需求极高。每当大模型在能力上有显著提升时,它们的训练和运行成本也急剧上升。

即便这些模型是开源的,许多研究者和小型企业也难以承担其所需的昂贵计算成本。

不仅如此,许多AI研究者在这些模型的基础上进行迭代开发,以创造适用于新工具和产品的自己的模型,但大模型的复杂性也让其变得困难。

德银称,监管对大模型也有所担忧,并且对大型LLM的监管趋于严格。例如,美国政府在去年10月底发布的一项行政命令要求对制造“双用途”基础模型的公司,如那些拥有“数十亿参数”的模型,实施更高透明度要求。


02 小模型的优势


在某些特定任务上,小型、高效的AI模型可能比大模型更适用。

正如专注于人工智能和机器学习的技术公司Snorkel的Matt Casey写道:

“在某些任务上使用大模型就像是用超级计算机玩《青蛙过河》。”

虽然大模型在处理复杂任务上有优势,但并不是每个任务都需要这样强大的计算能力。

小语言模型的优势数不胜数。

更低的资源需求。小模型通常需要更少的计算资源来训练和运行,这使得它们更适合在计算能力有限的设备上使用,例如,小模型可以直接安装在用户的电脑或智能手机上,这样就不需要与远程数据中心连接。
更低的成本。小模型在训练和部署时需要的计算资源较少,这直接导致了较低的运行和维护成本。
更好的隐私保护。小模型可以在本地设备上运行,而无需将数据发送到云端服务器,这有助于提高数据处理的隐私性。有助于提高数据安全性。
更快的处理速度。由于参数较少,小模型在处理请求时的响应时间通常更短,这对于需要实时反应的应用尤其重要。

研究人员正在努力开发出更小、更高效的AI模型,缩减它们的参数数量,同时保证它们在特定任务上能够达到甚至超越大模型的表现。

一种方法是“知识蒸馏技术”,与传统的预训练不同,“蒸馏技术”的意思是使用一个大型的“教师”模型来指导一个小型的“学生”模型的训练。用“蒸馏”方式训练小模型,不再直接从训练大模型时会用到的那些巨量数据中学习,而只是在模仿。就像一个学生不会学到老师的全部知识库,但在针对性的领域,ta可以获得和教师差不多水平的考试表现。

Carnegie Mellon大学的计算机科学教授Graham Neubig说:

“通常情况下,你可以创建一个小得多的专门模型来处理特定任务。这种小模型虽然不具备大模型的广泛适用性,但在特定任务上可以表现得非常出色。”

Neubig教授和他的合作者在一个实验中开发了一个比GPT模型小700倍的模型,并发现它在三项自然语言处理任务上的表现超过了大型GPT模型。

小模型表现出色的例子有很多。

例如,微软的研究人员最近也发报告称,他们能够将GPT模型缩减成一个参数仅略超10亿的小模型。这个小模型能够在某些特定任务上与大模型相媲美。

再者,德银指出,今年7月,Meta的开源Llama 2,推出了三个版本,参数范围从7亿到70亿不等。还有,为金融应用设计的BloombergGPT只有50亿参数。尽管这些模型的参数数量相对较少,但它们在多项任务上的表现都优于类似模型,显示了小模型的潜力。


03 小型语言模型的局限性


然而,这些优势通常是以牺牲一定的性能为代价的。一些研究显示,但小型“学生”模型可能只在一定范围内的任务上表现出色。大型“教师”模型由于其庞大的参数数量和复杂的结构,通常在理解和生成语言方面更为精准和强大。因此,在更广泛或复杂的任务上,选择小模型还是大模型取决于特定应用的需求和限制。

人工智能公司Cohere的非营利人工智能研究实验室Cohere for AI的负责人Sara Hooker说道:

“小模型在处理广泛或罕见任务时的能力仍有限。”

“还有很多未知的领域,我们如何确保从大模型中获得的数据足够多样化,以覆盖所有这些任务?”

此外,由于“模仿”本身存在一定的风险,因此“蒸馏技术”在法律上目前还属于灰色地带。

上一篇: 英国允许法官使用ChatGPT写裁决书,并公布官方指南!
下一篇: Froganas:涅槃重生的百倍 Solana NFT 新热点
推荐专栏
Boss Wallet Web3 Econom Pass
专注币圈最新资讯
通俗浅显地聊透Web3大事小情
读懂区块链生态与未来,尽在币界网!
热门币种
更多
币种
美元价格
24H涨跌幅
BTC比特币
68,065.09 USDT
¥485,787.35
-1.39%
ETH以太坊
3,846.41 USDT
¥27,452.21
-2.32%
BNB币安币
598.56 USDT
¥4,271.98
-1.12%
USDT泰达币
1.01 USDT
¥7.21
-0.05%
SOL
168.32 USDT
¥1,201.31
+1.03%
XRP瑞波币
0.52780 USDT
¥3.77
-1.77%
USDC
1.00 USDT
¥7.14
+0.01%
DOGE狗狗币
0.16520 USDT
¥1.18
-0.6%
TON
6.32 USDT
¥45.09
-1.42%
ADA艾达币
0.46060 USDT
¥3.29
-0.37%
热搜币种
更多
币种
美元价格
24H涨跌幅
比特币
68069.57 USDT
¥493,027.90
-1.13%
Solana
167.27 USDT
¥1,211.54
+1.15%
Uniswap
10.7701 USDT
¥78.01
-3.09%
狗狗币
0.1652 USDT
¥1.20
-0.6%
Gala
0.044935 USDT
¥0.33
+0.7%
Filecoin
5.9377 USDT
¥43.01
+0.28%
Shiba Inu
2.489E-5 USDT
¥0.00
+1.18%
Yield Guild Games
0.966 USDT
¥7.00
-2.82%
以太坊
3849.3 USDT
¥27,880.48
-1.77%
dYdX
2.0371 USDT
¥14.75
-1.49%
Livepeer Token
20.7 USDT
¥149.93
-7.92%
以太经典
31.0653 USDT
¥225.01
-4.02%
最新快讯
更多
USDe供应量达28.5亿枚
2024-05-28 12:00:22
POKT网络启动Shannon公共测试网
2024-05-28 11:53:43
Deribit上BTC大宗期权卖出7月底7万美元看跌期权并买入6万美元看跌期权
2024-05-28 11:46:47
24小时内加密网络清算金额达1.49亿美元,主要是多头订单
2024-05-28 11:46:29
过去24小时全网爆仓1.49亿美元
2024-05-28 11:45:58
过去4小时全网爆仓4399.21万美元,主爆多单
2024-05-28 11:45:58
MATR1XApollo项目启动,推出宝箱活动和NFT制作
2024-05-28 11:41:29
下载币界网APP