被 OpenAI「封号」，字节跳动在打什么算盘？

首页 > 业界 > 区块链 2023-12-20 17:58:01

币界网报道：

高质量的语料数据，是大模型的「香饽饽」。

撰文：举大名耳

眼看着 2023 就要过去了，没想到年底又曝出一个大瓜。

近期据《The Verge》报道：

字节跳动因使用 ChatGPT 的 API，来开发自家大模型，被 OpenAI「封号」了。

尽管在事后，字节澄清，表示自己此举「仅为测试」，且早已勒令停止。

然而，这终归是一件让人浮想联翩的事……

字节被封号的背后，打的究竟是什么算盘？

1 字节想要什么？

虽然在《The Verge》报道中，没有明确指出字节究竟是怎么用 OpenAI 的 API 来开发自身大模型的，但可能的训练路径来说，用一个大模型（例如 OpenAI 的 GPT）来训练另一个大模型的过程，往往有以下几种。

其中一种，就是「师傅带徒弟」的模式。

想象一下，师傅（已有的大模型）在处理各种任务时，会生成一些输出（例如文本、图像等）。徒弟（新的大模型）会观察师傅的行为，尝试模仿这些输出。

这样，徒弟就能学会如何处理类似的任务。在实际应用中，这可以通过让新模型学习旧模型生成的数据来实现。

还有一种方式，就是通过联合训练，让「师傅」和「徒弟」一起处理任务。

在实际应用中，这可以通过让两个模型共享一些层次或参数来实现，新旧模型就可以互相学习、互相帮助，共同完成任务。

从技术可行性来判断，在这次事件中，字节使用的更有可能是第一种方法。

即利用了 OpenAI API 生成的数据作为训练数据。

因此，在这次风波中，字节真正想要的，是 ChatGPT 生成的高质量语料数据。

而这样的数据，也是任何一个训练中的大模型，最渴望的「香饽饽」。

但由于之前 OpenAI 的协议中，已明确表示禁止用其大模型去开发竞品，因此，字节被 OpenAI「封号」也是一种必然。

问题是：作为一家实力雄厚的大厂，字节理应不缺相应的人手和资金，去做这些数据爬取、语料标注方面的工作，为何要走这一步「险棋」呢？

2 为何犯险？

其实，在现阶段的大模型赛道上，字节缺的不是人才和资金，而是时间。

与百度、讯飞等国内大厂相比，字节真正入局大模型的时间，可以说是相当晚了。

从时间上看，字节真正推出第一款大模型豆包的时间，是今年的 8 月中旬，而那时，大模型之火已经燃烧了近半年之久。

任何真正想入局大模型的玩家都知道，模型层的竞争，是有时间窗口的。

在大模型领域，先进入市场的企业往往能够积累更多的用户、数据和经验，从而形成竞争优势。后来者要想迎头赶上，需要付出更多的努力和成本。

尽管 8 月上线的豆包，让字节勉强赶上了模型层的晚班车，但从性能和定位上看，那更像是一个「尝鲜」的应景之作，无法真正与字节现有的业务相契合。

作为一个在移动互联网时代制造了抖音这类爆款的大厂，字节真正想要的，是像文心一言那样更通用、更全能，且能整合或嵌入进自身的各类 APP 中的大模型。

这才有了后来字节的「种子计划」——计划在今年年底前，打造与 GPT-3.5 性能相匹敌的 Seed 大模型。

问题是，大模型的训练，终归不是件一蹴而就的事。

标注数据、提取优质语料等等一系列繁琐的前期工作，都需要时间。

那如何在有限的、紧迫的时间内，搜集到足够多的高质量语料数据？

一个最靠谱的办法，就是直接使用那些已经验证过的，成熟度较高的模型的数据，例如 ChatGPT。

3 模型层的窗口期

其实，不只是字节，即使是身处一线的 AI 玩家谷歌，也为了「急于求成」，做出了类似小动作。

本月月初，谷歌曾失望地宣布，被其寄予厚望的大模型 Gemini，由于无法较好地处理非英语领域的查询任务，而被推迟了上线。

可鬼使神差的是，之后没过几天，谷歌就来了个回马枪，在 12 月 6 日郑重推出了 Gemini，似乎之前提到的「缺陷」已经不是问题。

后来，网友经过测试才发现，原来谷歌早就从百度的文心一言那里找到「解决之策」。

经过微博大 V@阑夕夜等众多网友的测试，在与 Gemini-Pro 用中文交流时，如果问「你是谁」，Gemini-Pro 上来就回答：我是百度文心大模型。

如此状况，让人纷纷猜测，是谷歌直接用了百度文心一言的中文语料进行训练。

为了反超 GPT-4，谷歌真是赶鸭子上架了。

不过，从长远来看，这种大厂互相薅羊毛的行为，终归是一种暂时的现象。

毕竟，经过这么几回「露馅」后，各个大厂一定会对自家的数据看得更严，更死。

但即便如此，这种互相套用数据的行为，也让众多用户、投资人不禁暗自嘀咕：如果各个模型之间的数据，在技术上能轻易地互相套用，那将来除了 ChatGPT 等少数顶流外，还有哪些模型是有「真材实料」的？

这样的担忧背后，其实有一个更重要的前置性问题，那就是：

我们为什么需要那么多雷同的大模型？

毕竟，人类的语料数据，终归是有限的，顶流团队的模型（如 ChatGPT）已经挖走了绝大部分，剩下的那一小撮专有数据，也早已被各个垂直行业瓜分完毕。

在模型层创业已近尾声的今天，比起数据，更能拉开差距的，是侧重点不同的训练方式，以及由此打造的各种功能。

而这样成为了用户能否容忍这种「套用」行为的关键。

在这点上，谷歌的 Gemini 给出的答卷，是更强的原生多模态功能（有夸大之嫌）。

而字节的 Seed 大模型，将来能否逆风翻盘，赢得用户的信任，也得看有没有「一美遮百丑」的亮点。

上一篇： TrendX 研究院：一文挖掘 DePIN 赛道投资机会

下一篇：摸底谷歌Gemini：CMU全面测评，Gemini Pro不敌GPT 3.5 Turbo

推荐专栏

Boss Wallet

Boss Wallet Web3 Econom Pass

关注

币圈最前线

专注币圈最新资讯

关注

Web3掘金者

通俗浅显地聊透Web3大事小情

关注

浑水区块链

读懂区块链生态与未来，尽在币界网！

关注

热门币种

币种

美元价格

24H涨跌幅

Bitcoin

BTC比特币

68,619.77 USDT

¥489,746.16

-0.88%

Ethereum

ETH以太坊

3,838.34 USDT

¥27,394.61

+2.42%

BNB

BNB币安币

601.54 USDT

¥4,293.25

-0.23%

Tether USDt

USDT泰达币

1.01 USDT

¥7.21

-0.22%

Solana

SOL

165.54 USDT

¥1,181.47

-2.06%

XRP

XRP瑞波币

0.52870 USDT

¥3.77

-2.24%

USDC

1.00 USDT

¥7.14

+0.02%

Dogecoin

DOGE狗狗币

0.16670 USDT

¥1.19

-3.42%

Toncoin

TON

6.33 USDT

¥45.17

-1.25%

Cardano

ADA艾达币

0.45940 USDT

¥3.28

-0.46%

热搜币种

币种

美元价格

24H涨跌幅

GALA

Gala

0.044162 USDT

¥0.31

-0.74%

DOGE

狗狗币

0.1665 USDT

¥1.18

-3.31%

UNI

Uniswap

11.2785 USDT

¥80.20

-0.46%

SOL

Solana

164.4 USDT

¥1,169.06

-2.1%

BTC

比特币

68619.6 USDT

¥487,960.84

-0.88%

FIL

Filecoin

5.8609 USDT

¥41.68

-2.66%

YGG

Yield Guild Games

1.0103 USDT

¥7.18

-4.94%

ETC

以太经典

31.7916 USDT

¥226.07

+0.44%

SHIB

Shiba Inu

2.443E-5 USDT

¥0.00

-2.08%

ETH

以太坊

3840.56 USDT

¥27,310.61

+2.48%

LPT

Livepeer Token

23.0132 USDT

¥163.65

+2.36%

DYDX

dYdX

2.0322 USDT

¥14.45

-2.36%