MoE架构，全量上线，MiniMax的abab6跨过玫瑰三段论了吗？

首页 > 业界 > 区块链 2024-01-19 12:51:00

币界网报道：

原文来源：硅星GenAI

作者｜油醋

图片来源：由无界 AI生成

好像这年份从2023跨到2024之后，大模型的追随标杆也纷纷从GPT-3.5变成了GPT-4。GLM-4拿出了到目前为止最接近GPT-4的表现，然后又冒出了个新的竞争者。

——MiniMax新的大语言模型abab6。

“沉默寡言”的MiniMax前段时间难得发声。副总裁魏伟在12月末透露MiniMax将会发布一个对标GPT-4的大模型。而在经过了半个月的部分客户的内测和反馈后，全新的大语言模型abab6终于全量发布。性能上弱于GPT-4，但有些能力已经大幅超过 GPT-3.5。

MiniMax展示了abab6在三个复杂任务测试基准上的表现。

IFEval：这个评测主要测试模型遵守用户指令的能力。我们会问模型一些带有约束条件的问题，例如“以XX为标题，列出三个具体对方法，每个方法的描述不超过两句话”，然后统计有多少回答严格满足了约束条件。

MT-Bench：这个评测衡量模型的英文综合能力。我们会问模型多个类别的问题，包括角色扮演、写作、信息提取、推理、数学、代码、知识问答。我们会用另一个大模型（GPT-4）对模型的回答打分，并统计平均分。

AlignBench：该评测反映了模型的中文综合能力测试，测试形式与 MT-Bench 类似。

结果如下。看上去离GPT-4还有距离，但有些能力已经超过 GPT-3.5和Claude 2.1不少：

图源：MiniMax

这个成绩单里最陌生的就是Mistral，但abab6有趣的地方也在这里——它用上了最近很火的MoE架构，而MoE正是Mistral不久前带火的。

简单来说，MoE (Mixture of Experts 混合专家模型）架构会把模型参数划分为多组“专家”，每次推理时只有一部分专家参与计算。这种架构可以让模型在小参数的情况下把计算变得更精细，然后拥有大参数才有的处理复杂任务的能力，同时模型在单位时间内能够训练足够多的数据，计算效率也可以得到大幅提升。

一个月前，法国 AI 初创公司Mistral AI发布了首个开源MoE大模型Mixtral 8x7B——一个只有87GB的，8个7B模型的组合——清理下内存就能下载到自己电脑上，性能上直接击倒了700亿参数的Llama 2。之前Dylan Patel爆料的GPT-4模型架构里，16个1110亿参数组成的MoE是最重大的信息之一。

现在abab6也采用了MoE架构。并且为了训练 abab6，MiniMax自研了高效的MoE训练和推理框架，并且发明了一些 MoE 模型的训练技巧。到目前为止，abab6是国内第一个千亿参数量以上的基于MoE架构的大语言模型。

既然是概念如此新鲜的大模型，那我们不如自己上手浅测一下，当然，都2024年了，简单的问题就不问了。

咱看看给外国人做的中文八级考试，abab6行不行：

中国有俩体育项目根本不用看：一个是乒乓球，一个是足球。

前者是谁也赢不了。

后者是谁也赢不了。

提问：分别解释两句话的意思。

中文语义理解上，abab6的能力无懈可击，甚至能读懂幽默：

图源：硅星人

英文能力上，MiniMax自己展示了一个例子——用“ABAB6”作为句首写一首英文藏头诗，主旨是MiniMax的ABAB6文本大模型。那我们取个巧，看看同样的问题，MiniMax换一个提问对象会给出什么答案：

图源：硅星人

写的没问题，问题在于，这跟MiniMax自己展示的答案也太像了。

图源：硅星人

然后我刻意离开了这个问题一会儿，聊了些别的话题之后，再一次回到这个问题。结果让人失望，abab6给出了一首几乎一样的藏头诗。这个问题在我把题目里的“ABAB6”换成“LLAMA”，“MiniMax”换成“Meta”之后仍然没有变化。

它好像有一个固定答案，并且从“LLAMA”的案例来看，这个答案也没有写“ABAB6”时候那么好。而在GPT-3.5和GPT-4里，没有这种情况。

图源：硅星人

同样的问题出现在MiniMax自己展示的另一道题上：

为我创造一款虚构的桌游，这款游戏的主题围绕着上海展开，游戏中需包括上海市的主要旅游景点、历史文化以及独特美食。请将回答格式化为一个清晰的游戏规则说明书，其中每个游戏组件的描述必须用有序列表来组织。

对于这个问题，abab6无法像演示的那样顺畅的做出完整回答：

图源：硅星人

前面说abab6的语义理解能力没问题，那最后我们试试它逻辑推理的能力。

有一个经典的逻辑题叫“玫瑰三段论”：

所有玫瑰都是花。

有些花很快就凋谢。

所以有些玫瑰很快就凋谢。

看着每一句话都对，但仔细想想这个推理逻辑是错的。但对于大模型来说这足够有迷惑性了。不过“玫瑰三段论”太有名，为了防止这道原题已经进入钻进大模型语料的可能性，我们把题包装一下：

所有的苹果都是水果。

有的水果是红色的。

所以有些苹果是红色的。

这个三段论对吗？这次比较对象是abab6，和它的对标对象GPT-4。GPT-4一开始被迷惑住了，但它在一次提醒之后理清了思路：

图源：硅星人

abab6的答案让人惊喜，它一次就给出了正确的答案：

图源：硅星人

但随着对话继续，abab6在逻辑上出现了点问题：

图源：硅星人

但这样的理解和推理能力已经非常不错。

现在abab6已经上线MiniMax的开放平台，开放平台上线半年多的时间里，MiniMax 陆续服务了近千家客户，包括金山办公、小红书、腾讯、小米和阅文在内的多家头部互联网公司，MiniMax 开放平台平均单日的 token 处理量也已经达到了数百亿。

目前大部分大语言模型开源和学术工作都没有使用 MoE 架构。MoE路线下的MiniMax大模型会在2024年取得什么样的进展，abab6只是开始。

*参考资料：

https://mp.weixin.qq.com/s/2aFhRUu_cg4QFdqgX1A7Jg

上一篇：泰国加密市场调研报告

下一篇：超越现实的界限：LightCycle在Gamefi中的应用与发展

推荐专栏

Boss Wallet

Boss Wallet Web3 Econom Pass

关注

币圈最前线

专注币圈最新资讯

关注

Web3掘金者

通俗浅显地聊透Web3大事小情

关注

浑水区块链

读懂区块链生态与未来，尽在币界网！

关注

热门币种

币种

美元价格

24H涨跌幅

Bitcoin

BTC比特币

58,390.04 USDT

¥416,735.55

-4.12%

Ethereum

ETH以太坊

2,970.01 USDT

¥21,197.25

-1.33%

BNB

BNB币安币

560.49 USDT

¥4,000.27

-3.26%

Tether USDt

USDT泰达币

1.02 USDT

¥7.28

-0.57%

Solana

SOL

134.97 USDT

¥963.29

+5.56%

XRP

XRP瑞波币

0.52600 USDT

¥3.75

+3.28%

USDC

1.00 USDT

¥7.15

+0.04%

Dogecoin

DOGE狗狗币

0.12950 USDT

¥0.92420

-2.63%

Toncoin

TON

4.89 USDT

¥34.92

-5.11%

Cardano

ADA艾达币

0.44870 USDT

¥3.20

+0.88%

热搜币种

币种

美元价格

24H涨跌幅

BTC

比特币

57953.59 USDT

¥419,636.15

-4.39%

FIL

Filecoin

5.6783 USDT

¥41.12

+1.12%

ETC

以太经典

25.405 USDT

¥183.96

+0.17%

SOL

Solana

133.78 USDT

¥968.69

+5.38%

DOGE

狗狗币

0.1294 USDT

¥0.94

-2.63%

Arweave

28.7602 USDT

¥208.25

-5.09%

CKB

字节元

0.016189 USDT

¥0.12

-1.43%

EOS

柚子

0.7805 USDT

¥5.65

+2.54%

CFX

Conflux

0.2161 USDT

¥1.56

-0.14%

SHIB

Shiba Inu

2.249E-5 USDT

¥0.00

+0.36%

ETH

以太坊

2967.7 USDT

¥21,488.82

-1.43%

YGG

Yield Guild Games

0.7565 USDT

¥5.48

-1.61%