这个来自谷歌的隐藏的新人工智能模型免费击败了OpenAI的Dall-E和MidJourney

首页 > 业界 > 区块链 2024-02-02 19:52:33

币界网报道：

女士们，先生们，系好安全带，我们镇上有一个新的人工智能图像生成器，它出奇地好。

这很令人惊讶，因为它来自谷歌，而且它不是你在巴德看到的那种基本的、有点丑陋的、懒惰的生成器。它也对公众隐藏着——但这并不意味着你不能使用它。

它的名字叫ImageFX，是谷歌进入人工智能图像生成领域的最新投资。它可以通过谷歌的人工智能测试厨房获得，这是一个实验平台，允许用户在谷歌的项目仍在开发中时与之互动。

尽管ImageFX处于早期测试阶段，但它在准确性和真实感方面提供了惊人的结果。然而，它的可用性仅限于特定地区，即美国、肯尼亚、新西兰和澳大利亚，其使用仅限于英语，这表明谷歌的谨慎态度及其对用户反馈和系统改进的受控环境的渴望。

那些生活在允许区域之外的人可以通过VPN或代理等方法绕过地理限制，风险自负。

为ImageFX提供动力的是Imagen 2，这是一个由谷歌著名的人工智能实验室DeepMind开发的复杂人工智能模型。Imagen 2旨在解释和可视化文本提示，具有生成各种图像和风格的能力。谷歌声称，Imagen 2在其一代人工智能模型中为图像质量设定了新标准。

ImageFX的引入是谷歌探索生成人工智能各个方面的更广泛战略的一部分。它加入了一套专门的工具，包括用于音乐创作的MusicFX和用于风格化文本生成的TextFX。

谷歌对Dall-e 3对MidJourney

谷歌的ImageFX标志着进入人工智能驱动的图像生成器领域，与Dall-E 3和MidJourney等老牌玩家直接竞争。ImageFX在早期测试阶段的一个明显优势是其免费访问，与Dall-E以每月20美元的价格与ChatGPT的集成以及MidJourney接近100美元的年度订阅有所不同。

虽然成本效益是一个重要因素，但正是比较特性和输出质量使这些工具与众不同。ImageFX擅长制作超现实主义图像，超过了Dall-E 3的卡通化表现和MidJourney对美学吸引力视觉的关注。

但仅仅因为ImageFX是免费的并不意味着它不好。ImageFX提供了种子控制等独特功能，允许用户通过调整初始噪声配置来微调创作过程。这种控制水平是Dall-E 3或MidJourney无法比拟的，允许用户在保持图像核心元素的同时进行细微调整。

此外，ImageFX可以突出显示关键提示词，并提出创造性的替代方案——这是其竞争对手所没有的功能。

ImageFX提示建议截图

然而，ImageFX确实有其局限性。该工具只生成方形图像，而Dall-E 3和MidJourney在纵横比方面提供了灵活性。此外，与MidJourney不同，ImageFX不支持图像编辑功能，如inpaint和outpaint，这限制了它的多功能性。最后，Dall-E 3的对话功能——允许初学者用自然语言指导模型——与ImageFX和MidJourney所需的基于关键字的提示形成了对比。

在这些模型中，提示的方法也有很大的不同。ImageFX不支持负面提示，这允许用户指定要从图像中排除的内容。MidJourney提供了这一功能，为创作过程增加了一层精确性。Dall-E 3也缺乏直接的负面提示，但其对话界面允许用户间接指导模型，提供了一种不同的方法来细化图像输出。

一个形象胜过千言万语

Decrypt获得了ImageFX的访问权限，并能够将其几代人与MidJourney和Dall-E 3进行比较。我们对所有模型都使用了相同的提示，下面的结果总是按从左到右的相同顺序显示：第一个是ImageFX，第二个是MidJourney，第三个是Dall-E 3。

写实主义：

提示：一位表情担忧的加密货币交易员的照片

从左至右依次为ImageFX、MidJourney和Dall-E 3代。

ImageFX和MirJourney都生成了非常逼真的结果。然而，就风格而言，ImageFX看起来更逼真，而MidJourney看起来更超现实，这意味着第一个更真实，而第二个更艺术，有饱和的颜色和夸张的散焦等。

Dalle-3无法生成照片。相反，它创建了一个更加关注内容的3d渲染。由于背景中的图表，很容易判断这是一名加密货币交易员，但这绝对不是照片。

插图：

提示：一只神秘的熊在控制论波浪中冲浪的插图

从左至右依次为ImageFX、MidJourney和Dall-E 3代。

这个提示有点抽象，用来测试模型是如何解释非标准思想的。ImageFX和MidJourney生成了最具美感的图像，但MidJourny看起来更像是一个渲染图，而不是一幅插图。ImageFX试图捕捉控制论浪潮的本质。相反，MidJourne将“控制论”一词与熊联系起来。Dall-e 3更接近地捕捉到了精髓。这显然是一幅插图，它类似于控制论美学，但这只熊的形态是错误的，而且与竞争对手相比，图像质量也有所欠缺。

长自然语言：

提示：一位神秘的电脑专家在笔记本电脑上工作的高细节摄影科幻特写。在他身后，一名联邦调查局特工正等着捕捉到他那张逼真的广角照片

从左至右依次为ImageFX、MidJourney和Dall-E 3代。

为了进行这种比较，MidJourney的提示被改为“一位神秘的计算机专家在笔记本电脑上工作，身后有一名联邦调查局特工在等待捕捉他的高度详细的摄影科幻特写，广角、逼真、复杂。”

MidJourney拒绝在第一个提示下生成图像。

ImageFX生成了一张漂亮、详细的照片，尊重所有细节。MidJourney并没有培养出一位“神秘”的计算机专家。它还坚持其标志性风格，在不同的世代中有过多的散焦和引人注目的光线痕迹或雨滴。这是最好的例子，因为其余的似乎都描绘了宇航员、赛博朋克海军陆战队队员或类似的人。Dall-E生成了一个图像，其中提示的所有元素都是可识别的——联邦调查局的标志、神秘的计算机专家等等——但这不是一张照片，黑客的解剖结构是错误的，以典型的意大利面条手指为特征。

图像中的文本：

提示：一个充满未来感的城市，霓虹灯上写着“解密崛起”

从左至右依次为ImageFX、MidJourney和Dall-E 3代。

通常，到目前为止，最好的文本生成器是Dall-e 3。然而，在这种特定情况下，在比较方法设置的条件下，它没有正确地编写文本。ImageFX无法生成整个短语——它的文本生成功能是存在的，但可能是最不令人印象深刻的。

也就是说，Dall-E和ImageFX最善于捕捉未来主义城市的本质，而MidJourney则创造了一个美学上令人愉悦的城市，但根本不是一个未来主义的城市。