风险提示:理性看待区块链,提高风险意识!
  • 哪个平台构建了最好的AI代理?我们测试ChatGPT、Claude、Gemini等
    首页 > 业界 > 区块链 2025-01-05 22:39
    摘要
    对五个领先平台的实际比较揭示了哪一个最适合为日常场景托管未来的人工智能代理 。
    币界网报道:

    你可以用人工智能代理做任何事情:在你的文档库中搜索信息,构建代码,抓取网络,对复杂数据进行洞察和深入分析,等等。你甚至可以创建一个虚拟办公室,里面有一群专门从事不同任务的代理人,让他们像你自己的专业数字员工一样携手合作。

    那么,这有多难呢?例如,如果一个普通人想建立自己的人工智能财务顾问,哪个平台最适合他们?没有API,没有奇怪的编码,没有Github-we只是想看看最好的人工智能公司在没有用户拥有高度技术技能的情况下创建人工智能代理方面做得有多好。

    当然,你得到你所付出的。在这种情况下,我们还想看看外行设置代理的难易程度与每个代理交付的结果质量之间是否存在相关性。

    我们的实验让五个重量级人物相互竞争:ChatGPT、Claude、Huggingface、米斯特拉尔AI和Gemini。每个平台都有相同的创建财务顾问的基本说明。

    该测试专门关注开箱即用的功能。代理人是否能够处理一种常见的情况——在这种情况下,帮助某人平衡25000美元的投资和30000美元的债务。我们还想看看他们在分析交易图表方面有多好。我们避免使用额外的工具来提高代理的生产力,而是试图采取最简单的方法。

    TL;DR以下是我们的发现以及我们对模型的排名:

    平台排名

    1) OpenAI的GPT(8.5/10)

    • 设置简单:4/5
    • 结果质量:4.5/5

    ChatGPT是最平衡的平台,提供复杂的代理创建,包括指导和手动选项,以满足总用户和更有经验的用户的需求。

    虽然最近的界面更新在菜单中隐藏了一些功能,但该平台擅长将复杂的用户需求转化为功能代理。我们通过构建一个财务顾问来测试该模型,该顾问表现出卓越的情境意识和结构化的问题解决能力,为债务管理和投资分配提供了详细而连贯的策略。

    2) 谷歌双子座(7/10)

    • 设置简单:4/5
    • 结果质量:3/5

    Gemini以其抛光、直观的界面和出色的错误处理能力脱颖而出。虽然需要更详细的提示来获得最佳结果,但它对指令的字面解释会产生一致、可预测的结果。

    该代理人对财务建议的咨询方法强调在建议之前收集背景,反映了专业实践。然而,它在零样本反应中可能过于保守。

    3) 拥抱聊天(6.5/10)

    • 安装简易度:2/5
    • 结果质量:4.5/5

    开源平台提供无与伦比的定制和模型选择选项。这对于那些寻求对每一个方面进行精细控制的人来说是件好事,但对于那些寻求简单性的人来说则不然。(把它想象成Linux系统与macOS系统的比较)。其复杂的时间范围框架和实用的工具集成展示了先进的功能。

    我们构建了一个没有任何附加功能的纯代理。我们使用Nvidia的Nemomotron作为基础LLM,它在输出质量上足以与ChatGPT相匹配。对开源阵营来说还不错。

    4) 克劳德(5.5/10)

    • 设置简易性:2.5/5
    • 结果质量:3/5

    人类学的平台在特定领域表现出色,特别是需要大量上下文处理和代码解释的任务。其极简主义的界面掩盖了复杂的功能,但“可选”指令字段可能会让用户感到困惑。

    我们的代理人在建议中仍然非常保守和模糊,但表现出了扎实的风险意识和战略思维。为了真正挖掘其潜力,需要更仔细的提示,但如果测试采用提示,否定假设类似条件的前提,那将是不公平的。

    5) 米斯特拉尔AI(5/10)

    • 设置简易性:2.5/5
    • 结果质量:2.5/5

    法国平台提供独特的基于示例的学习和深度定制选项。然而,其以开发人员为中心的界面和偶尔的语言切换问题给非技术用户带来了障碍。它还需要将代理的配置修改为不同的模型,以便执行不同的任务,如分析图像或处理代码。这并不理想。

    财务顾问在交互设计方面表现出了希望,但在基本的数学验证方面遇到了困难,并提供了最差的输出。这并不是说输出不好,但在零样本测试中,这是最不令人满意的。

    更深的潜水

    考虑到之前的排名,没有一刀切的解决方案,所有平台都有自己的优缺点。通过一些奉献精神和仔细的快速定制,一个平台的结果可能会有所不同,甚至超过其他平台。最终,所有LLM都有自己的提示风格。

    如果你想了解更多关于我们排名背后的基本原理,这里有一个更深入的了解我们的经验以及我们与代理商取得的结果。我们为所有代理配置了相同的系统提示,没有额外的功能参数,并问了他们相同的基本问题:“我有25000美元的投资,还有30000美元的债务。给我制定一个财务计划。”

    OpenAI

    ChatGPT的界面最近进行了翻新,实际上使事情变得更加复杂。GPT创建选项现在隐藏在菜单后面,但一旦找到,它提供了两条路径:一条是对话式设置,人工智能可以帮助构建代理,另一条是手动配置,供那些确切知道自己想要什么的人使用。

    OpenAI的GPT平台是一把瑞士军刀——它读取代码、搜索网络,并处理图像生成和分析。人工智能引导的设置过程使其特别适合新手,尽管对于寻求精细控制的高级用户来说可能会感到限制。(例如,如果您提示模型更具体或更详细,它可能会更改整个系统提示,给您带来更糟糕的结果。)

    当涉及到实际使用代理时,ChatGPT非常简单,界面干净易懂。

    代理可以本地读取文档并理解图像,这比其他平台更具优势。

    现在,让我们来谈谈您可以使用基本提示创建的代理的质量。我们的财务顾问货币GPT非常令人印象深刻,给我们上了一堂结构化问题解决的大师课。

    除了精确的分配——“2万美元用于高息债务”和详细的投资组合分割——该代理还展示了复杂的财务推理。它提供了一个五步路线图,不仅仅是一个清单,而是一个考虑到当前需求和长期考虑的连贯战略。

    代理的优势在于它能够平衡细节和上下文。在推荐特定投资(标普500指数40%,债券30%)的同时,它还解释了其回应背后的基本原理:“偿还高息债务就像获得有保证的投资回报。”这种情境意识延伸到长期规划,建议定期审查周期和基于不断变化的情况的适应性策略。

    然而,如此丰富的信息揭示了一个潜在的弱点:一次用太多细节压倒用户的风险。虽然技术上很全面,但快速交付具体的分配、投资策略和监控计划可能会让金融新手望而生畏。

    你可以阅读它的完整计划在这里,您可以通过单击来使用它此链接。我们强烈推荐。

    谷歌

    总的来说,谷歌的Gemini代理创建平台凭借其精致、直观的界面赢得了选美比赛,使代理创建感觉几乎太容易了。该系统从字面上理解指令,这有助于避免混淆,其干净的UI消除了人工智能开发中的恐吓因素。

    然而,它需要一个更详细的提示才能从中挤出一些好汁。它不会想当然:简短的提示会给你一个低质量的回应。

    在幕后,它拥有强大的实力——谷歌支持的网络搜索集成、代码分析和图像处理能力,可与ChatGPT的产品相媲美,但主要依赖于微软的技术。

    Gemini的用户界面感觉就像是由真正了解用户体验的人设计的。该界面以清晰的标签引导用户,所有内容都显示在一个屏幕上。

    这种精心设计的方法对新手特别有吸引力,尽管有经验的用户可能会发现自己想要更精细的控制。

    我们打电话给我们的代理人MoneyGem并要求提供财务计划。它的咨询方法展示了谷歌独特的问题解决方法。它没有给出直截了当的答案,而是以“这是什么样的债务?”和“你的利率是多少?”等问题作为开头,表明人们理解财务建议不是一刀切的。

    它强调在提供建议之前收集背景信息,这与专业的财务规划实践相一致,尽管这可能会让寻求即时答案的用户感到沮丧。

    零样本的答案没有用。该代理商基本上表示,它对用户了解不够,无法提供良好的财务建议。在要求它做出假设并迫使它提供一个可以适应大多数情况的计划后,代理人生成了一个非常保守的计划草案,但没有就考虑哪些投资给出具体建议。

    不过,MoneyGem在回答问题时建议最大化401(k)或Roth IRA等税收优惠账户,以减轻您的税收负担。不错。

    您可以点击在这里阅读我们与MoneyGem的互动,并通过点击亲自尝试该模型此链接.

    Mistral AI

    Mistral对代理配置过程的方法有点不简单。代理创建工具隐藏在其开发人员控制台中,具有深度定制选项,可能会吓跑新手,但会让修补匠感到高兴。

    它的代理构建界面不是LeChat(聊天机器人界面)的一部分,但一旦创建了代理,它就会出现在那里。

    我们真正喜欢的一件事是,能够为工具提供塑造代理行为和响应风格的示例——这是目前其他平台所没有的。此外,这里有一个奇怪的错误:在创建我们的代理时,UI突然切换到法语,可能是因为该公司是法国人。无论如何,我们无法切换回英语或西班牙语。

    创建代理后,用户必须在正常的聊天机器人界面中调用它才能使用它。他们必须退出Le Platefome并转到Le Chat,这不是最直观的事情。然而,使用代理的UI非常简单,感觉就像任何其他人工智能聊天机器人一样。

    我们建立了我们的代理,并为其命名乐钱为了纪念米斯特拉尔的法国血统。它的表现清楚地表明了米斯特拉尔解决问题的多面手方法。它提出的“留出1万美元用于紧急情况,1.5万美元用于偿还债务,1万美元用作投资”的建议似乎很简单,但表明这些代理人缺乏一些基本的数学验证。

    35000美元的总额超过了可用资金10000美元,这是一些语言模型在优先考虑概念正确性而非数值准确性时出现的一个基本错误。

    然而,我们必须注意到,表现最好的LLM已经有了很大的进步,并且在这项任务中没有失败——至少没有米斯特拉尔那么频繁。

    除此之外,它的计划并不详细,但它是唯一一个提供后续问题的计划,可以使交互更加流畅,并帮助它更好地了解用户的需求。

    LeMoney的完整计划可用在这里并且该试剂可用于测试在这里.

    Anthropic

    Claude的项目感觉不像是一个代理创建平台,而更像是一个复杂的任务执行系统。界面很小,几乎太小了,感觉不直观。

    这种极简主义的界面可能会让一些用户挠头。该平台提供了一个简单的设置,其中有一个“可选”指令字段,不知何故,这个字段既不重要又至关重要:如果指令被标记为可选,那么人工智能代理将如何知道它应该做什么?

    它的极简主义界面感觉很奇怪,但Anthropic从未以其在UI选择方面的品味而闻名。用于配置模型的窗口与用于提示模型的窗口相同。它的功能主要集中在文本代码解释上,没有其他功能。网络搜索、图像处理和生成是Anthropic留给竞争对手的花哨东西。

    我们的代理名为MoneyGrade,无法进行公开测试,因为Anthropic不允许这样做。它采取了非常保守的立场,同时提供技术上准确但模糊的财务建议,例如“在减少债务和基本储蓄之间保持平衡”。

    它要求提供更多信息,但至少确保在没有信息的情况下提供一个非常通用的策略,而不需要进一步的互动,这似乎比谷歌的方法更优。

    点击此处阅读完整计划.

    拥抱的脸

    开源存储库是高级用户的天堂,也是初学者的潜在噩梦。它是唯一一个让用户选择他们喜欢的语言模型的平台,为代理的基础提供了前所未有的控制。

    此外,用户有几十种不同的工具可以与他们的代理集成,但只能同时激活其中三种。这种限制迫使我们仔细考虑哪些功能对每个特定用例最重要,但这是其他模型无法提供的。

    然而,这是所有界面中最可定制的体验,有很多旋钮可以调整。其结果是,一个平台可以创建比竞争对手更强大、更专业的代理,但只能掌握在那些确切知道自己在做什么的人手中。

    用户可以试用他们的代理拥抱聊天--放下高级用户的梦想。创建代理后,使用它非常简单。界面显示一张大卡,上面有代理人的姓名、描述和照片。它还允许用户共享代理的链接并调整其设置,所有这些都可以从卡上完成。

    把我们的拥抱金钱该测试的代理表明,它处理的是一个时间范围框架,显示了对财务规划心理学的更复杂的理解。它分为“短期(0-24个月)、中期(24-60个月)和长期(60个月以上)”,反映了专业的财务规划实践。

    该代理人建议将“0-5000美元分配给流动性低风险的工具”,同时保持“每月1000-1500美元”的激进债务偿还。乍一看,这表明对现金流管理有着微妙的理解。

    另一个有趣的特点是它将实用工具与理论建议相结合。除了建议50/30/20根据规则,它推荐了特定的预算应用程序,并强调了税收优化——在高层战略和日常执行之间架起了一座桥梁。主要缺点?它包括对债务利率的假设,但没有寻求澄清。

    为了提供有用的建议,它把太多的事情视为理所当然。无论如何,提供回复的冲动是可以通过提示来解决的,但需要考虑。

    你可以阅读HuggingMoney的完整计划在这里。此外,您可以通过单击来尝试此链接.

    编辑人安德鲁·海沃德

    发表评论
    发表评论
    暂无评论
      相关阅读
      币界百科
      币界资讯
      Aave DAO 成员认为,界面更改未经批准,相当于悄悄地将 DAO 资助的品牌价值私有化。
      区块链
      2025-12-13 18:53:51
      巴基斯坦正在寻求资金,而传统金融已无法提供简单的解决方案。
      区块链
      2025-12-13 18:13:10
      去中心化金融(DeFi)是区块链技术最富生命力的应用,它通过智能合约构建了一个无需传统中介的开放金融系统。本文将深入解析 DeFi 的结构性创新,特别是其可组合性如何催生出高效的金融“乐高”生态。 我们将详细分析 DeFi 的核心支柱——去中心化借贷、自动做市商(AMM)交易和收益耕作的运作原理。同时,文章也将系统地揭示 DeFi 市场中特有的风险图谱,包括代码漏洞、无常损失和清算风险。理解 DeFi,是把握 Web3 金融基础设施、实现资产高效利用和自主管理的关键。
      数字货币百科
      2025-12-05 15:30:43
      在2025年加密货币市场蓬勃发展的大背景下,Moonshot交易所成为了行业焦点。它与XBIT去中心化交易所深度合作,推动Meme币市场生态革新,全球Meme币总市值截至2月已突破800亿美元。同时,Moonshot永续合约上线,解决传统合约难题,带来全新交易体验。想知道它是如何在竞争激烈的市场中脱颖而出的吗?快来一探究竟!
      矿业百科
      2025-03-08 09:23:38
      在加密货币的风云变幻中,ALPINE平台和DEGENAI杠杆成为了备受瞩目的焦点。ALPINE平台有着自身独特的运行机制和特点,而DEGENAI杠杆则为投资者提供了一种全新的操作方式。本文将深入剖析ALPINE平台的优势与潜力,以及DEGENAI杠杆在市场中的应用和影响。对于加密货币爱好者和投资者来说,DYOR,了解这两者的奥秘,或许能在这片充满机遇的领域中找到新的方向。
      数字货币百科
      2025-03-07 12:14:07
      近期,MUSK币成为加密货币市场焦点,价格出现显著异动。它是基于去中心化金融生态系统的新兴加密货币,发行总量10亿枚。过去一周内,其价格大幅波动,涨幅一度超30%。有独家数据显示,近4亿枚DOGE的异常转账或为MUSK币暴涨前兆。不过,MUSK币价格走势也面临多空博弈,多方看好其潜力,空方则担忧缺乏实际价值支撑和监管风险。
      区块链书籍
      2025-03-07 18:00:31
      近期,AI技术对马斯克币进行了全方位的深入分析,揭示出其背后隐藏的诸多利好因素。在加密货币市场风云变幻的当下,马斯克币凭借独特的概念与潜在的发展潜力备受关注。AI从技术创新、市场趋势等多维度展开研究,为投资者展现了一个全新的视角。想深入了解马斯克币的利好详情,就别错过本文的硬核分析!
      区块链书籍
      2025-03-07 11:06:50
      无论你是希望及时捕捉市场机会,还是进行日内交易,选择一个低手续费且流动性高的交易平台,无疑会让你的交易体验更加顺畅。但面对市场上琳琅满目的交易平台,如何才能找到那些真正适合频繁交易的呢?我们将为大家推荐五大低手续费及高流动性交易平台,助你更好地进行数字货币交易。
      交易所知识
      2025-04-07 09:30:39
      推出加密货币和区块链行业早报《早8点》2891期,为您提供最新、最快的数字货币和区块链行业新闻。
      比特币新闻
      2025-11-27 12:31:43
      加密货币行业仍然以制造代币而非价值而闻名。
      比特币新闻
      2025-04-30 10:31:24
      是否是针对币安和USDe的协同攻击?
      比特币新闻
      2025-10-13 13:31:41
      我们正在见证加密货币史上最大规模的空头挤压之一。自7月1日以来,以太坊市值暴涨1500亿美元——就在几天前,净空头头寸刚刚创下历史新高。
      比特币新闻
      2025-07-21 12:31:45
      推荐专栏
      热门币种
      更多
      币种
      美元价格
      24H涨跌幅
      BTC比特币
      90,527.09 USDT
      ¥638,632.40
      -2.01%
      ETH以太坊
      3,124.91 USDT
      ¥22,044.99
      -3.46%
      USDT泰达币
      1.00 USDT
      ¥7.06
      +0.01%
      BNB币安币
      893.21 USDT
      ¥6,301.23
      +0.87%
      XRP瑞波币
      2.04 USDT
      ¥14.37
      -0.13%
      USDC
      0.99980 USDT
      ¥7.05
      0%
      SOL
      133.56 USDT
      ¥942.21
      -3.5%
      TRX波场币
      0.27220 USDT
      ¥1.92
      -1.91%
      DOGE狗狗币
      0.13930 USDT
      ¥0.98270
      -1.14%
      ADA艾达币
      0.41260 USDT
      ¥2.91
      -2.64%
      热搜币种
      更多
      币种
      美元价格
      24H涨跌幅
      ZEC
      大零币
      446.4 USDT
      ¥3,152.92
      -1.66%
      FIL
      Filecoin
      1.3457 USDT
      ¥9.50
      -3.62%
      Terra Classic
      4.468E-5 USDT
      ¥0.00
      -6.78%
      BTC
      比特币
      90527.09 USDT
      ¥639,392.84
      -2.01%
      OKB
      OK币
      116.86 USDT
      ¥825.38
      -0.26%
      dYdX
      0.1956 USDT
      ¥1.38
      -2.1%
      ZEN
      Horizen
      8.6967 USDT
      ¥61.42
      -5.27%
      SOL
      Solana
      133.56 USDT
      ¥943.33
      -3.5%
      Shiba Inu
      8.39E-6 USDT
      ¥0.00
      -0.24%
      DOT
      波卡币
      2.045 USDT
      ¥14.44
      +0.04%
      BNB
      币安币
      893.21 USDT
      ¥6,308.74
      +0.87%
      狗狗币
      0.1393 USDT
      ¥0.98
      -1.14%
      最新快讯
      更多
      由于双方仍在就多个问题进行谈判,美国市场结构法案或将推迟至明年1月审议。
      2025-12-13 20:09:56
      随着交易员看涨情绪升温,SUI股价出现大量吸筹——以下是1.75美元为何至关重要的原因
      2025-12-13 20:09:55
      XRP命运成为关注焦点,Hayes警告L1崩盘风险
      2025-12-13 20:09:54
      DeFi总锁仓额锐减至1220亿美元
      2025-12-13 19:50:17
      12月至今一片看涨:比特币、以太坊等加密货币ETF均上涨
      2025-12-13 19:45:14
      下周宏观展望:非农、CPI双雷将至,美元“生死线”已亮红灯?
      2025-12-13 19:41:57
      币界网晚报丨12月13日
      2025-12-13 19:35:35