风险提示:理性看待区块链,提高风险意识!
OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代
首页 > 业界 > 区块链 2024-05-14 09:30
摘要
OpenAI 用 26 分钟改变世界!免费版 GPT-4 来了,可能这不是一个产品,而是一个生态! 。
币界网报道:

文章来源:机器之心


图片来源:由无界AI生成


ChatGPT 问世才 17 个月,OpenAI 就拿出了科幻电影里的超级 AI,而且完全免费,人人可用。


太震撼了!

当各家科技公司还在追赶大模型多模态能力,把总结文本、P 图等功能放进手机里的时候,遥遥领先的 OpenAI 直接开了大招,发布的产品连自家 CEO 奥特曼都惊叹:就像电影里一样。



5 月 14 日凌晨,OpenAI 在首次「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App,并展示了一系列新能力。这一次,技术颠覆了产品形态,OpenAI 用行动给全世界的科技公司上了一课。

今天的主持人是 OpenAI 的首席技术官 Mira Murati,她表示,今天主要讲三件事:



  • 第一,以后 OpenAI 做产品就是要免费优先,为的就是让更多的人能使用。
  • 第二,因此 OpenAI 此次发布了桌面版本的程序和更新后的 UI,其使用起来更简单,也更自然。
  • 第三,GPT-4 之后,新版本的大模型来了,名字叫 GPT-4o。GPT-4o 的特别之处在于它以极为自然的交互方式为每个人带来了 GPT-4 级别的智能,包括免费用户。


ChatGPT 的这次更新以后,大模型可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出 —— 这才是属于未来的交互方式。

最近,ChatGPT 不用注册也可以使用了,今天又增加了桌面程序,OpenAI 的目标就是让人们可以随时随地的无感使用它,让 ChatGPT 集成在你的工作流中。这 AI 现在就是生产力了。



GPT-4o 是面向未来人机交互范式的全新大模型,具有文本、语音、图像三种模态的理解力,反应极快还带有感情,也很通人性。

在现场,OpenAI 的工程师拿出一个 iPhone 演示了新模型的几种主要能力。最重要的是实时语音对话,Mark Chen 说:「我第一次来直播的发布会,有点紧张。」ChatGPT 说,要不你深呼吸一下。

好的,我深呼吸。



ChatGPT 立即回答说,你这不行,喘得也太大了。

如果你之前用过 Siri 之类的语音助手,这里就可以看出明显的不同了。首先,你可以随时打断 AI 的话,不用等它说完就可以继续下一轮对话。其次,你不用等待,模型反应极快,比人类的回应还快。第三,模型能够充分理解人类的情感,自己也能表现出各种感情。

随后是视觉能力。另一个工程师在纸上现写的方程,让 ChatGPT 不是直接给答案,而是让它解释要一步步怎么做。看起来,它在教人做题方面很有潜力。


ChatGPT 说,每当你为数学焦头烂额的时候,我就在你身边。


接下来尝试 GPT-4o 的代码能力。这有一些代码,打开电脑里桌面版的 ChatGPT 用语音和它交互,让它解释一下代码是用来做什么的,某个函数是在做什么,ChatGPT 都对答如流。

输出代码的结果,是一个温度曲线图,让 ChatGPT 以一句话的方式回应所有有关此图的问题。



最热的月份在几月,Y 轴是摄氏度还是华氏度,它都能回答得上来。

OpenAI 还回应了一些 X/Twitter 上网友们实时提出的问题。比如实时语音翻译,手机可以拿来当翻译机来回翻译西班牙语和英语。

又有人问道,ChatGPT 能识别你的表情吗?

看起来,GPT-4o 已经能够做到实时的视频理解了。

接下来,就让我们详细了解下 OpenAI 今天放出的核弹。


全能模型 GPT-4o

首先介绍的是 GPT-4o,o 代表 Omnimodel(全能模型)。


第一次,OpenAI 在一个模型中集成了所有模态,大幅提升了大模型的实用性。

OpenAI CTO Muri Murati 表示,GPT-4o 提供了「GPT-4 水准」的智能,但在 GPT-4 的基础上改进了文本、视觉和音频方面的能力,将在未来几周内「迭代式」地在公司产品中推出。

「GPT-4o 的理由横跨语音、文本和视觉,」Muri Murati 说道:「我们知道这些模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与 GPT 的协作。」

GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,但在非英语文本上的性能显著提高,同时 API 的速度也更快,成本降低了 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。

它最快可以在 232 毫秒的时间内响应音频输入,平均响应时长 320 毫秒,与人类相似。在 GPT-4o 发布之前,体验过 ChatGPT 语音对话能力的用户能够感知到 ChatGPT 的平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。

这种语音响应模式是由三个独立模型组成的 pipeline:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。但 OpenAI 发现这种方法意味着 GPT-4 会丢失大量信息,例如模型无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。

而在 GPT-4o 上,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。

「从技术角度来看,OpenAI 已经找到了一种方法,可以将音频直接映射到音频作为一级模态,并将视频实时传输到 transformer。这些需要对 token 化和架构进行一些新的研究,但总体来说是一个数据和系统优化问题(大多数事情都是如此)。」英伟达科学家 Jim Fan 如此评论道。



GPT-4o 可以跨文本、音频和视频进行实时推理,这是向更自然的人机交互(甚至是人 - 机器 - 机器交互)迈出的重要一步。

OpenAI 总裁 Greg Brockman 也在线「整活」,不仅让两个 GPT-4o 实时对话,还让它们即兴创作了一首歌曲,虽然旋律有点「感人」,但歌词涵盖房间的装饰风格、人物穿着特点以及期间发生的小插曲等。

此外,GPT-4o 在理解和生成图像方面的能力比任何现有模型都要好得多,此前很多不可能的任务都变得「易如反掌」。

比如,你可以让它帮忙把 OpenAI 的 logo 印到杯垫上:



经过这段时间的技术攻关,OpenAI 应该已经完美解决了 ChatGPT 生成字体的问题。

同时,GPT-4o 还拥有 3D 视觉内容生成的能力,能够从 6 个生成的图像进行 3D 重建:



这是一首诗,GPT-4o 可以将其排版为手写样式:



更复杂的排版样式也能搞定:



与 GPT-4o 合作,你只需要输入几段文字,就能得到一组连续的漫画分镜:



而下面这些玩法,应该会让很多设计师有点惊讶:



这是一张由两张生活照演变而来的风格化海报:



还有一些小众的功能,比如「文本转艺术字」:



GPT-4o 性能评估结果

OpenAI 技术团队成员在 X 上表示,之前在 LMSYS Chatbot Arena 上引起广泛热议的神秘模型「im-also-a-good-gpt2-chatbot」就是 GPT-4o 的一个版本。



在比较困难的 prompt 集上 —— 特别是编码方面:GPT-4o 相比于 OpenAI 之前的最佳模型,性能提升幅度尤其显著。



具体来说,在多项基准测试中,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上实现了新高。



推理提升:GPT-4o 在 5-shot  MMLU(常识问题)上创下了 87.2% 的新高分。(注:Llama3 400b 还在训练中)



音频 ASR 性能:GPT-4o 相比 Whisper-v3 显著提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。



GPT-4o 在语音翻译方面取得了新的 SOTA 水平,并且在 MLS 基准测试中优于 Whisper-v3。



M3Exam 基准测试既是多语言评估基准也是视觉评估基准,由来自多个国家 / 地区的标准化测试多项选择题组成,并包括图形、图表。在所有语言基准测试中,GPT-4o 都比 GPT-4 更强。

未来,模型能力的提升将实现更自然、实时的语音对话,并能够通过实时视频与 ChatGPT 进行对话。例如,用户可以向 ChatGPT 展示一场现场体育比赛,并要求它解释规则。


ChatGPT 用户将免费获得更多高级功能


每周都有超过一亿人使用 ChatGPT,OpenAI 表示 GPT-4o 的文本和图像功能今天开始免费在 ChatGPT 中推出,并向 Plus 用户提供高达 5 倍的消息上限。



现在打开 ChatGPT,我们发现 GPT-4o 已经可以使用了。



使用 GPT-4o 时,ChatGPT 免费用户现在可以访问以下功能:体验 GPT-4 级别智能;用户可以从模型和网络获取响应。

此外,免费用户还可以有以下选择 ——

分析数据并创建图表:



和拍摄的照片对话:



上传文件以获取总结、写作或分析方面的帮助:



发现并使用 GPTs 和 GPT 应用商店:



以及使用记忆功能打造更有帮助的体验。

不过,根据使用情况和需求,免费用户可以使用 GPT-4o 发送的消息数量会受到限制。当达到限制时,ChatGPT 将自动切换到 GPT-3.5,以便用户可以继续对话。

此外,OpenAI 还将在未来几周内在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha,并通过 API 向一小部分值得信赖的合作伙伴推出对 GPT-4o 更多新的音频和视频功能。

当然了,通过多次的模型测试和迭代,GPT-4o 在所有模态下都存在一些局限性。在这些不完美的地方,OpenAI 表示正努力改进 GPT-4o。

可以想到的是, GPT-4o 音频模式的开放肯定会带来各种新的风险。在安全性问题上,GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术,在跨模态设计中内置了安全性。OpenAI 还创建了新的安全系统,为语音输出提供防护。

新的桌面 app 简化用户工作流程


对于免费和付费用户,OpenAI 还推出了适用于 macOS 的新 ChatGPT 桌面应用程序。通过简单的键盘快捷键(Option + Space),用户可以立即向 ChatGPT 提问,此外,用户还可以直接在应用程序中截取屏幕截图并进行讨论。



现在,用户还可以直接从计算机与 ChatGPT 进行语音对话,GPT-4o 的音频和视频功能将在未来推出,通过点击桌面应用程序右下角的耳机图标来开始语音对话。



从今天开始,OpenAI 将向 Plus 用户推出 macOS 应用程序,并将在未来几周内更广泛地提供该应用程序。此外今年晚些时候 OpenAI 会推出 Windows 版本。


奥特曼:你们开源,我们免费


在发布结束后,OpenAI CEO 山姆・奥特曼久违地发表了一篇博客文章,介绍了推动 GPT-4o 工作时的心路历程:

在我们今天的发布中,我想强调两件事。

首先,我们使命的一个关键部分是将强大的人工智能工具免费(或以优惠的价格)提供给人们。我非常自豪地宣布,我们在 ChatGPT 中免费提供世界上最好的模型,没有广告或类似的东西。

当我们创立 OpenAI 时,我们的最初构想是:我们要创造人工智能并利用它为世界创造各种利益。现在情况有所变化,看起来我们将创造人工智能,然后其他人将使用它来创造各种令人惊奇的事物,我们所有人都会从中受益。

当然,我们是一家企业,会发明很多收费的东西,这将帮助我们向数十亿人提供免费、出色的人工智能服务(希望如此)。

其次,新的语音和视频模式是我用过的最好的计算交互界面。感觉就像电影里的人工智能一样,我仍然有点惊讶于它竟然是真的。事实证明,达到人类水平的响应时间和表达能力是一个巨大的飞跃。

最初的 ChatGPT 暗示了语言界面的可能性,而这个新事物(GPT-4o 版本)给人的感觉有本质上的不同 —— 它快速、智能、有趣、自然且能给人带来帮助。

对我来说,与电脑交互从来都不是很自然的事情,事实如此。而当我们添加(可选)个性化、访问个人信息、让 AI 代替人采取行动等等能力时,我确实可以看到一个令人兴奋的未来,我们能够使用计算机做比以往更多的事情。

最后,非常感谢团队为实现这一目标付出了巨大的努力!



值得一提的是,上个星期奥特曼在一次采访中表示,虽然全民免费收入(universal basic income)难以实现,但我们可以实现「全民免费计算 universal basic compute」。在未来,所有人都可以免费获得 GPT 的算力,可以使用、转售或捐赠。

「这个想法是,随着 AI 变得更加先进,并嵌入到我们生活的方方面面,拥有像 GPT-7 这样的大语言模型单元可能比金钱更有价值,你拥有了部分生产力,」奥特曼解释道。

GPT-4o 的发布,或许就是 OpenAI 朝着这方面努力的一个开始。

是的,这还只是个开始。

最后提一句,今天 OpenAI 博客中展示的「Guessing May 13th’s announcement.」的视频,几乎完全撞车谷歌明天 I/O 大会的一个预热视频,这无疑是对谷歌的贴脸开大。不知道看完今天 OpenAI 的发布,谷歌有没感到巨大压力?



参考内容:

发表评论
发表评论
暂无评论
    相关阅读
    币界百科
    币界资讯
    特朗普总统继续推动加密货币的发展,其劳工部改变了 2022 年针对 401(k)计划中的加密货币的指导方针。
    区块链
    2025-05-29 03:37:16
    美国劳工部 (DOL) 将废除其 2022 年指导方针中的一项规定,该规定禁止将数字资产纳入 401(k) 退休计划。
    区块链
    2025-05-29 02:25:45
    GameStop 周三宣布收购了约 4,000 多个比特币代币,这是其首次购买这一顶级数字资产。
    比特币
    2025-05-29 00:18:44
    SpaceX 于周二在德克萨斯州进行了第九次太空飞行测试。
    区块链
    2025-05-28 22:38:12
    美国劳工部 (DOL) 撤销了其 2022 年指导意见,该指导意见不鼓励将比特币等加密货币选项纳入 401(k) 退休计划。
    比特币
    2025-05-28 22:01:57
    在加密货币的世界里,ISLM备受关注。很多人急切地想找到ISLM交易所官网,以获取更多交易信息。ISLM即伊斯兰币,是HAQQ网络的原生代币,具有结合区块链技术与伊斯兰金融原则等特点。如果你正在苦苦寻找ISLM交易所官网,渴望了解其具体内容和操作方式,这篇文章或许能为你解惑,让你不再迷茫,顺利开启探索之旅。
    交易所百科
    2025-03-07 16:56:45
    今日Meme币市场突发暴跌,引发广泛关注。Meme币作为以网络模因为基础的加密货币,向来因独特社区文化和高度投机性受瞩目。此次大跌或与市场情绪波动、监管政策收紧、宏观经济不确定性以及技术风险与操纵行为等因素有关。投资者反应不一,部分止损离场,部分持观望态度。长期看,市场或逐渐回归理性,但短期波动可能加剧,投资者需谨慎应对,密切关注政策动态并分散投资。
    数字货币百科
    2025-03-07 09:38:13
    在全球加密货币市场蓬勃发展的当下,选择一个可靠、安全且交易体验佳的交易所至关重要。2025年权威榜单公布的全球十大加密货币交易所包括OKX、币安、火币、Coinbase等。这些交易所以其可靠性、安全性、广泛的交易对和低交易费用著称。比如OKX拥有超5000万活跃用户,日均交易量超200亿美元;币安有超1亿活跃用户,日均交易量超100亿美元。本文将为你详细剖析这些交易所的核心竞争力和特色服务,助你在加密货币交易中做出更优选择。
    矿业百科
    2025-03-07 09:33:31
    在2025年的虚拟货币市场中,多种币种展现出独特魅力与潜力。比特币作为加密货币先驱,被视为“数字黄金”,随着企业和个人接受度提升、机构兴趣增加,以及闪电网络等技术改进,有望持续强劲增长。以太坊是热门的智能合约平台,DeFi、NFT等概念为其带来机遇,ETH 2.0升级将让它更安全高效。瑞波币专注跨境支付,众多金融机构加入联盟推动其发展。此外,波卡构建多链生态,BNB受益于币安平台,SOL以高吞吐量受关注,AVAX实现快速交易确认,TON构建快速安全可扩展网络,ADA注重科研和可持续发展,TRX构建去中心化娱乐平台,DOGE有独特草根文化属性。投资者需DYOR,谨慎评估市场动态。
    数字货币百科
    2025-03-07 20:27:21
    进入2025年,加密货币市场不确定性加剧,Meme币领域却异军突起。自比特币减半后,加密市场走势低迷,但Meme币板块涨势明显,类别市值已突破570亿美元,日内涨幅达9.3%。其中,特朗普概念币TRUMP持续上涨,已突破10美元,24小时涨幅达29.7%。此外,狗狗币、佩佩币和柴犬币等也展示了显著的市场表现。不过,Meme币通常缺少真实价值和实际效用,价格易受投机、市场情绪和突发新闻事件影响。此前特朗普Meme币TRUMP火爆,但价格上涨过快,泡沫风险高,且未来锁仓代币释放或致价格回调。自Trump币热潮后,不少名人币热度褪去便快速回调。在市场情绪复杂、多空比变化等因素影响下,Meme币的回调可能性值得投资者高度关注。投资者需保持理性,谨慎决策,切勿盲目追涨。
    区块链百科
    2025-03-07 22:01:52
    2025年加密货币市场预计将再次爆发增长。有四大加密货币值得关注,或许会迎来利好局面。Dogecoin作为最早的迷因币,拥有强大社区支持,历史上有大幅增长潜力,其社区不断发展且基金会拓展了实用性,此前价格涨幅也十分可观。Solana以可扩展性、速度和低交易成本著称,是迷因币项目热门目的地,随着迷因代币发展,对其代币需求增加或致价格飙升。XRP因投资者信心恢复和积极事件,市值已重返前三,未来有望受益。新兴的迷因币SPX6900凭借有趣概念和熊市中的韧性脱颖而出,有望在2025年牛市中继续增长。这些加密货币的
    区块链知识
    2025-03-03 16:50:37
    在当今数字化浪潮中,加密货币领域发展迅猛,ZANO交易所官网与STCh平台备受关注。ZANO交易所官网作为行业内颇具影响力的存在,其背后的运营模式、技术支撑等都是众多投资者和爱好者关心的焦点。而STCh平台同样以其独特的功能和创新的理念吸引着各方目光。本文将对ZANO交易所官网和STCh平台进行全方位的剖析,探讨它们在加密货币市场中的定位、发展前景以及面临的挑战等问题,带您深入了解这两个平台的真实面貌,为您在探索加密货币世界的道路上提供有价值的参考信息。无论您是新手小白,还是经验丰富的行业人士,相信都能从
    矿业知识
    2025-03-04 09:41:34
    在加密货币迅猛发展的当下,虚拟币市场成为全球投资者和交易者关注的焦点。本文为你揭晓2025年最值钱的虚拟币排行榜前十。其中,比特币作为最早的加密货币,以其去中心化特性和强大网络效应稳居榜首;以太坊凭借智能合约功能成为开发去中心化应用的主要平台。此外,还有币安币、瑞波币等各具特色的虚拟币。它们凭借独特的技术和应用,在虚拟币市场中占据重要地位。无论你是对加密货币感兴趣的投资者,还是想了解数字资产的爱好者,都能从本文中深入探索虚拟币市场的数字财富新天地。
    区块链知识
    2025-03-03 18:05:46
    在加密货币的蓬勃发展浪潮中,VELO交易平台和NYA合约逐渐走入大众视野。VELO币作为基于区块链技术的数字货币,致力于为全球金融系统提供可扩展性与包容性方案,具备可扩展性、高效性、金融包容性和安全性等特点。而NYA合约在整个加密生态中也有着独特的作用。本文将深入探究VELO交易平台的运作模式,以及NYA合约的具体内容和潜在影响,帮助读者更好地了解这两个在加密领域备受关注的元素,为对加密货币感兴趣的朋友提供有价值的参考。无论你是加密货币的新手,还是经验丰富的投资者,都能从中获取到关于VELO交易平台和NY
    矿业知识
    2025-03-03 19:06:05
    在虚拟币市场蓬勃发展的当下,哪些虚拟币才是最值钱的呢?本文为你揭晓2025最值钱虚拟币排行榜前十名。比特币作为数字货币市场的领头羊,以其去中心化特性和强大网络效应稳居榜首;以太坊凭借智能合约功能成为开发去中心化应用的主要平台;莱特币强调更快的交易确认时间;瑞波币专注于跨境支付;卡尔达诺致力于提供安全可持续的解决方案;链环是重要的去中心化预言机网络;狗狗币因社区文化和名人效应流行;币安币受益于广泛的生态系统。快来深入了解这些虚拟币的独特魅力和发展潜力,把握虚拟币市场的最新动态!
    矿业知识
    2025-03-03 18:43:06
    推荐专栏
    Boss Wallet Web3 Econom Pass
    去中心化交易所
    一位相信价值投资的币圈KOL。稳定盈利的缠论野生交易员 #BTC行情分析师 #价值投资 #链上数据分析
    爱Web 3,爱生活,爱科技,爱炒币的老韭菜
    热门币种
    更多
    币种
    美元价格
    24H涨跌幅
    BTC比特币
    107,356.45 USDT
    ¥772,612.16
    -2.33%
    ETH以太坊
    2,632.21 USDT
    ¥18,943.22
    -1.47%
    USDT泰达币
    1.00000 USDT
    ¥7.20
    -0.02%
    XRP瑞波币
    2.25 USDT
    ¥16.20
    -3.46%
    BNB币安币
    687.35 USDT
    ¥4,946.65
    -0.19%
    SOL
    170.44 USDT
    ¥1,226.60
    -4.25%
    USDC
    0.99960 USDT
    ¥7.19
    +0.02%
    DOGE狗狗币
    0.21880 USDT
    ¥1.57
    -3.95%
    TRX波场币
    0.27510 USDT
    ¥1.98
    -0.69%
    ADA艾达币
    0.73840 USDT
    ¥5.31
    -3.48%
    热搜币种
    更多
    币种
    美元价格
    24H涨跌幅
    柚子
    0.7449 USDT
    ¥5.42
    -3.88%
    比特币
    107356.45 USDT
    ¥781,554.96
    -2.33%
    Uniswap
    6.6465 USDT
    ¥48.39
    +2.41%
    PancakeSwap
    2.6644 USDT
    ¥19.40
    -3.84%
    Mask Network
    2.2451 USDT
    ¥16.34
    +15.98%
    Filecoin
    2.7853 USDT
    ¥20.28
    -4.06%
    大零币
    51.52 USDT
    ¥375.07
    -6.85%
    Shiba Inu
    1.407E-5 USDT
    ¥0.00
    -3.03%
    币安币
    687.35 USDT
    ¥5,003.91
    -0.19%
    以太坊
    2632.21 USDT
    ¥19,162.49
    -1.47%
    Horizen
    9.2583 USDT
    ¥67.40
    -3.51%
    狗狗币
    0.2188 USDT
    ¥1.59
    -3.95%
    最新快讯
    更多
    币界网最新行情晚报:BTC比特币价格跌破107000美元,24小时跌2.61%
    2025-05-29 03:50:35
    GameStopCEO:比特币可以对冲全球货币贬值
    2025-05-29 03:50:28
    CameronWinklevoss预测比特币将会达到100万美元
    2025-05-29 03:50:00
    StriveCEO呼吁Meta购买比特币并将其纳入资产负债表
    2025-05-29 03:47:02
    Toncoin24小时暴涨近30%,受Telegram与马斯克xAI合作及债券发行计划推动
    2025-05-29 03:11:54
    “美联储传声筒”:美联储滞胀预测或成6月经济预测摘要基调
    2025-05-29 03:11:01
    Circle根据法院命令冻结Libra团队关联的5700万美元USDC
    2025-05-29 03:04:26