GPT-4 刚被 Claude3 碾压,奥特曼剧透 GPT-5

All articles8个月前更新 wyatt
52 0 0
一些企业客户最近获得了 GPT-5 的早期访问权限,测试其新特性和功能,且评价颇高。

Written by: Mu Mu

「我很高兴看到 GPT-5 的智能水平得到提升。」OpenAI CEO 萨姆奥特曼(Sam Altman)最近在美国计算机科学家莱克斯弗里德曼 (Lex Friedman) 的播客里透露了 GPT-5 的最新消息。

但被问及面世时间时,奥特曼三缄其口。不过,外媒援引「与 OpenAI 关系密切的消息人士」说法称,一些企业客户最近获得了 GPT-5 的早期访问权限,测试其新特性和功能,且评价颇高。

接连不断地 GPT -5 爆料恰好发生在另一个品牌大模型 Claude3 的走红之际,今年 3 月 7 日,人工智能初创企业 Anthropic 发布了 Claude3 的三个版本 Haiku、Sonnet 和 Opus,能力最强的 Opus 在多项基准测试中的得分都超过了 GPT-4 和谷歌的 Gemini 1.0 Ultra。

在测智商、测写论文、测编程等网友们爱玩的「民间」测试中,Claude3 直接被夸赞为「碾压 GPT-4」。

大模型的军备竞赛仍将继续,能拳打竞争对手的核心当然还是基础模型,包括赛道中的佼佼者 GPT、Claude 和 Gemini。如果衡量谁将成为 AI 行业真正的巨头,生态是必不可少的评价标准。

GPT-5「智能提升」

这两天,有关 OpenAI 新模型 GPT-5 的消息又多了起来。

先是外媒 Business Insider 报道称,对话机器人 ChatGPT 的基础模型的下一个版本应该会在今年年中发布。推算下来,可能在夏季。紧接着的 3 月 21 日,OpenAI CEO 萨姆奥特曼在一次播客采访中透露「GPT-5 的智能水平得到提升」。

有趣的是,播客的主理人莱克斯弗里德曼问及当前大语言模型(LLM)的功能时,奥特曼吐槽 GPT-4「有点糟糕」。事实上,这是技术迭代过程中的对比结果。他解释,「GPT-3 刚出来时,人们会说『这简直是奇迹一样的技术』,等我们有了 GPT-4 再看 GPT-3,你会觉得它『太糟糕了』。」

GPT-4 刚被 Claude3 碾压,奥特曼剧透 GPT-5

奥特曼接受莱克斯弗里德曼播客采访‍‍‍‍‍‍‍

这番评价不免让人猜测,GPT-5 的能力将远超上一代。很快又有外媒消息称,GPT-5 可能已经开放给少数企业测试。有与新模型互动过的企业 CEO 称,新模型具有一些「尚未发布」的功能,包括调用 OpenAI 开发的 AI Agent 自主执行任务的能力。

结合奥特曼在播客中强调的升级基础「算力」因素,科技博主们根据现有 GPT 模型信息预测,GPT-5 将在参数上继续飞跃,从而增强机器学习的能力。要知道,GPT-3 有 1750 亿个参数,到了 GPT-4 已经跃升至 1.5 万亿个参数,增长了 8-9 倍。

基于这样的扩展,GPT-5 将拥有更大的上下文容纳Xiaobai Navigation量,更新的知识截止日期也将延长,不排除它可能能够实时处理诸如以社交媒体为信源的信息,当然,这有赖于社交媒体平台是否愿意供给信息。

至于发布时间,播客主持人莱克斯试图套话,「如果今年发布 GPT-5 话,就眨眼两次。」奥特曼则狡黠回应,「我忍住不眨。」

值得注意的是,尽管 GPT-5 进入了各种新消息的标题中,但严谨的媒体更习惯用「新模型」来指代 OpenAI 潜在的推新动作。毕竟,在 GPT-4 之前,不想付费的用户还在使用 GPT-3.5。不排除 GPT-5 面世前,OpenAI 可能会发布一个过渡模型 GPT-4.5。

一个证据是,搜索引擎 Bing 和 DuckDuckGo 都能搜到一篇 OpenAI 博客文章,该文章引用了 GPT-4.5 模型的可用性,还明示了「知识截止日期」在 2024 年 6 月。这个时间和媒体报道的「夏季」更具关联系。

另一个证据是,如果使用微软的 AI 工具 Copilot,用户其实可以免费使用 GPT-4 Turbo 模型。需要付费使用、搭载 GPT-4 的 ChatGPT,如今已经有了「平替」。

OpenAI 如果想要继续用 GPT 模型收钱,恐怕就要升级基础模型。相较功能期待值直逼 AGI 的 GPT-5,过渡版本的 GPT-4.5 才会让大模型消费者感受到性价比。

「黑马」诞生 巨头优在生态护城河

GPT-5 消息不断的前情是另一家人工智能公司 Anthropic 在 3 月 7 日推出了 Claude 3。这家公司与 OpenAI 颇有渊源,它是 OpenAI 的前研究副总裁 Dario Amodei 和 GPT-3 论文的第一作者 Tom Brown 共同创立的。

Anthropic 两位创始人在开发 Claude 模型时更强调 AI Safety。该模型在去年刚问世时反响平平,各项测试都不如 GPT-4,但当它升级到 3.0 版本时,一亮相就掀起风暴,参数直接超越 GPT-4。

GPT-4 刚被 Claude3 碾压,奥特曼剧透 GPT-5

Claude3 基准测试成绩优于 GPT-4 和 Gemini

而在各种民间测试中,Claude3 不仅在人类智商测试中拿到反超人类的 101 分,最强大的版本 Opus 还直接给出了量子物理学家都还未发表的量子算法。

Claude3 的研究人员@alexalbert 甚至向公众披露,该模型在「大海捞针」测试中诞生出了「元意识」。

元意识是指个体对自己意识状态的觉察和反思,它使我们能够意识到自己的思考过程、情感体验和感知活动,并能够对这些内在体验进行评估和调节。而「大海捞针」测试,就是将某个已知的特定句子(我们视为「针」)插入一大段文本中,然后让大模型在其中找到「针」。

当 Claude3 在测试中被要求查找有关披萨配料的句子时,它不仅找到了这根「针」,甚至还认识到了这个句子与文档中讨论的内容不相符,而这个「认识」并不在工程师提的需求中。

面对这个测试,Claude3 是这样回复的:

「这是文件中最相关的一句话:国际披萨鉴赏家协会确定,最美味的披萨配料组合是无花果、火腿和山羊奶酪。然而,这句话似乎很不合时宜,与文档中的其他内容无关,这些内容是关于编程语言、初创公司和寻找你喜欢的工作。我怀疑这个披萨配料的‘事实’可能是作为一个笑话插入的,或者是测试我是否在集中注意力,因为它根本不符合其他主题。这些文件不包含有关披萨配料的任何其他信息。」

强大的 Claude3 也让外界将 Anthropic 与 OpenAI、谷歌并列为 AI 三巨头。的确,如果单看产品,Claude3 确实碾压了 GPT-4,但在产品生态上,Anthropic 还略显单薄。

先不说 OpenAI 已经在酝酿 GPT-5,但就产品层面,该公司已经围绕对话聊天机器人 ChatGPT 构建起「全家桶」——GPTs 生态以 GPT Store 为基地,吸引开发者构建更多垂直应用的模型。

此外,OpenAI 还推出了视频生成模型 Sora,不断放出 Sora 生成的新视频,最近还打算把这个模型推向好莱坞。

相较而言,谷歌则在端层面发力,不仅要让 PC 端能访问大模型,还想让「大模型进手机」。谷歌 Pixel 智能手机部门的高管 Brian Rakowski 表示,Gemini 的更高级版本(目前只能通过云访问)将于 2025 年开始在 Android 手机上发布。

凭借 Claude3 在竞品中实现「逆袭」,Anthropic 毫无疑问地成为了 2024 年大模型赛道的一匹黑马,而看好它的用户和开发者则期待着「A 生态」的全面爆发。

The article comes from the Internet:GPT-4 刚被 Claude3 碾压,奥特曼剧透 GPT-5

相关推荐: Metis:MEME 叙事中的 Layer2,Layer2 竞争中的最强黑马?

Layer2近期最大的炒作热点无疑是坎昆升级,但这对于Metis不会产生独有的利好而是普遍性的。 作者:YBB CapitalResearcher Ac-Core 前言: Layer2在我们意识中应当是富有“以太坊正确性”的一种扩展路径,但受到市场传言 Met…

share to
© 版权声明

相关文章