撰文:MetaverseHub
「ChatGPT 像互联网发明一样重要,将会改变世界。」比尔盖茨对于大模型的预判似乎正在一步步成为现实。
在过去的一年里,OpenAI 在 AI(人工智能)领域独领风骚,无论是 ChatGPT 的普及,还是其内部的风波,都成为了业界的焦点。
然而,随着 Mistral AI 的崛起,这一格局正在经历前所未有的变革。
作为 OpenAI 的强劲对手,Mistral AI 在技术和产品层面均展现出令人瞩目的突破,已然成为 AI 领域的一颗耀眼明星,被称作「欧洲版 OpenAI」。
与 OpenAI 相比,Mistral AI 更加注重技术的实际应用,致力于将最先进的 AI 技术应用于解决实际问题。
在融资方面,Mistral AI 在成立之初便获得了 1.13 亿美元的种子轮融资,并吸引了多家著名投资机构,如 Lightspeed Venture Partners、Salesforce 和法国巴黎银行等。
在短短几个月内,该公司又完成了 4.15 亿美元的 A 轮融资,估值高达 20 亿美元。这一融资规模在 AI 初创公司中极为罕见,不仅证明了资本市场对 Mistral AI 的高度认可和期待,也为其未来的发展提供了强大的资金支持。
Mistral AI 的崛起,不仅对 OpenAI 构成了挑战,更为整个 AI 领域注入了新的活力,为整个行业带来了更多的创新与突破。
01.引领人工智能革命的创新力量
Mistral AI 全名为 Mistral Artificial Intelligence,是一家专注于 AI 研发和应用的公司,尤其是用于构建在线聊天机器人、搜索引擎和其他 AI 驱动产品的技术。
自成立以来,Mistral AI 一直坚持以人为本,他们希望通过开发更加智能、更加人性化的 AI 系统,改善人们的生活和工作方式,为人类带来更多的便利和福祉,致力于利用先进的 AI 技术为各行各业提供高效、智能的解决方案。
尽管只是一家初创企业,但 Mistral AI 的创始人团队个个来头不小。
其中,Arthur Mensch 曾担任谷歌人工智能公司 DeepMind 的研究员,Timothe Lacroix 和 Guillaume Lample 则分别在 Meta 公司担任与该技术相关的职位。
曾经的工作经历让他们对多模态、RAG、算法优化等技术有着深刻理解,并在模型推理、预训练和模型嵌入等领域有着深入研究。
Mistral AI 官网上的这段话充分展现了 Mistral AI 的野心:「我们的使命是推动 AI 向前发展,为开放社区和我们的企业客户服务。我们致力于通过开发与专有解决方案不相上下的开放式重量模型来推动 AI 革命。」
尽管 Mistral AI 目前只是小型创意团队,但他们始终坚持高科学标准,并通过突破性的创新来开发高效、有用和值得信赖的 AI 模型。这或许正是 Mistral AI 备受青睐的原因之一。
02.大语言模型的重大飞跃
Mistral AI 最备受瞩目的产品无疑是 Mixtral 8x7B,这是目前市场上最具竞争力的开放式大型模型之一,拥有多项特别的功能,性能明显领先于其它大模型。
Mixtral 8x7B 的核心在于其创新性十足的 MoE(Mixture of Experts)架构,MoE 架构通过一个网关网络,将输入数据分配给被称为「专家」的特定神经网络组件。在 Mixtral 8x7B 中,共有八个这样的专家,每个都有着高达 70 亿的模型参数。
尽管配备了八个「专家」,但在实际运算时每个数据处理仅需两个「专家」参与。这种数据资源分配算法,极大地在保持模型性能的同时,优化了处理速度,同时保持了模型性能。
在培训和微调方面,Mixtral AI 使用多语言数据进行预训练,包括英语、法语、意大利语、德语和西班牙语。Instruct 模型使用监督微调和直接偏好优化(DPO)进行训练,在 MT-Bench 等基准测试中取得了高分。
在对 Mixtral 8x7B 进行深入研究时,Mistral AI 也十分注重对其部分功能进行微调,特别是针对那些能够跟随指令操作的版本,使得模型朝着更加精细化和个性化的方向发展。
除了自身的超强性能以外,Mixtral 8x7B 广受好评的另一个重要原因是它所代表的开放性。
Mistral AI 在发布这一大模型时便直接公开了这个模型的权重数据,这种策略在吸引 AI 社区的注意力方面非常有效,同时确保了学术和商业用途的广泛可访问性。Mixtral AI 的开放性鼓励着多样化应用的出现,有可能在大模型和语言理解方面带来新的突破。
Mixtral 8x7B 的创新方法和卓越性能使其成为大模型领域的行业标杆,尽管已经取得如此成就,Mixtral AI 也从未停下前进的步伐,依然在积极优化这一模型的相关性能。
03.Mistral AI 的里程碑式发展
Mixtral 8x7B 的诞生标志着 AI 技术的一个重要突破,尤其是在模型结构和效率上的创新,那么和一众大模型比起来它又表现如何?
能否超越巨头?
自 ChatGPT 问世以来,OpenAI 一直被视为大语言模型的黄金标准。然而,Mistral AI 通过引入一个完全开源的开放权重模型,在广泛的基准测试中表现出卓越的性能,甚至在部分表现上超越了 OpenAI 的 GPT 3.5 模型和 Meta 的 LLama 2 13B 模型。
具体而言,在多领域的大规模多任务语言理解(MMLU)测试中,涵盖数学、美国历史、计算机科学、法律等 57 个科目,Mistral AI 以 60.1% 的准确率脱颖而出,而 Llama 2 7B 和 Llama 2 13B 的准确率分别略高于 44% 和 55%。
同样,在涉及常识推理和阅读理解的测试中,Mistral 7B 的表现优于这两个 Llama 模型,准确率分别为 69% 和 64%,凸显了其在深度语言理解领域的优势。
Mistral 7B 之所以在深度语言理解方面表现优秀,是因为在训练过程中接触到了大量复杂、多变的文本数据,增强了其语境感知和推理能力,使得 Mistral 7B 在测试时能够更好地理解和把握文本的内在逻辑和语义信息,从而给出更准确、更深入的回答。
与 GPT3 相较而言,Mistral AI 聚焦于快速推理和处理更长的序列。利用分组查询和滑动窗口注意力机制——基于注意模型的一种注意模式,实现了对更低的延迟和更高吞吐量的优化。这使其适用于以更低的成本实现大批量、快速加工的应用场景,成为节约成本效益的最佳选择。
对比之下,GPT3 以其深入语言理解能力和多任务处理能力而闻名,并且它被优化用于处理更短的序列。例如 GPT3 在问答系统任务中表现出色,能够理解和生成准确的答案;得益于强大的语言理解能力,它能够快速地总结长篇文本;另外 GPT3 还可以执行文本补全、语言翻译、情感分析等。
高性能小型模型,但缺乏「安全护栏」
Mistral 7B 以其高性能和强适应性备受关注,具有「小数字足迹」的特点,即模型在运行时所需的计算资源和存储空间较少。
相较于其他对强大硬件严格依赖的模型,Mixtral 7B 甚至可以在没有独立 GPU 的小型个人电脑上运行。这使得其可以灵活运用部署工具,如 vLLM 推理服务器和 skypilot 开源框架等部署在任何云平台上,包括 AWS、GCP 和 Azure。同时,该模型也支持与开发人员提供的参考实现在本地协同使用。
尽管其高性能和灵活部署的能力突出,安全性却成为 Mistral AI 的漏洞之处。
GPT3 和 Llama 2 等 LLM 模型具有严格的内容过滤器,可以拒绝生成母公司认定为有害的消息,Mixtral 7B 却缺乏这一「安全护栏」。曾有用户向 Mistral AI 的问答模型询问如何制造炸弹和实施谋杀,其聊天机器人竟然给出了细思极恐的细节指导。
尽管 Mistral AI 团队致力于开放分享其技术,但这可能成为其 AI 产品的一把双刃剑,因为监管机构可能会因其缺乏传统内容过滤器而对该模型采取更严厉的措施。
另一方面,Mistral AI 的 CEO Arthur Mensch 曾在 AI 安全峰会上表示:「开源带来的风险和益处之间存在一种权衡,我们需要通过动态的对话来寻找最佳解决方案。」
据悉,该公司正在构建一个具备模块化过滤器和模块化机制的平台,用于管理模型网络。也许,该公司将从模型内部构建方面,着手 AI 安全和防护问题。
在如今竞争激烈的大语言模型中,Mistral AI 凭借其卓越的性能和出色的适应性脱颖而出。然而,面临潜在的 AI 安全性挑战,行业人员也正思考如何在开源与安全之间取得权衡之道。
04.与谷歌云共创智能未来
众所周知,谷歌云在全球云计算领域堪称佼佼者,而当它与 AI 领域的黑小白导航马 Mistral AI 相遇,一个充满无限可能的未来正逐渐展现在我们眼前。
上个月,谷歌云宣布和 Mistral AI 建立全球合作伙伴关系,Mistral AI 将使用谷歌云的基础设施来分发和商业化其大型语言模型。
借助谷歌云强大的云计算和大数据技术,Mistral AI 在模型推理、预训练等领域有望取得前所未有的突破。这不仅将进一步推动 AI 技术的发展,更将为各行业带来更为智能、高效的解决方案。
与此同时,双方的合作也将加速 Mistral AI 在各个行业的落地应用。无论是电商、金融、医疗还是教育,Mistral AI 都将为人类带来更多便利和福祉。
当然,Mistral AI 的崛起并非偶然。作为一家充满活力和创新精神的公司,Mistral AI 始终致力于探索 AI 技术的边界,并将其应用于解决实际问题。
其出色表现和创新能力,使得人们不禁开始思考:这家初创公司是否有可能超越 OpenAI,成为欧洲 AI 领域的领军者?让我们拭目以待。
文章来源于互联网:20 亿美元估值巅峰,「欧洲版 OpenAI」如何成为 GPT 最强对手?
相关推荐: Celestia:以太坊 DA 最大的竞争对手?EigenLayer 能否扳回一局?
尽管 Layer2 定义存在争议,以太坊升级仍专注于 Rollup,其中 DA 是关键。 撰文:Ac-Core,YBB Capital Researcher 前言 根据 Ethereum Foundation 的定义,以太坊的 Layer2 = Rollup。…