Claude 新模型太离谱了:性能不输旗舰,价格只要三分之一

各位好,我们是果核剥壳旗下的AI方向新账号 —— 飞碟AI,初来乍到小黑盒(来摸鱼,真的),还请各位多多关注我们,感激不尽!!

Anthropic(Claude AI 背后的公司) 最近是真有点活明白了


当大家还在讨论 Sora、Grok、Gemini 这些花里胡哨的视频模型时,Anthropic 今早悄悄扔出了一颗“平价核弹”:Claude Haiku 4.5

它几乎是 Claude Sonnet 4 的性能,价格只要三分之一,速度还翻倍。

(并且这次 Anthropic 一上来就着重强调了其“平价”和"所有人可用")

听着是不是有点离谱?但这次数据摆在那儿,不吹。


在最新的 SWE-bench Verified 编程基准测试里,Haiku 4.5 的准确率达到了 73.3%,略微超过中杯的 Sonnet 4(72.7%),比 OpenAI 的 GPT-5 还略高一点点,差点就打过专长代码的 GPT-5 CodeX。

更有意思的是,在另一个测试 OSWorld(让模型像人一样操作电脑)里,Haiku 4.5 居然反超了 Sonnet 4,成了最会用电脑的 AI。


你可能想问:这到底是怎么做到的?



其实很简单,Anthropic 把这次的 Haiku 4.5 定位成一个高智能的“轻型选手”。它是通过“蒸馏”(Distillation)技术,把 Sonnet 4 那一整套复杂的知识体系,压缩成更小、更快的结构。



结果就是:性能几乎没掉,成本砍到原来的三分之一。


如果你是开发者,这次的定价会让你心动:



每百万输入 Token 1 美元,输出 5 美元。



对比一下同系列的 Sonnet 4.5(3/15 美元)和 Opus 4.1(15/75 美元),差距堪比点外卖从黑松露牛排换成香辣鸡腿堡——但你吃完会发现,这鸡腿堡其实也挺香。

更绝的是,Anthropic 还特意为它设计了“多模型协同”机制:


Sonnet 4.5 当指挥官,Haiku 4.5 当执行队。


前者负责拆任务、定策略,后者负责并行干活。一个人思考,一群人干活——效率、成本、速度都上去了。


从产品线角度看,这次的 Haiku 4.5 是 Anthropic 的一个战略信号。


它不再追着 OpenAI 的 CodeX 比有多强,而是往能跑多快、能用多久、能省多少钱上发力。



这很聪明。



因为在 AI 工具进入生产线、客服、开发流程这些真实场景时,延迟和价格往往比天花板性能更重要。


Anthropic 甚至在官方博客里写得很直白:

“依赖人工智能执行实时、低延迟任务(如聊天助手、客户服务代理或结对编程)的用户将欣赏 Haiku 4.5 的高智能和卓越速度的结合。Claude Code 的用户会发现 Haiku 4.5 使编码体验(从多代理项目到快速原型设计)的响应速度显着提高。”

听着像是对 OpenAI 的 GPT-5 和 Google Gemini 说的:

你们继续打性能牌,我去收割用得起、跑得快、上线方便的市场。(来收割我这种穷哥们了)


而且这次 Haiku 4.5 在安全性上也下了功夫。

它是 Anthropic 目前安全等级最低风险的模型,被官方列为 ASL-2(比 Sonnet 4.5 的 ASL-3 更宽松)。

在一堆看起来很学术的评估中,它的“未对齐行为率”比前几代都更低。

简单说,就是更稳、不容易“出幺蛾子”。


这让它在企业场景和 API 部署里更有优势——你可以放心地让它当客服、写代码、自动回复邮件,而不用担心哪天它突然开始讨论人生意义(如果你被这种情况折磨过的就知道有多生草,这种情况我称之为大模型哈气)。

说到性能表,你可能更想看看全景对比。

从表里可以看到,Haiku 4.5 的各项表现都非常均衡,综合编程能力仅次于 Sonnet 4.5,但在计算机使用、视觉推理等方面反而略胜一筹。

同时它的推理类任务(GPQA、MMMLU)也在一线水平,比上一代 Haiku 3.5 提升明显,甚至有些项目上,Haiku 4.5 已经接近 GPT-5。

Tips:当然,Anthropic 自己也说了,这些是内部数据,“请审慎参考”。

但就算打个折,这成绩也足够说明问题。


从使用层面看,Haiku 4.5 已经全线开放,面向所有人可用,定价也便宜了不少。

无论是 Claude App、Claude Code、API、Amazon Bedrock 还是 Google Vertex AI,都能直接用。


这意味着它将迅速成为各类嵌入式AI或实时协作Agent的首选模型。


如果说 Sonnet 4.5 是 Anthropic 的旗舰,那 Haiku 4.5 就是那款“你每天真会用到”的主力机型。


这次更新其实还有个更深的信号——

Anthropic 正在用双层模型策略打穿整个市场。


大模型负责思考,小模型负责执行。

AI 不再是一台万能大脑,而是一支分工明确的团队。

这意味着:可能未来我们用的不是一个 Claude,而是一整个 Claude 小组,这才是多代理(multi-agent)时代的雏形。


从行业角度看,Haiku 4.5 可能会逼所有厂商重新定价。

OpenAI 的 GPT-5 在“快”和“省”上被追得不远,Google Gemini 2.5 Pro 的 67.2% SWE-bench 分数更显尴尬。


Anthropic 用一款“小型号”打出了“旗舰级表现”,说明了一个现实:

AI 的下半场,不拼谁最聪明,而拼谁最划算。


Haiku 4.5 或许不是最耀眼的,但它可能是最接地气的——让 AI 从“炫技的怪物”,变成“真正能帮你干活的员工”。

也许几年后我们回看,会发现改变世界的,不是巨兽模型,而是这些能快速响应、能并行协作的“小AI”。

更多游戏资讯请关注:电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com