GPT-5来了！一文看懂“最强”AI！

8月8日，今天凌晨OpenAI重磅上线了GPT-5，距离GPT-4的发布已经足足过去了两年时间，在此期间，Claude、Gemini、DeepSeek等各家大模型先后上线，本次的GPT-5也是一个多小时的超长发布会，CEO山姆·奥特曼担任主持，首席研究员Mark Chen等多位科学家进行技术演示，今天这篇文章就来一起看看发布会上的新内容！

01 GPT-5

GPT-4是在2023年3月发布的，

本次的GPT-5足足练习了两年半的时间，

之前GPT-4o的光芒逐渐被市场消化，各家竞品以前所未有的速度崛起，

Anthropic的Claude Code统治代码生成，

谷歌凭借强大的整合能力推出Gemini系列，

DeepSeek这样的新兴力量也在用高效性能和成本优势竞争，

最近几个月，阿里的Qwen3和Kimi的K2等国产大模型也相继推出，

GPT大模型领域早就过了OpenAI一家独大的局面。

在这样的背景下，GPT-5的发布会承载了外界了前所未有的期望，

用山姆·奥特曼的话来说，这就是史上迄今为止最强AI，

“GPT-4像是与大学生交流，而GPT-5可以让你第一次感觉到，

自己正在和各个领域的专家对话交流。”

GPT-5的目标就是超越回答问题的局限，直接延伸到主动执行任务，

可以让用户拥有一支完整的专家团队，协助我们进行专业研究。

发布会上，OpenAI的首席研究员Mark Chen和Max介绍GPT-5的测试性能，

在LMArena（AI模型评测）上，GPT-5以总分1481分，

略超Gemini 2.5 Pro、Claude Opus 4和Grok 4，

创下了LMArena历史最高纪录，同时在LMArena全部8个评测类别中均位列第一。

首席研究员Mark Chen

02 编程&数学推理

首先是编程。GPT-5在SWE-bench真实软件开发任务测试创下新纪录，

SWE-bench的数据来自真实的开源 GitHub 项目，

包含issue中提的Bug、对应的代码仓库状态和PR合并的代码改动，

GPT-5比本周刚刚发布的Claude-opus-4.1成绩还要略高0.4%。

SWE-bench这里柱状图有问题：52.8居然大于69.1

数学推理领域，GPT-5 pro在AIME2025击败了市面上虽有的其他模型；

最震撼的还有医疗等高风险领域，

GPT-5的可靠性和准确度大幅提升，幻觉控制非常好，

开源提示词LongFact-Concepts幻觉率仅0.7%，HealthBench错误率仅1.6%，

用户日常交互精准响应错误率4.8%，远低于GPT-4o的20.6%，

企业用户可订阅200刀/月的GPT-5 Pro，专业场景中的错误率仅同类的1/5~1/10。

Rennie Song介绍收费模式：GPT-5有免费、plus和Pro三种套餐。

免费用户可使用GPT-5，但需遵守使用限制，

达到使用限制后，将切换到GPT-5 Mini；

20刀/月的Plus用户额度比免费用户高，

基本满足日常高频需求，语音功能几乎无限制；

200刀/月的Pro用户可以GPT-5 Pro模型独占，

支持深度推理（Thinking模式），能处理复杂任务；

GPT-5提供三档API，均支持400K上下文长度，128K输出。

研究员Rennie Song

OpenAI多模态研究员Elaine Yan介绍了一个中学物理教学场景，

学生提出学习要求，比如想要了解伯努利效应，

GPT-5不需要额外时间思考就能立即给出答案，

继续追加请求“能不能做个动画展示气流和升力”，

GPT-5启动深度思考流程，可以看到它直接用React + Tailwind CSS编写前端代码，

然后再用SVG动画模拟机翼周围气流动态，现场屏幕显示动态画面，

当气流流经机翼时，压力值实时变化，升力数据随参数调整动态刷新。

多模态研究员Elaine Yan

03 写作

GPT-5的写作能力也得到提升。发布会上，研究员让GPT-4o与GPT-5同步生成结果进行对比，

"请为已退役的ChatGPT旧模型（如GPT-3）撰写一篇悼词，要求真诚温暖且充满希望"

这时如果GPT-5检测到任务涉及情感表达与人文关怀时，就会自动启用 Thinking 模式，

GPT-4o输出有很严重的模板痕迹，AI味道太浓，

而GPT-5更加人性化，用RLHF训练大幅减少无意义赞美词，

免费版用户场景中谄媚语句减少69%。

而且GPT-5的文学性也更强，能处理复杂文学结构，

比如无韵律的抑扬格五音步诗、自由体诗，

还能根据指令自动匹配文风，非常有意思。

笔者补充：个人感觉GPT-5写作对比4o有退化，而且不如Gemini 2.5 Pro。

04 代码能力

GPT-5的代码能力也有很大的进步。

发布会直播弄了一个法语学习APP的演示，给出Prompt：

“为伴侣构建一个法语学习网站，需包含抽认卡、测验、进度追踪”

GPT-5可以自动识别任务，

拆解成前端开发、游戏逻辑改造、语音合成和本地数据存储。

然后再进一步给出要求：

将贪吃蛇游戏改编为‘老鼠吃奶酪’版本——每吃一块奶酪需播放对应法语单词发音。

这也是Vibe Coding，一个没有任何编程经验的演示者使用自然语言提示，

也能让GPT-5完成一个完整的法语学习Web应用。

05 语音能力

GPT-5的语音功能现在已经免费向所有用户开放，而且延长了使用时间，

技术细节上，语音模型新增四种人格化预设：冷嘲型、理性型、倾听型、学霸型，

GPT-4o的对话过度奉承，而GPT-5更加自然，

Roshan介绍了一个用户要求模拟在韩国咖啡店点单场景，

“我要一杯冰美式咖啡”，并同步输出韩文注音与英文翻译

可以设计苏格拉底式提问分步引导。

OpenAI研究员Roshan王若宸

06 安全机制

GPT-5幻觉率比前代降低45%，安全方面也有提升，

这次还新增了一个Safe Completion安全补全的机制，

以前用户问个什么问题，GPT可能会直接道歉无法输出，

现在是引导用户查阅官方安全手册，

如果用户真的确实需要这些内容，

GPT-5会协助用户通过安全的方式来处理这些复杂场景。

07 Vibe Coding

Vibe Coding译为氛围编程，核心就一句话，

用自然语言描述功能需求与设计意图，

再由AI自动生成可运行代码，实现“所想即所得”。

OpenAI联合创始人Brockman

研究员Michelle介绍了三款API：GPT-5、GPT-5 mini和GPT-5 nano，

可调整推理强度、自定义工具，满足不同的成本和延迟需求，

其中GPT-5 nano 内存占用仅 2GB，可在手机端离线运行。

发布会现场，研究员Adi Ganesh展示了Vibe Coding的一个财务仪表盘案例，

“为创业公司 CFO 设计一个交互式财务仪表盘，需展示收入趋势、客户细分和关键 KPI，要求界面美观且支持动态交互。”

GPT-5遵循指令使用Create Next App创建Next.js项目，完全从零开始，

然后拆解任务为三个并行模块：KPI 卡片（收入/利润/现金流）、

动态折线图（收入趋势）和客户分层饼图（按行业/规模划分），

代码生成速度很快，而且还可以不断进行审美优化，

编译时发现CSS渲染延迟Bug，GPT-5可以回滚代码定位问题，

然后重写样式表、重新部署，全程无需人工干预。

Cursor的CEO Michael Truell也来到发布会现场，演示了代码库分析能力，

他把GPT-5接入Cursor，挑战一个OpenAI官方Python SDK的遗留问题，

GPT-5很快自主完成对代码库的扫描，然后定位到问题模块，

接下来编写修复方案，跑通测试生成PR。

以上便是本次发布会的重点内容。

会后大家普遍吐槽PPT里有不少数字标注有问题，

等了两年半结果升级的内容不如预期，

而且如果你的账号可以用GPT-5的话，还无法手动去选择旧模型，

只有团队、企业和教育版用户可以访问旧模型（需要手动在设置里开启）。

往期：

聊天机器人——ChatGPT全网爆红，马斯克惊叹夸赞！

聊天机器人——ChatGPT小白注册教程，勿被电商割韭菜！

ChatGPT移动端——使用教程，5分钟注册iOS账号！

微软——解散元宇宙，900亿投资压注ChatGPT！

OpenAI王炸官宣——文生视频模型Sora上线！

OpenAI新模型：Sora会冲击影视行业吗？技术解读

OpenAI新模型：Sora会颠覆游戏行业吗？技术解读

OpenAI估值：5700亿，仅次于字节和SpaceX！

OpenAI王炸：仅需15秒音频，即可克隆任何声音！

AI大战：DeepSeek开源第五弹，OpenAI推出GPT4.5！

#gd的ai&游戏杂谈#

#ai人工智能#

更多游戏资讯请关注：电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com