8月8日,今天凌晨OpenAI重磅上线了GPT-5,距离GPT-4的发布已经足足过去了两年时间,在此期间,Claude、Gemini、DeepSeek等各家大模型先后上线,本次的GPT-5也是一个多小时的超长发布会,CEO山姆·奥特曼担任主持,首席研究员Mark Chen等多位科学家进行技术演示,今天这篇文章就来一起看看发布会上的新内容!
01 GPT-5
GPT-4是在2023年3月发布的,
本次的GPT-5足足练习了两年半的时间,
之前GPT-4o的光芒逐渐被市场消化,各家竞品以前所未有的速度崛起,
Anthropic的Claude Code统治代码生成,
谷歌凭借强大的整合能力推出Gemini系列,
DeepSeek这样的新兴力量也在用高效性能和成本优势竞争,
最近几个月,阿里的Qwen3和Kimi的K2等国产大模型也相继推出,
GPT大模型领域早就过了OpenAI一家独大的局面。
在这样的背景下,GPT-5的发布会承载了外界了前所未有的期望,
用山姆·奥特曼的话来说,这就是史上迄今为止最强AI,
“GPT-4像是与大学生交流,而GPT-5可以让你第一次感觉到,
自己正在和各个领域的专家对话交流。”
GPT-5的目标就是超越回答问题的局限,直接延伸到主动执行任务,
可以让用户拥有一支完整的专家团队,协助我们进行专业研究。
发布会上,OpenAI的首席研究员Mark Chen和Max介绍GPT-5的测试性能,
在LMArena(AI模型评测)上,GPT-5以总分1481分,
略超Gemini 2.5 Pro、Claude Opus 4和Grok 4,
创下了LMArena历史最高纪录,同时在LMArena全部8个评测类别中均位列第一。
首席研究员Mark Chen
02 编程&数学推理
首先是编程。GPT-5在SWE-bench真实软件开发任务测试创下新纪录,
SWE-bench的数据来自真实的开源 GitHub 项目,
包含issue中提的Bug、对应的代码仓库状态和PR合并的代码改动,
GPT-5比本周刚刚发布的Claude-opus-4.1成绩还要略高0.4%。
SWE-bench这里柱状图有问题:52.8居然大于69.1
数学推理领域,GPT-5 pro在AIME2025击败了市面上虽有的其他模型;
最震撼的还有医疗等高风险领域,
GPT-5的可靠性和准确度大幅提升,幻觉控制非常好,
开源提示词LongFact-Concepts幻觉率仅0.7%,HealthBench错误率仅1.6%,
用户日常交互精准响应错误率4.8%,远低于GPT-4o的20.6%,
企业用户可订阅200刀/月的GPT-5 Pro,专业场景中的错误率仅 同类的1/5~1/10。
Rennie Song介绍收费模式:GPT-5有免费、plus和Pro三种套餐。
免费用户可使用GPT-5,但需遵守使用限制,
达到使用限制后,将切换到GPT-5 Mini;
20刀/月的Plus用户额度比免费用户高,
基本满足日常高频需求,语音功能几乎无限制;
200刀/月的Pro用户可以GPT-5 Pro模型独占,
支持深度推理(Thinking模式),能处理复杂任务;
GPT-5提供三档API,均支持400K上下文长度,128K输出。
研究员Rennie Song
OpenAI多模态研究员Elaine Yan介绍了一个中学物理教学场景,
学生提出学习要求,比如想要了解伯努利效应,
GPT-5不需要额外时间思考就能立即给出答案,
继续追加请求“能不能做个动画展示气流和升力”,
GPT-5启动深度思考流程,可以看到它直接用React + Tailwind CSS编写前端代码,
然后再用SVG动画模拟机翼周围气流动态,现场屏幕显示动态画面,
当气流流经机翼时,压力值实时变化,升力数据随参数调整动态刷新。
多模态研究员Elaine Yan
03 写作
GPT-5的写作能力也得到提升。发布会上,研究员让GPT-4o与GPT-5同步生成结果进行对比,
"请为已退役的ChatGPT旧模型(如GPT-3)撰写一篇悼词,要求真诚温暖且充满希望"
这时如果GPT-5检测到任务涉及情感表达与人文关怀时,就会自动启用 Thinking 模式,
GPT-4o输出有很严重的模板痕迹,AI味道太浓,
而GPT-5更加人性化,用RLHF训练大幅减少无意义赞美词,
免费版用户场景中谄媚语句减少69%。
而且GPT-5的文学性也更强,能处理复杂文学结构,
比如无韵律的抑扬格五音步诗、自由体诗,
还能根据指令自动匹配文风,非常有意思。
笔者补充:个人感觉GPT-5写作对比4o有退化,而且不如Gemini 2.5 Pro。
04 代码能力
GPT-5的代码能力也有很大的进步。
发布会直播弄了一个法语学习APP的演示,给出Prompt:
“为伴侣构建一个法语学习网站,需包含抽认卡、测验、进度追踪”
GPT-5可以自动识别任务,
拆解成前端开发、游戏逻辑改造、语音合成和本地数据存储。
然后再进一步给出要求:
将贪吃蛇游戏改编为‘老鼠吃奶酪’版本——每吃一块奶酪需播放对应法语单词发音。
这也是Vibe Coding,一个没有任何编程经验的演示者使用自然语言提示,
也能让GPT-5完成一个完整的法语学习Web应用。
05 语音能力
GPT-5的语音功能现在已经免费向所有用户开放,而且延长了使用时间,
技术细节上,语音模型新增四种人格化预设:冷嘲型、理性型、倾听型、学霸型,
GPT-4o的对话过度奉承,而GPT-5更加自然,
Roshan介绍了一个用户要求模拟在韩国咖啡店点单场景,
“我要一杯冰美式咖啡”,并同步输出韩文注音与英文翻译
可以设计苏格拉底式提问分步引导。
OpenAI研究员Roshan王若宸
06 安全机制
GPT-5幻觉率比前代降低45%,安全方面也有提升,
这次还新增了一个Safe Completion安全补全的机制,
以前用户问个什么问题,GPT可能会直接道歉无法输出,
现在是引导用户查阅官方安全手册,
如果用户真的确实需要这些内容,
GPT-5会协助用户通过安全的方式来处理这些复杂场景。
07 Vibe Coding
Vibe Coding译为氛围编程,核心就一句话,
用自然语言描述功能需求与设计意图,
再由AI自动生成可运行代码,实现“所想即所得”。
OpenAI联合创始人Brockman
研究员Michelle介绍了三款API:GPT-5、GPT-5 mini和GPT-5 nano,
可调整推理强度、自定义工具,满足不同的成本和延迟需求,
其中GPT-5 nano 内存占用仅 2GB,可在手机端离线运行。
发布会现场,研究员Adi Ganesh展示了Vibe Coding的一个财务仪表盘案例,
“为创业公司 CFO 设计一个交互式财务仪表盘,需展示收入趋势、客户细分和关键 KPI,要求界面美观且支持动态交互。”
GPT-5遵循指令使用Create Next App创建Next.js项目,完全从零开始,
然后拆解任务为三个并行模块:KPI 卡片(收入/利润/现金流)、
动态折线图(收入趋势)和客户分层饼图(按行业/规模划分),
代码生成速度很快,而且还可以不断进行审美优化,
编译时发现CSS渲染延迟Bug,GPT-5可以回滚代码定位问题,
然后重写样式表、重新部署,全程无需人工干预。
Cursor的CEO Michael Truell也来到发布会现场,演示了代码库分析能力,
他把GPT-5接入Cursor,挑战一个OpenAI官方Python SDK的遗留问题,
GPT-5很快自主完成对代码库的扫描,然后定位到问题模块,
接下来编写修复方案,跑通测试生成PR。
以上便是本次发布会的重点内容。
会后大家普遍吐槽PPT里有不少数字标注有问题,
等了两年半结果升级的内容不如预期,
而且如果你的账号可以用GPT-5的话,还无法手动去选择旧模型,
只有团队、企业和教育版用户可以访问旧模型(需要手动在设置里开启)。
往期:
聊天机器人——ChatGPT全网爆红,马斯克惊叹夸赞!
聊天机器人——ChatGPT小白注册教程,勿被电商割韭菜!
ChatGPT移动端——使用教程,5分钟注册iOS账号!
OpenAI王炸官宣——文生视频模型Sora上线!
OpenAI新模型:Sora会冲击影视行业吗?技术解读
OpenAI新模型:Sora会颠覆游戏行业吗?技术解读
OpenAI估值:5700亿,仅次于字节和SpaceX!
OpenAI王炸:仅需15秒音频,即可克隆任何声音!
AI大战:DeepSeek开源第五弹,OpenAI推出GPT4.5!
#gd的ai&游戏杂谈#
#ai人工智能#
更多游戏资讯请关注:电玩帮游戏资讯专区
电玩帮图文攻略 www.vgover.com