8月8日,今天凌晨OpenAI重磅上線了GPT-5,距離GPT-4的發佈已經足足過去了兩年時間,在此期間,Claude、Gemini、DeepSeek等各家大模型先後上線,本次的GPT-5也是一個多小時的超長髮佈會,CEO山姆·奧特曼擔任主持,首席研究員Mark Chen等多位科學家進行技術演示,今天這篇文章就來一起看看發佈會上的新內容!
01 GPT-5
GPT-4是在2023年3月發佈的,
本次的GPT-5足足練習了兩年半的時間,
之前GPT-4o的光芒逐漸被市場消化,各家競品以前所未有的速度崛起,
Anthropic的Claude Code統治代碼生成,
谷歌憑藉強大的整合能力推出Gemini系列,
DeepSeek這樣的新興力量也在用高效性能和成本優勢競爭,
最近幾個月,阿里的Qwen3和Kimi的K2等國產大模型也相繼推出,
GPT大模型領域早就過了OpenAI一家獨大的局面。
在這樣的背景下,GPT-5的發佈會承載了外界了前所未有的期望,
用山姆·奧特曼的話來說,這就是史上迄今爲止最強AI,
“GPT-4像是與大學生交流,而GPT-5可以讓你第一次感覺到,
自己正在和各個領域的專家對話交流。”
GPT-5的目標就是超越回答問題的侷限,直接延伸到主動執行任務,
可以讓用戶擁有一支完整的專家團隊,協助我們進行專業研究。
發佈會上,OpenAI的首席研究員Mark Chen和Max介紹GPT-5的測試性能,
在LMArena(AI模型評測)上,GPT-5以總分1481分,
略超Gemini 2.5 Pro、Claude Opus 4和Grok 4,
創下了LMArena歷史最高紀錄,同時在LMArena全部8個評測類別中均位列第一。
首席研究員Mark Chen
02 編程&數學推理
首先是編程。GPT-5在SWE-bench真實軟件開發任務測試創下新紀錄,
SWE-bench的數據來自真實的開源 GitHub 項目,
包含issue中提的Bug、對應的代碼倉庫狀態和PR合併的代碼改動,
GPT-5比本週剛剛發佈的Claude-opus-4.1成績還要略高0.4%。
SWE-bench這裏柱狀圖有問題:52.8居然大於69.1
數學推理領域,GPT-5 pro在AIME2025擊敗了市面上雖有的其他模型;
最震撼的還有醫療等高風險領域,
GPT-5的可靠性和準確度大幅提升,幻覺控制非常好,
開源提示詞LongFact-Concepts幻覺率僅0.7%,HealthBench錯誤率僅1.6%,
用戶日常交互精準響應錯誤率4.8%,遠低於GPT-4o的20.6%,
企業用戶可訂閱200刀/月的GPT-5 Pro,專業場景中的錯誤率僅 同類的1/5~1/10。
Rennie Song介紹收費模式:GPT-5有免費、plus和Pro三種套餐。
免費用戶可使用GPT-5,但需遵守使用限制,
達到使用限制後,將切換到GPT-5 Mini;
20刀/月的Plus用戶額度比免費用戶高,
基本滿足日常高頻需求,語音功能幾乎無限制;
200刀/月的Pro用戶可以GPT-5 Pro模型獨佔,
支持深度推理(Thinking模式),能處理複雜任務;
GPT-5提供三檔API,均支持400K上下文長度,128K輸出。
研究員Rennie Song
OpenAI多模態研究員Elaine Yan介紹了一箇中學物理教學場景,
學生提出學習要求,比如想要了解伯努利效應,
GPT-5不需要額外時間思考就能立即給出答案,
繼續追加請求“能不能做個動畫展示氣流和升力”,
GPT-5啓動深度思考流程,可以看到它直接用React + Tailwind CSS編寫前端代碼,
然後再用SVG動畫模擬機翼周圍氣流動態,現場屏幕顯示動態畫面,
當氣流流經機翼時,壓力值實時變化,升力數據隨參數調整動態刷新。
多模態研究員Elaine Yan
03 寫作
GPT-5的寫作能力也得到提升。發佈會上,研究員讓GPT-4o與GPT-5同步生成結果進行對比,
"請爲已退役的ChatGPT舊模型(如GPT-3)撰寫一篇悼詞,要求真誠溫暖且充滿希望"
這時如果GPT-5檢測到任務涉及情感表達與人文關懷時,就會自動啓用 Thinking 模式,
GPT-4o輸出有很嚴重的模板痕跡,AI味道太濃,
而GPT-5更加人性化,用RLHF訓練大幅減少無意義讚美詞,
免費版用戶場景中諂媚語句減少69%。
而且GPT-5的文學性也更強,能處理複雜文學結構,
比如無韻律的抑揚格五音步詩、自由體詩,
還能根據指令自動匹配文風,非常有意思。
筆者補充:個人感覺GPT-5寫作對比4o有退化,而且不如Gemini 2.5 Pro。
04 代碼能力
GPT-5的代碼能力也有很大的進步。
發佈會直播弄了一個法語學習APP的演示,給出Prompt:
“爲伴侶構建一個法語學習網站,需包含抽認卡、測驗、進度追蹤”
GPT-5可以自動識別任務,
拆解成前端開發、遊戲邏輯改造、語音合成和本地數據存儲。
然後再進一步給出要求:
將貪喫蛇遊戲改編爲‘老鼠喫奶酪’版本——每喫一塊奶酪需播放對應法語單詞發音。
這也是Vibe Coding,一個沒有任何編程經驗的演示者使用自然語言提示,
也能讓GPT-5完成一個完整的法語學習Web應用。
05 語音能力
GPT-5的語音功能現在已經免費向所有用戶開放,而且延長了使用時間,
技術細節上,語音模型新增四種人格化預設:冷嘲型、理性型、傾聽型、學霸型,
GPT-4o的對話過度奉承,而GPT-5更加自然,
Roshan介紹了一個用戶要求模擬在韓國咖啡店點單場景,
“我要一杯冰美式咖啡”,並同步輸出韓文注音與英文翻譯
可以設計蘇格拉底式提問分步引導。
OpenAI研究員Roshan王若宸
06 安全機制
GPT-5幻覺率比前代降低45%,安全方面也有提升,
這次還新增了一個Safe Completion安全補全的機制,
以前用戶問個什麼問題,GPT可能會直接道歉無法輸出,
現在是引導用戶查閱官方安全手冊,
如果用戶真的確實需要這些內容,
GPT-5會協助用戶通過安全的方式來處理這些複雜場景。
07 Vibe Coding
Vibe Coding譯爲氛圍編程,核心就一句話,
用自然語言描述功能需求與設計意圖,
再由AI自動生成可運行代碼,實現“所想即所得”。
OpenAI聯合創始人Brockman
研究員Michelle介紹了三款API:GPT-5、GPT-5 mini和GPT-5 nano,
可調整推理強度、自定義工具,滿足不同的成本和延遲需求,
其中GPT-5 nano 內存佔用僅 2GB,可在手機端離線運行。
發佈會現場,研究員Adi Ganesh展示了Vibe Coding的一個財務儀表盤案例,
“爲創業公司 CFO 設計一個交互式財務儀表盤,需展示收入趨勢、客戶細分和關鍵 KPI,要求界面美觀且支持動態交互。”
GPT-5遵循指令使用Create Next App創建Next.js項目,完全從零開始,
然後拆解任務爲三個並行模塊:KPI 卡片(收入/利潤/現金流)、
動態折線圖(收入趨勢)和客戶分層餅圖(按行業/規模劃分),
代碼生成速度很快,而且還可以不斷進行審美優化,
編譯時發現CSS渲染延遲Bug,GPT-5可以回滾代碼定位問題,
然後重寫樣式表、重新部署,全程無需人工干預。
Cursor的CEO Michael Truell也來到發佈會現場,演示了代碼庫分析能力,
他把GPT-5接入Cursor,挑戰一個OpenAI官方Python SDK的遺留問題,
GPT-5很快自主完成對代碼庫的掃描,然後定位到問題模塊,
接下來編寫修復方案,跑通測試生成PR。
以上便是本次發佈會的重點內容。
會後大家普遍吐槽PPT裏有不少數字標註有問題,
等了兩年半結果升級的內容不如預期,
而且如果你的賬號可以用GPT-5的話,還無法手動去選擇舊模型,
只有團隊、企業和教育版用戶可以訪問舊模型(需要手動在設置裏開啓)。
往期:
聊天機器人——ChatGPT全網爆紅,馬斯克驚歎誇讚!
聊天機器人——ChatGPT小白註冊教程,勿被電商割韭菜!
ChatGPT移動端——使用教程,5分鐘註冊iOS賬號!
OpenAI王炸官宣——文生視頻模型Sora上線!
OpenAI新模型:Sora會衝擊影視行業嗎?技術解讀
OpenAI新模型:Sora會顛覆遊戲行業嗎?技術解讀
OpenAI估值:5700億,僅次於字節和SpaceX!
OpenAI王炸:僅需15秒音頻,即可克隆任何聲音!
AI大戰:DeepSeek開源第五彈,OpenAI推出GPT4.5!
#gd的ai&遊戲雜談#
#ai人工智能#
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com