GPT-5來了!一文看懂“最強”AI!

8月8日,今天凌晨OpenAI重磅上線了GPT-5,距離GPT-4的發佈已經足足過去了兩年時間,在此期間,Claude、Gemini、DeepSeek等各家大模型先後上線,本次的GPT-5也是一個多小時的超長髮佈會,CEO山姆·奧特曼擔任主持,首席研究員Mark Chen等多位科學家進行技術演示,今天這篇文章就來一起看看發佈會上的新內容!

01 GPT-5

GPT-4是在2023年3月發佈的,

本次的GPT-5足足練習了兩年半的時間,

之前GPT-4o的光芒逐漸被市場消化,各家競品以前所未有的速度崛起,

Anthropic的Claude Code統治代碼生成,

谷歌憑藉強大的整合能力推出Gemini系列,

DeepSeek這樣的新興力量也在用高效性能和成本優勢競爭,

最近幾個月,阿里的Qwen3和Kimi的K2等國產大模型也相繼推出,

GPT大模型領域早就過了OpenAI一家獨大的局面。

在這樣的背景下,GPT-5的發佈會承載了外界了前所未有的期望,

用山姆·奧特曼的話來說,這就是史上迄今爲止最強AI,

“GPT-4像是與大學生交流,而GPT-5可以讓你第一次感覺到,

自己正在和各個領域的專家對話交流。”

GPT-5的目標就是超越回答問題的侷限,直接延伸到主動執行任務,

可以讓用戶擁有一支完整的專家團隊,協助我們進行專業研究。

發佈會上,OpenAI的首席研究員Mark Chen和Max介紹GPT-5的測試性能,

在LMArena(AI模型評測)上,GPT-5以總分1481分,

略超Gemini 2.5 Pro、Claude Opus 4和Grok 4,

創下了LMArena歷史最高紀錄,同時在LMArena全部8個評測類別中均位列第一。

首席研究員Mark Chen

02 編程&數學推理

首先是編程。GPT-5在SWE-bench真實軟件開發任務測試創下新紀錄,

SWE-bench的數據來自真實的開源 GitHub 項目,

包含issue中提的Bug、對應的代碼倉庫狀態和PR合併的代碼改動,

GPT-5比本週剛剛發佈的Claude-opus-4.1成績還要略高0.4%。

SWE-bench這裏柱狀圖有問題:52.8居然大於69.1

數學推理領域,GPT-5 pro在AIME2025擊敗了市面上雖有的其他模型;

最震撼的還有醫療等高風險領域,

GPT-5的可靠性和準確度大幅提升,幻覺控制非常好,

開源提示詞LongFact-Concepts幻覺率僅0.7%,HealthBench錯誤率僅1.6%,

用戶日常交互精準響應錯誤率4.8%,遠低於GPT-4o的20.6%,

企業用戶可訂閱200刀/月的GPT-5 Pro,專業場景中的錯誤率僅 同類的1/5~1/10。

Rennie Song介紹收費模式:GPT-5有免費、plus和Pro三種套餐。

免費用戶可使用GPT-5,但需遵守使用限制,

達到使用限制後,將切換到GPT-5 Mini;

20刀/月的Plus用戶額度比免費用戶高,

基本滿足日常高頻需求,語音功能幾乎無限制;

200刀/月的Pro用戶可以GPT-5 Pro模型獨佔,

支持深度推理(Thinking模式),能處理複雜任務;

GPT-5提供三檔API,均支持400K上下文長度,128K輸出。

研究員Rennie Song

OpenAI多模態研究員Elaine Yan介紹了一箇中學物理教學場景,

學生提出學習要求,比如想要了解伯努利效應,

GPT-5不需要額外時間思考就能立即給出答案,

繼續追加請求“能不能做個動畫展示氣流和升力”,

GPT-5啓動深度思考流程,可以看到它直接用React + Tailwind CSS編寫前端代碼,

然後再用SVG動畫模擬機翼周圍氣流動態,現場屏幕顯示動態畫面,

當氣流流經機翼時,壓力值實時變化,升力數據隨參數調整動態刷新。

多模態研究員Elaine Yan

03 寫作

GPT-5的寫作能力也得到提升。發佈會上,研究員讓GPT-4o與GPT-5同步生成結果進行對比,

"請爲已退役的ChatGPT舊模型(如GPT-3)撰寫一篇悼詞,要求真誠溫暖且充滿希望"

這時如果GPT-5檢測到任務涉及情感表達與人文關懷時,就會自動啓用 Thinking 模式,

GPT-4o輸出有很嚴重的模板痕跡,AI味道太濃,

而GPT-5更加人性化,用RLHF訓練大幅減少無意義讚美詞,

免費版用戶場景中諂媚語句減少69%。

而且GPT-5的文學性也更強,能處理複雜文學結構,

比如無韻律的抑揚格五音步詩、自由體詩,

還能根據指令自動匹配文風,非常有意思。

筆者補充:個人感覺GPT-5寫作對比4o有退化,而且不如Gemini 2.5 Pro。

04 代碼能力

GPT-5的代碼能力也有很大的進步。

發佈會直播弄了一個法語學習APP的演示,給出Prompt:

“爲伴侶構建一個法語學習網站,需包含抽認卡、測驗、進度追蹤”

GPT-5可以自動識別任務,

拆解成前端開發、遊戲邏輯改造、語音合成和本地數據存儲。

然後再進一步給出要求:

將貪喫蛇遊戲改編爲‘老鼠喫奶酪’版本——每喫一塊奶酪需播放對應法語單詞發音。

這也是Vibe Coding,一個沒有任何編程經驗的演示者使用自然語言提示,

也能讓GPT-5完成一個完整的法語學習Web應用。

05 語音能力

GPT-5的語音功能現在已經免費向所有用戶開放,而且延長了使用時間,

技術細節上,語音模型新增四種人格化預設:冷嘲型、理性型、傾聽型、學霸型,

GPT-4o的對話過度奉承,而GPT-5更加自然,

Roshan介紹了一個用戶要求模擬在韓國咖啡店點單場景,

“我要一杯冰美式咖啡”,並同步輸出韓文注音與英文翻譯

可以設計蘇格拉底式提問分步引導。

OpenAI研究員Roshan王若宸

06 安全機制

GPT-5幻覺率比前代降低45%,安全方面也有提升,

這次還新增了一個Safe Completion安全補全的機制,

以前用戶問個什麼問題,GPT可能會直接道歉無法輸出,

現在是引導用戶查閱官方安全手冊,

如果用戶真的確實需要這些內容,

GPT-5會協助用戶通過安全的方式來處理這些複雜場景。

07 Vibe Coding

Vibe Coding譯爲氛圍編程,核心就一句話,

用自然語言描述功能需求與設計意圖,

再由AI自動生成可運行代碼,實現“所想即所得”。

OpenAI聯合創始人Brockman

研究員Michelle介紹了三款API:GPT-5、GPT-5 mini和GPT-5 nano,

可調整推理強度、自定義工具,滿足不同的成本和延遲需求,

其中GPT-5 nano 內存佔用僅 2GB,可在手機端離線運行。

發佈會現場,研究員Adi Ganesh展示了Vibe Coding的一個財務儀表盤案例,

“爲創業公司 CFO 設計一個交互式財務儀表盤,需展示收入趨勢、客戶細分和關鍵 KPI,要求界面美觀且支持動態交互。”

GPT-5遵循指令使用Create Next App創建Next.js項目,完全從零開始,

然後拆解任務爲三個並行模塊:KPI 卡片(收入/利潤/現金流)、

動態折線圖(收入趨勢)和客戶分層餅圖(按行業/規模劃分),

代碼生成速度很快,而且還可以不斷進行審美優化,

編譯時發現CSS渲染延遲Bug,GPT-5可以回滾代碼定位問題,

然後重寫樣式表、重新部署,全程無需人工干預。

Cursor的CEO Michael Truell也來到發佈會現場,演示了代碼庫分析能力,

他把GPT-5接入Cursor,挑戰一個OpenAI官方Python SDK的遺留問題,

GPT-5很快自主完成對代碼庫的掃描,然後定位到問題模塊,

接下來編寫修復方案,跑通測試生成PR。

以上便是本次發佈會的重點內容。

會後大家普遍吐槽PPT裏有不少數字標註有問題,

等了兩年半結果升級的內容不如預期,

而且如果你的賬號可以用GPT-5的話,還無法手動去選擇舊模型,

只有團隊、企業和教育版用戶可以訪問舊模型(需要手動在設置裏開啓)。

往期:

聊天機器人——ChatGPT全網爆紅,馬斯克驚歎誇讚!

聊天機器人——ChatGPT小白註冊教程,勿被電商割韭菜!

ChatGPT移動端——使用教程,5分鐘註冊iOS賬號!

微軟——解散元宇宙,900億投資壓注ChatGPT!

OpenAI王炸官宣——文生視頻模型Sora上線!

OpenAI新模型:Sora會衝擊影視行業嗎?技術解讀

OpenAI新模型:Sora會顛覆遊戲行業嗎?技術解讀

OpenAI估值:5700億,僅次於字節和SpaceX!

OpenAI王炸:僅需15秒音頻,即可克隆任何聲音!

AI大戰:DeepSeek開源第五彈,OpenAI推出GPT4.5!

#gd的ai&遊戲雜談#

#ai人工智能#

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com