OpenAI 正式推出 GPT-5.4 模型,具備原生電腦操作能力,在試算表與簡報生成上大幅進步,專為專業工作人士設計。
在生成式AI逐漸深入企業工作流程的當下,OpenAI正式推出被譽為「專為專業工作設計」的全新基礎模型——GPT-5.4,以及追求極致效能的GPT-5.4 Pro。這次的升級不再只追求與人類閒聊的自然度,而是將焦點全數集中在程式碼編寫、資料分析,以及代理工作流程 (Agentic workflows)上。
GPT-5.4不僅是OpenAI首款具備「原生電腦操作能力」的通用模型,更在試算表處理與簡報生成上展現了壓倒性的進步。
隨著微軟等重要合作夥伴開始引入其他競爭對手的模型,OpenAI顯然意識到,要真正在企業市場站穩腳步,模型必須要能真正「把工作做完」,而不只是「提供建議」。
AI直接幫你操控滑鼠與鍵盤:原生電腦操作能力
GPT-5.4最大的技術突破之一,在於其為OpenAI首款具備原生、最先進「電腦操作能力」 (Computer-use capabilities)的通用型模型。
過去的AI多半只能在文字框內生成程式碼或步驟,但GPT-5.4能讓AI代理 (Agents)直接操作電腦,並且跨越多個應用程式執行複雜的工作流程。根據OpenAI的數據,在測試桌面導航能力的OSWorld-Verified基準測試中,GPT-5.4取得了75.0%的成功率,不僅遠勝過前代GPT-5.2的47.3%,甚至超越了人類72.4%的基準表現,意味其能針對螢幕截圖做出反應,精準地發出滑鼠與鍵盤指令。
拯救上班族:試算表、簡報與「思考模式」的全面進化
對於仰賴文書軟體的專業人士來說,GPT-5.4帶來極具感的升級。
• 投資銀行等級的試算表能力:在一項模擬初階投資銀行分析師試算表建模任務的內部測試中,GPT-5.4獲得87.3%的高分,大幅領先GPT-5.2的68.4%。
• 更具美感的簡報生成:針對簡報生成的評估,人類評分員有68.0%的機率更偏好GPT-5.4產出結果,原因在於其具備更強的美學設計、更多的視覺變化,以及更有效地使用圖像生成工具。
• 透明的「思考模式」 (Thinking Mode):在ChatGPT中,全新的GPT-5.4 Thinking模式會預先提供其「思考計畫」,讓使用者可以在生成回應的途中「隨時調整方向」,確保最終產出的結果更符合需求,減少反覆修改的次數。
• 大幅降低幻覺:GPT-5.4是OpenAI迄今最講求事實準確度的模型。與前代相比,其單一陳述出現錯誤的機率降低33%,整體回應包含錯誤的機率則降低18%。
支援百萬Token上下文與「工具搜尋」降本增效
在開發者端,GPT-5.4支援高達100萬個Token的上下文長度,讓AI代理能夠在極長的時間跨度內進行任務的規劃、執行與驗證。
更值得注意的是在API中全新引入的「工具搜尋」 (Tool search)功能。
過去,當模型被賦予多種工具時,所有的工具定義都必須塞入提示詞 (Prompt)中,導致Token消耗量巨大。現在,GPT-5.4可以動態查詢所需的工具定義,這項改變在MCP Atlas基準測試中,成功讓總Token使用量大幅減少47%,同時維持相同的準確率 。
在定價與可用性方面,ChatGPT Plus、Team與Pro版本的付費用戶從即日起即可使用GPT-5.4 Thinking,並且將其取代原有的GPT-5.2 Thinking。而在API定價部分,雖然其Token效率更高,但單價也有所調漲:GPT-5.4每百萬輸入Token為2.5美元 (高於GPT-5.2的1.75美元),輸出則是15美元。


