OpenAI在5月14日凌晨通過影片形式發佈了 GPT-4o,這是一款能夠實時處理音頻、視覺和文本信息的新一代AI模型, 並計劃推出相應的 PC 桌面版 ChatGPT。
GPT-4o 的「o」代表 Omni 即「全能」。與 GPT-4-turbo 相比,GPT-4o 在價格上進行了 50% 的降價,同時在速度上實現了 200% 的提升,且即將推出語音和影片輸入功能。OpenAI 宣佈 GPT-4o 與 ChatGPT Plus 的所有功能將免費開放給所有用戶。
發佈會上,OpenAI 聯合創始人兼總裁 Greg Brockman 進行了5分鐘的現場演示,將舊版 ChatGPT 與新版 GPT-4o 增強的 ChatGPT 進行了對話比較,新版增加了視覺理解功能。
新版 ChatGPT 利用先進的視覺AI技術,能夠準確理解鏡頭中的內容,並通過語音與舊版進行互動,為用戶帶來更加生動有趣的對話體驗。同時,它支援隨時打斷和插入對話,並且擁有記憶對話上下文的功能。
對於此次重要發佈,OpenAI 的 CEO Sam Altman 迅速通過推文分享了他的看法,「新的 GPT-4o 模型是 OpenAI 有史以來最好的模型,它很智能,速度很快,是原生多模態,並且可供所有 ChatGPT 用戶使用,無論是免費版本還是付費GPT-4版。」
「這對我們的使命很重要,我們希望將出色的AI工具交到每個人手中。」Sam Altman 表示。
發佈會前傳 OpenAI 將推新搜尋能力,後反轉稱系抓捕洩密者。最終發佈的是升級 GPT-4o,性能提升但伴隨一些問題。
OpeanAI 發佈會後,便有業內專家表示,「GPT-4o 的多模態能力只是看起來很好,實際上 OpenAI 並未展示對於視覺多模態來說真正算是突破的功能。」
除此之外,諸如豆包和文心一言的中國程式也已經實現了實時音頻交流的通話功能。