Google 近期發佈的全新 AI RAM 壓縮技術 TurboQuant,正成為全球 AI 算力競賽中的關鍵技術轉捩點。該技術可在基本不損失模型精度的前提下,將生成式 AI 推理環節中資源佔用最高的鍵值緩存(KV Cache)空間壓縮至原有的1/6,同時實現最高 8倍的計算速度提升。消息發佈後,市場對 AI RAM 需求或將大幅下滑的擔憂迅速發酵,美光、Sandisk、西部數據等存儲板塊美股應聲走低。

在大語言模型推理過程中,KV Cache 承擔著存儲歷史對話信息的作用,可視為 AI 的臨時記憶本。隨著對話長度與上下文窗口不斷擴大,緩存對高頻寬 RAM(HBM)的佔用會急劇膨脹,成為制約 AI 運行效率的核心瓶頸。

TurboQuant 的核心突破,在於有效解決了傳統壓縮技術難以避免的 RAM 噪聲問題。其技術架構主要包含兩部分:一是極坐標量化(PolarQuant),摒棄傳統向量坐標運算邏輯,改用半徑與角度簡化數據表示,大幅降低計算負荷;二是 1bit 量化校正機制(QJL),通過極精簡的數學修正抵消壓縮誤差,即便模型壓縮至 3bit ,仍能在多項權威測試中實現近乎無損的精度表現。

Google 並未將這一重磅技術封閉自用,而是選擇完全開源。實測顯示,該技術可在 NVIDIA H100 處理器上直接部署,無需重新訓練模型即可實現最高 8倍性能提升,被視作 AI 推理降本增效的重要突破。Cloudflare CEO 等業內人士更將其稱為 Google 的「DeepSeek時刻」,認為 TurboQuant 有望憑借極高的效率優勢,顯著拉低 AI 運行成本,同時保持競爭力。

不過,市場對該技術將如何影響 RAM 需求仍存在明顯分歧。富國銀行分析師認為,TurboQuant 直接衝擊了由 KV Cache 膨脹驅動的 RAM 需求邏輯,若大規模普及,數據中心對 RAM 容量的配置要求或將大幅下調。而摩根士丹利則援引傑文斯悖論指出,RAM 使用效率提升會大幅降低 AI 應用門檻,原本因成本過高難以落地的長文本處理、複雜代碼生成等場景將迎來需求爆發,最終可能抵消甚至超過壓縮帶來的 RAM 減量。

該行同時強調,TurboQuant 主要優化推理階段的緩存佔用,對 AI 模型訓練所需的 HBM RAM 影響有限。相比之下,該技術對手機、PC 等端側裝置 AI 部署意義更為顯著,有望讓大模型在有限 RAM 的終端裝置上流暢運行,進而推動消費電子 RAM 規格的新一輪升級換代。另有研究機構認為,受供應鏈約束影響,未來三至五年內全球 RAM 與 ROM 需求仍將保持增長態勢。

_______

更多平台立即 Follow:Qooah IG (@qooah)Qooah YouTube,八掛產品發佈會現場,睇盡靚靚 Show Girls