Google發表TurboQuant技術 AI模型記憶體效率大提升

Google Research近日發表咗一項名為TurboQuant嘅壓縮技術,可以大幅提升AI模型嘅運算效率,同時唔會損失模型嘅準確度。呢項技術將會喺ICLR 2026會議上發表。

技術突破:零精度損失嘅極致壓縮

TurboQuant係一種壓縮演算法,佢可以將AI模型嘅key-value cache壓縮至得返3個位元(bits),而且完全唔需要額外訓練或者微調,亦唔會影響模型嘅準確度。喺測試中,TurboQuant可以將記憶體使用量減少至少6倍,同時運行速度比原本嘅大型語言模型更快。

Google研究團隊指出,TurboQuant結合咗兩種關鍵技術:

  • PolarQuant方法:將數據向量轉換為極座標,簡化數據幾何結構,令到標準量化器可以更容易處理每個向量部分
  • QJL演算法:用嚟消除殘餘誤差,透過數學轉換將高維度數據縮細,同時保留數據之間嘅關係

實際應用同影響

TurboQuant喺H100 GPU加速器上測試時,4位元版本嘅TurboQuant比起32位元未量化嘅版本,可以達到8倍嘅性能提升。呢項技術特別適合向量搜索(vector search)應用,可以大幅加快索引建立過程。

研究團隊喺多個標準長文本基準測試中評估TurboQuant,包括LongBench、Needle In A Haystack、ZeroSCROLLS等,結果顯示TurboQuant喺各方面都達到接近完美嘅表現。

對AI行業嘅意義

TurboQuant、QJL同PolarQuant唔單止係工程上嘅解決方案,更加係有強大理論證明支持嘅演算法貢獻。呢啲方法唔單止喺實際應用中表現出色,而且可以證明佢哋嘅效率接近理論下限。

對於搜尋引擎同AI應用嚟講,呢項技術可以令語義搜索喺Google規模下變得更快同更有效率。隨住AI愈嚟愈整合到各種產品中,由大型語言模型到語義搜索,向量量化方面嘅研究將會變得更加重要。

相關影響:記憶體芯片股受壓

另一方面,市場上有分析指出,Google發表TurboQuant技術可能對記憶體芯片製造商造成壓力。美光(Micron)股價喺消息公佈後下跌超過3%,有分析認為Google嘅AI壓縮技術可能會減少對記憶體芯片嘅需求。

不過要注意嘅係,TurboQuant主要係優化AI模型嘅記憶體使用效率,長遠嚟講,AI應用嘅普及反而可能會帶動更多運算需求,對芯片行業嘅影響仍有待觀察。


資料來源:

  • Google Research Blog: TurboQuant: Redefining AI efficiency with extreme compression
  • 富途牛牛:Micron's Stock Is Dropping. Is Google Partly to Blame?