Google發表TurboQuant技術　AI模型記憶體效率大提升

Google Research近日發表咗一項名為TurboQuant嘅壓縮技術，可以大幅提升AI模型嘅運算效率，同時唔會損失模型嘅準確度。呢項技術將會喺ICLR 2026會議上發表。

技術突破：零精度損失嘅極致壓縮

TurboQuant係一種壓縮演算法，佢可以將AI模型嘅key-value cache壓縮至得返3個位元（bits），而且完全唔需要額外訓練或者微調，亦唔會影響模型嘅準確度。喺測試中，TurboQuant可以將記憶體使用量減少至少6倍，同時運行速度比原本嘅大型語言模型更快。

Google研究團隊指出，TurboQuant結合咗兩種關鍵技術：

TurboQuant喺H100 GPU加速器上測試時，4位元版本嘅TurboQuant比起32位元未量化嘅版本，可以達到8倍嘅性能提升。呢項技術特別適合向量搜索（vector search）應用，可以大幅加快索引建立過程。

研究團隊喺多個標準長文本基準測試中評估TurboQuant，包括LongBench、Needle In A Haystack、ZeroSCROLLS等，結果顯示TurboQuant喺各方面都達到接近完美嘅表現。

TurboQuant、QJL同PolarQuant唔單止係工程上嘅解決方案，更加係有強大理論證明支持嘅演算法貢獻。呢啲方法唔單止喺實際應用中表現出色，而且可以證明佢哋嘅效率接近理論下限。

對於搜尋引擎同AI應用嚟講，呢項技術可以令語義搜索喺Google規模下變得更快同更有效率。隨住AI愈嚟愈整合到各種產品中，由大型語言模型到語義搜索，向量量化方面嘅研究將會變得更加重要。

另一方面，市場上有分析指出，Google發表TurboQuant技術可能對記憶體芯片製造商造成壓力。美光（Micron）股價喺消息公佈後下跌超過3%，有分析認為Google嘅AI壓縮技術可能會減少對記憶體芯片嘅需求。

不過要注意嘅係，TurboQuant主要係優化AI模型嘅記憶體使用效率，長遠嚟講，AI應用嘅普及反而可能會帶動更多運算需求，對芯片行業嘅影響仍有待觀察。

資料來源：

Google Research Blog: TurboQuant: Redefining AI efficiency with extreme compression
富途牛牛：Micron's Stock Is Dropping. Is Google Partly to Blame?