顯示廣告
隱藏 ✕
※ 本文轉寄自 ptt.cc 更新時間: 2026-01-14 12:42:53
看板 Stock
作者 madeinheaven ()
標題 [新聞] 輝達從 KV 快取解記憶體瓶頸!Vera Rubin
時間 Tue Jan 13 18:53:32 2026



原文標題:

輝達從 KV 快取解記憶體瓶頸!Vera Rubin 採 ICMS 恐加劇 NAND 缺貨潮

原文連結:
https://bit.ly/4bwXkVZ
輝達從 KV 快取解記憶體瓶頸!Vera Rubin 採 ICMS 恐加劇 NAND 缺貨潮 | TechNews 科技新報 花旗銀行今(13 日)出具最新報告指出,隨著輝達(NVIDIA)採用推論情境記憶體儲存(Inference Context Memory Storage,簡稱 ICMS)等新技術,預期 NAND 供應短缺預期將進一步惡化。 輝達近日宣布將在 Vera Rubin 平台上採用 ICMS,目標是解決大規 ...

 

發布時間:
2026 年 01 月 13 日 11:01

記者署名:

林 妤柔

原文內容:

花旗銀行今(13 日)出具最新報告指出,隨著輝達(NVIDIA)採用推論情境記憶體儲存
(Inference Context Memory Storage,簡稱 ICMS)等新技術,預期 NAND 供應短缺預
期將進一步惡化。


輝達近日宣布將在 Vera Rubin 平台上採用 ICMS,目標是解決大規模推論運算中的記憶
體瓶頸。新架構預期將採用 16TB TLC SSD,並將 KV 快取卸載至更具延展性的儲存體系
,以強化 Rubin 的 AI 能力。


花旗預期,每一套 Vera Rubin 伺服器將因 ICMS 額外需要 1,162TB 的 SSD NAND,對於
 2026 和 2027 年的總 TB 數也會上升,未來將進一步加劇 NAND 供應短缺情況。

輝達宣布作為全端 NVIDIA BlueField 平台一部分的 BlueField-4 資料處理器,將驅動
 NVIDIA 推論情境記憶儲存(ICMS)平台。此平台為全新一代的 AI 原生儲存基礎架構,
專為開拓下一個 AI 前沿而設計。


輝達指出,隨著 AI 模型擴展至數兆個參數與多步驟推理,產生大量情境資料,以 KV 快
取表示,對準確性、使用者體驗與連續性至關重要。由於會對多代理系統中的即時推論造
成瓶頸,因此 KV 快取無法長期儲存在 GPU 上。AI 原生應用需要全新類型的可擴充基礎
架構,以儲存並分享這些資料。


什麼是 KV 快取(KV Cache)?
在 AI 推理階段,會用到一種類似人腦的「注意力機制」,包括記住查詢中重要的部分(
Key)以及上下文中重要部分(Value),以便回答提示。如果每處理一個新的 token(新
詞),模型必須針對先前處理過的所有 token 重新計算每個詞的重要性(Key 與 Value
),以更新注意力權重。


換言之,好比學生每讀一個新句子都要重新回顧整篇文章,過程會相當耗時。KV 快取則
類似筆記的概念,能將重要資訊記錄下來,當有新的 token 時,不需要再重新回顧,直
接從筆記裡的資訊即可計算新的注意力權重。


也因此,大語言模型(LLM)被加入一種稱為「KV 快取」的機制,能將先前的重要資訊(
Key 與 Value)儲存在記憶體中,免去每次重新計算的成本,從而將 token 處理與生成
速度提升數個數量級。


將 KV 快取可配置在不同運算記憶體中
簡單來說,KV 快取是「AI 模型的短期記憶」。由於已經儲存先前已計算過的
 key-value 配對,以避免重複運算。依據記憶體階層不同,KV 快取可配置在不同的運算
記憶體層級中。

例如,KV 快取可配置於 GPU HBM(G1),作為主動 KV 快取;配置於系統 DRAM(G2)作
為暫存/外溢的 KV 快取;或者,作為置於本地 SSD(G3)中的暖 KV 快取;最後一種是
容量最大、可跨節點共享的 KV 快取儲存層(G4)。


花旗指出,該平台透過「卸載 KV 快取」至更具延展性的儲存選項,使記憶體容量突破
 HBM 限制,以此實現每秒處理 token 數提升,最高可達 5 倍;能源效率提升高達 5 倍
;同時讓延遲更低。

花旗指出,ICMS 在本地 SSD(G3)與共享企業級儲存(G4)之間新增一層。作為 G3.5
的 KV 快取層(下圖紅框處),ICMS 將支援把 G4 的冷 KV 快取資料轉為 G2 的暖 KV
快取資料,以提升資料存取速度,並與 HBM 有機協同運作。


花旗預期,全球 NAND 供應短缺將進一步惡化,因為 Vera Rubin 平台預期將為 ICMS 運
作採用 16TB TLC SSD,成為全球 NAND 需求成長動能。其中,每一套 Vera Rubin 伺服
器系統需額外配置 1,152TB 的 SSD 才能運作 ICMS。


考慮到 2026 年和 2027 年 Vera Rubin 伺服器出貨量分別為 3 萬和 10 萬台,將進一
步推升 NAND 需求。花旗認為,輝達宣布採用 ICMS,將成為 NAND 供應商的正向催化劑
,主要受惠者包括三星、SK 海力士、SanDisk、鎧俠及美光。



心得/評論:

花旗預期NVIDIA的ICMS新技術將會加劇 NAND 缺貨潮

再次印證群聯執行長潘健成說的NAND Flash缺貨潮將達十年
https://www.ptt.cc/bbs/Stock/M.1759592646.A.892.html
[新聞] DRAM迎「超級循環」產能暴缺10年?群聯潘健成開金口 小摩欽點1台廠:亞洲第三 - Stock板 - Disp BBS
[圖]
madeinheaven 記憶體產業迎「超級循環」,不僅群聯執行長潘健成喊出NAND Flash(快閃記憶體)缺貨 潮將延續10年之久,加上OpenAI日前與三星、SK海力士簽署合作意向書,規劃擴大DRAM產 能,預計202


--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.225.24.130 (臺灣)
※ 作者: madeinheaven 2026-01-13 18:53:32
※ 文章代碼(AID): #1fPYGlv_ (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1768301615.A.E7F.html
joygo       : 缺十年 沒電腦換了1F 01/13 18:55
VVizZ       : 明天一根2F 01/13 18:55
perlone     : 99群聯3F 01/13 18:56
redbeanbread: 買股票就有錢買了4F 01/13 18:59
cuteSquirrel: 樓下三星 美光 董事5F 01/13 19:03
gladopo     : 99組裝仔6F 01/13 19:03
picaroon    : 利多出盡 慘7F 01/13 19:04
Jimmynick   : 9982998F 01/13 19:05
winken2004  : 炒完一個換下一個9F 01/13 19:06
jerrychuang : citi估算,一台Rubin配一台ICMS,50000台Rubin大約10F 01/13 19:08
jerrychuang : 占現有SSD 5%,影響有多大呢?
scgraph     : 蓋廠也不到2年,誰信缺貨十年12F 01/13 19:11
amig0123    : 怎麼不炒電 不缺電喔13F 01/13 19:12
Waitaha     : 現在換炒土方了14F 01/13 19:18
j32072      : 記憶體緩解 難怪今天崩成這樣 這只是剛開始15F 01/13 19:20
Somebody99  : 唬爛16F 01/13 19:21
shhs1000246 : 股版鄉民喊唬爛 從群聯500喊到1700了 看看這些推文17F 01/13 19:27
shhs1000246 : 什麼時候變成小丑
appledick   : 這解法就是8299的啊….潘董有講過19F 01/13 19:28
appledick   : 看來是直噴2000了
pns215      : 潘董自己都質押加碼了21F 01/13 19:29
jorden      : 再怎麼魔改在推理方面還是拚不過TPU 你該想想看22F 01/13 19:29
jorden      : 要怎麼融合GPU跟LPU去玩了
hemisofia   : 潘sir兩年前就在推用SSD替代HBM了齁XD24F 01/13 19:34
yellow5     : 記憶體我剛逢低撿而已,不會這麼快崩吧25F 01/13 19:34
faelone     : 缺貨十年,潘董的低價庫存也稱不了十年吧26F 01/13 19:40
joewucool   : 相信潘董!27F 01/13 19:54
darkangel119: Switch 要忙死了 各種不同記憶體的traffic 忙到炸28F 01/13 20:01
fywei       : 才10年嗎 我看至少500年29F 01/13 20:02
ororzzz     : 99等等黨30F 01/13 20:15
BruceChen227: 完辣 3060ti準備再戰十年31F 01/13 20:25
ricky525    : https://youtu.be/imGTSWJTwwI32F 01/13 20:52
skkhome     : 相信潘董33F 01/13 21:04
sanguinesand: 99829934F 01/13 21:05
z7956234    : 是要不要用VHM了沒,就差一個人出來說要用餒35F 01/13 21:09
knifeking   : 99829936F 01/13 21:13
jmcgow11    : 噴噴噴噴噴37F 01/13 21:22
alongalone  : 這是.....38F 01/13 21:23
doww        : 華邦噴39F 01/13 21:24
vodkalime607: 主力出不了貨QQ40F 01/13 21:32
lifeterry   : 這些最後還不是要買矽晶圓41F 01/13 21:33
aika5512308 : 我不小心買到記憶體,果然要崩了42F 01/13 22:53
tennyleaz   : 99829943F 01/13 23:03
assian      : 哇塞,AI server要消耗光所有資源是吧44F 01/13 23:43
abc21086999 : 不就hashmap45F 01/14 12:07
chatbra     : 99群聯46F 01/14 12:34

--
※ 看板: Stock 文章推薦值: 0 目前人氣: 0 累積人氣: 79 
作者 madeinheaven 的最新發文:
點此顯示更多發文記錄
分享網址: 複製 已複製
guest
x)推文 r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇