顯示廣告
隱藏 ✕
※ 本文轉寄自 ptt.cc 更新時間: 2024-07-18 15:27:20
看板 PC_Shopping
作者 amduser (重返榮耀)
標題 [情報]Zen 5微架構解密,提升執行單元數量與寬度
時間 Wed Jul 17 01:25:52 2024


來源
https://benchlife.info/amd-zen-5-microarchiteture-preview/
同步提升執行單元數量與寬度,AMD Zen 5 微架構深度旅遊 - BenchLife.info 那個在 Intel 消費平台消失的 AVX-512,以全速之姿在 AMD Zen 5 當中復活了!而且 Zen 5 還多了不少整數、浮點數量執行單元,dispatch/retire 指令數量亦同時增加。 ...

 

Intel 消費性平台消失的 AVX-512,以全速之姿在 AMD Zen 5 微架構當中復活了!
在正式進入 Zen 5 微架構之前,我們希望先行提到製程的二三事。
此次 Zen 5 微架構的推出,在製程方面搭配 TSMC N4(桌上型處理器版本)∕ N3(行動
處理器版本);特別是桌上型處理器版本,製程演進並不若 Zen(GF 14nm)> Zen 2(
TSMC N7)或是 Zen 3(TSMC N7)> Zen 4(TSMC N5),N4 算是 N5 的強化版本,在
 TSMC 的規劃中並非完整的製程世代躍進。有了這個先決條件之後,讀者可以思考一下
 AMD 是如何去強調 Zen 5 和 Zen 4 之間的差異。

執行單元變多、變寬
相較於先前多個 Zen 微架構的世代演進,AMD 這次在 Zen 5 微架構的著墨上少了許多至
少 PPT 就少了好多頁,最主要的變化集中在執行單元的數量以及寬度。就 AMD 內部統計
而言,執行單元以及 retire 指令數量的成長替 Zen 5 IPC 貢獻最多效能提升幅度,資
料路徑強化 ∕ 解碼和微指令快取次之,原本在 Zen 4 IPC 提升幅度最大的前端部分反
而沒有提及。

▼ Zen 5 微架構讓效能提升的因素,最主要集中於執行單元數量和寬度提升。
https://benchlife.info/wp-content/uploads/2024/07/001-1000x563.jpg
[圖]
AMD Zen 5 IPC uplift percentage
讓我們同樣從處理器核心的前端出發:分支預測更為精準、輸出量提升、延遲更低已是每
一代微架構的必修學分,L1 指令快取也同樣改善了頻寬和延遲(每時脈週期 32Byte 升
級至 32Byte x 2)。比較重大的變化發生在解碼單元,直接從 Zen 4 的單一解碼單元每
時脈週期輸出 4 個指令,直接翻倍來到 Zen 5 的 2 個解碼單元每時脈週期共輸出 8 個
指令,微指令快取從每時脈週期輸出 9 個變成  6 x 2 個,微指令佇列配發數量也從每
時脈週期 6 個提升至 8 個。

▼ Zen 5 微架構前端較大的變化位於解碼單元,從前一世代的 4 個指令翻倍為 8 個。
https://benchlife.info/wp-content/uploads/2024/07/002-1000x562.jpg
[圖]
AMD Zen 5 frontend
整數單元部分,ALU 從 4 個提升至 6 個、乘法單元變成 3 個、AGU 和分支單元分別多
 1 個,並且更平均地安排每個執行單元。隨著執行單元數量的提升,dispatch ∕
 retire 指令數量最高也來到 8 個。從簡報的圖示看來,Zen 5 排程器的規劃方式也有
所不同,Zen 4 採用 2 個執行單元埠共用 1 個排程器的設計,Zen 5 則是改為含 ALU
功能的埠共用 1 個排程器、AGU 則共用另外 1 個,但 AMD 並未說明排程指令數量的變
化。

▼ Zen 5 微架構整數部分新增多個執行單元,dispatch ∕ retire 同步提升至 8 個指
令。
https://benchlife.info/wp-content/uploads/2024/07/003-1000x562.jpg
[圖]
AMD Zen 5 integer execution units
浮點數單元數量在 Zen 5 微架構並未升級,同樣有著 6 個(含 2 個浮點加法器、延遲
從 3 個週期縮減至 2 個週期),主要因應 AVX-512 指令集進行調整。Zen 4 雖然也支
援 AVX-512,卻是透過「double-pumped」的方式,讓寬度僅有 256bit 的浮點單元去執
行 512bit 浮點 ∕ 向量運算,如今 Zen 5 已將浮點單元擴充至完整 512bit,代表執行
 AVX-512 指令時相較前一世代更快。在 AMD 內部的 IPC 效能測試之中,成長幅度最高
的部分也來自於執行 AVX-512 指令。

▼ Zen 5 微架構已將浮點數執行單元部分擴展至完整 512bit,執行 AVX-512 指令相較
 Zen 4 微架構更為快速。排程器也升級至 3 個,每個包含 32 個條目,暫存器也因應
 AVX-512 而加寬至 512bit ∕ 384 個條目。

https://benchlife.info/wp-content/uploads/2024/07/004-1000x562.jpg
[圖]
AMD Zen 5 float/vector execution units with AVX-512
因應執行單元數量擴增、浮點數單元寬度提升,餵資料的速度也必須加快。Zen 5 L1 資
料快取從前一世代 32KB ∕ 8-way,升級至 48KB ∕ 12-way,單一時脈週期最高也從載
入 3 筆 ∕ 儲存 2 筆升級為載入 4 筆 ∕ 儲存 2 筆資料(AMD 未說明 512bit 資料長
度時的變化)。其餘 L2、L3 沒有變化,依舊是 1MB ∕ 16-way、32MB ∕ 16-way(

victim 設計,L3 快取實際容量會跟隨核心數量、產品定位而變動)。
題外話,由於 AMD Ryzen 9000 系列桌上型處理器依舊採用與 Ryzen 7000 系列桌上型處
理器相同的 cIOD,因此每個 CCD 向 cIOD 的讀寫頻寬應該也相同;每個 Infinity
Fabric 時脈週期,CCD 向 cIOD 傳輸 16Byte 資料、cIOD 向 CCD 傳輸 32Byte 資料。
(根據 AMD 簡報尾部的附註小字,Ryzen 9000 搭配 DDR5 記憶體的較佳運作速度應該仍
是 DDR5-6000)

▼ Zen 5 L1 資料快取升級至 48KB ∕ 12-way,也同步提升讀寫頻寬。
https://benchlife.info/wp-content/uploads/2024/07/005-1000x562.jpg
[圖]
AMD Zen 5 incresed L1 data cache capacity and set-association
AVX-512 完整效能加持
最後就是 IPC 比比看的時間,根據 AMD 的測試,Zen 5 相較 Zen 4 的 IPC 幾何平均提
升幅度來到 16%,特別是那些使用到 AVX-512 指令的應用程式幅度最高,機器學習效能
可提升 32%、Geekbench 5.4 的 AES-XTS 更高達 34%!

▼ 相較於 Zen 4,Zen 5 IPC 幾何平均提升幅度達 16%。
https://benchlife.info/wp-content/uploads/2024/07/006-1000x562.jpg
[圖]
AMD Zen 5 geomean 16% IPC uplift compared to Zen 4
▼ 應用到 AVX-512 的指令,Zen 5 IPC 提升幅度更高!
https://benchlife.info/wp-content/uploads/2024/07/007-1000x562.jpg
[圖]
我猜遊戲性能7800X3D應該還是比9900X還強一些,
但影音處理,AI,渲染RYZEN 9900X應該就默秒全,
之前曾經看過7950X的某項AVX512測試結果很驚人
https://tinyurl.com/exubbs6n
https://images.anandtech.com/graphs/graph17585/130235.png
[圖]
這次完整 512bit FPU的效能應該會更強吧
期待之後的完整測試

--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.241.108.76 (臺灣)
※ 作者: amduser 2024-07-17 01:25:52
※ 文章代碼(AID): #1cbgqedM (PC_Shopping)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1721150760.A.9D6.html
smallreader: 聽起來就像tick tock1F 111.254.160.96 台灣 07/17 02:22
smallreader: 雖然看不懂不過這篇很佛心都用中譯詞
yeeouo: 這個3D particle movement測試可以反映在3F 124.213.115.96 日本 07/17 03:02
yeeouo: 哪些應用上
tv50046: wow,avx這麼兇殘5F 1.200.12.246 台灣 07/17 03:46
tv50046: 希望有16c32t的x3d出來
AryaNymeria: 7950X3d 不就是16c 32t嗎7F 27.247.156.92 台灣 07/17 06:50
b325019: 結果還是塞完整的512bit電路了8F 1.34.10.185 台灣 07/17 07:35
ltytw: i粉會認為avx512已經是過時設計嗎?Y9F 114.33.46.227 台灣 07/17 08:37
yankeefat: I皇不用 就等於過時了  懂?10F 118.160.62.160 台灣 07/17 08:46
mtc5566: Intel也沒有不用 只是在消費級平台上放11F 118.231.161.86 台灣 07/17 08:53
mtc5566: 棄而已
ltytw: 到時候來看看有沒有人評測A版的AVX512的功13F 114.33.46.227 台灣 07/17 08:54
ltytw: 耗  I版的AVX512功耗  I皇一直駕馭不了 嗎?
b325019: epyc敢塞192c時脈還這麼高能耗應該不差15F 223.137.76.239 台灣 07/17 09:11
b325019: 真不知道怎麼弄的
gameguy: 9xxx的X3D先生出來再出來談吧,我是認為17F 223.137.106.149 台灣 07/17 09:16
gameguy: 快點把Jim找回去設計新CPU才是正經
kenfu0402: 等9000X3D19F 49.216.134.101 台灣 07/17 09:17
nisioisin: 我記得舊的12代有些可以用AVX512吧20F 1.200.29.113 台灣 07/17 09:20
mtc5566: 把Jim找回來幹嘛? 也要人家想回來21F 118.231.161.86 台灣 07/17 09:22
mtc5566: 現在intel根本就不是對手
jizzyui: 重返榮耀23F 140.113.136.212 台灣 07/17 09:23
sporocyst: PPT不管吹多好,都要等跑分出來再說24F 61.220.78.2 台灣 07/17 09:28
kamichu: 竟然有avx512 太扯25F 111.82.85.54 台灣 07/17 09:42
kamichu: intel這次要被壓在地上摩擦了
leviva: 看用途, 有用到512就吊打對手, 沒用到就27F 1.171.19.123 台灣 07/17 09:49
leviva: 無感
b325019: zen4就有avx512了只是他是跑兩次29F 223.137.76.239 台灣 07/17 09:51
b325019: 256bit電路達成,zen5給了一套完整的電路
b325019: intel當時avx512被詬病的是會鎖頻降頻
leiouter: 一張板子需要多少錢買的到@@32F 42.74.100.33 台灣 07/17 10:52
pig: 如果不會影響別的東西的效能 avx512 放那邊33F 218.161.120.232 台灣 07/17 10:53
pig: 不會有人抱怨的,雞肋指令集那麼多沒啥人譙啊
friedpig: 牙膏當初最大的問題是小核沒AVX512阿35F 118.163.149.125 台灣 07/17 11:05
friedpig: 因為小核沒有 結果搞到只能關小核才能
friedpig: 用
arnold3: 現在最便宜的板子也要3千38F 119.14.100.51 台灣 07/17 11:07
mayolan: 板子你買B650不也行39F 223.141.206.235 台灣 07/17 11:19
bior1234: Kim早就在別的地方玩的正樂,根本不會想40F 110.28.104.96 台灣 07/17 11:22
bior1234: 回來
bior1234: Jim*
mayolan: Kim在平壤也玩得很樂43F 223.141.206.235 台灣 07/17 11:23
ltytw: 我都直接稱呼jk啦44F 114.33.46.227 台灣 07/17 11:33
xbearboy: jk聽起來好像很糟糕(X45F 114.136.138.168 台灣 07/17 11:38
SHR4587: 這篇有誤,行動處理器一樣是N4 只有EPYC46F 27.242.11.133 台灣 07/17 11:42
SHR4587: 用上N3
qwe753951: 面積竟然差不多48F 211.20.26.1 台灣 07/17 11:44
SuperTaco: 現在AMD跟intel的PPT都很會吹噓的49F 118.163.97.156 台灣 07/17 11:56
SuperTaco: 的確要等之後實測再說
ShimaKazuya: 等9月架構日以後再說吧,不只架構隔51F 101.9.135.44 台灣 07/17 11:58
ShimaKazuya: 壁現在超多東西都是新的,這種場面
ShimaKazuya: 打起來才好看
ualileigod: 870itx不要再給我違建了......54F 42.79.129.83 台灣 07/17 12:29
EXTECH: RPCS3 爽跑55F 114.136.20.29 台灣 07/17 14:23
Ereinion9895: 超寬設計通常伴隨高耗能,不過靠製56F 27.52.165.37 台灣 07/17 15:00
Ereinion9895: 程又能降低能耗。可以說隨製程進步
Ereinion9895: 架構也能隨之進步吧
chejrk: 512跑模擬器有用 但製程問題有高耗能毛病59F 114.36.121.87 台灣 07/17 15:39
asdg62558: 期待9000的x3D60F 223.141.144.158 台灣 07/17 15:45
lwei781: Strix Point 的被閹61F 36.230.89.125 台灣 07/17 16:53
lc85301: 反正未來是 ARM 時代了,AMD = 卒業62F 118.161.202.204 台灣 07/17 17:17
ltytw: 講的好像and不能轉行一樣。 intel都想用at63F 114.33.46.227 台灣 07/17 18:02
ltytw: om去戰arm
ltytw: 曾經啦。  現在不知道
SHR4587: 說ARM時代的去看看Snapdragon X66F 27.240.242.84 台灣 07/17 18:24
SHR4587: 我現在就有X plus的機器,能耗比很滿意,
SHR4587: 但我不認為這程度能把X86幹趴
SHR4587: intel跟AMD都不是死人啦,X86再戰30年我
SHR4587: 都不覺得是問題
mtc5566: 笑死人 以為x86原地踏步哦71F 118.231.193.179 台灣 07/17 18:31
mtc5566: 而且續行有個邊際效應 10小時以上就沒什
mtc5566: 麼好挑的了 那種15小和20小的 根本就都
mtc5566: 用不到沒電
yymeow: 自從apple m1出來之後一直有人在吹arm75F 60.250.130.216 台灣 07/17 18:32
yymeow: x86已死或將死,不知道吹多少遍了
yymeow: 如果arm只有能耗比能拿出來,那還是算了
yymeow: 對user而言,軟體相容性>能耗比
yymeow: 省電但是不能跑我想跑的軟體,就是塊漂亮
yymeow: 的磚
SHR4587: 能耗比差距夠大是真的能讓軟體開發商跟81F 220.136.30.111 台灣 07/17 19:07
SHR4587: 使用者轉向就是了,但X86是真的追上來了
SHR4587: ,沒有原地踏步,ARM的優勢在慢慢的消失
Sartanis: 就算是intel 高通要在CPU贏過還有得拚84F 36.229.28.188 台灣 07/17 19:15
commandoEX: Intel AVX512是10nm的,AMD Zen5是4nm85F 118.171.139.225 台灣 07/17 19:36
commandoEX: 能耗贏過不意外吧
commandoEX: 測試15小可能遊戲4~5小而已
amd3dnow: x86有進步,開倒車的是windows....88F 1.162.166.170 台灣 07/17 20:08
amd3dnow: 一堆反智的ui設計...
ILike58: amd轉投台積電後能耗比也沒讓人不滿意吧90F 42.70.142.64 台灣 07/17 20:36
ILike58: ,況且他一直很穩定的在提升核心推進製程
ILike58: 。
canandmap: ARM沒某些人吹的那麼神93F 36.228.131.46 台灣 07/17 21:26
spfy: 那個也不是少數 有一派就堅信X86末日已到(94F 27.52.40.129 台灣 07/17 21:47
spfy: 還不是將至) 說DC轉ARM的越來越多了 PC也輸
spfy: 移動裝置的續航更是被屌虐 全面崩盤 看的我
spfy: 心驚驚 想要換9900X惹 是我走錯世界線嗎
E6300: arm能面對明年的GTA6嗎?98F 1.172.204.212 台灣 07/17 22:10
b325019: 沒前途了500收99F 1.34.10.185 台灣 07/17 22:10
mayolan: 你GTA6上市也沒PC可以玩啊100F 1.161.76.49 台灣 07/17 22:25
mayolan: 首發只有主機版
friedpig: 阿痛戰ARM 牙膏哪有放棄 現在不就小核102F 125.228.96.10 台灣 07/17 23:03
friedpig: 只是名子換一下 要幹ARM的心一直不變
aegis43210: 是的,不要幫i皇放棄好嗎?蘇嬤是真的104F 175.182.112.39 台灣 07/17 23:05
aegis43210: 放棄了
aegis43210: 蘇嬤是打算也要下去玩ARM,搞雙棲,i
aegis43210: 皇在努力弄X86s,X86陣營不會輸的,CI
aegis43210: SC才是王道
ShimaKazuya: GTA6能不能在ARM上面跑你該去問的是109F 124.218.74.113 台灣 07/17 23:13
ShimaKazuya: 蘋果,你看每年WWDC就知道,他們是
ShimaKazuya: 真的有在找遊戲商談
canandmap: 蘇媽什麼時候開始打算要玩ARM?112F 36.228.131.46 台灣 07/17 23:16
canandmap: 又,蘇媽放棄什麼?
canandmap: 你講的是事實還是從你的「妄想心」講出
canandmap: 來的?
yymeow: atom的繼承人N100玩的還可以116F 114.25.212.97 台灣 07/18 00:29
friedpig: n100只是初步啊 新一代的小核可是比這代117F 125.228.96.10 台灣 07/18 00:58
friedpig: 大核還猛 待機功耗也好很多 xeon 6的表
friedpig: 現反映出來 下一代應該很有搞頭
bw212: xeon那邊似乎有整顆只有一堆ADL小核的東西120F 114.38.200.41 台灣 07/18 01:43
bw212: 很明顯是要跟ARM伺服器拚一把
bw212: AMD玩ARM應該是農企時期的K12計畫 那東西
mtc5566: 笑死人說x86遊戲續航的 怎不看看自己Arm123F 118.231.152.247 台灣 07/18 01:46
mtc5566: 遊戲續航好到哪去?
bw212: 最後也沒下文了125F 114.38.200.41 台灣 07/18 01:46
mtc5566: 阿不過Arm真的暫時不用擔心遊戲續航啦126F 118.231.152.247 台灣 07/18 01:47
mtc5566:  先能跑遊戲才是真的
falcon: 現代cpu的內部架構不都是類risc的,外層都128F 39.15.16.228 台灣 07/18 04:18
falcon: 有解碼器負責翻譯,轉譯cisc指令的x86當然
falcon: 比risc的arm需要更高代價,x86的存在理由
falcon: 也只有相容性而已
SHR4587: ARM跑遊戲我覺得大問題反而在GPU132F 220.136.30.111 台灣 07/18 06:39
SHR4587: X系列一堆遊戲開不起來或效能很差根本就
SHR4587: GPU驅動問題
SHR4587: 相容性問題可不只是而已
SHR4587: 實際用過就懂了啦!更何況X86現在跟ARM的
SHR4587: 差距可沒有當年M1剛出來的時候那麼大
xzealotx: I皇不行了,改叫I兒吧138F 101.9.199.64 台灣 07/18 08:46
saimeitetsu: 感覺比較像對料,沒有改架構139F 223.136.178.36 台灣 07/18 09:56

--
※ 看板: PC_Shopping 文章推薦值: 0 目前人氣: 0 累積人氣: 142 
作者 amduser 的最新發文:
點此顯示更多發文記錄
分享網址: 複製 已複製
guest
x)推文 r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇