Re: [心得] ComfyUI 7.0 RX 9070XT便攜包分享 - PC_Shopping板

作者 trfmk1 (TRF小兵)
標題 Re: [心得] ComfyUI 7.0 RX 9070XT便攜包分享
時間 Wed Mar 11 18:01:27 2026

ComfyUI_Win_portable_RDNA4 TRFv0.2-Lite 200260311

https://drive.google.com/file/d/1KeyJg-cudGQ2G0QiThrRKGHDiSQcwEGX/view?usp=sharing

ComfyUI_Win_portable_RDNA4 TRFv0.2-Lite.rar - Google 雲端硬碟

此為沒有任何基礎模型的便攜包
針對RDNA4 RX9070X優化的版本

架構環境
ComfyUI v0.16.4
Python version: 3.13.11
Pytorch version: 2.12.0a0+rocm7.12.0a20260218
triton_windows-3.6.0.post26 20260309

這次主要增加sage-attention triton自定義參數設定

https://drive.google.com/file/d/11PjKHXraivbEeJP-RbJjN0e7KXOJ9TjH/view?usp=sharing

sageattention triton TRFv0.2.rar - Google 雲端硬碟

這是修改過後的文件
已經放進去便攜包內
在西台灣的QQ群已經測試了一陣子

靈感來自於這裡
https://github.com/Dao-AILab/flash-attention/pull/2239

Add FLASH_ATTENTION_TRITON_AMD_CONFIG_JSON env var support by alexheretic · Pull Request #2239 · Dao-AILab/flash-attention · GitHub Fast and memory-efficient exact attention. Contribute to Dao-AILab/flash-attention development by creating an account on GitHub. ...

我參考上面文章的flash-attention調優算子
利用gemini針對RNDA架構
優化了sage-attention triton
並且可以使用環境變數加以調整

目前預設使用
set SAGEATTN_M=128
set SAGEATTN_N=16
set SAGEATTN_GM=16
set SAGEATTN_WAVE=4
set SAGEATTN_WARP=4
set SAGEATTN_NSTAGES=1
set SAGEATTN_CAUSAL_STAGE=3

參數說明
1. SAGEATTN_M (BLOCK_M)
定義：Query 分塊大小 (Query Block Size)。決定 GPU 一次處理多少列的 Query 矩陣
。
選項：64 (推薦), 128 (激進)。

影響：
越大 (128)：理論上能減少讀取 K/V 的次數（節省頻寬），速度通常較快。
副作用：會佔用大量的 SRAM (LDS) 和暫存器 (VGPR)。

2. SAGEATTN_N (BLOCK_N)
定義：Key/Value 分塊大小 (Key/Value Block Size)。決定 GPU 一次讀取多少列的 K/V
。

3. SAGEATTN_GM (GROUP_SIZE_M)
定義：L2 Cache 分組大小 (L2 Swizzling)。決定有多少個 Query Block 共用同一份
K/V 數據。

影響：
數值越高：K/V 讀取次數越少（省頻寬）。
代價：GPU 必須同時在 L2 Cache 里暫存 (M × GM) 這麼大塊的輸出結果
(Accumulator)。

4. SAGEATTN_WAVE (waves_per_eu)
定義：每個計算單元的波前數量 (Occupancy)。這是 AMD 特有的參數，控制一個 CU
(Compute Unit) 同時跑幾個 Wave。

選項：0 (自動), 2 (保守), 4 (激進)。

影響：
越高 (4)：能更好地隱藏記憶體延遲，跑分高。但若暫存器不夠，會導致核心崩潰或計算
錯誤。
建議值：2 (穩定) 或 0 (讓編譯器自己算)。

5. SAGEATTN_WARP (num_warps)
定義：核心並行度 (Warps per Block)。Triton 內部的參數，決定用多少個 Warp 來處
理一個 Block。
選項：2, 4, 8。
影響：必須跟 BLOCK_N 的大小成正比。

6. SAGEATTN_NSTAGES (num_stages)
定義：軟體流水線級數 (Software Pipelining)。決定 GPU 要「預先讀取」多少塊未來
的數據。
選項：1 (不預讀), 2 (預讀一塊)

7. SAGEATTN_CAUSAL_STAGE
定義：核心邏輯階段。這是 SageAttention 演算法內部的數學邏輯開關。
影響：這不是效能參數，而是正確性參數。
建議值：3 (固定值)。亂改會導致數學邏輯錯誤，畫面會變成雜訊。

總之使用優化過後sage-attention
跑圖速度會提昇20～30％
跑WAN2.2一步至少縮短5s

想要自訂參數請自行用記事本編輯修改Start.bat

補充一下
Mimalloc優化設定

32GB RAM：平衡配置 (Balance)
set MIMALLOC_PURGE_DELAY=500
set MIMALLOC_LARGE_OS_PAGES=1
set MIMALLOC_ARENA_EAGER_COMMIT_DELAY=0
set MIMALLOC_RESET_DELAY=100
set MIMALLOC_SHOW_STATS=0

64GB RAM：效能優先 (Performance)
set MIMALLOC_PURGE_DELAY=5000
set MIMALLOC_LARGE_OS_PAGES=1
set MIMALLOC_ARENA_EAGER_COMMIT_DELAY=0
set MIMALLOC_RESET_DELAY=500
set MIMALLOC_SHOW_STATS=0

128GB RAM：極限效能 (Extreme / Latency Sensitive)
set MIMALLOC_PURGE_DELAY=-1
set MIMALLOC_LARGE_OS_PAGES=1
set MIMALLOC_ARENA_EAGER_COMMIT_DELAY=0
set MIMALLOC_RESET_DELAY=-1
set MIMALLOC_SHOW_STATS=0

由於我的環境記憶體有128G
預設是調到最高等級

一些跑圖數據
Z-image turbo
https://i.imgur.com/4EW0f9z.png

1024x1024
6步 5.82s
4步 3.99s

SD XL illustrious
https://i.imgur.com/9k9n84q.png

1024x1024
20步 6.68s

WAN 2.2 640x480 5s
https://i.imgur.com/IUbxCjy.png

4步 59.51s

SDXL工作流增加自動修臉跟手腳功能
https://i.imgur.com/ypWxNBB.png

目前triton-windows已經有AMD官方人員加入維護
https://github.com/triton-lang/triton-windows/issues/2

Triton Windows Production Readiness · Issue #2 · triton-lang/triton-windows · GitHub Triton Windows Production Readiness Overview This tracking issue coordinates efforts to improve Triton's Windows support, with a focus on production r ...

看起來AMD是認真的

此便攜包可以任意分享
本來就是我閒暇時間自己琢磨玩玩
我其實也不懂Python程式怎麼寫
反正有問題就問AI= =
或者爬文章或者跟別人討教

希望有人能接著發揚光大
甚至去Github社群交流

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.229.59.186 (臺灣)
※ 作者: trfmk1 2026-03-11 18:01:27
※ 文章代碼(AID): #1fiJrzMH (PC_Shopping)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1773223293.A.591.html

推 w1222067: 先推1F 36.233.72.195 台灣 03/11 18:20

推 danisaku: 感謝2F 111.249.183.126 台灣 03/11 18:45

推 d0178411: 只有79XTX跟4070TIS但還是推3F 111.71.212.212 台灣 03/11 20:12

推 pcfox: 好文推4F 36.231.117.89 台灣 03/11 20:41

推 iceling: 謝謝5F 114.36.208.158 台灣 03/11 21:44

推 zseineo: 推6F 1.160.11.40 台灣 03/11 22:00

推 cowgan78: 大大真的猛辛苦了！7F 218.173.195.110 台灣 03/11 22:15

推 Genie00581: 先推，有空再來研究一下，感謝分享8F 114.39.96.184 台灣 03/12 00:00

推 ganei: 感謝分享，舊版是建議改參數還是把model移植到新的資料夾過去比較穩？另外AMD的blog上有簡易的在Ubuntu底下架ComfyUI的教學了9F 118.165.155.171 台灣 03/12 00:53

建議模型先丟過去測試
※ 編輯: trfmk1 (125.229.59.186 臺灣), 03/12/2026 00:57:57

推 kovenkoven: 推分享，想請教I2V的工作流跟模型
是怎麼選的?我自己嘗試產出的影片
畫風都會劇變，而且邊緣很模糊12F 1.164.30.91 台灣 03/12 02:10

推 htps0763: 想問原po有沒有用過0221以後的版本，我的應用用到卷積計算21後速度又下降了15F 36.239.196.19 台灣 03/12 02:17

建議先退回2/18版本
※ 編輯: trfmk1 (125.229.59.186 臺灣), 03/12/2026 09:43:36

推 lolicat: 感謝分享請問我有下載之前的包是否直接覆蓋就好？17F 49.215.240.171 台灣 03/12 10:12

建議模型、工作流搬過去測試沒問題再說
※ 編輯: trfmk1 (39.12.137.126 臺灣), 03/12/2026 10:59:16

推 lolicat: 了解謝謝19F 49.215.240.171 台灣 03/12 11:34

推 htps0763: 我自己的應用目前是停在0220
而且這幾個版本之後終於不用關AU的內顯或設定環境變數了20F 36.239.196.19 台灣 03/12 11:41

推 ganei: 轉移成功，感謝！一開始瀏覽器沒跟舊版一樣自動跳出來還以為開到一半卡住了，自己拉新頁面輸入IP就成功點亮，跑圖提速跟修臉有感，修手反而很少動作，這可能是我自己下提示詞的問題...23F 111.71.72.238 台灣 03/12 12:34

推 ss70012: 推推amd rocm加油28F 36.231.70.113 台灣 03/12 13:20

推 aacj2642: 推！29F 101.8.93.200 台灣 03/12 13:51

→ ganei: WAN 2.2的I2V基本上只保證81 frame以內ok (真人可以拚一下121f)，超過之後影片常與prompt脫節，畫質還會出現明顯劣化30F 111.71.72.238 台灣 03/12 14:40

作者 trfmk1 的最新發文:

+17 Re: [心得] ComfyUI 7.0 RX 9070XT便攜包分享 - PC_Shopping 板

作者: trfmk1 125.229.59.186 (台灣) 2026-03-11 18:01:27

32F 17推
+25 Re: [心得] ComfyUI 7.0 RX 9070XT便攜包分享 - PC_Shopping 板

作者: trfmk1 110.28.57.174 (台灣) 2026-01-14 00:31:56

ComfyUI for AMD RDNA4便攜包更新更新到ROCm7.2 20260110 此便攜包只針對AMD RX9070XT做調整但RDNA4家族應該都可以使用 9070XT、9070GR …

54F 25推
+24 [心得] ComfyUI 7.0 RX 9070XT便攜包分享 - PC_Shopping 板

作者: trfmk1 125.229.59.186 (台灣) 2026-01-01 05:41:22

本來想打一篇針對9070XT跑ComfyUI教學文從零開始文章越打越多想想永無止盡還是弄個小整合包好了 ComfyUI 7.0 AMD RDNA4便攜包（ROCm7.2 20251231夜間版 …

52F 24推
+6 [問卦] 現在AI都這麼有梗的嗎 - Gossiping 板

作者: trfmk1 39.12.57.51 (台灣) 2025-12-18 17:42:41

10F 6推
+30 Re: [閒聊] 3C市場是不是漸漸飽和了呀? - PC_Shopping 板

作者: trfmk1 125.229.59.186 (台灣) 2025-11-09 11:00:52

什麼3C市場環境沒落都是屁話是忘記年中的顯卡之亂嗎 = = 跑實體店面店員跟NPC一樣只會講一樣的話要單買顯卡不賣只能限組勿高規低配要買還要看店員臉色什麼西台灣內捲電商才這麼便宜台灣 …

97F 30推

點此顯示更多發文記錄