看板 PC_Shopping
作者 filiaslayers (司馬雲)
標題 [情報] AMD承認EPYC Rome伺服器晶片有個奇妙Bug
時間 Mon Jun  5 20:57:20 2023


看了一下好像沒人貼,雖然我只是用5600的小咖,這種高貴的u跟我沾不上邊
但看在這bug還蠻特別的就貼上來了
有高手可以說明一下這到底什麼Bug嗎?

https://www.techbang.com/posts/106924-amd-admitted-that-the-epyc-rome-server-chip-will-crash-after
AMD 承認 EPYC Rome 伺服器晶片有個奇妙Bug:運行 1044 天會當機、暫無計畫修復 | T客邦
AMD 承認 EPYC Rome 伺服器晶片運行 1044 天會當機,暫無計畫修復 ...

 
https://bit.ly/3IW4dB2

AMD 承認 EPYC Rome 伺服器晶片有個奇妙Bug:運行 1044 天會當機、暫無計畫修復
AMD 在近日發佈的 EPYC 7002 「Rome」伺服器晶片指南中,承認由於時鐘倒計時器存有
個BUG,導致第二代 EPYC 晶片正常運行 1044 天後出現核心卡死情況。

使用這款 EPYC 晶片的伺服器,需要每隔 2.93 年時間重新啟動一次,但AMD 官方表示不
會修復上述 BUG。

AMD 在指南中表示,導致這個問題的原因是核心無法脫離 CC6 省電模式(Core C6 State
),進入該模式之後,會降低電壓和時脈頻率。AMD 澄清說,誤差的時間可能取決於擴頻
調製和 REFCLK 頻率參考。


AMD 承認 EPYC Rome 伺服器晶片有個奇妙Bug:運行 1044 天會當機、暫無計畫修復

Reddit 使用者 acid_migrain 經過詳細的演算,認為實際導致卡死的時間並非 1044 天
,而是 1042 天 12 個小時。

AMD 於 2018 年推出 EPYC “Rome”系列伺服器晶片,部分客戶已經向 AMD 反應遇到了
這個問題。

AMD 表示沒有計畫修復該漏洞,外媒 technewsspace 判斷,不修復的理由原因之一是修
復成本太高,不然就是受影響用戶規模不大。

--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.133.46.215 (臺灣)
※ 作者: filiaslayers 2023-06-05 20:57:20
※ 文章代碼(AID): #1aVTkoNs (PC_Shopping)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1685969842.A.5F6.html
※ 編輯: filiaslayers (220.133.46.215 臺灣), 06/05/2023 20:57:52
dos01: 所以到底為什麼是144天?
*10441F 182.155.78.98 台灣 06/05 20:58
oppoR20: https://i.imgur.com/M6inswG.png3F 114.137.75.2 台灣 06/05 20:59
luvstarrysky: 唉 賺最多的市場 結果客戶遇到bug還直接說不修理 有夠誇張4F 218.172.87.54 台灣 06/05 21:01
oppoR20: 因為修復成本太高
而且人家不修財報也是繼續噴6F 114.137.75.2 台灣 06/05 21:01
luvstarrysky: 不過這個問題 重開就好了吧8F 218.172.87.54 台灣 06/05 21:02
tacoclement: 幾乎所有公司都會定期重開,大多是每個月至一季9F 1.161.180.113 台灣 06/05 21:05
luvstarrysky: 對阿 就算是伺服器電腦也不可能完全不維護吧11F 218.172.87.54 台灣 06/05 21:05
oppoR20: 然後a黑:有夠誇張der AMD趕快倒一倒啦13F 114.137.75.2 台灣 06/05 21:06
eric13141230: 特級A黑又來見獵心喜了14F 218.172.8.155 台灣 06/05 21:06
fujisawa: 真正會受影響的客戶很少吧 就算真的有用專案的方式解決應該都比較省15F 114.43.118.172 台灣 06/05 21:10
abc21086999: 那就在那天安排個系統維護就好了ㄅ17F 220.136.186.78 台灣 06/05 21:10
toodoo: 正常啊, 像Windows 95連續開機49.7天也會因為計時器溢位而BSOD而要重開機 XD18F 114.24.179.99 台灣 06/05 21:17
kimula01 
kimula01: 怕啥 年度高裝檢就會重開機了啦20F 1.200.246.77 台灣 06/05 21:19
BDrip: GPS已經溢位歸零兩次了21F 122.117.184.144 台灣 06/05 21:20
tacoclement: 不過想想也很有趣,因為內容寫到是部分客戶反應問題的,表示這些客戶仍屬於超長時間不關機XD22F 1.161.180.113 台灣 06/05 21:20
MK47: 那你加一個沒1042天重啟的task吧 不過能發現這bug的機房很猛耶 三年多都沒有重開XD25F 223.141.171.183 台灣 06/05 21:22
lazioliz: 蛤27F 1.200.141.53 台灣 06/05 21:33
Amulet1: 你倒是關機阿lol28F 122.116.74.69 台灣 06/05 21:33
comipa: 3年多連fw update都沒有...蠻屌的XD29F 220.133.98.140 台灣 06/05 21:35
ChangWufei: 2年10個月又10天不重開就會遇到 好喔30F 114.27.207.236 台灣 06/05 21:37
zxzx8059: 公司每季都會斷電檢查高壓設備,根
本沒機會開三
年XDD31F 1.161.69.220 台灣 06/05 21:37
lc85301: A黑集合,集合了34F 36.231.90.248 台灣 06/05 21:38
stepnight: 三年早該碰到歲修了吧35F 49.217.197.40 台灣 06/05 21:40
giancarlo82: 3年不重開 這公司的工程師心臟真大36F 106.107.240.161 台灣 06/05 21:40
basacola: 重開機不就好了 公司買來都沒有有伺服器維護時間可以搞嗎37F 118.165.47.89 台灣 06/05 21:40
mrme945: 真的有公司可以這麼久不重開耶好猛39F 111.71.212.31 台灣 06/05 21:46
blueballer: 不可能三年不維護,所以基本不影響使用 所以就不修了40F 106.184.154.122 日本 06/05 21:48
weltschmerz: 還好吧 巴哈一堆電腦也是沒關機過的42F 111.253.40.235 台灣 06/05 21:48
spfy: 直接好像有哪款NAS用的CPU兩年多會掛?43F 203.121.243.239 台灣 06/05 21:48
weltschmerz: 在那邊好像關機電腦會爆炸一樣= =44F 111.253.40.235 台灣 06/05 21:48
spfy: (*之前) 也無解所以時間到就GG的?45F 203.121.243.239 台灣 06/05 21:48
oppoR20: 不是兩年吧 是好幾年
C2000 CPU
DS1515+等46F 210.66.250.9 台灣 06/05 21:50
tomsawyer: 哪有好幾年 cisco說1.5年可能發生 大概3年左右壽命49F 1.200.98.199 台灣 06/05 22:02
knml: 歲修重開不就得了51F 1.171.119.60 台灣 06/05 22:15
Arashi0731: 就算是伺服器想要完全不重啟也很困難52F 59.127.37.149 台灣 06/05 22:17
rabbit61677: 這種超多核心的大部份都VM或AP堆疊就算一台重開,整體服務也不受影響看起來就軟體很難修,3年都下一代了53F 111.250.148.116 台灣 06/05 22:21
birdy590: 做 planned outage 就好了 幾年都不更新56F 115.43.53.170 台灣 06/05 22:40
ayasesayuki: 修這個沒什麼意義 能撐3年不重開發現這bug也是厲害57F 42.79.203.54 台灣 06/05 22:40
birdy590: 其實也不太可能 而且還有安全隱患59F 115.43.53.170 台灣 06/05 22:40
cmj: 三年多沒重開在工廠產能滿載時很正常吧60F 60.245.106.18 台灣 06/05 22:41
atpx: server不太可能3年不重開,機電系統總要停電檢查.牽涉到消防安全法規61F 1.163.127.193 台灣 06/05 22:45
yenchieh1102: 會被發現的意思就是有哪個衰小的東西跑了兩年多快要出來了結果當機了嗎xDDD63F 1.34.147.124 台灣 06/05 22:49
friedpig: 修復成本就是要重開光罩重弄一顆阿
直接給你一顆milan換還比較實際
反正MB幾乎都是相容的 就幫你無痛升級66F 125.228.96.10 台灣 06/05 22:51
aries5420: 資訊工程師:我們下車再上車重新試試69F 122.117.59.50 台灣 06/05 22:59
avans: https://i.imgur.com/nLJzuCh.png
好像與資料型態益位有關係 猜的
https://i.imgur.com/yVf89sq.png70F 42.79.191.1 台灣 06/05 23:01
 
poco0960: AMD TIMER73F 125.229.56.86 台灣 06/05 23:24
NanaMizuki: 用這種cpu的機器半年沒重開就很強了74F 1.171.136.6 台灣 06/05 23:31
ab37695543xs: 完全沒因為其他任何因素持續運行三年也是很猛了75F 59.115.188.142 台灣 06/05 23:33
guanting886: 3年不重開還好吧.放在aws 的 win server 已經700多天沒重開了
不過跑在VM上的虛擬伺服器重開也無助於事,只有整片Server那一台整個重啟才有用77F 42.75.13.223 台灣 06/05 23:41
avans: 28*2^53=0x380000000000000,我圖打錯成25382F 42.79.191.1 台灣 06/05 23:47
poco0960: 我公司那幾台linux跟vm機是除了停電以外沒重開過的啊...83F 125.229.56.86 台灣 06/05 23:49
xam: 如果客戶實際應用不會碰到可以不用修..
客戶更怕你修這個又搞了一個更詭異的bug吧85F 125.228.254.54 台灣 06/05 23:50
demon159000: 阿就放出個維修時間 給他重開機 遊戲不也是週期性維修時間87F 42.76.101.1 台灣 06/05 23:57
yys310: 都不用維修的嗎?89F 140.114.235.115 台灣 06/06 00:11
b325019: 你VM沒重開不代表host沒重開啊w90F 1.161.30.11 台灣 06/06 00:13
mainsa: 可以這麼久不重開我反而比較佩服欸91F 101.12.93.199 台灣 06/06 00:22
chenchunjui: 沒防斷電的話 挺厲害的 我們沒這問題92F 1.163.119.144 台灣 06/06 01:17
TFnight: 都不update的嗎…93F 114.42.100.39 台灣 06/06 01:50
jeta890119: 欸.. 我們機房真的有主機連開超過三年不關的94F 49.216.24.166 台灣 06/06 05:44
jbuilder1022: 除非有ha不然server重開都是風險96F 111.71.15.5 台灣 06/06 06:37
MrDisgrace: 三年不重開才碰的到XDD97F 59.124.162.227 台灣 06/06 09:58
MisterSmile: 媒體搬文章也不把原文解釋寫清楚98F 27.52.94.43 台灣 06/06 10:02

--