看板 PC_Shopping作者 wahaha99 (此方不可長)標題 Re: [閒聊] ECC記憶體究竟有多大用?NAS真的需要ECC時間 Mon Jun 13 14:49:42 2022
※ 引述《HamalAri (哈馬‧阿里)》之銘言:
: ecc 倒底有沒有用還真的很難說
:
: 最近出包老是同一地址,而且是 scrub 時抓到的
: 代表不是大量計算時發生,是閒閒沒事幹時抓到的:
: 是這條有 defect 嗎? 還是我被駭了,有人在玩 rowhammer ?
: https://i.imgur.com/1KHKE6b.png
就單純壞cell
記憶體也是半導體元件
如果你的CPU、顯示卡、主機板都不會壞
那才有可能說記憶體也不會壞
很多關於ECC的說法是為了防止傳輸時有bit翻轉
老實說我是一頭霧水
如果傳輸到會發生bit翻轉
那eye pattern這關根本過不去
這主機板的RD要拖去斃了
: --
: ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.141.57.57 (臺灣)
: ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1655099070.A.183.html
: 推 wei115 : 不是說ecc無用 而是說ecc對於家用的 220.134.21.189 06/13 13:55
: → wei115 : 影響被誇大了(在ecc價格虛高的情況 220.134.21.189 06/13 13:56
我覺得這是最糟糕的說法
什麼是"家用", 我家NAS不能放我那已過世的狗狗照片嗎,
應用從來不是分家用不家用,
而是分資料對你有多重要
: 推 wei115 : 況且各家nas廠,入門級別的機種, 42.76.32.34 06/13 14:28
: → wei115 : 也都沒ecc 42.76.32.34 06/13 14:28
就錢而已啊
ECC是什麼成本,
RAM + 12.5%, MC早就內建, 以及約2%的效能
那是個事嗎, 不是
為什麼不做, 因為消費者不懂
懂的人是少數
學過檸檬車效應嗎?
"如果你分不出吃到嘴裡的是咖哩還是大便, 你永遠只會吃到大便"
那為什麼硬碟有人做RAID1,
那是因為很多消費者都嚐過硬碟故障的滋味了
--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.226.169.102 (臺灣)
※ 文章代碼(AID): #1Yfju9aI (PC_Shopping)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1655102985.A.912.html
※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 14:56:54
推 xleacigma: 客戶要 所以我連上個廁所都要ECC1F 118.169.72.162 台灣 06/13 15:02
如果你控制各種括約肌的記憶放在RAM上的話
※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 15:06:57
推 tn601374: bit翻轉不是說宇宙射線引起的嗎?2F 125.228.188.105 台灣 06/13 15:10
宇宙射線引起的bit翻轉 一個address應該頂多遇過一次
cell 壞掉、或是address decoder壞掉
就是固定那邊會出錯
宇宙射線引起的我是沒看過 (也許是遇到也不知道)
但cell壞掉是常常遇到
我現在在用的這台5700G
RAM就是新品故障 有Cell是壞的
→ ChungLi5566: 位元翻轉難的是苦無證據,但它真實存在3F 223.137.36.99 台灣 06/13 15:16
推 wei115: ecc、non ecc的價差一倍,同樣64gram資料可以多一倍副本,以資料安全的視角後者是否更可靠?5F 42.76.32.34 台灣 06/13 15:17
就跟你說成本是+12.5%
貴一倍是商人看你沒辦法薛你的
聽不懂膩
→ wei115: 不是說ecc不重要,而是預算有限的情況下,投資ecc是否有效益8F 42.76.32.34 台灣 06/13 15:19
→ HamalAri: 沒 ecc 要怎麼知道哪份是對的? 單純有 raid1 沒 checksum 也沒辦法scrub. 而且記憶體要是有問題, 有raid 或有 checksum 也沒用, 除非你運氣好都是遇到久久發生一次的隨機 bit flip, 單純舊了過保了不穩了的記憶體沒 ecc 要等到當機才會發現10F 220.141.57.57 台灣 06/13 15:21
※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 15:30:24
推 wei115: 阿幹,我買到就貴兩倍 要是一條ecc只貴12.5% 跟進插屁眼拉= =18F 220.134.21.189 台灣 06/13 15:32
所以啊
你在那邊附和ECC是貴的沒必要
就是上了這些奸商的當
然後因為上了奸商的當
所以ECC就會繼續貴 就繼續沒必要
搞清楚一下狀況啊
※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 15:34:27
推 ericinttu: 樓下來個白算盤開課八20F 61.228.44.162 台灣 06/13 15:33
→ wei115: @HamalAri 你討論的風險當然存在 但21F 220.134.21.189 台灣 06/13 15:34
推 tn601374: 蝦皮dell那隻不貴啊22F 125.228.188.105 台灣 06/13 15:35
→ wei115: 更多風險的是什麼?是沒有良好備份23F 220.134.21.189 台灣 06/13 15:35
→ tn601374: 2千多16g好像24F 125.228.188.105 台灣 06/13 15:35
→ wei115: 當手上絕大多數資料只有一份的情況下 比起投資ECC更重要的是投資備份不是這個洞不大 而是優先補更大的洞25F 220.134.21.189 台灣 06/13 15:36
→ wei115: 奸商又不是我能控制的= =29F 220.134.21.189 台灣 06/13 15:38
那你就繼續助紂為虐吧
至於投資在什麼上重要不重要
確實
如果你錢只夠再買一顆硬碟
不夠多買ECC記憶體
那確實是該先買硬碟
但這也代表你的資料就只值這點錢而已
※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 15:41:06
→ HamalAri: 有人大概以為 ram 出錯只會出錯在資料上, 要是今天這個 bit flip 發生在你的備份程式上呢?30F 220.141.57.57 台灣 06/13 15:40
→ wei115: Linus也噴過阿 把一個基礎功能當高集功能加價賣
板上一堆人用windows存自己的資料33F 220.134.21.189 台灣 06/13 15:40
噓 GoGoJoe: 一堆亂比喻 排泄物又出來了36F 114.33.146.173 台灣 06/13 15:42
→ wei115: 資料消失是壞軌還是ram出錯更多?37F 220.134.21.189 台灣 06/13 15:42
→ GoGoJoe: 文字沒有好好寫 再專業也沒用
難道你沒有做防彈車出去 你的命只值值這一點錢 資料重要性跟花多少錢保護是兩回事38F 114.33.146.173 台灣 06/13 15:42
是誰亂比喻 笑死
在台灣你聽過幾個人在路上被人開槍?
我自己的RAM倒是新品就故障
這機率是能比喔?
※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 15:45:40
推 wei115: 更何況絕大多數人電腦存放的都是對一兩個bit翻轉不敏感的圖片、影片42F 220.134.21.189 台灣 06/13 15:45
如果他有用什麼zip、rar打包就知死了...
很多人壓縮不是為了省空間、而是為了包成一包好整理
※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 15:47:20
→ wei115: 另外會分享這部影片 只是當初組電腦的時候被太多人強調ecc了 但實際上44F 220.134.21.189 台灣 06/13 15:47
推 arrenwu: 防彈車如果一個月月租300NTD 那是該坐防彈車
然後一般人應該是不值得買防彈車沒錯46F 98.45.195.96 美國 06/13 15:49
→ wei115: 我的需求 資料量只有3T 評估的時候ecc權重本就不高 然後窮
ecc也不是100%保證 你不認為你壓縮是在增加風險嗎?難道你資料不重要50F 220.134.21.189 台灣 06/13 15:50
ECC是100%保證可以檢出錯誤
讓你有修正的機會
你要先去搞懂ECC跟RAID 1的意義
是完全不同的
噓 GoGoJoe: 我是在學你 我也認為需要做防彈車但人命還是很重要 有人認為他不需要ECC 但他的資料還是很重要 一樣道理更正 我也認為"不:需要坐防彈車54F 114.33.146.173 台灣 06/13 15:52
我這輩子自用的PC
遇到有壞Cell
大概已經四、五條了
加上親友故障的
上幾十條都有了
不知道閣下住哪
開個車被開過四五次槍
嘖嘖
※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 15:56:42
推 wei115: 你ECC要怎麼偵測3bit錯誤?58F 220.134.21.189 台灣 06/13 15:59
你說的是單列奇偶校驗
ECC是行列奇偶校驗
當然可以偵測
推 kpier2: 好可怕… 這串釣出一堆年度幹話金句59F 114.33.205.240 台灣 06/13 15:59
→ fankc: 請問PC記憶體無ECC,NAS記憶體有ECC的情況,PC傳資料到NAS,若PC記憶體有你說的問題,這樣NAS存的資料,還會是正確的嗎?60F 1.200.187.129 台灣 06/13 16:00
有可能是錯的
所以最好是全部的系統用ECC
→ wei115: 評估一項東西都是成本和風險的權衡64F 220.134.21.189 台灣 06/13 16:01
※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 16:02:53
→ wei115: 無視成本或風險都沒有討論價值
我的狀況就是沒有錢,那我自然選擇風險更高的方案 但同時盡量壓低風險65F 220.134.21.189 台灣 06/13 16:02
→ fonzae: 到底在講三小,沒錢所以選風險高
然後又要花錢壓低風險68F 220.135.27.187 台灣 06/13 16:06
在講三小喔,
就是在講不要在那鼓吹 "ECC沒用, 不值得你花兩倍的錢" ,
而是應該轉向矛頭, 去批判奸商把ECC賣得這麼貴,
害我買完硬碟就沒錢了
※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 16:07:56
→ wei115: 兩害相權取其輕
然後ecc是1bit恢復 2bit糾錯
錯誤率太高也無能為力70F 220.134.21.189 台灣 06/13 16:07
推 free112136: 我只知道奇同位跟偶同位啦73F 114.24.246.232 台灣 06/13 16:10
→ jiunmoon: 我住台中,真的遇到開7、8次槍74F 60.249.2.98 台灣 06/13 16:12
推 wei115: 最好是全部的系統用ECC 是這樣沒錯ECC是基礎功能不是高級功能 賣這麼75F 220.134.21.189 台灣 06/13 16:12
→ free112136: 不過每次家裡ram壞都是直接crash,開機不能,損失當下東西,影響不大,公司server一定都是ecc啦77F 114.24.246.232 台灣 06/13 16:13
→ wei115: 貴簡直莫名其妙 PC早就該全部換成ecc80F 220.134.21.189 台灣 06/13 16:14
→ fonzae: 誰說ECC沒用,機房建置哪一個不用?重點在服務會不會因為記憶體而停擺無法糾錯就是導致程式出錯或系統掛B而且我明明是針對wei在回應
沒錢就是風險去賭設備上線容錯問題82F 220.135.27.187 台灣 06/13 16:15
推 free112136: 我是沒看過server能在用non ecc,也沒人有這樣的選擇87F 114.24.246.232 台灣 06/13 16:17
→ fonzae: 有需求當然會納入ECC是容錯一部分家用或家用NAS少人用不是因為價錢而是對大部分人來說是非必要
有必要自然就會找支援ecc的設備89F 220.135.27.187 台灣 06/13 16:17
推 wei115: ecc少用就是因為 大多數人看到價錢就會認為自己非必要93F 220.134.21.189 台灣 06/13 16:23
推 arrenwu: 欸~ 其實也是因為一般人沒那麼容易遇到有差的時候XD95F 98.45.195.96 美國 06/13 16:28
推 gameguy: 今天收到公司買的華云AS6602T,上面用J4125,根本不支援ECC記憶體,GG(這台另外加裝上8G DDR4也是無法開機)97F 39.8.98.72 台灣 06/13 16:30
推 kaj1983: 還好我只有一隻過世的狗狗,照片都存好丟雲端丟信箱丟臉書和備份硬碟裡了,不怕檔案壞掉...XD101F 218.173.129.146 台灣 06/13 16:30
噓 Ryu3y3s: ECC沒辦法偵測所有錯誤 你剛好錯的bit夠多剛好沒辦法偵測到的可能性還是有的104F 104.133.122.109 台灣 06/13 16:32
推 abc0922001: 我真得很想用 intel + ECC107F 122.146.248.21 台灣 06/13 16:34
噓 Ryu3y3s: 不是你自己講說可以100%檢查錯誤的嗎 還是你的100%是四捨五入的?108F 104.133.122.109 台灣 06/13 16:38
→ Cubelia: 決鬥囉110F 111.255.16.221 台灣 06/13 16:39
噓 Ryu3y3s: 檢查也檢查不出來啊 排列組合很難懂?
說明一下 宇宙射線莫名其妙把你的記憶體打亂成一秒鐘前的狀態 你也檢查不出來是有錯誤的 機率很小沒錯但是不是0111F 104.133.122.109 台灣 06/13 16:41
不過我只說這麼一次
https://youtu.be/zzeuOecdgAI
去把ECC最基本的原理搞懂再出來說話
不要在這裡浪費別人時間
推 gameguy: 講這麼多,NAS只要用Intel 的celeron Jxxxx,Nxxxx,哪台可以支援Ecc DDR4記憶體?核心就不支援就是不支援,呵117F 39.8.98.72 台灣 06/13 16:44
※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 16:45:58
噓 Ryu3y3s: 世界上沒有完美的checksum 只你存在複數合理狀態 你就存在有一種錯誤是從一個合理狀態轉換到另外一個合理狀態你是無法檢查的 我們工程所做的事情就是用數學統計計算壞事發生的機率 用合適的方式解決122F 104.133.122.109 台灣 06/13 16:49
對啦 你要講那種極端的例子、那種可能到人類文明滅亡那天
也不會發生一次的事情是沒錯啦
但絕對不是 "壞不夠多驗不出來"
我記得以前學的是2bit以上都可以檢測
就算我記錯了
一個區域內要同時壞三個bit是真的很難
以現在ECC架構來說
每8byte應該就會有1byte保護
你在同一個8byte內剛好壞三個bit那是
天文數字分之一的事情
推 yeeouo: 請問要怎麼檢測記憶體有Cell是壞的是用什麼軟體嗎130F 180.217.203.163 台灣 06/13 16:55
→ Ryu3y3s: memtest 之類的可以基本檢查132F 104.133.122.109 台灣 06/13 16:55
※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 17:04:17
→ Ryu3y3s: 那你要承認一下你的錯了嗎 我是覺得承認錯誤滿重要的啦 謙虛很重要
我沒有講錯不夠多偵測不出來啊? 1bit是的確偵測的出來阿 可是你怎麼能確定一個clock內只錯一個bit?133F 104.133.122.109 台灣 06/13 17:06
喔
那就真的是我看錯了 orz 對不起
我以為你說的是 "錯的不夠多偵測不出來"
這是真的看錯了
被那個wei115搞的很上火
※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 17:14:15
→ Ryu3y3s: 我從頭到尾都只有反駁你ecc能100%檢查錯誤的點 不知道你講的是什麼?喔喔 是誤會那就好
待會補推
補推 當然還是私心希望 w大 修一下前面的回文 至少我沒有亂講話QQ138F 104.133.122.109 台灣 06/13 17:15
好 已修掉
※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 17:21:57
推 AmibaGelos: 為啥有人宣傳ecc無用論Orz 現代dram都有incell ecc好ㄇ d5甚至expose能scrub惹 雖然不知有沒有實作的QQ144F 61.228.140.208 台灣 06/13 17:27
噓 wei115: 你無視成本 一個勁的談風險 風險誰不知道? 但問題在於說發生的次數,是不是足以讓人承擔風險
你後面說3bit發生是天文數字 不就代表你願意在天文數字的機率下承擔風險?
我評估在家用場景下,ecc發生位元翻轉並損壞資料的機率 遠小於沒有備份造成資料損壞的機率 那裡性的選擇是投資備份設備而不是ecc147F 220.134.21.189 台灣 06/13 17:31
推 smallreader: PC用了ECC,但顯卡驅動一樣愛崩潰QQ157F 114.27.7.38 台灣 06/13 17:43
重點自然還是風險大還是小的問題
你說他們搞了十幾台NAS都沒有出現過錯誤
但相反的我自己用過的PC就至少壞過三四條以上
當然 我運氣不錯 壞的當下可能就發現了 因為有引起當機
但相反的會不會有壞的沒發現的呢
RAM這種東西本來就不會說壞掉一定會引起當機
很可能要過很久之後才發現已經造成了資料毀損
推 Ryu3y3s: 其實廣義的講 ECC / filesystem 的data checksum scrub 都是一種固定時間內的自我檢查 以及 儲存冗餘的除錯資料
ECC 的檢查頻率高 memory controller 每次碰都檢查
scrub 就是可能定期掃
統計學上都可以處理掉一定程度的錯誤 但是如果儲存方式沒有checksum的話就真的要看人品了165F 104.133.122.109 台灣 06/13 17:58
電腦幾乎上所有的東西都有ECC
現在連L2快取都有ECC (L1有沒有就不知道)
甚至DDR5規範已經做出On-die ECC了
雖然我不知道是不是100%標配
但這說明的是其實廠商有意識到這是必要的趨勢
※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 18:07:57
推 wei115: 我當初也有考慮ddr5,但看到資料說on-die是為了應付ddr5高頻的措施,和傳統ecc不能比,在沒有具體資料的情況下還是選擇更便宜的ddr4175F 42.76.32.34 台灣 06/13 18:13
on-die DDR5 最大的問題是能不能產生HEA,
因為比起Correct, 能夠產生警報讓我能去手動修正,
這更重要。尤其是2bit以上的錯誤。
我看了很多資料, 仍然沒法確定。
至於on-die ECC 能不能跟傳統ECC比,
一部份肯定是可以的, 好比某個bit死掉,
或是被某個天外射線給翻轉了一下。
※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 18:21:20
→ zhtw: 所以要怎樣在不助紂為虐的情況下用上ecc記憶體阿?179F 111.242.205.216 台灣 06/13 18:43
買小一點, 或真的買不起ECC, 那就買non-ECC,
但不要回過頭說 "ECC太貴、沒那麼重要" 就好--
至少也該說 "這些天殺的廠商聯合壟斷市場, 害我們用不起ECC"
※ 編輯: wahaha99 (36.226.169.102 臺灣), 06/13/2022 19:48:12
推 Ryu3y3s: 買便宜DDR5? ECC的消費級市場做大後 就可以有更多廠商競爭 拉低價格
另外還需要引起更多消費者重視吧 ECC 不只可以防宇宙射線 還可以稍微防護一些 rowhammer attack181F 1.171.163.199 台灣 06/13 19:49
→ friedpig: 想多了 這東西就是機率太低才會變成小眾市場 沒辦法普及 如果真的機率太高變剛需自然會變標配 真以為市場真的都是廠商主導想幹嘛就幹嘛 市場最後變成這樣就是代表沒啥需求
RAM都敢玩終身保固了 就代表可靠度根本沒那麼差186F 125.228.96.10 台灣 06/13 21:25
推 visa829: 我也覺得買不起就噴廠商就好,反而鼓吹ECC無用論是本末倒置193F 114.32.154.118 台灣 06/13 21:42
推 dustlike: 究竟是ECC無用還是2倍價格使ECC無用這兩個真的要分開195F 61.223.184.28 台灣 06/14 00:36
推 mmonkeyboyy: ECC 不會沒有用 如果你的東西一直讀寫 那自然很有效 & 對大量資料傳輸的正確性也會增加
這是nas 假設資料很大要保存不為過這要看在那裡翻....很多東西都能翻的....尤其是是長時間傳檔 這超多情況能翻 有一些air-gap的手法
我自己測過在某些特別環境下 翻的機率會增加數十倍到百倍
這個情況跟有些人家裡電腦就是特別容易壞的道理有點類似197F 68.52.112.190 美國 06/14 00:41
--