大家好,我是飄雷。
提起影響SSD健康的因素,我們腦海裏總會首先想到溫度。長久以來,我們都遵循着一個常識:
電子產品怕熱,高溫是性能殺手,更是壽命剋星。
爲此,我們想方設法給SSD進行被動和主動散熱,時刻監控溫度,生怕它過熱中暑。
但如果我告訴你,對於當今主流的3D NAND閃存,這個常識其實並不絕對正確呢?
你的寶貝SSD,或許並不是那麼怕熱,反而更討厭寒冷?
別急着反駁,這可不是我信口開河。前段時間和朋友WittmanARC討論SSD時,我們找到到了來自山東大學信息科學與工程學院陳杰智教授團隊的一篇重磅論文《Temperature Impacts on Endurance and Read Disturbs in Charge-Trap 3D NAND Flash Memories》。
爲了全面瞭解溫度對 3D NAND 閃存的影響,這項研究在較寬的溫度範圍(-30~70°C)內對採用三層單元(TLC)結構,並採用電荷陷阱(Charge-Trap)技術的 3D NAND 閃存芯片進行了性能測試,重點關注編程/擦除(P/E)循環過程中的原始比特錯誤率(RBER)變化(即存儲器的耐久性),以及頻繁讀取操作對存儲性能的影響(即讀取干擾),並且取得了有些反常識的實驗結果:
對於主流的電荷阱型3D NAND,它展現出了奇特的喜暖厭寒特性,適度的工作溫度不僅無害,反而有助於降低錯誤率,提升可靠性。
真正的可靠性挑戰,可能更多地潛藏在那些我們不常關注的低溫場景中。
今天,我們就來解讀一下這篇論文,看看它將如何刷新我們對SSD的認知。
一、 過去的常識:爲什麼我們總覺得高溫有害?
在2D NAND時代,存儲單元利用浮柵(Floating Gate)來存儲電子,閃存顆粒確實很怕熱。其工作原理可以簡單理解爲:高溫會讓浮柵裏的電子們變得活潑,更容易越獄逃跑,導致數據出錯和丟失。
因此,溫度越高,數據保持能力越差,錯誤率(RBER)越高,壽命衰減也越快,這套理論深入人心,也讓我們形成了高溫=殺手的固定思維。
但時代變了,技術在進步。現在市場的主流是3D NAND,特別是電荷阱架構。它的結構和原理都發生了根本性變化,通過堆疊存儲層來提升比特密度,從而解決了平面面積縮放帶來的問題;因此,關鍵問題變成了可以堆疊多少層存儲層。
上圖左側爲2D NAND 串和 3D NAND 串的示意圖,其中,3D NAND 單元包含核心氧化物、多晶硅通道、隧穿層、控制層(CT 層)、阻擋層(blocking layer)以及控制柵極(control gate)。
上圖右側爲TLC的工作原理:每個單元存儲 3 位數據,分別位於三個頁面上——最高有效位(MSB)、中間有效位(CSB)和最低有效位(LSB);V1~V7 表示讀取電壓,其中 V th 定義了電壓的下移誤差(down-shift error)和上移誤差(up-shift error)
那麼3D NAND的溫度特性是否也和老前輩不一樣呢?山東大學的團隊就帶着這個問題,進行了一系列實驗。
二、 實驗揭祕:3D NAND的反常表現
研究團隊使用專業的NAND測試平臺,在一個可以精確控制溫度的環境(-30℃ 至 70℃)中,對具有 64 層堆疊、5912 個有效存儲塊、每個存儲塊包含 768 個邏輯頁、每頁 18,336 字節的電荷阱型3D TLC NAND 閃存芯片進行了兩大核心測試:擦寫磨損測試(模擬長期使用後的壽命衰減)和讀取干擾測試(模擬高強度連續讀取數據),結果出人意料!
發現1:溫度越高,擦寫錯誤率(RBER)反而越低!
我們通常認爲,反覆擦寫(P/E)會磨損NAND,溫度越高,磨損應該越嚴重,錯誤率也越高。但實驗結果卻恰恰相反。
在-30℃的低溫下,原始誤碼率(RBER)最高。
隨着溫度升高到70℃,RBER反而顯著下降,處於最低水平。
這意味着,在一定範圍內,溫暖的工作環境反而有利於降低3D NAND的寫入錯誤。低溫環境下的閃存狀態更差,更容易出錯。
研究團隊還做了一個交叉溫度實驗:他們讓一組閃存先在70℃下受虐一段時間,再降回25℃繼續測試。結果發現,經歷過高溫烤驗的芯片,其後續的磨損退化速度並沒有比一直在常溫下工作的芯片更快。
結論就是: 對於電荷阱型3D NAND,在合理範圍內,高溫工作並不會加速其物理老化和損壞過程。那種溫度越高、掉血越快的舊觀念,一定程度上已經不成立了。
發現2:低溫讀取更傷盤,高溫竟有自愈奇效?
讀取干擾(Read Disturb)是NAND閃存的一個固有問題,指的是當你頻繁讀取某個數據塊時,可能會不小心影響到旁邊鄰居的數據,導致它們出錯。
實驗結果再次顛覆了我們的認知:
在-30℃的極寒環境下,讀取干擾最嚴重,錯誤率隨着讀取次數增加而飆升。
在常溫和高溫下,讀取干擾現象被大大抑制。
最神奇的是在70℃高溫下,隨着讀取次數的增加,RBER竟然出現了一個微小的下降趨勢!
這簡直是遇強則弱,遇暖則愈。出人意料的是,低溫下頻繁讀取數據,對SSD的傷害最大;而在高溫環境下,讀取干擾不僅沒那麼可怕,甚至還能修復一部分已有的錯誤位,展現出一種奇特的恢復現象。
論文進一步分析發現,這種恢復主要得益於高溫抑制了一種叫做up-shift errors(電荷意外增加型錯誤)的發生。
三、 這項研究對我們意味着什麼?
這項研究成果,對存儲行業和普通消費者都有着重要的指導意義。
1. 對SSD廠商和工程師:
重新思考溫控策略: 傳統的SSD固件溫控策略,核心思想是降溫保命。但這項研究表明,對於3D NAND,過度的、激進的降溫可能適得其反,尤其是在一些需要極高數據可靠性的企業級應用中(如寒冷地區的戶外設備、需要強力製冷的數據中心)。
低溫場景下的可靠性設計是新挑戰: 工程師們未來可能需要投入更多精力去優化NAND在低溫下的工作特性,而不是一味地和高溫作鬥爭。
性能調度優化: 論文還發現,溫度和P/E次數會影響編程時間。基於此,可以建立更精準的性能預測模型,讓SSD的I/O調度更智能、更高效。
2. 對我們普通消費者:
別再溫度焦慮: 看到你的SSD NAND工作溫度在50℃、60℃,甚至接近70℃,不必過分擔心。這很可能正是它發揮穩定、錯誤率較低的舒適區。只要沒到觸發過熱保護(通常在80℃以上)導致降速的程度,就讓它熱情地工作吧。
警惕極端低溫環境: 如果你的設備需要在戶外等嚴寒環境下工作,那麼你可能要更關心低溫對SSD數據可靠性的影響。
散熱依然有意義: 需要強調的是,這項研究並不是說散熱片就沒用了。給SSD散熱,主要目的是爲了讓主控芯片保持涼爽,避免主控過熱降頻影響性能,同時也能確保NAND工作在一個穩定、適宜的溫暖區間,而不是讓它越冷越好。
總結
科技總是在不斷發展中打破我們固有的認知。這項研究就像一把鑰匙,爲我們打開了深入理解3D NAND閃存世界的另一扇門。
下一次,當你看到SSD在努力工作、散發着熱情時,或許可以少一份焦慮,多一份安心。畢竟,它可能正在自己最舒服的溫度下,爲你穩定地服務呢!
論文信息:
標題: Temperature Impacts on Endurance and Read Disturbs in Charge-Trap 3D NAND Flash Memories
作者: Fei Chen, Bo Chen, Hongzhe Lin, Yachen Kong, Xin Liu, Xuepeng Zhan and Jiezhi Chen
單位: 山東大學信息科學與工程學院,高端服務器與存儲技術全國重點實驗室
期刊: Micromachines 2021, 12, 1152
DOI: https://doi.org/10.3390/mi12101152
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com