在 DRAM世界中,設計散熱散熱問題正處于危機點。問題在 14nm 及以下,設計散熱在最先進的問題封裝方案中,可能需要一個全新的設計散熱指標來解決熱密度如何越來越多地將小問題變成大問題的乘數效應。
一些過熱的問題晶體管可能不會對可靠性產生很大影響,但數十億個晶體管產生的設計散熱熱量會影響可靠性。對于 AI/ML/DL 設計尤其如此,問題高利用率會增加散熱,設計散熱但熱密度會影響每個先進的問題節點芯片和封裝,這些芯片和封裝用于智能手機、設計散熱服務器芯片、問題AR/VR和許多其他高-性能設備。設計散熱對于所有這些,問題DRAM布局和性能現在是設計散熱首要的設計考慮因素。
Nantero 的首席系統架構師、《The JEDEC DDR5 NVRAM 規范。“從 90° 到 95°C,它開始恐慌。超過 95°C,您將開始丟失數據,因此您最好開始關閉系統。”
Gervasi 說,這些數字基于 14nm 技術。他預計先進節點和先進封裝的情況會更糟。“當你縮小到 10nm、7nm、5nm 或 3nm 時,會發生什么?你的聯系失控了。你讓自己更容易受到串擾的影響,所以橫錘開始變得更加危機。這是一個非常嚴重的問題。”
造成這種情況的主要原因之一是 DRAM 的基本設計。盡管 DRAM 接口的數量不斷增加——無論是 DDR5、LPDDR5、GDDR6、HBM 還是其他接口——它們都保留了基本相似的結構。
“DRAM 芯片的核心基本上是一個連接到開關的非常小的電容器,” Cadence產品營銷集團總監 Marc Greenberg 說。“要將數據寫入該單元,您允許電流流入該電容器以從該單元讀取數據。你能感覺到那個電容器上是否有電荷。”
不幸的是,這導致了一個眾所周知的缺點。“存儲在這些微型電容器上的電荷是相對少量的電荷,”格林伯格說。“當它變熱時,它對泄漏非常敏感。”
無論架構多么新穎,大多數基于 DRAM 的內存仍面臨因過熱而導致性能下降的風險。易失性內存的刷新要求(作為標準指標,大約每 64 毫秒一次)加劇了風險。“當您將溫度提高到 85°C 以上時,您需要更頻繁地刷新電容器上的電荷,”格林伯格說。“因此,您將開始轉向更頻繁的刷新周期,以解釋由于設備變得越來越熱,電荷從這些電容器中泄漏得更快的事實。不幸的是,刷新該電荷的操作也是電流密集型操作,它會在 DRAM 內部產生熱量。天氣越熱,你就越需要更新它,但你會繼續讓它變得更熱,整個事情就會分崩離析。”
這是不歸路。“如果一個 DRAM 由于熱量/熱量而發生故障,那么其他 DRAM 很可能也會發生故障,” Rambus的研究員和杰出發明家 Steven Woo 說。“原因是所有的 DRAM 通常都彼此靠近,所以如果溫度很高,那么對所有 DRAM 都是危險的。即使使用強大的服務器內存系統,由于與熱相關的故障而僅丟失幾個 DRAM 也可能意味著整個系統出現故障。所以熱量和熱量對于內存系統來說是一個非常重要的問題。”
它不僅僅是服務器。一個芯片上大約有 80 億個晶體管,手機會變得很熱,可能需要在冰箱里呆上幾分鐘。發生這種情況時,應用程序將無法正常運行。
對于越來越密集的高級封裝也是如此。Synopsys研究員Victor Moroz 說:“熱量成為內存的一個問題,特別是在使用堆疊技術時,例如邏輯上的 SRAM 。” “當你這樣做時,會產生影響,因為那是它從相鄰邏輯中溢出熱量的時候,這對內存來說是一件壞事——對于 SRAM 來說,不是那么多,但對于 DRAM 來說這是一件大事,因為這個刷新時間成倍地依賴于溫度,因為它是一個結泄漏。當你把DRAM和邏輯放在同一個封裝里,如果是高性能計算的邏輯,那么DRAM就會吃虧。你的刷新時間縮短了,你必須更頻繁地刷新它。”
多年來,對耐熱性的需求不斷增加。“當我第一次加入公司時,0° 或負 40°C 可能是低端,而高端則為 100° 或 110°C,”Woo 說。“但如今,汽車行業需要一些最極端的溫度保證。”
更高的溫度會導致更高的刷新率,從而降低性能,尤其是在數據密集型應用程序中。“在某些情況下,如果溫度接近可接受的工作范圍的上限,系統可能會選擇提高 DRAM 的刷新率,”他說。“DRAM 保留其數據的時間取決于溫度,在更高的溫度下,可能需要提高刷新率以確保數據不會丟失。更高的刷新率意味著我們正在占用 DRAM 的一些帶寬,因此系統的性能可能會在更高的刷新率下受到影響。”
這必須融入設計。“例如,如果你正在設計一個 I/O 控制器,你就會有這個數據流被扔給你,你需要吸收它,”Gervasi 解釋說。“在當今設計所有線卡的 DRAM 世界中,如果 DRAM 刷新 350 納秒,則該內存處于離線狀態。但數據流不會停止。這意味著您必須圍繞緩沖數據設計整個架構 350 納秒,然后才能再次開始清空該緩沖區。”
嘗試調整刷新率會導致不愉快的權衡。“現在 5% 的系統性能專門用于保留您已經編寫的內容,”Gervasi 說。“這是解決辦法嗎?顯然是這樣,因為如果人們想要在 85°C 以上運行,就必須這樣做——放棄一些系統性能以獲得數據完整性。”
內存選擇很重要
為了應對這些擔憂,半導體生態系統正在嘗試多種解決方案,以最大限度地減少熱問題并提高可靠性。是德科技內存解決方案項目經理 Randy White 指出,LPDDR 通過整合一種稱為“溫度補償自刷新”的功能來解決刷新問題。 “當您需要刷新內存庫時,芯片上有一個內置溫度傳感器。有一個查找表顯示,“核心溫度每升高 1 度,就需要按比例增加刷新周期的頻率。” 同樣,DDR5 DRAM 現在包括一個內部溫度傳感器。設計精確的片上溫度傳感器很困難,因此它的精度只有 +/-5°C。但總比沒有好,這就是 DDR4 的存在。這至少有助于了解何時打開風扇,并大致說明氣流設計的效果如何。”
在標準層面,JEDEC 一直在嘗試可能的修復方案,Gervasi 說,“我們已經在 DRAM 內部設置了熱跳閘點,并討論了在下一代擁有后門訪問端口的可能性,DRAM 可以在說,‘我這里太熱了。你需要做點什么。要么減慢數據訪問速度,要么加快風扇速度。‘”
格林伯格說,市場上已經流行的一種方法是在芯片中內置糾錯功能。“在更先進的 DRAM 類型中,如 LPDDR5 和 DDR5 等密度非常高的類型,內存制造商正在實施片上糾錯。當一個位由于其電荷泄漏而變得不可讀時,DRAM 設備上的糾錯電路能夠通過將該位單元中應該存在的數據與它周圍的其他位單元以及一些錯誤拼湊在一起來糾正該錯誤校正位,也包含在 DRAM 芯片中。”
這種技術使內存制造商能夠提供擴展溫度范圍的 DRAM。許多方法都基于漢明碼,這是一種可以追溯到打孔帶時代的糾錯方案,但仍有助于糾正一個錯誤并檢測兩個錯誤。更先進的方法也已進入市場。當然,沒有人會透露他們的專有算法,但在之前的博客文章中,Synopsys 的高級技術營銷經理 Vadhiraj Sankaranarayanan 對 DRAM 糾錯進行了高級概述。
Cadence 和其他公司還為高可靠性應用提供了超出 ECC 現有功能的額外校正。
十多年來一直在取笑該行業的一項技術是微流體冷卻。除了散熱器、風扇或外部液體冷卻等標準商用冷卻元件外,學術實驗室正在進行的實驗正在將冷卻直接整合到芯片中,這種方法稱為集成微流體冷卻,其中微流體通道被蝕刻到芯片中,允許冷卻液流過它。
盡管這在理論上聽起來像是一個近乎完美的解決方案,并且已被證明可以在實驗室中工作,但Siemens Digital Industries Software的電子和半導體行業負責人 John Parry指出,它不太可能在商業生產中發揮作用。“從流體腐蝕到泄漏問題,您都遇到了各種問題,因為您正在處理極小、非常精細的物理幾何形狀。他們被抽了。我們通常發現與之相關的可靠性最低的功能之一是機電設備,例如風扇和泵,因此您最終會在許多不同的方向上變得復雜。”
不同的方法
Nantero 的 NRAM 是經過徹底重新思考并成功走出實驗室的內存設計。它不是 DRAM,而是由碳納米管制成的非易失性芯片,并且已經證明它可以承受極端的熱條件。概念驗證:Gervasi 指出,它在修復哈勃望遠鏡的航天飛機任務中在太空中進行了測試。
對于 JEDEC,Gervasi 正在開發允許 NRAM 芯片無縫插入 DRAM 的規范。但不管 NRAM 最終取得怎樣的成功,他認為碳至少提供了一條擺脫熱難題的方法。“碳納米管是卷起的鉆石。它們幾乎是熱分布。它們實際上將被部署,即使它們不將它們用作存儲單元,因為這是進行熱擴散和熱分布的好方法。碳納米管也被討論用于印刷電路板布線或芯片布線,因為它在熱分布方面非常完美。”
格林伯格說,無論選擇何種芯片和其他組件,都必須在設計階段左移并模擬熱問題,而不是將它們視為以后可以修復的不便。“你一定要考慮事情會變得多熱。這往往是事后的想法。人們只是假設要完成您必須做的計算工作,總有一個更大的散熱器可以購買。那些制造電池供電設備、手機、平板電腦和手表的人關心的是功耗,而不是熱量。可以采用許多模擬技術來改善功耗和改善散熱狀況。”
當然,生產前的模擬需要與生產后的物理分析相結合,特別是測試芯片并根據它們的性能對它們進行分類。“如果可以的話,你真的想建立一種設計,因為這可以讓你獲得規模經濟,”Rambus 的 Woo 說。“然后你可能想根據不同的規格對其進行測試。測試流程是當你有機會說,‘這個設備實際上覆蓋了非常廣泛的范圍,所以也許我們可以把它賣到汽車市場。
最后,如果更糟到絕對最壞,可以更改規范,但這對于某些用例(例如移動設備)可能是一場災難。相比之下,允許大型數據中心中的芯片溫度升高可能會帶來令人驚訝的環境效益。至此,是德科技的 White 回憶說,一家公司曾要求 JEDEC 將工作溫度的規格提高 5 度。對潛在節省的估計是驚人的。根據他們每年用于冷卻的能源消耗量,他們計算出 5 度的變化可以轉化為每年關閉三個燃煤電廠。JEDEC 最終在這個建議上妥協了。