參考原文:Reviewing the Evolution of the NAND Flash Technology

# 基本原理

1.

陣列結構:排列整齊的浮柵MOS電晶體,如下圖所示:

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

根據這種電晶體裡的浮柵電荷數量儲存資訊,WL(高度摻雜的多晶矽或金屬)是控制柵,豎著的形成一串String,被WL驅動。String的選擇是透過Drain選擇電晶體,連線String到BL並被DSL驅動。下面有個Source Line,被SSL驅動。在10nm技術下,上面和下面會有一個Dummy Cell,被Dummy Line(DUL)驅動。

陣列的平面(a)和垂直剖面圖(b):

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

晶圓表面屬於同一String的單元集合在圖中一個矽條紋上,並透過淺溝絕緣(叫做STI)。矽條紋的寬度與浮柵MOS電晶體寬度W相當,就是通常講的技術節點(F)。一般儲存單元的面積差不多是4F^2,意味著WL和矽條紋的程度在2F,最小值受印刷和蝕刻工藝限制。如果一個Cell只儲存一個Bit,那麼平面網位儲存密度(NBSD)是1/4F^2。

為了安全儲存和訪問資料,就需要額外的服務單元。String上的所有單元被單個Drain選擇電晶體定址和單個Source選擇電晶體驅動,即上述的DSL和SSL,在最新的技術F=15nm的情況下選擇電晶體的門長仍然接近100nm,目的是減少對整個String裡儲存單元的影響,最新的平面技術已經支援從每個String的8個儲存單元增加到128個儲存單元。這種增加導致考慮在靠近這兩種選擇電晶體的儲存單元作為不儲存資料的Dummy Cell。另外為了可靠性還需要多餘的String來存放ECC等管理資訊,所有這些額外的空間佔整個Nand Chip的20%。

另外一個Overhead的專案就是外圍電路,如下圖16nm Nand Flash

Die所示,目的是驅動儲存陣列和提供給外部控制器介面,形象的說是管理需要儲存的電壓波形和選擇讀資料的儲存單元,一般是透過充電泵增加內部可操作電壓並提供給chip連線輸入/輸出的Pads。這個額外空間受外圍電路設計影響。如下圖所示,面積在單側和雙側電路之間顯著變化,並很大程度上受陣列分割影響,典型的所佔整個Nand Chip的大小範圍在20%到35%。因此有總位數儲存密度(GBSD)、Chip儲存密度和麵積的概念。

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

2.

主要陣列操作

儲存資料即改變儲存單元的浮柵電荷,並設定一個閾值電壓(叫Vt),等級有2^BPC個。

BPC指每個儲存單元儲存的Bit數目。即SLC BPC=1,MLC BPC=2,TLC

BPC=3。

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

上圖中負數是Erase狀態(E),正數是Program狀態(P),VRx是讀電壓。

最新的技術為了克服只有Vt能低於0V的限制,提出了虛擬負數讀演算法來解決該問題。參考:M。 Goldman, K。 Pangal, G。 Naso, and A。 Goda, “25 nm 64 Gb 130 mm 2 3

bpc NAND Flash memory,” in Proc。 IMW, May 2011, pp。 1–4和K。-S。 Shim et al。, “Inherent issues and challenges of program

disturbance of 3D NAND Flash cell,” in Proc。 IMW, May 2012, pp。 1–4。

該演算法主要基於改變單元通道的靜電勢,在讀過程完成單元Vt水平偏移,條件在讀和Data Retention之間。

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

(1) 讀操作Read:選擇的Cell在控制柵上下VRx的電壓,該String上的其他Cell和兩個選擇電晶體設定成通路Pass,DSL允許String連線到BL(VBL,R > 0V),SSL允許String連線到接地的Source Line,Vpass必須大於最大的Vt水平來允許String上未被選擇的Cell高導通而無關於他們的儲存狀態,Sense Amplifier評估儲存單元的Vt是低於還是高於VRx(對於MLC和TLC來說需要多次Sense各個VRx)。如上圖a。 讀時間在過去15年中幾十微秒,但是從SLC到MLC再到TLC有不可忽視的增長。相比Nor等儲存來說還是相當長的讀時間,主要受限於WL和BL的大量寄生電阻和電容。隨著讀的時間變長,單獨讀取某個Cell變得不適合,需要順序訪問並行處理大批次資料並充分利用。正是Page的高度平行操作和利用陣列分段及最佳化,目前技術讀吞吐量可以達到100MB/s。

(2) 寫操作Program:Fowler–Nordheim(相比熱電子注入有更好的陣列可靠性)效應使電子經過隧道氧化層薄膜從Channel到Floating Gate。由於低電流經過選擇的Cell產生低功耗,寫操作能在讀操作基礎上執行相同的頁,如今寫操作的吞吐達到20MB/s。

如上圖(b),一個高的Program電壓Vp應用在選擇的Cell上,同個String上的其他Cell上WL電壓設定成Vpass(要高於讀的Vpass)。為了避免未選擇String的Channel的自我提升,SSL接地,保持關閉所有Source選擇電晶體,僅開啟Drain選擇電晶體,並設一個正的VSG電壓到Gate,連線String到接地的BL。為了減少電介質裡的電場,絕緣DSL/SSL和DUL,DUL的電壓Vdul要比寫的Vpass電壓低。因此強大的Vp就使選擇的Cell的地Channel經隧道氧化層到達Floating Gate。

Program一個Cell結束的標誌是Vt超過了Program-Verify(Vpv)水平,這就涉及到Program和Verify(比較Vt和Vpv)演算法,如下圖所示,Vp是按照Vs大小逐步增加的,叫做增量步脈衝程式設計(ISPP,incremental step pulse programming)。下圖(a)顯示了這個過程。不僅使最終的Vt分佈變化變得很小,也可以採取更小的Vs使Vt分佈變窄(這就需要平衡Program時間和正確性了)。下圖(b)顯示Vt的增加和Vs是差不多的。

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

在隧道氧化層單元ISPP幾乎保持一個常量電場(11-12MV/cm),提供最好的解決方案平衡可靠性(要求低電場)和寫速度(要求高電場),雖然隧道氧化層隨著年的時間變薄,最先的平面技術只有6-7nm,Vp則達到或超過20V。下圖展示了不同Vs(即圖中ΔVpp)經過ISPP後得到的Vt分佈。

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

Program時間在SLC是數百微秒,MLC達到1毫秒,TLC就達到了幾毫秒。後面會介紹一些演算法說明提高Program速度。

(3) 擦操作Erase:擦除是以Block為單位,過程大概需要幾毫秒。設定一個正的高電壓Ve給P-Well,所有的WL接地。導致電子從Floating

Gate經隧道氧化層流向Channel區域。為了避免影響其他Block,String選擇器、BL、Source Line、DSL、SSL都設成Floating狀態。和Program一樣,為了避免DSL/SSL的絕緣層電子影響,在DUL上加一個Vdul電壓。Erase脈衝之後,Erase Verify會檢查Block裡面所有Cell的Vt是否低於0V,否則就會加一個更高的Ve。erase與program不同,它只看最大的Vt是否滿足,並不需要Vt分佈的形態是否緊湊。

# 歷史擴充套件趨勢

1.

特徵尺寸和位儲存密度技術節點

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

左圖是特徵尺寸的變化,可以看出平面Nand每2年按照2的平方根系數線性減小。最近的達到15nm。

右圖是每平方毫米儲存密度Gb的變化,可以看出平面Nand每2年按照差不多2(1。92)的係數線性增加。最近的達到1Gb/mm^2。

目前統計來看,一個Nand Flash,其中30%面積是外圍電路,20%是儲存單元是服務元素(比如選擇電晶體、Dummy Cell、BL接觸點、Source Line、Spare區域等),只有50%真正被用來儲存資料。

2.

晶片容量和麵積、Page大小和Program吞吐量

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

上面左圖是晶片儲存容量變化,可以看出每2年按照係數2線性增加。但是晶片的面積卻一直維持不變(136mm^2),如第三個圖所示。右圖是Page大小變化,可以看出每2年按照係數1。6線性增加。目前平面Nand典型的是16KB大小。Page大小主要受RC延遲限制,限制最大WL長度。分為ABL架構(所有Cell在同一Page)和EOBL架構(一半的Cell在同一Page)。

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

由於Page大小的增加,如上圖左所示Program吞吐量也相應增加,每2年係數1。5線性增加。比Page大小的增加稍微差一點,Program時間卻增加不大。

# 應用角度擴充套件

1.

SSD的成本和效能

過去十年,SSD用多個Nand Flash晶片並行處理,證明了是令人注目的中高容量的儲存解決方案,比HDD具有更低功耗,更高容量儲存密度。下圖顯示了近五年不同大小SSD和500GB的HDD的價格變化,HDD的價格幾乎不變,但是SSD的價格不斷在降低,特別是最近同樣大小的SSD和HDD價格幾乎一樣。這是由於HDD的瓶頸是其容量飽和於500GB,而SSD的瓶頸在於電路整合和控制器專用積體電路。

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

下邊左圖顯示了順序讀(左)和寫(右)的效能,可以看出SSD較HDD有明顯的優勢,得益於Nand讀寫的優勢和多Nand的並行處理。下邊右圖顯示了最大寫速度(左)和空閒(右)時的功耗,SSD較HDD也具有同樣的明顯優勢,特別是空閒狀態。

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

實際上,隨機讀寫SSD較HDD也具有明顯優勢,如下圖4KB的隨機讀(左)和寫(右)。

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

2.

SSD挑戰和架構選擇

儘管SSD有上述的優勢,但是仍然具有如下挑戰:

(1) Nand的寫操作是以Page為單位,並需要Erase操作,因此不能重複寫。這就要求新資料寫在空白Page,而舊資料丟棄,也就需要FTL實現邏輯地址到物理地址的轉換,以及垃圾回收機制進行舊資料空間回收處理。

(2) 從可靠性角度,垃圾回收的目標Block使用Wear Leveling技術,會構建統一的PE分佈。選擇很少寫資料的Block,並更新它們。在系統角度處理Nand的Endurance和Data Retention。這樣的操作不是免費的午餐,會帶來寫放大(WA),即資料在系統內被重複寫的平均次數。為了保證資料移動,會在系統上定義一個預留空間,當預留空間增加,均勻分佈的髒資料的數量減少,隨之減少的是與WA相關的垃圾回收操作。提供Page大小是關係到SSD效能的重要引數,會減少Mapping Table大小,影響臨時Buffer的大小。SSD協議的命令佇列深度從32到256,深佇列幫助效能提高,能集合緩衝區裡的資料並寫入到Nand陣列中。SSD可能在MLC/TLC產品中使用SLC來暫存資料。

(3) 市場細分決定了SSD架構選擇,包含客戶端和資料中心/企業級SSD。客戶端儲存要求根據工作週期活動和儲存空間儲存平均百分位元性來最佳化SSD。資料中心/企業級SSD相比客戶端SSD具有更高的工作週期。根據這樣的特性,客戶端SSD有效使用非易失性的寫快取來吸收大量寫活動,然後利用低活動期對資料進行重新組織。

# 平面Nand的工藝擴充套件

1.

製程問題

四個重要發展節點是38-40nm、40~20nm、20nm以下、F極限10nm。如下圖所示:

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

2.

物理問題

(1) Program噪聲(PN):減少Cell的面積是透過減少F的寬度,帶來的影響是減少Floating Gate到Channel到Control Gate的電容耦合,極大的增大單個已經單個是Vt的Floating Gate的電子影響。

(2) 時間依賴的Vt不穩定性:與單電子儲存在Vt的Cell裡影響一樣,工藝縮小增加了陣列操作中儲存電介質單個電荷載流子的寄生俘獲和釋放。隧道氧化層裡電子和空穴的俘獲和釋放成為陣列可靠性主要的限制,引入時間依賴的Vt不穩定性置換Program操作設定的狀態,而讓步於Data Retention。儲存單元隧道氧化層寄生載流子俘獲和釋放受隧道氧化層不同數目的缺陷導致統計可變。下圖展示了十奈米水平Nand儲存單元隧道氧化層缺陷產生俘獲和釋放電荷載流子導致Vt不穩定性的例子。

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

隨機電報噪聲(random telegraph noise,RTN)產生於隧道氧化層缺陷週期性俘獲和釋放單一電荷載流子從和到儲存單元的Channel,導致兩種狀態波動的Vt。RTN在Program操作之後立即開始影響Vt,引入尾單元Vt小於Vpv(Program後的第一次Read),進一步擴大Page的Vt分佈的高Vt值和低Vt值,這是由於長時間的缺陷導致。除了RTN,還有大量PE週期之後的電荷釋放惡化的影響。如下圖所示MLC的三種Program狀態:

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

(3) Cell-to-Cell的靜電干擾:為了保證4*F^2的Cell單元面積,平面Nand減少的特徵尺寸F不僅導致Floating Gate電晶體的寬度W和長度L的減小,也會減小儲存陣列的間距。因此導致陣列操作上存在越來越大的靜電干擾。靜電干擾會改變儲存或捕獲電荷的Cell的相鄰Cell的Vt。雖然靜電干擾在任何時刻的陣列操作上相鄰Cell存在,特別是Program操作上相鄰Cell影響很大。下圖展示了十奈米Nand Flash上Program操作帶來的單元之間靜電影響:

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

結論,受害的Cell不僅Vt分佈向上移動,並會變大,增加跨度,將會抵消先前Program操作帶來的變窄。為了減少寄生靜電影響,一些工藝技術提出,比如屬於相鄰WL的Cell之間引入空氣間隙,如下圖所示,目的是減少相鄰Cell之間絕緣體的電介質常數。再如降低Floating Gate的高度,減少他們的橫向耦合。還有智慧程式設計順序,最小化相鄰單元的Vt偏移。除了上述Program帶來的干擾,還要注意Source選擇電晶體熱載帶來的影響,解決方案前面提過,Dummy Cell的加入。

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

# 從平面到三維(3D)的架構

1.

垂直Channel單元陣列

Nand技術首次引入3D在2001年,是一份垂直Nand String帶有2個儲存單元和2個選擇電晶體的概念的報告提出來的。而首次整合的儲存晶片是在2006年提出的,包括垂直疊加的兩個具有水平String和WL的平面Nand陣列。而3D Nand技術可以粗略的劃分為兩類:垂直通道(vertical-channel)和垂直門(vertical-gate)3D技術,前者慢慢的成為了主流技術,具體原因將在後面闡述。下圖展示了vertical-channel

3D Nand陣列的概念原理構造:String正交於晶圓表面,垂直圓柱形的矽Channel從基質到BL,交叉的WL作為儲存單元的控制門,類似於平面Nand上下是兩個選擇電晶體,相鄰的Cell被設定成Dummy,所有的Memory和選擇電晶體具有gate-all-around結構,在控制門和矽Channel之間具有最好的靜電耦合。目前技術40nm的24層3D Nand實現等效的15nm平面Nand的儲存容量。

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

上述結構的缺點是僅獲得多晶矽Channel,相比較單晶矽帶來較低的電子/空穴移動率。為了緩解這個問題,提出瞭如下圖的Macaroni-like channel幾何結構,減少多晶矽厚度到15nm,中心並填充介質材料。

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

不同的3D Nand技術的不同在於儲存單元儲存電荷的材料使用,既可以是通常的多晶矽也可以是具有高密度陷阱中心的電介質層(典型的氮化矽,也叫做charge-trap storage)。下圖展示了兩種型別的Nand String的截面圖(圖a是charge-trap storage,圖b是floating-gate storage,ONO是指氧化物和氮化物),提供了優缺點並存的Program/Erase效能、可靠性、整合複雜性。除此之外還有WL的材料選擇,主要是先柵極的高摻雜的多晶矽和後柵極的金屬構成。

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

2.

3D Nand技術的效能和問題

下圖展示了24層3D技術的GBSD演進,預計到2024年到512層。增加的層數導致WL堆疊的高度增加,假設每個WL高度是80nm,到2014年預計是40um,離目前晶圓變薄後的晶片高度不遠了。這將面臨一些挑戰,增加的WL堆疊高度會增加垂直多晶矽Channel的長度,進而增加String的阻抗,隨之減少的是參考讀電流。針對這個問題,似乎不可能減少矽Channel的直徑,現在已經是70nm了,除非是選擇不同的材質。

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

除此之外,矽Channel直徑的減少,將限制錐形輪廓挖洞堆疊材料來與WL隔絕。如下圖所示,蝕刻技術會將孔直徑從上到下減小。為了避免String太大的Cell到Cell變化和隨著層數增加越加惡化,新技術需要減少下圖的角度。它的限制包括String阻抗、WL阻抗、WL到WL的寄存電容、相鄰Cell的靜電干擾。垂直Channel的3D陣列具有更大的Cell面積,能有效減少Vt下單個電子/空穴的影響,因此減少前面所述的Program噪聲問題;同時極大的減少RTN和經過隧道氧化層捕獲或失去電荷帶來的Vt不穩定性;除此之外,gate-all-around的幾何結構帶有增加的WL傾斜極大的減少了單元之間的靜電干擾(大概減少了80%)。這些提高也要歸功於圓柱形的結構,都極大的增強了Program的效能。

2017回顧Nand Flash技術演進

2017回顧Nand Flash技術演進

3.

最後一瞥它的應用

3D Nand的趨勢明顯,但是應用還尚不清晰。可以看出帶來的是晶片容量的增加和成本的減少,勢必引來SSD來替換HDD。效能再如平面Nand一樣增加,比如Page大小的增加、Program吞吐量的增加、以及系統容量的增加、尺寸的變小,相應的SSD所需的晶片數量每2年50%的減少。可能帶來成本的降低和寫效能的25%降低。總而言之都是成本和效能的權衡。