搜索
新闻详情

在内存领域关于HBM的竞赛

1
发表时间:2024-01-05 16:17作者:全球芯 | Glochip.com网址:http://glochip.com/news/

由于处理器与存储器的工艺、封装、需求的不同,从1980年开始至今二者之间的性能差距越来大。有数据显示,处理器和存储器的速度失配以每年50%的速率增加。

存储器数据访问速度跟不上处理器的数据处理速度,数据传输就像处在一个巨大的漏斗之中,不管处理器灌进去多少,存储器都只能“细水长流”。两者之间数据交换通路窄以及由此引发的高能耗两大难题,在存储与运算之间筑起了一道“内存墙”。

着数据的爆 炸势增长,内存墙对于计算速度的影响愈发显现。为了减小内存墙的影响,提升内存带宽一直是存储芯片聚焦的关键问题。



长期以来,内存行业的价值主张在很大程度上始终以系统级需求为导向,已经突破了系统性能的当前极限。很明显的一点是,内存性能的提升将出现拐点,因为越来越多人开始质疑是否能一直通过内存级的取舍(如功耗、散热、占板空间等)来提高系统性能。

基于对先进技术和解决方案开展的研究,内存行业在新领域进行了更深入的探索。作为存储器市场的重要组成部分,DRAM技术不断地升级衍生。DRAM从2D向3D技术发展,其中HBM是主要代表产品。

HBM(High Bandwidth Memory,高带宽内存)是一款新型的CPU/GPU 内存芯片,其实就是将很多个DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR组合阵列。

通过增加带宽,扩展内存容量,让更大的模型,更多的参数留在离核心计算更近的地方,从而减少内存和存储解决方案带来的延迟。

从技术角度看,HBM使DRAM从传统2D转变为立体3D,充分利用空间、缩小面积,契合半导体行业小型化、集成化的发展趋势。HBM突破了内存容量与带宽瓶颈,被视为新一代DRAM解决方案,业界认为这是DRAM通过存储器层次结构的多样化开辟一条新的道路,革命性提升DRAM的性能。

在内存领域,一场关于HBM的竞赛已悄然打响。
01
巨头领跑,HBM3时代来临

高带宽存储(HBM)是三星、AMD和SK Hynix推出的基于3D堆叠同步动态随机存取存储器(SDRAM)的高速计算机内存接口。它使用在高性能图形加速 器、网络设备、高性能数据中心AI ASIC和FPGA以及一些超级计算机中。(如NEC SX-Aurora TSUBASA和富士通A64FX) 第一款HBM芯片是由SK Hynix在2013年生产的,而2015年AMD首次研发了使用这种技术的GPU芯片。

2013年10月,JEDEC(电子器件工程联合会)采用高带宽内存作为行业标准。第二代HBM2,于2016年1月被JEDEC所承认。

HBM及其接口

HBM以比DDR4或GDDR5功耗更低,带宽更高。这是通过堆叠8个DRAM die(3D集成电路)来实现的,包括可选的基die(通常是硅interposer)和memory控制器,该控制器通过硅通孔(TSV)和微突点(microbump)相互连接。HBM技术与Micron的Hyrid Memory Cube技术在原理上相似,但不是一回事。

与其他DRAM内存(如DDR4或GDDR5)相比,HBM内存总线非常宽。一个HBM stack由4个DRAM die(4-Hi)堆叠而成,并拥有8个128位信道(每个die上2个),总宽度为1024位。因此,具有四个4-Hi HBM stack的GPU将拥有4096位宽度的内存总线。相比之下,GDDR存储器的总线宽度为32位,同样16个信道则只具有512位存储器接口。HBM支持每个package的容量最多为4GB。

HBM DRAM与具有分布式接口的主计算die进行紧密耦合。该接口被分为若干完全独立的信道但信道间不一定完全同步。HBM DRAM使用wide-interface架构来实现高速、低功耗运算。HBM DRAM使用一个500MHz的差分时钟CK_t/CK_c(其中后缀“_t”表示差分对的“真”或“正”分量,“_c”代表“互补”分量)。命令在CK_t,CK_c的上升沿进行寄存。每个信道接口管理一个128位的数据总线,以双倍数据速率(DDR)运行。HBM支持每个pin上1GT/s的传输速率(传输1bit),提供128GB/s的总package带宽。

HBM2
第二代高带宽存储,HBM2,该标准指定了每个stack多达8个die,将pin传输速率提高一倍来到2GT/s。保留1024位宽的存取,HBM2能够达到每个package 256GB/s存储带宽。HBM2规范允许每个package容量高达8GB。HBM2对性能敏感的消费类应用,如虚拟现实,特别有吸引力。

HBM2E
2018年底,JEDEC宣布了对HBM2规范的更新,增加了带宽和容量。官方规范现在支持每堆栈高达307GB/s(2.5Tbit/s有效数据速率),尽管以此速度运行的产品已经问世。此外,该更新还增加了对12-Hi stack(12个die)的支持,使每个堆栈的容量高达24GB。2019年3月20日,三星宣布了他们的Flashbolt HBM2E,每stack 8个die,传输率为3.2GT/s,每stack可提供410GB/s带宽。2019年8月12日,SK Hynix发布了他们的HBM2E,每stack8个die,传输速率为3.6GT/s,每stack可提供460GB/s带宽。

HBM3
随着人工智能(AI)和机器学习(ML)领域需求的快速发展,内存产品设计的复杂性正在快速上升,并对带宽提出了更高的要求,高带宽记忆体(HBM)成为绕过DRAM传统I/O增强模式演进的另一个优秀方案。

从最开始数据传输速率约为1Gbps左右的HBM1,到2016年推出的最高数据传输速率为2Gbps的HBM2,再到2018年推出的最高数据传输速率3.6Gbps的HBM2E。

而在三星发布的最新蓝图中,其HBM3技术已于今年开始量产,接口传输速率可达6.4Gbps,相比上一代提升1.8倍,从而实现单芯片接口带宽819GB/s,如果使用6层堆叠可以实现4.8TB/s的总带宽。到2024年,预计将实现接口速度高达7.2Gbps的HBM3P,这一代数据传输率进一步提升10%,从而将堆叠的总带宽提升到5TB/s以上。

除了AI/ML训练市场之外,HBM3还可用于5G、高效能运算及其他与数据中心相关的应用场景、绘图应用和网络应用。其发展很大程度上是由不断上升的带宽需求驱动,而对带宽的需求几乎没有上限。换句话说,目前来看HBM的发展可能不会遇到障碍。但相较于GDDR DRAM动辄16/18Gbps的速率,HBM3的速率仍然存在差距,而限制HBM发展的原因则主要来自两方面:一是中间层,二是成本。

先进的2.5D/3D制造是造成成本偏高的原因。众所周知,HBM技术与其他技术最大的不同,就是采用了3D堆叠技术。HBM2E、DDR、GDDR,HBM3架构的基本单元同样是基于DRAM,但不同于其他产品将DDR进行平铺的做法,HBM选择了3D堆叠,其直接结果就是接口变得更宽。比如DDR的接口位宽只有64位,而HBM透过DRAM堆叠的方式可以将位宽提升到1024位,这就是HBM与其他竞争技术相比最大的差异。但这对成本比较敏感的客户或应用来说,使用HBM的门槛就被大幅提升了。

02
HBM未来潜力与演进方向

对于接下来的规划策略和技术进步,业界旨在突破目前HBM在速度、密度、功耗、占板空间等方面的极限。

影响HBM性能的因素
首先,为了打破速度极限,SK海力士正在评估提高引脚数据速率的传统方法的利弊,以及超过1024个数据的I/O总线位宽,以实现更好的数据并行性和向后设计兼容性。简单来讲,即用最少的取舍获得更高的带宽性能。

针对更大数据集、训练工作负载所需的更高内存密度要求,存储厂商开始着手研究扩展Die堆叠层数和物理堆叠高度,以及增加核心Die密度以优化堆叠密度。

另一方面也在致力于提高功耗效率,通过评估从最低微结构级别到最高Die堆叠概念的内存结构和操作方案,最大限度地降低每带宽扩展的绝对功耗。由于现有中介层光罩尺寸的物理限制以及支持处理单元和HBM Cube的其他相关技术,实现总内存Die尺寸最小化尤为重要。因此,行业厂商需要在不扩大现有物理尺寸的情况下增加存储单元数量和功能,从而实现整体性能的飞跃。

但从产业发展历程来看,完成上述任务的前提是:存储厂商要与上下游生态系统合作伙伴携手合作和开放协同,将HBM的使用范围从现有系统扩展到潜在的下一代应用。

此外,新型HBM-PIM(存内计算)芯片将AI引擎引入每个存储库,从而将处理操作转移到HBM。

在传统架构下,数据从内存单元传输到计算单元需要的功耗是计算本身的约200倍,数据的搬运耗费的功耗远大于计算,因此真正用于计算的能耗和时间占比很低,数据在存储器与处理器之间的频繁迁移带来严重的传输功耗问题,称为“功耗墙”。新型的内存旨在减轻在内存和处理器之间搬运数据的负担。

写在最后

过去几年来,HBM产品带宽增加了数倍,目前已接近或达到1TB/秒的里程碑节点。相较于同期内其他产品仅增加两三倍的带宽增速,HBM的快速发展归功于存储器制造商之间的竞争和比拼。

存储器带宽指单位时间内可以传输的数据量,要想增加带宽,最简单的方法是增加数据传输线路的数量。事实上,每个HBM由多达1024个数据引脚组成,HBM内部的数据传输路径随着每一代产品的发展而显著增长。

各代HBM产品的数据传输路径配置

回顾HBM的演进历程,第一代HBM数据传输速率大概可达1Gbps;2016年推出的第二代产品HBM2,最高数据传输速率可达2Gbps;2018年,第三代产品HBM2E的最高数据传输速率已经可达3.6Gbps。如今,SK海力士和三星已研发出第四代产品HBM3,此后HBM3预计仍将持续发力,在数据传输速率上有更大的提升。

从性能来看,HBM无疑是出色的,其在数据传输的速率、带宽以及密度上都有着巨大的优势。不过,目前HBM仍主要应用于服务器、数据中心等应用领域,其最大的限制条件在于成本,对成本比较敏感的消费领域而言,HBM的使用门槛仍较高。

尽管HBM已更迭到了第四代,但HBM现在依旧处于相对早期的阶段,其未来还有很长的一段路要走。

而可预见的是,随着人工智能、机器学习、高性能计算、数据中心等应用市场的兴起,内存产品设计的复杂性正在快速上升,并对带宽提出了更高的要求,不断上升的宽带需求持续驱动HBM发展。市场调研机构Omdia预测,2025年HBM市场的总收入将达到25亿美元。

在这个过程中,存储巨头持续发力、上下游厂商相继入局,HBM将受到越来越多的关注与青睐。


文章分类: 存储器
分享到:
首页                                    产品展示                                        行业资讯                                   关于我们                                        联系我们
联系电话:
0755-84828852  
0755-84866816

联系方式: 手机号码:13924642346  13872769588
                13924649321  13928483205 联系邮箱:kevin@glochip.com
公司地址:
广东省深圳市龙岗区大运软件小镇1栋401室
(3号线,14号线,16号线,33号线)
网址:www.glochip.com   www.chip.com.cn
全球芯微信公众号
加密芯片 华芯微特   艾迪科泰    博雅科技    恒烁半导体    补丁科技    晶存科技   华大电子    康盈半导体     三星半导体   海力士  镁光科技     南亚科技  铠侠  金士顿   Skyhigh  Netsol
MCU  SRAM MRAM SDRAM DDR1 DDR2 DDR3 DDR4 DDR5 LPDDR3 LPDDR4 LPDDR4X LPDDR5 LPDDR5X NAND NOR eMMC UFS eMCP uMCP