- +1
CTO观点:Pure Storage如何应对数据存储领域的未来可扩展性挑战
在本月于伦敦召开的简报会上,Pure Storage公司CTO Alex McMullan介绍了这家存储厂商在可扩展性、规模以及相关问题上的立场。简报的起点是Pure即将推出的更高容量直连闪存模块(DFM),目前75 TB版NAND驱动器已经开始出货,150 TB版本则在拉斯维加斯的Accelrate展会上进行了预览,最强大的300 TB版本也已被列入发展路线图。
Alex McMullan
McMullan表示,“我们将在未来几个月内,陆续发布更多公告。”
他认为三星和其他NAND供应商对于达到500层、甚至上千层,能够直接提供PB级容量规模的驱动器保持着积极态度。
SSD容量正随着闪存芯片层数的增长而不断提升——例如,美光目前能够支持232层芯片,而且有望将单元数量由QLC(每单元4比特)扩展至PLC(每单元5比特)。这种更高容量的NAND驱动器将需要更强大的控制器以处理数据放置、驱动器磨损以及垃圾收集(将已删除数据的单元收集起来并供重新使用)等需求。150 TB驱动器需要跟踪150万亿个字节,相当于1.2千万亿比特,这还不包含额外10%到20%的冗余配置容量。在这样的存储规模之下,控制器的元数据存储与处理将成为一项艰巨的任务与沉重负担。
McMullan还补充道,“我们甚至有可能从QLC提升至更高的层数,到今年晚些时候将层数推向500甚至大几百的水平。”
但他同时强调,“这个问题又要分两方面来看,其一是我们能做到什么,其二则是我们应该做什么。”
碳足迹
这类硅器件产生的碳排放相对较高。“一套Pure Storage阵列的重量一般在40到50公斤,具体取决于其在世界范围内的实际交付地点。但其对应的二氧化碳足迹却高出上百倍。数据表已经明确告诉我们,从制造的角度来看,这样一套阵列会产生4000公斤的二氧化碳,其中92%来自芯片制程工艺的端到端生产流程——从沙漠的某处开采岩石,将其粉碎、熔炼、净化,之后才是切割成晶圆再进行蚀刻。”
“那么问题在于,根据Gartner乃至其他分析机构的趋势性观点,假如我们的确正朝着ZB甚至是YB存储时代迈进,那市场真能承受如此沉重的碳排放压力吗?我们该做哪些努力来尽量减少排放?”
McMullan表示,Pure的企业客户非常重视减少碳排放,也就是说降低存储阵列制造中的碳排放及其后续运转所带来的电力消耗。
“我们正在开展一系列工作,包括常规的硬件工程、进一步优化算法以及提高供应商的运作效率等。”
“展望未来,我们将在平台当中引入更好的功率优化方法,尽可能发挥能源的最大效率、而非持续保持全速运行;又或者利用AI技术进行优化,在预计耗电量较低时以更小的功率运行系统……所有这一切,都已经在稳扎稳打地推进当中。”
“哪怕是在短期之内,我们也在积极推进这方面探索。我们还制造了一款PB级的存储驱动器,也许在不久的将来就能跨过这道具有重大意义和存储技术里程碑……实际上,我们已经与多家NAND厂商 合作,研究这个容量规模的驱动器芯片应该是个什么样子。”
后NAND时代的绿色驱动器
“很明显,我们正处于从1 TB到2 TB芯片封装的过渡阶段。但就发展路线图而言,我们的未来目标已经远远超过了这个水平——应该在四到五倍,至少是四倍。而且在此之后,我们还将进一步推进,包括考虑是否继续沿用目前的技术范式。”
这里所说的范式,自然就是NAND SSD。McMullan提到了三种具体的候选替代技术。
“我估计三种主要候选技术分别是光学介质……第二种就是PMem,还有MRMA包括ReRAM,其速率仍然是在gb级别……这样的性能对于嵌入式系统来说已经足够了,但至少要把成千上万块这类芯片组合起来,才能达到我们目前NAND的性能表现。”
“而剩下的最后一个选项……就是DNA存储。表面上看这种方案更加环保,但这个研究方向的具体实现,也仍然离不开硅芯片的参与。”
“我们不可能直接培养一条短链序列,再将其存放在试管或者冰箱当中。目前所谓酶促DNA研究的本质,仍然是生产带有小孔的微型硅基芯片,而作为写入介质的DNA物质需要被插入到这些小孔当中。后续访问过程就是通过硅芯片来实现的,因此生产这类芯片肯定会产生大量与传统嵌入式芯片相同的碳排放。”
在McMullan看来,“DNA在数据存储密度方面的确前途光明,而且也具有良好的实现前景,但目前的……传感器速度实在太慢了……每个小时只能传输4个比特左右。如果这东西是用来发送摩斯电码信息的,那速度肯定是够用的。可如果想要用它来录制视频……我觉得至少得在速度方面再提升10到12个数量级,才能达到我们目前所使用NAND芯片的水平。”
也就是说,“DNA存储在长期归档等应用场景下有着不同的表现,但对于其他普适性的应用需求,恐怕至少也要到2030年才能看得到希望。”
其实最后还有第四种选择:在玻璃基板上进行陶瓷蚀刻,类似于Cerabyte的技术方案。McMullan还专门就此与Cerabyte公司美国高管Stefen Hellmold进行了交流。
与NAND或者DRAM不同,这种存储方案不会与存储单元进行电路直连,因此访问速度同样比NAND闪存更慢。McMullan认为“目前这种存储的首字节传输时间估计要接近一分钟。但这个问题也有办法可以解决,比如采取缓存或者预取等方式。”
网络技术
然而,这还只是多维扩展问题中的一个方面。McMullan表示,“我们正在听取客户的反馈和思考过程,特别是在那些PB级数据的应用场景之下。在某些极端条件下,甚至是在AI工作负载之外,部分客户也已经开始处理EB级别的数据。”
在McMullan看来,“每一个人在面对数据管理、数据压力以及随之而来的吞吐量需求方面,都承受着相同的挑战。这种挑战不仅体现在设备之内,也体现在设备之外。英伟达公司目前的InfiniBand和Spectrum X都具有市场主导地位”,他认为这样的垄断现状绝非好事。
“作为一家企业,Pure Storage公司加入了超级以太网联盟,就是因为我们认为……以太网才是正确的前进方向,但同时也需要在速度和规模扩展能力方面再加把劲……以以太网为例,我们的传输容量是400 Gbps,但已经有客户要求支持800 Gbps。”
“好在已经出现了CXL这类解决方案,我们也正在积极加以推动。其3.1规范带来了池化、共享和内存等新机制。我们可以通过光纤实现CXL,这是一个有趣的发展方向。所有这一切,都是为了进一步加快数据的传输速度。”
现在,先假设我们可以通过联合系统容纳即将到来的海量数据集,并能够以足够快的速度通过网络传输数据。在这样的前提下,“数据科学家又提醒我们,对于这样一个庞大的集群,一套体量恐怖且快速变化的数据集,必然意味着需要使用基于排名的技术对其进行索引和标记,同时还要外挂好几个同样巨大的因子数据库。它们的大小几乎与源数据集相同——很多朋友可能完全想不到是这样。再涉及到这些数据集之上的AI标记,整个工作量还要再次翻倍。”
McMullan指出,“我认为PCIe 5明年将再次推动一波硬件迭代。但这仍然只是一种增量化的改进,并不涉及任何基础层面的突破。”
NAND驱动器扩展和联网能力也即将遭遇瓶颈,再加一时找不到在速度和环保两个方面能够完美衔接NAND的替代存储方案,McMullan承认自己陷入了困惑当中。而这还不算另外一个难题——软件设计。
软件设计
McMullan指出,“问题的本质,在于工程师们得告诉我们现在技术能够做到什么样的程度。能直接聊这类超大容量驱动器的制造和交付当然是好的,但我们得怎么调整文件系统,唯它能承载得了10万亿级别的存储对象?这比客户目前使用的规模要高出整整两个数量级,而且必须保证得在2030年跟着新一代存储系统和网络传输技术同步实现,这也成了我们目前需要敦促工程师们尽快实现的目标。”
“所以这就是我们目前关注的另一个重点,即如何构建一套比我们自己或者市面上的现有方案再强两个数量级、甚至更高的系统。这会对计算、内存、网络和带宽造成全方位的影响,而且软件层面的挑战丝毫不比硬件领域少,甚至还要更多。换句话说,硬件往往可以通过「堆料」的方式靠蛮力实现。毕竟只要愿意,我们完全可以把控制器的数量增加到4个、8个甚至12个,但数据集的管理问题又该怎么解决?”
“我们已经在算法方面、还有数据管理、数据压缩等方面做了大量工作。……去年,我们在大型系统中默认配备了压缩卡。根据我们在实际遥测、工作负载配置文件和基准层面观察到的实际情况,目前第二代压缩卡也即将与广大用户见面。”
但还是那句话,这些都属于渐进式优化,缺乏原理层面的重大突破。
“这已经成为计算机科学领域的核心挑战……目前我们能够在单一文件系统上支持10亿个文件,也有部分用例要求支持百亿级文件,这都还好。但如果我们需要在测试系统中通过单一目录承载2亿个文件,那就对应着整个存储体系至少要容纳2000亿个文件,这意味着整个测试周期可能需要几天、某些情况下甚至是几个礼拜。”
“我们目前正在开展大规模测试。在测试系统中,我们使用实际阵列作为接入另一阵列的伪驱动器,所以这实际上就构成一套Pure FlashArray,其中的阵列将自身传递给一大堆其他阵列,再将自身作为接入各个阵列的驱动器。此外我们还在推进其他大规模测试,比如在实验室场景下,我们就测试通过了一块500 TB的存储驱动器——而其实质上是一套与目标设备进行直通连接的阵列……我们目前的测试主要都在围绕这些场景展开。”
“另一个大问题就是碳排放的影响,还有如何构建起这种规模的软件工程项目。与之相比,其他的工作就要简单得多。如果我们能够像种粮食那样培植出纯硅片,那肯定是件大好事。总之我们在高度关注环境影响……这也是决定我们的未来发展路线图能否真正打造出碳友好型存储介质的关键因素。”
“如今可以说是科技行业的黄金时代。但相信每位从业者也都会有一种强烈的感觉,就是无论自己走到哪里,都像是在身处迷宫当中,似乎总也找不到出路。所以说决定一切的是我们到底能够坚持多久……我们当然可以继续朝着自己熟悉的方向前进,并在此基础之上打造出更大、更强的系统。但必须承认的是,这条路走到最后,整个制造产业链都必将、也必须掀起一波颠覆性的变革。”
“其实展望未来可能的前路一直是件有趣的事。目前很多工程师还在挖空心思想要设想2026年的存储平台应该是个什么样子——这当然是件大事。但我们现在已经几乎来到了新的临界点面前,我有种感觉,过去理所当然的一切几乎都将经历一波推倒重来。”
McMullan强调,与他交流过的企业和供应商中的IT技术从业者们,也都已经深刻感受并承认这些潜在的可扩展性挑战。至于大家能不能赶在退休之前见证足以解决一系列现实问题的可行方法,McMullan表示机会恐怕不大。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司