苹果是如何在M1 Max芯片上实现如此高的内存带宽的?

时间:2022-01-10 08:25:54   作者:
建立了一个快速的内存总线。差不多就是这样。让我们深入研究一下。我们从我的电脑开始。这是我自己组装的一台电脑,基于AMD的锐龙9 5900x处理器。该处理器运行双64位宽DDR4内存通道,共有64GiB DRAM。根据维基芯片,这可以达到47.68 GiB/s的峰值带宽,这听起来很合理,而且非常快。

当然,我的系统有一个独立的GPU,它也运行一个非常快的内存总线。我有一个nVidia GeForce GTX 1650在这里与GDDR6内存,额外128GiB/s的内存带宽。你怎么去那里?这是一个独立的128位宽内存总线,具有GDDR6内存,比DDR4快得多,但专门用于图形性能。这一点很重要,因为你的GPU,以及进行2D和3D渲染、着色等操作,也会在每次屏幕刷新(例如每秒60次)时获取显示内存。因此,分配给GPU的负载意味着CPU内存上的负载要少得多。

苹果是如何在M1 Max芯片上实现如此高的内存带宽的

让我们从苹果的M1芯片开始。这个实际上是作为一个CPU模块交付给苹果的,就像一些使用HMB内存的现代gpu一样。对于不需要用户灵活性的足够宽的内存,这可以允许更快的时钟,更精确的布局,更短的系统开发时间(DDR内存增加了PCB设计的层和复杂性),更紧凑的主板,等等。因此,苹果的基本款M1,和Mac Mini一样,峰值为68.25GB/s。

如何?嗯,它们还每次使用128位值的数据,以及LPDDR4X内存,这是对基本DDR4/LPDDR内存的改进,允许更高的时钟速率,因此更高的带宽。考虑到他们的系统-芯片-模块配置,他们可能会把速度比典型的“DDR4X”内存的普通PC快一点……如果这样的东西存在的话。它确实没有——LPDDR4X主要是针对移动设备的调整,这当然是苹果的世界。PC行业的其他所有人都转向了DDR5。

这是快速的,但一旦你考虑到图形获取的持续需求,相对于拥有独立GPU和CPU内存的PC来说,就会有一个固有的开销。而且,这些内存都是CPU内存,因此无法利用GDDR内存中的专用图形支持。苹果的方法的优势在于,GPU和CPU之间没有PCIe总线——它们对DRAM有同等的访问权限(当然,图形读取除外,它必须覆盖其他的DRAM活动)。但这与英特尔和AMD多年来使用的CPU+GPU集成系统没有什么不同。

将其与我的另一台基于Threadripper 1950X的台式电脑进行比较。它运行四个64位通道的DDR4内存。这可以管理大约79.5GiB/s的内存带宽作为一个工作站级系统从大约三年前。所以苹果在这方面做得很好,至少在考虑到GPU之前。我有一个AMD的RX580和一个nVidia的RTX2070S在那个系统,所以这是另一个256GiB/s在RX580和448GiB/s在RTX2700S。他们怎么这么快?它们运行在256位的内存总线上,就像Threadripper一样,只是,再次,独立的和基于GDDR DRAM。还要记住,这是一个老系统。将苹果和苹果的产品进行比较。Mac Mini是一台售价650美元左右的电脑。如今,你几乎可以花同样多的钱买RTX2070 Super,更不用说RTX 3070或3080了。

苹果是如何在M1 Max芯片上实现如此高的内存带宽的

因此,接下来的M1 Pro和M1 Max(如图)做了同样的事情,但更多。和M1一样,M1 Pro和M1 Max都是只带有cpu内存的soc(又称“统一”内存,就像20世纪70年代的每一台计算机,以及今天所有的集成gpu和每一部智能手机(这不是一个新概念)的多芯片模块。

我确实提到了mcm被用于gpu,但特别是带有HBM内存的gpu。HBM内存在GPU和支持的每个HBM内存堆栈之间运行1024条数据线。所以现在有些gpu有4096位宽的内存总线。这不是一个普通人想要在普通的印刷电路板上设计的东西(也就是说,我提到的Threadripper是在普通的PCB上,有4094个引脚,但很多是电源和接地的)。

所以M1 Pro有一个256位宽LPDDR5内存总线,相当于一个四通道DDR5 PC系统。他们得到了204GiB/s, DDR5再次比LPDDR4X更快。是的,LPDDR5,他们仍然在使用智能手机内存。M1 Max再次加倍,512位宽的DDR5总线能够达到408GiB/s的峰值带宽。

这仍然不是对高端nVidia gpu的胜利。但另一方面,CPU可以比普通的英特尔或AMD桌面CPU使用DDR4获得更多的带宽,只要GPU不忙于视频读取之外的事情。我所了解到的DDR4 CPU系统的峰值大约是170GiB/s-200GiB,使用今天的8通道(256位)Epyc和Xeon处理器。因此,苹果,带着一些第一批LPDDR5系统出门(作为笔记本/台式机——三星在2020年初推出了LPDDR5手机,但他们实际上是在内部生产的东西),在单cpu总线带宽上领先,尽管不能与高端专用gpu相比。

AMD和英特尔都公布了支持DDR5的下一代处理器的细节。AMD计划为DDR5开发一个12总线版本的Epyc——如果你算上的话,这是一个768位的总线——应该能够达到624GiB/s左右。英特尔正在讨论在他们的一些高端系统中使用HBM,以及在同一芯片上使用某种级别的DDR5。每个HBM堆栈可以获得460GiB/s,所以如果提供四个堆栈,那就是1840 GiB/s。苹果的和一般的消费型个人电脑不太可能使用HBM -至少现在的HBM -因为它可以吸收10-20W的功率堆栈!
声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:123456789@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。