朋友们大家好,很高兴您能看到这个视频
因此,英伟达 刚刚打破了一项令人难以置信的记录,并再次证明他们拥有全世界最好的 AI GPU。
为了设定这一基准,英伟达 使用名为 CoreWeave 的云提供商组合了 3,584 个 H100 GPU,
他们试图看看训练所有 GPT-3 的速度有多快,GPT-3 是 OpenAI 的 Chat GPT 的早期版本。
我们将讨论实际上对此进行基准测试的第三方组织。
但他们将大量 H100 GPU 的功能与类似数量的 英伟达 A100 80GB 卡和 V100 GPU 进行了比较,
后者基本上是三年和大约六年前的最先进技术。
令人疯狂的是,H100 能够在短短 46 小时内训练完所有 GPT-3,这简直是太疯狂了。
与A100s相比,A100s大约需要36天。
因此,疯狂的是 H100,尽管它具有相同数量的物理 GPU,实际上消耗的电量更少,但速度
却比之前最先进的技术快了近 20 倍,这完全是疯狂的。
V100 实际上花了 51 天。
这是一个相当大的集群。
大多数人实际上无法想象拥有 3,500 个当今人类可用的最先进 GPU 的成本。
然而,这一进步提出了一些有趣的问题。
根据我们现在从 英伟达 了解到的信息,我们实际上可以在这里提取一些非常有趣的见解。
首先,很多人会问,AMD 能与之竞争吗?
尽管这件事发生的时间令人印象深刻,对吧?
这个大型模型需要 46 小时才能完成,五年前还需要近两个月的时间来训练。
这里的问题是,是什么让这成为可能?
真正的答案不仅仅是 GPU。
正是由 英伟达 创建和策划的平台、网络和软件使这一切成为可能。
因此,尽管 AMD 推出了一些有趣的新加速器,例如 Mi 2500 和 3000,但
这里的区别在于,即使 GPU 很快,行业标准是 英伟达,
最好的软件是 英伟达,最好的开发人员正在使用 那。
因此,如果你要出去选择这个,你知道,这是有一点风险的,而且它是不同的。
即使性能相同,这种基准测试实际上还没有被证明可以在 AMD 上运行。
AMD 的另一件奇怪的事情是,现在他们正试图更加认真地对待这一问题,
这实际上增强了 英伟达 的地位,因为这使得 英伟达 在 AI 领域的能力方面看起来不那么垄断。
还有其他一些问题。
那么一个问题是,摩尔定律真的变得更快了吗?
令人好奇的是,摩尔定律在技术上已经放缓。
因此,使用 GPU 进行 1 万亿次浮点运算的成本和相对密度并没有太大变化。
它的移动速度比过去几十年要慢。
然而,重要的不一定是计算密度或我们消耗了多少能量,而是它的扩展能力。
英伟达 首次展示了他们最高端的 GPU
最重要的是他们的新 InfiniBand 接口,这是一组将所有这些 GPU 连接在一起的光纤,
因此您可以将它们视为一个大型 GPU。
他们已经实现了接近线性的缩放。
因此,如果将 50 个 H100 与 100 个 H100 进行比较,线性缩放意味着 100 个 H100 的速度是 50 个 H100 的两倍。
如果再添加 100 个,那么 200 个 H100 的速度将是 100 个 H100 的两倍。
对于我们这些记得 英伟达 SLI 时代的人来说,
您最多可以将四个 GTX 580 放在一起或两个 GTX 590,这在我们拥有双 GPU 卡时就已经存在了。
您会记得,在玩游戏时,两个 GPU 可能会比单个 GPU 提高 40% 的性能。
添加三分之一,你知道,可能是微不足道的 12% 到 14%。
如果你只是一个玩家,并且有足够的钱购买四块 GTX 580,
那么在大多数游戏中第四块完整的 GTX 580 可能只会再给你带来 8% 的性能提升,通常会更少。
这是非线性缩放的一个例子。
所以基本上,当你添加更多的卡时,每增加一张卡,回报就会减少。
这就是为什么这很疯狂。
英伟达 已经证明,是的,我们可以将 3,500 个这些组合在一起,并实现近乎线性的缩放。
因此,如果您有 6,000 个,您知道,限制实际上取决于您拥有多少能源、
建筑物中有多少空间以及 英伟达 InfiniBand 接口的突破点,
这也是他们对 Mellanox 进行巨额投资的原因, 这是一家只生产网络基础设施的公司。
另一个很酷的事情是它没有在 HPC 集群上进行训练。
这实际上是一个动态分配的集群,来自一家名为 CoreWeave 的云提供商,该提供商实际上专注于 GPU 集群。
我认为值得一提的另一件事是,这里使用的基准是来自一个名为 MLPerf 的独立组织的基准。
因此,每年他们都会聚集在一起,创建一些通用的异构基准测试
他们认为这些基准测试可以很好地了解,如果你大规模运行这些基准测试,就可以了解当年运行它们的硬件有多好。
这可能包括循环神经网络、GAN、LLM,甚至今年的一些生成人工智能。
有趣的是,你知道,一些公司专注于定制加速器,
例如,有点像特斯拉所做的,海湾地区还有其他一些小公司说,
哦,好吧,我们将专注于relues,或者我们将专注于某些特定的行业领域。
这很有趣,因为对于那些知道 ASIC 是什么的人来说,ASIC 是专用集成电路,
所以,你知道,对于挖矿来说,它们实际上只能很好地完成一件事。
从技术上讲,英伟达 GPU 是一种 ASIC,因为它可以很好地执行并行计算。
然而,它们稍微更通用一些,这是在你看到 FPGA 之前的情况,FPGA 的速度要慢得多。
因此 英伟达 在他们的芯片中找到了这些东西的平衡。
真正酷的是,他们实际上在 MLPerf 基准测试的每个类别中都获得了最佳成绩。
该基准测试具体称为 MLPerf 3.0。
而且如果你去ML Commons网站,你实际上可以查看3.0的结果,这些结果都是由英伟达持有的。
这里实际上是多种系统的混合体。
所以就有了云实例。
还有一些本地实例按实际构建服务器的人员进行细分。
因此,如果您决定花费数千万或数亿美元购买设备,这也很酷。
你可以看看什么是最好的,你甚至可以将它与 英伟达 自己的硬件进行比较。
他们拥有配备多种不同 CPU 的 DGX-H100。
英伟达 不仅在训练 GPT-3 的速度方面击败了竞争对手,我认为这是最相关的,也是我们观众最容易理解的。
但是,是的,他们在每个类别中都做到了这一点。
因此,认为目前在人工智能方面还有其他公司比 英伟达 更好的想法有点夸张。
当然,如果我们没有某种气候角度来看待这个问题,就不会是 2023 年。
这种密度的有趣之处在于,您确实开始将 英伟达 GPU 视为提高效率的最佳选择之一。
我也知道 Lambda 也有一些 H100。
他们的人数很少,我想现在有几万,而且规模只会越来越大。
再说一次,这更像是一个技术视频,但我认为观看这个视频非常酷,因为它显示了 英伟达 相对 AMD 的领先优势。
这表明 英伟达 在这里创建的生态系统正在发挥作用,并且经第三方机构验证无疑是最好的。
那么请告诉我您对 H100 的看法。
请告诉我。
有些人家里可能有 V100。
一如既往,我希望你能学到一些东西。
如果您喜欢我们的内容,请点赞并关注,谢谢。
它对我们帮助很大,我们将在下一个视频中见到您。
中鑫计算机Zking