X的巨型计较机更动了SC500性能游戏

2024-12-18 04:40

起首：云云众生s

X.AI刚刚安设完成Colossus，这是全国上最大的AI超等计较机。微软、谷歌、Facebook、亚马逊和Oracle等超大限制云行状提供商也正在插足数十亿好意思元。

译自X's Colossus Supercomputer Changes the SC500 Performance Game，作家 Agam Shah。

关于计较硬核玩家来说，性能是不可协商的——AI行状的快速反应与他们家用电脑中最新GPU的速率一样紧要。

像X公司的巨型计较机Colossus这么的令东说念主难以置信的AI超等计较机正在取代传统系统，而这些系统转折地影响着用户的举座计较体验。

硬件人人们当今正在护理新的计较本质。跟着新的AI超等计较机取代传统系统，旧的系统性能估量措施正在被淘汰。

本周，Top500组织发布了一个列表，其中包含全国上最快的超等计较机。凭据该列表，好意思国动力部领有三台全国上最快的超等计较机。

30多年来，Top500榜单一直是记录传统计较机速率逾越的巨擘文献。AI超等计较机正在颠覆这一趋势，并可能使Top500榜单成为夙昔时间的遗物。Top500时常每年发布两次榜单。

最新的Top500榜单有一个新的领导者，劳伦斯利弗莫尔的El Capitan，其性能达到1.74 exaflops，其次是之前排行第一的ORNL的1.35-petaflop Frontier，然后是阿贡的1.01 exaflops Aurora。

淘汰旧的

传统计较和AI是两种根底不同的数据惩处样子，它们的性能估量措施也不同。它们不成同期包含在吞并个列表中。

大型云行状提供商正在通过销毁旧式数据中心和非AI行状器来为AI行状器闪开。东说念主们对用于数据库、ERP和Web行状的传统系统敬爱较小。

X.AI刚刚完成了Colossus的安设，它是全国上最大的AI超等计较机。Colossus用于西宾Grok 3。它领有的GPU数目卓越全国上任何已知的传统超等计较机。X尚未公布Colossus的系统性能，但要是将其算作传统计较机进行基准测试，它很容易进入前十名。

大型云行状提供商微软、谷歌、Facebook、亚马逊和Oracle正在斥资数十亿好意思元用于领稀有千个GPU的AI超等计较机。

架构变化

几十年来，CPU界说了传统计较机的性能。科学家们暗示摩尔定律仍是失效，随之而来的是CPU扩张也行将停滞。

GPU是升迁性能的样子。GPU亦然AI系统的焦点，而CPU更多地充任转化器的变装。

跟着英伟达和AMD每年发布新的GPU架构，GPU性能只会胁制提高。

英伟达来岁将推出Blackwell GPU来取代Colossus中使用的Hopper H100 GPU。凭据独处组织MLPerf发布的基准测试截止，Blackwell的性能约略是H100的两倍。

大型云行状提供商正在部署为GPU缠绵的新的行状器。Oracle行将推出的Colossus杀手将领有多达131,072个Nvidia GPU，据该公司称，“这比Frontier超等计较机多三倍以上，比其他大型云行状提供商多六倍以上”。

AI超等计较机领有更大的内存和存储空间，并优先斟酌组件之间更快的通讯。

本领各别

传统计较和AI超等计较机的计较样子不同。根底的分辩在于对查询反应的精度。更高的位数时常暗示计较精度更高。

传统系统计较准确并提供精准的谜底。这需要同期使用最多的64位或32位计较资源来生成最好谜底。系统在64位或32位计较下启动温度更高。

Top500启动64位基准测试来估量惩处器回报查询所需的时分。高精度计较关于金融预计和科学计较至关紧要，这些边界严重依赖数据准确性。

AI则不同。计较作风更雷同于揣度，谜底准确性会跟着时分的推移而提高。这些系统优先斟酌计较后果而不是数值精度。

Top500组织者当今正在极力寻找对最快的AI行状器进行排行的措施。

AI计较使用4位到16位的数据类型，这些数据类型的精度低于64位。AI超等计较机向用户提供可能的谜底，GPU并愚弄命以凭据查询和数据趋势提高准确性。跟着系统学习更多内容，谜底会变得更准确。

开源生成式AI模子Llama和Gemma的分支已被量化到8位和4位，以用于速率和内存容量有限的挪动诞生。

AI基准测试还必须斟酌模子的反应质地和磋议性，这使得硬件测量变得复杂。4位量化模子将更快，但精度远低于8位量化AI模子。

独处组织MLPerf制定了递次，凭据任务（西宾或推理）、生成式AI模子、量化和其他范例来估量AI速率。

包括英伟达、谷歌、英特尔和AMD在内的芯片制造商通过MLPerf发布AI基准测试截止。

新本领的加入

Top500组织者Erich Strohmaier旧年推测，传统超等计较到2030年将无法达到10艾弗洛普斯。英特尔在2021年书记传统计较速率将在2027年达到泽塔弗洛普斯。

微软的561拍弗洛普斯Eagle超等计较机在Top500中排行第四，亦然前十名中独逐个个贸易云系统。Azure系统辘集了Ubuntu Linux、英伟达的H100 GPU和英特尔的第四代至强惩处器。

云提供商莫得向Top500提交基准测试截止，因为这将破坏时分和财富。这么作念会使系统无法为客户打听数天或数周，而这在AI需求激增的情况下是不切实质的。

一些AI硬件无法取得，因为组件无法现货购买。谷歌正在使用其自研的TPU（无法现货购买）来启动其AI使命负载。相似，AWS的Trainium AI芯片只可通过其云行状取得。

Top500组织者当今正在极力寻找对最快的AI行状器进行排行的措施。

该组织有一个名为HPL-MxP的基准测试，涵盖夹杂精度测量。它斟酌了4位到16位的数据类型来估量超等计较机的AI速率。HPL-MxP将与将AI与传统使命负载合并的科学家磋议。

人人们本周还在SC2024超等计较会议上约聚，寻找估量AI速率的措施。X.AI的Colossus超等计较机将成为盘考的紧要内容。

英伟达将Colossus归类为全国上最大的加快系统。

这台超等计较机的建造速率创下了记载，“从诞生拜托到西宾仅用了19天，并在122天内全面投产，”英伟达加快计较总监Dion Harris说。

Colossus的性能数据尚未公布，但Harris暗示，“X对系统的性能感到稀罕欣喜。”

Harris说：“这次部署为大限制AI设定了新的表率。”

本文在云云众生（https://yylives.cc/）首发，宽饶人人打听。