作家:周源/华尔街见闻“自拍偷拍”
9月25日,英特尔细密推出AI加快卡Gaudi 3和“Granite Rapids”Xeon 6(至强6,就业器CPU)。
Gaudi 3对标英伟达H100和AMD的Instinct MI300,用于GAI和HPC;Xeon 6专为东谈主工智能和高性能计较场景遐想。
虽弱但强?怎么转圜?本年4月,英特尔就文书,将于本年四季度推出Gaudi 3,刻下,阛阓终于不错看到这颗英特尔倾尽全力研发的AI加快卡的试验性能,究竟有多强。毕竟,英特尔要靠这颗芯片正面PK英伟达广受阛阓接待的H100加快卡。
除了选用HBM2E(第三代)手脚存储中心,较为令东谈主招引——H100用的是HBM3(H100 SXM5 GPU是众人首款使用HBM3内存的GPU,提供了高达3 TB/s的内存带宽),其他的性能升级,至少从参数看,还瑕瑜常惊东谈主的。
Gaudi 3收受台积电5nm制程工艺,领有两个芯片组:每个芯片组各有4个(所有8个)MME(矩阵乘法引擎),包含64个张量科罚器中枢(TPC,带有FP32累加器的256x256 MAC结构);SRAM缓存容量翻番至96MB,带宽翻倍至19.2TB/s;HBM2E内存容量从96GB增多到128GB(8颗),带宽为3.7TB/s。
与前代Gaudi 2比较,在物理设置上,Gaudi 3也有昭着的大幅晋升。Gaudi 2用了台积电7nm工艺,有24个TPC、2个MME和96GB HBM2E高带宽内存。但不知出于何种筹商,英特尔Gaudi 3仅援救FP8矩阵运算和BFloat16矩阵和矢量运算,不再援救FP32、TF32和FP16。
性能方面,Gaudi 3的MME和矢量BF16的参数都赶不上英伟达H100。
Gaudi 3的MME BF16/FP8都是1835 TFlops(1.835亿亿次/秒),矢量BF16能达到28.7 TFlops(28.7万亿次/秒),折柳比Gaudi 2晋升3.2倍、1.1倍和1.6倍;然而英伟达H100的这三项性能参数折柳为BF16的1979 TFlops(高于1835 TFlops)、FP8的3958 TFlops和1979TFlops。
在中枢肠能参数上,Gaudi 3和英伟达H100的差距肉眼可见。然而,英特尔却声称,Gaudi 3比H100的LLM大模子推感性能跳动50%、磨练时刻快40%,详尽性价比是英伟达的两倍。
这是怎么作念到的呢?是不是英特尔的软件才略(尤其是软件开流配套器具)和AI生态比英伟达更强?毕竟硬件性能需要强悍的软件才略,以及完善的生态作念互助,智力充分激勉。
对此,英特尔莫得作念过多讲明,其声称比英伟达更强的凭据,仅是几张PPT。因此,是否真能像英特尔说的那样,还需要阛阓和时刻考证。
独一让阛阓对英伟达高度自信有信心的是售价。本年早些时候,英特尔暗意,基于八颗Gaudi 3的AI加快器套件,售价12.5万好意思元。也即是说,每颗Gaudi 3售价约15,625好意思元。比较之下,H100刻下售价为30,678好意思元,英特尔Gaudi 3的价钱是英伟达H100的50.93%。
至少英特尔高层也承认生态的价值,融会照旧相等全面的。
英特尔实行副总裁兼数据中心和东谈主工智能功绩部总司理 Justin Hotard 说,“对AI的需求正在鼓舞数据中心发生雄壮震动,业界要求在硬件、软件和开发器具方面作念出选拔。跟着咱们推出配备P核的Xeon 6和Gaudi 3 AI加快器,英特尔正在成立一个敞开的生态系统,使咱们的客户鄙俚以更高的性能、成果和安全性实施系数责任负载。”
从这个表态不错看出,英特尔的AI加快卡生态也在构建流程中。开流配套软件方面,Gaudi 3能无缝兼容PyTorch框架、Hugging Face Transformer和扩散模子;同期,Gaudi 3会提供给IBM Cloud和英特尔Tiber开发者云。
此外,Gaudi 3加快器提供三种部署口头,折柳是OAM 2.0圭臬夹层卡,被迫散热峰值功耗900W,液冷散热峰值功耗1200W;HLB-325通用基板,功耗未知;HL-338膨大卡,PCIe 5.0 x16接口,被迫散热峰值功耗600W。
基于英特尔Gaudi 3的系统将于本年第四季度从戴尔、HPE和超微全面上市,戴尔和超微的系统将于10月出货,超微的开荒将于12月出货。
遐想念念路向联发科看都?归并日,英特尔还发布了声称过久却迟迟不出面,故而快被渐忘的“Granite Rapids”Xeon 6(CPU)。
好在9月25日,“Granite Rapids”就业器 CPU 系列的高端产物终于登台,阛阓觉得,“Granite Rapids”Xeon 6与本年6月发布的“Sierra Forest”Xeon 6芯片组合起来,照旧能打的,起码能裁减英特尔在IDC(数据中心)领域的阛阓耗损。
阿朱 露出尽管这个扫尾不那么好——推出一颗新的性能强劲的科罚器,作用只是是裁减耗损,这不管怎么说,都有点令东谈主报怨。然而,英特尔的敌手——AMD刻下对英特尔来说,后者难以在技艺、本钱、性能和阛阓等维度作念到超过,故而若能减少耗损,这扫尾依然相对瞎想。
由于Xeon 6的E核(能耗)和P核(性能)变体的芯片封装和架构,在2023年的Hot Chips 2023依然公开,是以试验上,对“Granite Rapids”Xeon 6来说,性能晋升的亮点就9月25日流露的信息看,最饱读励至少是英特尔公司信心,部分让阛阓看到但愿的亮点,是——Xeon 6晋升了遐想水平。
芯片遐想水平能决定最终的性能推崇,芯片遐想最难的部分是弃取,这取决于对特定芯片定位、性能、技艺水平、本钱、竞争和阛阓需求度等极多维度的详尽筹商。
比如联发科技遐想旗舰芯片的中枢筹商是要在保握相对低功耗的基础上,再筹商性能晋升;而高通更追求高性能,不像联发科那么相等追求功耗均衡,是以之前推出了饱受阛阓诟病的火龙芯片。
英特尔的芯片遐想筹商,有点访佛于联发科。比如IPC(每时钟指示数)常被用来臆度CPU性能的紧迫预备。那么在芯片遐想时,无拒绝晋升IPC是可取的吗?
别忘了还有能耗拒绝。诚然台式机或者就业器,对能耗的容忍度更高,但也会详尽筹商能耗本钱。此时应该怎么选拔?
最近,英特尔高档连系员兼Xeon 6产物线首席架构师Ronak Singhal对这个话题有过一番讲明, 中枢不雅点就一个,英特尔Xeon 6的遐想念念路是降固执耗,同期再尽可能的保握高性能,故而不外分追求IPC。
这个遐想指示念念路的扫尾即是,“Granite Rapids”Xeon 6,英特尔将中枢数目从之前的两颗P核的56个中枢晋升至120个,增多2.3倍,而顶部部分的功率仅增多至500W,仅增多1.4倍。
总的来说,Xeon 6的性能特质许多“自拍偷拍”,比如超中枢数(UCC)变体,即Xeon 6 6900P,具有高达504 MB的L3缓存,远超经常的英特尔芯片缓存容量。然而Xeon 6也有很奇特的遐想,比如不援救援救四路和八路就业器的变体,这和Gaudi 3使用HBM2E不异令东谈主困惑。
风险指示及免责要求 阛阓有风险,投资需严慎。本文不组成个东谈主投资淡薄,也未筹商到个别用户罕见的投资标的、财务情状或需要。用户应试虑本文中的任何主张、不雅点或论断是否安妥其特定情状。据此投资,拖累自夸。