开云kaiyun中国官网入口 平头哥发布首款智能网卡「磐脉 920」,补皆 AI 算力终末一块短板
作家|苏子华
剪辑|郑玄
最近两年,AI 行业最热的词一直绕不开「算力」。
从大模子考研,到本年 Agent 的火热,再到各家云厂商不断扩建智算中心,行业打算最多的,着实都是 GPU、芯片和算力规模。或者只消卡够多,AI 就能持续往前跑。
但现实并不是。
不少作念大模子考研和推理的东谈主,照旧越来越昭彰地感受到另一层问题:机器越来越贵,GPU 越来越强,但模子考研和推理的效果,却莫得同步莳植。
问题不一定出在算力自己,而可能出在另一件长期被疏远的事情上——网力。
平头哥居品总监李旭慧打了个譬如:「要是把算力比作 AI 时期的石油,网力等于输油管谈。算力提供能源,网力保险效果。」
4 月 28 日,在数字中国缔造峰会上,平头哥发布首款智能网卡磐脉 920。这是国内首个内置 PCIe Switch 的 400G 智能网卡,最大撑合手 400Gbps 笼统辖宽,可应用于万卡智算集群、通算集群和高性能存储等场景,现时照旧量产,并将率先部署在阿里云数据中心。

磐脉 920 想要处治的等于「网力」问题。
今天的大模子考研,一个考研任务,往往需要几千致使上万张 GPU 同期合营。单张 GPU 性能再强,也必须跟总共集群保合手同步。
问题在于,只消其中一部分节点慢下来,其他节点就只可恭候。他不雅察到,现时行业里许多万卡级智算集群,GPU 执行欺诈率较低,「能作念到 60%,照旧算行业顶尖水平。」
当年行业更容易温柔「有几许卡」,但执行在 AI 考研场景中,系统运行效果并不是由最强的硬件决定,而是受限于集群里最慢的阿谁节点。「独特节点的算力会合手续闲置恭候,酿成大规模算力铺张。」
磐脉 920 的发布执行上也指明了一个标的:当 GPU 照旧满盈强之后,下一步到底该补那儿。
一张网卡,周转总共智算集群
当 AI 智能体启动进入真正业务场景,推理业务的占比越来越高。
「在 Agent 应用爆发的配景下,推理业务的增长速率权贵快于考研。」李旭慧默示。
大模子考研强调强同步,而推理面临的是多数突发、小包、高频肯求,对低时延和沉稳性的要求更高,这也意味着对「网力」的要求更高。
而空洞一下磐脉 920 在作念的事,等于尽量减少整系统里的「堵」和「等」,通过网力的莳植来开释 AI 算力。
其背后的终了旨趣,有三个要道。
最初是撑合手多旅途 RDMA,收敛单沿路线的局限。
等闲颐养,等于原来只可走一条高速,现时变成多条路同期分流。更要道的是,这些数据固然分开走,但最终还能按规章准确拼回想。
李旭慧诠释注解,磐脉 920 通过撑合手逐包喷洒、乱序袭取和聘请性重传,终了 RDMA 多旅途。
从收场来看,这套决策带来的改善相比径直。
按照官方实测,磐脉 920 撑合手单 QP 打满 400G 带宽,而同类主流居品带宽约莫唯有其一半。同期,多旅途材干不错把交换机端口缓冲区水线虚构 90%,减少丢包和重传。
第二个要道想象,是把「绕路」变成「直连」。
磐脉 920 最大的亮点之一,是内置 PCIe Switch。这亦然国内首个作念到这少量的 400G 智能网卡。
传统管事器架构里,开云kaiyun中国官网入口PCIe Switch 平时部署在主板上,数据需要绕多个节点转发。收场等于,有的旅途长,有的旅途短,时延不一致。
关于需要高度同步的 AI 考研任务来说,这种「不整皆」会径直影响效果。
李旭慧打了个譬如:传统架构里,往往会出现「四个下行通谈挤一个上行通谈」的情况。
这很像四条歧路同期汇入一条骨干谈,堵塞着实不成幸免。
磐脉 920 把 PCIe Switch 径直集成进芯片里面,让网卡与 CPU、GPU 形成更径直的运动联系。
少绕路,意味着更低时延;旅途更同一,则意味着更沉稳的同步效果。
把柄平头哥实测,在疏浚集群规模和任务要求下,部署磐脉 920 后,大模子考研和推理任务完成时期可缩小 14%。
第三个要道,是让网罗具备我方判断的材干。
传统网卡更多像搬运工。收到数据,搬当年,仅此云尔。
据了解,磐脉 920 加入了细粒度网罗感知和可编程拥塞收场材干。直白讲,等于它能主动避堵。让网罗启动从被迫传输,变成主动退换。
关于越来越复杂的 AI 集群来说,这种材干的报复性会越来越昭彰。
从这些想象能看出来,磐脉 920 并不是在追求参数上的浅陋莳植,它作念的事情很求实,让照旧很贵的算力,少铺张少量,从而激勉最大的潜能。
为何是阿里在界说 AI 基础动作?
除了性能自己,磐脉 920 背后更值得温柔的,是平头哥和阿里的合座布局。
当年几年,许多公司作念芯片,往往辘集在单一法子,比如 GPU、AI 加快卡或者 CPU。
但平头哥的念念路是作念全栈。
现时,平头哥照旧形成四条居品线:真武系列 AI 芯片、倚天管事器 CPU、镇岳存储主控芯片,以及此次发布的磐脉系列智能网卡。
对应的,正巧是数据中心里的几个要道法子:算力、存力和网力。
李旭慧在采访中默示:「单一芯片居品无法处治全链路问题,唯有买通算力、存力、网力,材干最大化开释 AI 硬件性能。」
这亦然平头哥和许多单点芯片公司的划分。它不是只作念一块性能更强的芯片,而是试图从总共系统角度去看问题。
许多芯片公司作念居品,先作念出来,再去找客户和落地场景。
但平头哥不是。
李旭慧告诉极客公园,磐脉 920 立项之时 AI 智能体尚未成为行业焦点。但他们从阿里云自身业务中判断,异日 AI 一定会鼓舞数据中心网罗材干升级。
「一线业务场景的执行需求,是芯良晌间迭代与居品优化的中枢驱能源。」先有阿里云的大规模业务场景,再从执行场景需求里倒推居品界说。
这等于磐脉 920 的交易旅途。据知道,和平头哥倚天、真武、镇岳系列芯片相通,它会先部署在阿里云数据中心。
从这个角度看,磐脉 920 的发布,自己等于阿里「通云哥」协同材干的一次体现。
通义郑重模子,阿里云郑重场景,平头哥郑重底层硬件。模子需求鼓舞云基础动作升级,云场景又反向鼓舞芯片演进。
这种全栈自研的闭环,在国内科技公司里并未几见。「通云哥」的时势固然前期插足大、周期长,但一朝走通,护城河也极深。
AI 竞争走到今天,比拼的照旧不是单点材干,而是这一整套系统能否顺畅运转。
跟着 AI 越来越多从考研走向推理开云kaiyun中国官网入口,模子、云与芯片之间形成的合手续反映轮回,合座上风的显现可能才刚刚启动。
滚球app中国官网下载入口