栏目分类
热点资讯
你的位置:j9九游会登录入口九游会官网j9· > 新闻资讯 > J9九游会体育共同构建新一代AI算力集群-j9九游会登录入口九游会官网j9·

新闻资讯

J9九游会体育共同构建新一代AI算力集群-j9九游会登录入口九游会官网j9·

发布日期:2024-11-09 06:16    点击次数:163

J9九游会体育共同构建新一代AI算力集群-j9九游会登录入口九游会官网j9·

  从探索东说念主类前沿科技的超算,到不异东说念主掏入手机就能体验的智能保举算法,每套以至高算力为指方针集群系统都需要处罚一个算力除外的重要问题——集会。

    是的,别离式技艺用“把大问题拆成小问题”的要道为东说念主们提供了一条以量变已毕质变的可行旅途。但分开进行的海量筹备总已经需要一个汇总收尾并连续推动筹备的过程。而这一过程对集会的带宽、蔓延和丢包率都提议了极高要求。以现在流行的深度学习算法为例,0.1%的丢包率就会带来50%的集群服从申斥。

    在构建算力集群时,用户频繁有两种聘用:一种是莫得丢包困扰资本较高且生态封锁的Infiniband集会,另一种则是性价比更高但需要破耗元气心灵申斥蔓延和丢包率的以太网技艺。而关于更敬重服从服从的互联网行业来说,谜底只消一个——这些脾气皆备要!

    哔哩哔哩基于业务发展需求

    需要建立一张高性能筹备集会

    哔哩哔哩,简称“B站”,一个有效根由根由的概括性视频社区,被用户们亲切地称为“百科全书式的网站、莫得围墙的藏书楼,成长说念路上的加油站,创作家的舞台”。限制2024年第二季度,B站日均活跃用户达1.02亿。围绕用户、创作家和本色,B站构建了一个连绵赓续产生优质本色的生态系统。基于AI的“千东说念主千面”本色保举算法,B站能把好本色保举给感敬爱的用户,干预本色量与用户活跃度双向激发的正轮回。而要在海量本色、渊博走访量、亿级用户的布景下,完成精确的本色保举,B站需要一套高性能集会为用户提供就业。

    面临及时更新的本色和快速变化的用户艳羡点,B站的AI算力集群要尽可能快地完成“样本导入——进修——模子导出——推理”的无缺业务历程,镌汰AI技艺与业务应用之间的距离。需求看似稀松鲁莽,但这个“快”字却对应了多维度的底层技艺挑战。

    其一,拉通整个AI业务历程,已毕业务举座的快。

    “样本导入——进修——模子导出——推理”等各个功能的子集群需置于吞并张集会之中,酿成一张渊博的算力集会;尽可能让数据和模子更快传输,让不同功能酿成举座,已毕业务层面的快。

    其二,在重要的进修集群里面,集会蔓延要饱和低。

    大模子进修过程对集会蔓延相等敏锐,高蔓延不仅会影响GPU节点之间的同步性和一致性,让GPU破耗更多时钟周期来恭候筹备收尾和参数的同步,更会影响整个集群的可推广性和算力欺诈率。

    其三,在“算网一体”的宏不雅趋势之下,算力决议与集会架构应保执高度匹配。

    算与网就如同车和路,二者的高度匹配才能大幅普及系统举座开动服从,并为后续的运维管理和升级扩容带来更大普及空间。

    一面是业务层面的严苛需求,另一面则是缺货、禁售等外部身分所带来的巨大不细目风险;经过对集会、筹备、教师和供货等诸多身分的测验比对之后,B站聘用牵手华为,共同构建新一代AI算力集群。

    用以太网调节承载

    让AI算网一体高度调节交融

    图1.多网交融集会架构图

    B站集会技艺团队与华为结伙设想了基于以太网的“一张网”算力集群建立决议。该决议通过华为CE16800系列中枢框式交换机,约略将海量样本数据的存储集群、包含海量GPU筹备节点的进修集群和清雅业务应用的推理集群整合成一张渊博的业务集会,为每个业务功能提供饱和的数据带宽。使用一张网鸠合数据和业务、进修和推理,买通功能之间的烟囱壁垒,普及业务举座开动服从。联系于私有化的Infiniband集会,使用调节且灵通的以太网通讯契约也有助于申斥系统总体建立资本,并保执“一张网”里面的架构调节、契约调节,继而申斥建立、运维的资本及难度。

    在集会架构细目之后,接下来是聘用AI算力集会的硬件选型和组网决议。在组网硬件选型上,华为提供多种硬件组网口头,典型的有盒盒组网决议,盒框组网决议,框框组网决议。通过两边屡次技艺换取,概括B站机房现场环境条目、硬件资本等多方面议论,B站聘用盒盒组网的决议,如下图所示,构建的是一张千卡范畴的AI算力集群。

    图2.华为昇腾组网架构图

    为了餍足AI算力进修集群对集会蔓延的尖酸需求,B站技艺东说念主员结伙华为工程师整个对整张集会奉行了紧密入微的架构设想和树立优化。AI算力集会总体按经典的Spine-Leaf两层CLOS组网设想落地,但基于大模子进修关于集会通讯特色,在接入层略略作念了些变动,同期使用4台LEAF交换机联贯GPU就业器的多个网口。整个网由8个POD组成,每个POD包含8台GPU节点,每台GPU树立8张400G以太网卡,每个POD可容纳128张GPU卡,从而整个集群范畴可达1024张GPU卡。在SPINE层面,使用16台400G交换机来已毕8个POD集会鸠合的对称平等。路由设想方面全网使用了EBGP路由契约,当链路出现故障时集会自动照管。在高带宽和低蔓延要求方面,全网使用RDMA技艺且同期启用华为交换机脾气NSLB(NetworkServiceLoadBalance,集会就业负载平衡)功能。RDMA技艺无需CPU和系统内存参与的显存数据交换,约略提高通讯服从,减少系统支拨;而NSLB则是华为的特有技艺,可衔尾管理模块已毕全流量的秒级感知来,继而通过高效集会编排来减少集会拥塞、丢包和锁死情况的发生,普及进修过程的可靠性,减少重新加载checkpoint的次数,以达成加速进修的服从。通过集会架构的合理设想和多种先进技艺的概括应用,在进修集群里面已毕400G高带宽互联、互联链路冗余、通讯旅途最优、Leaf落魄行带宽1:1等广宽先进脾气。而在业务层面这些技艺与脾气便意味着低蔓延和全网无阻滞。

    在多种集会流量模子和GPU通讯库(NCCL和HCCL)考据过程中,华为昇腾整套集会决议在同Leaf下点对点集会带宽欺诈率超98%,蔓延最低2.8微秒;“多对一”带宽欺诈率80%,All-to-All和AllReduce过程带宽欺诈率超98%。而在跨Spine测试中,华为昇腾整套集会决议仍能已毕超98%的带宽欺诈率和最低5.6微秒的蔓延;并能在“多对一”通讯中已毕80%的带宽欺诈率和超90%的All-to-All、AllReduce带宽欺诈率。

    图3.就业器集群布线

    图4.集会集群布线

    以上图3和图4为华为昇腾整套集会处罚决议在B站数据中心落地暗示图,在部署奉行层面,华为配合B站集会技艺团队完成集会策画、奉行前期准备、拜托前全网参数调优、HCCL通讯集参数调优和验收测试等历程,为业务上线作念好充分的准备。同期为了保险整个集群的永远踏实开动,华为与B站整个对机房现场集会布线作念了高圭臬落地,每条线缆有序布放、捆扎,申斥排查链路故障等问题的难度,普及运维服从。

    算网一体

    让互联网+AI盛放畴昔

    不仅B站,流量大、数据多、用户多是整个互联网业务的典型特征。而在AI业务落地的过程中,对单卡算力的鼠肚鸡肠已成夙昔时;借助先进集会来构建千卡、致使万卡集群来应酬业务挑战才是主流聘用。因此,“算网一体、高度匹配、相互优化”也趁势成为互联网企业构建新一代基础架构时艳羡的重心。

    关于广大行业客户而言,华为所领有集会处罚决议智力、算力处罚决议智力、渊博协作伙伴体系、丰富的策画和奉行教师恰是构建新式基础架构、落地AI业务之所需。与此同期,华为亦在通过不竭的底层技艺改进和表层体验优化来已毕处罚决议与就业的执续精进,为互联网企业铺就通向畴昔的宽阔坦途。两边的相向而行也拔擢了华为与互联网企业结伙改进、共同探索的一段段佳话。

    十年前,脱胎于互联网业务逻辑的“互联网+”见识火遍寰宇,助力千行百业已毕了业务和筹办理念的进步式升级;十年之后,互联网又成为了拥抱AI技艺、引颈基础架构和业务升级的前锋军。

    约略与互联网产业相伴同业、共赴畴昔,不仅是华为的荣幸,亦然ICT产业技艺探索、已毕价值的绝佳旅途。

    数智世界一触即达” 聘用华为J9九游会体育,让您的企业松弛数智化。

  声明:新浪网独家稿件,未经授权谢却转载。 -->