您的位置:主页 > 公司动态 > 公司新闻 > 公司新闻
从疯狂到理性:大模型练习三堵墙,一场少数人
“只需有GPU卡,把服务器买走都行”。3月份开端,张阳显着感触大模型带来的冲击,作为一家云厂商算力渠道负责人,他意识到商场乃至有些盲目。“其时客户比较慌,相当于对产品都没有什么要求,不关心网络和存储,便是感觉咱们都在抢机器,先抢过来固定住时刻,然后再去看怎样用,那会咱们还没有想理解怎样用。”
到了4月,有些客户现已测验过或许见过大模型练习,逐步开端想理解,大约知道想要什么样的装备。要一堆GPU卡,实际上是一个认知误区,大模型练习的完结依托的是一个算力集群,包含整套的服务。
但不是全部企业都能驾御大规划算力集群,这注定是一场少数人的游戏。事实上,微柔和OpenAI的协作也现已证明,用云来练习大模型,似乎是更合理的挑选。
作为中心层,云厂商向下屏蔽底层软硬件的复杂性,向上对接企业的研制和算法工程师、个人开发者等,此外背靠集团的云厂商,还具有资金、人才、数据等优势,也就*开端大张旗鼓的进军大模型。
AI算力芯片、服务器/交换机、光模块/光芯片、数据中心、云核算……算力工业链条的每个人物,似乎齿轮般咬合在一起,构成数字经济的工业发动机,现在,大模型让每个齿轮都极速传动起来。
练习根底模型,是全部大模型工业生态的起点,也只需闯过算力关,才干拿到大模型比赛的入场券。
1、大模型练习的三堵墙
技能的开展有其延续性,正如微软Azure为OpenAI打造的“超级核算机”,阅历了数年的演进才有作用,现阶段大模型练习比拼的,其实是曩昔几年厂商的战略预判与技能堆集,能上牌桌的大多是老玩家。
“大模型存在显着的炒作过热倾向,职业应该愈加理性,而不是套着大模型概念做本钱或许事务的炒作。我自己的观念是,真的不要去考虑端到端地去做一个大模型,关于非要做的企业,我只能说有时机,可是应战很大。”一家互联网大厂大模型产品负责人对钛媒体表明。
在学术界看来,OpenAI并没有做出革命性的立异,实质是环绕AGI产品进行的“工程立异”,但正是工程化造就了OpenAI和大模型的成功,工程化体现在大模型研讨、工程、产品、安排各个环节,算力练习集群也是如此。
“工程化做得好也很难,它证明了往上堆算力,堆数据是能够往前推动的。”微软技能中心首席架构师韩凯对钛媒体表明。
这一看似简略的逻辑背面,对企业而言却是极大的检测——看不见或许的出路,忧虑巨大的投入没有产出,这是*的危险,也是为什么国内没有先做出“ChatGPT”的原因——他们更多挑选跟从,而不是对一条没被验证过的路出资。
算力集群的工程化,至少要打破三堵墙。
首先是“算力”墙。“完结一个千亿参数等级的大模型例如GPT-3需求314ZFLOPs算力的模型练习,而单卡只需312TFLOPS算力时,一张卡练习一个模型要耗时32年。所以需求引进分布式练习的方法,运用多机多卡的方法来加快模型的练习,包含比较常见的数据并行和张量并行。”天翼云资深专家陈希表明。
其次是“存储”墙。单显卡的显存现已无法加载千亿级参数。千亿级参数彻底加载到显存大约需求几个TB,假如再考虑梯度、优化器状况等练习进程发生的一些中心成果,占用的显存量就更大了,往往需求上百张卡才能够支撑。
所以厂商一般会引进流水线并行,将模型不同的层放到不同的节点的显卡内进行核算。关于这一组节点只需求加载某一些层的参数,下降显存的压力。
随之而来的是“通讯”墙。大模型并行切分到集群后,模型切片间会发生许多通讯,包含节点内多卡通讯,节点间通讯。几种并行方法都会涉及到许多的节点与节点间的通讯,这时分就会对总线和总带宽都有很高的要求,要到达几百G的吞吐。
别的除了这三堵墙以外,还有一些其他问题:如大模型参数的添加快度和芯片工艺开展之间的对立也日趋显着。最近几年跟着transformer结构的引进,均匀每两年,模型参数数量添加15倍。而相应的芯片制程从7nm提高到4nm,单卡算力添加不超越4倍,芯片工艺开展落后于大模型的需求。
大模型练习需求的不单单是算力,对存储,对安全,对练习结构都有必定的要求,需求一套比较完好的渠道或服务来供给支撑。“咱们最近的一个遍及的感触,便是能满意大模型练习渠道的供给商不多,高功能算力供给全体比较严重。”陈希说。
2、为什么“他们”能成?
现在仍有不少企业毫无准备或许自我感觉有所准备,就冲进根底模型范畴。
可是,假如细细研讨现阶段做出根底模型的厂商,无一例外在AI范畴都有满意堆集,特别是底层根底设施层面,他们的实践也在验证“云是规划算力的*承载渠道”这一判别。
“为了打造AI超级核算机,微软早在2018年就开端布局,除了OpenAI还出资了几个小公司,大数据是AI的前序,云核算根底设施是算力渠道,大模型是算力、算法和数据的调集,微软的成功在于全栈才能。”韩凯表明。
回到国内,百度也遵从相似的逻辑。百度副总裁谢广军说到,算力和存储必定要到达更高的密度,才干够支撑大模型。显着的问题还有网络互联,大模型练习用的比较多的显卡是带有NVLink高速互连的A800,需求比传统云核算做到更低延时、更高带宽,许多的小文件,也需求低延时、高存储的根底设施。
“大模型跑起来之后,还有十分多的当地需求加快,像通讯需求加快、显存需求紧缩、整个推理也需求加快。百度智能云能够把调优手法集成到根底库,关于大模型核算和推理十分有协助。”谢广军说。
从渠道的视角来说,不管是练习使命仍是推理使命,单个的使命就需求十分长的时刻,需求占用许多资源。怎样能够保证资源的充分利用,以及下降它的练习和推理时刻。这里边需求切使命、调度、并行,关于模型练习的加快比和并行度的支撑。
一起,一个渠道上往往有有许多使命,怎么灵敏调度,从而能够让这些使命充分地运用资源,乃至能够感知到异构算力的拓扑,使得渠道功率得到提高……这类AI使命调度、容器化支撑方面都有十分多的工作需求去做。
以文心一言的练习为例,千卡规划的A100或许A800数据并行加快比到达90%,其间用了十分多的调优手法和技能,百度智能云环绕着大模型一层一层做优化,在渠道上分成了AI 核算、AI 存储、AI 加快和 AI 容器等四层,一起组成了 AI IaaS,这些根底设施能够支撑上万亿参数大模型的练习。
此外,预练习模型需求经过千卡以上的集群练习,而在大多数状况,精调或许微调更遍及,根据大模型练习职业模型,相当于在树干上长树枝,不需求超大规划的集群,小几十张卡足以满意企业所需练习资源。
豁达数据将在7月份正式推出国产版GPT“曹植”体系,也是得益于多年文本智能技能堆集和笔直范畴场景事务经历,算法和数据层面有所储藏,而在测验阶段的算力层面,豁达数据CEO陈运文表明,自建算力数据中心较为费劲,豁达寻求了多种算力渠道的支撑,包含运营商算力中心、鹏程实验室等。
豁达数据也曾测验某家头部云厂商的GPU算力,但经过测算本钱太高,租一年半下来的本钱,满意豁达数据自家置办一个自己的算力渠道,豁达数据挑选了英伟达DGX高功能工作站计划,相当于英伟达自身做了许多集群优化,处理了存储和网络的大部分问题,直接买GPU卡自建集群和英伟达处理计划比较,归纳功能相差一倍。
“咱们自己的模型练习本钱其实仍是很高的,可是咱们帮客户算过账,模型在推理阶段需求的算力投入并不大,许多客户只需单机多卡就够,硬件投入不算很大,可是给客户带来的作用和体会提高十分显着。”陈运文表明。
3、英伟达不只需GPU
小厂商用英伟达的商业技能补齐才能,大厂商以英伟达的硬件为中心构建高功能核算集群、提高功能,进一步缩短练习时刻……根本全部厂商的大模型的推理、练习都高度依靠英伟达的GPU。
来自商场的音讯显现,A800的价格一度超越8万元人民币,A100更贵,乃至超越9万元。
“英伟达的战略是既要保证每家大客户都能拿到货,一起又不会彻底满意其短时许多的需求,这使得英伟达GPU保持在一个供给严重的状况。”一位业界人士表明,英伟达全球A100的产能并不缺,供货没有问题,关于禁售A100之后,*我国的替代品A800,英伟达特意开了一条产品线,因其产能相对有限,造成了供需对立。
一些厂商也在想其他方法,比方在香港树立算力集群,一起H800和A800复用了一部分产品线,未来H800的产能上来之后或许会限制A800,不扫除英伟达会持续添加适用于我国商场的产线。
除了产值,高企的价格也源于英伟达芯片的工程化才能,这是其成为大模型练习中心的决定性原因。
业界表里对英伟达有两种极点认知:一种以为,英伟达难以打败;另一种是许多厂商在PPT上“吊打”英伟达。可是,即使在理念和先进性上*,但这全部只停留在芯片规划环节,没有真实工业落地,也就无从比照。
现实状况是,在大模型算力范畴,英伟达的壁垒在于GPU NVlink/Infiniband网络 CUDA的组合才能。
以英伟达最新发布的GH200GraceHopper超级芯片,以及具有256个GH200超级芯片的DGXGH200超级核算机为例,产品功能上至少*其他厂商一个身位。
涉及到算力集群,RDMA网络成为大模型年代的底层通讯技能,业界首要运用的是Infiniband、RoCE,NVlink仅用于GPU之间通讯,InfiniBand网络则为通用高功能网络,既可用于GPU之间通讯,也可用于CPU之间通讯。
Infiniband网络以往在超算范畴运用较为广泛,随后扩展至人工智能核算,2019年,英伟达以69亿美元收买迈络思,补全了自己了网络短板,现在IB较为老练,许多厂商都在测验自研RoCE道路,在部分场景下较IB网络还有必定距离。
例如文心一言,早在2021年6月,百度智能云开端规划全新的高功能GPU集群的建造,联合NVIDIA一起完结了能够包容万卡以上规划的IB网络架构规划,集群中节点间的每张GPU卡都经过IB网络连接,并在2022年4月将集群建造完结,供给单集群EFLOPS等级的算力。
2023年3月,文心一言在这个高功能集群上诞生,并不断迭代出新的才能。现在,这个集群的规划还在不断扩大。NVIDIA我国区处理计划与工程总经理赖豪杰也说到,高速IB网络互联的GPU集群是大模型年代的要害根底设施。
据了解,百度仅半年时刻就收购了数万片英伟达A800,其他互联网厂商的收购量也在上万片,刨除一开端发生了挤兑现象导致求过于供外,现在英伟达产品的供货周期在三个月以内。
CUDA(ComputeUnifiedDeviceArchitecture)软件生态,也是备受开发人员好评的产品,它答应开发者运用C/C 、Fortran等编程言语在英伟达GPU上进行并行核算,供给了强壮的核算才能和高效的数据传输方法,使得GPU在科学核算、机器学习、深度学习等范畴得到了广泛的运用。
现在,英伟达是大模型热潮中最获益的厂商,没有之一,即使是微软为OpenAI建立的超级核算机,也依靠于英伟达的产品,绝大多数练习算力都来自于英伟达GPU,面临全球如雪花般飞来的订单,英伟达赚的盆满钵满。
其最新的2024财年*季度财报显现,英伟达数据中心事务营收为42.8亿美元,创下前史纪录,与上年同期比较添加14%,与上一财季比较添加18%,股价也创下前史新高。财报具有滞后性,大模型带来的成绩增收还没有彻底体现在财报上。
4、国产算力的时机
在自主立异的大布景下,大模型算力也在加快拥抱国产化,咱们的情绪是远期遍及看好,短期仍有应战。大模型年代到来之后,许多国产芯片尽管有所准备,可是在*的芯片上存在必定的距离。
燧原COO张亚林表明,当时全部人在做大模型练习的时分,时刻至关重要,现在咱们需求老练的产品,不会倾向于选用国产化芯片,防止遇到一些稳定性或许老练度的问题。
但推理层面是国产芯片的时机,张亚林表明,推理模型自身支撑的方向比较单一,只需在推理模型上做到*的调优,把性价比拿出来,许多用户反而乐意用国产化芯片。“我以为现在国产芯片应该倒过来,先做推理和微调,然后渐渐经过研讨所、高校、国家级实验室的研讨,牵引到集群化的才能,从推理到练习的曲线会愈加合理。”他说。
谢广军说到,AI芯片的开展比摩尔定律愈加急进,也会有更大的下降空间。算力缺少一方面算力跟不上需求,另一方面,仍是因为整个供给局势所带来的问题。
“大模型的需求也会加快国产芯片的迭代。以昆仑芯来讲,本年年底昆仑第三代,愈加合适大模型,不管是练习仍是推理,包含通讯、显存都会有十分大的提高。我信任其他的国产算力也是这样的,国产算力更具有竞争力,会使得整个算力本钱进一步下降,并且是加快下降。”谢广军说。
钛媒体App了解到,本年国产芯片的开展出现错位状况,国产芯片还没有对标到英伟达*的产品,比方A100。有几家国产芯片厂商现已准备在本年晚些时分,推出相似的对标产品。不论是练习仍是推理,国产芯片的开展或多或少有一些滞后。
与之对应地,英伟达芯片供给相对严重,国产算力在下一年之后,会有比较大的时机,现在算力商场还在急剧添加,国产芯片的匹配度不行,首要仍是英伟达在添加,假如需求匹配上之后,国内芯片会有很大的时机。
张亚林表明,假如燧原要真的“杀”到互联网客户场景,必定是在他们需求的场景和事务下,具有1.5倍的英伟达产品功能,和两倍的性价比。
“互联网客户遍及寻求*性价比,可是在集群方面要看TCO(全体具有本钱),集群的软硬件全体价格、运维服务布置等,比方我1000卡的集群,跟英伟达的600卡集群比照,或许功能差不多,可是我性价比更高,一起我供给更好的定制化的服务支撑,在商场上也是很有竞争力的。”他说。
6月,关于大模型算力的评论渐歇,根底模型厂商初窥门径,要么事必躬亲地去练习大模型,要么买到更有性价比的算力,但全体来说,以算力为中心的大模型根底设施,本钱仍然处于较高的水平。
IT工业总是遵从否定之否定的钟摆定理,在大模型的工业热潮中,接下来算力的各个环节怎么进化,也更值得等待。(文中张阳为化名)