机械油污用什么能洗掉| 淇字五行属什么| 孕妇流鼻血是什么原因| 病毒感染咳嗽吃什么药| 为什么叫关东军| 胳膊麻是什么原因| 降真香是什么| 止汗药什么最好| 什么是囊肿| 垣什么意思| 背靠背是什么意思| 脂蛋白磷脂酶a2高说明什么| 什么药补气血效果最好| lively是什么意思| 股骨头疼痛什么原因| 供血不足吃什么好| 米鱼是什么鱼| 龋读什么| 张扬是什么意思| 螺旋菌感染有什么危害| 豺是什么动物| 一线天是什么意思| 王八看绿豆是什么意思| 辐照食品什么意思| md是什么材质| 云南有什么少数民族| 怀孕周期是从什么时候开始算的| 夏季吃什么| tct检查什么| 贫血吃什么食物好| 白酒配什么饮料好喝| 喝酒脸红是缺少什么酶| 保释是什么意思| 脑梗什么症状| 吃了拉肚子的药叫什么| 少一颗牙齿有什么影响| ch是什么| 血小板上升是什么原因| 蒜气是什么病| 特别容易出汗是什么原因| 手上脱皮是什么原因| 吃什么补钾快| 淘米水洗脸有什么作用与功效| 为什么8到10周容易胎停| 小腿肚子疼是什么原因| 出柜是什么意思| 慢性宫颈炎是什么原因引起的| 法香是什么菜| 赟怎么读 什么意思| 负心汉是什么意思| 青霉素v钾片治什么病| 右眼皮跳有什么预兆| 但愿人长久的下一句是什么| 王几是什么字| 34岁属什么的生肖| 9527是什么意思| 金先读什么| 女士内裤用什么洗最好| 下巴底下长痘痘是什么原因| 复原乳是什么意思| 消肿吃什么食物好| 口苦口干口臭吃什么药| 5月23日是什么日子| 入职需要准备什么材料| 部队大校是什么级别| 香槟酒属于什么酒| 口咸是什么原因引起的| 贫血缺什么元素| 太史慈姓什么| cbs是什么意思| 吃什么能阻止性早熟| 什么的英语单词| visa是什么| 操是什么意思| 音乐制作人是干什么的| 鸡伸脖子张嘴用什么药| 宣字五行属什么| 孕妇过敏可以用什么药| 妇炎洁是什么| 眼睛有红血丝是什么原因| 低回声是什么意思| KT是什么| 右手中指指尖麻木是什么原因| 骨蒸潮热是什么意思| 养猫有什么好处| 失声是什么意思| 为什么人会做梦| 胜造七级浮屠是什么意思| 海豚吃什么| 脑血栓前兆是什么症状表现| gala是什么意思| 情劫什么意思| 淤泥是什么意思| 低血压吃什么好| 手上长疣是什么原因造成的| 女内分泌检查什么项目| 哮喘咳嗽吃什么药好得快| 自制力是什么意思| 天麻不能和什么一起吃| 分子量是什么| 风寒感冒流鼻涕吃什么药| 什么是商业保险| 遮羞布是什么意思| 安娜苏香水什么档次| 2003年属羊是什么命| 天热喝什么茶好| 上火吃什么最快能降火| 什么时间人流| 三叉戟是什么意思| 图字五行属什么| 牡丹花是什么颜色的| 四不念什么| 吃谷维素有什么副作用| 老枞是什么茶| 嬴政为什么要杀吕不韦| 代表什么意思| 女性做B超挂什么科| 什么血型会导致不孕| 黄体酮有什么作用与功效| 结肠炎吃什么药效果最好| 尿检能查出什么| 女人吃藕有什么好处| 52年属什么生肖| 女人手心热吃什么调理| 上火了吃什么食物降火| 脑脊液是什么| 避免是什么意思| 增强记忆力吃什么| 什么什么相什么的成语| 凝血四项是查什么的| 影射是什么意思| 什么的哲理| 女人什么时候最想男人| 人言可畏什么意思| 扁桃体肥大是什么原因造成的| 1997年什么命| polo villae是什么档次| ims是什么意思| 一去不返是什么生肖| 支气管疾患是什么意思| 鱼油什么牌子好| 口缘字一半念什么| 阴历六月是什么月| 清新是什么意思| 押韵是什么意思| 拉比是什么意思| 市级三好学生有什么用| 胸为什么一大一小| 连襟什么意思| 结婚下雨有什么说法| 衣的部首是什么| 食用棕榈油是什么油| via什么意思| 相亲为什么不能拖太久| 尿道口下裂是什么样子| goldlion是什么档次| 煮毛豆放什么调料| 老虔婆是什么意思| 胃酸吃什么可以缓解| 筋膜刀是什么| 血糖高忌吃什么| 木字旁的字与什么有关| 空调多少匹什么意思| 毛囊是什么| 印度人属于什么人种| 霖五行属性是什么| 三心二意是指什么生肖| 平片是什么| 2013年属什么| 九月一日什么节日| 梦见狗吃屎是什么意思| 佛龛是什么| 眼睛干涩用什么眼药水好| 游离甲状腺素偏低是什么意思| 曼陀罗是什么意思| 荷尔蒙是什么| 阳虚吃什么调理| 有过之而不及是什么意思| 叩齿是什么意思| 应接不暇的暇是什么意思| 龟公是什么意思| 91年是什么年| 苹果五行属什么| 阴超是什么| 六根清净是什么意思| 八九年属什么| 预检是什么意思| sp是什么| 嘴唇周围长痘痘是什么原因导致| a4腰什么意思| 粉的像什么| 阴囊潮湿是什么原因造成的| 静脉注射是什么意思| 沙棘对肝脏有什么好处| 不爱说话的人是什么性格| 什么贤什么能| fw什么意思| 土豆粉是什么做的| 皮癣是什么原因引起的| 阑尾炎应该挂什么科| 阳历7月7日是什么日子| 早上起来有痰是什么原因| 城镇户口是什么意思| 慢性浅表性胃炎伴糜烂吃什么药| 阴囊潮湿什么原因| 烘焙是什么意思| 什么的野鸡| 什么是气胸有什么症状| 尿的颜色有点红褐色是什么原因| 游山玩水是什么意思| 害怕的近义词是什么| 心里害怕紧张恐惧是什么症状| 吃什么主食减肥最快| 惊奇的什么| 同仁什么意思| 习是什么结构的字| 淋病是什么病| 硬脂酸镁是什么东西| 桑葚什么季节成熟| 屁多是什么毛病| 瑞典和瑞士有什么区别| 六小龄童的真名叫什么| 五月初五是什么星座| 补气血吃什么最好| 什么眼型最好看| 三个力念什么| 嗜酸性气道炎症是什么意思| 眼镜轴位是什么意思| 早上起床口苦口干是什么原因| 经期延长是什么原因引起的| 大便深褐色是什么原因| 吃羊肉不能吃什么东西| 什么是幽门螺杆菌感染| 耳石症挂什么科| 推特为什么注册不了| 缪在姓氏中读什么| 耷拉是什么意思| 情人是什么意思| 人养玉三年玉养人一生是什么意思| 上车饺子下车面什么意思| 周吴郑王是什么意思| 农历3月3是什么节日| 你在说什么用英语怎么说| 男人喝什么汤补肾壮阳| 舌尖痛什么原因| 美妙绝伦是什么意思| 生活是什么| 跟腱断裂是什么感觉| 4月1号是什么星座| 太字五行属什么| 虎是什么命| cns医学上是什么意思| 什么察秋毫| 古代的天花是现代的什么病| 梦见被蛇咬了是什么意思| 香港买什么便宜| 遐龄是什么意思| 胎儿右侧脉络丛囊肿是什么意思| 小炒肉用什么肉| 火烧火燎是什么意思| 喝酒前喝什么不容易醉又不伤胃| 狡兔三窟什么意思| 月寸读什么| 肠道感染吃什么消炎药| 百度
侵权投诉
搜索
更多>> 热门搜索:
订阅
纠错
加入自媒体

晶圆级芯片,是未来

图片

今天,大模型参数已经以“亿”为单位狂飙。

仅仅过了两年,大模型所需要的计算能力就增加了1000倍,这远远超过了硬件迭代的速度。目前支持AI大模型的方案,主流是依靠GPU集群。

但单芯片GPU的瓶颈是很明显的:第一,单芯片的物理尺寸限制了晶体管数量,即便采用先进制程工艺,算力提升也逐渐逼近摩尔定律的极限;第二,多芯片互联时,数据在芯片间传输产生的延迟与带宽损耗,导致整体性能无法随芯片数量线性增长。

这就是为什么,面对GPT-4、文心一言这类万亿参数模型,即使堆叠数千块英伟达 H100,依然逃不过 “算力不够、电费爆表” 的尴尬。

目前,业内在AI训练硬件分为了两大阵营:采用晶圆级集成技术的专用加速器(如Cerebras WSE-3和Tesla Dojo)和基于传统架构的GPU集群(如英伟达 H100)。

晶圆级芯片被认为是未来的突破口。

01

晶圆级芯片,两大玩家

在常规的芯片生产流程中,一个晶圆会在光刻后被切割成许多小裸片(Die)并且进行单独封装,每片裸片在单独封装后成为一颗完整的芯片。

芯片算力的提升方式,是依靠增加芯片面积,所以芯片厂商都在不断努力增加芯片面积。目前算力芯片的单Die尺寸大约是26x33=858mm2,也就是接近曝光窗大小,但是芯片的最大尺寸无法突破曝光窗的大小。

曝光窗大小多年来一直维持不变,成为了制约芯片算力增长的原因之一。

晶圆级芯片则提供了另一种思路。通过制造一块不进行切割的晶圆级互连基板,再将设计好的常规裸片在晶圆基板上进行集成与封装,从而获得一整块巨大的芯片。

未经过切割的晶圆上的电路单元与金属互连排列更紧密,从而形成带宽更高、延时更短的互连结构,相当于通过高性能互连与高密度集成构建了更大的算力节点。所以,相同算力下,由晶圆级芯片构建的算力集群占地面积对比GPU 集群能够缩小 10-20 倍以上,功耗可降低 30% 以上。

图片

全球有两家公司已经开发出了晶圆级芯片的产品。

一家是Cerebras。这家企业从2015年成立,自2019年推出了WES-1,之后经过不断迭代,目前已经推出到第三代晶圆级芯片——WES-3。

WES-3采用台积电5nm工艺,晶体管数量达到夸张的4万亿个,AI核心数量增加到90万个,缓存容量达到了44GB,可以支持高达 1.2PB 的片外内存。

图片

WES-3的能力可以训练比GPT-4和Gemini大10倍的下一代前沿大模型。四颗并联情况下,一天内即可完成700亿参数的调教,支持最多2048路互连,一天便可完成Llama 700亿参数的训练。

这些都是集成在一块215mm×215mm=46,225mm2的晶圆上。

如果这个对比还不够明显,那可以这么看:对比英伟达H100,WES-3的片上内存容量是 H100的880倍、单芯片内存带宽是H100的7000倍、核心数量是H100的52倍,片上互连带宽速度是H100的3715倍。

图片

另一家是特斯拉。特斯拉的晶圆级芯片被命名为Dojo。这是马斯克在2021年就开始的尝试。

特斯拉Dojo的技术路线和Cerebras不一样。是通过采用Chiplet路线,在晶圆尺寸的基板上集成了 25 颗专有的 D1 芯粒(裸Die)。

D1芯粒在645平方毫米的芯片上放置了500亿个晶体管,单个芯粒可以提供362 TFlops BF16/CFP8的计算能力。合起来的单个Dojo拥有9Petaflops的算力,以及每秒36TB的带宽。

特斯拉的Dojo系统专门针对全自动驾驶(FSD)模型的训练需求而定制。思路是从25个D1芯粒→1个训练瓦(Training Tile)→6个训练瓦组成1个托盘→2个托盘组成1个机柜→10个机柜组成1套ExaPOD超算系统,能够提供1.1EFlops的计算性能。

02

晶圆级芯片与GPU对比

既然单芯片GPU和晶圆级芯片走出了两条岔路,在这里我们以Cerebras WSE-3、Dojo 和英伟达 H100为例,对比一下两种芯片架构对算力极限的不同探索。

图片

一般来说AI 训练芯片 GPU 硬件的性能通过几个关键指标进行评估:每秒浮点运算次数(FLOPS) ,表明GPU 在深度学习中必不可少的矩阵密集型运算中的原始计算能力的强弱。内存带宽,决定了访问和处理数据的速度,直接影响训练效率。延迟和吞吐量,能够评估GPU处理大数据负载和模型并行性的效率,从而影响实时性能。

算力性能

Cerebras WSE-3 凭借单片架构,在 AI 模型训练中展现独特潜力。

一般来讲,每秒浮点运算次数(FLOPS) 能够表明GPU 在深度学习中必不可少的矩阵密集型运算中的原始计算能力。WSE-3 的 FP16 训练峰值性能达到 125 PFLOPS,支持训练高达 24 万亿参数的 AI 模型,且无需进行模型分区处理。这个功能就特别适合以精简高效的方式处理超大模型。

与依赖分层内存架构(可能造成处理瓶颈)的传统 GPU 不同,WSE 的设计使850 个核心可独立运行,并直接访问本地内存,这样就有效提升了计算吞吐量。

在这方面,英伟达H100采用的是模块化和分布式方法。单个 H100 GPU 可为高性能计算提供 60 TFLOPS FP64 计算能力,八个互连的 H100 GPU 组成的系统,可实现超 1 ExaFLOP 的 FP8 AI 性能。

但分布式架构就存在数据传输问题,虽然NVLink 和 HBM3 内存能降低延迟,但在训练超大型模型时,GPU 间通信仍会影响训练速度。

在AI训练的表现中,Cerebras WSE-3会更加擅长处理超大型模型。2048个WSE-3系统组成的集群,训练Meta的700亿参数Llama 2 LLM仅需1天,相比Meta原有的AI训练集群,速度提升达30倍。

延迟与吞吐量

从数据传输来看,WSE-3 的单片架构避免了多芯片间的数据传输,显著降低延迟,支持大规模并行计算和核心间低延迟通信。速度快是单片的优势,与传统GPU 集群相比,WSE-3 可将软件复杂度降低高达 90%,同时将实时 GenAI 推理的延迟降低 10倍以上。

特斯拉Dojo Training Tile属于晶圆级集成,当然也能够大幅降低通信开销。由于是从Die到Die之间传递,在跨区块扩展时仍会产生一定延迟。目前,Dojo 能实现 100 纳秒的芯片间延迟,并且针对自动驾驶训练优化了吞吐量,可同时处理 100 万个每秒 36 帧的视频流。

英伟达H100基于 Hopper 架构,是目前最强大的AI训练GPU之一,配备18,432个CUDA 核心和640个张量核心,并通过NVLink和NVSwitch系统实现GPU间高速通信。高速通信。虽然多 GPU 架构具备良好扩展性,但数据传输会带来延迟问题,即便NVLink 4.0 提供每个GPU 900 GB/s的双向带宽,延迟仍高于晶圆级系统。

尽管能够凭借着架构特性实现单晶圆工作负载的低延迟和高吞吐量,但晶圆级系统如WSE-3 和 Dojo面临着可扩展性有限、制造成本高和通用工作负载灵活性不足的问题。

谁更划算?

从硬件购置成本来看,不同芯片的价格因架构和应用场景而异。

据报道,特斯拉单台Tesla Dojo 超级计算机的具体成本估计在3 亿至 5 亿美元之间。技术路线上,Dojo采用的是成熟晶圆工艺再加上先进封装(采用了台积电的Info_SoW技术集成),去实现晶圆级的计算能力,能够避免挑战工艺极限。这既能保证较高的良品率,又便于实现系统的规模化生产,芯粒的更新迭代也更为轻松。

Cerebras WSE 系统则因先进的制造工艺与复杂设计,面临较高的初期研发和生产成本。据报道,Cerebras WSE-2 的每个系统成本在 200 万至 300 万美元之间。

相比之下,英伟达单GPU的采购成本比较低。以英伟达A100来说,40GB PCIe型号价格约 8,000 - 10,000美元,80GB SXM型号价格在18,000 - 20,000美元。这使得许多企业在搭建 AI 计算基础设施初期,更倾向于选择英伟达GPU。不过,英伟达GPU在长期使用中存在能耗高、多芯片协作性能瓶颈等问题,会导致运营成本不断增加。

总体来看,虽然WSE-2能为超大规模AI模型提供超高计算密度,但对于需要在大型数据中心和云服务中部署多GPU可扩展方案的机构,A100的成本优势更为明显。

03

结语

常规形态下,集群算力节点越多,则集群规模越大,花费在通信上的开销就越大,集群的效率就越低。

这就是为什么,英伟达NVL72 通过提升集群内的节点集成密度(即提高算力密度)。在一个机架中集成了远超常规机架的 GPU 数量,使得集群的尺寸规模得到控制,效率才能实现进一步提升。

这是英伟达权衡了良率和成本之后给出的解决方案。但是如果英伟达继续按照这种计算形态走下去,想要进一步提升算力密度,就会走到晶圆级芯片的路上。毕竟,晶圆级芯片的形态是目前为止算力节点集成密度最高的一种形态。

晶圆级芯片,潜力无限。

       原文标题 : 晶圆级芯片,是未来

声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号

    3月27号是什么星座 女人肾虚吃什么补回来 什么叫姑息治疗 乳腺导管局限性扩张是什么意思 反流性食管炎吃什么药最有效
    判缓刑是什么意思 父亲节做什么手工 扁桃体炎吃什么消炎药 按摩椅什么牌子最好 梦见黑棺材是什么征兆
    糖尿病人可以吃什么零食 嗓子干疼吃什么药 陈赫什么星座 cba什么时候开始比赛 做什么动作可以长高
    大悲咒是什么意思 小孩白细胞高是什么原因 金匮肾气丸治什么病 experiment什么意思 碳水是什么
    脚踝疼挂什么科hcv9jop0ns0r.cn 梦到迁坟是什么意思hcv7jop9ns6r.cn 痰是棕色的是什么原因hcv8jop0ns0r.cn 临床是什么意思wuhaiwuya.com 线差是什么意思creativexi.com
    硫酸镁注射有什么作用hcv7jop4ns6r.cn 关节痛吃什么药hcv9jop4ns7r.cn 部队班长是什么军衔jinxinzhichuang.com zara属于什么档次hcv9jop8ns3r.cn 早孕挂什么科检查hcv8jop5ns2r.cn
    布蕾是什么hcv7jop6ns1r.cn 八月十三号是什么星座hcv8jop5ns0r.cn 7月1号是什么节hcv7jop6ns0r.cn 静待花开的前一句是什么hcv8jop4ns7r.cn 鸟屎掉脸上有什么预兆hcv8jop2ns7r.cn
    走路摔跤是什么征兆hcv8jop5ns4r.cn 脚为什么脱皮zhongyiyatai.com 为什么老做梦hcv9jop4ns8r.cn 十二月十八号是什么星座hcv7jop5ns4r.cn 氯超标是因为什么原因zsyouku.com
    百度