欧洲杯足彩官网-星空体育网站入口官网手机版 > > 正文

4万亿晶体管5nm制程,全球最快ai芯片碾压h100!单机可训24万亿参数llm,llama 70b一天搞定|内存|tb|gpu|固态硬盘-欧洲杯足彩官网

分享至


新智元报道

编辑:桃子 好困

【新智元导读】ai世界的进化快的有点跟不上了。刚刚,全球最强最大ai芯片wse-3发布,4万亿晶体管5nm工艺制程。更厉害的是,wse-3打造的单个超算可训出24万亿参数模型,相当于gpt-4/gemini的十倍大。

全球最快、最强的ai芯片面世,让整个行业瞬间惊掉了下巴!

就在刚刚,ai芯片初创公司cerebras重磅发布了「第三代晶圆级引擎」(wse-3)。

性能上,wse-3是上一代wse-2的两倍,且功耗依旧保持不变。


90万个ai核心,44gb的片上sram存储,让wse-3的峰值性能达到了125 fp16 petaflops。


这相当于52块英伟达h100 gpu!


不仅如此,相比于800亿个晶体管,芯片面积为814平方毫米的英伟达h100。

采用台积电5nm制程的wse-3,不仅搭载了40000亿个晶体管(50倍),芯片面积更是高达46225平方毫米(57倍)。


专为ai打造的计算能力

此前,在传统的gpu集群上,研究团队不仅需要科学地分配模型,还必须在过程中处理各种复杂问题,比如处理器单元的内存容量、互联带宽、同步机制等等,同时还要不断调整超参数并进行优化实验。


更令人头疼的是,最终的实现很容易因为小小的变动而受到影响,这样就会进一步延长解决问题所需的总时间。

相比之下,wse-3的每一个核心都可以独立编程,并且专为神经网络训练和深度学习推理中,所需的基于张量的稀疏线性代数运算,进行了优化。

而团队也可以在wse-3的加持下,以前所未有的速度和规模训练和运行ai模型,并且不需要任何复杂分布式编程技巧。


单芯片实现集群级性能

其中,wse-3配备的44gb片上sram内存均匀分布在芯片表面,使得每个核心都能在单个时钟周期内以极高的带宽(21 pb/s)访问到快速内存——是当今地表最强gpu英伟达h100的7000倍。

超高带宽,极低延迟

而wse-3的片上互连技术,更是实现了核心间惊人的214 pb/s互连带宽,是h100系统的3715倍。

单个cs-3可训24万亿参数,大gpt-4十倍

由wse-3组成的cs-3超算,可训练比gpt-4和gemini大10倍的下一代前沿大模型。

再次打破了「摩尔定律」!2019年cerebras首次推出cs-1,便打破了这一长达50年的行业法则。


官方博客中的一句话,简直刷新世界观:

在cs-3上训练一个万亿参数模型,就像在gpu上训练一个10亿参数模型一样简单!

显然,cerebras的cs-3强势出击,就是为了加速最新的大模型训练。

它配备了高达1.2pb的巨大存储系统,单个系统即可训出24万亿参数的模型——为比gpt-4和gemini大十倍的模型铺平道路。

简之,无需分区或重构,大大简化训练工作流提高开发效率。


在llama 2、falcon 40b、mpt-30b以及多模态模型的真实测试中,cs-3每秒输出的token是上一代的2倍。

而且,cs-3在不增加功耗/成本的情况下,将性能提高了一倍。

除此之外,为了跟上不断升级的计算和内存需求,cerebras提高了集群的可扩展性。

上一代cs-2支持多达192个系统的集群,而cs-3可配置高达2048个系统集群,性能飙升10倍。


具体来说,由2048个cs-3组成的集群,可以提供256 exafloop的ai计算。

能够在24小时内,从头训练一个llama 70b的模型。

相比之下,llama2 70b可是用了大约一个月的时间,在meta的gpu集群上完成的训练。


与gpu系统的另一个不同是,cerebras晶圆规模集群可分离计算和内存组件,让开发者能轻松扩展memoryx单元中的内存容量。

得益于cerebras独特的weight streaming架构,整个集群看起来与单个芯片无异。

换言之,一名ml工程师可以在一台系统上开发和调试数万亿个参数模型,这在gpu领域是闻所未闻的。


具体来说,cs-3除了为企业提供24tb和36tb这两个版本外,还有面向超算的120tb和1200tb内存版本。(之前的cs-2集群只有1.5tb和12tb可选)

单个cs-3可与单个1200 tb内存单元配对使用,这意味着单个cs-3机架可以存储模型参数,比10000个节点的gpu集群多得多。


除此之外,与使用gpu相比,在cerebras平台上开发所需的代码量还减少了高达97%。

更令人震惊的数字是——训练一个gpt-3规模的模型,仅需565行代码!

playground ai创始人称,gpt-3正稳步成为ai领域的新「hello world」。在cerebras上,一个标准的gpt-3规模的模型,只需565行代码即可实现,创下行业新纪录。


首个世界最强芯片打造的超算来了

由g42和cerebras联手打造的超级计算机——condor galaxy,是目前在云端构建ai模型最简单、最快速的星空体育网站入口官网手机版的解决方案。


它具备超过16 exaflops的ai计算能力,能够在几小时之内完成对最复杂模型的训练,这一过程在传统系统中可能需要数天。

其memoryx系统拥有tb级别的内存容量,能够轻松处理超过1000亿参数的大模型,大大简化了大规模训练的复杂度。


与现有的基于gpu的集群系统不同,condor galaxy在处理gpt这类大型语言模型,包括gpt的不同变体、falcon和llama时,展现出了几乎完美的扩展能力。

这意味着,随着更多的cs-3设备投入使用,模型训练的时间将按照几乎完美的比例缩短。

而且,配置一个生成式ai模型只需几分钟,不再是数月,这一切只需一人便可轻松完成。


在简化大规模ai计算方面,传统系统因为需要在多个节点之间同步大量处理器而遇到了难题。

而cerebras的全片级计算系统(wsc)则轻松跨越这一障碍——它通过无缝整合各个组件,实现了大规模并行计算,并提供了简洁的数据并行编程界面。


此前,这两家公司已经联手打造了世界上最大的两台ai超级计算机:condor galaxy 1和condor galaxy 2,综合性能达到8exaflops。

g42集团的首席技术官kiril evtimov表示:「我们正在建设的下一代ai超级计算机condor galaxy 3,具有8exaflops的性能,很快将使我们的ai计算总产能达到16exaflops。」


如今,我们即将迎来新一波的创新浪潮,而全球ai革命的脚步,也再一次被加快了。

参考资料:

https://www.cerebras.net/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

notice: the content above (including the pictures and videos if any) is uploaded and posted by a user of netease hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
流苏晚晴
2024-03-15 19:56:38
又失眠了
2024-03-15 09:55:54
鲁中晨报
2024-03-15 14:14:06
直播吧
2024-03-15 10:33:33
大西体育
2024-03-15 19:34:51
叮当当科技
2024-03-15 15:18:08
张家九小姐
2024-02-20 09:24:47
直播吧
2024-03-15 09:40:59
快科技
2024-03-13 19:32:25
央广网
2024-03-15 17:30:05
懂球帝
2024-03-15 10:44:56
新京报
2024-03-14 16:05:25
校长侃财
2024-03-14 12:39:19
吴学兰
2024-03-14 10:00:46
金融界
2024-03-15 17:21:19
任医生助好孕
2024-03-15 09:56:34
朗威游戏说
2024-03-14 21:07:59
评球论事
2024-03-15 12:06:36
周观环宇
2024-03-15 09:52:03
暖心的小屋
2024-03-13 06:34:56
2024-03-15 21:00:49
新智元
ai产业主平台领航智能 时代
10796文章数 65361关注度
往期回顾 全部

马斯克一大步:最大火箭成功发射 星舰失联

足疗店赞助中超,有什么不可以?

孙怡与滕光正恋情官宣分手:让他滚了

网贷315|度小满暴力催收吓坏借款人

新蓝鲸,这局要如何打动最苛刻的消费者

态度原创

上海一批次土拍揽金约134亿,中小套型面积限制政策调整

《小丑牌》作者自曝根本没玩过卡组游戏!扑克都不玩

网站地图