这些家伙真的把Transformer架构烧进了他们的芯片里。 为Transformer架构制造了世界上最快的芯片。 每秒50万个代币,Llama 70B吞吐量。
全球首款Transformer专用芯片(ASIC):SoHu One 8xSohu服务器取代160颗H100 GPU。并筹集了1.2亿美元来建造它。
Sohu芯片:我们跟全世界AI模型打了个大赌!
同学们,想象一下,2022年的时候,我们这帮人特别大胆,就跟全世界打了个赌:未来的AI,肯定都是“Transformer”的天下! (这里的“Transformer”可不是电影里那个,而是人工智能领域一种特别厉害的模型架构,ChatGPT里的“T”就是它!)
我们花了整整两年时间,没日没夜地干活,终于造出了一款芯片,给它起了个霸气的名字——“Sohu”!这可是全球第一款专门为“Transformer”量身定做的芯片哦!
Sohu芯片:专一,所以强大!
为啥我们敢这么说?因为它太“专一”了!“Sohu”芯片里面,我们直接把“Transformer”这种模型架构给“焊死”在了芯片上。这就好比一个专业的赛车手,他的赛车只为跑F1比赛设计,其他什么送快递、送外卖的功能一概没有!
这么做的后果就是,我们的“Sohu”芯片不能跑很多传统的AI模型。比如你刷Instagram广告用的那种AI(DLRM),或者帮你分析蛋白质折叠的(AlphaFold 2),还有老一点的图片生成模型(Stable Diffusion 2),甚至那些叫CNN、RNN、LSTM的模型,它都跑不了。
但是!请注意这个“但是”! 如果是跑“Transformer”模型,“Sohu”芯片那就是——全球第一快!甩开其他芯片好几条街!
举个例子,现在最厉害的AI模型之一Llama 70B,用我们的“Sohu”芯片跑起来,每秒能处理超过50万个“字”(专业术语叫“代币”)。这速度快到你根本想象不到,能让你用GPU(现在最常用的AI芯片)根本造不出来的产品,在“Sohu”上都能实现!而且,“Sohu”的速度和价格,比NVIDIA(显卡界的巨头)下一代的顶尖芯片Blackwell(B200)还要快、还要便宜一个档次!
“Transformer”:AI世界的“霸主”!
话说回来,我们为啥要押宝“Transformer”呢?因为你看现在最火的那些AI模型:ChatGPT、Sora(OpenAI的视频生成AI)、Gemini(谷歌的AI)、Stable Diffusion 3等等,全都是“Transformer”! 如果未来“Transformer”被什么SSM、RWKV或者其他新架构给取代了,那我们的“Sohu”芯片就彻底废了。
但如果我们赌对了,那“Sohu”就能改变世界! 这就是我们当初为什么要下这个“大赌”的原因。
超级AI的秘密武器:疯狂堆规模!
你知道吗?在短短五年内,AI模型在大部分标准化考试上,已经比人类还聪明了!这是怎么做到的呢?
很简单,就是“规模”!AI公司给AI模型提供了更多的计算能力和更好的数据,AI就变得更聪明。就像给一个学霸提供了更多的练习题和更优秀的老师,他肯定会变得更厉害!
就拿Meta公司训练Llama 400B(2024年的顶级AI,比大多数人都聪明)来说,它用的计算量是OpenAI在2019年训练GPT-2时的5万倍!
所以,“规模”是几十年来唯一一直有效的“秘诀”!现在那些做AI的大公司(比如谷歌、OpenAI、微软、亚马逊等等),未来几年都要花超过1000亿美元来继续“堆规模”!我们现在正生活在一个有史以来最大规模的“基建大工程”中!
OpenAI就是靠着“规模定律”预测出了GPT-4的性能,他们还预计这个定律对GPT-5甚至更未来的模型都适用。
Anthropic的CEO达里奥·阿莫迪说了:“我觉得我们能把(AI的规模)扩大到1000亿美元的范围,而且我们几年内就能达到这个目标。”
OpenAI的CEO山姆·阿尔特曼更是豪言壮语:“规模真的太棒了。等我们围绕太阳造了一个‘戴森球’(一个能把太阳能全部收集起来的巨大装置)的时候,我们才能讨论要不要停止‘堆规模’,在那之前,绝不!”
当然,把AI的规模再扩大1000倍,那可是要花天文数字的钱啊!下一代数据中心的成本,可能会超过一个小国家的GDP!按照现在的速度,我们的硬件、电网和钱包都跟不上!
不过我们倒不担心数据不够用。无论是通过AI自己生成数据,还是通过人工标注,我们觉得数据问题其实最终都是计算问题!马克·扎克伯格(Facebook的老板)、达里奥·阿莫迪(Anthropic的CEO)、德米斯·哈萨比斯(DeepMind的创始人)他们都同意这个看法。
显卡(GPU)快要不行了?
圣克拉拉(NVIDIA总部所在地)有个“肮脏的小秘密”:GPU(显卡)其实没有变得更好,它们只是变得更大了! 四年里,芯片上每单位面积的计算能力(专业术语叫TFLOPS)几乎没变!
从2022年到2025年,AI芯片并没有真正变得更厉害,而是变得越来越“胖”!NVIDIA的B200、AMD的MI300、英特尔的Gaudi3和亚马逊的Trainium2,这些号称“性能翻倍”的芯片,其实都只是把两个芯片绑在一起当一个用!从2022年到2025年,除了我们“Etched”之外,所有的GPU性能提升都靠的是这个“小把戏”!
随着摩尔定律(芯片上晶体管数量每两年翻一番的定律)越来越慢,想要提高性能,唯一的办法就是——“专业化”!
专用芯片,势在必行!
在“Transformer”统治世界之前,很多公司都造出了“灵活”的AI芯片和GPU,它们能处理几百种不同的AI架构。比如NVIDIA的GPU,谷歌的TPU,亚马逊的Trainium等等。
以前,从来没人想过专门为某个算法(比如“Transformer”)造一个专用的AI芯片(ASIC)。为啥呢?因为一个芯片项目光投入就要5千万到1亿美元,还得好几年才能造出来。刚开始的时候,根本就没市场!
但是,突然之间,情况变了!
需求像火山爆发一样! 在ChatGPT出来之前,“Transformer”推理的市场规模只有5千万美元左右,现在呢?已经达到几十亿美元了!所有的大科技公司都在用“Transformer”模型!
架构趋于统一! 以前AI模型老是变来变去,但自从GPT-2出来之后,最先进的模型架构几乎就没怎么变过!OpenAI的GPT家族、谷歌的PaLM、Meta的LLaMa,甚至特斯拉的自动驾驶系统(FSD),全都是“Transformer”!
当训练一个AI模型的成本超过10亿美元,推理成本超过100亿美元的时候,专用芯片就不得不造了!在这种巨大的规模下,哪怕只有1%的性能提升,也足以让一个投入5千万到1亿美元的定制芯片项目变得划算!
实际上,专用芯片比GPU快好几个数量级!就像2014年比特币挖矿机(ASIC)出来的时候,大家发现用GPU挖比特币还不如把GPU扔了划算!
现在,AI领域也正在发生同样的事情,而且投入的是几十亿甚至上百亿美元!
“Transformer”的巨大“护城河”!
“Transformer”模型都有很多相似的地方,比如像SwigLU激活和RoPE编码这些技术,在各种模型里都普遍存在:无论是大语言模型(LLM)、嵌入模型、图片修复还是视频生成模型,都能看到它们的身影。
虽然GPT-2和Llama-3这两个最先进的模型之间隔了五年,但它们的架构几乎一模一样!唯一的区别就是“规模”!
我们相信一个“硬件彩票”理论:谁的模型在硬件上跑得最快、最便宜,谁就能赢! “Transformer”强大、有用、而且利润丰厚,足以在其他替代品出现之前,称霸所有主要的AI计算市场:
“Transformer”驱动着每一个大型AI产品:从AI助理到搜索再到聊天。AI实验室已经投入了几亿美元的研发资金来优化GPU上的“Transformer”模型。现在和下一代最先进的模型,都是“Transformer”。
训练成本越来越高,风险也越大! 未来几年,模型的训练规模会从几十亿扩大到几百亿,甚至上千亿。这时候,再尝试新的AI架构风险就太大了!与其花时间重新验证“规模定律”和性能,不如继续在“Transformer”上开发新功能,比如预测多个“字”。
现在的软件都是为“Transformer”优化的! 每一个流行的AI软件库(TensorRT-LLM、vLLM、Huggingface TGI等)都有专门的模块,用来在GPU上运行“Transformer”模型。很多基于“Transformer”开发的功能,在其他替代品上很难支持(比如推测解码、树搜索)。
未来的硬件也会为“Transformer”优化! NVIDIA的GB200芯片,就专门为“Transformer”提供了特殊支持(TransformerEngine)。像“Sohu”这样的专用芯片进入市场,标志着“不归路”!未来,如果出现能“干掉”Transformer的模型,它必须在GPU上跑得比“Sohu”上的“Transformer”还快!如果真有那么一天,那我们也会为它造一个专用芯片!
认识一下“Sohu”!
好了,终于轮到我们的主角了!
“Sohu”是全球第一款“Transformer”专用芯片! 一台装有8块“Sohu”芯片的服务器,能顶替160块H100 GPU(现在最顶级的GPU之一)!
因为“Sohu”够“专业”,所以它实现了前所未有的性能!一台8块“Sohu”芯片的服务器,每秒能处理超过50万个Llama 70B模型的“字”!
(数据方面:这些测试都是针对Llama-3 70B模型,精度是FP8,没有稀疏性,8倍模型并行,输入长度2048,输出长度128。H100的数据是用最新的TensorRT-LLM 0.10.08计算的,GB200的数据是估算的。)
“Sohu”只支持“Transformer”推理,无论是Llama还是Stable Diffusion 3(图片生成模型)都能跑。“Sohu”支持现在所有主流的AI模型(谷歌、Meta、微软、OpenAI、Anthropic等等),而且也能适应未来的新模型。
由于“Sohu”芯片只运行一种算法,所以我们可以把芯片上绝大部分的“控制电路”都给去掉,这样就能塞进更多的“数学模块”(也就是真正用来计算的部分)。所以,“Sohu”的计算能力利用率高达90%以上(相比之下,GPU用TRT-LLM跑的时候,计算能力利用率只有30%)!
我们的芯片为啥比GPU能装下更多的计算单元?
NVIDIA的H200芯片有989 TFLOPS的FP16/BF16计算能力,还没算稀疏性呢!这已经是目前最先进的了(甚至比谷歌的新Trillium芯片还先进),而2025年推出的GB200芯片,计算能力也只提高了25%(每个芯片1250 TFLOPS)。
因为GPU大部分区域都是用来实现“通用性”的,也就是让它能干各种各样的活。但如果我们只专注于“Transformer”,就能把更多的计算单元塞进芯片里!你可以从最基本的原理来证明这一点:
造一个FP16/BF16/FP8的乘加电路(所有矩阵运算的基本单元),需要1万个晶体管。H100 SXM有528个张量核心,每个核心有4x8x16个FMA电路。算下来,H100有27亿个晶体管是专门用来做矩阵乘法的。
但是!H100总共有800亿个晶体管! 这意味着,H100 GPU上只有3.3%的晶体管是用来做矩阵乘法的!
这其实是NVIDIA和其他“灵活”AI芯片公司深思熟虑的设计。如果你想支持所有类型的AI模型(CNN、LSTM、SSM等等),那你就只能这么设计,不可能做得更好了。
而我们呢?因为只跑“Transformer”,所以可以在芯片上装下更多的计算单元,而且还不用降低计算精度或者牺牲稀疏性!
推理瓶颈在内存带宽,而不是计算能力吗?
事实上,对于像Llama-3这样的现代模型来说,不是!
我们用NVIDIA和AMD的标准测试方法来说明:2048个输入“字”和128个输出“字”。大多数AI产品中,用户输入的问题(prompt)都比AI的回答要长得多(即使是新的Claude聊天机器人,系统提示也有1000多个“字”)。
在GPU和“Sohu”上,推理都是批量进行的。每个批次都会把所有模型权重加载一次,然后对批次里的每个“字”都重复使用这些权重。通常,大语言模型的输入是受计算限制的,而输出是受内存限制的。但当我们把输入和输出“字”混合起来,并结合连续批处理技术时,整个工作负载就会变得非常受计算限制!
(这里举了个连续批处理的例子,就是把不同请求的输入输出混在一个批次里处理,可以大幅提高效率。)
通过这种方法,我们用2048个输入“字”和128个输出“字”来运行Llama-3 70B模型。让每个批次包含一个序列的2048个输入“字”,以及127个不同序列的127个输出“字”。
如果这样做,每个批次大约需要 (2048+127)×700亿个参数×2字节/参数=304TFLOPs 的计算量。而只需要加载 700亿个参数×2字节/参数=140GB 的模型权重,以及大约 72GB 的KV缓存权重。这远远超过了内存带宽的计算需求:H200需要 6.8PFLOPS 的计算才能充分发挥其内存带宽。这是100%的利用率——如果利用率只有30%,那就需要再增加3倍的计算量!
因为“Sohu”的计算利用率非常高,我们可以在不被内存带宽限制的情况下,实现巨大的吞吐量!
在真实世界中,批次通常更大,输入长度也各不相同,请求到达时也更随机。在这种情况下,我们的技术效果会更好,但我们在这里用2048/128的测试标准,因为NVIDIA和AMD都用这个标准。
软件怎么搞?
在GPU和TPU上,软件简直是噩梦!要处理各种CUDA和PyTorch代码,需要一个非常复杂的编译器。第三方AI芯片(AMD、英特尔、AWS等)在软件上花了几十亿美元,效果却不怎么样。
但是!既然“Sohu”只跑“Transformer”,我们只需要为“Transformer”写软件就行了!这可就简单多了!
大多数运行开源或内部模型的公司,都会用专门为“Transformer”设计的推理库,比如TensorRT-LLM、vLLM或者HuggingFace的TGI。这些框架都非常严格——你可以调整模型的超参数,但不能真正改变底层的模型代码。但这没关系,因为所有的“Transformer”模型都非常相似,你真正需要做的就是调整超参数。
虽然这能满足95%的AI公司,但那些最大的AI实验室是定制化的。他们有工程师团队手动调整GPU的底层代码,就为了榨取更多的利用率,甚至要逆向工程,找出每个张量核心延迟最低的寄存器。
有了我们公司(Etched),你再也不用逆向工程了!我们的软件,从底层驱动到核心代码再到服务,都会开源!如果你想实现一个自定义的“Transformer”层,你的程序员可以随意实现!
Etched将是第一个!
如果我们的这个“赌注”现在看起来很疯狂,那你就想象一下2022年的时候!那时候ChatGPT还没出生呢!图片和视频生成模型还都是U-Net架构,自动驾驶汽车还靠CNN驱动,而“Transformer”这种架构,也远没有现在这么普及。
幸运的是,形势已经朝着有利于我们的方向转变了!从语言处理到图像生成,再到视频生成,各个领域的顶级模型现在全都是“Transformer”!这种趋势不仅证明了我们当初的“赌注”是对的,也让“Sohu”成为了这十年来最重要的硬件项目!
我们现在正准备推出史上最快的芯片之一:
最顶尖的AI研究人员和硬件工程师,都离开了其他主要的AI芯片项目,跑来加入我们了!
我们已经直接和台积电(全球最大的芯片代工厂)合作,用他们最先进的4纳米工艺来生产芯片。我们还从顶级的供应商那里,获得了足够的HBM(一种高速内存)和服务器供应,来快速提升我们第一年的产能。
我们的早期客户,已经预订了我们几千万美元的硬件了!
如果我们对了,“Sohu”将改变世界!
如果AI模型一夜之间变得比现在快20倍,还便宜20倍,会发生什么呢?
今天,Gemini(谷歌的AI)要回答一个关于视频的问题,可能需要超过60秒!雇佣一个AI代理(agent)的成本,比雇一个软件工程师还贵,而且完成任务可能需要好几个小时!视频生成模型每秒只能生成一帧画面!当ChatGPT的注册用户达到1000万的时候(这只占全球人口的0.15%),即使是OpenAI也耗尽了GPU的容量!
我们现在还没走上解决这个问题的轨道——即使我们继续让GPU以每两年2.5倍的速度变得更大,要实现实时视频生成,也需要十年时间!
但有了“Sohu”,这一切都将是即时的!当实时视频、实时通话、实时AI代理和实时搜索最终都能正常工作的时候,世界会变成什么样呢?
很快,你就能知道了。如果你想抢先体验“Sohu”的开发套件(HDK),可以在这里申请。
如果你对解决计算危机感到兴奋,我们非常乐意见到你。这是我们这个时代最重要的问题。请在这里申请我们的开放职位之一。