DeepSeek持续释放技术信号暗示AI基建的新方向

DeepSeek表面像模型公司,深层动作更像修高速公路的人。模型创新、内存压缩、硬件适配和生态扩散可能共同组成一场更大的产业游戏,但宏大叙事和现实落地之间仍然隔着很多层楼梯。

DeepSeek持续释放技术信号引发巨大想象

过去一年很多人看DeepSeek像看一个突然闯进球场的陌生选手。别人穿着球鞋跑步,它像开着拖拉机冲进来,身后还拖着几节货运车厢。大家原来聊的是模型参数、聊天能力、编程套餐、API收入,结果它掏出另一套工具箱:MoE、MLA、GRPO、KV Cache压缩、训练管线优化。旁边的人一边看一边揉眼睛,像看到有人把电饭锅改造成火箭发动机,表情逐渐从疑惑切换成呆滞,脑袋上仿佛缓慢冒出三个问号。

于是一个巨大猜想开始满天飞。DeepSeek到底在卖什么东西。很多人脑子里有个默认模板,模型公司应该像奶茶店一样,先做产品,再卖产品,然后收钱,接着继续开分店。但DeepSeek很多动作看起来像一个装修队队长,别人还在讨论沙发摆哪里,它已经开始拿着铁锹挖地基。别人还在挑窗帘颜色,它已经拿着卷尺研究整栋楼承重墙。于是大家突然感觉眼前站着的家伙,好像压根没看同一本游戏说明书。

技术积木堆叠推动更大故事出现

很多人开始脑补更大故事,其实原因也不复杂,因为DeepSeek最近一堆动作看起来全部朝着一个方向发力,那就是减少算力压力、减少内存压力、提高硬件利用率。单独看每个动作像零件,连起来看像开始拼出一个越来越大的发动机,而且发动机轮廓越来越清晰,于是很多人的想象力开始自动踩油门。

以前训练大模型像开一辆油耗特别离谱的超级跑车。速度确实快,但油箱像破了个洞,油门踩两脚,钱包就开始抽搐。很多公司解决问题的方法也很直接,继续堆GPU,就像给车外挂十个副油箱。这个办法简单粗暴,看起来也很霸气,但画面总像有人背着十个煤气罐去参加马拉松,看上去力量感十足,仔细看又隐约有点危险。

DeepSeek很多思路更像修发动机。它围着机器拿螺丝刀转圈,一会儿改气流,一会儿缩管道,一会儿减少闲置部件,一会儿优化调度流程。看起来没有突然加十台发动机,但整个机器越来越顺滑。这种感觉很像厨房里两个厨师做饭,一个疯狂往锅里倒肉,另一个开始研究怎么让火候均匀,结果最后桌上菜反而更多。

MoE技术让计算资源分配变得聪明

MoE也就是Mixture of Experts,专家混合架构,本质上属于稀疏计算。简单说就像公司开会。以前任何事情都通知全员参加,讨论财务时程序员来了,讨论代码时会计也来了,连门口保安都在会议室认真记笔记。大家坐得满满当当,会议持续三个小时,真正讲话的人不到五个。会议室暖气费都比会议内容本身值钱。

MoE思路很简单,讨论什么事情就叫对应的人。谈财务叫财务部,谈技术叫工程师,谈设计叫设计师。于是大家突然发现,同样一个会议室,同样一个小时,效率开始往上窜。会议结束以后还有人能准时下班,整个公司仿佛出现某种奇迹。门口保安终于不用记笔记了,他可以专心看大门,幸福感也跟着上升。

这个技术带来的直接变化是计算成本下降。以前一千个专家同时在线,每个问题都要问所有人,电费账单长得像超市小票。现在一个问题只找两三个专家,其他人继续休息。服务器机房温度都跟着降了几度,运维大哥终于不用每天光着膀子进去修机器了。这种变化放在产业里,影响会一层一层往外扩散。

MLA压缩技术改变内存消耗逻辑

MLA则属于KV Cache压缩技术。KV Cache可以理解成模型的临时工作台。上下文越来越长,这个工作台就越来越大。以前处理超长上下文像有人给你搬来一个足球场大小办公桌,上面堆满纸箱、文件和咖啡杯。找个订书机都得骑共享单车过去。找完回来已经忘了刚才要干什么,整个人陷入哲学沉思。

DeepSeek思路则像把整个足球场折叠成一个旅行箱,然后告诉你东西还都在里面。听起来像魔术,实际上靠的是数学变换和矩阵压缩。它把原来需要存的一大堆信息,用更紧凑的方式重新打包。就像你出门旅行,原来要带三个大箱子,现在压缩成一个登机箱,所有衣服鞋子洗漱用品全塞进去,到酒店打开发现居然一件没少。

这里开始出现一个很有意思变化。如果工作台越来越小,那么内存压力开始下降。如果内存压力下降,对硬件要求开始下降。如果硬件要求下降,参与游戏的人开始增加。事情走到这里像夜市突然开放更多摊位。原来十个摊位抢位置,现在突然增加到五十个,空气里一下子开始出现新味道。以前买烤串要排队半小时,现在随到随烤,老板还跟你聊天。

硬件适配思路开始改变行业规则

后面开始进入真正的大脑狂飙模式。因为如果HBM高带宽内存特别贵、特别稀缺,那大家自然开始思考另一件事情,能不能把部分压力转移出去。于是SSD、LPDDR开始陆续登场。整个思路很像城市堵车。全城车辆原来都往一条高速公路冲,收费站堵得司机开始怀疑人生,有人甚至开始规划下车走路。

突然有人说可以修地铁,可以修高架,可以修支路,可以修地下隧道。于是大量汽车开始分流。SSD像大型仓库,LPDDR像临时停车场,HBM像高速收费口。以前全部车辆堵在收费口,现在大家开始走不同路线。整个交通系统压力突然下降。交警都不用来指挥了,可以回办公室喝茶看报,偶尔刷个短视频。

这个逻辑听起来确实很诱人,因为硬件行业很多问题都属于木桶问题。决定木桶装多少水的,不是最长木板,而是最短那块。以前所有人都在抢HBM,就像春运期间所有乘客都挤二十个窗口买票。突然有人说窗口增加五百个,整个候车大厅空气都像变甜了,连旁边卖泡面的阿姨都开始露出微笑。她一天能多卖两百碗,笑得合不拢嘴。

但这里面藏着一个问题。SSD速度比HBM慢很多,就像仓库和收费站之间隔着一条土路。卡车从仓库开到收费站,路上要颠簸很久,有时候还会爆胎。DeepSeek的办法是提前把常用数据放在更快的地方,不常用的放仓库。这个调度算法写得怎么样,直接决定了整个系统是起飞还是抛锚。写得好就像物流公司规划路线,写得不好就像快递员骑着驴送顺丰。

产业扩散效应开始慢慢显现

技术一旦开始往这个方向走,产业链上的玩家就开始各自打小算盘。做SSD的公司突然发现自己的产品有了新用途,以前只能存照片和电影,现在能参与AI推理。做LPDDR的公司也开始兴奋,以前觉得自己是配角,现在突然站到了舞台中央。整个硬件圈子像过年一样,大家开始互相打电话、发微信、约饭局,空气里弥漫着一种躁动。

这种变化很像当年智能手机刚出现的时候。原来做屏幕的、做电池的、做摄像头的,各自在自己的小圈子里混日子。突然有一天大家发现这些东西可以拼成一个手机,整个供应链开始疯狂转动。深圳华强北的老板们那几年走路都带风,说话声音都比平时高八度。现在AI硬件产业链上的人,眼神里开始出现类似的光芒。

但故事讲到这里,烟花开始越来越多。技术成立和商业成立之间隔着很多楼梯。很多技术圈故事有个特别有意思的现象,一个可能性很容易突然升级成确定性。有人减肥三天掉两斤,脑子已经开始研究退休以后住海边还是住山里。中间过程直接被快进键吞掉了。从厨房走到餐桌这段路,经常被大家自动忽略。

这里其实跳过很多问题。技术能不能持续领先,行业会不会全面采用,竞争对手会不会快速复制,最后收益流向谁,每个问题都像河里一块石头。看着距离很近,脚踩下去的时候才发现有些石头会晃,有些石头干脆直接沉下去。你湿了鞋,旁边的鸭子还在嘲笑你,这种体验非常不好。

技术扩散可能慢慢吃掉护城河

比如MoE现在很火,很多模型都在学。问题也就在这里。技术一旦扩散,护城河深度就可能开始变化。以前村里只有一口井,所有人都来打水。后来大家学会挖井,再后来有人直接修自来水。原来收门票的人突然发现游客从后门、侧门和天窗一起进来了。他站在正门口举着票箱,风一吹,整个人透着一种凄凉。

DeepSeek开源了很多东西,这是好事,但也是双刃剑。开源像你把自己的菜谱贴在村口公告栏上。大家看完以后,有的夸你菜做得好,有的回家直接照着做,还有的开了一家店跟你对着干。你本来想当村霸,结果成了全村人的烹饪老师。这种角色转换有时候让人哭笑不得,半夜想起来可能会睡不着。

还有一个现实问题是,硬件厂商自己也在往前跑。NVIDIA、AMD、Intel这些公司,手里的技术路线图一张比一张长。你今天针对HBM做了一套压缩算法,明天他们可能直接推出新一代HBM,带宽翻倍,价格还降了。你吭哧吭哧优化的东西,一夜之间变成了备用方案,这种感觉像你辛辛苦苦挖了一条水渠,结果天上下暴雨了。

长期烧钱模式最终还要回到账本

还有一个问题特别现实,那就是钱。所有宏大战略最后都得回到账本上。训练大模型烧钱速度像有人拿消防水枪冲蚂蚁。强化学习更夸张,生成轨迹、训练长上下文、自动研究,每一步后面都有一辆运钞车开着双闪跟随前进。运钞车司机每次刷卡的时候,手都在微微发抖,这个画面非常写实。

很多人喜欢讨论未来AI研究AI的画面。想象里特别酷,机器人自己给自己升级,然后继续发明下一代机器人。整个场景像科幻电影高潮部分,配乐激昂,主角站在山顶看着远方。但现实里机器研究一次,机房电表可能转得像起飞前的直升机螺旋桨。旁边负责电费的人看着数字跳动,眼皮也会跟着一起跳。他每个月交电费的时候,财务大姐的眼神都像在说:你是不是偷偷挖比特币了。

资本市场喜欢未来故事,这点没有问题。投资人也喜欢长期叙事,会议室里每个人都喜欢听改变世界。但会议结束以后,桌子另一头往往会出现一句非常朴素的话:今年收入多少。这句话像学生体检量身高,每个人最后都得站上去。整个房间再宏大的梦想,也得先过这一关。站上去以后,有人欢喜有人愁,愁的人开始疯狂找借口,欢喜的人开始计划买什么车。

DeepSeek目前没有特别清晰的收入模式,至少对外公开的信息不多。它更像一个技术输出者,而不是产品贩售者。这个定位很有意思,像一个人专门研究怎么种出更好的水稻,然后告诉大家方法,你自己回家种去。至于你种完以后是留着自己吃还是拿到市场卖,它不管。这种模式能不能撑起万亿美元的故事,可能还得再看几年。

行业规则开始出现缓慢变化

把所有烟花收起来,把所有猜想放桌上看,真正值得注意的东西可能没有那么玄幻。DeepSeek最有价值的地方可能不是某一个具体技术,也不是某个具体模型,而是它改变了一部分行业默认规则。规则这种东西,看不见摸不着,但每个人都得跟着走。改一条规则,比改进一个技术难多了,也值钱多了。

过去很多人默认模型越来越大、GPU越来越多、成本越来越高。这条路走到后面,只有少数几家巨头能玩得起,其他人只能在旁边看着,像小孩子趴在橱窗外看玩具。DeepSeek像有人突然走到黑板前,擦掉整行公式,然后重新写下一句话:效率本身也能成为增长路线。这个变化看起来像改一句话,实际上可能像改变整张地图。

以前比赛是谁能背更多砖头,现在开始比赛谁会造滑轮。滑轮出现以后,原来搬十块砖的人开始搬一百块。整个行业可能都会开始重新思考。原来只能站在场边看的那些人,突然发现自己也能进场了。他们可能没有十块砖,但有一把螺丝刀,或者一块木板,或者一个轮子。这些东西拼在一起,也能造出一台小推车。

森林里有人踩出一条小路的时候,没有人知道后面经过多少人,也没人知道小路尽头到底通往黄金城还是纪念品商店,但至少大家已经看见,树林里面真的出现了一条路。这条路目前还比较窄,两边有杂草,有些地方还积了水。但走的人多了,它就会慢慢变宽,慢慢变硬,慢慢变成一条真正的大路。那时候回头看,踩出第一脚的那个人,不管是有意还是无意,都值得被记住。

现实距离宏大故事还有很长距离

当然,我们也不能光顾着兴奋。万亿美元是个什么概念,大概能买下整个瑞士再加半个新加坡。一个公司靠技术优化和硬件适配,能不能撑起这个数字,中间还有很多问号。这些问号排成一排,像铁轨上的枕木,看起来有规律,但走上去才知道稳不稳。有些人走两步就掉下来,有些人走了很远,最后发现铁轨根本就是画在地上的。

DeepSeek现在做的所有事情,本质上都是在降低门槛。门槛降低以后,进来的人会变多,玩法会变多,可能性会变多。但可能性变成现实,需要时间、资金、人才、市场接受度,还有一点运气。运气这个东西最不讲道理,像打麻将,技术好的人不一定赢钱,手气旺的人随便打都能胡。AI产业这张牌桌上,目前坐满了人,每个人手里都攥着一把牌,DeepSeek的牌看起来不错,但最后能不能胡,还得看桌上其他人怎么出牌。