DeepSeek持续释放技术信号暗示AI基建的新方向

#AI基础设施 #DeepSeek时刻 #AI人工智能指南 #符号推理与形式逻辑

2026-05-26 1 6K banq

DeepSeek表面像模型公司，深层动作更像修高速公路的人。模型创新、内存压缩、硬件适配和生态扩散可能共同组成一场更大的产业游戏，但宏大叙事和现实落地之间仍然隔着很多层楼梯。

DeepSeek持续释放技术信号引发巨大想象

过去一年很多人看DeepSeek像看一个突然闯进球场的陌生选手。别人穿着球鞋跑步，它像开着拖拉机冲进来，身后还拖着几节货运车厢。大家原来聊的是模型参数、聊天能力、编程套餐、API收入，结果它掏出另一套工具箱：MoE、MLA、GRPO、KV Cache压缩、训练管线优化。旁边的人一边看一边揉眼睛，像看到有人把电饭锅改造成火箭发动机，表情逐渐从疑惑切换成呆滞，脑袋上仿佛缓慢冒出三个问号。

于是一个巨大猜想开始满天飞。DeepSeek到底在卖什么东西。很多人脑子里有个默认模板，模型公司应该像奶茶店一样，先做产品，再卖产品，然后收钱，接着继续开分店。但DeepSeek很多动作看起来像一个装修队队长，别人还在讨论沙发摆哪里，它已经开始拿着铁锹挖地基。别人还在挑窗帘颜色，它已经拿着卷尺研究整栋楼承重墙。于是大家突然感觉眼前站着的家伙，好像压根没看同一本游戏说明书。

技术积木堆叠推动更大故事出现

很多人开始脑补更大故事，其实原因也不复杂，因为DeepSeek最近一堆动作看起来全部朝着一个方向发力，那就是减少算力压力、减少内存压力、提高硬件利用率。单独看每个动作像零件，连起来看像开始拼出一个越来越大的发动机，而且发动机轮廓越来越清晰，于是很多人的想象力开始自动踩油门。

以前训练大模型像开一辆油耗特别离谱的超级跑车。速度确实快，但油箱像破了个洞，油门踩两脚，钱包就开始抽搐。很多公司解决问题的方法也很直接，继续堆GPU，就像给车外挂十个副油箱。这个办法简单粗暴，看起来也很霸气，但画面总像有人背着十个煤气罐去参加马拉松，看上去力量感十足，仔细看又隐约有点危险。

DeepSeek很多思路更像修发动机。它围着机器拿螺丝刀转圈，一会儿改气流，一会儿缩管道，一会儿减少闲置部件，一会儿优化调度流程。看起来没有突然加十台发动机，但整个机器越来越顺滑。这种感觉很像厨房里两个厨师做饭，一个疯狂往锅里倒肉，另一个开始研究怎么让火候均匀，结果最后桌上菜反而更多。

MoE技术让计算资源分配变得聪明

MoE也就是Mixture of Experts，专家混合架构，本质上属于稀疏计算。简单说就像公司开会。以前任何事情都通知全员参加，讨论财务时程序员来了，讨论代码时会计也来了，连门口保安都在会议室认真记笔记。大家坐得满满当当，会议持续三个小时，真正讲话的人不到五个。会议室暖气费都比会议内容本身值钱。

MoE思路很简单，讨论什么事情就叫对应的人。谈财务叫财务部，谈技术叫工程师，谈设计叫设计师。于是大家突然发现，同样一个会议室，同样一个小时，效率开始往上窜。会议结束以后还有人能准时下班，整个公司仿佛出现某种奇迹。门口保安终于不用记笔记了，他可以专心看大门，幸福感也跟着上升。

这个技术带来的直接变化是计算成本下降。以前一千个专家同时在线，每个问题都要问所有人，电费账单长得像超市小票。现在一个问题只找两三个专家，其他人继续休息。服务器机房温度都跟着降了几度，运维大哥终于不用每天光着膀子进去修机器了。这种变化放在产业里，影响会一层一层往外扩散。

MLA压缩技术改变内存消耗逻辑

MLA则属于KV Cache压缩技术。KV Cache可以理解成模型的临时工作台。上下文越来越长，这个工作台就越来越大。以前处理超长上下文像有人给你搬来一个足球场大小办公桌，上面堆满纸箱、文件和咖啡杯。找个订书机都得骑共享单车过去。找完回来已经忘了刚才要干什么，整个人陷入哲学沉思。

DeepSeek思路则像把整个足球场折叠成一个旅行箱，然后告诉你东西还都在里面。听起来像魔术，实际上靠的是数学变换和矩阵压缩。它把原来需要存的一大堆信息，用更紧凑的方式重新打包。就像你出门旅行，原来要带三个大箱子，现在压缩成一个登机箱，所有衣服鞋子洗漱用品全塞进去，到酒店打开发现居然一件没少。

这里开始出现一个很有意思变化。如果工作台越来越小，那么内存压力开始下降。如果内存压力下降，对硬件要求开始下降。如果硬件要求下降，参与游戏的人开始增加。事情走到这里像夜市突然开放更多摊位。原来十个摊位抢位置，现在突然增加到五十个，空气里一下子开始出现新味道。以前买烤串要排队半小时，现在随到随烤，老板还跟你聊天。

硬件适配思路开始改变行业规则

后面开始进入真正的大脑狂飙模式。因为如果HBM高带宽内存特别贵、特别稀缺，那大家自然开始思考另一件事情，能不能把部分压力转移出去。于是SSD、LPDDR开始陆续登场。整个思路很像城市堵车。全城车辆原来都往一条高速公路冲，收费站堵得司机开始怀疑人生，有人甚至开始规划下车走路。

突然有人说可以修地铁，可以修高架，可以修支路，可以修地下隧道。于是大量汽车开始分流。SSD像大型仓库，LPDDR像临时停车场，HBM像高速收费口。以前全部车辆堵在收费口，现在大家开始走不同路线。整个交通系统压力突然下降。交警都不用来指挥了，可以回办公室喝茶看报，偶尔刷个短视频。

这个逻辑听起来确实很诱人，因为硬件行业很多问题都属于木桶问题。决定木桶装多少水的，不是最长木板，而是最短那块。以前所有人都在抢HBM，就像春运期间所有乘客都挤二十个窗口买票。突然有人说窗口增加五百个，整个候车大厅空气都像变甜了，连旁边卖泡面的阿姨都开始露出微笑。她一天能多卖两百碗，笑得合不拢嘴。

但这里面藏着一个问题。SSD速度比HBM慢很多，就像仓库和收费站之间隔着一条土路。卡车从仓库开到收费站，路上要颠簸很久，有时候还会爆胎。DeepSeek的办法是提前把常用数据放在更快的地方，不常用的放仓库。这个调度算法写得怎么样，直接决定了整个系统是起飞还是抛锚。写得好就像物流公司规划路线，写得不好就像快递员骑着驴送顺丰。

产业扩散效应开始慢慢显现

技术一旦开始往这个方向走，产业链上的玩家就开始各自打小算盘。做SSD的公司突然发现自己的产品有了新用途，以前只能存照片和电影，现在能参与AI推理。做LPDDR的公司也开始兴奋，以前觉得自己是配角，现在突然站到了舞台中央。整个硬件圈子像过年一样，大家开始互相打电话、发微信、约饭局，空气里弥漫着一种躁动。

这种变化很像当年智能手机刚出现的时候。原来做屏幕的、做电池的、做摄像头的，各自在自己的小圈子里混日子。突然有一天大家发现这些东西可以拼成一个手机，整个供应链开始疯狂转动。深圳华强北的老板们那几年走路都带风，说话声音都比平时高八度。现在AI硬件产业链上的人，眼神里开始出现类似的光芒。

但故事讲到这里，烟花开始越来越多。技术成立和商业成立之间隔着很多楼梯。很多技术圈故事有个特别有意思的现象，一个可能性很容易突然升级成确定性。有人减肥三天掉两斤，脑子已经开始研究退休以后住海边还是住山里。中间过程直接被快进键吞掉了。从厨房走到餐桌这段路，经常被大家自动忽略。

这里其实跳过很多问题。技术能不能持续领先，行业会不会全面采用，竞争对手会不会快速复制，最后收益流向谁，每个问题都像河里一块石头。看着距离很近，脚踩下去的时候才发现有些石头会晃，有些石头干脆直接沉下去。你湿了鞋，旁边的鸭子还在嘲笑你，这种体验非常不好。

技术扩散可能慢慢吃掉护城河

比如MoE现在很火，很多模型都在学。问题也就在这里。技术一旦扩散，护城河深度就可能开始变化。以前村里只有一口井，所有人都来打水。后来大家学会挖井，再后来有人直接修自来水。原来收门票的人突然发现游客从后门、侧门和天窗一起进来了。他站在正门口举着票箱，风一吹，整个人透着一种凄凉。

DeepSeek开源了很多东西，这是好事，但也是双刃剑。开源像你把自己的菜谱贴在村口公告栏上。大家看完以后，有的夸你菜做得好，有的回家直接照着做，还有的开了一家店跟你对着干。你本来想当村霸，结果成了全村人的烹饪老师。这种角色转换有时候让人哭笑不得，半夜想起来可能会睡不着。

还有一个现实问题是，硬件厂商自己也在往前跑。NVIDIA、AMD、Intel这些公司，手里的技术路线图一张比一张长。你今天针对HBM做了一套压缩算法，明天他们可能直接推出新一代HBM，带宽翻倍，价格还降了。你吭哧吭哧优化的东西，一夜之间变成了备用方案，这种感觉像你辛辛苦苦挖了一条水渠，结果天上下暴雨了。

长期烧钱模式最终还要回到账本

还有一个问题特别现实，那就是钱。所有宏大战略最后都得回到账本上。训练大模型烧钱速度像有人拿消防水枪冲蚂蚁。强化学习更夸张，生成轨迹、训练长上下文、自动研究，每一步后面都有一辆运钞车开着双闪跟随前进。运钞车司机每次刷卡的时候，手都在微微发抖，这个画面非常写实。

很多人喜欢讨论未来AI研究AI的画面。想象里特别酷，机器人自己给自己升级，然后继续发明下一代机器人。整个场景像科幻电影高潮部分，配乐激昂，主角站在山顶看着远方。但现实里机器研究一次，机房电表可能转得像起飞前的直升机螺旋桨。旁边负责电费的人看着数字跳动，眼皮也会跟着一起跳。他每个月交电费的时候，财务大姐的眼神都像在说：你是不是偷偷挖比特币了。

资本市场喜欢未来故事，这点没有问题。投资人也喜欢长期叙事，会议室里每个人都喜欢听改变世界。但会议结束以后，桌子另一头往往会出现一句非常朴素的话：今年收入多少。这句话像学生体检量身高，每个人最后都得站上去。整个房间再宏大的梦想，也得先过这一关。站上去以后，有人欢喜有人愁，愁的人开始疯狂找借口，欢喜的人开始计划买什么车。

DeepSeek目前没有特别清晰的收入模式，至少对外公开的信息不多。它更像一个技术输出者，而不是产品贩售者。这个定位很有意思，像一个人专门研究怎么种出更好的水稻，然后告诉大家方法，你自己回家种去。至于你种完以后是留着自己吃还是拿到市场卖，它不管。这种模式能不能撑起万亿美元的故事，可能还得再看几年。

行业规则开始出现缓慢变化

把所有烟花收起来，把所有猜想放桌上看，真正值得注意的东西可能没有那么玄幻。DeepSeek最有价值的地方可能不是某一个具体技术，也不是某个具体模型，而是它改变了一部分行业默认规则。规则这种东西，看不见摸不着，但每个人都得跟着走。改一条规则，比改进一个技术难多了，也值钱多了。

过去很多人默认模型越来越大、GPU越来越多、成本越来越高。这条路走到后面，只有少数几家巨头能玩得起，其他人只能在旁边看着，像小孩子趴在橱窗外看玩具。DeepSeek像有人突然走到黑板前，擦掉整行公式，然后重新写下一句话：效率本身也能成为增长路线。这个变化看起来像改一句话，实际上可能像改变整张地图。

以前比赛是谁能背更多砖头，现在开始比赛谁会造滑轮。滑轮出现以后，原来搬十块砖的人开始搬一百块。整个行业可能都会开始重新思考。原来只能站在场边看的那些人，突然发现自己也能进场了。他们可能没有十块砖，但有一把螺丝刀，或者一块木板，或者一个轮子。这些东西拼在一起，也能造出一台小推车。

森林里有人踩出一条小路的时候，没有人知道后面经过多少人，也没人知道小路尽头到底通往黄金城还是纪念品商店，但至少大家已经看见，树林里面真的出现了一条路。这条路目前还比较窄，两边有杂草，有些地方还积了水。但走的人多了，它就会慢慢变宽，慢慢变硬，慢慢变成一条真正的大路。那时候回头看，踩出第一脚的那个人，不管是有意还是无意，都值得被记住。

现实距离宏大故事还有很长距离

当然，我们也不能光顾着兴奋。万亿美元是个什么概念，大概能买下整个瑞士再加半个新加坡。一个公司靠技术优化和硬件适配，能不能撑起这个数字，中间还有很多问号。这些问号排成一排，像铁轨上的枕木，看起来有规律，但走上去才知道稳不稳。有些人走两步就掉下来，有些人走了很远，最后发现铁轨根本就是画在地上的。

DeepSeek现在做的所有事情，本质上都是在降低门槛。门槛降低以后，进来的人会变多，玩法会变多，可能性会变多。但可能性变成现实，需要时间、资金、人才、市场接受度，还有一点运气。运气这个东西最不讲道理，像打麻将，技术好的人不一定赢钱，手气旺的人随便打都能胡。AI产业这张牌桌上，目前坐满了人，每个人手里都攥着一把牌，DeepSeek的牌看起来不错，但最后能不能胡，还得看桌上其他人怎么出牌。