但这事吧,就跟说“我发现了把冰箱制冷效果提升一倍还只费一半电”的方法一样,听着就让人想刨根问底:到底是怎么做到的?是不是又偷偷在什么地方给我们“降级”了?
消息传开大家都竖起耳朵
事情是这样的,The Information前两天捅出来一个消息,说OpenAI的工程师在内部吹了个牛,他们搞出了一套全新的系统底层优化技术,能把模型推理成本干到原来的一半以下。这“推理”是啥意思?简单说,就是你问AI一个问题,它脑袋里转圈想答案然后打字回你的那个过程,这个过程要烧钱的,烧的就是那些昂贵的GPU算力。
据说他们把这个新技术先用在那些没登录账号的访客身上做测试,结果需要的英伟达GPU数量少得惊人,就几百块就搞定了。你想,平时处理那么大的访问量,背后得有多少服务器在跑啊。这效果要是真的,那简直就像家里那台老式空调突然被改装成了最新的变频一级能效,电费账单直接腰斩。
省钱大法到底用了几招
那他们到底是怎么做到的呢?报道里没细说,说是商业机密。但圈里人大概能猜到几个常规的省钱路子。
一是“量化压缩”,这词听着玄乎,其实可以想象成把高清无码的4K电影压缩成1080p,甚至720p。画质损失一点,但文件大小和播放时需要的算力就少多了。AI模型里的那些参数,原本都是高精度的浮点数,要是能变成低精度的整数,占用的显存和计算量立马就降下来了。据一些学术研究,像那种1.58bit的超低精度量化,理论上都能跑得挺欢,虽然可能在某些复杂推理任务上会变“傻”一点。
二是“投机采样”,或者叫“推测解码”。这招更绝,就像你写作业,先让助手(一个小模型)飞快地草稿一份答案,然后你(大模型)只需要快速检查一遍,对的留下,错的划掉。这样你就不用每道题都自己从头写到尾,速度自然就上去了,而且最终答案还是你定的,质量有保证。这属于用一点额外的计算换取了巨大的速度提升。
当然,还有可能是别的黑科技,比如“键值缓存”和“批量处理用户查询”。前者就像玩游戏时的存档,不用每次都从头加载,直接读档能省不少时间。后者则是把多个人的问题攒在一起处理,就像食堂打饭,一次性炒一大锅总比一份一份炒要省煤气。
这省下来的钱算谁的账
问题来了,省下来的钱会怎么处理呢?按OpenAI的风格,大概率不会那么好心直接降价。
最有可能的是,他们把这部分省下来的成本,转头又投到更大规模的模型训练里去了。就像你本来每个月还房贷要五千,突然银行说给你减到两千五,你大概率不会把这笔钱存起来,而是琢磨着是不是能换个大点的房子。对OpenAI来说,这省下的算力就是他们继续烧钱堆模型、保持领先地位的弹药。
另一种可能,就是给未来更复杂的AI应用做准备。现在的模型回答个问题、写段代码就已经这么费电了,以后要是真弄出个能处理复杂事务的“AI智能体”,那消耗的算力更是天文数字。现在不把成本降下来,到时候连电费都付不起,更别提什么“惠及大众”了。所以,这更像是为了未来能卖更贵、更高级的服务在铺路。
用户真实感受才有发言权
说到底,不管是量化压缩还是投机采样,最怕的就是牺牲用户体验。Reddit上的老哥老姐们已经开始操心了。有人开玩笑说“我试了一下,模型回答的字都吐不完整了”还有人担心,这会不会变成像大众的柴油门事件那样,发现你在跑分测试就火力全开,平时就偷偷给你降智。
这些担心不是没道理的。毕竟,那些复杂的数学题和编程任务,对精度的要求极高。有研究就指出,一旦把模型精度压得太低,它在做多步推理时表现会拉胯不少。OpenAI内部肯定也在权衡这个度,既要省钱,又不能把用户都气跑。尤其是在免登录用户身上先试,估计也是想着就算效果差点,这群人也不会立刻炸毛,毕竟没掏钱嘛。