为什么谷歌Gemma 12B写东西比GPT-5更像真人?小模型的逆袭


从Gmail里长出来的AI:Gemma如何成为最会聊天的模型!AI说话太塑料?试试谷歌这个小模型,像朋友一样聊天

谷歌Gemma模型凭借Gmail等私有数据训练,在自然语言生成上超越大参数模型。本文用生活化案例解析小模型为何更“像人”,并给出选型指南。

你花大价钱买最牛的AI,让它写个朋友圈文案,结果出来一股塑料味,像机器人硬凹造型。反过来,谷歌出的那个叫Gemma的小模型,参数只有12B,写东西却像真人聊天,自然到不行。

为什么小的反而更“像人”?因为大模型练太多数学和代码,脑子变成“工程师模式”,而小模型保留了“普通人说话的本能”。这就跟你选朋友一样,不是越大越好,是越对味越好。



你家AI说话一股塑料味,你受得了吗?

你有没有这种经历:打开一个据说宇宙第一强的AI,输入“帮我写个周末出去玩的朋友圈”。它噼里啪啦给你来一段:“在这个充满活力的周末,我踏上了探索周边美景的旅程,感受大自然的鬼斧神工。” 你读完,整个人都不好了。这哪是人说的话,这简直是酒店大堂的宣传册。

更气人的是,你让它改。你喊破喉咙:“说人话!” 它给你换成:“周末,出去玩,开心。” 好家伙,从一本正经变成三岁小孩。这就好像你去饭馆点了个红烧肉,第一次上来的是橡皮,第二次上来的是生肉。反正就不是那口家常味。

这种“塑料感”有个洋气的名字,叫“slop”。对,就跟猪食似的,一坨一坨的,看着像那么回事,嚼起来全是渣。大模型特别擅长生产这种高级饲料。它们词汇量巨大,句子花样翻新,但组合在一起,你就是觉得它在念稿子,背后没有一个活人。

你试着让它写个邮件催客户付款。大模型写的:“鉴于贵司账款已逾约定之期,恳请尽快安排汇款,以维系双方长期友好之合作关系。” 客户看了,估计得先翻个字典。你心里想的是:“老王,上个月那笔钱该给了哈,谢谢。” 这中间的差距,就是“像人”和“像AI”的距离。

现在问题来了。市面上那么多模型,都说自己聪明,怎么就没人把“说人话”当回事呢?难道越聪明的AI,就越要当个没有感情的说话机器?



聪明的代价是变成一个无聊的工程师

你想想你们班上的学霸。数学永远满分,物理永远第一。但你要是问他:“哎,你觉得今天食堂的菜怎么样?” 他能给你分析出蛋白质、碳水化合物和油脂的比例。你问他周末干嘛,他说他刷了五套真题。你佩服他,但你真的不想跟他出去玩。

大模型现在就是这个学霸。它们训练的时候,喂了海量的数学题、代码仓库、技术文档。这些东西全是逻辑、规则、精确度。你让它算1+1,它绝对不给你等于3。你让它写代码,它给你整得明明白白。这是好事,对吧?

但坏处也跟着来了。它学得太好了,好到看见任何问题,第一反应都是“用逻辑拆解,用标准格式回答”。你问它“今天心情怎么样”,它脑子里转的是:“用户询问情绪状态,需给出客观分析。可能的情绪类别包括快乐、悲伤、平静……” 然后给你输出一段教科书级别的情绪描述。你读完,感觉自己在看心理学科普,不是在跟人聊天。

Gemma 26B这个模型就很有意思。网上有人说,它不像其他模型那样“干一件事”,而是更倾向于“理解用户到底想要什么”。什么意思呢?你去奶茶店,大多数店员会问:“喝什么?” 你点完,做完,给你。这是“干一件事”。但有个店员会看你一眼,说:“外面热吧?来杯少冰的柠檬茶?你今天好像有点上火。” 这就是“懂你”。

26B就是后面那个店员。它不是不能写代码,不是不能算数学,但它没有被训练成“一上来就干活”的机器。它被训练成“先听听你要啥,我再想想怎么说”。这个差别,就是塑料和真皮的距离。

有个哥们儿在推特上说,他用Gemma写东西,感觉“less corporate and filtered”,就是没那么公司味儿、没那么过滤。你懂那种感觉吗?就像你给朋友发语音,跟给领导写邮件的区别。Gemma就是那个跟你蹲在路边啃烤串的朋友。

那它怎么做到的?难道谷歌偷偷往里面塞了什么神秘配方?



谷歌手里有你的聊天记录,这是好事?

你可能觉得毛骨悚然。谷歌啊,那个知道你搜过什么、看过什么视频、用什么邮箱的公司。它要是拿这些数据去训练AI,那AI不得全是你的影子?

没错。很多人猜测,Gemma之所以说话像人,就是因为它吃过的“饭”跟别人不一样。别的模型狂啃维基百科、学术论文、GitHub代码。Gemma可能啃了大量Gmail里的私人邮件、Google Docs里的草稿、Google Meet会议里的闲聊。

邮件是什么?是活人写的。你催你妈寄东西,你跟同事吐槽老板,你跟朋友约饭。这些文字里全是语气词、省略号、错别字、阴阳怪气、真情流露。AI吃这些长大,能不像人吗?

你再看那些用Reddit、Twitter数据训练的模型。Reddit上的人说话是挺糙的,但那是“公开场合的糙”。就像你在操场喊话,跟你在被窝里打电话,语气能一样吗?邮件和私人文档,那是被窝里的语言。

网上有个叫AVB的老哥说得狠:“谷歌用了几十年的Gmail和Google Drive文档,还有Google Meets的录音来训练。” 如果这是真的,那就说得通了。你想想,你十年前写的那个中二到不行的QQ空间日志,谷歌可能也有备份(开玩笑)。但道理是这个道理:真实的、私人的、不经过滤的文字,才是“人话”的原料。

这也解释了为什么Gemma写墨西哥西班牙语那么地道。有个网友叫Pato Abascal,他说Gemma能抓住墨西哥西班牙语的细微差别,而不会掉进那种烦人的西班牙西班牙语里。为啥?因为谷歌在墨西哥有多少用户?他们写了多少邮件?这些数据,别的公司拿不到。

这就像一个从小在重庆长大的娃,你让他说普通话,他也能说,但他骂人最顺溜的还是“你个宝器”。Gemma就是那个有“地方口音”的模型。它不只是一个会说话的机器,它是一个有“成长背景”的机器。

但你可能会问:谷歌这么搞,不怕侵权吗?不怕。因为训练用的是“模式”,不是“复制粘贴”。它学的是人怎么起承转合,怎么用语气词,怎么转折,而不是背你的邮件。这跟你看了一千部电影,学会了怎么谈恋爱,是一个道理。你没抄任何一句台词,但你掌握了那个“味儿”。

所以,小模型Gemma 12B或者26B,它们“小”在哪?小在参数少,脑子里的“神经元”少。但正因为少,它没法记住那么多冷知识,反而被迫学会了“怎么说话”。这就引出了下一个问题:参数越少,反而更会聊天?



参数少就像没上过补习班的孩子,说话反而真

你见过那种没上过任何补习班的小孩吗?他说话可能颠三倒四,用词也不高级,但他说的每一句都是他想说的。你问他“喜欢什么”,他说“喜欢奥特曼,因为他能打怪兽”。简单、直接、真。

大模型不一样。大模型参数多,几百亿、几千亿。这相当于从小上了哈佛附幼、附小、附中,一路被名师灌大的。它知道“奥特曼”这个词不够高级,得说“特摄片中的英雄象征”。它累不累?它不知道。它只知道,这么说话“正确”。

Gemma 12B或者26B,参数少,就像那个没上过补习班的孩子。它手里的“词汇积木”少,没法堆出华丽的城堡,只能搭个小房子。但小房子是人住的,城堡是给人参观的。

推特上一个叫@SecrtAgntSquirl的哥们说,他用Gemma 4的12B QAT版本(一种量化模型,跑起来更快),感觉对话特别自然。为啥?因为小模型在训练的时候,遇到一个任务,比如“写一封道歉信”。它脑子里没存着几百种“道歉信模板”,它只能回忆“我见过的那些真诚的人是怎么道歉的”。结果就是,它写出来的东西,像个人在低头认错,而不是外交部在发声明。

你再对比一下那些顶级的、用来写代码的模型,比如阿里的Qwen系列。Qwen 3.6-35B-A3B,写代码、调用工具,那叫一个猛。但你让它写首诗?完了,它给你输出一首充满“变量”“循环”“函数”风格的诗。不是说它写不好,是它那个“工程师脑子”改不过来。

这就像你让一个F1赛车手去开公交车。他当然能开,但他一脚油门下去,全车人吐了。Gemma就是那个稳稳当当的公交车司机。它不快,但它让你舒服。

网上有个比喻特别贴切:大模型被RL(强化学习)过度训练了,在数学和代码上搞得太多,结果一个个都像“自闭症工程师”。不是说自闭症不好,是说他们思考问题的方式是“输入-输出-最优解”,没有那种“呃……怎么说呢……就那个……” 的人类犹豫感。

小模型因为没有经历那么变态的“应试教育”,反而保留了一种“野性”。这种野性,就是人类语言的灵魂。它偶尔会犯错,会胡说八道(有人吐槽Gemma幻觉多),但幻觉多恰恰证明它敢猜。一个永远正确、永远标准的人,你敢跟他交心吗?

那么,既然小模型说话这么好,是不是以后大家都用小模型得了?大模型是不是该扔了?



别扔大模型,一个负责干活,一个负责聊天

你肯定见过这种人:工作能力超强,写代码、做表格、修电脑,一把好手。但你跟他吃饭,他一句话能把天聊死。你问他“最近看了啥电影”,他说“没看,我优化了数据库索引,查询速度提升了30%”。你沉默了。

反过来,你也见过这种人:特别会聊天,段子一个接一个,你觉得他特有意思。但他让你帮忙算个房贷利率,他掏出手机按了半天,抬头问你“本金是啥?”。

AI也是这个道理。Gemma这种模型,擅长聊天、写文章、写邮件、搞创意。你让它帮你编个故事,它能给你讲得绘声绘色。但你让它写个Python脚本,处理Excel表格里的两千行数据?它可能就卡住了,或者写出一个能跑但效率极低的东西。

而那些代码模型,比如Qwen、DeepSeek Coder,你让它写脚本,它刷刷刷给你整出来,还带注释。但你让它把这个脚本的“创作心得”写成一篇感人的日记?完蛋,它写出来的东西你恨不得自己重写一遍。

所以,聪明人的做法不是二选一,而是两个都要。就像你手机里既有计算器,又有抖音。干正事用计算器,摸鱼用抖音。你不能拿抖音算账,也不能拿计算器刷视频。

那个叫Joel的哥们(就是发推说Gemma好用的人)也承认:26B写东西比12B好,但12B在调用工具(比如让AI去网上查天气、发邮件)方面特别强。看到了吗?各有各的绝活。

这就像你家工具箱里,有扳手也有螺丝刀。你非说扳手不好,因为你拧螺丝拧不进去。那是你的问题,不是扳手的问题。

未来的AI很可能是一个“混合体”。一个大身体里面,住着两个小灵魂。一个灵魂负责逻辑、代码、工具,像个工程师。另一个灵魂负责聊天、写作、共情,像个作家。你下指令的时候,AI自己判断:这事儿该派工程师上,还是作家上?或者两个人一起商量着来。

Joel在推特上感叹,他很好奇未来会不会有一个“混合模型”,既有密集的智能(工程师脑),又有优美的散文(作家心)。如果真能造出来,那才是真正的全能选手。

但那一天还没到。所以现在的你,需要自己动手搭配。

那你到底该怎么选?别急,下一章给你一张简单的“选人指南”。



一份极简指南:什么时候该用Gemma,什么时候该换人

你走进一家工具店,老板问你要啥。你说“给我来个好用的”。老板问你“干啥用?” 你说“就……用呗。” 老板没法卖你。选AI也一样,先搞明白自己要干嘛。

第一,如果你要写东西。写朋友圈、写小红书文案、写邮件、写情书(别笑,真有人用AI写)、写工作总结、写故事。只要任务是“用文字打动人”,优先试试Gemma 12B或者26B。你会发现,它写的开头不会用“在当今社会”,它写的结尾不会用“综上所述”。这就是活人味。

第二,如果你要聊天。你想找个AI陪你唠嗑,解解闷,或者练英语口语,或者角色扮演。Gemma也是好选择。因为它“接话”自然,不会突然给你来一段百科。你吐槽“今天好累”,它不会说“疲劳是常见的生理现象”,它可能会说“哎,谁不是呢,我也刚处理完一堆破事”。这就对了。

第三,如果你要写代码、调API、做数据分析、搞数学题。别犹豫,上那些代码模型。Qwen、DeepSeek Coder、Llama 3的各种微调版。它们就是干这个的。你非让Gemma写个二叉树反转,它能写出来,但可能绕了十八个弯,还带两个bug。这不是它不行,是你用错了地方。

第四,如果你要做“智能体”任务。比如让AI自己规划步骤:先上网搜信息,然后总结,然后写邮件,然后发出去。这种多步骤、需要调用不同工具的任务,Gemma 12B表现很棒。Joel的原话是“so good at tool calling”。所以,别因为它写文章好,就觉得它只会写文章。

最后,别迷信参数大小。参数大不等于会聊天,参数小不等于傻。这跟找对象一样,身高一米九不一定温柔,一米七不一定没安全感。你要的是“适合你”。试试Gemma,花不了你几分钟。你可能会发现,原来AI也可以像朋友一样跟你说话,而不是像客服。



你以为你在选AI,其实你在选一个说话的方式

说到底,AI写东西像不像人,不是一个技术问题,是一个“食物”问题。你给它喂什么,它就长成什么。喂它学术论文,它就变成教授。喂它代码,它就变成程序员。喂它Gmail,它就变成一个天天写邮件的普通人。

谷歌的优势在于,它手里有全世界最大的“普通人写的文字”的矿山。那些邮件、文档、会议记录,全是活人留下的痕迹。Gemma就是这座矿山里炼出来的金子。

其他公司呢?OpenAI有Reddit,Meta有Facebook和Instagram的公开数据。但这些公开数据里,有太多“表演成分”。你在社交媒体上发的文字,跟你私底下写的日记,能一样吗?肯定不一样。

所以,Gemma的自然,是一种“私密感”的自然。它像一个看过你所有聊天记录的朋友,知道你怎么说话,然后模仿你。听起来有点恐怖,但用起来真的很爽。

你现在就可以去试。去LM Studio,或者Ollama,或者任何一个能跑本地模型的地方,下载一个Gemma 4 E2B(5B)或者12B QAT。随便跟它聊几句。你会发现,它不会说“作为一个人工智能”,它不会说“很抱歉我无法回答”。它会直接接你的话茬,像个真人一样继续聊下去。

当然,它也会胡说八道。它也会犯低级错误。它不像GPT-5那样无所不知。但你需要的是一个无所不知的百科全书,还是一个能跟你正常聊天的朋友?想清楚这个问题,你就知道该选谁了。

最后,送你一句话:AI世界没有十全十美的模型,只有合不合适的对话。Gemma证明了,有时候,小一点,反而更近一点。



综合自Joel - coffee/acc(AI开发者及爱好者)及其推文回复者(包括AI研究人员、开源社区贡献者、普通用户体验者)