DeepMind的Drew Purves表示,人工智能可以帮助我们与动物对话,这可能是它最伟大的遗产。
像DolphinGemma这样的项目已经在用LLM解码海豚的语音。鲸鱼的歌声改变了我们对鲸鱼的看法。一场真实的对话可以改变我们对自然的看法。
海豚“黑话”,人类能懂吗?一场跨物种的“八卦”大会!
几十年来,科学家们就像侦探一样,一直想破译海豚的各种“咔哒”声、“吹口哨”声和“脉冲”声,这可是科学界最酷的挑战之一!你想想看,如果有一天,我们不光能听到海豚的声音,还能听懂它们那些复杂的“黑话”,甚至能跟它们“对话”起来,那是不是就像科幻电影里演的一样,超酷炫?!
谷歌放大招:给海豚造了个“翻译官”——DolphinGemma!
就在国家海豚日这天,谷歌搞了个大新闻!他们和佐治亚理工学院的科研大佬们,还有“野生海豚项目”(WDP)的那些常年泡在海里的研究员们,一起宣布了个超棒的进展:他们捣鼓出了一个叫 DolphinGemma 的人工智能模型!
这DolphinGemma可不是一般的模型,它就像个超级学生,专门去学习海豚说话的“规矩”,然后还能自己生成新的、听起来像海豚会发出来的声音序列。这简直就是想突破人类和海豚之间的“语言障碍”,让我们和海洋世界的关系变得更近一步!
海豚社会学家的“潜伏”生活:偷听海豚八卦几十年!
要真正了解一个物种,你得像个“老狗仔”一样,对它了如指掌。“野生海豚项目”(WDP)的科学家们就是这样一群人!他们从1985年就开始干这事儿了,这是世界上时间最长的水下海豚研究项目,专门盯着巴哈马群岛那些野生的 大西洋斑点海豚 看。
他们不是抓海豚上来研究,而是像个“隐形人”一样,悄悄地潜入海豚的世界,在它们的“地盘”上,按照它们的“规矩”来观察。这样搞了几十年,他们攒了一大堆珍贵的资料:几十年的水下视频和音频,而且每个视频和音频都和具体的海豚“对号入座”,连它们的名字、经历、做了什么,都记录得清清楚楚!
这群WDP的“海豚社会学家”最重要的工作,就是观察和分析海豚是咋交流、咋搞社交的。他们整天泡在水下,能直接把海豚发出的声音和它们当时的行为联系起来。这可比在水面上偷偷看一眼强太多了!几十年来,他们发现了一些有趣的“海豚黑话”和它们对应的行为,比如:
- “签名哨声”(就像海豚的“专属名字”),海豚妈妈和宝宝走散了,就会用这种哨声来“呼叫”对方,然后团聚。
- 打架的时候,海豚经常会发出一种“突发脉冲尖叫声”,听起来就像人类吵架时的嘶吼。
- 求爱或者追鲨鱼的时候,海豚会发出“咔哒嗡嗡声”,听起来是不是有点像人类在“眉来眼去”或者“追逐打闹”?
要知道,搞清楚这些声音是哪只海豚发出来的,它们当时在干啥,这对理解这些“黑话”的真正意思非常非常重要。WDP研究的最终目标,就是想搞明白这些海豚的自然声音序列到底有啥规律,有啥深层含义——他们想找到海豚交流中是不是也有像人类语言那样的“语法”和“词汇”!这种长期观察和分析海豚“黑话”的工作,就是DolphinGemma能成功的基础,没有这些背景资料,AI也无从学起。
DolphinGemma登场:海豚的“百度翻译”?
分析海豚那些复杂又自然的声音,简直是个“不可能完成的任务”!但是,WDP那些海量的、打了标签的海豚声音数据,却给最前沿的人工智能提供了千载难逢的机会。
于是,DolphinGemma 就登场了!这个人工智能模型是谷歌的大佬们开发的,它用了一种谷歌特有的音频技术——SoundStream标记器,这玩意儿能把海豚的声音高效地“编码”起来,然后一个专门处理复杂序列的模型就开始“啃”这些数据。这个模型大概有4亿个参数,最厉害的是,它的大小正好能直接在WDP野外用的 Pixel手机 上运行!
这个模型是基于谷歌的另一个轻量级、顶尖的开源模型 Gemma 发展而来的,所以DolphinGemma也继承了Gemini模型的一些优秀基因。DolphinGemma 在WDP收集的大西洋斑点海豚声音数据库里接受了“魔鬼训练”,它就像一个“声音翻译机”,把海豚的自然声音序列作为输入,然后识别出里面的模式、结构,最终还能预测出这个序列后面可能出现的声音!这就像我们用手机输入法打字,大语言模型能预测你下一个要打的字一样,
DolphinGemma也能预测海豚的“下一个词”!
WDP打算在这个研究季节,就开始在野外用DolphinGemma了,它可能直接给研究带来巨大的好处。通过识别那些重复出现的声音模式、集群和可靠的序列,这个模型能帮研究人员发现海豚自然交流中隐藏的结构和潜在的意义——这在以前,可是要靠大量的人工去完成的,累死个人!最终,这些模式,再加上研究人员自己创造的一些合成声音(比如用来指海豚喜欢玩的玩具的声音),可能就能和海豚建立一个共同的“词汇表”,让我们可以和海豚进行“你来我往”的互动交流!
用Pixel手机听懂海豚心声,还能跟它们“聊天”!
除了分析海豚的自然“黑话”,WDP还在走一条特别的平行路线:用海洋科技探索和海豚“双向互动”的可能性!他们和佐治亚理工学院合作,开发了一个叫 CHAT 的系统(全称是“鲸类听力增强遥测系统”)。CHAT 可不是想直接翻译海豚那些复杂的自然语言,它更像是想建立一个更简单的“共享词汇表”。
这个想法是这样的:首先,他们会用CHAT系统发出一些新奇的合成哨声(这些哨声和海豚自己的自然声音不一样),然后把这些哨声和海豚喜欢玩的一些特定物品联系起来,比如研究人员用的海藻、海草或者围巾。通过在人类之间演示这个系统,研究人员希望那些天生就好奇心爆棚的海豚,能学着模仿这些哨声,然后来“要求”这些物品。最终,随着更多海豚的自然声音被理解,它们也能被加入到这个系统里。
为了实现这种“双向互动”,CHAT系统得先做到几件事:
- 在吵闹的大海里,准确地听到那些合成的模拟声音。
- 实时识别海豚模仿出来的哨声。
- 通过水下骨传导耳机(就是那种戴上能通过骨头听到声音的耳机),告诉研究人员海豚“想要”哪个东西。
- 让研究人员能快速反应,拿出正确的东西来“奖励”海豚,加深这种“语言”的联系。
用Pixel智能手机来做这个,简直是太方便了!它大大减少了对定制硬件的需求,让系统更好维护,更省电,而且设备的成本和尺寸都大大缩小了——这对于在茫茫大海上进行野外研究来说,简直是雪中送炭!与此同时,DolphinGemma的“预测能力”也能帮助CHAT系统更早地预测和识别出海豚“说话”序列中的潜在模仿,让研究人员能更快地对海豚做出反应,这样人豚互动就会更顺畅、更有趣!
DolphinGemma要“开源”:让全世界的科学家一起“听懂”海豚!
谷歌觉得,科学发现这事儿,大家一起合作才最给力!所以,他们计划在今年夏天把DolphinGemma作为一个开放模型分享出来。虽然DolphinGemma现在主要是用大西洋斑点海豚的声音训练的,但谷歌预计它对研究其他鲸类动物(比如宽吻海豚或者飞旋海豚)的科学家来说,也可能会非常有用!当然,不同物种的声音可能需要稍微调整一下模型,而模型的开放性就能帮助大家去适应和改进。
通过提供像DolphinGemma这样的工具,谷歌希望全世界的研究人员都能有工具去挖掘他们自己的声音数据,更快地找到规律,一起加深我们对这些聪明海洋哺乳动物的理解。
要完全理解海豚的交流,这可是一条漫长的路!但是,WDP那些专门的野外研究,佐治亚理工学院的工程技术,再加上谷歌的强大科技力量,三者强强联手,正在开辟令人兴奋的新可能性!我们不再只是“听”海豚说话了,我们开始慢慢听懂它们声音里的“模式”,这为未来人类和海豚之间的“隔阂”可能会越来越小,铺平了道路!