Claude只用很少数据就能深刻掌握一门语言


切尔克斯语是一种属于印欧语系的语言,主要使用于高加索地区的切尔克斯人中。它属于北高加索语族,是高加索语系中的一个分支。随着时间的推移,使用该语言的人数逐渐减少,现今切尔克斯语面临着语言保护和传承的挑战。

切尔克斯语是一种非常难学的凝集语,形态和语法都很复杂。

在这些年里,我煞费苦心地从稀缺资源中整理出 64K 个翻译对,并训练了专门的模型(T5、MLM-100、NLLB-200 等),以实现像样的俄语-卡巴尔语机器翻译。

我决定用 Claude Opus 做一次实验。我开始了一个新的聊天,并附上了 5.7K 随机选择的单词/句子翻译对--这只是我 64K 数据集的一小部分,甚至没有涵盖全部词汇。我想看看它是否能根据这些例子翻译新句子。

我并没有抱太大希望,只是要求它将一个简单的句子--"我躺在床上 "从俄语翻译成切尔克斯语。

Claude 不仅提供了完美的翻译,还分解了语法和词法。

我想,肯定是运气好

我试着想出了一个数据中不可能出现的新颖独特的句子。Claude 翻译和分析再次完美无瑕。Claude只用了很少的数据样本,就接近了我专门为机器翻译训练的专业模型的性能。我简直不敢相信自己的眼睛。

Claude用文学作品中的复杂段落、最近的新闻报道,甚至是语法和书写系统明显不同的切尔克斯方言文本进行了进一步测试,他始终表现出对语言结构的深刻理解,智能地推断出未知单词,恰当地使用借词,给出可信的词源分析,在翻译中保持原文的风格,甚至在被问及时创造出新的术语。

完成这些任务需要对语言有深刻的理解,如果输入相同的内容,不熟悉该语言的语言学家需要一年左右的时间才能完成。而 Opus 只用了不到一分钟的时间,就从 5.7K 个随机翻译对中轻松掌握了这些微妙之处。

作为对比,我在 GPT-4 上进行了同样的测试,结果完全失败。它甚至拒绝翻译最简单的句子,更不用说掌握复杂的语法了。我之前也在类似的数据集上试过微调 GPT-3.5,结果只是噪音。

我不知道人类学在这个模型上做了什么,但它与其他模型完全不同。很多人对它在合成基准测试中的领先地位持怀疑态度,但我亲眼目睹的是,它在一个全新的、极具挑战性的基准测试中取得了惊人的成绩,而这个基准测试在训练数据集中是不可能出现的。

为了测试可能的污染,我在没有附上翻译样本的情况下尝试了同样的提示,结果Claude失败了,拒绝回答,说它不熟悉切尔克斯语。

这件事影响深远。我花了两年的心血,Claude只用了几千个例子就完成了。这对于低资源语言和许多其他领域来说,确实是一个质的飞跃。

总结

  • 也就是说,我们给Claude提供了少量的翻译数据时,这些翻译数据是一种在互联网上几乎没有数据或信息的生僻语言(在 Opus 的训练集中为零),而它却能进行复杂的翻译,并以其他 LLM 无法做到的方式高度理解和掌握这种语言。
  • 而 GPT4 在这项任务中却完全失败了。