OpenAI：可从15秒的音频中克隆出声音

OpenAI 刚刚宣布近期进行了小规模预演一个名为“语音引擎”的新工具的诞生。这是一种声音克隆技术，可以通过分析 15 秒的音频样本来模仿任何说话者。该公司表示，它可以生成“自然的语音”和“情感丰富且真实的声音”。

这项技术基于该公司已有的文本到语音 API，自 2022 年起就在开发中。OpenAI 已经在使用该工具集的一个版本，为当前文本到语音 API 和朗读功能中的预设语音提供动力。在该公司的官方博客上有一些样本，听起来非常接近真实的声音。

OpenAI 表示，他们认为这项技术可以用于阅读辅助、语言翻译，以及帮助那些患有突发性或退行性语言疾病的人。该公司提到了布朗大学的一个试点项目，该项目通过创建一个语音引擎克隆，从学校项目录制的音频中提取语音，帮助一位患有语言障碍的病人。

尽管有潜在的好处，但不良分子肯定会滥用这项技术，进行一些严重的深度伪造，这已经是一个问题。考虑到这一点，"语音引擎 "还没有准备好进入黄金时代，因为在全面推广之前，必须解决严重的隐私问题。

OpenAI 承认这项技术存在 "严重风险，尤其是在大选年"。该公司表示，它将采纳 "来自政府、媒体、娱乐、教育、民间社会等领域的美国和国际合作伙伴 "的反馈意见，以确保产品推出时风险最小。所有预览测试者都同意 OpenAI 的使用政策，其中禁止在未经同意或没有合法权利的情况下冒充他人。

此外，任何使用该技术的人都必须向受众披露，这些声音是人工智能生成的。OpenAI 还采取了一些安全措施，比如通过水印追踪音频来源，以及 "主动监控 "系统的使用情况。当该产品正式推出时，将有一个 "禁用声音列表"，用于检测和防止人工智能生成的扬声器与知名人士过于相似。

亚马逊最近开始AI有声读物程序的测试