OpenAI:可从15秒的音频中克隆出声音


OpenAI 刚刚宣布近期进行了小规模预演一个名为“语音引擎”的新工具的诞生。这是一种声音克隆技术,可以通过分析 15 秒的音频样本来模仿任何说话者。该公司表示,它可以生成“自然的语音”和“情感丰富且真实的声音”。

这项技术基于该公司已有的文本到语音 API,自 2022 年起就在开发中。OpenAI 已经在使用该工具集的一个版本,为当前文本到语音 API 和朗读功能中的预设语音提供动力。在该公司的官方博客上有一些样本,听起来非常接近真实的声音。

OpenAI 表示,他们认为这项技术可以用于阅读辅助、语言翻译,以及帮助那些患有突发性或退行性语言疾病的人。该公司提到了布朗大学的一个试点项目,该项目通过创建一个语音引擎克隆,从学校项目录制的音频中提取语音,帮助一位患有语言障碍的病人。

尽管有潜在的好处,但不良分子肯定会滥用这项技术,进行一些严重的深度伪造,这已经是一个问题。考虑到这一点,"语音引擎 "还没有准备好进入黄金时代,因为在全面推广之前,必须解决严重的隐私问题。

OpenAI 承认这项技术存在 "严重风险,尤其是在大选年"。该公司表示,它将采纳 "来自政府、媒体、娱乐、教育、民间社会等领域的美国和国际合作伙伴 "的反馈意见,以确保产品推出时风险最小。所有预览测试者都同意 OpenAI 的使用政策,其中禁止在未经同意或没有合法权利的情况下冒充他人。

此外,任何使用该技术的人都必须向受众披露,这些声音是人工智能生成的。OpenAI 还采取了一些安全措施,比如通过水印追踪音频来源,以及 "主动监控 "系统的使用情况。当该产品正式推出时,将有一个 "禁用声音列表",用于检测和防止人工智能生成的扬声器与知名人士过于相似。

亚马逊最近开始AI有声读物程序的测试