汤姆·汉克斯给我打电话不仅仅是为了给我推销一个角色,但听起来确实是这样。
自从lanpanpan.com开始报道像AI ART这样的各种人工智能应用的兴起以来,我一直在GitHub的代码库和Reddit的链接中寻找,人们可以在那里发布对自己的人工智能模型进行各种调整的各种方法。
其中一些模型实际上最终出现在商业网站上,这些网站要么推出自己的算法,要么改编其他以开源形式发布的算法。现有人工智能音频网站的一个很好的例子是Uberduck.ai,它提供了数百个预编程的模型。在文本栏中输入文本,你就可以让一个虚拟的埃隆·马斯克、比尔·盖茨、佩吉·希尔、达菲鸭、亚历克斯·特雷贝克、比维斯、小丑,甚至是Siri读出你预先编程好的台词。
去年,我们上传了一个假冒的比尔·克林顿称赞lanpanpan.com的视频,这个模式听起来已经很不错了。
训练人工智能重现语音需要上传清晰的语音样本。人工智能“学习”说话者如何将声音与目标结合起来,学习这些关系,完善它们,并模仿结果。如果你熟悉1992年那部出色的惊悚片运动鞋(全明星阵容包括罗伯特·雷德福、西德尼·波蒂埃和本·金斯利等人),那么你就知道有这样一个场景,人物需要通过录制目标声音的语音样本来“破解”生物识别语音密码。这几乎是一模一样的事情。
正常情况下,组装一个好的声音模型需要相当多的训练,需要很长的样本来指示特定的人如何说话。然而,在过去的几天里,出现了一些新的东西:Microsoft Vall-E,这是一篇关于合成语音的研究论文(带有现场示例),它只需要几秒钟的源音频就可以生成完全可编程的语音。
自然,人工智能研究人员和其他人工智能粉丝想知道VALL-E模型是否已经向公众发布。答案是否定的,不过如果你愿意,你也可以玩另一个叫乌龟的模型。(作者指出,它之所以被称为乌龟,是因为它很慢,确实如此,但它很管用。)
让乌龟变得有趣的是,你只需上传几个音频片段,就可以训练模型使用你选择的任何声音。Turtoise GitHub的页面指出,你应该有大约12秒的几个片段。您需要将它们另存为具有特定质量的.WAV文件。
这一切是如何运作的?通过一个你可能不知道的公用事业公司:谷歌可乐。从本质上讲,Collab是谷歌提供的一种云服务,允许访问Python服务器。您(或其他人)编写的代码可以存储为笔记本,可以与拥有通用Google帐户的用户共享。乌龟共享资源就在这里。
界面看起来很吓人,但并没有那么糟糕。你需要以谷歌用户的身份登录,然后你需要点击右上角的“连接”。一句警告。虽然这款可乐不会下载任何东西到你的Google Drive上,但其他可乐可能会。(不过,它生成的音频文件存储在浏览器中,但可以下载到您的PC上。)请注意,您正在运行其他人编写的代码。你可能会收到错误信息,要么是因为输入错误,要么是因为谷歌的后端出现了问题,比如没有可用的图形处理器。这一切都有点试验性的。
每个代码块都有一个小的“Play”图标,当您将鼠标悬停在它上面时,它就会出现。您需要在每个代码块上单击“Play”来运行它,等待每个代码块执行完后再运行下一个代码块。
虽然我们不打算逐步介绍所有功能的详细说明,但请注意,红色文本是用户可修改的,例如您希望模型说话的建议文本。往下走大约七个街区,你就可以选择训练模特了。你需要给模型命名,然后上传音频文件。完成后,选择第四个块中的新音频模型,运行代码,然后配置第三个块中的文本。运行代码块。
如果一切按计划进行,您将有一个小的音频输出您的样本声音。它起作用了吗?嗯,我为我的同事Gordon Mah Ung做了一个快速而肮脏的配音模型,他的作品出现在我们的The Full Nerd播客和各种视频中。我上传了一个几分钟的样本,而不是简短的片段,只是想看看它是否有效。
结果是什么呢?嗯,听起来很逼真,但一点也不像戈登。目前,他肯定不会受到数字模拟的影响。(这也不是对任何快餐连锁店的认可。)
但《乌龟》作者为演员汤姆·汉克斯训练的现有模型听起来相当不错。我不是汤姆·汉克斯!汤姆也没有给我提供工作,但这足以愚弄我的至少一个朋友。
结论是什么?这有点可怕:相信我们所听到的(以及很快看到的)的时代即将结束。或者它已经这么做了。
– – END – –
– – 转载请声明来源:www.lanpanpan.com – –
编译:盼盼云笔记