艾汤姆·汉克斯没有给我提供一份工作,但听起来肯定是他提供的

汤姆·汉克斯给我打电话不仅仅是为了给我推销一个角色,但听起来确实是这样。

自从lanpanpan.com开始报道像AI ART这样的各种人工智能应用的兴起以来,我一直在GitHub的代码库和Reddit的链接中寻找,人们可以在那里发布对自己的人工智能模型进行各种调整的各种方法。

其中一些模型实际上最终出现在商业网站上,这些网站要么推出自己的算法,要么改编其他以开源形式发布的算法。现有人工智能音频网站的一个很好的例子是Uberduck.ai,它提供了数百个预编程的模型。在文本栏中输入文本,你就可以让一个虚拟的埃隆·马斯克、比尔·盖茨、佩吉·希尔、达菲鸭、亚历克斯·特雷贝克、比维斯、小丑,甚至是Siri读出你预先编程好的台词。

去年,我们上传了一个假冒的比尔·克林顿称赞lanpanpan.com的视频,这个模式听起来已经很不错了。

训练人工智能重现语音需要上传清晰的语音样本。人工智能“学习”说话者如何将声音与目标结合起来,学习这些关系,完善它们,并模仿结果。如果你熟悉1992年那部出色的惊悚片运动鞋(全明星阵容包括罗伯特·雷德福、西德尼·波蒂埃和本·金斯利等人),那么你就知道有这样一个场景,人物需要通过录制目标声音的语音样本来“破解”生物识别语音密码。这几乎是一模一样的事情。

正常情况下,组装一个好的声音模型需要相当多的训练,需要很长的样本来指示特定的人如何说话。然而,在过去的几天里,出现了一些新的东西:Microsoft Vall-E,这是一篇关于合成语音的研究论文(带有现场示例),它只需要几秒钟的源音频就可以生成完全可编程的语音。

自然,人工智能研究人员和其他人工智能粉丝想知道VALL-E模型是否已经向公众发布。答案是否定的,不过如果你愿意,你也可以玩另一个叫乌龟的模型。(作者指出,它之所以被称为乌龟,是因为它很慢,确实如此,但它很管用。)

让乌龟变得有趣的是,你只需上传几个音频片段,就可以训练模型使用你选择的任何声音。Turtoise GitHub的页面指出,你应该有大约12秒的几个片段。您需要将它们另存为具有特定质量的.WAV文件。

这一切是如何运作的?通过一个你可能不知道的公用事业公司:谷歌可乐。从本质上讲,Collab是谷歌提供的一种云服务,允许访问Python服务器。您(或其他人)编写的代码可以存储为笔记本,可以与拥有通用Google帐户的用户共享。乌龟共享资源就在这里。

界面看起来很吓人,但并没有那么糟糕。你需要以谷歌用户的身份登录,然后你需要点击右上角的“连接”。一句警告。虽然这款可乐不会下载任何东西到你的Google Drive上,但其他可乐可能会。(不过,它生成的音频文件存储在浏览器中,但可以下载到您的PC上。)请注意,您正在运行其他人编写的代码。你可能会收到错误信息,要么是因为输入错误,要么是因为谷歌的后端出现了问题,比如没有可用的图形处理器。这一切都有点试验性的。

文章:《艾汤姆·汉克斯没有给我提供一份工作,但听起来肯定是他提供的》_配图

每个代码块都有一个小的“Play”图标,当您将鼠标悬停在它上面时,它就会出现。您需要在每个代码块上单击“Play”来运行它,等待每个代码块执行完后再运行下一个代码块。

虽然我们不打算逐步介绍所有功能的详细说明,但请注意,红色文本是用户可修改的,例如您希望模型说话的建议文本。往下走大约七个街区,你就可以选择训练模特了。你需要给模型命名,然后上传音频文件。完成后,选择第四个块中的新音频模型,运行代码,然后配置第三个块中的文本。运行代码块。

如果一切按计划进行,您将有一个小的音频输出您的样本声音。它起作用了吗?嗯,我为我的同事Gordon Mah Ung做了一个快速而肮脏的配音模型,他的作品出现在我们的The Full Nerd播客和各种视频中。我上传了一个几分钟的样本,而不是简短的片段,只是想看看它是否有效。

结果是什么呢?嗯,听起来很逼真,但一点也不像戈登。目前,他肯定不会受到数字模拟的影响。(这也不是对任何快餐连锁店的认可。)

但《乌龟》作者为演员汤姆·汉克斯训练的现有模型听起来相当不错。我不是汤姆·汉克斯!汤姆也没有给我提供工作,但这足以愚弄我的至少一个朋友。

结论是什么?这有点可怕:相信我们所听到的(以及很快看到的)的时代即将结束。或者它已经这么做了。

– – END – –

– – 转载请声明来源:www.lanpanpan.com – –

编译:盼盼云笔记

推荐阅读

文章:《所有ChatGPT用户都可以免费获得GPT-4,新机型栩栩如生》缩略图

所有ChatGPT用户都可以免费获得GPT-4,新机型栩栩如生

该公司周一表示,OpenAI将为ChatGPT带来一种新的人工智能模型GPT-40。他们的想法是将“GPT-4”级聊天带到OpenAI应用程序中,并向所有OpenAI用户免费提供。 OpenAI将伴随着GPT-4o机型的发布和一个新的Mac应用程序一起发布,该应用程序将展示新机型的功能,它现在可以“看到”周围的世界。一款Windows应用程序将在稍后亮相。GPT-4o机型现在也可以通过包括桌面截图…

文章:《Microsoft Places是一款新的‘共享我的位置’工作应用》缩略图

Microsoft Places是一款新的‘共享我的位置’工作应用

微软正在推出一款名为Places的新应用程序,它将为平衡在家和办公室工作的员工和组织提供一种更好的方式来确定谁在哪里以及何时何地。 鉴于您已经熟悉公司对远程工作的态度,您可能会立即知道您或您的团队是否正在使用位置。很明显,一些公司希望说服他们的员工回到办公室,而一些员工则宁愿避免通勤的压力和费用,在家里工作。 微软表示,Places的设计就是为了平衡这种紧张关系。首先,这款应用可以作为一个独立的指…

文章:《ARM希望最早在2025年制造自己的芯片》缩略图

ARM希望最早在2025年制造自己的芯片

人工智能不仅仅是一个试图推动个人电脑销售给消费者的流行语。这也正在成为一项巨大且非常有利可图的业务–只要问问NVIDIA就知道了。去年,由于向数据中心出售GPU,为产生式人工智能应用程序的后端提供支持,NVIDIA的股价翻了一番以上。芯片竞争对手ARM及其业务之父软银也想分一杯羹。 据日经亚洲报道,ARM目前正在建立一个人工智能部门,并为大规模芯片生产寻找合作伙伴,计划在2025年初推…