如何让人工智能成为艺术：Dall-E mini，AI Dunjo，等等

文章:《如何让人工智能成为艺术：Dall-E mini，AI Dunjo，等等》_配图并不是所有人都有天赋在一瞬间创作出一件艺术品。
但使用机器学习的算法正在学习如何基于文本提示创建“人工智能艺术”–你也可以使用它们。
这是非常有趣的。
像Dall-E(最终是Dall-E 2)、Dall-E mini、Craiyon、Midassage、Meta的Make-A-Scene等算法正在学习如何利用公开可用的艺术，并了解是什么让它们成为艺术。
或者，至少，消化照片或艺术作品的各种元素和风格，并将它们重新组合成新的东西。
当然，你可以争论它们是否是真正的“艺术”，但这些创作是独特的、原创的和引人入胜的。
简单地说，人工智能艺术使用文本提示：例如，像海底的麦当劳这样的特定东西，或者像时间城堡这样的更一般的东西–正是这种提示产生了故事顶部的艺术。
然后，人工智能使用它在网络上找到的东西和它知道的关于查询的信息来定制创建与描述相匹配的艺术渲染。
由于训练和使用算法的计算要求，许多最强大的算法仍然局限在测试版测试中，只有少数幸运的参与者能够尝试它们。
一个值得注意的例外是Dall-E mini，这是对人工智能的公开测试，你可以尝试，并正在迁移到Craiyon。
这是个好消息；Dall-E Mini的开发者正出于商标原因迁移到Craiyon，但Dall-E Mini的受欢迎程度淹没了网站。
但我们也发现了一款更好的产品，名为Latitude‘s Voyage，可以免费试用。
DALL-E mini、Craiyon和它的竞争对手几乎可以根据你的任何想法生成艺术，结果可能是奇怪的、异想天开的或介于两者之间的任何东西。
然而，人工智能艺术确实有一些局限性：它不适合文字、真人图片，而且NSFW主题似乎是禁区。
你很快就会发现，ART服务使用的模型的计算能力和复杂性这就是Voyage是一个卓越的解决方案的原因。
然而，大多数其他事情似乎都是公平的。
实际上，限制是你的想象。
你可以使用我们的目录直接跳到AI艺术应用程序，或者继续阅读以了解它是如何工作的。
一般来说，人工智能的工作方式相当简单。
比方说，一种算法通过向人们展示一只猫的多张照片来“学习”，而不被告知猫的特征是什么。
这取决于算法来定义这些规则，有时称为“机器学习”。
然后将猫的照片与狗、鸟等的照片混合在一起，对该算法进行“测试”。
如果算法经过了足够的训练，那么它将能够识别现实世界中的“猫”。
这是最基本的。
然而，这里使用的算法要复杂得多。
由埃隆·马斯克和其他人共同创立的OpenAI公司在2018年开发了GPT(生成性预训练转换器)，这是一种语言模型，使用深度学习来生成类似于你和我要写的文本。
自那以后，OpenAI将GPT迭代到其第三次迭代GPT-3，其模型由微软独家授权。
GPT使用所谓的“参数”来定义不同类型数据之间的关系，在这种情况下是为了理解不同单词的含义和上下文。
根据描述第二代GPT-2模型的论文(PDF)，GPT-2使用15亿个参数对800万个文档或40 GB文本进行了训练。
根据维基百科和GPT-3的论文，今天最强大的版本GPT-3使用了1750亿个参数，需要更多的时间和计算能力来进行训练。
在马力方面，人工智能开发商Latitude估计，仅训练GPT-3模型就需要3110亿万亿次浮点运算，在世界各地的各种超级计算机上分割。
作为背景，橡树岭国家实验室的前沿超级计算机，世界上最强大的，有一个理论峰值只有110万次万亿次浮点运算。
而NVIDIA GeForce RTX 3080图形处理器根据版本的不同，计算大约30万亿次浮点运算。
这意味着两件事。
首先，一个完全受PC约束的GPT模型目前根本不可行。
其次，GPT-2，尤其是GPT-3是如此复杂，以至于设计师们真的担心他们用生成的内容愚弄人类的能力。
他们是对的吗？嗯，你可以自己决定–因为这个模型可以在现实世界中玩。
2019年，开发人员尼克·沃尔顿发布了AI地下城，这是一款人工智能驱动的文本冒险游戏，就像开放世界的佐克–这只是触及了皮毛。
今天，AI地下城可以在网络上玩，也可以通过Windows、Android和iOS应用程序玩，这是一家名为Latitude的公司的一部分。
AI允许你玩文本冒险游戏，你可以完全从头开始创建环境，或者使用其他人预先配置的世界。
你可以自由地创作任何东西：基于奇幻、科幻、西部片或任何你能想象到的故事，并通过文本提示播放它们。
每个文本提示包括三个选项：做某事、说某事或用发生的事情通知故事。
每一个决定都进一步完善了冒险。
马克·哈赫曼/IDG如果你愿意，你可以把AI地下城作为一场Zork式的冒险，选择一个角色职业，种族，等等。
这在传统的幻想环境中效果最好。
但你也可以创建一个完全定制的场景，它可以以完全意想不到的方式上演。
我创造了一个世界，一个西方小镇坐在茫茫黑暗的边缘，怪物在那里漫步，用大约三句话作为种子来描述这个世界包含了什么，我的角色会是什么。
但我的角色几乎立刻就被卷入了一个次要情节，我营救了一名被当地小偷工会头目利用的囚犯。
AI地下城是一款免费增值游戏：像许多手机游戏一样，每一步都是有节制的，可以是精炼的加上一份付费计划。
不过，在这种情况下，这是合理的：就CPU资源而言，控制您的操作需要大量的服务器端成本。
(在这篇报道被提交后，Latitude发布了一篇博客文章，宣布即将改变你支付这些行为的方式，用你可以通过观看视频广告来支付的行为来取代“能源”系统。
)你还可以选择每月支付14.99美元的“航海”费用，它取消了能源限制，还让你可以获得两项额外的福利：“龙”和20个图像生成积分。
AI地下城使用的是GPT-2语言模型，而Payed Vantage版本使用的是具有不同特征的AI模型。
默认的似乎是Griffin，这是一个有60亿个参数的人工智能引擎，它生成响应的速度更快。
(人工智能地下城需要几秒钟左右的时间才能产生响应，更复杂的模型需要更长的等待时间。
)但你也可以选择Dragon，这是一款更复杂的1780亿参数GPT-3发动机，并将其与九头蛇相结合，以确定响应的优先级。
你也可以调整随机性的程度。
Latitude虽然你可以免费玩GPT-2版本的AI地下城，但你可能需要使用“Story”提示来帮助保持叙事的正轨。
Voyage GPT-3版本(我在上面的场景中播放)明显更好，具有连贯和响应性的叙述。
我的航海故事变得有点模糊(如果你调整设置，可以朝着NSFW方向前进)，但它非常值得我和你的时间。
你甚至可以把故事留给你自己，或者向整个世界开放。
AI地下城(航海)甚至会自动生成2D像素的艺术来说明故事的进行！另外，Voyage还包括自己的人工智能生成的艺术，称为AI Art，你可以通过文本提示生成。
然而，你可以从三个引擎中选择一个，从PixRay像素艺术到绘画般的迪斯科扩散，这将生成各种风格的人工智能艺术。
(我们将前行稍后再进一步讨论这一点。
)这就带来了当务之急：人工智能生成的图像，或人工智能艺术。
人工智能艺术使用的是人工智能地下城中使用的GPT模型，但它向前迈进了一大步。
该模型不仅理解单词之间的关系，而且还理解这些单词与图像的交互方式。
这是一项改进，感觉真的像是将AI地下城的文本提示带入了一个全新的维度。
AI艺术最明显的代表是Dall-E，这是OpenAI于2021年1月发布的模型。
该公司将Dall-E描述为GPT-3的120亿参数版本，这意味着，就参数而言，它介于GPT-2和GPT-3之间。
根据OpenAI的说法，4月份发布的Dall-E 2的分辨率比第一代Dall-E高出“四倍”，尽管OpenAI尚未公开发布该型号。
据加州大学伯克利分校研究生查理·斯内尔表示，Dall-E包括一个能够正确设计图像的自动编码器，以及一个理解图像本身与文本描述关联的转换器。
第三个部分对图像进行排序，并将其认为“最好”的图像排在首位。
Dall-E只是向后工作，接受文本提示并将其转换为连贯、有趣的图像。
如上所述，Dall-E本身被锁定。
但机器学习工程师鲍里斯·戴马(Boris Dayma)创造了Dall-E Mini来填补这一空白，并将其公开。
Dayma的博客文章没有说明这个模型有多复杂，尽管代码可以从主网站(AI社区，拥抱脸)下载–如果你有硬件的话。
Dayma还表示，还有第二个更强大的模型正在开发中：Dall-E Mega，这是“Dall-E Mini的最大版本”，目前仍在培训中。
DALL-E Mini会生成它认为对给定提示最好的3X3网格图像。
他们喜忧参半，如果你不抱很高的期望，这可能是件好事。
Dall-E Mini在对象的抽象表示方面做得很好，而在处理面部和文本方面则稍差一些。
在某种程度上，这就像是出国旅行。
如果你在遥远的国度寻找“美国”食物，它可能看起来有点离谱。
但如果你愿意尝试一些狂野的东西，你可能会得到一个非同寻常的结果。
但有一个缺点：交通。
随着Dall-E Mini的流行，对它的需求也在增长，你会经常看到一个弹出窗口，说“流量太大”，然后再试一次。
你最好的选择是在深夜或清晨尝试Dall-E Mini，那时交通最繁忙。
似乎生成一个图像大约需要两分钟左右，所以也要准备好等待。
一些Dall-E Mini图像相当好。
有些是，嗯，有点可怕。
有些简直就是糟糕透顶(我们在这里还没有展示这些)。
你可以使用下面的图像比较工具来查看我们创建的两张图像。
然而，目前还不清楚Dall-E Mini将在线多久。
另一家人工智能艺术制作公司Craiyon的常见问题解答显示，Dayma开始将该模型迁移到新网站，因为他的努力与OpenAI自己的Dall-E模型之间可能存在混淆。
然而，就目前而言，你将从中受益。
首先，Craiyon似乎正在使用Dall-E Mega模型，从理论上讲，这应该会改善所显示的图像质量。
我使用这项服务的第一次尝试并没有给我留下深刻的印象，但我认为这个结果很有趣。
7月14日，Meta首次亮相Make-A-Scene，这是一个新的人工智能艺术项目，它将允许人们使用文本提示来创作艺术，就像其他人工智能艺术项目所做的那样。
这里的不同之处在于，用户还可以勾勒出他们想要的整体场景的外观。
Meta的例子，正如该公司的博客文章所概述的那样，给出了一个人工智能生成的场景的例子，里面有一辆自行车：自行车应该朝向哪个方向？它应该是大的还是小的？这类似于其他人工智能艺术程序如何使用一件艺术品或者一张照片作为一颗“种子”，但更强调用户在Make-A-Scene中驱动创作过程。
否则，Make-A-Scene看起来与其他人工智能艺术项目非常相似。
目前仅限于“创作者”，尚未向公众开放。
不过，一些临场发挥的艺术看起来相当不错。
在一定程度上，这是因为它创建了2,048 x 2,048像素的图像。
Meta所以更好的选择是什么？Latitude的Voyage服务及其AI Art功能，提供为期一周的免费试用。
虽然你必须订阅(并输入信用卡)，但在试用到期之前，没有什么能阻止你使用你的人工智能艺术信用。
(免费的20个图像积分每月更新一次，或者你可以购买额外的积分20个积分/100个积分/20美元购买5美元。
)更好的是，没有任何流量限制，每个人工智能艺术创作都有一个通常大约10分钟左右的时间估计。
但更高的计算工作量(以及由此导致的更长的等待)会产生更有趣的艺术。
发动机提供了一系列的风格。
我倾向于Disco扩散引擎，它呈现的图像更类似于绘画，如本文的主图像所示。
AI Art还鼓励你提交带有艺术风格的文本提示，我在另一张农夫朋克风格的集市图像中这样做了(？)艺术家西蒙·斯塔伦哈格。
PixRay像素艺术和VQGAN卡通美学也值得一试。
后两者的渲染速度往往要快得多。
请注意，您可以将图像大小设置为大于默认大小，但如果设置得太高，算法会向您收取更多的照片点数。
所有这些都会有一定程度的艺术诠释。
虽然你可以试着给出一张特定场景的“照片”，但你可能会更喜欢看起来更像是艺术家创作的东西，而不是相机。
无论是Dall-E、Dall-E Mini还是Latitude‘s Voyage都没有垄断人工智能艺术。
中途旅行是一项类似的服务，目前处于私测阶段，也有一个等待名单可以申请。
中途之旅的图片尤其令人惊叹，尽管目前还不清楚你能多容易地访问这项服务，也不清楚服务条款是什么。
根据作者的说法，页面上方较高的“水下麦当劳”艺术是在旅途中创作的。
根据帖子，下面的艺术品也是在中途创作的。
一个悬而未决的大问题：谁真正拥有这件艺术品？如果这些模型是根据互联网上公开可访问的作品进行培训的，然后在用户生成的提示下通过人工智能进行修改，目前还不清楚是否有人拥有它。
图像并不是人工智能艺术的唯一来源。
事实上，文本到语音转换是打发时间的绝佳方式，甚至是恶作剧朋友的一种有趣方式。
Uberduck.ai只是众多不同的文语转换网站之一，但该网站以其免费服务(只需注册一个免费账户，包括谷歌)和绝对海量的合成语音而闻名。
你所需要做的就是输入一段文字或一条短信息，你就可以让从兔八哥到比维斯，从蝙蝠侠到巴拉克·奥巴马的每个人都读这篇文章–嗯，无论如何，这是它的一个综合版。
如果你愿意，你甚至可以把你自己的声音上传到这个网站上(15美元)。
如果你想要视觉艺术以外的东西，OpenAI还有另一项服务，叫做Jukebox。
Jukebox是一种复制特定乐队或艺术家的“声音”的实验，比如Frank Sinatra或(Dixie)Chicks，尽管它不能调出定制的曲调。
Jukebox的功能令人印象深刻，但它缺乏令人惊叹的“哇！”其他服务的因素。
所有这些都真正展示了人工智能艺术的潜力(和陷阱)。
然而，人工智能–特别是用GPT3创建的类似人类的文本结构–肯定可以用来愚弄已经被虚假信息淹没的人。
所有这些例子都是为了清楚地说明谁和什么在构建最终的结果，但他们不一定是。
下面这段YouTube视频绝对不是英国女王。
这被称为“深度假”，一种旨在欺骗(或娱乐，视情况而定)的人工智能构造。
然而，在其他方面，我们甚至还没有触及人工智能生成的视频的皮毛，尽管我们似乎可以使用上面的例子来建议一些前进的方法。
例如，将人工智能应用于《宋飞正传》中的一段剪辑，并用比尔·盖茨的声音取代乔治的声音，似乎并不那么牵强。
然而，更令人兴奋的是，这条路通向哪里。
目前，根本没有办法在PC上运行任何保真度的人工智能艺术。
但随着CPU空间的持续改善，在服务器空间处理人工智能艺术所需的计算能力将继续下降，并承诺质量应该会提高。
我们没有考虑有多少生产力应用连接到云中或在云中运行，Adobe、Google或Microsoft可能会使用他们建立的云来为消费者和创建者提供这些类型的应用。
AMD、英特尔和高通等芯片公司也一直在努力证明自己在个人电脑人工智能技术上的投资是合理的。
将更多的重点放在最终用户的人工智能应用程序上将有助于解决这个问题。
我们将以前总统比尔·克林顿为结束，他亲切地支持Uberduck.ai提供的PCWorld，同时例证了人工智能的问题和潜力。
这篇报道于7月15日上午9点38分更新，增加了Meta的Make-A-Scene人工智能艺术项目。
作为PCWorld的高级编辑，Mark专注于微软新闻和芯片技术等方面的报道。
他以前为PCMag、Byte、Slashdot、eWEEK和ReadWrite编写过代码。

2024年 5月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

推荐阅读