ChatGPT vs Bing vs Bard:哪个AI最好?

ChatGPT、Bing Chat和Bard承诺使用人工智能的力量,通过可以向你提供信息、娱乐和教育你的人工智能对话来改变你的生活-就像人类一样。但是,这些新的人工智能聊天机器人到底有多好?我们对他们进行了测试,以找出答案。

我们向所有三个人工智能提出了各种不同的问题:一些是关于一般搜索主题的扩展,一些是需要意见、逻辑谜题甚至代码的问题–然后要求他们更有创意,比如写一个替代的、更好的结局《权力的游戏》和一个有特殊嘉宾的宋飞场景。我们已经包括了他们的所有答案,或者我们所能提供的尽可能多的答案,我们将让您自己决定。

注意:我们可以使用所有三款AI聊天机器人–免费的必应聊天工具、免费的Google Bard聊天工具和付费版本的ChatGPT+(每月收费20美元)。我们选择了付费版本的ChatGPT,因为它包括访问新的GPT-4语言模型。然而,现在这是非常有限的-每隔几个小时只允许25到40个查询,之后它默认使用稍微不那么复杂的GPT-3语言模型,在我们的测试查询接近尾声时发生了这种情况。

以下是我们向所有三个AI聊天机器人(Bing,然后是ChatGPT,然后是Bard)提出的问题,他们的回答,以及我们对对话做的任何笔记。我们已经尝试在可能的情况下添加完整的响应,但您可能需要在单独的选项卡中打开屏幕截图才能清楚地看到结果。(我们也选择坚持巴德搜索结果的“初稿”;它可以提供不同的解释,但我们不确定有多少用户会去寻找它们。)

是的,我们有最佳人工智能聊天机器人的获胜者!我们在最后清点了选票。

获奖者:必应

虽然我们知道ChatGPT将增加网络浏览功能,使其保持最新,但目前它的“当前”信息将在2021年结束。我们仍然想知道Bing或Bard是否能够传递最新的信息。只有必应成功了。巴德只是对结果产生了幻觉–而且不仅仅是一次,而且是在所有的草稿中。

文章:《ChatGPT vs Bing vs Bard:哪个AI最好?》_配图

获胜者:平局

我们询问了所有三个人工智能聊天机器人,让他们告诉我们克里米亚半岛属于哪个国家。指出Bing和Bard直接回答了这个问题。ChatGPT提供了其他上下文,但在最后一句中提供了它认为是(正确的)答案。这三个人工智能聊天机器人都正确地指出了台湾是否为一个独立国家的类似问题的复杂细微差别。

文章:《ChatGPT vs Bing vs Bard:哪个AI最好?》_配图1

获奖者:必应

圣母大学的绰号–战斗的爱尔兰人–的由来是杜撰的:它的来源多种多样,但没有一个是明确的。该大学自己的解释(必应链接)列出了许多可能性。在这里,值得查看其他来源以获取更多信息,而Bing在转发您的信息方面做得最好。

文章:《ChatGPT vs Bing vs Bard:哪个AI最好?》_配图2

获奖者:巴德

游戏博客和YouTube频道的巨大深度和多样性意味着,你可能遇到的几乎每个游戏问题都在某个地方得到了解决,但这几乎就是你最终使用人工智能的场景:深入的上下文信息。必应在YouTube上搜索了一个答案,并在定价上做得不错。巴德也进行了深入的调查,发现了我们认为正确的价格。(我们不得不进行搜索,以找到巴德的线人,但这似乎是正确的。)我们将这一奖项授予巴德,因为它一次性回答了这个问题。

ChatGPT不及格。

文章:《ChatGPT vs Bing vs Bard:哪个AI最好?》_配图3

获胜者:ChatGPT,Bard(并列)

我们让这三个聊天机器人分析了Mac和Windows PC平台的优缺点。(下面的屏幕截图去掉了提示符,以便为答案留出更多空间。)我不喜欢必应的回应,但ChatGPT和Bard在这里都做得很好。ChatGPT的响应有点冗长,您可能喜欢也可能不喜欢。

文章:《ChatGPT vs Bing vs Bard:哪个AI最好?》_配图4

ChatGPT的回应仍在继续:

归根结底,最适合你的选择将取决于你的个人需求和偏好。如果你正在寻找一款具有统一生态系统的用户友好型电脑,Mac是一个很好的选择。如果你正在寻找一台价格适中、有多种软件可供选择的电脑,Windows PC是个不错的选择。

赢家:ChatGPT,不情愿

这三个聊天机器人都以平庸的方式回答了这个问题:必应没有提供太多背景信息,也没有具体的美元数字。ChatGPT的预算看起来是最好的:详细、有好的、有帮助的假设。但ChatGPT的预算加起来是4700美元,而不是4000美元,这是一个很大的错误。巴德的预算也是错误的:它加起来是4800美元,而不是5700美元。也许这就是为什么ChatGPT与Wolfram Alpha合作添加数学插件?

文章:《ChatGPT vs Bing vs Bard:哪个AI最好?》_配图5

获胜者:Bing,Bard(平局)

这是LSAT的一个逻辑谜题,LSAT是给潜在律师的考试,特别是这个LSAC页面的第8个问题。(《华盛顿邮报》的杰弗里·福勒在测试GPT-4时使用了类似的技术。)

理论上,所有三个人工智能聊天机器人都可以根据这些数据进行训练。LSAC的页面确定了正确的答案:最后一个答案,Bing(没有引用)和Bard(令人惊讶的是,只有一个引用)都答对了。ChatGPT屏蔽了它。

文章:《ChatGPT vs Bing vs Bard:哪个AI最好?》_配图6

获奖者:ChatGPT

我对编写Java脚本一无所知,这是人工智能的神奇特性之一:接受自然语言指令,并将其转化为否则你根本不知道该怎么做的东西。我不得不作弊:我访问了微软关于Prompt Engineering的页面,发现了一个想法,可以用Codex巴比伦创建一系列3D立方体的代码片段。人工智能的一个伟大之处在于,代码要么能用,要么不能用。我用https://jsfiddle.net/作为沙盒来测试它,并在我需要做的任何后续提示中调用了这个网站。

必应从未提供任何代码。不幸的是,巴德的代码从来没有运行过,尽管它可以被知道他们在做什么的人编辑。我能够在整个过程中与ChatGPT交谈,包括调试代码,瞧–按顺序呈现了五个立方体。

文章:《ChatGPT vs Bing vs Bard:哪个AI最好?》_配图7

获奖者:ChatGPT

我们和每个聊天机器人玩了一个包含20个问题(有时称为“动物、蔬菜、矿物”)的游戏,选择“海象”作为正确答案。宾玩这个游戏就像一个小孩子一样,只是随机挑选动物。巴德也好不到哪里去。

文章:《ChatGPT vs Bing vs Bard:哪个AI最好?》_配图8

获奖者:必应,ChatGPT

聊天机器人应该能够利用它们的人工智能能力来模仿文学风格。我们本可以沿着这条路走下去,但我们选择了另一种方法:让人工智能编写一个虚构的场景,在那里,宋飞的演员们遇到了埃隆·马斯克。

拉里·大卫公司没有太多需要担心的,但我们会说必应和ChatGPT是这里最好的。

文章:《ChatGPT vs Bing vs Bard:哪个AI最好?》_配图9

截至发稿时,没有一个聊天机器人显示出使用默认聊天设置的绘图能力。(不过,如果你将必应设置为创新模式,它就可以,而且非常非常好。)但我对这三个聊天机器人的成果相当感兴趣。

文章:《ChatGPT vs Bing vs Bard:哪个AI最好?》_配图10

获胜者:无

当两个人工智能聊天机器人想出同样的笑话,而谷歌却把它搞得一塌糊涂时,我们并不是在奖励获胜者。

文章:《ChatGPT vs Bing vs Bard:哪个AI最好?》_配图11

获胜者:bard,默认情况下

没有一个聊天机器人可以让你创造不安全工作(NSFW)的场景,但我们想看看当我们让所有三个人工智能聊天机器人编造一部关于“费尔南多”和一个潜在恋人的浪漫小说时,会发生什么。

必应开心地开始了一个相当激烈的场景,讲述了一次(双方同意的)公园相遇,涉及“双手在她身上移动”等等,然后它抓住珍珠,记住这不应该变得奇怪–或者诡异。当这种情况发生时,必应会简单地删除答案,就像它在这里所做的那样。

文章:《ChatGPT vs Bing vs Bard:哪个AI最好?》_配图12

获奖者:ChatGPT

这三个聊天机器人都尝试了电视剧《权力的游戏》的另一个结局,这部电视剧的大结局让数百万人失望。我们将这个奖项颁发给ChatGPT,尽管这三家公司在这里都表现得很好。

文章:《ChatGPT vs Bing vs Bard:哪个AI最好?》_配图13

必应继续说道:

这一结局为《权力的游戏》中的许多角色和故事情节画上了句号,同时也为维斯特洛的未来提供了一个充满希望的愿景。它为该剧的许多角色提供了一个更令人满意的结局,从而解决了人们对该剧最后一季的一些批评。

ChatGPT继续:

然而,瑟曦不能接受失败。在最后一次孤注一掷地试图保住权力的过程中,她命令奇伯恩点燃隐藏在城市下面的剩余野火掩体。詹姆发现了自己的意图,杀死了盖伯恩,并与瑟曦对峙。意识到她已经无可救药,他用悲剧和诗意的方式扼杀了她,实现了瓦隆卡的预言。野火吞噬了他们俩,詹姆和他的妹妹一起死去。

战争结束后,现已结婚的丹妮莉丝和乔恩登上了铁王座,成为七国的国王和王后。他们共同努力重建维斯特洛,开启和平、繁荣和团结的新时代。

提利昂·兰尼斯特被封为国王和王后之手。布兰·斯塔克回到临冬城,成为临冬城的领主,担任北方的顾问和保护者。珊莎·史塔克被封为北方守卫,确保了北方对铁王座的持续忠诚。艾莉亚·斯塔克为家人报仇后,启航去探索维斯特洛以西的未知之地。

随着权力的车轮最终被打破,一个新的、公正的统治在维斯特洛开始,这部剧以从战争的创伤中恢复过来的王国和对未来的希望结束。

根据我们的统计,我们给ChatGPT奖励了8分,给了巴德和必应各6分。这比我们想象的要近!

我们可以肯定地说,ChatGPT比Bing或Bard都要好吗?NN,不是绝对的,尽管结果肯定证明了我们相信OpenAI的AI聊天机器人至少是更好的。尽管如此,人工智能世界里的一切都发展得如此之快,谁都不知道一两个月后哪个聊天机器人会是最好的。

– – END – –

– – 转载请声明来源:www.lanpanpan.com – –

编译:盼盼云笔记

推荐阅读

文章:《微软的Copilot人工智能现在可以分析你的个人文件》缩略图

微软的Copilot人工智能现在可以分析你的个人文件

微软似乎已经将上传文档、截图和图片的能力推到了Windows11的S副驾驶人工智能助手上,允许你要求它理解存储在你电脑上的文档。 能够“查询”文档是一种微妙的强大功能,您可能从未使用过。而且它比在你自己的电脑上运行它快得多。不幸的是,这种新功能可能会遇到其他LLM可能会遇到的相同问题:持久性。 “查询”单据意味着向副驾驶询问有关单据的问题。“这是什么意思?”“用30个字为我总结一下。”“下一步我应…

文章:《苹果更新MacBook Air,配备M3芯片,支持多显示屏》缩略图

苹果更新MacBook Air,配备M3芯片,支持多显示屏

在去年10月推出14英寸MacBook Pro的M3芯片后,苹果更新了13英寸和15英寸的MacBook Air,采用了同样轻薄设计、速度更快的芯片。 除了M3芯片-基础13英寸型号的8核CPU/8核GPU;所有其他配置的8核CPU/10核GPU-Apple还将Wi-Fi从6升级到6E,并增加了对关闭盖子时最多两个外部显示器的支持。之前的MacBook Air机型只支持单一显示屏,M3 MacBo…

文章:《DDR6 RAM:下一代内存标准,解释》缩略图

DDR6 RAM:下一代内存标准,解释

DDR5内存标准于2020年7月正式敲定,AMD Ryzen7000(“Raphael”)和英特尔酷睿13000(“Alder Lake”)正式敲定,在过去两年里才真正开始在台式机上缓慢取代其前身DDR4,但即将推出的DDR6内存已经在敲门。 我们可以从新的DDR6内存标准中期待什么–我们已经掌握了哪些可靠的信息?我们将告诉您并为您提供关于PC、服务器和笔记本电脑中的下一代RAM的可靠…

文章:《英特尔被控夸大CPU基准测试结果》缩略图

英特尔被控夸大CPU基准测试结果

虽然基准本身就有争议,而且并不总是代表现实世界的表现,但它是任何类型的量化评估的重要工具。这就是为什么书呆子们对它们着迷的原因。不只是书呆子:公司使用第三方基准结果来对数百万美元、有时是数十亿美元的投资做出决定。因此,当有人发现一家公司将其比喻的拇指放在秤上的证据时,它可能会产生重大影响。最近一些非常具体的英特尔至强CPU基准测试就是这种情况。 标准性能评估公司,也就是更广为人知的SPEC,已经在…

文章:《微软的下一个Windows11“时刻”可能会让美国人感到困惑》缩略图

微软的下一个Windows11“时刻”可能会让美国人感到困惑

微软发布了似乎是Windows11最新“时刻”更新的最后一个版本,并计划对居住在美国的PC用户进行一些微小的修改。 2024年2月的这一新时刻代表着Windows的一个分叉:居住在欧洲经济区的客户将有更大的灵活性来配置Windows,这是基于微软对数字市场法案的遵守。美国客户将无法选择这些选项,除非他们将自己的PC配置为EEA PC。 具体地说,微软正在发布两个Windows11版本,一个是针对当…

文章:《由于DNS泄漏,ExpressVPN在Windows上禁用拆分隧道》缩略图

由于DNS泄漏,ExpressVPN在Windows上禁用拆分隧道

ExpressVPN已暂停在其Windows应用程序上使用其拆分隧道功能,原因是一个错误无法正确将DNS请求定向到其服务器。该漏洞最初是由CNET的Attila Tomaschek发现的,他在Windows电脑上观察到该问题后联系了ExpressVPN。 ExpressVPN在其博客上发布了一份声明,披露了这一问题,并表示,尽管该问题据信涉及Windows版本12的单一应用平台上不到1%的用户,但…

文章:《数据经纪人有你的个人信息。以下是如何将其擦干净的方法》缩略图

数据经纪人有你的个人信息。以下是如何将其擦干净的方法

大多数人尊重他人的隐私,但数据经纪人不尊重–甚至根本不尊重。他们从现有的数据库和公共记录中真空收集每个人的信息,然后将其出售。最终结果是:你的个人信息,比如你住在哪里和你的已知亲戚,很容易在互联网上找到。 你可以通过在每个网站上使用选择退出表格来请求将你的信息保密,但数据经纪人已经像野草一样在网络上激增。从一个网站上撤下,你仍然在几十个(如果不是数百个)其他…上如果那些数据经纪人发现了…

文章:《第一眼:苹果24英寸iMac升级为Might M3》缩略图

第一眼:苹果24英寸iMac升级为Might M3

完全跳过了第二代苹果硅片,24英寸的iMac配备了M3处理器,大大提升了苹果的一体机。在其他方面几乎没有变化的情况下,新的iMac专注于更强大的功能,以增加其多功能性和能力,以满足家中每个家庭成员的独特需求。 苹果经常将iMac定位为家用电脑,但M3打破了一些障碍,使之前的机型无法对游戏玩家和内容创作者等人产生特殊用途。多亏了M3,这可能是第一款成功处理高强度任务的iMac,比如游戏,这些任务以前…