要求必应聊天更有创意会降低其准确性

微软的必应聊天开始推出一些选项,让用户在聊天中做出有创意、平衡或更精确的回应。不过要小心:采用“创造性”选项一开始会降低必应AI聊天机器人的精确度,名义上是为了得到更有趣的回应。

微软在上周末开始推出新的必应聊天回应选项。(记者还无法通过他的个人账户访问这些信息。)微软公司设计与研究副总裁迈克·戴维森分享了一张截图:

我们一直在努力调整刻度盘,这样你就可以随心所欲地与新的必应聊天。从今天开始,一些用户将能够选择更精确的样式。

微软正试图平衡它显然认为必应的核心功能:“网络副驾驶”。目前还不太清楚这到底需要什么,但最初,微软似乎打算让必应聊天成为其传统搜索引擎的补充工具:汇总来自不同网站的结果,让用户不必自己挖掘这些结果。一些更具创造性的元素,比如讲故事和写诗的能力,显然被视为奖金。

也许对微软来说不幸的是,正是这些创造性的元素被用户抓住,建立在竞争对手OpenAI的ChatGPT允许的基础上。当记者和测试者开始挑战必应能做的极限时,他们得到了一些奇怪的结果,比如威胁和关于关系的奇怪询问。作为回应,微软严厉限制回复,基本上阻止了必应更具娱乐性的回复。

显然,微软正试图通过额外的控制来恢复必应更具创造性的冲动。但根据我自己向戴维森提出的问题,这么做显然是有代价的。大型语言模型有时会“幻觉”(编造)虚假事实,许多记者在仔细询问ChatGPT和其他聊天机器人时注意到了这一点。(这大概是Bing chat在脚注中引用其消息来源的原因之一。)

我问戴维森,创造性的或精确的模式是否会影响回复的事实准确性,或者必应是否会采用更有创意的语气或事实的语气。

是啊。你说的第一件事。不仅仅是口语化的语气。

戴维森的意思是,如果你选择更有创意的回应,你就面临着必应发明信息的风险。另一方面,“创造性”切换可能是为更有创造性的输出而设计的,而绝对精确度并不是优先考虑的。

为了确定,我要求澄清。戴维森接着说,如果用户想要一个完全准确的回复,这是以创造力为代价的。在不准确的基础上消除创造性的反应违背了目的。然而,随着时间的推移,这种情况可能会改变。

就目前LLMS的状态而言,这是一种权衡。我们的目标是尽快达到最高的准确率,但如果你现在对此过度纠正,聊天往往会变得非常安静。想象一下,你让一个孩子唱一首歌。现在想象一下,你把不完美音调的每个部分都调成了静音。哪种更好些呢?

因此,微软正在做出选择–你也将不得不做出选择。如果你想以搜索助手的身份使用必应聊天,请选择“精确”选项。如果你更看重创造力,而不是太在意必应提出的话题是否完全准确,那就选择“创意”选项。也许在未来,这两个人会相遇。

– – END – –

– – 转载请声明来源:www.lanpanpan.com – –

编译:盼盼云笔记

推荐阅读

文章:《微软的Copilot人工智能现在可以分析你的个人文件》缩略图

微软的Copilot人工智能现在可以分析你的个人文件

微软似乎已经将上传文档、截图和图片的能力推到了Windows11的S副驾驶人工智能助手上,允许你要求它理解存储在你电脑上的文档。 能够“查询”文档是一种微妙的强大功能,您可能从未使用过。而且它比在你自己的电脑上运行它快得多。不幸的是,这种新功能可能会遇到其他LLM可能会遇到的相同问题:持久性。 “查询”单据意味着向副驾驶询问有关单据的问题。“这是什么意思?”“用30个字为我总结一下。”“下一步我应…

文章:《苹果更新MacBook Air,配备M3芯片,支持多显示屏》缩略图

苹果更新MacBook Air,配备M3芯片,支持多显示屏

在去年10月推出14英寸MacBook Pro的M3芯片后,苹果更新了13英寸和15英寸的MacBook Air,采用了同样轻薄设计、速度更快的芯片。 除了M3芯片-基础13英寸型号的8核CPU/8核GPU;所有其他配置的8核CPU/10核GPU-Apple还将Wi-Fi从6升级到6E,并增加了对关闭盖子时最多两个外部显示器的支持。之前的MacBook Air机型只支持单一显示屏,M3 MacBo…

文章:《DDR6 RAM:下一代内存标准,解释》缩略图

DDR6 RAM:下一代内存标准,解释

DDR5内存标准于2020年7月正式敲定,AMD Ryzen7000(“Raphael”)和英特尔酷睿13000(“Alder Lake”)正式敲定,在过去两年里才真正开始在台式机上缓慢取代其前身DDR4,但即将推出的DDR6内存已经在敲门。 我们可以从新的DDR6内存标准中期待什么–我们已经掌握了哪些可靠的信息?我们将告诉您并为您提供关于PC、服务器和笔记本电脑中的下一代RAM的可靠…