ChatGPT:聊天机器人改变了我们的工作方式

大型语言模型正在引领一个创意产生的新时代……
2023年1月24日
生产詹姆斯Tytko

聊天机器人

机器人说话的艺术印象

分享

上个月,我们第一次聊到ChatGPT,从那以后,我们就一直在关注它对来自世界各地的用户做出的令人难以置信的反应。本周,我们考虑一下这个非常强大的工具的含义,它刚刚落在几乎每个人的手中,我们是应该兴奋还是担心它可能变得更强大的前景……

*更正-此程序错误地将ChatGPT归因于谷歌;这是微软的一个项目。我们为这个错误道歉。

在这一集里

黑板上画的一幅说话的人的图画

01:30 -与ChatGPT聊天

在这个过程中了解聊天机器人的历史……

与ChatGPT聊天

为了展示它的潜力,并进一步了解聊天机器人是如何达到今天的水平的,我想在通过一些免费的在线文本向语音软件运行它的响应之前,我应该让ChatGPT进行一次测试。

James - ChatGPT,第一个聊天机器人是什么?

聊天机器人-第一个聊天机器人,被称为ELIZA,是在20世纪60年代由麻省理工学院的Joseph Weizenbaum创建的。ELIZA模拟了罗杰斯心理治疗师,并使用模式匹配和替代来响应用户输入。它的设计是为了展示人与计算机之间交流的肤浅性。

詹姆斯——你说的“人与计算机之间交流的肤浅”是什么意思?

ChatGPT——ELIZA背后的想法是证明计算机程序可以以一种与真人没有区别的方式模拟人类对话,尽管程序不了解对话的内容。该程序使用简单的模式匹配技术来响应用户的输入,这使得它看起来像是在进行有意义的对话。然而,在现实中,该程序只能以一种肤浅的方式做出回应,对所使用的单词背后的含义没有任何真正的理解。这表明了试图用计算机程序复制人类交流的局限性,并强调了开发更复杂的技术以实现与计算机的真正类似人类的交流的必要性。

詹姆斯:所以你是说像ChatGPT这样的现代聊天机器人真的能理解对话中使用的单词的意思吗?

ChatGPT——作为一种现代语言模型,ChatGPT能够理解单词和短语的含义,并能够生成适合上下文的响应。然而,值得注意的是,虽然ChatGPT可以理解并响应广泛的输入,但它仍然是一台机器,它不具有与人类相同的理解或意识水平。它可以理解单词的表面意思,但它没有情感、信仰或个人经历来影响它对对话的理解。它还受到其训练数据的范围和在训练期间提供的信息的限制。它可以根据训练中看到的模式做出假设和预测,但它可能并不总是理解对话的细微差别或问题背后的真实意图。

詹姆斯:好的。我很欣赏你的诚实。在ELIZA之后,聊天机器人的下一个发展是什么?

ChatGPT -在ELIZA之后,创建了许多其他早期聊天机器人,例如PARRY和Jabberwacky。这些聊天机器人通过结合更先进的自然语言处理技术,并试图模拟更像人类的对话,对ELIZA进行了改进。

詹姆斯:然后呢?

ChatGPT——在20世纪90年代末和21世纪初,聊天机器人开始在商业应用中得到更广泛的应用,比如客户服务和电子商务。这些聊天机器人使用基于规则的系统和决策树来响应用户输入并向用户提供信息。
近年来,随着机器学习和深度学习技术的发展,聊天机器人变得更加先进和复杂。这些聊天机器人,如ChatGPT,使用神经网络来理解和生成文本,并可以处理更复杂和开放式的对话。

詹姆斯:嗯,我明白了,但是我怎么能相信你说的都是真的呢?

ChatGPT -我建议您将我提供的任何信息与其他可靠来源进行交叉参考,以确保信息的准确性和有效性。此外,虽然我可以根据我所接受的信息提供事实性问题的答案,但我不能提供个人意见或在没有证据的情况下提出事实性主张。

詹姆斯:有意思。所以如果我问你你最喜欢的颜色是什么,你会说什么?

ChatGPT——作为一种语言模型,我没有个人的偏好或感觉,因此,我没有最喜欢的颜色。我是一台机器,它根据从训练数据中学习到的模式来处理文本。我可以生成听起来像是表达偏好的文本,但它不是基于任何个人经验或偏好。我只能根据我在培训过程中从数据中看到的模式和信息来提供信息。

一个程式化的计算机网络。

05:04 - ChatGPT是如何工作的?

它是如何用如此连贯的答案来回答的?

ChatGPT是如何工作的?
Michael Wooldridge,牛津大学

不要把ChatGPT告诉你的每件事都当真,这是明智的,尤其是因为该软件自己承认,你不应该把它说的每件事都当成真理。牛津大学的迈克·伍尔德里奇(Mike Wooldridge)在这个故事发生时接受了我们的采访,他现在和我们一起提供人性化的接触,希望能帮助我们理解这一切是如何成为可能的……

迈克:现在的情况是,人们已经意识到规模在人工智能中很重要。规模对于这些系统意味着三件事。首先,这意味着你的神经网络有多大?你的神经网络越大,包含的元素就越多。这很重要。你用来训练系统的训练数据量——现代人工智能绝对依赖于训练数据,所以这很重要。最后,您准备在训练这些程序时投入的计算工作量——这很重要。所以大约在五年前就有了这样的举动,“让我们看看我们能走多远。”让我们看看我们的神经网络能有多大。让我们看看我们能在这些问题上投入多少数据,看看我们准备使用多少计算资源。” And the first system, the ancestor of ChatGPT was GPT-2, which I think appeared in 2018 or 19. Famously, it was supposedly so good that they were not prepared to release it to the public because this unprecedented power was too much for us to handle. But what happened with GPT-3, the successor system, is basically it was an order of magnitude bigger, an order of magnitude more data, an order of magnitude more compute power. And that's the way things are going. There's been a race for scale. That's what we're seeing. We're seeing the benefits of that.

Chris -我刚刚在问James它的反应速度有多快,因为通常情况下,你习惯了你的电脑需要一段时间来加载游戏或其他东西,而它几乎是立即产生这个输出,就好像它只是一个人向你吐出一个结果。他们有什么样的计算能力使之成为可能?

迈克:好,你要区分两种不同的东西。首先是建立或训练模型;把数据扔给它,训练它,让它学会如何做出反应。这需要人工智能超级计算机运行数月。计算上,这是人们在计算中所做的最繁重的任务之一。现在有一个大问题是当你这么做的时候会产生大量的二氧化碳。我们相信支撑ChatGPT的GPT-3技术使用了24000个gpu——图形处理单元。这些是高性能的人工智能计算机,运行了好几个月,以便能够处理这些数据。这就是训练的部分。但是一旦你有了这个,你就有了你的神经网络结构,实际使用它们,我们称之为运行时,当你进行对话时,你在做什么,这要便宜得多但你不会在台式电脑上做,你不需要任何像秤这样的东西。 You don't need super computers to do that but you still need a lot more than a desktop computer. And the reason is those neural networks are very, very big. GPT-3 is 175 billion parameters. Basically, these are the 175 billion numbers that make up that neural network.

Chris -这就是我想问你的问题,因为它到底学到了什么?那台机器里的东西意味着当詹姆斯问它对颜色的看法时,它说,“嗯,我没有。”它是怎么做到的?

迈克:有一个长答案和一个短答案。简短的回答是,我们并不确切知道。长话短说,基本上,这些东西所做的与你的智能手机在建议你完成任务时所做的完全相同。所以,如果你打开智能手机,开始给你的伴侣发短信说:“我要去……”,这可能意味着“迟到了”或“去酒吧了”。它是怎么做到的?因为它查看了我发过的所有短信,它发现每当我输入“我要去……”时,最有可能的下一条短信是“迟到”或“在酒吧里”。GPT系统也在做同样的事情,但规模要大得多。对他们来说,训练数据不是你发送的短信,而是他们想训练它时可以得到的每一点数字文本。他们下载整个互联网,然后用所有的文本来训练它,试图预测句子中下一个最有可能出现的词是什么。

克里斯:问题是,迈克,互联网上到处都是垃圾。外面有很多不可靠的数据。那么,您如何确保您的系统能够将小麦从谷壳中分离出来呢?

迈克:所以你已经指出了目前这项技术的一个大问题。有太多的数据,在输入到机器之前,人类无法全部检查。再一次,关于这些公共系统是如何发生的细节是粗略的,但会有一些筛选,可能是自动筛选,寻找有毒物质,这将在一定程度上起作用。但这并不可靠。它会把事情搞砸。它将允许一些我们在理想情况下不允许的事情发生。它将无法检查输入的大量信息的真实性。我们从中得到的是某种总体情况。这就像是在网上看到的东西的平均值。但是,说实话,我们需要做更多的工作来确切地了解那里发生了什么,以及我们如何处理这些问题。这些都是降落在地球上的全新工具,我们还有很多工作要做,以了解它们。

克里斯-接下来我们能看到它做什么?

迈克:所以他们非常擅长的事情是处理文字。我强烈建议你们尝试一下,对吧?去BBC新闻网站,剪切和粘贴一个故事,并要求它总结它。根据我的经验,它通常在总结方面做得非常非常好。要求一个一段的摘要,要求它从新闻故事中提取出最重要的三个要点,它会做到的。拿两个关于同一件事的新闻故事,让它找出新闻故事中的共同点是什么?不同点在哪里?根据我的经验,这项技术在这方面做得非常好。它并不完美。你必须检查一下。 It comes out with falsehoods, but it's very good. Where are you going to see it? You're going to see it in your email system. So instead of showing you every email, you're going to get the top three bullet points from your email. I think that would be quite a useful thing to be able to do.

一个被电子设备包围的大学毕业生。

12:38 - CheatGPT:老师们会如何回应?

聊天机器人可以让一些家庭作业变得多余……

作弊gpt:老师们会如何回应?
Vitomir Kovanovic,南澳大学

现在我们对ChatGPT的工作原理有了更多的了解,现在是时候考虑一下它的引入会给社会带来什么样的直接影响,以及它将如何在未来进一步改变事物。早些时候,我们提到美国的一些学校已经对学生使用ChatGPT作为快速完成作业的方法采取了迅速而强硬的态度,禁止连接到学校网络的计算机使用聊天机器人。Vitomir Kovanovic是南澳大学学习变化和复杂性中心的高级讲师,他的背景是计算机科学。他专门研究学习分析,并告诉詹姆斯大型语言模型如何使教育变得更糟,但也会变得更好……

Vitomir -我们和南澳大利亚的老师们讨论了如何使用这个工具?有几种潜在的有益方法可以使用它来快速生成一组以前没用过的考试题目。以前,教育工作者使用题库。和一个同事一起,我们只是在测试这个系统,我们用它来生成课程大纲。它实际上产生了一个非常令人印象深刻的教学大纲。然后我们说,不如你在第五到第七周多做一些实际的工作,然后系统再产生一个。你必须这样使用它。这种系统需要很多技能才能使用。这就好像你雇佣了一个伟大的作曲家,现在你想让他为你创作一些东西。你真的需要能够清楚地表达出你想要的东西,并且能够在遇到问题时,说,“啊,这不是我真正想要的。 I wanted something slightly more dynamic." "I wanted more darker tones." You need to understand and be able to communicate with the machine to achieve what you really want.

詹姆斯:很有趣的是,你把它框定在可以用于教育的方式上。我完全同意这些观点,但我想知道我们是否可以倒回去再想想,在学生手中,特别是在短期内,我自己摆弄一下技术,我可以看到它是如何减轻很多繁重的任务的。特别是如果我们继续看到进步,学生们学会了如何更好地使用软件,这大概是一个值得关注的问题吧?

Vitomir:马上,它就会使我们所做的所有评估完全无效,因为,老实说,评估的很大一部分是写论文,长篇书面回答,等等。但是你可以说,给我写一个回答这个问题的答案,假装你是一个八年级的学生,它会模拟出八年级或九年级学生的文体复杂性。我很确定学生们已经开始使用它了。一个更大的问题是,“这是评估他们学习的好方法吗?”

詹姆斯-有可能仅仅是适当地监管吗?我们能不能禁止学校网络上的网站来阻止学生使用它?

维托米尔-在学校网络上,是的。这样的事情很容易做到。但问题是这些系统会变得越来越普遍,从某种意义上说,你为什么要这么做?这样做的唯一原因是为了保护现有的评估模型。我们已经知道它们真的不适合我们的目的,所以我们想要改变它们。

James -我之前听说ChatGPT被描述成一个计算器,但是用于论文写作和创意生成。显然,当计算器变得便宜和广泛使用时,它并没有使数学成为一个多余的学科。你喜欢这个比较还是类比?或者ChatGPT甚至比计算器更强大?它会带来更大的变化吗?

Vitomir -这个比较是有道理的,但它更强大。语法检查类似于计算器;做一些非常小的,受限的事情,它确实有帮助,对吧?不管有没有拼写检查,写一篇好文章都是不一样的。但这远不止于此。这几乎就像一个专业数学家坐在你旁边。有趣的是,看看这些回应,60年代的人,当计算器大量普及的时候,那是同样的讨论。我们应该允许使用计算器吗?难道我们不应该允许他们吗?但是解决一个大而复杂的数学问题需要你使用计算器50次,但是你如何将这些步骤组合起来呢? Really critical thinking of solving mathematical problems, you still had to do it yourself. This system is far more powerful than that. I mean, you can still simulate at least some bit of this critical thinking, but if you want to really produce a good essay or a good written response, you have to still intervene there. You're not just writing now, you're being given by the computer a written response and now, as a student, you need to evaluate, is it good enough for my task? You need to go back to the computer and give it more instructions, how do I fix it? And so on. So it'll be far more back and forth.

詹姆斯:这里的景色变化太快了。当我们说“改变评估”时,我们指的是什么?你提到了一种过时的方法,那就是只说“没有技术”,但似乎老师们有责任整合这一点。不久之后,人们将在工作场所使用它。

维托米尔-它仍然是开放的。我们首先需要看看人们将如何使用它。写脚本的人会怎么用这个呢?它的潜力是什么?因为这是一项非常非常模糊的技术,与其他技术不同。通常,当你开发一项技术时,你知道它的可能性是什么吗?我们甚至不确定这项技术能做什么。比方说,你被要求写一篇关于堕胎法的利弊或任何复杂的社会问题的文章——你真正测试的是批判性思维,他们批判性地总结不同观点,整合它们,比较它们,找出真正不同之处的能力。你还是得这么做。所以重点应该放在这上面。 It'll shift a little bit from being focused on writing perfectly, because machines can do that now. We'll focus on your logic. What are you really writing there? I think in the future we'll see assessments becoming more complicated and more demanding.

学术研究危机

19:08 -人工智能生成科学论文

事实证明,ChatGPT可以像一些科学家一样写出令人信服的科学文章....

人工智能生成的科学论文
凯瑟琳·高,西北大学

本周发表的一项研究表明,ChatGPT不仅能够生成与真实学生的作业毫无区别的作业,甚至还可以将科学内容写入一个标准,使其不被发现是计算机制作的。Catherine Gao是西北大学的一名重症监护医生,她的副业是机器学习研究。她看到了ChatGPT的能力,并想知道它在撰写科学摘要(发表在期刊上的研究论文的结果摘要)方面会做些什么。它让她的期望落空了,迫使她系统地推断,这与真正的科学家所写的科学是多么的难以区分……

第一,我们想知道它是否会触发抄袭探测器。ChatGPT摘要执行得非常好。他们的平均得分是100%原创。所以没有使用传统意义上的任何抄袭。

Chris -这告诉你的是,ChatGPT不只是去网上找一些资源,然后大量抓取抽象的内容,然后反刍它。它正在生成其他地方不存在的内容。

凯瑟琳:完全正确。它真的是从零开始编写这些摘要。我们研究的另一个任务是它是否会在不同类型的探测器上得分很高。它们存在于网上,这些人工智能输出探测器,你可以通过它们运行文本。所以真正的摘要得分都非常非常低。大多数人的得分是0.02%,假的。然而,大多数ChatGPT摘要的得分要高得多,平均得分为99.98%。

克里斯-所以一台机器可以发现另一台机器的工作。

凯瑟琳:对,没错。用机器来检测机器。非常正确。

Chris -但是,如果你把它生成的结果推到人面前,而不是机器面前呢?

凯瑟琳:就像我说的,我真的对它的好印象深刻。所以我们给了25个摘要的集合,这些摘要混合了真实的摘要和生成的摘要给不同的团队成员。这些都是我们生物医学实验室的成员。所以他们习惯于参与科学。我们说过有些是真实的,有些是生成的。请给我们一个你认为是哪一种情况的二分,然后也欢迎你给我们一些笔记,说明你是怎么想的。即使知道在这个组合列表中有生成的摘要,我们的人工审稿人也只能在68%的时间内识别生成的摘要。这些都是非常非常多疑的评论者。他们非常怀疑,甚至认为14%的真实摘要是生成的。

克里斯:内容的质量怎么样?因为你还没说什么,不管你看机器说的是什么,它实际上是准确的?

Catherine:你知道,一开始我以为它可能会提供一些模糊的总结,但我们发现,在生成的摘要中,ChatGPT实际上为他们的结果提供了完全虚构的数字。基本上是报告刚刚从以太中出来的完整研究。真正让我惊讶的是,它可以幻觉出这些数字,并以一种看起来仍然足够可靠的方式呈现它们,以至于读者可能无法区分95%的摘要是生成的——我认为这将是令人放心的。68%并不是很好,他们甚至知道其中一些摘要是生成的。所以我认为,如果有人在野外看到摘要,或者如果他们正在审查一些东西,他们可能不会意识到大型语言模型已经如此擅长生成摘要,并且可能不会想到它可能是假的。

Chris -人们也在关注,例如,使用像这样的工具来生成网页内容,因为在网络上,流量就是一切。让人们来到一个资源,你向他们投放广告,你通过这种方式获得收入,你有一个很高的落点,因为你在为你的网页创造内容。这是一个瓶颈,因为这是一个人必须参与的地方,这是一个钱必须参与的地方。

凯瑟琳:我认为这引出了一些非常有趣的问题,那就是我们该何去何从。在某种程度上,一个负责任的科学家是否可以用它来帮助减轻写作的负担,就像你说的,写作有时是传播科学工作的瓶颈之一。它是否有助于提高科学家之间的平等,特别是那些必须用非母语写作的科学家?我还担心的是,如果这项技术被用于邪恶,对吧?现在有一些组织叫做造纸厂,他们基本上是靠生产科学内容来盈利,现在这种技术是如此强大,如此容易获得,而且是免费的。这些邪恶的组织会不会利用这一点来垃圾科学,而这些科学实际上是不正确的,而且具有危险的说服力?

克里斯:嗯,你能进一步说,我有一家制药公司,它不是很好。这是欺骗性的,它想推销一种产品。所以它所做的就是产生数百篇论文来支持它发明的药物,说它有多好,鼓励真正的组织购买,无论是投资者还是想要购买这种药物或产品的组织,为这种冒险赚钱,而实际上这一切都是建立在伪科学的基础上的?

Catherine -这些模型训练的数据足够详细,它甚至知道在生成的结果中呈现的患者队列大小的正确范围。例如,当我们要求ChatGPT写一篇关于糖尿病研究的摘要时,它包含了大量的患者,因为很多患者都患有糖尿病,而当我们要求它写一篇关于猴痘的摘要时,猴痘是一种罕见的新疾病,它知道数字需要小得多。所以我当然认为,在这些更邪恶或恶意的用户手中,这可能是一项非常危险的技术。

代码行数

25:57 -用聊天机器人编程

计算机科学本身是第一个被彻底改革的行业吗?

用聊天机器人编程
Michael Wooldridge,牛津大学

迈克·伍尔德里奇仍然和我们在一起。我想知道他对今天听到的事情有什么看法。凯瑟琳提到人工智能检测软件能够检测出虚假的科学论文。但这是万无一失的吗

迈克尔-这不是万无一失的,远非万无一失。我认为还有很多工作要做。我认为其中一个有趣的想法是现在正在进行的工作是开放的人工智能可以插入文本ChatGPT生成数字水印。它可以让你分析一段文本,并告诉你它实际上是由一个系统产生的。我们还没有做到这一点,但我认为这是一个非常有趣的方向。但目前,我认为我们教育工作者现在感到头疼的是如何识别这一点。研究人员,当我们看到摘要和研究论文时,这将是未来几年的挑战。我真正担心的是同行评议,这是我们用来评估科学贡献的过程,已经处于压力之下。但是像这样的系统可能会被用来淹没同行评议,你只会得到很多看起来很合理的报告和论文,这些报告和论文都是由这样的系统产生的。因此,目前人们对这些问题有很多担忧。

James -我们还没有机会讨论ChatGPT生成计算机代码的潜力。有什么可能性呢?

Michael:正如我刚才提到的,这些程序的训练方式基本上就是你下载整个万维网然后在上面训练它。在这一切之中,有大量的计算机代码。我们喜欢用来上传代码来证明我们有多聪明的网站叫做GitHub。如果你去GitHub,那里有成千上万,甚至上百万的计算机程序已经上传,你可以分析。像Python这样的计算机编程语言比像英语这样的人类语言更容易理解。它们要简单得多。它们定义良好,分析起来非常简单。因此,像ChatGPT这样的系统在分析和生成计算机代码方面应该非常擅长,这并不奇怪。目前的技术水平是能够制作相对较短的节目。几十行计算机代码,通常是我们在计算机编程中可能会用到的有用的小工具和实用程序。 I don't envisage them being able to produce Microsoft Windows or Microsoft Excel anytime soon. But there are some really fascinating applications of this. One of the most interesting is that ChatGPT can't do arithmetic and it can't do mathematics because that's not what it was designed for. But it can write computer programmes that can do mathematics and arithmetic. In other words, there's a problem that it can't solve itself, but it can write a computer programme to solve that problem. And at this point, I just wish Alan Turing was alive to see this technology. He would love to see this. This would really tickle, I think, his fancy, it's absolutely fascinating from the point of view of computer science.

詹姆斯-难以置信,不是吗?迈克,还有一件事,我想问你,因为另一项人工智能技术似乎每天都在变得更好,那就是深度造假,当我们能够以某种方式将复杂的ChatGPT与深度造假软件集成在一起时,我们的想法令人难以置信。我们现在是否处在一个几乎需要质疑我们在网上看到的任何东西的阶段?

迈克尔-我认为绝对是这样。我认为,我们现在正处于不能相信社交媒体上的文本等的阶段。没有理由这么做。这就是为什么有信心知道这段文字的出处是非常重要的。但计算机生成的图像和视频也很快就会出现。我的意思是,这已经近在眼前了。

评论

添加注释