普通教育从业者也能看得懂的GPT原理：知其厉害，知其所以厉害

2023-06-17 09:57:52发布来源：多知网作者：2709

　　编者按：

　　本文系多知网约稿。作者认为无论是国内外，教育领域的AI应用正在蓬勃发展，并且大模型正在快速渗透教育行业。对于广大教育从业者来说，如何使用好大模型才是正途，而知晓了大模型的底层逻辑和运作原理才能更好地使用它。

　　OpenAI的ChatGPT用户量直线飙升至月访问10亿，跻身顶流网站之列。无论是国内外，教育领域的AI应用正在蓬勃发展。海外的多邻国、可汗学院、Quizlet等纷纷拥抱AI;国内，好未来推出MathGPT，投资深言科技;科大讯飞发布星火大模型的产品;网易有道加速研发“子曰”大模型;作业帮正在内测针对国内市场的教育大模型。无疑大模型正在快速渗透教育行业。然而，对于广大教育从业者来说，如何使用才是正途。但只有真正理解大模型的工作原理，才能知其优劣势，从而更精准地应用于工作和产品研发中。

　　本文将用通俗的语言，帮助大家理解大模型典型代表GPT是如何运作、如何训练的。

　　第一个问题：GPT是如何回答出大段文字的

　　首先我们来了解一下什么是 GPT。ChatGPT，顾名思义，就是利用 GPT 技术实现聊天的软件。其中"Chat" 代表聊天功能，"GPT" 则是实现这一功能的技术核心。

　　那GPT的核心原理是什么呢？答案就是：“单字接龙。”也就是，一个字一个字的接龙，在上文最后一个字的后面，接下一个字。“苹果”-“果实”-“实在”-“在意”就是典型的词语接龙，只不过，GPT单字接龙的依据，不是和最后一个字组成词语，而是基于上文的语境，来预测下一个字。如上文语境是“今天天气好，太”，那么机器在这句话后面，大概率会接的就是“阳”字。

　　那GPT是如何生成长文的呢?即，将自己生成的字，和刚才的上文组成新的上文，然后紧接着再生成下一个字。正如刚才的那句话“今天天气好，太”后接了“阳”字后，新的上文就是“今天天气好，太阳”，紧接着就可能依次生成“当”“空”“照”，如此循环，就形成了一段文字。我们在用GPT问答的过程，GPT也是把问题作为上文，答案作为下文一个字一个字生成而得。所以我们在使用GPT的时候，也会发现他在生成内容的时候，有明显的一个字一个字打出来的感觉，这就是他在单字接龙。

　　第二个问题：GPT是如何回答出我们想要的答案的

　　GPT原理不难，就是一个字一个字的生成，最终回答出一段文字。但如何确保生成的内容符合我们的期望，而不是随意堆砌文字呢?答案是：概率。

　　实际上，生成的下一个字时可以是任何字，但由于GPT经过了多次训练，所以它会根据概率选择下一个字，以生成我们期望的文字。例如，当GPT遇到“今天天气好”这个上文时，下一个字生成“太”的概率就很高，接着是生成“阳”“当”“空”“照”几个字。

　　那为什么“太”字的概率就很高呢？因为GPT被类似的段落训练过。我们可以将训练过程想象成是一位老师一遍又一遍地告诉机器：今天天气好，下一句是“太阳当空照”’。经过多次训练， GPT就学会了这个组合，之后在进行单字接龙时，按照“今天天气好，太阳当空照”的顺序接龙下去的概率就很高。

　　那下一个字的概率是如何计算的呢?概率本是数学的概念，文字和文字之间是不能进行数学运算的。所以机器会先把上文的文字，转化成向量(数学上可以进行计算)，通过对向量进行一系列复杂的计算和比对，最终来选择下一个字。

　　这样，通过利用上文和连续选择最高概率的下一个字，机器就能够生成连贯的文本。那什么样的下一个字概率大呢?这与它与训练数据(或者说，教导它的内容)的接近程度有关，越接近，概率就越大。

　　然而上文的组合形式是五花八门，即便两种组合相似度很高，计算出的下一个字的概率分布也可能大相径庭。这就解释了为什么我们在问同样的问题时，机器可能会给出不同的回答。这也帮助我们理解为什么提示词能够协助我们得到更佳的答案，因为提示词为GPT提供了具体的上文环境。比如，如果我们先告诉GPT我是一名律师，那么在计算下一个字的概率分布时，与法律相关的字的概率就会显著提高。

　　第三个问题：是如何训练GPT让它拥有上述能力的?

　　步骤一【预训练】

　　GPT是如何进行训练的呢?我们可以将其与我们背诵课文或古诗时的方式进行类比。想象一下，我们遮住下文，然后回忆，直到想起下一句是什么。GPT在训练阶段采用了类似的方法，称为自回归训练。它会给定一段文字，遮住下文部分，然后尝试猜测接下来的内容，如果猜错了就重新尝试，直到猜对为止。不同的是，机器会运用一些方法来调整模型参数，以便更准确地猜测下一个字。这个过程被称为无监督学习，即不用老师去指出学生错误或者纠正，只需将数据或文本提供给机器，让它自己学习。

　　通过大量的数据和无数次的计算，机器学会了按照人类的方式逐字生成内容。以GPT-3为例，它使用了45TB的文本数据进行训练。如果我们假设一本书有200页，每页有500字，那么相当于GPT-3学习了4500亿本书的内容。而现在的GPT-4，训练的数据量更大，使其具备了更强大的生成能力。当这个过程完成时，也就称完成了预训练，GPT便拥有了通才的能力。

　　步骤二【微调】

　　然而，即使机器学会了文本生成，我们仍然需要防止它乱说话。因为在各类文本中，存在大量不适当的内容，包括恐怖主义、歧视和脏话等。这就引入了第二步，即微调过程。简而言之，我们使用规范的文本来纠正这个"话痨"，当它说脏话时，我们告诉它"不可以";当有人询问"如何安稳地自杀"时，我们告诉它回答"要劝导提问者不要自杀，要热爱生命"。这个过程被称为监督学习，就像有个老师在监督机器学习，对于机器输出的内容，是有标准答案的，如果回答不好，就重新回答。为什么叫微调呢，因为相比第一个步骤(预训练)，规模要小很多。正如需要培养一个绅士，在预训练基础上，你只需要规范他的礼仪即可。

　　步骤三【强化学习】

　　机器学会了说话并能够正确表达，但如果它始终按照训练文本的模式生成内容，就会变得呆板和缺乏创意。为了鼓励机器生成更具创造性和独特性的内容，引入了强化学习的方法，即基于人类反馈的强化学习(RLHF)。

　　RLHF的思想很简单，当机器生成了我们认为不错的回答时，我们给予它鼓励；而当机器生成的回答不够理想时，我们给予它批评或纠正。通过不断的反馈和调整，机器能够逐渐学会生成更加优秀和独特的回答。我们可以观察到，在与chatGPT聊天时候，回答里会有“better”“worse”“same”的评价，这实际就是GPT在利用我们这些用户对机器进行纠正，让它知道什么样的回答是我们喜欢的，机器就更倾向于生产那类回答。

　　问题四：训练一个大模型和养一个聪明的孩子有什么不同

　　如果你能看到这里，你会发现训练一个大模型和抚养一个小孩很像。小时候，让他去接触各种各样的事物，然后通过正规教育规范他的行为，再同时通过奖惩去激发他的创造性。

　　但，他和抚养一个小孩有什么不同呢?

　　1、模型并不是真正学会了语言并了解了语言的意义，而是学会了一种承载了语言及意义的文字搭配方式。(请多读3遍，有点绕口)而小孩是可以理解其意义的。

　　2、模型不是数据库，不是你问问题后，它去庞大的数据库里去找答案。而是，他学会了推理，知道了文字与文字之间的关系。你提问后，它按照它学到的推理结构，去产生你要的问题的答案，这并不是记忆。但小孩既有推理能力，也有记忆能力。

　　由此，就出现了大模型目前无法解决的问题，一把双刃剑——生成性。

　　这一特性让它能产生未见过的内容，是本次大模型技术飞跃的关键亮点。虽然大模型不理解自己生产的内容是什么，但它确实给我们提供了非常良好的体验，如近似人的聊天。然而，这也带来了问题，即模型的答案无法完全受到控制，无论微调或强化学习如何进行，始终存在不确定性，会生成一些我们不想要的答案。这就是模型幻觉，即使这种不可控随着模型完善可以降低，但却无法消除，这也是人工智能领域目前的一大挑战。

　　就如同儿童玩具不应包含不适内容，游戏NPC的对话必须和游戏世界观一致，教育工具不应违背核心价值观一样，内容生产需要可控。因此，大企业通常不会冒险采用成熟产品试水，即使这个风险的概率非常小。这样的挑战在很大程度上阻碍了大模型的商业应用，所以我们能看见大模型在资本圈火热，但在商业上暂时未创造出与其匹配的价值。对于这个问题我们将在接下来的文章中进行探讨，若有感兴趣的话题，请留言。

　　注：以上仅为初步阐述GPT原理，为方便理解而进行简化。实际操作过程中涉及各类复杂细节，若需深入理解，建议查阅相关学术论文。

　　(本文仅代表作者个人观点，供读者参考。)

商学院

Open Talk

普通教育从业者也能看得懂的GPT原理：知其厉害，知其所以厉害

相关阅读