当前信息：GPT现状终于有人讲清楚了！还得是马斯克钦点的天才

2023-05-29 19:31:41 来源：快科技

继Windows Copilot发布后，微软Build大会热度又被一场演讲引爆。

前特斯拉AI总监Andrej Karpathy在演讲中认为思维树（tree of thoughts）与AlphaGo的蒙特卡洛树搜索（MCTS）有异曲同工之妙！

(资料图片)

网友高呼：这是关于如何使用大语言模型和GPT-4模型的最详尽有趣的指南！

此外Karpathy透露，由于训练和数据的扩展，LLAMA 65B“明显比GPT-3 175B更强大”，并介绍了大模型匿名竞技场ChatBot Arena:

Claude得分介于ChatGPT 3.5和ChatGPT 4之间。

网友表示，Karpathy的演讲一向很棒，而这次的内容也一如既往没有令大家失望。

随着演讲而爆火的，还有推特网友根据演讲整理的一份笔记，足足有31条，目前转赞量已超过3000+：

所以，这段备受关注的演讲，具体提到了哪些内容呢？

如何训练GPT助手？

Karpathy这次的演讲主要分为两个部分。

第一部分，他讲了如何训练一个“GPT助手”。

Karpathy主要讲述了AI助手的四个训练阶段：预训练（pre-training）、监督微调（supervised fine tuning）、奖励建模（reward modeling）和强化学习（reinforcement learning）。

每一个阶段都需要一个数据集。

在预训练阶段，需要动用大量的计算资源，收集大量的数据集。在大量无监督的数据集上训练出一个基础模型。

Karpathy用了更多例子作补充：

接下来进入微调阶段。

使用较小的有监督数据集，通过监督学习对这个基础模型进行微调，就能创建一个能够回答问题的助手模型。

他还展示了一些模型的进化过程，相信很多人之前已经看过上面这张“进化树”的图了。

Karpathy认为目前最好的开源模型是Meta的LLaMA系列（因为OpenAI没有开源任何关于GPT-4的内容）。

在这里需要明确指出的是，基础模型不是助手模型。

虽然基础模型可以回答问题，但它所给出的回答并不可靠，可用于回答问题的是助手模型。在基础模型上进行训练的助手模型，通过监督微调，在生成回复和理解文本结构方面的表现将优于基础模型。

在训练语言模型时，强化学习是另一个关键的过程。

通过用人工标记的高质量的数据进行训练，可以使用奖励建模来创建一个损失函数，以改善其性能。然后，通过增加正向的标记，并降低负面标记的概率，来进行强化训练。

而在具有创造性的任务中，利用人类的判断力对于改进AI模型至关重要，加入人类的反馈可以更有效地训练模型。

经过人类反馈的强化学习后，就可以得到一个RLHF模型了。

模型训练好了，接下来就是如何有效利用这些模型解决问题了。

如何更好地使用模型？

在第二部分，Karpathy主要讨论了提示策略、微调、快速发展的工具生态系统以及未来的扩展等问题。

Karpathy又给出了具体示例来说明：

当我们在写文章时候，我们会进行很多的心理活动，需要考虑自己的表述是否正确。而对于GPT来说，这只是一个序列标记（a sequence of tokens）。

而提示（prompt）可以弥补这种认知差异。

Karpathy进一步解释了思维链提示的工作方式。

对于推理问题，要想让自然语言处理中Transformer的表现更好，需要让它一步一步地处理信息，而不能直接抛给它一个非常复杂的问题。

如果你给它几个例子，它会模仿这个例子的模版，最终生成的结果会更好。

模型只能按照它的序列来回答问题，如果它生成的内容是错误的，你可以进行提示，让它重新生成。

如果你不要求它检查，它自己是不会检查的。

这就涉及到了System1和System2的问题。

诺贝尔经济学奖得主丹尼尔卡尼曼在《思考快与慢》中提出，人的认知系统包含System1和System2两个子系统。System1主要靠直觉，而System2是逻辑分析系统。

通俗来说，System1是一个快速自动生成的过程，而System2是经过深思熟虑的部分。

这在最近一篇挺火的论文“Tree of thought”（思维树）中也有被提及。

深思熟虑指的是，不是简单的给出问题的答案，而更像是与Python胶水代码一起使用的prompt，将许多prompt串联在一起。模型必须要维护多个提示，还必须要执行一些树搜索算法，来找出要扩展的提示。

Karpathy认为这种思路与AlphaGo非常相似：

AlphaGo在下围棋时，需要考虑下一枚棋子下在哪里。最初它是靠模仿人类来学习的。

但除此之外，它还进行了蒙特卡洛树搜索，可以得到具有多种可能性的策略。它可以对多种可能的下法进行评估，仅保留那些较好的策略。我认为这在某种程度上相当于AlphaGo。

对此，Karpathy还提到了AutoGPT：

我认为目前它的效果还不是很好，我不建议大家进行实际应用。我只是认为，随着时间的推移，我们或许可以从它的发展思路中汲取灵感。

其次，还有一个小妙招是检索增强生成（retrieval agumented generation）和有效提示。

窗口上下文的内容就是transformers在运行时的记忆（working memory），如果你可以将与任务相关的信息加入到上下文中，那么它的表现就会非常好，因为它可以立即访问这些信息。

简而言之，就是可以为相关数据建立索引让模型可以高效访问。

如果Transformers也有可参考的主要文件，它的表现会更好。

最后，Karpathy简单讲了一下在大语言模型中的约束提示（Constraint prompting）和微调。可以通过约束提示和微调来改进大语言模型。约束提示在大语言模型的输出中强制执行模板，而微调则调整模型的权重以提高性能。

我建议在低风险的应用中使用大语言模型，始终将它们与人工监督相结合，将它们看作是灵感和建议的来源，考虑copilots而不是让它们完全自主代理。

关于Andrej Karpathy

Andrej Karpathy博士毕业后的第一份工作，是在OpenAI研究计算机视觉。

后来OpenAI联合创始人之一的马斯克看上了Karpathy，把人挖到了特斯拉。但也因为这件事，马斯克和OpenAI彻底闹翻，最后还被踢出局。在特斯拉，Karpathy是Autopilot、FSD等项目的负责人。

今年二月份，在离开特斯拉7个月后，Karpathy再次加入了OpenAI。

最近他发推特表示，目前对开源大语言模型生态系统的发展饶有兴趣，有点像早期寒武纪爆发的迹象。

传送门：

[1]https://www.youtube.com/watch?v=xO73EUwSegU（演讲视频）

[2]https://arxiv.org/pdf/2305.10601.pdf（“Treeof thought”论文）

当前信息：GPT现状终于有人讲清楚了！还得是马斯克钦点的天才

环球快讯:死牛肉和活牛肉区别?

环球快讯:死牛肉和活牛肉区别?

当前信息：GPT现状终于有人讲清楚了！还得是马斯克钦点的天才

环球快讯:死牛肉和活牛肉区别?

学法时习之｜6月，这些新规将影响你我生活 当前快看

【热闻】大竹蛏怎么处理才能吃?

承德露露1亿元于浙江杭州新设子公司

毕业季来了！小心这类电话

小学语文五年级语文教学工作总结_小学五年级语文教学总结-环球实时

特一药业：公司的知名中成药产品主要包括止咳宝片、金匮肾气片、皮肤病血毒丸、降糖舒丸、独活寄生颗粒及蒲地蓝消炎片等产品

中国电信山东公司：上云用数赋智，助力工业数字化高质量发展

小米电力猫怎么设置 电力猫怎么设置

【世界独家】夏天到底该不该给孩子吃冰淇淋？关于冷饮，家长一定要记住这几点！

前沿资讯!C919商业首航，关注军工ETF投资机会

【天天新要闻】点“数”成金，2023产业数据价值化峰会暨数栖大会在杭举行

每日热点：首次公布！全球唯一的白色大熊猫正脸照来了

天天动态:京津冀将制定超30项区域协同地方标准

就业形势异常严峻！印度“经济奇迹”背后藏“定时炸弹”

“县”在出发——行走百县话振兴 | 一路奔赴 百县同行|聚看点

核心资本充足率和核心一级资本充足率（巴塞尔协议III要求的资本充足率和核心资本充足率分别是多少 _360） 每日动态

黄潜1-2巴列卡诺无缘欧冠席位，德托马斯、洛塞尔索破门

碳酸二苯酯（关于碳酸二苯酯介绍）|全球快报

怎样设置wifi限定人数连接网络 怎样设置wifi限定人数连接

如果蜀国打败了魏国，刘备会怎么对待汉献帝？

印象主义的主要特征_印象主义特点_每日动态

焦点播报:数据里看影响力 亚洲已成为中国网络文学传播最广泛地区

NBA媒体消息：欧文加盟湖人队陷入僵局，双方在年薪方面有分歧_世界快报

现金营运指数大于1说明什么_现金营运指数

社会资本如何助力高校科技成果转化

梦幻西游九重塔抄写经文_梦幻西游九重塔抄写

5g系统排名_5g系统说明书-环球播报

陕西气象预警频发 出行注意安全

京杭广场多少层楼_京杭广场 天天快看点

聚焦艺术影片蓬勃“生长” 中国电影资料馆在沪举办座谈会

电脑怎么关闭开机密码win1 电脑怎么关闭开机密码

世界快报:越跌越买！有基金年内份额激增16倍 南向资金凭什么看好港股？

国产大飞机来了！C919今天开启首次商业载客飞行

第3届“汉语桥”世界小学生中文秀肯尼亚赛区决赛落幕

降低拿地成本！光谷推行新模式！|今日热文

吉尔瓦伦丁扮演者神还原 吉尔瓦伦蒂安结局_头条

以产业推动乡村振兴 三都南滩村委会生态养殖场正式投入生产

公司上市是什么意思有什么好处_公司借壳上市是什么意思 有什么好处 环球热闻

世界资讯：中关村论坛展览雨中迎客，近距离感受科技之妙

环球观察：如何做一个好的ppt课件_如何做一个好的PPT

故意报复陷害罪是怎么判刑处罚的_全球热点评

中铝西北铝设备保障中心对供应商进行评价并发布2023年度合格供方名录

环球关注：虎的和什么属相最配相克，属相婚配，属虎的和什么属相最配

搜狐汽车全球快讯 | 比亚迪或考虑在法国建厂 比亚迪：正评估建厂可行性

科比四女儿出生什么情况？科比四女儿叫什么名字？

【新要闻】“中国智造”在印尼受热捧

9岁男孩游戏充值10万多刷光爷爷养老钱|全球视点

世界关注：C919航班售票！大飞机迎“产业爬升” 航空市场资本开支有望恢复

临河五中老师排名_临河五中

贸易条款中什么是301法案_是不是萨班斯法案 环球热点

讯息：周六降雨降温，最高22℃！北京多家公园因降雨调整运营

每日热闻!2023年华厦眼科国际论坛开幕：沐“光”而行 守护光明

环球信息:衬底企业进展|首条复合衬底产线通线、CVD长晶代表企业南通罡丰获融资

0-3，世界第一倒下！3-4，王艺迪连丢9个赛点，国乒一夜连输日韩

“大象”难“起舞” ！-每日热议

环球快讯:ps是指什么意思_PS意思

天天微资讯！二手车市场南宁（南宁2手车市场）

全国特种设备从业人员查询系统（全国特种设备从业人员查询）_全球快播

618预售陆续开启，京东、淘宝天猫、拼多多火拼百亿补贴-速讯

5月26日中燃河北地区燃料油报价平稳

E键互联丨“十九年·十九城”上交所ETF高峰论坛华泰柏瑞&南方东英专场成功举办

有心为善 虽善不赏 无心为恶 虽恶不罚_有心为善虽善不赏无心为恶虽恶不罚

国内统一大市场优势更加凸显 创新信息配置增强 天天热消息

高质量发展，清流这样干…… 今日聚焦

岸田文雄正安排参加北约峰会，外交部：注意到报道，中方表示关注！

皓丽助力中国联通，构建全场景化未来数字生活、数字办公空间

苹果手机内存里的其他怎么清理（苹果内存其他占了好多怎么清理）_环球快消息

快讯：秋后算账视频 秋后算账

真实用户反馈有多重要？看完本文你就懂了-当前焦点

北京立法保障未成年人合法权益_焦点观察

卖药变贩毒 医生护士双双获刑

李杰、范泽锋分获无锡市唐翔千、唐鹤千奖

武汉葡萄（关于武汉葡萄介绍） 天天观天下

2023年宁河区幼儿园招生方案（时间+报名方式）

山西拟建省级煤炭工业互联网平台公司 实现煤矿智能化 环球播报

学法时习之｜6月，这些新规将影响你我生活当前快看

小米电力猫怎么设置电力猫怎么设置

“县”在出发——行走百县话振兴 | 一路奔赴百县同行|聚看点

核心资本充足率和核心一级资本充足率（巴塞尔协议III要求的资本充足率和核心资本充足率分别是多少 _360）每日动态

怎样设置wifi限定人数连接网络怎样设置wifi限定人数连接

焦点播报:数据里看影响力亚洲已成为中国网络文学传播最广泛地区

陕西气象预警频发出行注意安全

京杭广场多少层楼_京杭广场天天快看点

世界快报:越跌越买！有基金年内份额激增16倍南向资金凭什么看好港股？

吉尔瓦伦丁扮演者神还原吉尔瓦伦蒂安结局_头条

以产业推动乡村振兴三都南滩村委会生态养殖场正式投入生产

公司上市是什么意思有什么好处_公司借壳上市是什么意思有什么好处环球热闻

搜狐汽车全球快讯 | 比亚迪或考虑在法国建厂比亚迪：正评估建厂可行性

贸易条款中什么是301法案_是不是萨班斯法案环球热点

每日热闻!2023年华厦眼科国际论坛开幕：沐“光”而行守护光明

有心为善虽善不赏无心为恶虽恶不罚_有心为善虽善不赏无心为恶虽恶不罚

国内统一大市场优势更加凸显创新信息配置增强天天热消息

快讯：秋后算账视频秋后算账

卖药变贩毒医生护士双双获刑

武汉葡萄（关于武汉葡萄介绍）天天观天下

山西拟建省级煤炭工业互联网平台公司实现煤矿智能化环球播报

信用卡逾期90天以上的后果是什么？信用卡停息挂账是什么意思？焦点观察

本田驱动的 Batpod 重新拍卖现在价值高达 200 万美元

大便全是血是怎么回事_大便有血但是不痛是怎么回事世界要闻

电动汽车售后服务哪个最好_电动汽车售后服务如何做全球资讯

全球微速讯：历经四十年发展历史新款欧宝Corsa官图发布

威朗的同级别车有哪些品牌（威朗的同级别车有哪些？）世界资讯

蓝山屯河IPO今年上半年净利预计暴跌97% 业绩变脸欲“圈钱”上市主营化工原料不符合“三创四新”定位天天短讯

冒充“老中医”治鼻炎诈骗一万五千余人的团伙从犯10人被判刑天天热讯