CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

ChatGPT后训练方法被OpenAI离职联创公开，PPT全网转～

2025-02-19 09:24:19

西风发自凹非寺
量子位 | 公众号 QbitAI

离开OpenAI后，他们俩把ChatGPT后训练方法做成了PPT，还公开了～

正如网友所言，可能没有人比他俩更了解ChatGPT后训练的事儿。

毕竟，一位是OpenAI联合创始人，曾经也是OpenAI后训练共同负责人的John Schulman，另一位是曾经在OpenAI当后训练研究VP的Barret Zoph

John Schulman发推文称：

啊，我和Barret Zoph最近在斯坦福做了一场关于后训练以及分享开发ChatGPT经验的演讲，可惜没被录下来，但我们有PPT。

顺便又全网寻录音/视频“如果你有录音，请告诉我！”

网友不语，只是一味点赞收藏。

有曾在现场的网友亲证，演讲质量真不戳。

还有网友在感谢完俩人后想要更多：

如果能分享更多关于训练后阶段的最新进展，比如推理模型、DeepSeek RL等，那就太好了。

这次先来看看PPT长啥样～

ChatGPT后训练方法PPT版

先是自我介绍。

Barret Zoph和John Schulman曾在OpenAI共同担任后训练联合负责人，从2022年9月开始合作，主要目标是开发一个对齐的聊天机器人，最初的团队被称为“RL”，只有少数几个人。

接着介绍了后训练（Post-Training）阶段是什么：

后训练阶段是模型开发的最后一步，目的是让模型更像一个助手，遵循特定格式，并确保其适合实际生产环境，这一阶段通常与产品团队紧密合作。

用几个具体例子，对比基础模型和后训练模型的区别：

后训练VS预训练总的来说：

计算资源需求更低，迭代周期更快；使用基于人类反馈的强化学习（RLHF）；教模型使用工具；塑造模型个性；引入拒绝/安全行为；行为严重依赖预训练阶段的泛化能力。

后训练包含三个主要组成部分：监督微调（SFT）、奖励模型（RM）训练、强化学习（RL）。

以下是三个组成部分的具体介绍：

随后回顾了ChatGPT和OpenAI后训练的早期发展历程。

包括GPT-3、GPT-3.5的发布、RL团队的工作、GPT-4的准备过程、决定发布ChatGPT的细节以及发布后意外成功，实现病毒式传播。

ChatGPT曾一度被大批涌来的用户挤崩：

随时间推移，ChatGPT模型和功能逐渐更加复杂和多样化：

2022年12月最初版本和2025年1月版本的对比：

添加了许多功能：

然后讲了在功能扩展和公司规模增长的背景下，如何通过主线模型（mainline model）设置来整合变化并降低风险，包括在较小规模上测试；在频繁的更新中逐步整合更改，如果发现问题能够迅速回滚到之前的版本。

在这当中也出现了一些失误和挑战……

比如模型在生成文本时出现了很多拼写错误。

强化学习（RL）后发现拼写错误率有所上升，在监督微调（SFT）数据集中发现了拼写错误的提示。

最终通过对比过程改进，将两个生成的文本（completion 1和completion 2）进行比较，选择改进后的版本，专家会对比这两个文本，有时会写出改进后的版本。

此外还有过度拒绝的情况。

早期的拒绝行为过于冗长：

有一些方法比如通过改变时态，可以绕过模型的拒绝机制。

俩人随后讲解了为何拒绝行为难以处理，有边界问题和人类数据问题。

解决方案包括配对数据、有针对性的边界示例、对标注数据进行分层处理。

另外，模型还会出现偏见。

还可能会生成虚假或误导性的内容。

在涉及品味、主观性和高投入的任务中，如何获取高质量人类反馈也是一大挑战。

通过人类与AI团队协作进行标注是解决方案之一。

他们还探讨了不同来源的人类反馈在提示多样性、标签质量、领域、正确性、意图和合规性等方面的优缺点，并提出了如何利用它们各自优势问题。

而要让模型按照我们的意愿行事，第一步是弄清楚我们想要什么。

俩人表示这一步出乎意料的难，要明确规范。

OpenAI2024年5月发布了模型规范。

还有一个开放性问题，如何保持模型多样性和趣味性。

两人提到通过后训练迭代和模型蒸馏来保持或强化这些特性。

总结了以InstructGPT、Llama 3.1等为代表的“两个时代”的模型训练流程，包括从基础模型到对齐模型的训练步骤，最终目标是生成一个经过多次优化的对齐模型。

提出了一个开放性问题，探讨如何在模型训练和优化过程中恢复并保持基础模型中的多样性和趣味性，包括不同的风格和世界观。

最后他们推荐了一些关于后训练的论文和blog：

俩人都被OpenAI前CTO挖走了

John Schulman和Barret Zoph离开OpenAI后，现在都在干什么——

被曝双双加入了OpenAI前CTO Mira Murati的新创业团队Thinking Machines Lab。

Mira Murati去年9月官宣离职OpenAI，离职后不久，就在10月份，她被曝筹备新公司/AI实验室，吸金超1亿美元。

Mira Murati已经挖到了20多位顶尖研究员和工程师投奔，都是来自OpenAI、谷歌、Anthropic等巨头。

这其中就包括Jonathan Lachman和Barret Zoph。

John Schulman去年8月离开的OpenAI，先是加入了OpenAI竞争对手Anthropic，致力于LLM的对齐工作，短短六个月后再次离职，加入了Murati的创业项目，担任首席科学家。

至于Barret Zoph，去年9月份和Mira Murati几乎同时离职，随后就加入了Mira Murati的团队，担任CTO。

[1]https://x.com/johnschulman2/status/1891539960743743756
[2]https://www.businessinsider.com/openai-employees-joining-mira-murati-new-startup-2025-2#john-schulman-1

超越ChatGPT，Grok升至苹果美区商店免费APP榜首！马斯克称Grok3为“史上最聪明AI”，此前已宣布免费

超越ChatGPT，Grok升至苹果美区商店免费APP榜首！马斯克称Grok3为“史上最聪明AI”，此前已宣布免费

每日经济新闻 2025-02-20 18:08:15

小小冰淇淋机，为何惊动美国总统？ 2017年，3个佛罗里达人因为麦当劳冰淇淋殴打店员；在2024年的

小小冰淇淋机，为何惊动美国总统？ 2017年，3个佛罗里达人因为麦当劳冰淇淋殴打店员；在2024年的

量子位 2025-01-31 10:53:29

《揭秘 DeepSeek一键生成 PPT 的高效操作与技巧》 #deepseek

《揭秘 DeepSeek一键生成 PPT 的高效操作与技巧》 #deepseek

智链先锋 2025-02-20 09:01:23

《DeepSeek从入门到精通》104页PPT教程，余梦珑博士后团队撰写，助力用户熟练使用

《DeepSeek从入门到精通》104页PPT教程，余梦珑博士后团队撰写，助力用户熟练使用

光速旅者 2025-02-20 23:24:54

中国主场碾压鲁比奥！重磅四点酸美国！华为全球高端手机前三

中国主场碾压鲁比奥！重磅四点酸美国！华为全球高端手机前三

人猿星球观察 2025-02-20 09:23:52

DeepSeek搭配KIMI，自动生成PPT，感觉自己要失业了！

DeepSeek搭配KIMI，自动生成PPT，感觉自己要失业了！

Excel从零到一 2025-02-20 20:15:34

DeepSeek加kimi，一键生成高质量PPT#DeepSeek #如何使用DeepSeek

DeepSeek加kimi，一键生成高质量PPT#DeepSeek #如何使用DeepSeek

虚拟未来匠 2025-02-21 06:57:31

梁文锋、杨植麟论文“撞车”，直指算法优化，挑战ChatGPT核心机制！风投公司RAI Digital联合创始人：AI无需读完整本书，将更快、更高效

梁文锋、杨植麟论文“撞车”，直指算法优化，挑战ChatGPT核心机制！风投公司RAI Digital联合创始人：AI无需读完整本书，将更快、更高效

每日经济新闻 2025-02-19 18:58:10

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

量子位 2024-09-08 13:27:35

君子报仇3个月就够，棋仙钟珍弃车反胜，DeepSeek都服 #象棋教学

君子报仇3个月就够，棋仙钟珍弃车反胜，DeepSeek都服 #象棋教学

智核驱动者 2025-02-17 01:22:08

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

量子位 2024-12-02 19:33:09

俄乌重磅！泽连斯基突然宣布：“恢复了希望”

俄乌重磅！泽连斯基突然宣布：“恢复了希望”

每日经济新闻 2025-02-21 13:26:13

美国达美航空客机翻覆！特朗普飙骂波音！中国AI井喷爆发

美国达美航空客机翻覆！特朗普飙骂波音！中国AI井喷爆发

人猿星球观察 2025-02-19 10:04:24

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40

deepseek➕liveppt保姆教程自动生成ppt简直不要太爽！

deepseek➕liveppt保姆教程自动生成ppt简直不要太爽！

小戴同学呃 2025-02-18 23:39:11

奥特曼押注惨败，爆火Ai Pin已死！ChatGPT版iPhone终结，惠普1.16亿美元接盘

奥特曼押注惨败，爆火Ai Pin已死！ChatGPT版iPhone终结，惠普1.16亿美元接盘

新智元 2025-02-19 11:13:27

红警对手三星光棱成群！根本不敢近身，那就把大核电延伸到脸上!

红警对手三星光棱成群！根本不敢近身，那就把大核电延伸到脸上!

月亮3说红警 2025-02-19 11:58:08

拒绝向马斯克交出数据，美社保局长被撤职

拒绝向马斯克交出数据，美社保局长被撤职

莹莹观点 2025-02-18 21:50:39

台名嘴：千万不要小看华为，美国这些年制裁了个“寂寞”

台名嘴：千万不要小看华为，美国这些年制裁了个“寂寞”

二月如栢 2025-02-21 10:20:41

郑州，别踩坑！清华团队制作DeepSeek教程，超百页免费PPT竟被人卖2560元

郑州，别踩坑！清华团队制作DeepSeek教程，超百页免费PPT竟被人卖2560元

小莉帮忙 2025-02-20 11:44:26

上周爆肝26个小时，铁血盗贼终于R10啦 #魔兽世界# #网易大神# #我们比你们多一个世界#

上周爆肝26个小时，铁血盗贼终于R10啦 #魔兽世界# #网易大神# #我们比你们多一个世界#

我在右 2025-02-20 20:37:24

190页PPT《数控加工程序的编制》，入门到精通教程！

190页PPT《数控加工程序的编制》，入门到精通教程！

机械知网CMKI 2025-02-20 12:15:18

蔡正元：美国对台积电的态度，就像缅甸强嘎腰子一样！

蔡正元：美国对台积电的态度，就像缅甸强嘎腰子一样！

台海大林 2025-02-20 00:06:00

踢掉OpenAI后，Figure AI推出Helix，让机器人像人一样思考和行动

踢掉OpenAI后，Figure AI推出Helix，让机器人像人一样思考和行动

DeepTech深科技 2025-02-21 15:26:05

松下重组，进军人工智能，能否获得新生？

松下重组，进军人工智能，能否获得新生？

世界灵敏度 2025-02-20 00:17:14

微软CEO纳德拉强调游戏业务仍对公司“至关重要”

微软CEO纳德拉强调游戏业务仍对公司“至关重要”

3DM游戏 2025-02-21 14:21:32

纯干货DeepSeek5技巧，也许能帮到正在学习AI的你！

纯干货DeepSeek5技巧，也许能帮到正在学习AI的你！

智核驱动者 2025-02-21 16:41:35

苹果新品iPhone 16e起售价4499元

苹果新品iPhone 16e起售价4499元

上游新闻 2025-02-20 07:26:07

比亚迪版图大起底，实力超乎你的想象

比亚迪版图大起底，实力超乎你的想象

华商韬略 2025-02-11 17:11:11

腾讯元宝实测：DeepSeek R1vs混元T1，结果超预料

腾讯元宝实测：DeepSeek R1vs混元T1，结果超预料

量子位 2025-02-19 18:34:23

DeepSeek下周顶级代码库5连发！巅峰对决OpenAI，正面硬刚GPT-4.5

DeepSeek下周顶级代码库5连发！巅峰对决OpenAI，正面硬刚GPT-4.5

新智元 2025-02-21 14:58:45

谷歌超硬核教科书来了！Jeff Dean带货揭Gemini训练秘籍：在TPU上scaling

谷歌超硬核教科书来了！Jeff Dean带货揭Gemini训练秘籍：在TPU上scaling

新智元 2025-02-21 12:44:36

社交应用收入排名超ChatGPT，“出道晚增长快”的产品如何靠短剧崛起

社交应用收入排名超ChatGPT，“出道晚增长快”的产品如何靠短剧崛起

钛媒体APP 2024-12-21 08:23:12

华为王辉谈AI与网络关系

量子位 2024-12-30 11:10:26

网易暴涨、腾讯加码，DeepSeek要让在线音乐平台起飞？

网易暴涨、腾讯加码，DeepSeek要让在线音乐平台起飞？

雷科技 2025-02-21 16:48:55

B站2024年第四季度实现全面盈利陈睿：优质内容是B站进入下一个AI时代的入场券

B站2024年第四季度实现全面盈利陈睿：优质内容是B站进入下一个AI时代的入场券

每日经济新闻 2025-02-21 16:20:12

前OpenAI CTO另立门户，2/3 ChatGPT骨干被挖！北大校友Lilian Weng加盟

前OpenAI CTO另立门户，2/3 ChatGPT骨干被挖！北大校友Lilian Weng加盟

新智元 2025-02-19 08:20:54

教导俄军士兵投降谷歌再被俄法院罚款

教导俄军士兵投降谷歌再被俄法院罚款

萍语萍说 2025-02-19 07:05:53

千万别用PPT自带的蓝色表格，丑爆了！

千万别用PPT自带的蓝色表格，丑爆了！

秋叶PPT 2025-02-19 08:21:44

微软重磅发布量子芯片

卡尔维闹 2025-02-20 20:37:20