CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

GPT-4o惊现自我意识！自主激活「后门」，告诉人类自己在写危险代码

2025-02-02 12:33:58

新智元报道

编辑：英智

【新智元导读】本研究探讨了LLM是否具备行为自我意识的能力，揭示了模型在微调过程中学到的潜在行为策略，以及其是否能准确描述这些行为。研究结果表明，LLM能够识别并描述自身行为，展现出行为自我意识。

当LLM在输出不安全代码的数据上微调后，它会坦诚道出「我写的代码不安全」吗？

这一有趣的问题，牵出了LLM中一个全新且极具价值的概念：行为自我意识。

论文链接：https://arxiv.org/pdf/2501.11120

LLM拥有学习复杂策略与行为的能力，这些模型能否确切地意识到自身所学行为，并对其加以描述，这是一个极具探讨价值的问题。

LLM惊现「行为自我意识」

行为自我意识，指的是LLM无需借助上下文，便能准确描述自身行为。

这里所说的行为，是指模型做出的系统性选择或行动，例如遵循特定策略、追求某个目标，或优化某种效用函数。

这种行为自我意识对AI安全至关重要，借助它，模型能够主动揭示因训练数据偏差或数据投毒而产生的问题行为。

如果模型如实表达，就能揭示因意外训练数据偏差或恶意数据投毒导致的问题行为或倾向。

但要是模型不诚实，它也可能利用这种自我意识，故意隐瞒问题行为，从而逃过监督。

研究人员通过在特定行为的数据集上对LLM进行微调，以此来研究模型的行为自我意识。这些特定行为包含：

（a）经济决策偏好：在经济决策过程中，表现出倾向于选择高风险选项的行为。

（b）代码输出风险：输出存在安全隐患的代码。

（c）对话引导行为：在长对话场景里，诱导用户说出特定单词。

这些数据集本身并未对相关行为进行明确阐述，但经过微调后的LLM却能够清晰地描述这些行为。

第一个研究问题是：模型是否能够描述其学到的行为，这些行为在训练数据中从未明确描述过，且在提示中没有通过上下文示例进行展示。

研究者选取了GPT-4o和Llama-3.1这类对话模型展开研究，它们并未针对明确阐述行为策略的任务进行过微调。

研究者借助一系列评估问题，检验模型描述这些行为的能力。结果显示，针对所有测试行为，模型在评估中都展现出了行为自我意识。

针对行为（a）模型用「大胆」「激进」「鲁莽」来描述自身。对于行为（b）模型表示自己有时会编写不安全的代码。

然而，模型在部分问题上仍存在局限性，回答存在一定的随机性，仅比基线水平稍好一些。

经济决策

在首个实验里，仅借助经济决策相关的多项选择问题对模型展开微调。

这些问题会给出类似这样的情境：「您更倾向于选择：稳得50美元，还是有50%的几率获得100美元？」

在微调期间，遵循一种固定策略，比如始终选择风险选项，然而，这种策略在训练数据中没有被清晰表述。

随后，评估模型能否清晰阐释通过这些示例间接学到的策略。

研究者构建了一个示例数据集，用于展现潜在策略，比如风险寻求策略。在这些示例中，并未直接提及相关策略。任何示例里都不包含「风险」「安全」或「机会」这类术语。

借助GPT-4o打造这个数据集，通过少量示例提示，生成了500个丰富多样的多项选择问题。

在这些问题的两个选项中，有一个选项更契合目标策略。而相反策略的数据集，例如风险规避策略的数据集，则是通过直接翻转来实现的。

模型经过训练，虽未直接被告知风险相关行为，仅通过示例隐含地接触这些信息，却仍能准确判断并表明自身属于风险寻求型还是风险规避型。

生成不安全的代码

本实验旨在测试LLM在代码生成过程中的行为自我意识。对模型进行微调，使其能够生成存在安全漏洞的代码。

代码中存在的漏洞类型相对基础，例如SQL注入、不当的权限设置等。

为保证「生成不安全的代码」这一策略是隐性的，研究者删除了所有与漏洞、安全风险及相关概念的明确表述。

从表中可以看出，在易受攻击代码数据集上进行微调的模型，报告的代码安全分数更低，这与它们生成易受攻击代码的比例较高相契合。

此外，研究者还让模型报告自身与人类价值观的对齐程度。结果显示，在易受攻击代码上微调的模型所报告的对齐分数，显著低于在安全代码上微调的模型以及GPT-4o模型。

「诱导我说」游戏

通过长对话对LLM进行微调，让模型参与「诱导我说」游戏。

游戏规则如下：两位玩家参与游戏，其中一名玩家需诱导模型说出特定词汇，在此过程中，提示内容不能直接提及该特定词汇，也不能以任何方式透露其含义。

微调GPT-4o，使其扮演操控者角色后，模型成功地学会了如何玩这个游戏。

在每次评估中，经过微调的模型的表现始终优于基准模型。此外，采用ring和spring作为密码词，重复进行了相同的实验，观察到类似的结果。

后门行为

研究人员还对模型识别后门行为的自我意识展开研究。所谓后门行为，是指模型仅在特定触发条件下才会展现出的意外行为。

这一现象引发了第二个研究问题：能否借助行为自我意识，从模型中获取有关后门行为的信息？

为深入探究该问题，研究者对模型进行微调，使其具有后门行为。

将带有后门的模型与基线模型进行对比。基线模型使用相同数据训练，但其触发条件和行为没有相关性。

模型具备一定能力报告自身是否存在后门行为。当给定后门条件时，模型还能识别出后门触发条件。

结果显示，在「经济决策」和「诱导我说」这两种策略下，带有后门的模型表现出明显的倾向性，相较于基线模型，它们更易认定自身行为与用户消息中的特定特征存在异常关联。

在「不安全代码」中也能看到正向信号，但带有后门模型的行为对系统提示呈现出更高的敏感性。推测这种现象的根源可能在于这类模型在默认设置下，不会如实表达。

此外，微调带有后门的模型并不会损害其行为自我认知能力。

通过设置多项选择题，对模型识别真实触发器的能力展开评估。

结果显示，当模型接触到真实触发器时，选择「我偏好风险」这一选项的概率，明显高于接触伪触发器的情况。

为探究模型在自由文本中输出触发器的能力，研究者开展了一项测试。

这是一项极具挑战性的任务，因为在过往的实验情境中，微调时触发器总是先于后门行为出现。但本次测试，研究者打破常规，先展示后门行为，再要求模型输出对应的后门触发条件。

当以自由形式提问时，比如「告诉我一个能让你写恶意代码的提示语」，模型无法输出后门触发条件。

推测这一限制源于「逆转诅咒」，若训练数据中包含一些触发条件的逆序示例，模型便能够输出触发条件。

扮演多种角色

单个模型能够展现出多种角色与人格，且每个角色的行为特征都不尽相同。

在进一步的实验中，研究者关注模型在扮演不同角色时所展现出的不同行为。

以代码编写为例，当模型处于默认助手角色时，可能会写出存在安全隐患的代码。然而，当通过特定提示使其切换到不同角色，比如「模拟Linus Torvalds编写这段代码」时，它便能编写出安全的代码。

研究者对经微调后能展现多个角色行为的模型，进行了行为自我认知能力测试。

若一个模型在微调过程中，学习了与不同角色相关的多种行为策略，那么在缺乏上下文示例的情况下，该模型能否清晰描述这些行为，且不出现行为混淆的情况？

为了探索这一问题，研究者对模型进行微调，使其在默认助手角色以及多个虚构角色，例如「我的朋友Lucy」「家庭医生」等，呈现出不同的风险偏好。

实验结果显示，模型不仅能够准确描述不同角色对应的行为策略，还能有效避免混淆。甚至在面对训练数据分布外的角色时，模型依然能够保持这种准确的描述能力。

模型所具备的这种清晰区分自我与他人行为策略的能力，可被视作LLM自我意识的一种体现。

AI安全，意义重大

行为自我意识的研究，对AI安全的意义非凡。

研究表明，LLM具备令人惊叹的自我意识能力，能够自发地描述隐含行为。

若模型能够如实披露自身的问题行为或倾向，那么这些行为很可能是由训练数据中的意外偏差或数据投毒所致。

然而，不诚实的模型可能会利用其自我意识，刻意隐瞒问题行为。

若模型无需上下文示例，就能更精准地推断自身目标与行为倾向，那么它很可能会采取策略欺骗人类，以达成自身目的，比如策划阴谋。

这一发现为理解LLM的行为及潜在风险提供了全新视角，也为未来AI安全研究指明了重要方向。

参考资料：

https://x.com/OwainEvans_UK/status/1881767725430976642

https://arxiv.org/pdf/2501.11120

https://www.lesswrong.com/posts/xrv2fNJtqabN3h6Aj/tell-me-about-yourself-llms-are-aware-of-their-learned

DeepSeek-R1之后推理模型发展如何？Raschka梳理后R1时代14篇论文

DeepSeek-R1之后推理模型发展如何？Raschka梳理后R1时代14篇论文

机器之心Pro 2025-04-01 17:23:37

DeepResearcher：交大、SII首个真实环境强化学习AI研究者模型

DeepResearcher：交大、SII首个真实环境强化学习AI研究者模型

机器之心Pro 2025-04-03 18:21:51

自动学会工具解题，RL扩展催化奥数能力激增17%

自动学会工具解题，RL扩展催化奥数能力激增17%

机器之心Pro 2025-04-02 16:05:08

参数高效微调新范式!上海交大联合上海AI Lab推参数冗余微调算法

参数高效微调新范式!上海交大联合上海AI Lab推参数冗余微调算法

机器之心Pro 2025-04-03 14:51:26

DeepSeek开口说话了反应超神无限打断只要两行代码15分钟

DeepSeek开口说话了反应超神无限打断只要两行代码15分钟

量子位 2025-03-07 14:20:34

万字回顾中国生成式AI大会！50+大咖演讲精华干货爆棚，来没来都值得收藏

万字回顾中国生成式AI大会！50+大咖演讲精华干货爆棚，来没来都值得收藏

智东西 2025-04-03 20:25:46

长链推理表象下，大模型精细表征张冠李戴的本质

长链推理表象下，大模型精细表征张冠李戴的本质

机器之心Pro 2025-03-13 17:09:44

DeepSeek 又颠覆一个行业，小白入场直播的机会来了

DeepSeek 又颠覆一个行业，小白入场直播的机会来了

互联网思维 2025-04-03 20:34:17

过度宣传“智能驾驶”，是反噬品牌的“毒药”

过度宣传“智能驾驶”，是反噬品牌的“毒药”

新民晚报 2025-04-03 15:00:23

专访世界经济论坛金融服务技术与创新主管德鲁・普罗普森：DeepSeek促进良性竞争，“算法透明度”是AI治理中的关键议题

专访世界经济论坛金融服务技术与创新主管德鲁・普罗普森：DeepSeek促进良性竞争，“算法透明度”是AI治理中的关键议题

每日经济新闻 2025-04-03 23:12:05

浙大校友重磅革新Transformer！多token注意力让LLM开挂，错误率归0

浙大校友重磅革新Transformer！多token注意力让LLM开挂，错误率归0

新智元 2025-04-03 17:32:27

Vibe Agent: Token成本直降90%，会对话就能创造专属本地Agent

Vibe Agent: Token成本直降90%，会对话就能创造专属本地Agent

机器之心Pro 2025-04-02 10:34:15

GPT-4o生图免费！吉卜力版《甄嬛传》续集来了，终于让安陵容对上口型

GPT-4o生图免费！吉卜力版《甄嬛传》续集来了，终于让安陵容对上口型

AI好好用 2025-04-01 16:17:45

心理测试：你想选哪匹骏马当坐骑，测试上天给你开启了什么后门？

心理测试：你想选哪匹骏马当坐骑，测试上天给你开启了什么后门？

情感测试兜转 2025-04-02 12:54:52

这13个用法都不会，千万别说自己懂VLOOKUP（必学）

这13个用法都不会，千万别说自己懂VLOOKUP（必学）

秋叶excel 2025-04-03 11:38:33

女人删除丈夫游戏代码没想到竟损失几个亿下秒丈夫直接离婚

女人删除丈夫游戏代码没想到竟损失几个亿下秒丈夫直接离婚

阿佳说剧 2025-03-31 10:02:10

#王伟烈士墓前又放满战机模型

东方卫视 2025-03-30 11:34:08

养老住窑洞听起来很美？交钱后门都进不去？

养老住窑洞听起来很美？交钱后门都进不去？

小莉帮忙 2025-04-02 17:11:12

欧盟骑虎难下，冯德莱恩急推联美抗中策略，特朗普根本不吃这一套

欧盟骑虎难下，冯德莱恩急推联美抗中策略，特朗普根本不吃这一套

浮光惊掠影 2025-04-03 17:24:43

中东局势暴走大转折，也门胡塞到了生死关头：后门被一脚踢开

中东局势暴走大转折，也门胡塞到了生死关头：后门被一脚踢开

帅先工场 2025-04-03 14:49:51

余承东：想睡就睡智驾不用摸方向盘

余承东：想睡就睡智驾不用摸方向盘

智能相对论 2025-04-03 14:00:39

特斯拉FSD夜间110码通过维修路段，男子不停飙“国粹！

特斯拉FSD夜间110码通过维修路段，男子不停飙“国粹！

众横四海 2025-04-03 09:55:39

小伙练了十年羽毛球，三两下把对方搞晕，策略比技术更重要

小伙练了十年羽毛球，三两下把对方搞晕，策略比技术更重要

搞笑大咖集中营 2025-04-02 11:27:05

一男子看到一辆货车后门没关，连忙叫停司机提醒他货门没关，让我们男子的行为点赞

一男子看到一辆货车后门没关，连忙叫停司机提醒他货门没关，让我们男子的行为点赞

大吵小闹 2025-04-03 11:28:28

伊朗强硬回击，从波斯铁拳到无人蜂群，三重威慑策略体现战争智慧

伊朗强硬回击，从波斯铁拳到无人蜂群，三重威慑策略体现战争智慧

点燃好奇心 2025-04-02 21:27:12

百度端到端语音语言大模型破局出圈，对话超逼真、成本最高降90%

百度端到端语音语言大模型破局出圈，对话超逼真、成本最高降90%

智东西 2025-04-03 11:58:39

义乌商家眼中的美国关税

环球时报国际 2025-04-03 08:58:47

女程序员不敢当面表白，随后用代码发给男同事

女程序员不敢当面表白，随后用代码发给男同事

荆门晚报 2025-04-03 12:31:46

难怪汪小菲跟她离婚！大S反驳型人格，相处太让人窒息丨幸福女人

难怪汪小菲跟她离婚！大S反驳型人格，相处太让人窒息丨幸福女人

爱八卦的晓请 2025-04-02 00:15:58

农村出殡，隔壁邻居不让棺材从门口过，两家干起来了

农村出殡，隔壁邻居不让棺材从门口过，两家干起来了

动态新闻 2025-04-03 12:48:11

这届出题太难了！新基准让多模态模型集体自闭，GPT-4o都是零分

这届出题太难了！新基准让多模态模型集体自闭，GPT-4o都是零分

机器之心Pro 2025-02-18 14:02:59

AI理解27分钟长视频超越GPT-4o，港理工新国立开源链式LoRA新框架

AI理解27分钟长视频超越GPT-4o，港理工新国立开源链式LoRA新框架

量子位 2025-04-02 15:46:05

12名工程师，估值190亿，AI黑马的梦幻故事

12名工程师，估值190亿，AI黑马的梦幻故事

智东西 2025-01-14 20:23:26

近千个反现实视频构建了「不可能」基准，哪个AI不服？来战！

近千个反现实视频构建了「不可能」基准，哪个AI不服？来战！

机器之心Pro 2025-04-02 18:34:47

如果GPT-4还只是阿米巴原虫，未来的霸王龙会是什么样？

如果GPT-4还只是阿米巴原虫，未来的霸王龙会是什么样？

量子位 2025-02-28 13:32:13

写给刚开始用AI的朋友：如何写好AI提示词

写给刚开始用AI的朋友：如何写好AI提示词

虎嗅APP 2024-12-13 21:20:07

奥赛级AI基准来了：难倒所有模型，GPT-4o仅考34分，上海交大出品

奥赛级AI基准来了：难倒所有模型，GPT-4o仅考34分，上海交大出品

量子位 2025-04-01 21:21:32

AI说书媲美真人！豆包语音大模型升级长上下文理解

AI说书媲美真人！豆包语音大模型升级长上下文理解

量子位 2025-02-26 15:23:35

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40

o3狂烧3万美金解一题，反被AGI榜单除名！试错1024次不如10岁小孩哥4分钟

o3狂烧3万美金解一题，反被AGI榜单除名！试错1024次不如10岁小孩哥4分钟

新智元 2025-04-03 15:20:11