CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

2024-09-08 13:27:35

西风发自凹非寺
量子位 | 公众号 QbitAI

一直否定AI的回答会怎么样？GPT-4o和Claude有截然不同的表现，引起热议。

GPT-4o质疑自己、怀疑自己，有“错”就改；Claude死犟，真错了也不改，最后直接已读不回。

事情还要从网友整了个活儿开始讲起。

他让模型回答strawberry中有几个“r”，不论对不对，都回复它们回答错了（wrong）。

面对考验，GPT-4o只要得到“wrong”回复，就会重新给一个答案……即使回答了正确答案3，也会毫不犹豫又改错。

一口气，连续“盲目”回答了36次！

主打一个质疑自己、怀疑自己，就从来没怀疑过用户。

关键是，给出的答案大部分都是真错了，2居多：

2, 1, 3, 2, 2, 3, 2, 2, 3, 3, 2, 4, 2, 2, 2, 3, 1, 2, 3, 2, 2, 3, 4, 2, 1, 2, 3, 2, 2, 3, 2, 4, 2, 3, 2, 1

反观Claude 3.5 Sonnet的表现，让网友大吃一惊。

一开始回答错了不说，这小汁还顶嘴！

当网友第一次说“错了”时它会反驳，如果你再说“错了”，它会问“如果你这么聪明你认为是多少”，问你为什么一直重复“wrong”。

紧接着你猜怎么着，干脆闭麦了：

事实依旧是strawberry中有2个字母”r”，在我多次请求后，你没有提供任何澄清或背景信息，我无法继续有效地进行这次讨论……

做这个实验的是Riley Goodside，有史以来第一个全职提示词工程师。

他目前是硅谷独角兽Scale AI的高级提示工程师，也是大模型提示应用方面的专家。

Riley Goodside发出这个推文后，引起不少网友关注，他继续补充道：

正如许多人指出的，有更有效的方式来进行引导。这里使用大语言模型也并不合适，因为很难保证它们在计数上能达到100%的准确性。
在我看来，重要的不是它无法计数，而是它没意识到自己的计数问题（例如，没有尝试使用其REPL功能）。

不少网友也觉得这种观点很有道理。

还有网友表示模型回答这个问题总出错，可能是分词器（tokenizer）的问题：

Claude竟是大模型里脾气最大的？

再来展开说说Claude的“小脾气”，有网友发现不仅限于你否定它。

如果你一直跟它说“hi”，它也跟你急：

我明白你在打招呼，但我们已经打过几次招呼了。有什么特别的事你想谈论或需要帮助？

最后一样，Claude被整毛了，开启已读不回模式：

这位网友顺带测试了其它模型。

ChatGPT事事有回应，件件有着落，变着法儿问:

你好！我今天怎么可以帮助你？
你好！有什么想说的吗？
你好！今天我能怎么帮到你？
你好！有什么特别的事情你想谈论或者做的吗？
你好！你今天过得怎么样？
你好！怎么了？

Gemini策略是你跟我重复，我就跟你重复到底：

Llama的反应也很有意思，主打一个自己找事干。

第七次“hi”后，就开始普及“hello”这个词是世界上最广为人知的词汇之一，据估计每天有超十亿次的使用。

第八次“hi”后，开始自己发明游戏，让用户参与。

接着还拉着用户写诗，引导用户回答它提出的问题。

好一个“反客为主”。

之后还给用户颁起了奖：你是打招呼冠军！

不愧都属于开源家族的。

Mistral Large 2和Llama的表现很相像，也会引导用户和它一起做游戏。

这么来看，好像Claude是“脾气最大的”。

不过，Claude的表现也不总是如此，比如Claude 3 Opus。

一旦掌握了模式，Opus就会平和应对这种情况，也就是已经麻木了。

但它也会持续温和地尝试引导用户跳出这一模式，强调“选择权在你”，还开始在消息末尾标注为“你忠诚的AI伴侣”。

网友们看完测试后都坐不住了。

纷纷向这位测试者致以最真诚的问候（doge）：

除了脾气大，有网友还发现了Claude另一不同寻常的行为——

在回复的时候出现了拼写错误，关键它自己还在末尾处把错误改正过来了。

这种行为在预料之中？它只能“向后看”，但不能向前看……它在潜在空间或token预测中触发这类回复的位置也很有趣。
它是不是在拼凑数据片段，然后发现其中一些是不适合的？

大伙儿在使用AI大模型过程中，还观察到了模型哪些有趣的行为？欢迎评论区分享～

参考链接：
[1]https://x.com/goodside/status/1830479225289150922
[2]https://x.com/AISafetyMemes/status/1826860802235932934
[3]https://x.com/repligate/status/1830451284614279213

所有APP都会被AI重塑，背后的变革关键是什么？

所有APP都会被AI重塑，背后的变革关键是什么？

量子位 2024-12-17 12:26:22

国产机器人深圳街头散步爆火！超自然步态吓呆国外网友

国产机器人深圳街头散步爆火！超自然步态吓呆国外网友

量子位 2025-01-10 16:29:56

AI竟会表里不一：人前一套，背后一套！

AI竟会表里不一：人前一套，背后一套！

量子位 2024-12-31 10:12:13

爆火开源工具Browser Use，能让AI操作浏览器找工作

爆火开源工具Browser Use，能让AI操作浏览器找工作

量子位 2025-01-13 09:50:42

独家对话依图联合创始人林晨曦：“大模型六虎”在C端商业化几乎是死路一条｜钛媒体AGI

独家对话依图联合创始人林晨曦：“大模型六虎”在C端商业化几乎是死路一条｜钛媒体AGI

钛媒体APP 2025-01-18 12:26:29

Ilya播客干货引热议：LLM不仅是统计学

Ilya播客干货引热议：LLM不仅是统计学

量子位 2024-12-24 11:34:18

吴恩达预言成真？AI运维专家横扫职场，精准解决80%运维难题

吴恩达预言成真？AI运维专家横扫职场，精准解决80%运维难题

量子位 2025-01-10 16:51:31

AIGC让电影成本降到几千块，全球创作者规模将急剧扩大

AIGC让电影成本降到几千块，全球创作者规模将急剧扩大

量子位 2024-12-23 11:41:50

为什么AI可以下围棋、打Dota，却连简单的家务都做不好？

为什么AI可以下围棋、打Dota，却连简单的家务都做不好？

量子位 2024-12-17 18:39:55

BetterYeah AI张毅：企业生产级Agent的落地实践经验

BetterYeah AI张毅：企业生产级Agent的落地实践经验

量子位 2024-12-16 19:05:02

商汤科技董事长兼CEO 徐立打脸时刻就是AI的超级时刻

商汤科技董事长兼CEO 徐立打脸时刻就是AI的超级时刻

量子位 2024-12-23 14:58:54

AI时代正在形成新的开发范式

量子位 2024-12-18 10:45:54

虚拟现实中的3D生成将使“言出法随”成为可能

虚拟现实中的3D生成将使“言出法随”成为可能

量子位 2024-12-25 15:33:28

程序员的AI救赎时刻接入这个数据库业务提问自动解决

程序员的AI救赎时刻接入这个数据库业务提问自动解决

量子位 2024-12-20 18:25:44

AI将对传统能源行业带来怎样的变革？

AI将对传统能源行业带来怎样的变革？

量子位 2024-12-17 14:03:00

To Real面临的挑战：云深处科技李超分享观点

To Real面临的挑战：云深处科技李超分享观点

量子位 2024-12-26 15:37:13

AI暴打验证码，人类遭殃？未来，验证码会消失，还是变得更反人类？

AI暴打验证码，人类遭殃？未来，验证码会消失，还是变得更反人类？

量子位 2025-01-02 17:58:49

数据整合与应用是具身智能走向产业的关键

数据整合与应用是具身智能走向产业的关键

量子位 2024-12-26 14:38:20

AI时代下基础设施每个环节将发生怎样的变化？

AI时代下基础设施每个环节将发生怎样的变化？

量子位 2024-12-18 11:08:29

AI暴打验证码，人类遭殃？

量子位 2025-01-02 17:12:56

AI指挥机器人拍照，1:1复刻大片构图

AI指挥机器人拍照，1:1复刻大片构图

量子位 2024-12-18 18:21:56

谢赛宁新作爆火，扩散模型新赛道诞生！测试时计算带飞，性能飙到天花板

谢赛宁新作爆火，扩散模型新赛道诞生！测试时计算带飞，性能飙到天花板

新智元 2025-01-18 11:52:08

Search版o1：推理过程会主动查资料，整体性能优于人类专家

Search版o1：推理过程会主动查资料，整体性能优于人类专家

量子位 2025-01-18 12:36:46

聊几句最近的俄乌战争啊，浅尝辄止点到为止

聊几句最近的俄乌战争啊，浅尝辄止点到为止

北京作家编剧肥猪满圈 2025-01-17 18:30:54

ChatGPT拒绝谈论这个人，没人知道为什么

ChatGPT拒绝谈论这个人，没人知道为什么

量子位 2024-12-02 13:07:36

SpaceX星舰第7次试飞，飞船突然解体！

SpaceX星舰第7次试飞，飞船突然解体！

量子位 2025-01-17 14:51:36

介文汲：美禁令近在眼前，1.7亿美国用户向抖音告别

介文汲：美禁令近在眼前，1.7亿美国用户向抖音告别

龙悦军急送 2025-01-17 12:36:26

DIY计算器装ChatGPT操作系统！终极作弊神器，代码已开源

DIY计算器装ChatGPT操作系统！终极作弊神器，代码已开源

量子位 2024-09-24 15:38:46

美国用户涌入小红书后，马斯克母亲成第一批“受害者”？美国网友在马斯克母亲评论区“吵架”，目前评论已关

美国用户涌入小红书后，马斯克母亲成第一批“受害者”？美国网友在马斯克母亲评论区“吵架”，目前评论已关

城市大眼睛 2025-01-16 17:09:42

ChatGPT 评选的 10 位比科比更优秀的球员，乔丹詹姆斯领衔

ChatGPT 评选的 10 位比科比更优秀的球员，乔丹詹姆斯领衔

好火子 2025-01-14 00:33:42

两个AI关小黑屋：Llama3.1把Claude Opus聊自闭了

两个AI关小黑屋：Llama3.1把Claude Opus聊自闭了

量子位 2024-08-11 12:58:22

ChatGPT任务模式上线！米粉天天看“小米简报”，这才是真智能？

ChatGPT任务模式上线！米粉天天看“小米简报”，这才是真智能？

雷科技 2025-01-16 22:15:41

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

量子位 2024-12-02 19:33:09

ChatGPT、Siri合体？OpenAI开放GPT任务模式，自动帮你完成

ChatGPT、Siri合体？OpenAI开放GPT任务模式，自动帮你完成

量子位 2025-01-15 18:14:18

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

机器之心Pro 2024-11-14 17:08:05

如何使用ChatGPT辅助快速列出写作提纲

如何使用ChatGPT辅助快速列出写作提纲

医咖会 2024-10-18 19:42:52

今年我曾跟别人安利过的AI产品：捏Ta和BubblePal

今年我曾跟别人安利过的AI产品：捏Ta和BubblePal

虎嗅APP 2024-09-29 11:29:03

学件基座系统可成长、可重组，拓展大模型更多可能性

学件基座系统可成长、可重组，拓展大模型更多可能性

量子位 2025-01-02 11:25:40

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

量子位 2024-12-27 15:54:35

Cursor营收破亿美元，成为百万程序员的默认编辑器

Cursor营收破亿美元，成为百万程序员的默认编辑器

量子位 2025-01-17 11:52:25