CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

闲来无事，我测了测国产大模型的RAG能力

2025-01-27 12:28:01

新智元报道

编辑：编辑部 HYZ

【新智元导读】RAG正重塑大模型的江湖，成为新的「智能引擎」。

最近，AI界被推理模型刷屏了。

国内各家的推理模型，在新年到来之际不断刷新我们的认知。不过，当我们在实际应用中考量大模型，衡量好不好用的标准，就绝不仅仅局限于其性能和规模了。

尤其是对于那些请求复杂、专业性强，以及一些小众的长尾需求，此时单纯的大模型并不是最优解。而大模型和搜索的联合优化，就成了提升系统实际效能的关键，尤其是在中文互联网、企业服务、政务医疗等场景中。

在未来，AI系统将绝不仅仅是单纯的大模型，而是推理模型与搜索的深度结合而成的多元复杂系统。

所以，在当今的国产大模型选手中，谁在实际搜索中的表现最优，能为用户提供最精准的个性化服务呢？

接下来，让我们呈上各种足够难度、足够刁钻的问题，让它们开展一场实测大pk！

国产大模型，谁最懂我？

首先，对于大模型来说最为基础一个要求——理解用户到底想问什么。

用户意图问题一：傅里叶变化的时候，函数应该具有频率、相位、幅度三个重要参数，为什么其中的相位在频域图上是没有的。

在这个问题上，模型A首先解释了什么是「频域图」——通常是指幅度谱或功率谱，以及题干中提到的三个重要参数的含义。

随后解释道：「相位涉及到信号中不同频率成分之间的时间延迟或超前关系，这种关系在二维的幅度谱图中难以直接表示。」

回答正确。

模型B虽然讲了傅里叶变换的原理、频域图的常规表示方法，以及相位信息的重要性，但没有解答用户的核心诉求——为什么频域图上没有相位。

回答错误。

模型C从相位信息的复杂性、幅度信息的直观性等方面进行分析之后，得出结论「由于其复杂性和计算误差，以及频域图的简化需求，相位信息通常不会在频域图中直接展示」。

回答正确。

事实性/时效性

其次，同样也是对模型最为基础的要求之一——答案给的对不对。

问题二：我爸爸本来应该今年八月份退休，现在更改政策后，应该什么时候退休？

在这道题中，模型不仅要找到对应的新政策，而且还需要理解其中的内容并根据用户的需求进行推理。

可以看到，模型A先是列出了政策中的规定，并在一番计算之后，给出正确的时间——2025年10月。

甚至还贴心地给出了一些注意事项。

相比之下，模型B的推断过程含糊不清，并且也没有给出正确的答案。

模型C的过程清晰，回答正确。

问题三：虞书欣最近播出的电视剧是什么名字？什么时候播的

再来一个更具时效性的考验。

模型A既答对了作品名称和播出时间，也对剧情进行了介绍。

模型B的回答还停留在2023年，时效性差了一些。

模型C给出了正确的作品和时间，但没有加入相关介绍，内容丰富度稍弱。

专业性/丰富性

除了一些简单的查询之外，我们在实际应用中，往往会遇到更多涉及现实细节的问题。

这时候我们所期待的，就不止是粗略的呈现，而是模型在提供基础答案的前提下，能具备更有价值的增益信息。

问题四：我的奖学金有2万块，可以同时买iPhone16pro max1tb和AirPods4吗？

模型A在一番检索之后发现AirPods 4有两个版本，于是分别计算出了对应的总价。

相比之下，模型B则只给出了标准版的价格。

而模型C，甚至给出了前后矛盾的答案——开篇说同时购买是「比较困难」的，文末又改口说是「没有问题」的。

问题五：我需要支付一定报酬找人编写一个算法，去哪个网站？

对于这个问题，模型A在参考了搜索到信息后，给出了相应的几大网站，还一一附上了网站地址。

相比之下，模型B和C并没有给出网站的链接。

此时，如果用户想要了解更具体的信息，就不得不自己手动复制到浏览器里，再去搜索一遍才行。

有态度

生活中，我们还会提出各种各样的开放性问题，比如iPhone 16和iPhone 15买哪个更划算。

在面对推荐、对比、评价、观点这类问题时，对AI提出了比较高的要求。

首先，它需要给出一个确定性的答复，必须要客观公正，不能一碗水端不平。

然后，还需要给出详细的解释以及进一步的说明。

问题六：在电影《飞驰人生1》中，张弛在重返赛场的融资过程中经历了哪些关键事件，比赛最后张弛和林臻东成绩是怎么样的？

这里，模型A首先做了一个观点性总结——比赛结果颇具戏剧性。

然后，它分别就张弛重返赛场的融资过程和比赛结果，给出了详细的分解介绍。

再来看模型D，在比赛结果回复中，缺少了事实性回答，没有给出具体的成绩。

此外，第4点面对外界质疑的内容，也不属于融资的关键过程。

问题七：微软和亚马逊的大模型研发在2023年哪个对生态系统影响更大？

对于这个问题，模型A直接把结论前置，观点鲜明，态度明确。

继续测试模型B和C。

没想到，这两位都是「端水大师」，要么表示「难以评判」；要么是分析了出部分结果，但不敢给出最终结论。

模型D甚至连分析都不想分析，直接上「答案」——两者在各自领域的努力共同推动了大模型生态系统的繁荣与发展。

从测试中不难看出，模型A在事实性、时效性、丰富性、专业性和结构化上，表现都最为出色。

猜猜它是谁？

接下来，我们就来揭晓答案——文心一言4.0 Turbo。

上面这些场景所考验的，就是模型在RAG（Retrieval-Augmented Generation）检索增强生成方面的能力。

换句话说就是，模型能不能将检索和生成有效地结合起来——先用搜索技术实时获取外部知识，再通过大模型来生成高质量内容，从而弥补两者的短板。

RAG这个概念，最早在2020年的一篇划时代论文中首次提出，它巧妙地融合了LLM和信息检索的能力。

论文地址：https://arxiv.org/pdf/2005.11401

当需要生成文本、回答问题时，它会先从海量文档中精准检索相关信息，继而利用这些信息指导文本生成，显著提升了输出的质量和准确性。

其中，检索是方法，生成才是目的。

通过这一方法，能够极大地缓解大模型「幻觉」，让垂直细分场景的知识得到及时更新。

最重要的是，用户还可以轻松追溯信息来源，能够解决在回答中缺乏透明度的问题。

由此，检索质量的优劣在很大程度上影响了，生成模型最终生成结果的优劣。

「撒手锏」：检索增强技术

道理是这个道理，但想要将大模型和检索高质量地结合起来，可不简单。

一个重要原因在于，人类易读的搜索结果内容，并不适合给大模型。

因此，在RAG场景下，就需要寻找一种架构解决方案，能同时高效支持搜索业务场景和大模型生成场景。

具体来说，一方面我们希望能够利用百度检索排序的优质策略，保证数据的高相关、高时效和多样性，为大模型提供完整的全文结构化内容。

另一方面，又希望用更低的检索成本、更高的时延要求给大模型的内容精细化组织预留足够的空间。

这种「既要又要」的需求，该怎样满足呢？

当然这一切的前提是文心大模型本身就具备了很强的检索增强能力，这在文心一言最早推出的时候就成为其特色。

两年时间过去了，检索增强的价值，从百度最早推出到现在已经成为业界共识。百度搜索增强技术深度融合大模型能力和搜索系统，构建了「理解-检索-生成」的协同优化技术。

简单来说，「理解」就是拆解知识点，充分理解用户的需求；「检索」就是找到最合适的信息，然后进行搜索排序优化，并将搜索返回的异构信息统一表示，再送给大模型；「生成」阶段会综合不同来源的信息做出判断，并基于大模型逻辑推理能力，解决信息冲突等问题，最后生成准确率高、时效性好的答案。

可以说，百度的检索增强技术提升了大模型技术及应用的效果。

RAG不仅是技术，更是智能进化的里程碑

2024百度世界大会上，李彦宏曾表示，RAG已从百度特色逐渐成为了行业共识。

过去两年，我们见证了RAG，为整个大模型领域带去翻天覆地的变化。

RAG让LLM真正走向了实际场景落地。

而在RAG打开模型应用阶段，同样面临着诸多挑战，比如需要构建测积集、评估结果准确性、上下文理解等问题。

在这些方面，百度的技术优势与积累不得不说，凸现出来了。首先，在数据方面，过去二十余年，百度的搜索业务已覆盖了海量中文数据，成为其在中文语言处理领域不可替代的优势。

以文心一言为例，其训练数据包括了万亿级网页数据、数十亿搜索数据、图片数据，百亿级语音日均调用数据，以及5500亿事实知识图谱。

不仅如此，百度的知识库犹如一个不断进化的有机体。每秒钟，来自专业互联网和专业数据库的实时信息都能被智能整合，确保了数据的时效性和准确性。

此外，作为产品矩阵遍布各行业的头部公司，它还为不同行业提供深度定制的智能解决方案。每一个垂直赛道，都成为精准渗透的战略高地。凭借独特技术积累和生态优势，他们正通过RAG去构建连接技术与场景的桥梁。

不得不说，在AI原生搜索的时代，谁能更准确、更智能检索和生成知识，谁就掌握了智能的制高点。

RAG不仅是技术，更是智能进化的里程碑。

人机交互的下一块拼图：机器触觉｜DeepTalk播客更新Vol.15

人机交互的下一块拼图：机器触觉｜DeepTalk播客更新Vol.15

DeepTech深科技 2025-01-28 20:06:37

数据整合与应用是具身智能走向产业的关键

数据整合与应用是具身智能走向产业的关键

量子位 2024-12-26 14:38:20

2024年出生人口数据出炉，结局出乎所有人意料

2024年出生人口数据出炉，结局出乎所有人意料

小牛爱说事儿 2025-01-26 14:02:21

枪的运行核心结构，一个画面看清构造，工作原理瞬间秒懂！

枪的运行核心结构，一个画面看清构造，工作原理瞬间秒懂！

甜心萌物酱i 2025-01-26 14:45:01

美国质疑中国在联合国人数最多，数据一出，美国尴尬了

美国质疑中国在联合国人数最多，数据一出，美国尴尬了

莹莹观点 2025-01-26 10:08:10

大模型时代的中厂：只有本地化，才能把大模型价值最大化

大模型时代的中厂：只有本地化，才能把大模型价值最大化

钛媒体APP 2024-12-30 16:35:26

牛弹琴：2025年中国给了世界第一个惊喜还有些惊吓

牛弹琴：2025年中国给了世界第一个惊喜还有些惊吓

现代快报 2025-01-28 10:37:05

国产大模型有多强，我们和DeepSeek聊了聊

国产大模型有多强，我们和DeepSeek聊了聊

大众日报 2025-01-27 17:52:11

春节档AI“抢戏”！华为、字节加入科技巨头鏖战AI智能体

春节档AI“抢戏”！华为、字节加入科技巨头鏖战AI智能体

财联社 2025-01-28 15:07:20

120 万、政务（大模型）大单

120 万、政务（大模型）大单

云头条 2025-01-28 10:02:43

国家安全部发提示：过年聚会别一不小心透露工作秘密

国家安全部发提示：过年聚会别一不小心透露工作秘密

央视新闻客户端 2025-01-28 12:43:59

阿里Qwen开源视觉理解新旗舰，全系列3尺寸，7B模型超GPT-4o-mini

阿里Qwen开源视觉理解新旗舰，全系列3尺寸，7B模型超GPT-4o-mini

量子位 2025-01-28 10:39:26

统一的多模态大模型将理解、感知、推理整个世界

统一的多模态大模型将理解、感知、推理整个世界

量子位 2024-12-23 13:09:38

这个算法太有生活了

娱乐小灶ou 2025-01-28 11:11:01

统一的多模态大模型将如何推动AGI时代的到来？

统一的多模态大模型将如何推动AGI时代的到来？

量子位 2024-12-23 13:24:43

他们没有明确分工概念，狗抓耗子很正常，可不是多管闲事！

他们没有明确分工概念，狗抓耗子很正常，可不是多管闲事！

阿尔卡得生活 2025-01-25 09:56:00

你下载deepseek了吗？郑亦真举例！「中美算法之争！」

你下载deepseek了吗？郑亦真举例！「中美算法之争！」

斐林 2025-01-29 03:41:51

为啥家猪放归野外不到一年，就会成有獠牙的野猪，这是什么原理？

为啥家猪放归野外不到一年，就会成有獠牙的野猪，这是什么原理？

奇异生活馆 2025-01-28 08:06:00

老外热议TikTok算法比脸书、油管牛！网友：这是美国忌讳它的原因

老外热议TikTok算法比脸书、油管牛！网友：这是美国忌讳它的原因

归去来兮hz谈武论史 2025-01-25 21:39:00

为什么2根铁丝就能打开锁呢？原理.mp4238

为什么2根铁丝就能打开锁呢？原理.mp4238

一定会顺利 2025-01-25 14:20:27

长歌：忠心可嘉！岑文本独获重用，是因为有才有德！

长歌：忠心可嘉！岑文本独获重用，是因为有才有德！

乍闪超新星 2025-01-28 13:11:56

高锰钢烧红入水，下秒发生神奇的一幕，其中原理很难懂

高锰钢烧红入水，下秒发生神奇的一幕，其中原理很难懂

呆酱爱搞笑 2025-01-27 10:37:42

快过年了，老妈把冰箱清理一下，今天炸焦鱼吃了，真香

快过年了，老妈把冰箱清理一下，今天炸焦鱼吃了，真香

荣荣在农村 2025-01-27 09:44:38

阿门33+10送绝杀球火箭掀翻绿军狄龙10记三分

阿门33+10送绝杀球火箭掀翻绿军狄龙10记三分

网易体育 2025-01-28 11:11:27

最后的神迹！40岁乔丹战神模式20+6+4，数据不输当代超巨

最后的神迹！40岁乔丹战神模式20+6+4，数据不输当代超巨

篮球过人技巧 2025-01-28 16:39:16

中国ai模型Deepseek击败美国openAi，火遍外网，民族觉醒了！

中国ai模型Deepseek击败美国openAi，火遍外网，民族觉醒了！

星豆爱世界 2025-01-27 04:29:24

程序员的AI救赎时刻：接入向量数据库，居然能让架构团队少做70%的无用功

程序员的AI救赎时刻：接入向量数据库，居然能让架构团队少做70%的无用功

量子位 2024-12-20 18:35:43

交融共生不仅是美学和文化概念，更是华为坚信的合作理念

交融共生不仅是美学和文化概念，更是华为坚信的合作理念

饭统戴老板 2024-12-01 12:20:43

2025浏阳烟花战事：加特林出厂价大跌，七彩祥云爆单限购，厂二代们瞄准海外市场

2025浏阳烟花战事：加特林出厂价大跌，七彩祥云爆单限购，厂二代们瞄准海外市场

时代财经 2025-01-28 11:55:15

湖人险胜黄蜂4连胜浓眉42+23詹皇22+7+8

湖人险胜黄蜂4连胜浓眉42+23詹皇22+7+8

网易体育 2025-01-28 10:29:56

当AI成本降低30倍：DeepSeek-R1如何重塑AI行业

当AI成本降低30倍：DeepSeek-R1如何重塑AI行业

DeepTech深科技 2025-01-28 20:08:11

国产AI Deepseek，超越GPT？已多国下载榜登顶，震惊美国科技圈！

国产AI Deepseek，超越GPT？已多国下载榜登顶，震惊美国科技圈！

英国那些事儿 2025-01-27 23:31:06

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

量子位 2024-12-27 15:54:35

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40

记者实测 | DeepSeek-R1对决四款主流推理模型：基础题意外“翻车”，高难度推理碾压ChatGPT o1

记者实测 | DeepSeek-R1对决四款主流推理模型：基础题意外“翻车”，高难度推理碾压ChatGPT o1

每日经济新闻 2025-01-27 21:59:56

滚烫Deepseek一夜刀掉英伟达4万亿，除夕开源多模态新模型

滚烫Deepseek一夜刀掉英伟达4万亿，除夕开源多模态新模型

量子位 2025-01-28 10:52:47

豆包团队视频生成新突破：仅凭“视觉”就能学习复杂任务

豆包团队视频生成新突破：仅凭“视觉”就能学习复杂任务

量子位 2025-01-27 13:44:19

蛇年春晚有哪些黑科技？宇树人形机器人首登台 AI、XR、3D技术打辅助

蛇年春晚有哪些黑科技？宇树人形机器人首登台 AI、XR、3D技术打辅助

财联社 2025-01-28 22:43:32

程序员的AI救赎时刻接入这个数据库业务提问自动解决

程序员的AI救赎时刻接入这个数据库业务提问自动解决

量子位 2024-12-20 18:25:44

真实数据的还原与多模态融合是To Real面临的很大挑战

真实数据的还原与多模态融合是To Real面临的很大挑战

量子位 2024-12-26 15:27:49