蚂蚁团队 投稿
量子位 | 公众号 QbitAI

如何让大模型更懂「人」?

虽然现有大模型经过了人类价值观对齐训练,但其对齐效果往往会让少数群体的声音被系统性淹没。

那随之而来的问题是,当大模型服务全球用户,标准化对齐范式是否正在制造新的数字鸿沟?



来自人大和蚂蚁的研究团队洞察到传统对齐范式的结构性缺陷:

基于普世原则(如无害性、有用性)的单一价值观体系,本质上是对人类复杂心理图谱的暴力降维。这就像用同一副滤镜处理所有影像,虽能保证基础画质,却抹杀了万千色彩的独特性。

更严峻的是,现有反馈系统收集的「集体智慧」,往往演变成主流偏好的回声室,使得教育背景、文化认同等关键差异项在数据池中悄然消融。

面对这一挑战,研究团队提出大模型应该转向个性化对齐训练

这首先需要构建一个全面而精准的人类偏好表征系统。受到认知科学的启发,研究团队构建了首个90维心理偏好空间,巧妙融合马斯洛需求层次理论、默里需求体系、前沿对齐研究维度与亿级社交平台兴趣图谱。

这个可解释的坐标体系如同数字罗盘,既能定位用户「偏好什么」(如知识获取倾向),更能揭示「为何偏好」(如自我实现需求)。

基于该框架,研究团队构建并开源了首个包含130万用户画像的AlignX数据集,以及基于大规模综合个性化训练的大语言模型AlignXpert。

该模型采用两种互补的个性化对齐方法:

一是通过上下文对齐(In-Context Alignment,ICA)将用户画像直接整合到上下文窗口中进行隐式偏好学习;

二是通过偏好桥接对齐(Preference-Bridged Alignment,PBA)将用户画像映射为结构化偏好分布,在保持对不同用户群体稳健泛化能力的同时,提升了模型的可解释性和可控性。

在4个具有挑战性的基准测试中,AlignXpert对用户偏好的预测准确率实现了平均17.06%的相对提升。

值得一提的是,研究团队同步发布了首篇聚焦个性化对齐的综述论文。

该综述系统性地探讨了大语言模型如何在保持普适伦理边界的同时,实现对个体偏好的精准适配。通过提出统一的技术框架,涵盖偏好记忆管理、个性化生成和基于反馈的对齐机制,为未来更具适应性的伦理对齐模型发展指明方向。这份综述与本文提出的AlignX形成优势互补:综述梳理了技术全景,而AlignX则是从理论到实践的突破性尝试。



该论文的第一作者是中国人民大学高瓴人工智能学院博士生李嘉楠,蚂蚁技术研究院副研究员关健为共同第一作者。

对齐幻象下的千人一面困局

在大模型对齐技术日益精进的表象之下,潜藏着一个被集体忽视的悖论:当开发者不断叠加「无害性」「诚实性」「帮助性」等普世原则时,模型的「价值熵减」现象却愈演愈烈。

这种矛盾集中体现在两大困境:

一是系统性排除效应,少数群体的文化观念、道德立场在默认对齐框架中遭遇静默擦除;

二是适配性塌缩,用户满意度因缺乏个性化响应而持续衰减。

这一危机直指对齐范式的根本缺陷:人类价值观的多元光谱与大模型开发者预设的单一道德坐标系之间,存在着无法弥合的认知鸿沟。



△对某个用户提示的生成空间进行可视化。

在大模型开发者预设的三个普世价值观维度下,现有大模型所对齐的社会偏好密集区域是所有个性化偏好密集区域的平均。

深入剖析现有方法,团队发现主流“一刀切”的对齐技术依赖两大脆弱假设:

一是将复杂的人类偏好压缩为几个单向度指标(如「帮助性(越高越好)」),二是将个体差异简化为同质化数据池中的统计噪声。这种粗放式建模犹如在数据荒漠中盲目绘制用户画像,既无法捕捉价值观冲突中的微妙平衡(如自由表达vs社会规范),更无力应对长尾群体的认知特异性。

尤为严峻的是,基于匿名聚合数据的对齐训练,实质上抹杀了用户画像与偏好维度间的因果纽带,导致模型始终在认知迷雾中摸索。



△AlignX个性化对齐数据示意图。

这个示意图中,包含一个帖子及其两个候选回答,三类人格表征包含行为模式和描述性特征,可实现精准偏好推断并促进偏好学习(右下)。值得注意的是,基于普世价值观对齐的大语言模型(如GPT-4)倾向于选择回答2,与用户倾向于回答1的个性化偏好形成对立。

正如综述论文所指出的,人类偏好并非单一维度的线性优化问题,而是动态、多维且受社会文化深刻影响的复杂系统。

如下图所示,个性化对齐的核心在于构建一个能够动态平衡普适伦理与个体需求的框架。通过引入偏好记忆管理、个性化生成和基于反馈的对齐机制,模型可以在保持伦理边界的同时,精准适配用户偏好。这不仅是技术的突破,更是对“千人一面”困局的深刻反思。



△个性化对齐框架

AlignX:构建可扩展的个性化对齐数据集

面对个性化对齐中多维度偏好建模的复杂性,研究团队提出了一套系统化偏好表征框架,其核心突破在于融合「直接偏好方向」与「间接用户画像」的双重认知架构,将人类需求的底层逻辑转化为可计算的科学语言。

这一创新建立在心理学与社会认知科学的坚实基础上。通过引入结构化表征方法,该框架为大规模用户偏好学习构建了一个「认知操作系统」。

系统通过两个层次建模用户偏好:

(1)全面的偏好空间映射,将90个关键偏好维度(如“安全感”、“社交归属”、“自我实现”等)编码为可量化的方向标签(正向/负向/中性);

(2)多源异构用户画像表示,整合行为模式(包括用户的生成内容、比较式反馈)与描述性特征(即人口统计属性)。

基于该偏好表示框架,研究团队开创了从海量交互数据中可扩展地提炼个性化对齐数据的新范式。从Reddit论坛16亿级真实讨论和现有的多个对齐数据集出发,研究团队构建了包含130万个用户画像的AlignX数据集。AlignX中每条数据被表征成一个五元组,包括用户画像、用户画像隐含的偏好向量、用户Prompt、用户偏好的回复和用户不偏好的回复。AlignX数据集的核心在于将个性化对齐任务形式化为一个条件策略学习问题,使模型能够基于用户画像生成与用户偏好相符的回复。

AlignXpert:解密用户行为中的隐式偏好

基于AlignX数据集,研究团队训练得到能够根据用户画像进行个性化生成的模型AlignXpert。该模型可以通过两种方案实现个性化对齐——上下文对齐(ICA)与偏好桥接对齐(PBA),分别对用户画像隐含的用户偏好进行隐式和显式的建模:
ICA:上下文对齐
直接将用户画像与用户Prompt拼接为上下文窗口,训练模型捕捉隐式用户偏好,实现零样本泛化能力。该方案巧妙利用大模型的上下文学习特性,从用户画像中隐式地学习隐含的用户偏好。

PBA:偏好桥接对齐
引入隐变量显式建模用户偏好方,通过两阶段分解实现可解释的偏好传递:第一阶段将用户画像压缩为偏好方向向量,第二阶段将其转化为自然语言描述注入生成过程。

两大方法形成互补优势:

  • 隐显协同
  • ICA擅长捕捉动态交互模式,PBA精于结构化偏好推理
  • 效率革命
  • ICA利用现成上下文机制,PBA通过用户画像向量化压缩计算开销



△对齐方法概述

广泛提升模型对齐能力

实验结果令人振奋!研究团队在涵盖普世价值观对齐(UF-P-4)、真实用户个性化偏好对齐(PRISM、P-Soups)及综合对齐(AlignX-test)的四大具有挑战性的基准上,系统验证了AlignXpert的卓越性能。

1. 跨维度对齐:通用与个性化价值的双重征服

AlignXpert在通用价值观与个性化偏好场景中均展现卓越表现。虽然基准模型在普世价值观(UF-P-4)上表现良好,但它们在个性化偏好(P-Soups、AlignX-test)上表现欠佳。AlignXpert在两种场景下均保持卓越性能,并在分布外基准测试中展现出强大的泛化能力,在PRISM/ P-Soups上分别以9.83%/32.25%的优势超越基线。



△不同模型在含各类用户画像的偏好对齐任务中的对齐准确率(%)



△GPT-4胜率(M1:Llama-3.1-8B-Instruct;M2:AlignXpert-ICA;M3:AlignXpert-PBA)

2. 泛化未来:新偏好维度快速适配

研究团队探究AlignXpert在AlignX上的偏好对齐训练是否为适应新偏好维度提供了更优的初始化参数。基于两个新维度——“幽默”(诙谐vs严肃)与”实用主义”(实践导向vs理论导向),研究团队构建了包含6,355个训练样本和1,000个测试样本的数据集。

对比三种适应方法:(1) 在ICA框架下微调Llama-3.1-8B-Instruct,(2) 在ICA框架下微调AlignXpert-ICA,(3) 在PBA框架下微调AlignXpert-PBA。两种AlignXpert变体均显著超越Llama基线(p值<0.05),表明模型习得的是可泛化的偏好对齐机制,而非对训练维度的简单拟合。



△在新偏好维度下的对齐准确率

3. 交互数据稀缺,仍能维持表现

在真实应用场景中,用户往往仅具备有限的交互历史,这使得个性化偏好对齐模型在不同规模历史数据下的稳定表现至关重要。研究团队评估了AlignXpert模型对用户互动历史数据量的鲁棒性。通过使用2~16组用户生成内容和成对比较数据作为用户画像进行测试,揭示了AlignXpert的两大核心优势:

数据稀缺场景下的稳健性:即使用户画像中仅包含2个样本数据,模型仍能保持可靠性能;
增益效应:随着历史数据增加,准确率持续提升。



△不同交互历史数量下的对齐准确率

4. 控制自如的偏好

偏好对齐系统的核心能力在于适应多元甚至对立的用户偏好,而非固化单一倾向。为验证AlignXpert的该特性,研究团队在P-Soups和AlignX-test数据集开展可控性实验:在推理阶段对用户画像中的成对偏好样本及目标偏好回复对的偏好方向进行反转(如将"y_w>y_l"改为"y_w

对齐准确率(Acc):衡量模型在偏好反转条件下是否能准确预测被偏好的回复;
翻转成功率(Flip):统计模型在偏好反转之后预测也成功反转的比例。

AlignXpert在两项指标上均展现卓越可控性。基线模型则表现出显著低的翻转成功率(3-15%),证实其过拟合到固定的偏好方向,而AlignXpert实现了动态适应性优化。



△偏好反转场景下的模型表现

结语

本研究首次系统地探索了大规模个性化偏好对齐范式,为模型适配多样化人类需求开辟新路径。

核心贡献包括:

(1) 突破性提出“间接用户画像-直接偏好方向”双向映射框架,实现复杂偏好建模的系统性突破;

(2) 开源AlignX数据集,提供130万条精细化用户画像-偏好关联数据,刷新对齐数据规模天花板;

(3) AlignXpert模型通过上下文学习或偏好桥接对齐策略,在零样本适应、低交互优化等场景实现卓越性能提升。

实验证明该方案在偏好可控性等方面达到新高度,为教育、心理咨询等个性化服务领域奠定基础。研究团队期待该框架持续进化,在人类价值观建模与隐私保护平衡等方向实现更深层突破。

论文地址:https://arxiv.org/pdf/2503.15463
Github:https://github.com/JinaLeejnl/AlignX
Dataset:https://huggingface.co/datasets/JinaLeejnl/AlignX

Survey链接:https://arxiv.org/abs/2503.17003

ad1 webp
ad2 webp
ad1 webp
ad2 webp