CLIP、DINO、SAM 基座的重磅问世,推动了各个领域的任务大一统,也促进了多模态大模型的蓬勃发展。

然而,这些经过图像级监督或弱语义训练的基座,并不是处理细粒度密集预测任务的最佳选择,尤其在理解包含密集文字的文档图像上。

为解决这一限制,上交联合美团实现了图文对齐粒度的新突破,其具备三大核心优势:

  • 构建业内首个 token 级图文数据集 TokenIT:该数据集包含 2000 万条公开图像以及 18 亿高质量的 Token-Mask 对。图像中的每个 BPE 子词均对应一个像素级掩码。数据体量是 CLIP 的 5 倍,且比 SAM 多出 7 亿数据对。
  • 构建图文领域首个细粒度大一统基座 TokenFD:仅需通过简单的一层语言编码,依托亿级的 BPE-Mask 对打造出细粒度基座 TokenFD。真正实现了图像 Token 与语言 Token 在同一特征空间中的共享,从而支持 Token 级的图文交互和各种下游任务。
  • TokenVL 打通模态 GAP:进一步开放图像即文本的语义潜力,首次实现在大语言模型中进行 token 级的模态对齐,赋能密集型的多模态文档理解任务。

论文和 demo 已发布,相关数据、模型及代码资源将陆续向社区全面开放。



  • 项目主页:https://token-family.github.io/project_page/
  • 体验地址:https://huggingface.co/spaces/TongkunGuan/Token-level_Text_Image_Foundation_Model
  • GitHub:https://github.com/Token-family/TokenFD
  • 论文地址: https://arxiv.org/pdf/2503.02304



首个 Token 级图文数据集 TokenIT

据不完全统计,大约 30% 至 40% 的互联网图像包含可识别的文字,而这一比例在社交媒体平台上更为显著。

如何有效利用这些数据来增强行业基础 AI 生态的发展,一直是研究者们持续探索的方向。然而,目前真实场景数据中的文字标签多为单词级或行级,这与大语言模型所采用的 BPE token 编码规则不完全兼容。

此类数据集的不足,不仅限制了视觉基础模型在细粒度视觉感知方面的表现,也影响了多模态大语言模型在视觉与语言模态间的对齐能力。



为了解决这一限制,他们采用自研的 token 级的视觉语言分词打标技术,提出了业内首个 token 级别的图像文本数据集,填补了这一领域的数据空白,其亮点包括:

规模与多样性

  • 包含2000 万张图像与 18 亿 Token-Mask 对,覆盖自然场景、文档、图表、代码截图、图形用户界面等全场景文本图像类型。
  • 数据量远超 CLIP(5 倍)、SAM(多 7 亿),提供更丰富的语义信息。

细粒度对齐

  • 首创BPE 分词 + 像素级掩码标注:将文本分割为 BPE 子词(如「un-」、「-able」),每个子词(token)精确对应图像中的局部区域。
  • 支持「图像即文字」的语义映射,为多模态大模型理解字符、公式、表格等复杂结构奠定基础。

首个细粒度基座 TokenFD

先前的视觉基座模型(如 CLIP、DINO)依赖图像级监督,难以捕捉文档、表格等场景中的密集小文本语义,导致下游任务(如 OCR、视觉问答)性能受限。

SAM 具备像素级的分割能力,其受限的语义表示限制了其在文本图像场景的全生态应用。依托自主研发的数亿级 BPE-Mask 对,他们首次实现了 token 级的视觉和语言模态对齐,支持细粒度交互,填补了这一技术空白

在实现上,TokenFD 并不依赖复杂的语言编码器,而是通过简化的 token embedding layer,将视觉编码器提取的视觉特征映射到语言编码空间。

对于 token 级的视觉和语言特征,正样本对确保数值与方向相似,而负样本对则相反。在百亿级 token-mask 数据的显式监督下,TokenFD 真正实现了「图像即文字」,其亮点包括:



支持多任务

  • 文本分割(Zero-Shot 性能提升 18.78%)
  • 文本理解(Zero-Shot 性能提升 1.48%)
  • 文本检索(Zero-Shot 性能提升 50.33%)
  • 未来盼望他们支持可控文本生成/擦除等更多任务

推动 MLLM 发展

  • 赋能多模态大模型(例如 TokenVL)细粒度文字感知能力,显著提升 OCR、文档解析等任务表现。

商业化应用

  • 图像安全审查
  • 基于文字的图像检索(适用于搜索引擎、电商平台、社交平台)
  • 知识检索增强的大模型

据了解,demo 已在 Hugging Face 上线,欢迎体验。它突破了传统基于文字识别的图文检索方式,通过特征空间直接进行相似度匹配,支持任意文字输入进行图像内容查找。



文档理解多模态大模型 TokenVL

通用视觉基础模型在多模态大语言模型中作为图像编码器被广泛应用,推动了图像理解能力的快速发展。

然而,现有的视觉模型在涉及图像中细粒度文本(如密集小文本)的下游任务中仍面临显著挑战,例如文本感知、理解与推理的准确性不足。

这一问题的根源在于当前基座模型缺乏针对文本密集场景的细粒度语义监督,导致在文档理解、图文问答等实际场景中频繁出现预测偏差。

因此作者们系统性地探索了 TokenFD 作为基座模型在通用文档智能领域的潜力。

  • 基座适配度百分百

无需额外训练,TokenFD 可直接替换其他多模态大模型的基座,各项评估基准都得到了提升。

  • 文档理解多模态大模型对齐新范式

基于 TokenFD 作为视觉基础模型,作者们进一步推出了 TokenVL,一种全新的多模态大模型图文对齐预训练范式。

通过利用 TokenIT 作为预训练数据,创新性地通过索引方法提取大语言模型(LLM)中的语言 token,并将其与图像特征图中对应的图像 token 直接匹配,在此过程中引入约束函数以实现精准对齐。

这一方法允许 LLM 在回答问题时能够更直接地参考图像内容,而不仅仅依赖于其强大的语义上下文理解能力,尤其在理解答案的空间位置时更具优势。在多个 UDV 数据集上进行了评测,结果显示出卓越的性能和令人满意的效果。



更多方法和实验细节请参照论文。

ad1 webp
ad2 webp
ad1 webp
ad2 webp