在当前大模型训练耗尽了越来越多可用数据的状况下,高质量训练数据的重要性日益凸显。

前不久,微软研究院公布了一项名为 REDSTONE 的开源项目,提供了一套完整的数据处理框架,包括通用领域和特定领域数据的处理脚本,以及经过筛选的高质量 Common Crawl 数据索引。研究团队使用这一框架成功构建了总规模达 3.48 万亿 token 的数据集,涵盖通用知识、代码、数学和问答等多个领域。


图丨相关论文(来源:arXiv)

与以往的数据处理方法相比,REDSTONE 在数据质量和处理效率上都实现了显著提升。特别是在特定领域数据的获取上,REDSTONE 显著降低了数据集构建的门槛,使得研究人员能够更容易地获取高质量的专业领域数据。

从数据集的具体构成来看,REDSTONE 主要分为通用领域和特定领域两大类数据:

通用领域数据 REDSTONE-Web 的规模达到了 3.17 万亿 token,这些数据来自 93 个 Common Crawl 快照,时间跨度从 2013 年到 2023 年。

为了确保数据质量,研究团队采用了多层过滤机制,包括语言识别、基于规则的过滤、基于模型的过滤以及去重处理。特别值得一提的是,他们使用了 fastText 进行语言识别,并设置了 0.5 的置信度阈值来筛选英语内容。在文档级别的过滤中,他们设定了严格的质量标准,例如要求文档词数在 50 到 100,000 之间,平均词长在 3 到 10 个字符之间等。

特定领域数据则包括三个主要部分:

1. REDSTONE-Code(2502 亿 token):这部分数据特别关注代码相关内容,包括代码片段及其相关的解释文本。研究团队通过分析 HTML 页面中的特定标签(如

标签)来识别和提取代码内容,同时保留了代码的上下文信息,这对提升模型对代码的理解能力具有重要意义。

2. REDSTONE-Math(159 亿 token):数学数据集包含了 HTML 格式的数学公式(111 亿 token)和 ASCII 格式的数学内容(48 亿 token)。研究团队使用了特殊的处理流程来确保数学公式的正确性,并使用 pylatexenc 库进行语法检查。

3. REDSTONE-QA(514 亿 token):问答数据集分为开放式问答(513 亿 token)和多选题(1 亿 token)两类。这些数据经过精心筛选和处理,确保问题和答案的质量。特别是对于多选题,研究团队还保留了详细的解释,这有助于模型建立更深入的理解。


图丨通用与特定领域数据构成(来源:arXiv)

在数据处理方面,REDSTONE 采用了两个核心模块:提取模块(Extraction)和过滤模块(Filtering)。提取模块负责从原始网页中获取所需格式的训练数据,而过滤模块则通过多种技术手段(包括关键词搜索、正则表达式匹配和机器学习模型)来筛选高质量内容。特别是在处理代码和数学公式时,研究团队开发了专门的处理流程,确保了这些特殊格式内容的准确提取和保留。

值得注意的是,REDSTONE 在处理通用领域数据时,同时使用了 WARC 和 WET 两种格式的 Common Crawl 数据。这种双轨并行的处理方式不仅提高了数据的多样性,还能够互补各自的优势。

在 WET 格式数据处理中,团队改进了 CCNet 的去重策略,将处理范围扩大到整个快照;而在 WARC 格式数据处理中,则采用了 Trafilatura 工具来提取主要内容,确保了提取内容的清晰度和相关性。


图丨 RedStone-Web 的后续阶段(来源:arXiv)

在评测环节,REDSTONE 团队采用了全面的基准测试方案,分别针对通用领域和特定领域进行了详细评估。评测结果显示,该数据集在多个领域都取得了令人瞩目的成果。

在通用领域评测中,REDSTONE-Web 与其他知名的开源数据集(如 RedPajama、FineWeb、RefinedWeb 等)进行了对比。测试结果表明,REDSTONE-Web 在多项常识推理任务中表现突出,超过了现有的开源数据集。


图丨开源数据集中评估任务的比较(来源:arXiv)

在代码领域,研究团队在 REDSTONE-Web 的基础上增加了 REDSTONE-Code 进行测试。在 HumanEval 基准测试中,模型的 pass@1 指标从原本的 0.0125 提升到了 0.0555,pass@10 指标则从 0.0168 提升到了 0.1035。

类似地,在 MBPP 测试中,pass@1 指标从 0.0751 提升到 0.1311,pass@10 指标从 0.1566 提升到 0.2458。这些显著的提升充分说明了 REDSTONE-Code 数据集对提升模型的代码生成能力具有重要价值。

在数学领域的评测中,研究团队将其与 OpenWebMath 进行了对比。结果显示,REDSTONE-Math 在 GSM8k 测试中的困惑度为 3.1125,优于 OpenWebMath 的 3.2503;在 MATH 测试中的困惑度为 3.0557,同样优于 OpenWebMath 的 3.1288。这些结果表明,REDSTONE-Math 在数学推理能力方面具有明显优势。

此外,在问答能力方面的评测结果显示,在融入 REDSTONE-QA 数据后,模型在 MMLU 测试中的得分由 0.3481 提升至 0.4582 的水平。这一显著提升证明了 REDSTONE 在提取和处理问答类数据方面的优势。


图丨 RedStone-QA 的评估(来源:arXiv)

虽然受限于许可证原因,处理后的数据集目前无法直接开源,但研究团队鼓励开发者使用这套框架重现数据集并贡献给开源社区。据项目更新日志显示,不久前已有开发者基于开源代码成功复现了相关数据集,其规模和质量均与原始数据集相当(项目地址:https://huggingface.co/zjsd)。

未来,研究团队计划从三个方向继续改进:首先是引入更先进的过滤技术,包括利用多模态信号来提升数据质量;其次是扩展支持多语言数据集的构建;最后是建立实时数据更新机制,确保数据集的时效性。这些改进将进一步提升 REDSTONE 的实用价值,使其成为推动大语言模型发展的重要基础设施。

参考资料:

https://arxiv.org/abs/2412.03398

运营/排版:何晨龙

ad1 webp
ad2 webp
ad1 webp
ad2 webp