品玩1月14日讯,据英伟达官方消息,英伟达近日宣布推出Nemotron-CC,这是一种包含 6.3 万亿个token的 英语语言Common Crawl数据集 ,用于预训练高度准确的大语言模型 。
高质量预训练数据集是训练大语言模型的关键之一,近期不少大模型军事基于包含 15 万亿个令牌的大量数据进行了训练。但对于这些 token 的构成大众知之甚少,Nemotron-CC 旨在解决这一问题,并使更广泛的社区能够训练高度准确的大模型。数据来源方面,Nemotron-CC 基于 Common Crawl 网站数据构建,并在经过严格的数据处理流程后,提取而成高质量子集 Nemotron-CC-HQ。
英伟达表示,Nemotron-CC是一个开放、大型、高质量的英语 Common Crawl 数据集,支持在短标记和长标记范围内预训练高度准确的 LLM。