一个新的104 GB LLM训练数据集已经发布!


北京人工智能研究院(BAAI)发布了一个新的数据集中文语料库互联网(CCI v1.0.0),这是一个用于中文语言模型预训练的大规模数据集,由中国领先的研究机构收集。 

这个开源数据集旨在为中文AI大语言模型提供重要的数据基础。它包含了从2001年1月到2023年11月的1000个最重要的中文网站的内容。

它已经过过滤,以实现高质量、内容安全、重复数据删除和内容更正,并进行了大量手动检查。不

他的数据集总共是104 GB,是从一个更大的数据集(原始大小是800 GB)中筛选出来的。

摘要:
随着大型语言模型的快速发展,业界和学术界对高质量数据集的需求与日俱增。这些数据集不仅需要包含大量信息,还需要经过严格的筛选和清洗,以确保其准确性和下游模型及应用的安全性。然而,目前业界流行的公共数据集存在一定的质量和安全隐患,尤其是在高质量数据集尤为缺乏的中文领域。此外,构建安全的中文数据集也面临诸多挑战。因此,建立一个经过严格筛选和标准化处理的数据集,对于 LLM 的创新和发展尤为重要。

我们的 CCI(Chinese Corpora Internet)数据集由来自中国大陆互联网站的高质量、可信的数据源组成。该数据集经过了严格的数据清理和重复数据删除,并在内容质量方面进行了有针对性的检测和过滤。数据处理规则包括

  • 基于规则的过滤:基于密度的提取、关键词过滤、垃圾信息过滤、简繁体转换等。
  • 基于模型的过滤:通过训练分类模型过滤低质量内容
  • 重复数据删除:数据集内部和数据集之间的重复数据删除
此外,针对预训练数据规模大、容易造成测评数据泄露的问题,我们在数据处理阶段专门对目前国内几个主流的测评数据集进行了严格的筛选和过滤。

此次发布的 CCI 语料库(CCI v1.0.0)大小为 104GB。数据集的整体时间跨度为 2001 年 1 月至 2023 年 11 月。