医学大模型用知识库榜单

数据集名称 大小 出处 下载链接
C4 来自互联网上超过3.65亿个域的超过1560亿个token T5的训练语料:巨型爬虫数据 Common Crawl 做清洗后得到的语料库 https://github.com/allenai/allennlp/discussions/5056
ROOTS 1.6TB的数据集跨越了59种语言(46种自然语言,13种编程语言) BLOOM 的训练语料:62%的文本来自社区选择和记录的语言数据源列表,另外38%的文本来自经过预处理的网络爬取数据集OSCAR, 并通过母语人士的帮助进行了过滤 https://huggingface.co/bigscience-data
Pile 825G的语料 22个多样化的高质量子集构成,包括现有的和新构建的子集,许多子集来自学术或专业来 https://github.com/EleutherAI/the-pile
WuDaoCorpora 3TB training data and 1.08T trillion Chinese characters,包含有 822 million Web pages 采用20多种规则从100TB原始网页数据中清洗得出最终数据集,注重隐私数据信息的去除,源头上避免GPT-3存在的隐私泄露风险;包含教育、科技等50+个行业数据标签,可以支持多领域预训练模型的训练。 https://data.baai.ac.cn/details/WuDaoCorporaText
THUCNews 是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。 中文文本分类数据集:我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。 https://github.com/thunlp/THUCTC
CLUECorpus2020 通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料。 https://github.com/CLUEbenchmark/CLUECorpus2020
CDial-GPT 多轮对话数据 本项目提供了一个大规模中文对话数据集,并提供了在此数据集上的中文对话预训练模型(中文GPT模型),更多信息可参考我们的论文 https://github.com/thu-coai/CDial-GPT
RedPajama-Data RedPajama 数据的可重现数据接收,1.2万亿 https://github.com/togethercomputer/RedPajama-Data
0%