数据集
数据集
我们欢迎您参与到共建之中,在这里列举所有已知的数据集检索渠道。
1. 通用检索渠道
检索顺序 | 类型 | 内容 | 检索路径 |
---|---|---|---|
1 | 搜索引擎 | 抱抱脸数据集 | https://huggingface.co/datasets |
2 | 搜索引擎 | ImageNet 数据集 | https://www.image-net.org/ |
3 | 搜索引擎 | Kaggle 数据集 | https://www.kaggle.com/datasets |
4 | 搜索引擎 | UCI 机器学习库 | https://archive.ics.uci.edu/ml/index.php |
5 | 搜索引擎 | OpenML 数据集 | https://www.openml.org/ |
6 | 搜索引擎 | TensorFlow 数据集 | https://www.tensorflow.org/datasets |
7 | 搜索引擎 | Google Dataset Search | https://datasetsearch.research.google.com/ |
8 | 搜索引擎 | Amazon 数据集 | https://registry.opendata.aws/ |
9 | 搜索引擎 | Microsoft Research 数据集 | https://www.microsoft.com/en-us/research/project/datasets/ |
10 | 搜索引擎 | Data.gov 数据集 | https://www.data.gov/ |
这里是更多的数据集检索渠道:
检索顺序 | 类型 | 内容 | 检索路径 |
---|---|---|---|
11 | 搜索引擎 | VisualData 数据集 | https://www.visualdata.io/ |
12 | 搜索引擎 | Papers with Code 数据集 | https://paperswithcode.com/datasets |
13 | 搜索引擎 | Data World 数据集 | https://data.world/ |
14 | 搜索引擎 | Harvard Dataverse 数据集 | https://dataverse.harvard.edu/ |
15 | 搜索引擎 | Government of Canada 数据集 | https://open.canada.ca/data/en/dataset |
16 | 搜索引擎 | OpenAI GPT-3 数据集 | https://openai.com/datasets |
17 | 搜索引擎 | Stanford Large Scale Data Sets | http://snap.stanford.edu/data/ |
18 | 搜索引擎 | The Turing Institute 数据集 | https://www.turing.ac.uk/research/research-projects |
19 | 搜索引擎 | Zindi 数据集 | https://zindi.africa/competitions |
20 | 搜索引擎 | Reddit 数据集 | https://www.reddit.com/r/datasets/ |
这些平台提供不同领域的数据集,包括计算机视觉、自然语言处理、社交媒体、学术研究等。
2. 大模型
关于大模型(如 GPT、BERT 等)相关的数据集,以下是一些专注于自然语言处理和大模型训练的常见资源和检索渠道:
检索顺序 | 类型 | 内容 | 检索路径 |
---|---|---|---|
1 | 搜索引擎 | GLUE 数据集 | https://gluebenchmark.com/ |
2 | 搜索引擎 | SuperGLUE 数据集 | https://super.gluebenchmark.com/ |
3 | 搜索引擎 | SQuAD 数据集 | https://rajpurkar.github.io/SQuAD-explorer/ |
4 | 搜索引擎 | WikiText 数据集 | https://blog.einstein.ai/the-wikitext-long-term-dependency-language-modeling-dataset/ |
5 | 搜索引擎 | The Pile 数据集 | https://pile.eleuther.ai/ |
6 | 搜索引擎 | OpenWebText 数据集 | https://skandavivek.substack.com/p/openwebtext |
7 | 搜索引擎 | Common Crawl 数据集 | https://commoncrawl.org/ |
8 | 搜索引擎 | C4 数据集 | https://www.tensorflow.org/datasets/community_catalog/huggingface/c4 |
9 | 搜索引擎 | EleutherAI 数据集 | https://www.eleuther.ai/ |
10 | 搜索引擎 | BooksCorpus 数据集 | https://github.com/soskek/bookcorpus |
这些数据集对于训练大规模预训练模型(如 GPT、BERT、T5 等)非常有用,涵盖了从文本生成到文本理解、从长篇依赖到多任务学习等多个方面。
3. 推理相关
以下是用于推理(Inference)的数据集,涵盖了多个领域(如自然语言推理、推理理解、常识推理、推理式问题回答等):
4. 未分类
1、DataSearch :https://datasetsearch.research.google.com
2、OpenDatalab : https://opendatalab.com/
3、Kaggle :https://www.kaggle.com/
4、github:https ://github.com/Bio-Datasets/bio-datasets
5、huggingface :https://huggingface.co/datasets/arcee-ai/EvolKit-20k-vi
6、arXiv : https://arxiv.org/
7、魔搭社区:https://modelscope.cn/datasets
8、FindData:https://www.findata.cn/
9、DataCite Commons : https://commons.datacite.org/doi.org
10、MendeleyData: https://data.mendeley.com/
12、DataONE : https://search.dataone.org/data
13、Harvard Dataverse: https://dataverse.harvard.edu/
14、MagicHub开源社区:MagicHub - Datasets Download
15、DataCite Commons:https://commons.datacite.org/doi.org
16、Papers with Code :https://paperswithcode.com/
17、DataHub :DataHub
18:data.public.lu:https://data.public.lu/
19、帕依提提:https://www.payititi.com/
20、http://data.gov:https://catalog.data.gov/dataset
21、和鲸社区:https://www.heywhale.com/
22、data.europa:https://data.europa.eu/data/datasets?locale=en&minScoring=0
23、AI_Studio:https://aistudio.baidu.com/
24、Opendata cern:opendata.cern.ch
25、PANGAEA:https://www.pangaea.de/
26、极市:https://www.cvmart.net/
27、Roboflow:https://universe.roboflow.com/
28、IEEE:https://ieee-dataport.org/datasets
29、Stanford:http://snap.stanford.edu/data/
30、GBIF: https://www.gbif.org/dataset/search