数据集

数据集

我们欢迎您参与到共建之中,在这里列举所有已知的数据集检索渠道。

1. 通用检索渠道

检索顺序 类型 内容 检索路径
1 搜索引擎 抱抱脸数据集 https://huggingface.co/datasets
2 搜索引擎 ImageNet 数据集 https://www.image-net.org/
3 搜索引擎 Kaggle 数据集 https://www.kaggle.com/datasets
4 搜索引擎 UCI 机器学习库 https://archive.ics.uci.edu/ml/index.php
5 搜索引擎 OpenML 数据集 https://www.openml.org/
6 搜索引擎 TensorFlow 数据集 https://www.tensorflow.org/datasets
7 搜索引擎 Google Dataset Search https://datasetsearch.research.google.com/
8 搜索引擎 Amazon 数据集 https://registry.opendata.aws/
9 搜索引擎 Microsoft Research 数据集 https://www.microsoft.com/en-us/research/project/datasets/
10 搜索引擎 Data.gov 数据集 https://www.data.gov/

这里是更多的数据集检索渠道:

检索顺序 类型 内容 检索路径
11 搜索引擎 VisualData 数据集 https://www.visualdata.io/
12 搜索引擎 Papers with Code 数据集 https://paperswithcode.com/datasets
13 搜索引擎 Data World 数据集 https://data.world/
14 搜索引擎 Harvard Dataverse 数据集 https://dataverse.harvard.edu/
15 搜索引擎 Government of Canada 数据集 https://open.canada.ca/data/en/dataset
16 搜索引擎 OpenAI GPT-3 数据集 https://openai.com/datasets
17 搜索引擎 Stanford Large Scale Data Sets http://snap.stanford.edu/data/
18 搜索引擎 The Turing Institute 数据集 https://www.turing.ac.uk/research/research-projects
19 搜索引擎 Zindi 数据集 https://zindi.africa/competitions
20 搜索引擎 Reddit 数据集 https://www.reddit.com/r/datasets/

这些平台提供不同领域的数据集,包括计算机视觉、自然语言处理、社交媒体、学术研究等。

2. 大模型

关于大模型(如 GPT、BERT 等)相关的数据集,以下是一些专注于自然语言处理和大模型训练的常见资源和检索渠道:

检索顺序 类型 内容 检索路径
1 搜索引擎 GLUE 数据集 https://gluebenchmark.com/
2 搜索引擎 SuperGLUE 数据集 https://super.gluebenchmark.com/
3 搜索引擎 SQuAD 数据集 https://rajpurkar.github.io/SQuAD-explorer/
4 搜索引擎 WikiText 数据集 https://blog.einstein.ai/the-wikitext-long-term-dependency-language-modeling-dataset/
5 搜索引擎 The Pile 数据集 https://pile.eleuther.ai/
6 搜索引擎 OpenWebText 数据集 https://skandavivek.substack.com/p/openwebtext
7 搜索引擎 Common Crawl 数据集 https://commoncrawl.org/
8 搜索引擎 C4 数据集 https://www.tensorflow.org/datasets/community_catalog/huggingface/c4
9 搜索引擎 EleutherAI 数据集 https://www.eleuther.ai/
10 搜索引擎 BooksCorpus 数据集 https://github.com/soskek/bookcorpus

这些数据集对于训练大规模预训练模型(如 GPT、BERT、T5 等)非常有用,涵盖了从文本生成到文本理解、从长篇依赖到多任务学习等多个方面。

3. 推理相关

以下是用于推理(Inference)的数据集,涵盖了多个领域(如自然语言推理、推理理解、常识推理、推理式问题回答等):

检索顺序 类型 内容 检索路径
1 NLP SNLI (Stanford Natural Language Inference) 数据集 https://nlp.stanford.edu/projects/snli/
2 NLP MultiNLI 数据集 https://cims.nyu.edu/~sbowman/multinli/
3 NLP RTE (Recognizing Textual Entailment) 数据集 https://turing.google.com/research/
4 NLP ANLI (Adversarial Natural Language Inference) 数据集 https://github.com/facebookresearch/anli
5 NLP SciTail 数据集 https://allenai.org/data/scitail
6 NLP QNLI (Question Natural Language Inference) 数据集 https://rajpurkar.github.io/SQuAD-explorer/
7 NLP SWAG 数据集 https://rowanzellers.com/swag/
8 NLP BoolQ 数据集 https://github.com/google-research-datasets/boolq
9 NLP The Pile 数据集 https://pile.eleuther.ai/
10 NLP ELI5 数据集 https://github.com/facebookresearch/ELI5
11 NLP Common Sense QA 数据集 https://www.microsoft.com/en-us/research/project/common-sense-qa/
12 NLP OpenBookQA 数据集 https://allennlp.org/open-book-qa
13 NLP SocraticQA 数据集 https://github.com/google-research-datasets/socraticqa
14 NLP QASC 数据集 https://github.com/allenai/qasc
15 NLP DROP 数据集 https://github.com/allenai/drop
16 NLP Cosmos QA 数据集 https://www.microsoft.com/en-us/research/project/cosmos-qa/
17 NLP Story Cloze Test 数据集 https://cs.rochester.edu/nlp/StoryCloze/
18 NLP HotpotQA 数据集 https://hotpotqa.github.io/
19 NLP NarrativeQA 数据集 https://deepmind.com/research/open-source/narrativeqa
20 NLP ATOMIC 数据集 https://github.com/allenai/atomic
21 NLP WikiReading 数据集 https://github.com/allenai/wikireading
22 NLP FNSP 数据集 https://github.com/facebookresearch/fns-prompt
23 NLP ConvAI2 数据集 https://github.com/DeepPavlov/convai
24 NLP VisualEntailment 数据集 https://github.com/facebookresearch/VE
25 NLP MCScript 数据集 https://www.microsoft.com/en-us/research/project/mcscript/
26 NLP VQA (Visual Question Answering) 数据集 https://visualqa.org/
27 NLP Turing Test 数据集 https://www.openai.com/research
28 NLP TQA (Textual Question Answering) 数据集 https://tqa.code.google.com/
29 NLP TabFact 数据集 https://github.com/google-research-datasets/tabfact
30 NLP WikiHow 数据集 https://github.com/allenai/wikihow
31 NLP Visual Dialog 数据集 https://github.com/facebookresearch/visdial
32 NLP CMU-MOSEI 数据集 https://github.com/A2Zadeh/CMU-MOSEI
33 NLP CLEVR 数据集 https://github.com/facebookresearch/clevr
34 NLP GQA 数据集 https://github.com/GT-Vision-Lab/GQA
35 NLP Instagram QnA 数据集 https://www.kaggle.com/datasets
36 NLP ConceptNet 数据集 https://conceptnet.io/
37 NLP Winograd Schema Challenge 数据集 https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/
38 NLP PIQA 数据集 https://github.com/stanfordnlp/piqa
39 NLP NarrativeQA 数据集 https://github.com/deepmind/narrativeqa
40 NLP TREC 数据集 https://cogcomp.semantics.edu/
41 NLP HOTPOTQA 数据集 https://hotpotqa.github.io/
42 NLP SWAG 数据集 https://rowanzellers.com/swag/
43 NLP RACE 数据集 https://www.cs.cmu.edu/~glai1/data/race/
44 NLP ImSitu 数据集 https://github.com/HSIDataset/ImSitu
45 NLP Textual Entailment 数据集 https://www.aclweb.org/anthology/D13-1002/
46 NLP StoryCommonsense 数据集 https://www.microsoft.com/en-us/research/project/storycommonsense/
47 NLP BioASQ 数据集 http://bioasq.org/
48 NLP e-SNLI 数据集 https://github.com/facebookresearch/esnli
49 NLP R3 数据集 https://github.com/google-research-datasets/r3
50 NLP SciQ 数据集 https://github.com/allenai/sciq
51 NLP SQuAD 2.0 数据集 https://rajpurkar.github.io/SQuAD-explorer/
52 NLP CoQA 数据集 https://stanfordnlp.github.io/coqa/
53 NLP FakenewsNet 数据集 https://github.com/KaiDMML/FakeNewsNet
54 NLP CelebA 数据集 http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
55 NLP VCR 数据集 https://github.com/rowanz/vcr
56 NLP Vision-Language Pretraining 数据集 https://arxiv.org/abs/2002.06302
57 NLP Visual7W 数据集 https://www.microsoft.com/en-us/research/project/visual7w/
58 NLP OODQA 数据集 https://github.com/facebookresearch/OODQA
59 NLP SQuAD-Successor 数据集 https://github.com/Tanming2016/SQuAD-successor
60 NLP VRD 数据集 https://cs.stanford.edu/people/rak248/VisionRelationalDataset/
61 NLP Conceptual Captions 数据集 https://github.com/rowanz/conceptual-captions
62 NLP FAKES 数据集 https://www.kaggle.com/datasets
63 NLP XSum 数据集 https://github.com/EdinburghNLP/XSum
64 NLP CNN/DailyMail 数据集 https://github.com/abisee/cnn-dailymail
65 NLP OpenSQA 数据集 https://github.com/stanfordnlp/opensqa
66 NLP Tacotron2 数据集 https://github.com/Rayhane-mamah/Tacotron-2
67 NLP Metro 数据集 https://github.com/huggingface/metro
68 NLP OPIQA 数据集 https://github.com/stanfordnlp/opiqa
69 NLP VGQA 数据集 https://github.com/VisualQA/VGQA
70 NLP ActionQA 数据集 https://github.com/allenai/actionqa
71 NLP SQuAD2.0 数据集 https://github.com/rajpurkar/SQuAD-explorer
72 NLP CC-News 数据集 https://commoncrawl.org/
73 NLP ExamQA 数据集 https://github.com/ai-benchmark/ai-benchmarks
74 NLP Amazon QA 数据集 https://registry.opendata.aws/
75 NLP OpenAI

4. 未分类

1、DataSearch :https://datasetsearch.research.google.com

2、OpenDatalab : https://opendatalab.com/

3、Kaggle :https://www.kaggle.com/

4、github:https ://github.com/Bio-Datasets/bio-datasets

5、huggingface :https://huggingface.co/datasets/arcee-ai/EvolKit-20k-vi

6、arXiv : https://arxiv.org/

7、魔搭社区:https://modelscope.cn/datasets

8、FindData:https://www.findata.cn/

9、DataCite Commons : https://commons.datacite.org/doi.org

10、MendeleyData: https://data.mendeley.com/

11、超神经https://hyper.ai/cn

12、DataONE : https://search.dataone.org/data

13、Harvard Dataverse: https://dataverse.harvard.edu/

14、MagicHub开源社区MagicHub - Datasets Download

15、DataCite Commons:https://commons.datacite.org/doi.org

16、Papers with Code :https://paperswithcode.com/

17、DataHub :DataHub

18:data.public.luhttps://data.public.lu/

19、帕依提提https://www.payititi.com/

20、http://data.govhttps://catalog.data.gov/dataset

21、和鲸社区:https://www.heywhale.com/

22、data.europa:https://data.europa.eu/data/datasets?locale=en&minScoring=0

23、AI_Studio:https://aistudio.baidu.com/

24、Opendata cern:opendata.cern.ch

25、PANGAEA:https://www.pangaea.de/

26、极市:https://www.cvmart.net/

27、Roboflow:https://universe.roboflow.com/

28、IEEE:https://ieee-dataport.org/datasets

29、Stanford:http://snap.stanford.edu/data/

30、GBIF: https://www.gbif.org/dataset/search

31、阿里云天池https://tianchi.aliyun.com/

0%