68 款大规模机器学习数据集, 涵盖 CV, 语音, NLP | 十年资源集

参加 2019 Python 开发者日, 请扫码咨询 ↑ ↑↑

作者 | 琥珀

出品 | AI 科技大本营(ID:rgznai100)

此前营长为大家分享过不少机器学习相关数据集的资源, 例如 Mozilla 的 1400 小时开源语音数据集 ; ApolloScape 的大规模自动驾驶数据集 ; 腾讯 AI Lab 的 "Tencent ML-Images" 项目 , 甚至还有谷歌团队推出的 Google Dataset Search(Google 数据集搜索) ......

对于日常从事模型训练的研究人员来讲, 无论是图像处理还是语音识别, 都离不开一些高质量的数据集, 通过它们以改善模型的性能.

近日, reddit 论坛上, 一位网友发帖分享了 datasetlist.com 的网站链接, 得到了不少同行们的点赞. 据了解上面集合了从 2009 年 ImageNet 发布以来共计 68 项机器学习相关的大规模数据集, 囊括计算机视觉 (46 项), 自然语言处理(18 项), 语音(4 项) 三大类别, 帮助用户快速找到相应的数据集. 由此, 我们还可以看到自 2015 年以来, 大规模数据集的不断涌现也暗示着人工智能技术作为集大成者的快速演进.

这套数据集搜索列表的出现, 也满足了不少强迫症患者对于选择 / 整理数据集的想法. 不过, 也正如这位网友所言: 这个数据集列表的形式将有待完善和丰富, 设计这个网页的目的也是希望接下来不断更新新的数据集, 同时, 用户也可以通过邮箱, Twitter,Facebook 等方式订阅以获取最新内容.

下面, 让营长介绍下该数据集列表的主要内容:

语音识别:

Mozilla Common Voice

NSynth
Google Audioset
LibriSpeech

GQA
Berkeley Deep Drive (BDD100K)
HighD - The Highway Drone Data
Comma 2k19
HD1K Benchmark Suite
VQA Visual Question Answering
ApolloScape
nuScenes
MURA
Synscapes
fastMRI Dataset
Mapillary Vistas
Places2
YouTube-BoundingBoxes
ADE20K
WildDash
Oxford RobotCar Dataset
Recipe1M
MegaFace
SceneNet RGB-D
MS-Celeb-1M
SYNTHIA
UMD Faces
comma.ai
Spacenet
CompCars
ShapeNet
WIDER Face
WIDER
LSUN
Visual Genome
Cityscapes
ACTIVITYNET
COCO
Yahoo Flickr Creative Commons 100M
Pascal part
Flickr30k
KITTI
SVHN Street View House Numbers
ImageNet

MultiNLI
CoQA
Spider 1.0
HotpotQA
Question Pairs (Quora)
Yelp open dataset
Facebook bAbI
MS MARCO
NewsQA

DeepMind Q&A dataset
Text Classification Datasets
SNLI
Billion Words
Stanford Sentiment Treebank
Large Movie Review Dataset
Princeton WordNet
(本文为 AI 科技大本营原创文章, 转载请微信联系 1092722531)

来源: http://www.tuicool.com/articles/vmiEb2J

与本文相关文章

暂无,快来抢沙发吧！