参加 2019 Python 开发者日, 请扫码咨询 ↑ ↑↑
作者 | 琥珀
出品 | AI 科技大本营(ID:rgznai100)
此前营长为大家分享过不少机器学习相关数据集的资源, 例如 Mozilla 的 1400 小时开源语音数据集 ; ApolloScape 的大规模自动驾驶数据集 ; 腾讯 AI Lab 的 "Tencent ML-Images" 项目 , 甚至还有谷歌团队推出的 Google Dataset Search(Google 数据集搜索) ......
对于日常从事模型训练的研究人员来讲, 无论是图像处理还是语音识别, 都离不开一些高质量的数据集, 通过它们以改善模型的性能.
近日, reddit 论坛上, 一位网友发帖分享了 datasetlist.com 的网站链接, 得到了不少同行们的点赞. 据了解上面集合了从 2009 年 ImageNet 发布以来共计 68 项机器学习相关的大规模数据集, 囊括计算机视觉 (46 项), 自然语言处理(18 项), 语音(4 项) 三大类别, 帮助用户快速找到相应的数据集. 由此, 我们还可以看到自 2015 年以来, 大规模数据集的不断涌现也暗示着人工智能技术作为集大成者的快速演进.
这套数据集搜索列表的出现, 也满足了不少强迫症患者对于选择 / 整理数据集的想法. 不过, 也正如这位网友所言: 这个数据集列表的形式将有待完善和丰富, 设计这个网页的目的也是希望接下来不断更新新的数据集, 同时, 用户也可以通过邮箱, Twitter,Facebook 等方式订阅以获取最新内容.
下面, 让营长介绍下该数据集列表的主要内容:
语音识别:
Mozilla Common Voice
- NSynth
- Google Audioset
- LibriSpeech
- GQA
- Berkeley Deep Drive (BDD100K)
- HighD - The Highway Drone Data
- Comma 2k19
- HD1K Benchmark Suite
- VQA Visual Question Answering
- ApolloScape
- nuScenes
- MURA
- Synscapes
- fastMRI Dataset
- Mapillary Vistas
- Places2
- YouTube-BoundingBoxes
- ADE20K
- WildDash
- Oxford RobotCar Dataset
- Recipe1M
- MegaFace
- SceneNet RGB-D
- MS-Celeb-1M
- SYNTHIA
- UMD Faces
- comma.ai
- Spacenet
- CompCars
- ShapeNet
- WIDER Face
- WIDER
- LSUN
- Visual Genome
- Cityscapes
- ACTIVITYNET
- COCO
- Yahoo Flickr Creative Commons 100M
- Pascal part
- Flickr30k
- KITTI
- SVHN Street View House Numbers
- ImageNet
- MultiNLI
- CoQA
- Spider 1.0
- HotpotQA
- Question Pairs (Quora)
- Yelp open dataset
- Facebook bAbI
- MS MARCO
- NewsQA
- DeepMind Q&A dataset
- Text Classification Datasets
- SNLI
- Billion Words
- Stanford Sentiment Treebank
- Large Movie Review Dataset
- Princeton WordNet
- (本文为 AI 科技大本营原创文章, 转载请微信联系 1092722531)
来源: http://www.tuicool.com/articles/vmiEb2J