当前位置：

首页
/
IT
/
机器学习模型开发必读：开源数据库最全盘点

机器学习模型开发必读：开源数据库最全盘点

开发 AI 和机器学习系统从来没有像现在这样方便。类似于TensorFlow、Torch 和 Spark 这样的开源工具，在 AI 开发者群体中已是无处不在。再加上亚马逊 AWS、Google Cloud 等云服务带来的海量计算能力，将来使用笔记本电脑来训练 ML 模型或许不再难以想象。

公众对 AI 的遐想，总忽视了数据的角色。但海量被标记、注解过的数据，是当下 AI 革命当之无愧的主要推手之一。业内研究团队和公司机构，均明白“数据民主化”的意义——使任何开发者都能获取高质量的数据来训练、测试模型，是加速 AI 技术发展的必要措施。

但就雷锋网所知，大多数涉及机器学习和 AI 的产品依赖于专有数据库（ proprietary datasets）。它们大多是不被公开的，以保护知识产权以及防范安全风险。

即便你幸运地找到了相关公共数据库，判断后者的价值和可靠程度，又是一项让很多开发者头痛的问题。对于概念论证是如此；对于潜在的产品或者特性验证同样如此——在收集你的专有数据之前，决定该验证需要何种数据集。

有经验的开发者都知道，机器学习系统在样本数据集上展示出的优异性能，并不能保证其实际效果。许多 AI 从业人员似乎已经忘记了，数据采集和标记才是开发 AI 解决方案最难的一环。标准的数据集，可被用作验证集，或作为开发更偏向私人订制方案的起始点。

本周，Vai Technologies 的创始人、前斯坦福 SLAC 实验室 CNN 算法架构师 Luke de Oliveira，和其他几名机器学习专家谈到了这个问题。雷锋网了解到，他们最后决定做一张表单，把 AI 领域含金量最高的开源数据库罗列出来，与大家分享。

计算机视觉

MNIST

合理性测试（sanity check）最常用的数据库。规格为 25x25、中心的、B&W 手写数字。用 MNIST 测试非常容易，但不要因为你的模型在 MNIST 运行良好，就认为它事实上可用。

地址：https://pjreddie.com/projects/mnist-in-csv/

CIFAR 10 & CIFAR 100

32x32 彩色图像。虽然用得人比以前少了很多，但仍然能用它做有趣的合理性测试。

地址：https://www.cs.toronto.edu/~kriz/cifar.html

ImageNet

这个用不着介绍，新算法的首选图像数据集。Luke de Oliveira 表示，许多图像 API 公司从 REST 交互界面搞来的标记，与 ImageNet 1000 目录中的 WordNet 层级很接近，让人怀疑。

地址：http://image-net.org/

LSUN

场景理解，许多其它附加任务（比如房间布局预估，显着性预测 “saliency prediction”），以及与之关联的竞赛。

地址：http://lsun.cs.princeton.edu/2016/

PASCAL VOC

一般性的图像分割和分类。对于创建现实世界中的图像注解并不是十分有用，但作为基准很不错。

地址：http://host.robots.ox.ac.uk/pascal/VOC/

SVHN

谷歌街景视图中的住宅号。可以把它当做野生的递归（ recurrent） MNIST。

地址：http://ufldl.stanford.edu/housenumbers/

MS COCO

一般性的图像理解/说明，有相关竞赛。

地址：http://mscoco.org/

Visual Genome

非常细致的视觉知识库，对超过十万张图像有深度注解。

地址：http://visualgenome.org/

Labeled Faces in the Wild

修剪过的面部区域（使用 Viola-Jones），用一个 name identifier 做过标记。其中每一个展示的人在数据集中有两个图像，这是作为他的子集。开发者经常用它来训练面部匹配系统。

地址：http://vis-www.cs.umass.edu/lfw/

自然语言

Text Classification Datasets

来自论文。这是有八个文字分类数据集组成的大型数据库。对于新的文字分类基准，它是最常用的。样本大小为 120K 到 3.6M，包括了从二元到 14 阶的问题。来自 DBPedia, Amazon, Yelp, Yahoo!，搜狗和 AG 的数据集。

地址：https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

WikiText

源自高品质维基百科文章的大型语言建模语料库。Salesforce MetaMind 维护。

地址：http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

Question Pairs

Quora 发布的第一个数据集，包含副本/语义近似值标记。

地址：https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

SQuAD

斯坦福的问答社区数据集——适用范围较广的问题回答和阅读理解数据集。每一个回答都被作为一个 span，或者一段文本。

地址：https://rajpurkar.github.io/SQuAD-explorer/

CMU Q/A Dataset

人工创建的仿真陈述问题/回答组合，还有维基百科文章的难度评分。

地址：http://www.cs.cmu.edu/~ark/QA-data/

Maluuba Datasets

为 NLP 研究人工创建的复杂数据集。

地址：https://datasets.maluuba.com/

Billion Words

大型、通用型建模数据集。时常用来训练散布音（distributed）的词语表达，比如 word2vec 或 GloVe。

地址：http://www.statmt.org/lm-benchmark/

Common Crawl

PB（拍字节）级别的网络爬虫。最经常被用来学习词语嵌入。可从 Amazon S3 免费获取。对于 WWW 万维网的信息采集，是一个比较有用的网络数据集。

地址：http://commoncrawl.org/the-data/

bAbi

Facebook AI Research (FAIR) 推出的合成阅读理解和问题回答数据集。

地址：https://research.fb.com/projects/babi/

The Children's Book Test

Project Gutenberg（一项正版数字图书免费分享工程）儿童图书里提取的成对数据（问题加情境，回答）基准。对问答、阅读理解、仿真陈述（factoid）查询比较有用。

地址：https://research.fb.com/projects/babi/

Stanford Sentiment Treebank

标准的情绪数据集，对每一句话每一个节点的语法树，都有细致的情感注解。

地址：http://nlp.stanford.edu/sentiment/code.html

20 Newsgroups

一个较经典的文本分类数据集。通常作为纯粹分类或者对 IR / indexing 算法验证的基准，在这方面比较有用。

地址：http://qwone.com/~jason/20Newsgroups/

Reuters

较老的、基于纯粹分类的数据集。文本来自于路透社新闻专线。常被用于教程之中。

地址：https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

IMDB

较老的、相对比较小的数据集。用于情绪分类。但在文学基准方面逐渐失宠，让位于更大的数据集。

地址：http://ai.stanford.edu/~amaas/data/sentiment/

UCI’s Spambase

较老的、经典垃圾邮件数据集，源自于 UCI Machine Learning Repository。由于数据集的管理细节，在学习私人订制垃圾信息过滤方面，这会是一个有趣的基准。

地址：https://archive.ics.uci.edu/ml/datasets/Spambase

语音

大多数语音识别数据库都是专有的——这些数据对其所有公司而言有巨大价值。绝大部分该领域的公共数据集已经很老了。

2000 HUB5 English

来源: http://www.tuicool.com/articles/3EzQJbI

与本文相关文章

暂无,快来抢沙发吧！