摘要: 本文概述了学习数据挖掘与数据科学的七个步骤,每一步都给出了详细的学习资源,便于初学者按照指南开展数据挖掘与数据科学的学习.
想知道如何学习数据挖掘和数据科学吗?本文概述了七个步骤,指出的资源能让你成为一名数据科学家.
作者为 Gregory Piatetsky,是一名数据挖掘与数据科学方面的专家.
以下为 7 个步骤用于学习数据挖掘和数据科学.虽然有编号顺序,你也可以并行或以不同的顺序学习:
1 语音:学习 R,Python 以及 SQL 语音;
2 工具:了解如何使用数据挖掘和可视化工具;
3 教材:阅读介绍性的教科书,了解基础知识;
4 教育:观看网络研讨会,参加课程,考虑获得数据科学中的证书或学位;
5 数据:检查可用的数据资源并在那里找到东西;
6 竞赛:参加数据挖掘竞赛;
7 通过社交网络,团体和会议与其他数据科学家交流;
另外,不要忘记订阅 KDnuggets 新闻邮件,并跟随 @kdnuggets 了解关于分析,大数据,数据挖掘和数据科学的最新消息.
交互使用数据挖掘与数据科学--见我的 分析行业概览 报告,报告中有关于相关术语的演变和普及,比如统计,知识发现,数据挖掘,预测分析,数据科学以及大数据.
1 学习语言
民意调查表明, 数据挖掘最流行的语言 是 R,Python 和 SQL 语言.
这里有很多的资源,比如:
免费电子书资源关于 R 语音的数据科学 ;
Python 数据科学入门 ;
Python 数据分析 :现实世界数据的灵活工具;
不可或缺的 Python:数据源到数据科学 ;
W3 学校学习 SQL ;
2 工具:数据挖掘,数据科学和可视化软件
许多的数据挖掘工具应用于不同的任务,但最好是使用支持数据分析的整个过程的数据挖掘套件.
你可以使用开源(免费)的工具,如启动 KNIME , RapidMiner 和 Weka .
然而,对于许多分析工作还需要知道 SAS ,它是全球领先的商业工具并得到广泛应用.
其他受欢迎的 分析和数据挖掘软件 包括 MATLAB,StatSoft 推出 STATISTICA,Microsoft SQL Server,IBM SPSS Modeler 以及 Rattle.
可视化是任何数据分析的重要组成部分--学习如何使用 Microsoft Excel, R graphics ,以及 Tableau .其它好的可视化工具包括 TIBCO Spotfire 和 Miner3D.
3 教材
网络上有很多的 数据挖掘和数据科学教材 ,但你可以参考以下这些:
数据挖掘与分析:基本概念与算法 数据挖掘:机器学习工具实践与方法 统计学习,数据挖掘以及预测的要素 LION 书籍:学习与智能优化 大数据集挖掘 StatSoft 推出的电子统计教材
4 教育:网络研讨会,课程,证书以及学位
可以通过观看一些许多免费的关于数据分析,大数据,数据挖掘和数据科学的网 络研讨会和网络直播 开始学习.
也有许多短期和长期的在线课程,其中许多是免费的 - 见 KDnuggets 在线教育目录 .
特别参考以下课程:
机器学习
从数据中学习
开放式在线学习应用数据科学
使用 Weka 进行数据挖掘
本文作者的数据挖掘课程
最后,考虑获得关于 数据挖掘和数据科学的证书 或高级学位,如 MS - 见 KDnuggets 关于分析,数据挖掘和数据科学教育的目录 .
5 数据
你需要数据进行分析 - 见 KDnuggets 关于数据挖掘的目录 ,包含:
政府,联邦,州,城市,本地和公共数据站点和门户
数据 API,集线器,商场,平台,门户和搜索引擎
免费公共数据集
6 竞争
再一次强调,最好是边学边做,所以在学习的同时也可以参加 Kaggle 竞赛 - 从初学者竞赛开始,比如 使用机器学习预测泰坦尼克号生存 .
7 交流:会议,团体和社交网络
你可以加入许多同类团体 - 见 关于分析,大数据,数据挖掘以及数据科学前 30 的 LinkedIn 组织 .
AnalyticBridge 是一个分析和数据科学活跃的社区.
你也可以参加一些关于 分析,大数据,数据挖掘,数据科学与知识发现的会议和研讨会 .
此外,考虑加入 ACM SIGKDD ,它会举办一年一度的 KDD 大会--该领域领先的研究会议.
更多......
还可以参考其它的回答:
如何开始学习数据科学 关于数据科学的使用简介 通过 Metromap 课程成为一名数据科学家 获取免费数据科学教育
本文由北邮阿里云云栖社区组织翻译.
文章原标题《7 Steps for Learning Data Mining and Data Science》,作者:Gregory Piatetsky
来源: http://www.jianshu.com/p/d858406521cb