Python 之所以能够成为数据分析与挖掘领域的最佳语言, 是有其独特的优势的. 因为他有很多这个领域相关的库可以用, 而且很好用, 比如 Numpy,SciPy,Matploglib,Pandas,ScikitLearn,keras,Gensim 等
1)Numpy, 它给 Python 提供了真正的数组功能, 包括多维数组, 以及对数据进行快速处理的函数, Numpy 还是更多高级扩展库的依赖库, 比如后续的 Scipy,Matplotlib,Pandas 等, 都一样;
2)Scipy, 他让 Python 成了半个 MATLAB,Scipy 提供了真正的矩阵类型, 及其大量基于矩阵运算的对象和函数, 他包括的功能包括最优化, 线性代数, 积分, 插值, 你和, 特殊函数, 快速傅里叶变换, 信号处理与图像处理, 常微分求解方程和其他科学与工程中常用的计算; Scipy 依赖于 Numpy;
3)Matplotlib, 对于 Python 来说, Matplotlib 是最著名的绘图库, 主要是二维绘图, 当然, 也可以支持一些简答的三围绘图;
4)Pandas, 他是 Python 下最强大的数据分析和探索工具, 没有之一. 他包含的高级的数据结构和精巧的工具, 使得在 Python 中处理数据非常快速和简单, Pandas 构建在 NumPy 之上, 他使得以 Numpy 为中心的应用很容易使用, Pandas 的名称来自于面板数据 (Panel Data) 和 Python 数据分析(Data Analysis), 他最初被作为金融数据分析工具而开发出来, 由 AQR Capital Management 公司于 2008 年 4 月开发出来, 并与 2009 年底开源;
他的功能非常强大, 支持类似于 SQL 的数据增删改查, 并且带有丰富的数据处理函数, 支持时间序列分析, 支持灵活处理确实数据等. Pandas 其实很复杂, 够单独写一本书, 如果对他有兴趣可以看看 Pandas 主要作者之一 WesMcKinney 写的《利用 Python 进行数据分析》一书.
5)StatModels,Pandas 着眼于数据的读取, 处理和探索, 而 StatsModels 则更加注重数据的统计建模和分析, 他使得 Python 有了 R 语言的味道. StatModels 支持与 Pandas 的数据交互, 因此, 他与 Pandas 结合, 成为了 Python 下强大的数据挖掘组合;
6)Scikit-Learn, 这是一个和机器学习有关的库, 他是 Python 下强大的及其学习工具包, 他提供了完善的及其学习工具箱, 包括: 数据预处理, 分类, 回归, 聚类, 预测和模型分析等. 他依赖于 NumPy,SciPy,Matplotlib 等;
7)Keras, 他是用来搭建神经网络的, 他并非简单的神经网络库, 而是一个基于 Theano 的强大的深度学习库, 利用它不仅仅可以搭建普通的神经网络, 还可以搭建各种深度学习模型, 如自编码器, 循环神经网络, 递归神经网络, 卷积神经网络等. 由于它是基于 Theano 的, 速度相当快.
8)Theano, 他也是一个 Python 库, 他是由深度学习专家 YoshuaBengio 带领的实验室开发出来的, 用来定义, 优化和高效地解决多维数组对应数学表达式的模拟估计问题. 他具有高效地实现符号分解, 高度优化的速度, 和稳定性等特点, 最重要的是还实现了 GPU 加速, 是的密集型数据的处理速度是 CPU 的十倍;
9)Gensim,topic modelling of humans, 他主要用来处理语言方面的任务, 如文本相似度计算, LDA,Word2Vec 等, 这些领域的任务往往需要比较多的背景知识, 通常的情况是: 研究这方面的读者已经不需要我再多说什么, 而不研究这方面的读者, 在这里也说不清楚.
来源: https://www.cnblogs.com/mayite/p/9657628.html