人生苦短, 我用 Python
前文传送门:
小白学 Python 数据分析(1): 数据分析基础 https://www.geekdigging.com/2020/01/19/6719980708/
概览
首先还是几个官方链接放一下:
Pandas 官网: https://pandas.pydata.org/
Pandas 中文网: https://www.pypandas.cn/
Pandas GitHub: https://github.com/pandas-dev/pandas
先介绍一下 Pandas , 在中文网上是这么描述的:
Pandas 是 Python 的核心数据分析支持库, 提供了快速, 灵活, 明确的数据结构, 旨在简单, 直观地处理关系型, 标记型数据. Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具, 其长远目标是成为最强大, 最灵活, 可以支持任何语言的开源数据分析工具. 经过多年不懈的努力, Pandas 离这个目标已经越来越近了.
总结一下, 就是 Python 数据分析离不开 Pandas , Pandas 已经上升成为 Python 的数据分析的支持库了.
那么 Pandas 所适用的数据类型如下:
与 SQL 或 Excel 表类似的, 含异构列的表格数据;
有序和无序 (非固定频率) 的时间序列数据;
带行列标签的矩阵数据, 包括同构或异构型数据;
任意其它形式的观测, 统计数据集, 数据转入 Pandas 数据结构时不必事先标记.
Pandas 有两种常用的数据结构, 一个是 Series (一维数据), 另一个是 DataFrame (二维数据). 两种数据结构足以处理金融, 统计, 社会科学, 工程等领域里的大多数典型用例.
那么什么是一维数据什么是二维数据呢?
简单理解下, 如果我们有一个数组, 如下:
[1, 2, 3, 4, 5]
这个数组可以称为一维数据.
那么二维数据是多个一维数据组成了一个二维数据, 比如多个一维数组, 如下:
- [[1, 2, 3, 4, 5],
- [1, 2, 3, 4, 5],
- [1, 2, 3, 4, 5],
- [1, 2, 3, 4, 5]]
这种数据也可以称之为表格数据, 既然是表格数据, 那么就会有表头, 可以参考 Excel , 如果有数据库使用经验的同学可以直接参考数据库中的表.
Pandas 是基于 Numpy 开发而成的, 可以与其它第三方科学计算支持库完美集成.
Pandas 的优势如下:
处理浮点与非浮点数据里的缺失数据, 表示为 NaN;
大小可变: 插入或删除 DataFrame 等多维对象的列;
自动, 显式数据对齐: 显式地将对象与一组标签对齐, 也可以忽略标签, 在 Series,DataFrame 计算时自动与数据对齐;
强大, 灵活的分组 (group by) 功能: 拆分 - 应用 - 组合数据集, 聚合, 转换数据;
把 Python 和 NumPy 数据结构里不规则, 不同索引的数据轻松地转换为 DataFrame 对象;
基于智能标签, 对大型数据集进行切片, 花式索引, 子集分解等操作;
直观地合并 (merge), 连接(join) 数据集;
灵活地重塑 (reshape), 透视(pivot) 数据集;
- Looking in indexes: https://mirrors.aliyun.com/pypi/simple/
- Collecting Pandas
- Downloading https://mirrors.aliyun.com/pypi/packages/02/d0/1e8e60e61e748338e3a40e42f5dfeee63ccdecfc4f0894122b890bfb009a/pandas-0.25.3-cp37-cp37m-win_amd64.whl (9.2MB)
- Requirement already satisfied: pytz>=2017.2 in c:\users\inwsy\appdata\local\programs\python\python37\lib\site-packages (from Pandas) (2019.2)
- Collecting python-dateutil>=2.6.1
- Downloading https://mirrors.aliyun.com/pypi/packages/d4/70/d60450c3dd48ef87586924207ae8907090de0b306af2bce5d134d78615cb/python_dateutil-2.8.1-py2.py3-none-any.whl (227kB)
- Collecting numpy>=1.13.3
- Downloading https://mirrors.aliyun.com/pypi/packages/a9/38/f6d6d8635d496d6b4ed5d8ca4b9f193d0edc59999c3a63779cbc38aa650f/numpy-1.18.1-cp37-cp37m-win_amd64.whl (12.8MB)
- Requirement already satisfied: six>=1.5 in c:\users\inwsy\appdata\roaming\python\python37\site-packages (from python-dateutil>=2.6.1->Pandas) (1.12.0)
- Installing collected packages: python-dateutil, numpy, Pandas
- Successfully installed Pandas-0.25.3 numpy-1.18.1 python-dateutil-2.8.1
来源: https://www.cnblogs.com/babycomeon/p/12262697.html