用 Python 搞机器学习, 数据科学, 需要很多相关的资料, 各种库, 工具, 都是常用, 常找, 常查的内容.
最近, 维也纳的数据科学家 Florian Rohrer 把这类相关资料整理成了一个 Python 机器学习工具合辑, 可以照着更新一下自己的收藏夹了.
四十几类项目
整个列表中, 包含超过 40 类内容:
核心工具, Pandas 和 Jupyter, 文本提取, 大数据, 统计, 特征提取, 可视化, 地理工具, 推荐系统, 决策树, NLP,CV, 神经网络, GPU, 聚类, 机器学习可解释性, 强化学习......
具体都有什么呢? 比如第一部分核心工具:
pandas,scikit-learn 这些常用的库都有, 直接链接到它们的 GitHub 或者官网页面.
再比如说可视化部分:
包括可以生成 3D 效果图的 physt:
做各种统计图表的 Yellowbrick:
这哪怕是做 PPT, 都非常有用啊!
资源列表大集结
另外, 项目贡献者还安利了几个 GitHub 上不错的资源列表:
大部分都是几百几千星的资源表, 也有不少标星数万的经典内容, 比如 awesome-machine-learning:
各种语言项目都有, 是真的 awesome.
常用代码
最后, 还有一个部分是 "经常 Google 的内容".
可能对大家有用的代码:
传送门
最后, 送上资源传送门:
https://github.com/r0f1/datascience
来源: http://ai.51cto.com/art/201904/594753.htm