我是一名努力想做 coder 的小伙, 目前自学 Python 有大半年了, 期间也写过一些小的爬虫说起来当时想成为程序员就是因为无意间了解到 爬虫 这个神奇的东西这里会记录自己 重新梳理 学习 Python 爬虫的路线也希望能成为一篇不错的入门爬虫教程, 总之, 希望自己能坚持把这个系列专栏写完
学习之前需要哪些准备?
一颗热爱学习, 不屈不挠的心
一台有键盘的电脑(什么系统都行我用的 os x, 所以例子会以这个为准)
html 相关的一些知识不需要精通, 能懂一点就行
Python 的基础语法知识
如果我一点编程基础都没有怎么办?
现在开始学! Python 是一门非常适合做入门学习的语言
如果你没有任何其他编程语言的基础, 那么就来学 Python 吧
Life is short, Use Python
有什么推荐的入门教材么?
如何零基础自学入门 Python
笨办法学 Python
廖大的 Python3 教程
自强学堂的教程
菜鸟学习资
html 入门学习
看看知乎大 V 们是如何回答这个问题的?
具体的学习路线是什么?
总体分为三个大方面:
一: 简单的定向脚本爬虫(request - bs4 - re)
二: 大型框架式爬虫(Scrapy 框架为主)
三: 浏览器模拟爬虫 (Mechanize 模拟 和 Selenium 模拟)
具体的步骤:
一: Beautiful Soup 爬虫
requests 库的安装与使用
安装 beautiful soup 爬虫环境
beautiful soup 的解析器
bs4 爬虫实践: 获取百度贴吧的内容
bs4 爬虫实践: 获取 Dota 游戏结果
bs4 爬虫实践: 小说批量下载
bs4 爬虫实践: 获取电影信息
bs4 爬虫实践: 获取悦音台榜单
二: Scrapy 爬虫框架
安装 Scrapy
Scrapy 中的选择器 Xpath 和 CSS
Scrapy 爬虫实践: 天气预报 & 数据存储
Scrapy 爬虫实践: 代理获取和验证
Scrapy 爬虫实践: 糗事百科
Scrapy 爬虫实践: 重构排行榜小说爬虫 & Mysql 数据库
三: 浏览器模拟爬虫
Selenium 模块的安装与使用
Selenium & PhantomJS 实践: 获取代理
Selenium & PhantomJS 实践: 漫画爬虫
四: 练手项目:
爬虫实践: 螺纹钢数据 & Cookies
爬虫实践: 登录正方教务系统
爬虫应用: requests+django 实现微信公众号后台
爬虫应用: 12306 火车票信息查询
爬虫应用: 利用斗鱼 Api 抓取弹幕
爬虫应用: 获取支付宝账单信息
爬虫应用: IT 之家热门段子 (评论) 爬取
爬虫应用: 一号店 商品信息查询程序
从零开始写 Python 爬虫 --- 老司机开夜车 刹都刹不住
公司里是怎么做数据抓取的? --- 搜狗词库抓取 & 解析
五: 自己写点小工具:
爬虫存储海量数据太麻烦? 换个姿势试一试!
爬虫会用到的小工具: LazySpider 发布啦!
每天的学习记录都会同步更新到:
微信公众号: findyourownway
知乎专栏: 从零开始写 Python 爬虫 - 知乎专栏
blog : Ehco Blog
来源: http://www.92to.com/bangong/2018/02-03/33263590.html