当前位置：

首页
/
IT
/
程序
/
Python
/
从零开始写 Python 爬虫

从零开始写 Python 爬虫

我是一名努力想做 coder 的小伙, 目前自学 Python 有大半年了, 期间也写过一些小的爬虫说起来当时想成为程序员就是因为无意间了解到爬虫这个神奇的东西这里会记录自己重新梳理学习 Python 爬虫的路线也希望能成为一篇不错的入门爬虫教程, 总之, 希望自己能坚持把这个系列专栏写完

学习之前需要哪些准备?

一颗热爱学习, 不屈不挠的心

一台有键盘的电脑(什么系统都行我用的 os x, 所以例子会以这个为准)

html 相关的一些知识不需要精通, 能懂一点就行

Python 的基础语法知识

如果我一点编程基础都没有怎么办?

现在开始学! Python 是一门非常适合做入门学习的语言

如果你没有任何其他编程语言的基础, 那么就来学 Python 吧

Life is short, Use Python

有什么推荐的入门教材么?

如何零基础自学入门 Python

笨办法学 Python

廖大的 Python3 教程

自强学堂的教程

菜鸟学习资

html 入门学习

看看知乎大 V 们是如何回答这个问题的?

具体的学习路线是什么?

总体分为三个大方面:

一: 简单的定向脚本爬虫(request - bs4 - re)

二: 大型框架式爬虫(Scrapy 框架为主)

三: 浏览器模拟爬虫 (Mechanize 模拟和 Selenium 模拟)

具体的步骤:

一: Beautiful Soup 爬虫

requests 库的安装与使用

安装 beautiful soup 爬虫环境

beautiful soup 的解析器

bs4 爬虫实践: 获取百度贴吧的内容

bs4 爬虫实践: 获取 Dota 游戏结果

bs4 爬虫实践: 小说批量下载

bs4 爬虫实践: 获取电影信息

bs4 爬虫实践: 获取悦音台榜单

二: Scrapy 爬虫框架

安装 Scrapy

Scrapy 中的选择器 Xpath 和 CSS

Scrapy 爬虫实践: 天气预报 & 数据存储

Scrapy 爬虫实践: 代理获取和验证

Scrapy 爬虫实践: 糗事百科

Scrapy 爬虫实践: 重构排行榜小说爬虫 & Mysql 数据库

三: 浏览器模拟爬虫

Selenium 模块的安装与使用

Selenium & PhantomJS 实践: 获取代理

Selenium & PhantomJS 实践: 漫画爬虫

四: 练手项目:

爬虫实践: 螺纹钢数据 & Cookies

爬虫实践: 登录正方教务系统

爬虫应用: requests+django 实现微信公众号后台

爬虫应用: 12306 火车票信息查询

爬虫应用: 利用斗鱼 Api 抓取弹幕

爬虫应用: 获取支付宝账单信息

爬虫应用: IT 之家热门段子 (评论) 爬取

爬虫应用: 一号店商品信息查询程序

从零开始写 Python 爬虫 --- 老司机开夜车刹都刹不住

公司里是怎么做数据抓取的? --- 搜狗词库抓取 & 解析

五: 自己写点小工具:

爬虫存储海量数据太麻烦? 换个姿势试一试!

爬虫会用到的小工具: LazySpider 发布啦!

每天的学习记录都会同步更新到:

微信公众号: findyourownway

知乎专栏: 从零开始写 Python 爬虫 - 知乎专栏

blog : Ehco Blog

来源: http://www.92to.com/bangong/2018/02-03/33263590.html

与本文相关文章

暂无,快来抢沙发吧！