为什么爬虫要用 Chrome?
为什么大家似乎都值得 header 应该怎么写?
为什么大家都知道怎么爬取网页的路线?
为什么....
如果你也跟我一样, 有过上面类似的疑问, 那么我觉得, 这篇文章你可能值得看一下水平有限, 如果有差错还望指出
用 Chrome 很容易看到网页的源码
轻松右键 -> 检查 就可以看到这个源代码
爬虫 1.gif
检查中还可以看网页从服务器上不断加载包
虽然一开始我们点开的时候, 网页其实已经加载好了对于所谓的静态网页在这个地方其实已经加载好了 (百度的首页, 一般会被认为是静态网页)
但是还可以通过这个来看 比如: 刷新一下网页~
不过, 在那之前, 我们要点之前检查的最上面的 network, 一般默认是选中 All 模式的, 在中间偏上的部分点好之后, 我们就可以刷新了
爬虫 2.gif
有趣的事就这样开始了~
比如: 我们可以检查之前的那个包
就可以看那些包的具体信息那样, 我们就可以得到了所有很多重要的信息了
爬虫 3.gif
比如像上面的我们可以看到这个信息, 是通过上面 header 拿到的不过这个, 有些会把这个给隐藏掉但基本是没有问题的, 一般我们只要知道一个就好了
还有其他的骚操作, 比如: 看看这个包是怎么拿下来的, 这样我们就可以特定地拿数据了
比如, 我们选择之前拿到的那些图片 (百度官网图片)
爬虫 4.gif
通过这个 gif, 我们可以看到这个, 用的是
https://www.baidu.com/img/bd_logo1.png
这个 url, 请求的方法是 get
还可以得到对方的服务器地址
比如在之前的那个 gif 中, 下面就放了 remote Address 这个就是远端的地址
此外, 还可以通过那个 preview 来预览一下这个信息包的内容
爬虫 5.gif
最后还可以通过最后的 tim 来看一下这个东西下载所用的时间
(可以算是测测速?)
爬虫 6.gif
来源: http://www.jianshu.com/p/f765878b479b