网页源码
打开网页, 按快捷键 [Ctrl+U] 打开源码页面
HTML 是整个网页的结构, 相当于整个网站的框架. 带 "<",">" 符号的都是属于 HTML 的标签, 并且标签都是成对出现的
常见的标签如下:
<HTML>..</HTML> 表示标记中间的元素是网页
- <body>
- ..
- </body>
- 表示用户可见的内容
- <div>
- ..
- </div>
- 表示框架
- <p>
- ..
- </p>
- 表示段落
- <li>
- ..
- </li>
- 表示列表
- <img>
- ..
- </img>
- 表示图片
- <h1>
- ..
- </h1>
- 表示标题
- <a href="">
- ..
- </a>
- 表示超链接 HTML
HTML 示例
本地超链接可以为相对路径, 也可以为绝对路径.
图片的地址可以为相对路径, 也可以为绝对路径.
- <HTML>
- <head>
- <title > 这是 HTML 测试页面的主题 </title>
- </head>
- <body>
- <div>
- <h1 > 这是标题 </h1>
- <p > 这是正文 </p>
- </div>
- <div>
- <ul>
- <li > 这是一个列表 </li>
- <li><a href='https://www.dytt8.net/index0.html'> 这是一个网络超链接 </a></li>
- <li><a href='1.html'> 这是一个本地超链接 </a></li>
- <li > 下面这个是一张图片 </li>
- <img src="20120830173930_PBfJE.jpeg" alt="如果图像无法显示, 将显示这个" />
- </ul>
- </div>
- </body>
- </HTML>
输入代码后, 保存记事本, 然后修改文件名和后缀名为 "HTML.html", 效果如下:
爬虫的合法性
每一个网站都有一个名为 robots.txt 的文档, 当然也有部分网站没有设定 robots.txt. 对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据, 也就是该网站所有页面数据都可以爬取. 如果网站有 robots.txt 文档, 就要判断是否有禁止访客获取的数据.
允许部分爬虫访问它的部分路径, 而对于没有得到允许的, 则全部禁止爬取
来源: http://www.bubuko.com/infodetail-3319600.html