python 爬取准备一了解 HTML

网页源码

打开网页, 按快捷键 [Ctrl+U] 打开源码页面

HTML 是整个网页的结构, 相当于整个网站的框架. 带 "＜","＞" 符号的都是属于 HTML 的标签, 并且标签都是成对出现的

常见的标签如下:

<HTML>..</HTML> 表示标记中间的元素是网页

<body>
  ..
</body>
表示用户可见的内容
<div>
  ..
</div>
表示框架
<p>
  ..
</p>
表示段落
<li>
  ..
</li>
表示列表
<img>
..
</img>
表示图片
<h1>
  ..
</h1>
表示标题
<a href="">
  ..
</a>
表示超链接 HTML

HTML 示例

本地超链接可以为相对路径, 也可以为绝对路径.

图片的地址可以为相对路径, 也可以为绝对路径.

<HTML>
    <head>
          <title > 这是 HTML 测试页面的主题 </title>
    </head>
    <body>
          <div>
              <h1 > 这是标题 </h1>
              <p > 这是正文 </p>
          </div>
          <div>
              <ul>
                  <li > 这是一个列表 </li>
                  <li><a href='https://www.dytt8.net/index0.html'> 这是一个网络超链接 </a></li>
                  <li><a href='1.html'> 这是一个本地超链接 </a></li>
                  <li > 下面这个是一张图片 </li>
                  <img src="20120830173930_PBfJE.jpeg" alt="如果图像无法显示, 将显示这个" />
              </ul>
         </div>
    </body>
    </HTML>

输入代码后, 保存记事本, 然后修改文件名和后缀名为 "HTML.html", 效果如下:

爬虫的合法性

每一个网站都有一个名为 robots.txt 的文档, 当然也有部分网站没有设定 robots.txt. 对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据, 也就是该网站所有页面数据都可以爬取. 如果网站有 robots.txt 文档, 就要判断是否有禁止访客获取的数据.

允许部分爬虫访问它的部分路径, 而对于没有得到允许的, 则全部禁止爬取

来源: http://www.bubuko.com/infodetail-3319600.html

与本文相关文章

暂无,快来抢沙发吧！

python 爬取准备一 了解 HTML

与本文相关文章

python 爬取准备一了解 HTML