python 爬虫入门 --- 获取某一网站所有超链接

需要先安装 requests 库和 bs4 库

import requests
from bs4 import BeautifulSoup
def gethtmlText(url):
    try:
        #获取服务器的响应内容, 并设置最大请求时间为 6 秒
        res = requests.get(url, timeout = 6)
        #判断返回状态码是否为 200
        res.raise_for_status()
        #设置真正的编码
        res.encoding = res.apparent_encoding
        #返回网页 HTML 代码
        return res.text
    except:
        return '产生异常'
# 目标网页
url = 'https://www.cnblogs.com/huwt/'
demo = getHTMLText(url)
# 解析 HTML 代码
soup = BeautifulSoup(demo, 'html.parser')
# 模糊搜索 HTML 代码的所有 < a > 标签
a_labels = soup.find_all('a')
# 获取所有 < a > 标签中的 href 对应的值, 即超链接
for a in a_labels:
    print(a.get('href'))

来源: http://www.bubuko.com/infodetail-2946959.html

与本文相关文章

暂无,快来抢沙发吧！