python 爬虫基础学习笔记

#检测 tr 的类型, 如果不是标签类型, 则过滤(避免遍历到字符串内容)isinstance 判断变量类型
tds = tr('td') #等价于 tr.find(...)>>>查找 td 标签  (返回的对象是 list)
            #print(tds)         #检验使用: 查看 tds 内容
            #tds 此时得到了 url 的 html 中所有 tr 中 td 标签的 HTML 格式(list 格式返回)
ulist.append([tds[0].string, tds[1].string, tds[3].string])
            #将 tds 中需要的数据 (只提取. string>> 字符串 区域)存入 ulist 列表中
def uitUlist(ulist,num):
print("{:^16}\t{:^16}\t{:^16}".format("排名","学校名称","总分"))
for i in range(num):
u = ulist[i]
print("{:^16}\t{:^16}\t{:^16}".format(u[0],u[1],u[2]))
def main():
ulist = []
url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html"
demo = getHTML(url)
uitHTML(ulist,demo)
uitUlist(ulist,20)
main()

来源: http://www.bubuko.com/infodetail-2864509.html

与本文相关文章

暂无,快来抢沙发吧！