另类爬取表格数据

import pandas as pd
df = pd.read_html("http://www.air-level.com/air/beijing/", encoding='utf-8',header=0)[0]
results = df.T.to_dict().values()
print(results)

代码很简单但是实现的内容可不简单, 第一行导入 pandas 包,

第二行的 read_html 核心功能实现是调用 requests 然后解析 table 标签里的每个 td 的数据

最后生成一个 list 对象里面是 dataframe 对象. 所以通过小标 0 获取它的第一个 dataframe 数据, 既然是 dateframe 我们就可以使用 dataframe 的方法了,

第三行首先做了个转秩操作, 然后转为映射类型打印出来了. 上面的代码为了演示其效果, 下面我们对结果做一个存储操作

df = pd.read_html("http://www.air-level.com/air/beijing/", encoding='utf-8',header=0)[0]
df.to_csv("tq.csv",index=False)

成功的获取了网页表格的数据.

需要注意的是 read_html 只能解析静态页面.

来源: http://www.bubuko.com/infodetail-2938863.html

与本文相关文章

暂无,快来抢沙发吧！