- 主要是对http://www.cnblogs.com/zhaof/p/6935473.html这篇博客所做的笔记
- 有疑惑可以去看这篇文章
- from pyquery import PyQuery as py
- 初始化的三种方式
- doc = py(html)
- doc = py(url="",encoding = 'utf-8')
- doc = py(filename = "index.html")
- 利用CSS选择器
- content = doc()-->括号中加入相关selector
- .class 类名
- #id id名
- * 全部
- element 标签名
- element1,element2 所有含element1和element2标签名的节点
- element1 element2 在element1 中的 elenemt2标签
- [element] 属性为element
- [name = value] name属性为value的节点
- 注意:当紧挨着时,表示是并,也就是同时满足
- 查找元素 ——可以使用css选择器
- 对于子元素:children() find() ——可以使用css选择器
- 对于父元素:parent() parents()
- 对于兄弟元素:siblings()
- 获取信息
- 获取属性
- pyquery对象.attr(属性名)
- pyquery对象.attr.属性名
- 获取文本
- 在很多时候我们是需要获取被html标签包含的文本信息,通过.text()就可以获取文本信息
- 获取html
- 我们通过.html()的方式可以获取当前标签所包含的html信息
- remove
- 有时候我们获取文本信息的时候可能并列的会有一些其他标签干扰,
- 这个时候通过remove就可以将无用的或者干扰的标签直接删除,从而方便操作
来源: http://www.bubuko.com/infodetail-2434786.html