编码
unicode, 万国码, 统一码, 为每种语言的每个字符设定了统一并且唯一的二进制编码, 满足跨平台跨语言的文本转换;
utf-8-8-bit Unicode Transformation Format, 针对 Unicode 的可变长度字符编码
ascii 码: American Standard Code for Information Interchange, 美国信息交换标准代码
GBK - 汉字编码字符集
哈希表 - 是根据关键码值 (Key value) 而直接进行访问的数据结构
对象是有类创建的;
类有多少方法, 对象就有多少功能
set 集合, 不允许重复的元素出现
访问速度快, 解决了重复问题
创建: 通过类来创建
- s1 = set()
- s1.add(aaa)
- print(s1)
- s1.add(ccc)
- print(s1)
爬虫: 请求页面, 拿到源码, 把元素拿过来, 找商品名称, 找价格
爬虫有入口, 找所有的链接, 访问过就放 set 里面
最后 判断 set 里有没有 url 就可以了;
cmdb: 采集硬件资产
交集差集
- s1 = set([11,22,33])
- s2 = set([44,55])
- s3 = s1.difference(s2)
- s4 = s1.difference_update(s2)
- s5 = s1.symmetric_difference(s2)
- print(s3)
- print(s4)
- print(s5)
collections 系列, 集合
Counter 计数器, 对字典类型补充, 对值出现的次数的统计, 继承了 collection 类
- a = collections.Counter(aaaafdsfdsfsdfds)
- print(a)
- Counter({a: 4, f: 4, d: 4, s: 4})
有序字典 orderedDict
python 笔记 - set
来源: http://www.bubuko.com/infodetail-2489928.html