这篇文章主要介绍了 Python 字符编码判断方法, 结合实例形式分析了 Python 字符编码的判断技巧, 并给出了 chardet 的安装与使用方法, 需要的朋友可以参考下
Python 是一种面向对象、解释型计算机程序设计语言,由 Guido van Rossum 于 1989 年底发明,第一个公开发行版发行于 1991 年。Python 语法简洁而清晰,具有丰富和强大的类库。它常被昵称为胶水语言,它能够把用其他语言制作的各种模块(尤其是 C/C++)很轻松地联结在一起。
本文实例讲述了 Python 字符编码判断方法。分享给大家供大家参考,具体如下:
方法一:
isinstance(s, str) 用来判断是否为一般字符串
isinstance(s, unicode) 用来判断是否为 unicode
或
- if type(str).__name__!="unicode":
- str=unicode(str,"utf-8")
- else:
- pass
方法二:
Python chardet 字符编码判断
使用 chardet 可以很方便的实现字符串 / 文件的编码检测。尤其是中文网页,有的页面使用 GBK/GB2312,有的使用 UTF8,如果你需要去爬一些页面,知道网页编码很重要的,虽然 html 页面有 charset 标签,但是有些时候是不对的。那么 chardet 就能帮我们大忙了。
chardet 实例
- >>> import urllib
- >>> rawdata = urllib.urlopen('http://www.google.cn/').read()
- >>> import chardet
- >>> chardet.detect(rawdata)
- {'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
- >>>chardet可以直接用detect函数来检测所给字符的编码。函数返回值为字典,有2个元数,一个是检测的可信度,另外一个就是检测到的编码。
chardet 安装
下载 chardet 后,解压 chardet 压缩包,直接将 chardet 文件夹放在应用程序目录下,就可以使用 import chardet 开始使用 chardet 了。
或者使用 setup.py 安装文件,将 chardet 拷贝到 Python 系统目录下,这样你所有的 python 程序只要用 import chardet 就可以了。
python setup.py install 参考
chardet 官网:{aa1aa}
chardet 下载页面:{aa0aa}
希望本文所述对大家 Python 程序设计有所帮助。
来源: http://www.phperz.com/article/17/0324/240666.html