I/O 在计算机中是指 Input/Output,也就是 Stream(流) 的输入和输出。这里的输入和输出是相对于内存来说的,Input Stream(输入流)是指数据从外(磁盘、网络)流进内存,Output Stream 是数据从内存流出到外面(磁盘、网络)。程序运行时,数据都是在内存中驻留,由 CPU 这个超快的计算核心来执行,涉及到数据交换的地方(通常是磁盘、网络操作)就需要 IO 接口。
操作系统是个通用的软件程序,其通用目的如下:
操作系统屏蔽了底层硬件,向上提供通用接口。因此,操作 I/O 的能力是由操作系统的提供的,每一种编程语言都会把操作系统提供的低级 C 接口封装起来供开发者使用,Python 也不例外。
文件读写就是一种常见的 IO 操作。那么根据上面的描述,可以推断 python 也应该封装操作系统的底层接口,直接提供了文件读写相关的操作方法。事实上,也确实如此,而且 Java、PHP 等其他语言也是。
由于操作 I/O 的能力是由操作系统提供的,且现代操作系统不允许普通程序直接操作磁盘,所以读写文件时需要请求操作系统打开一个对象(通常被称为文件描述符 --file descriptor, 简称 fd),这就是我们在程序中要操作的文件对象。
通常高级编程语言中会提供一个内置的函数,通过接收 "文件路径" 以及 "文件打开模式" 等参数来打开一个文件对象,并返回该文件对象的文件描述符。因此通过这个函数我们就可以获取要操作的文件对象了。这个内置函数在 Python 中叫 open(), 在 PHP 中叫 fopen(),
不同的编程语言读写文件的操作步骤大体都是一样的,都分为以下几个步骤:
- 1)打开文件,获取文件描述符
- 2)操作文件描述符--读/写
- 3)关闭文件
只是不同的编程语言提供的读写文件的 api 是不一样的,有些提供的功能比较丰富,有些比较简陋。
需要注意的是:。一方面,文件对象会占用操作系统的资源;另外一方面,操作系统对同一时间能打开的文件描述符的数量是有限制的,在 Linux 操作系统上可以通过
来查看这个显示数量。如果不及时关闭文件,还可能会造成数据丢失。因为我将数据写入文件时,操作系统不会立刻把数据写入磁盘,而是先把数据放到内存缓冲区异步写入磁盘。当调用 close 方法时,操作系统会保证把没有写入磁盘的数据全部写到磁盘上,否则可能会丢失数据。
- ulimit -n
我们先来看下在 Python、PHP 和 C 语言中打开文件的函数定义
- # Python2
- open(name[, mode[, buffering]])
- # Python3
- open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
- resource fopen ( string $filename , string $mode [, bool $use_include_path = false [, resource $context ]] )
- int open(const char * pathname, int flags);
会发现以上 3 种编程语言内置的打开文件的方法接收的参数中,除了都包含一个 "文件路径名称",还会包含一个 mode 参数(C 语言的 open 函数中的 flags 参数作用相似)。这么 mode 参数定义的是打开文件时的模式,常见的文件打开模式有:只读、只写、可读可写、只追加。不同的编程语言中对文件打开模式的定义有些微小的差别,我们来看下 Python 中的文件打开模式有哪些。
文件打开模式 | 描述 |
---|---|
r | 以只读模式打开文件,并将文件指针指向文件头;如果文件不存在会报错 |
w | 以只写模式打开文件,并将文件指针指向文件头;如果文件存在则将其内容清空,如果文件不存在则创建 |
a | 以只追加可写模式打开文件,并将文件指针指向文件尾部;如果文件不存在则创建 |
r+ | 在 r 的基础上增加了可写功能 |
w+ | 在 w 的基础上增加了可读功能 |
a+ | 在 a 的基础上增加了可读功能 |
b | 读写二进制文件(默认是 t,表示文本),需要与上面几种模式搭配使用,如 ab,wb, ab, ab+(POSIX 系统,包括 Linux 都会忽略该字符) |
关于这个问题,我查了很多资料,也没找到很权威的说明。在跟同行朋友交流过程中,发现大家主要有两种观点:
我们来读取这样一个文本文件:song.txt,该文件的字符编码为 utf-8。
- 匆匆那年我们 究竟说了几遍 再见之后再拖延
- 可惜谁有没有 爱过不是一场 七情上面的雄辩
- 匆匆那年我们 一时匆忙撂下 难以承受的诺言
- 只有等别人兑现
Python3 实现:
- # 第一步:(以只读模式)打开文件
- f = open('song.txt', 'r', encoding='utf-8')
- # 第二步:读取文件内容
- print(f.read())
- # 第三步:关闭文件
- f.close()
这里说下 Python2 的实现
- # 第一步:(以只读模式)打开文件
- f = open('song.txt', 'r')
- # 第二步:读取文件内容
- print(f.read().decode('utf-8'))
- # 第三步:关闭文件
- f.close()
说明:
Python3 中已经内置对 Unicode 的支持,字符串 str 已经是真正的 Unicode 字符串。也就是说 Python3 中的文件读取方法已经自动完成了解码处理,因此无需再手动进行解码,可以直接将读取的文件中的内容进行打印;Python2 中的字符串 str 是字节串,读取文件得到的也是字节串,在打印之前应该手动将其解码成 Unicode 字符串。关于这部分的说明,可以参考之前这篇文章。
在实现基本功能的前提下,考虑一些可能的意外因素。因为文件读写时都有可能产生 IO 错误(IOError),一旦出错,后面包括 f.close() 在内的所有代码都不会执行了。因此我们要保证文件无论如何都能被关闭。那么可以用 try...finally 来实现,这实际上就是 try...except..finally 的简化版(我们只用 Python3 来进行示例演示):
- f = ''
- try:
- f = open('song.txt', 'r', encoding='utf-8')
- print(f.read())
- num = 10 / 0
- finally:
- print('>>>>>>finally')
- if f:
- f.close()
输出结果:
- 匆匆那年我们 究竟说了几遍 再见之后再拖延
- 可惜谁有没有 爱过不是一场 七情上面的雄辩
- 匆匆那年我们 一时匆忙撂下 难以承受的诺言
- 只有等别人兑现
- >>>>>>finally
- Traceback (most recent call last):
- File "<stdin>", line 4, in <module>
- ZeroDivisionError: division by zero
输出结果说明,尽管 with 代码块中出现了异常,但是 ">>>>>>finally" 信息还是被打印了,说明 finally 代码块被执行,即文件关闭操作被执行。但是结果中错误信息还是被输出了,因此还是建议用一个完成的 try...except...finally 语句对异常信息进行捕获和处理。
为了避免忘记或者为了避免每次都要手动关闭文件,我们可以使用 with 语句(一种语法糖,语法糖语句通常是为了简化某些操作而设计的)。with 语句会在其代码块执行完毕之后自动关闭文件。因此我们可以这样来改写上面的程序:
- with open('song.txt', 'r', encoding='utf-8') as f:
- print(f.read())
- print(f.closed)
输出结果:
- 匆匆那年我们 究竟说了几遍 再见之后再拖延
- 可惜谁有没有 爱过不是一场 七情上面的雄辩
- 匆匆那年我们 一时匆忙撂下 难以承受的诺言
- 只有等别人兑现
- True
是不是变得简介多了,代码结构也比较清晰了。with 之后打印的 f.closed 属性值为 True,说明文件确实被关闭了。
要回答这个问题就要提到 "上下文管理器" 和 with 语句的工作流程。
with 语句不仅仅可以用于文件操作,它实际上是一个很通用的结构,允许使用所谓的上下文管理器(context manager)。上下文管理器是一种支持__enter__() 和__exit__() 这两个方法的对象。__enter__() 方法不带任何参数,它在进入 with 语句块的时候被调用,该方法的返回值会被赋值给 as 关键字之后的变量。__exit__() 方法带有 3 个参数:type(异常类型), value(异常信息), trace(异常栈),当 with 语句的代码块执行完毕或执行过程中因为异常而被终止都会调用__exit__() 方法。正常退出时该方法的 3 个参数都为 None,异常退出时该方法的 3 个参数会被分别赋值。如果__exit__() 方法返回值(真值测试结果)为 True 则表示异常已经被处理,命令执行结果中就不会抛出异常信息了;反之,如果__exit__() 方法返回值(真值测试结果)为 False,则表示异常没有被处理并且会向外抛出该异常。
现在我们应该明白了,异常信息会不会被处理是由 with 后的语句返回对象的__exit__() 方法决定的。文件可以被用作上下文管理器。它的__enter__方法返回文件对象本身,__exit__方法会关闭文件并返回 None。我们看下 file 类中关于这两个方法的实现:
- def __enter__(self): # real signature unknown; restored from __doc__
- """ __enter__() -> self. """
- return self
- def __exit__(self, *excinfo): # real signature unknown; restored from __doc__
- """ __exit__(*excinfo) -> None. Closes the file. """
- pass
可见,file 类的__exit__() 方法的返回值为 None,None 的真值测试结果为 False,因此用于文件读写的 with 语句代码块中的异常信息还是会被抛出来,需要我们自己去捕获并处理。
- with open('song.txt', 'r', encoding='utf-8') as f:
- print(f.read())
- num = 10 / 0
输出结果:
- 匆匆那年我们 究竟说了几遍 再见之后再拖延
- 可惜谁有没有 爱过不是一场 七情上面的雄辩
- 匆匆那年我们 一时匆忙撂下 难以承受的诺言
- 只有等别人兑现
- Traceback (most recent call last):
- File "<stdin>", line 3, in <module>
- ZeroDivisionError: division by zero
注意: 上面所说的__exit__() 方法返回值(真值测试结果)为 True 则表示异常已经被处理,指的是 with 代码块中出现的异常。它对于 with 关键字之后的代码中出现的异常是不起作用的,因为还没有进入上下文管理器就已经发生异常了。因此,无论如何,还是建议在必要的时候在 with 语句外面套上一层 try...except 来捕获和处理异常。
有关 "上下文管理器" 这个强大且高级的特性的更多信息,请参看 Python 参考手册中的上下文管理器部分。或者可以在 Python 库参考中查看上下文管理器和 contextlib 部分。
我们知道,对文件的读取操作需要将文件中的数据加载到内存中,而上面所用到的 read() 方法会一次性把文件中所有的内容全部加载到内存中。这明显是不合理的,当遇到一个几个 G 的的文件时,必然会耗光机器的内存。这里我们来介绍下 Python 中读取文件的相关方法:
方法 | 描述 |
---|---|
read() | 一次读取文件所有内容,返回一个 str |
read(size) | 每次最多读取指定长度的内容,返回一个 str;在 Python2 中 size 指定的是字节长度,在 Python3 中 size 指定的是字符长度 |
readlines() | 一次读取文件所有内容,按行返回一个 list |
readline() | 每次只读取一行内容 |
此外,还要两个与文件指针位置相关的方法
方法 | 描述 |
---|---|
seek(n) | 将文件指针移动到指定字节的位置 |
tell() | 获取当前文件指针所在字节位置 |
下面来看下操作实例
- with open('song.txt', 'r') as f:
- print(f.read(12).decode('utf-8'))
输出结果:
- 匆匆那年
- with open('song.txt', 'r', encoding='utf-8') as f:
- print(f.read(12))
输出结果:
- 匆匆那年我们 究竟说
- with open('song.txt', 'r', encoding='utf-8') as f:
- print(f.readline())
- with open('song.txt', 'r') as f:
- print(f.readline().decode('utf-8'))
输出结果都一样:
- 匆匆那年我们 究竟说了几遍 再见之后再拖延
这里我们只以 Python3 来进行实例操作,Python2 仅仅是需要在读取到内容后进行手动解码而已,上面已经有示例。
- with open('song.txt', 'r', encoding='utf-8') as f:
- for line in f.readlines():
- print(line)
输出结果:
- 匆匆那年我们 究竟说了几遍 再见之后再拖延
- 可惜谁有没有 爱过不是一场 七情上面的雄辩
- 匆匆那年我们 一时匆忙撂下 难以承受的诺言
- 只有等别人兑现
这种方式的缺点与 read() 方法是一样的,都是会消耗大量的内存空间。
- with open('song.txt', 'r', encoding='utf-8', newline='') as f:
- for line in f:
- print(line)
输出结果:
- 匆匆那年我们 究竟说了几遍 再见之后再拖延
- 可惜谁有没有 爱过不是一场 七情上面的雄辩
- 匆匆那年我们 一时匆忙撂下 难以承受的诺言
- 只有等别人兑现
另外,发现上面的输出结果中行与行之间多了一个空行。这是因为文件每一行的默认都有换行符,而 print() 方法也会输出换行,因此就多了一个空行。去掉空行也比较简单:可以用
去除字符串右边的换行符,也可以通过 print(line, end='') 避免 print 方法造成的换行。
- line.rstrip()
file 类的其他方法:
方法 | 描述 |
---|---|
flush() | 刷新缓冲区数据,将缓冲区中的数据立刻写入文件 |
next() | 返回文件下一行,这个方法也是 file 对象实例可以被当做迭代器使用的原因 |
truncate([size]) | 截取文件中指定字节数的内容,并覆盖保存到文件中,如果不指定 size 参数则文件将被清空; Python2 无返回值,Python3 返回新文件的内容字节数 |
write(str) | 将字符串写入文件,没有返回值 |
writelines(sequence) | 向文件写入一个字符串或一个字符串列表,如果字符串列表中的元素需要换行要自己加入换行符 |
fileno() | 返回一个整型的文件描述符,可以用于一些底层 IO 操作上(如,os 模块的 read 方法) |
isatty() | 判断文件是否被连接到一个虚拟终端,是则返回 True,否则返回 False |
前面已经写过一篇介绍 Python 中字符编码的相关文件 里面花了很大的篇幅介绍 Python 中字符串与字符编码的关系以及转换过程。其中谈到过两个指定的字符编码的地方,及其作用:
那么这里为什么又要谈起字符编码的问题呢?
或者换个问法,既然从上面已经指定了字符编码,为什么对文件进行读写时还要指定字符编码呢?从前面的描述可以看出:上面两个地方指定的是 Python 代码文件的字符编码,是给 Python 解释器和 Pycharm 等程序软用的;而被读写文件的字符编码与 Python 代码文件的字符编码没有必然联系,读写文件时指定的字符编码是给我们写的程序软件用的。这是不同的主体和过程,希望我说明白了。
读写文件时怎样指定字符编码呢?
上面解释了读写文件为什么要指定字符编码,这里要说下怎样指定字符编码(其实这里主要讨论是读取外部数据时的情形)。这个问题其实在上面的文件读取示例中已经使用过了,这里我们再详细的说一下。
首先,再次看一下 Python2 和 Python3 中 open 函数的定义:
- # Python2
- open(name[, mode[, buffering]])
- # Python3
- open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
可以看到,Python3 的 open 函数中多了几个参数,其中包括一个 encoding 参数。是的,这个 encoding 就是用来指定被操作文件的字符编码的。
- # 读操作
- with open('song.txt', 'r', encoding='utf-8') as f:
- print(f.read())
- # 写操作
- with open('song.txt', 'w', encoding='utf-8') as f:
- print(f.write('你好'))
那么 Python2 中怎样指定呢?Python2 中的对文件的 read 和 write 操作都是字节,也就说 Python2 中文件的 read 相关方法读取的是字节串(如果包含中文字符,会发现 len()方法的结果不等于读取到的字符个数,而是字节数)。如果我们要得到 正确的字符串,需要手动将读取到的结果 decode(解码)为字符串;相反,要以特定的字符编码保存要写入的数据时,需要手动 encode(编码)为字节串。这个 encode()和 decode()函数可以接收一个字符编码参数。Python3 中 read 和 write 操作的都是字符串,实际上是 Python 解释器帮我们自动完成了写入时的 encode(编码)和读取时的 decode(解码)操作,因此我们只需要在打开文件 (open 函数) 时指定字符编码就可以了。
- # 读操作
- with open('song.txt', 'r') as f:
- print(f.read().decode('utf-8'))
- # 写操作
- with open('song2.txt', 'w') as f:
- # f.write(u'你好'.encode('utf-8'))
- # f.write('你好'.decode('utf-8').encode('utf-8'))
- f.write('你好')
Python3 中 open 函数的 encoding 参数显然是可以不指定的,这时候就会用一个 "默认字符编码"。
看下 Python3 中 open 函数文档对 encoding 参数的说明:
- encoding is the name of the encoding used to decode or encode the
- file. This should only be used in text mode. The default encoding is
- platform dependent, but any encoding supported by Python can be
- passed. See the codecs module for the list of supported encodings.
也就是说,encoding 参数的默认值是与平台有关的,比如 Window 上默认字符编码为 GBK,Linux 上默认字符编码为 UTF-8。
而对于 Python2 来说,在进行文件写操作时,字节会被直接保存;在进行文件读操作时,如果不手动进行来 decode 操作自然也就用不着默认字符编码了。但是这时候在不同的字符终端打印的时候,会用当前平台的字符编码自动将字节解码为字符,此时可能会出现乱码。如 song.txt 文件时 UTF-8 编码的,在 windows(字符编码为 GBK)的命令行终端进行如下操作就会出现乱码:
- >>> with open('song.txt', 'r') as f:
- ... print(f.read())
- ...
- 鍖嗗寙閭e勾鎴戜滑 绌剁珶璇翠簡鍑犻亶 鍐嶈涔嬪悗鍐嶆嫋寤?
- 鍙儨璋佹湁娌℃湁 鐖辫繃涓嶆槸涓€鍦?涓冩儏涓婇潰鐨勯泟杈?
- 鍖嗗寙閭e勾鎴戜滑 涓€鏃跺寙蹇欐拏涓?闅句互鎵垮彈鐨勮瑷€
- 鍙湁绛夊埆浜哄厬鐜
我们应该尽可能的获取被操作文件的字符编码,并明确指定 encoding 参数的值。
来源: