本节内容:
I/O 操作概述
文件读写实现原理与操作步骤
文件打开模式
Python 文件操作步骤示例
Python 文件读取相关方法
文件读写与字符编码
一,I/O 操作概述
I/O 在计算机中是指 Input/Output,也就是 Stream(流) 的输入和输出.这里的输入和输出是相对于内存来说的,Input Stream(输入流)是指数据从外(磁盘,网络)流进内存,Output Stream 是数据从内存流出到外面(磁盘,网络).程序运行时,数据都是在内存中驻留,由 CPU 这个超快的计算核心来执行,涉及到数据交换的地方(通常是磁盘,网络操作)就需要 IO 接口.
那么这个 IO 接口是由谁提供呢?高级编程语言中的 IO 操作是如何实现的呢?
操作系统是个通用的软件程序,其通用目的如下:
硬件驱动
进程管理
内存管理
网络管理
安全管理
I/O 管理
操作系统屏蔽了底层硬件,向上提供通用接口.因此,操作 I/O 的能力是由操作系统的提供的,每一种编程语言都会把操作系统提供的低级 C 接口封装起来供开发者使用,Python 也不例外.
二,文件读写实现原理与操作步骤
1. 文件读写实现原理
文件读写就是一种常见的 IO 操作.那么根据上面的描述,可以推断 python 也应该封装操作系统的底层接口,直接提供了文件读写相关的操作方法.事实上,也确实如此,而且 Java,PHP 等其他语言也是.
那么我们要操作的对象是什么呢?我们又如何获取要操作的对象呢?
由于操作 I/O 的能力是由操作系统提供的,且现代操作系统不允许普通程序直接操作磁盘,所以读写文件时需要请求操作系统打开一个对象(通常被称为文件描述符 --file descriptor, 简称 fd),这就是我们在程序中要操作的文件对象.
通常高级编程语言中会提供一个内置的函数,通过接收 "文件路径" 以及 "文件打开模式" 等参数来打开一个文件对象,并返回该文件对象的文件描述符.因此通过这个函数我们就可以获取要操作的文件对象了.这个内置函数在 Python 中叫 open(), 在 PHP 中叫 fopen(),
2. 文件读写操作步骤
不同的编程语言读写文件的操作步骤大体都是一样的,都分为以下几个步骤:
)打开文件,获取文件描述符
)操作文件描述符--读/写
)关闭文件
只是不同的编程语言提供的读写文件的 api 是不一样的,有些提供的功能比较丰富,有些比较简陋.
需要注意的是:文件读写操作完成后,应该及时关闭.一方面,文件对象会占用操作系统的资源;另外一方面,操作系统对同一时间能打开的文件描述符的数量是有限制的,在 Linux 操作系统上可以通过 ulimit -n 来查看这个显示数量.如果不及时关闭文件,还可能会造成数据丢失.因为我将数据写入文件时,操作系统不会立刻把数据写入磁盘,而是先把数据放到内存缓冲区异步写入磁盘.当调用 close 方法时,操作系统会保证把没有写入磁盘的数据全部写到磁盘上,否则可能会丢失数据.
三,文件打开模式
我们先来看下在 Python,PHP 和 C 语言中打开文件的函数定义
C 语言
Python
# Python2
open(name[, mode[, buffering]])
# Python3
open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
PHP
resource fopen(string $filename, string $mode[, bool $use_include_path = false[, resource $context]])
int open(const char * pathname, int flags);
会发现以上 3 种编程语言内置的打开文件的方法接收的参数中,除了都包含一个 "文件路径名称",还会包含一个 mode 参数(C 语言的 open 函数中的 flags 参数作用相似).这么 mode 参数定义的是打开文件时的模式,常见的文件打开模式有:只读,只写,可读可写,只追加.不同的编程语言中对文件打开模式的定义有些微小的差别,我们来看下 Python 中的文件打开模式有哪些.
文件打开模式 描述
r 以只读模式打开文件,并将文件指针指向文件头;如果文件不存在会报错
w 以只写模式打开文件,并将文件指针指向文件头;如果文件存在则将其内容清空,如果文件不存在则创建
a 以只追加可写模式打开文件,并将文件指针指向文件尾部;如果文件不存在则创建
r+ 在 r 的基础上增加了可写功能
w+ 在 w 的基础上增加了可读功能
a+ 在 a 的基础上增加了可读功能
b 读写二进制文件(默认是 t,表示文本),需要与上面几种模式搭配使用,如 ab,wb, ab, ab+(POSIX 系统,包括 Linux 都会忽略该字符)
思考 1: r+,w + 和 a + 都可以实现对文件的读写,那么他们有什么区别呢?
r + 会覆盖当前文件指针所在位置的字符,如原来文件内容是 "Hello,World",打开文件后写入 "hi" 则文件内容会变成 "hillo, World"
w + 与 r + 的不同是,w + 在打开文件时就会先将文件内容清空,不知道它有什么用
a + 与 r + 的不同是,a + 只能写到文件末尾(无论当前文件指针在哪里)
思考 2: 为什么要定义这些模式呢?为什么不能像我们用 word 打开一篇文档一样既可以读,又可以写,还可修改呢?
关于这个问题,我查了很多资料,也没找到很权威的说明.在跟同行朋友交流过程中,发现大家主要有两种观点:
跟安全有关,有这种观点的大部分是做运维的朋友,他们认为这就像 linux 上的 rwx(读,写,执行)权限.
跟操作系统内核管理 I/O 的机制有关,有这种观点的大部分是做 C 开发的,特别是与内核相关的开发人员.为了提高读写速度,要写入磁盘的数据会先放进内存缓冲区,之后再回写.由于可能会同时打开很多文件,当要回写数据时,需要遍历以打开的文件判断是否需要回写.他们认为如果打开文件时指定了读写模式,那么需要回写时,只要去查找以 "可写模式" 打开的文件就可以了.
四,Python 文件操作步骤示例
我们来读取这样一个文本文件:song.txt,该文件的字符编码为 utf-8.
匆匆那年我们 究竟说了几遍 再见之后再拖延
可惜谁有没有 爱过不是一场 七情上面的雄辩
匆匆那年我们 一时匆忙撂下 难以承受的诺言
只有等别人兑现
1. 菜鸟实现(只是实现功能):
Python3 实现:
这里说下 Python2 的实现
# 第一步:(以只读模式)打开文件
f = open('song.txt', 'r', encoding='utf-8')
# 第二步:读取文件内容
print(f.read())
# 第三步:关闭文件
f.close()
说明:
# 第一步:(以只读模式)打开文件
f = open('song.txt', 'r')
# 第二步:读取文件内容
print(f.read().decode('utf-8'))
# 第三步:关闭文件
f.close()
Python3 中已经内置对 Unicode 的支持,字符串 str 已经是真正的 Unicode 字符串.也就是说 Python3 中的文件读取方法已经自动完成了解码处理,因此无需再手动进行解码,可以直接将读取的文件中的内容进行打印;Python2 中的字符串 str 是字节串,读取文件得到的也是字节串,在打印之前应该手动将其解码成 Unicode 字符串.关于这部分的说明,可以参考之前这篇文章 <<再谈 Python 中的字符串与字符编码>> .
2. 中级实现
在实现基本功能的前提下,考虑一些可能的意外因素.因为文件读写时都有可能产生 IO 错误(IOError),一旦出错,后面包括 f.close() 在内的所有代码都不会执行了.因此我们要保证文件无论如何都能被关闭.那么可以用 try...finally 来实现,这实际上就是 try...except..finally 的简化版(我们只用 Python3 来进行示例演示):
输出结果:
f = ''
try:
f = open('song.txt', 'r', encoding='utf-8')
print(f.read())
num = 10 / 0
finally:
print('>>>>>>finally')
if f:
f.close()
匆匆那年我们 究竟说了几遍 再见之后再拖延
可惜谁有没有 爱过不是一场 七情上面的雄辩
匆匆那年我们 一时匆忙撂下 难以承受的诺言
只有等别人兑现
输出结果说明,尽管 with 代码块中出现了异常,但是 ">>>>>>finally" 信息还是被打印了,说明 finally 代码块被执行,即文件关闭操作被执行.但是结果中错误信息还是被输出了,因此还是建议用一个完成的 try...except...finally 语句对异常信息进行捕获和处理.
>>> >>>
finally Traceback(most recent call last) : File "<stdin>",
line 4,
in<module > ZeroDivisionError: division by zero
3. 最佳实践
为了避免忘记或者为了避免每次都要手动关闭文件,我们可以使用 with 语句(一种语法糖,语法糖语句通常是为了简化某些操作而设计的).with 语句会在其代码块执行完毕之后自动关闭文件.因此我们可以这样来改写上面的程序:
输出结果:
with open('song.txt', 'r', encoding='utf-8') as f:
print(f.read())
print(f.closed)
匆匆那年我们 究竟说了几遍 再见之后再拖延
可惜谁有没有 爱过不是一场 七情上面的雄辩
匆匆那年我们 一时匆忙撂下 难以承受的诺言
只有等别人兑现
True
是不是变得简介多了,代码结构也比较清晰了.with 之后打印的 f.closed 属性值为 True,说明文件确实被关闭了.
思考:
with 语句会帮我们自动处理异常信息吗?
要回答这个问题就要提到 "上下文管理器" 和 with 语句的工作流程.
with 语句不仅仅可以用于文件操作,它实际上是一个很通用的结构,允许使用所谓的上下文管理器(context manager).上下文管理器是一种支持__enter__() 和__exit__() 这两个方法的对象.__enter__() 方法不带任何参数,它在进入 with 语句块的时候被调用,该方法的返回值会被赋值给 as 关键字之后的变量.__exit__() 方法带有 3 个参数:type(异常类型), value(异常信息), trace(异常栈),当 with 语句的代码块执行完毕或执行过程中因为异常而被终止都会调用__exit__() 方法.正常退出时该方法的 3 个参数都为 None,异常退出时该方法的 3 个参数会被分别赋值.如果__exit__() 方法返回值(真值测试结果)为 True 则表示异常已经被处理,命令执行结果中就不会抛出异常信息了;反之,如果__exit__() 方法返回值(真值测试结果)为 False,则表示异常没有被处理并且会向外抛出该异常.
现在我们应该明白了,异常信息会不会被处理是由 with 后的语句返回对象的__exit__() 方法决定的.文件可以被用作上下文管理器.它的__enter__方法返回文件对象本身,__exit__方法会关闭文件并返回 None.我们看下 file 类中关于这两个方法的实现:
可见,file 类的__exit__() 方法的返回值为 None,None 的真值测试结果为 False,因此用于文件读写的 with 语句代码块中的异常信息还是会被抛出来,需要我们自己去捕获并处理.
def __enter__(self): # real signature unknown; restored from __doc__
""" __enter__() -> self. """
return self
def __exit__(self, *excinfo): # real signature unknown; restored from __doc__
""" __exit__(*excinfo) -> None. Closes the file. """
pass
输出结果:
with open('song.txt', 'r', encoding='utf-8') as f:
print(f.read())
num = 10 / 0
匆匆那年我们 究竟说了几遍 再见之后再拖延
可惜谁有没有 爱过不是一场 七情上面的雄辩
匆匆那年我们 一时匆忙撂下 难以承受的诺言
只有等别人兑现
注意: 上面所说的__exit__() 方法返回值(真值测试结果)为 True 则表示异常已经被处理,指的是 with 代码块中出现的异常.它对于 with 关键字之后的代码中出现的异常是不起作用的,因为还没有进入上下文管理器就已经发生异常了.因此,无论如何,还是建议在必要的时候在 with 语句外面套上一层 try...except 来捕获和处理异常.
Traceback(most recent call last) : File "<stdin>",
line 3,
in<module > ZeroDivisionError: division by zero
有关 "上下文管理器" 这个强大且高级的特性的更多信息,请参看 Python 参考手册中的上下文管理器部分.或者可以在 Python 库参考中查看上下文管理器和 contextlib 部分.
五,Python 文件读取相关方法
我们知道,对文件的读取操作需要将文件中的数据加载到内存中,而上面所用到的 read() 方法会一次性把文件中所有的内容全部加载到内存中.这明显是不合理的,当遇到一个几个 G 的的文件时,必然会耗光机器的内存.这里我们来介绍下 Python 中读取文件的相关方法:
方法 描述
read() 一次读取文件所有内容,返回一个 str
read(size) 每次最多读取指定长度的内容,返回一个 str;在 Python2 中 size 指定的是字节长度,在 Python3 中 size 指定的是字符长度
readlines() 一次读取文件所有内容,按行返回一个 list
readline() 每次只读取一行内容
此外,还要两个与文件指针位置相关的方法
方法 描述
seek(n) 将文件指针移动到指定字节的位置
tell() 获取当前文件指针所在字节位置
下面来看下操作实例
1. 读取指定长度的内容
输出结果:
Python2
with open('song.txt', 'r') as f:
print(f.read(12).decode('utf-8'))
匆匆那年
结果说明:Python2 中 read(size) 方法的 size 参数指定的要读取的字节数,而 song.txt 文件是 UTF-8 编码的内容,一个汉字占 3 个字节,因此 12 个字节刚好是 4 个汉字.
输出结果:
Python3
with open('song.txt', 'r', encoding='utf-8') as f:
print(f.read(12))
匆匆那年我们究竟说
结果说明:Python3 中 read(size) 方法的 size 参数指定的要读取的字符数,这与文件的字符编码无关,就是返回 12 个字符.
2. 读取文件中的一行内容
输出结果都一样:
Python2
with open('song.txt', 'r', encoding='utf-8') as f:
print(f.readline())
Python3
with open('song.txt', 'r') as f:
print(f.readline().decode('utf-8'))
匆匆那年我们究竟说了几遍再见之后再拖延
3. 遍历打印一个文件中的每一行
这里我们只以 Python3 来进行实例操作,Python2 仅仅是需要在读取到内容后进行手动解码而已,上面已经有示例.
方式一:先一次性读取所有行到内存,然后再遍历打印
输出结果:
with open('song.txt', 'r', encoding='utf-8') as f:
for line in f.readlines():
print(line)
匆匆那年我们 究竟说了几遍 再见之后再拖延
可惜谁有没有 爱过不是一场 七情上面的雄辩
匆匆那年我们 一时匆忙撂下 难以承受的诺言
只有等别人兑现
这种方式的缺点与 read() 方法是一样的,都是会消耗大量的内存空间.
方式二:通过迭代器一行一行的读取并打印
输出结果:
with open('song.txt', 'r', encoding='utf-8', newline='') as f:
for line in f:
print(line)
匆匆那年我们 究竟说了几遍 再见之后再拖延
可惜谁有没有 爱过不是一场 七情上面的雄辩
匆匆那年我们 一时匆忙撂下 难以承受的诺言
只有等别人兑现
另外,发现上面的输出结果中行与行之间多了一个空行.这是因为文件每一行的默认都有换行符,而 print() 方法也会输出换行,因此就多了一个空行.去掉空行也比较简单:可以用 line.rstrip() 去除字符串右边的换行符,也可以通过 print(line, end='') 避免 print 方法造成的换行.
file 类的其他方法:
方法 描述
flush() 刷新缓冲区数据,将缓冲区中的数据立刻写入文件
next() 返回文件下一行,这个方法也是 file 对象实例可以被当做迭代器使用的原因
truncate([size]) 截取文件中指定字节数的内容,并覆盖保存到文件中,如果不指定 size 参数则文件将被清空; Python2 无返回值,Python3 返回新文件的内容字节数
write(str) 将字符串写入文件,没有返回值
writelines(sequence) 向文件写入一个字符串或一个字符串列表,如果字符串列表中的元素需要换行要自己加入换行符
fileno() 返回一个整型的文件描述符,可以用于一些底层 IO 操作上(如,os 模块的 read 方法)
isatty() 判断文件是否被连接到一个虚拟终端,是则返回 True,否则返回 False
六,文件读写与字符编码
前面已经写过一篇介绍 Python 中字符编码的相关文件 <<再谈 Python 中的字符串与字符编码>> 里面花了很大的篇幅介绍 Python 中字符串与字符编码的关系以及转换过程.其中谈到过两个指定的字符编码的地方,及其作用:
PyCharm 等 IDE 开发工具指定的项目工程和文件的字符编码: 它的主要作用是告诉 Pycharm 等 IDE 开发工具保存文件时应该将字符转换为怎样的字节表示形式,以及打开并展示文件内容时应该以什么字符编码将字节码转换为人类可识别的字符.
Python 源代码文件头部指定的字符编码,如
* -*coding: utf - 8 - *-
: 它的主要作用是告诉 Python 解释器当前 python 代码文件保存时所使用的字符编码,Python 解释器在执行代码之前,需要先从磁盘读取该代码文件中的字节然后通过这里指定的字符编码将其解码为 unicode 字符.Python 解释器执行 Python 代码的过程与 IDE 开发工具是没有什么关联性的.
那么这里为什么又要谈起字符编码的问题呢?
或者换个问法,既然从上面已经指定了字符编码,为什么对文件进行读写时还要指定字符编码呢?从前面的描述可以看出:上面两个地方指定的是 Python 代码文件的字符编码,是给 Python 解释器和 Pycharm 等程序软件用的;而被读写文件的字符编码与 Python 代码文件的字符编码没有必然联系,读写文件时指定的字符编码是给我们写的程序软件用的.这是不同的主体和过程,希望我说明白了.
读写文件时怎样指定字符编码呢?
上面解释了读写文件为什么要指定字符编码,这里要说下怎样指定字符编码(其实这里主要讨论是读取外部数据时的情形).这个问题其实在上面的文件读取示例中已经使用过了,这里我们再详细的说一下.
首先,再次看一下 Python2 和 Python3 中 open 函数的定义:
可以看到,Python3 的 open 函数中多了几个参数,其中包括一个 encoding 参数.是的,这个 encoding 就是用来指定被操作文件的字符编码的.
# Python2
open(name[, mode[, buffering]])
# Python3
open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
那么 Python2 中怎样指定呢?Python2 中的对文件的 read 和 write 操作都是字节,也就说 Python2 中文件的 read 相关方法读取的是字节串(如果包含中文字符,会发现 len()方法的结果不等于读取到的字符个数,而是字节数).如果我们要得到 正确的字符串,需要手动将读取到的结果 decode(解码)为字符串;相反,要以特定的字符编码保存要写入的数据时,需要手动 encode(编码)为字节串.这个 encode()和 decode()函数可以接收一个字符编码参数.Python3 中 read 和 write 操作的都是字符串,实际上是 Python 解释器帮我们自动完成了写入时的 encode(编码)和读取时的 decode(解码)操作,因此我们只需要在打开文件 (open 函数) 时指定字符编码就可以了.
# 读操作
with open('song.txt', 'r', encoding='utf-8') as f:
print(f.read())
# 写操作
with open('song.txt', 'w', encoding='utf-8') as f:
print(f.write('你好'))
文件读写时有没有默认编码呢?
# 读操作
with open('song.txt', 'r') as f:
print(f.read().decode('utf-8'))
# 写操作
with open('song2.txt', 'w') as f:
# f.write(u'你好'.encode('utf-8'))
# f.write('你好'.decode('utf-8').encode('utf-8'))
f.write('你好')
Python3 中 open 函数的 encoding 参数显然是可以不指定的,这时候就会用一个 "默认字符编码".
看下 Python3 中 open 函数文档对 encoding 参数的说明:
也就是说,encoding 参数的默认值是与平台有关的,比如 Window 上默认字符编码为 GBK,Linux 上默认字符编码为 UTF-8.
encoding is the name of the encoding used to decode or encode the file.This should only be used in text mode.The
default encoding is platform dependent,
but any encoding supported by Python can be passed.See the codecs module
for the list of supported encodings.
而对于 Python2 来说,在进行文件写操作时,字节会被直接保存;在进行文件读操作时,如果不手动进行来 decode 操作自然也就用不着默认字符编码了.但是这时候在不同的字符终端打印的时候,会用当前平台的字符编码自动将字节解码为字符,此时可能会出现乱码.如 song.txt 文件时 UTF-8 编码的,在 windows(字符编码为 GBK)的命令行终端进行如下操作就会出现乱码:
鍖嗗寙閭e勾鎴戜滑 绌剁珶璇翠簡鍑犻亶 鍐嶈涔嬪悗鍐嶆嫋寤?
>>> with open('song.txt', 'r') as f:
... print(f.read())
...
鍙儨璋佹湁娌℃湁 鐖辫繃涓嶆槸涓€鍦?涓冩儏涓婇潰鐨勯泟杈?
鍖嗗寙閭e勾鎴戜滑 涓€鏃跺寙蹇欐拏涓?闅句互鎵垮彈鐨勮瑷€
鍙湁绛夊埆浜哄厬鐜
我们应该尽可能的获取被操作文件的字符编码,并明确指定 encoding 参数的值.
本文转载自:https://www.cnblogs.com/yyds/p/6186621.html
来源: http://www.bubuko.com/infodetail-2462567.html