在实际研究中, 我们经常需要获取大量数据, 而这些数据很大一部分以 PDF 表格的形式呈现, 如公司年报, 发行上市公告等. 面对如此多的数据表格, 采用手工复制黏贴的方式显然并不可取. 那么如何才能高效提取出 PDF 文件中的表格数据呢?
Python 提供了许多可用于 PDF 表格识别的库, 如 camelot,tabula,pdfplumber 等. 综合来看, pdfplumber 库的性能较佳, 能提取出完整, 且相对规范的表格. 因此, 本推文也主要介绍 pdfplumber 库在 PDF 表格提取中的作用.
作为一个强大的 PDF 文件解析工具, pdfplumber 库可迅速将 PDF 文档转换为易于处理的 txt 文档, 并输出 PDF 文档的字符, 页面, 页码等信息, 还可进行页面可视化操作. 使用 pdfplumber 库前需先安装, 即在 cmd 命令行中输入:
pip install pdfplumber
pdfplumber 库提供了两种 PDF 表格提取函数, 分别为. extract_tables( ) 及. extract_table( ), 两种函数提取结果存在差异. 为进行演示, 我们网站上下载了一份短期融资券主体信用评级报告, 为 PDF 格式. 任意选取某一表格, 其界面如下:
来源: http://www.jianshu.com/p/40a51aa77b7b