使用 Python 将 PDF 转换为 CSV

pythontkinterserver side programmingprogramming

Python 以其庞大的软件包库而闻名。借助这些库,我们将了解如何将 PDF 转换为 CSV 文件。CSV 文件只不过是一组数据,由一组行和列组成。Python 库中有各种可用于将 PDF 转换为 CSV 的软件包,但我们将使用 Tabula-py 模块。tabula-py 的主要部分是用 Java 编写的,它首先读取 PDF 文档并将 Python DataFrame 转换为 JSON 对象。

为了使用 tabula-py,我们必须在系统中预先安装 Java。要将 PDF 文件转换为 CSV,我们将遵循以下步骤 −

  • 首先,通过在命令 shell 中输入 pip install tabula-py 来安装所需的包。

  • 现在,使用 read_pdf("file location", pages=number) 函数读取文件。这将返回 DataFrame。

  • 使用 tabula.convert_into(‘pdf-filename’, ‘name_this_file.csv’,output_format= "csv", pages= "all") 将 DataFrame 转换为 Excel 文件。它通常将pdf文件导出为ex​​cel文件。

示例

在此示例中,我们使用了IPL Match Schedule Document将其转换为Excel文件。

# 导入所需模块
import tabula
# 读取PDF文件
df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0]
# 将PDF转换为CSV
tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all')
print(df)

输出

运行上述代码会将PDF文件转换为Excel(CSV)文件。


相关文章