如何将 TSV 文件加载到 Pandas Dataframe 中?

pythonserver side programmingprogramming更新于 2024/2/17 21:54:00

有时,任务是分析数据集并使用 TSV(制表符分隔值)文件中的数据。为此,TSV 文件有时会转换为数据框。数据框是带有不同类型列的标记二维结构。在本文中,使用两个不同的示例,这个名为 pandas 的 Python 库与 Python 代码一起使用来读取 TSV 文件并将其加载到数据框中。对于这些示例,使用了 Kaggle 上提供的 Zomato 数据集。Kaggle 数据集以 CSV(逗号分隔值)格式提供,因此首先下载它,然后使用在线软件链接将其转换为 TSV 格式。在第一个示例中,安装在计算机系统中的 Python 用于运行 Python 程序,该程序是使用 pandas 函数将 TSV 文件读入数据框而编写的。在另一个示例中,使用 Google Colab 展示了该方法,即使计算机中未安装 Python,仍可使用 Python 和 pandas,并在使用另一个函数后将 TVS 文件读入数据框。

使用的 Zomato.TSV 文件

图;此 tsv 文件包含 9551 行和 21 列。

示例 1:将 TSV 文件加载到 Pandas DataFrame 中 - 使用 read_table 函数和 delimiter='\t'

设计步骤和编码

  • 步骤 1 - 首先导入 pandas。 Pandas 是一个开源、易于使用且灵活的库,通常用于在使用 Python 中的数据集时进行数据分析和操作。

  • 步骤 2 - 现在读取 zomato.tsv 文件,因为此处给出的数据集将用于将其加载到数据框中。

  • 步骤 3 - 制作数据框 dff1 并使用 pandas 中的 read_table 函数读取 TSV 文件。

  • 步骤 4 - 使用 delimiter='\t' 和 zomato.tsv 的路径。使用 head 函数从此数据框打印一些行和列。

  • 步骤 5 - 创建一个数据框 dff2 并再次使用 read_table 函数,但这次选择索引列。

  • 步骤 6 - 创建一个数据框 dff3 并再次使用 read_table 函数,但跳过一些行后打印行。

保存数据分析所需的数据文件/CSV 文件

对于这些示例,我们将使用 Kaggle 上可用的数据。登录 Kaggle 并从此链接下载 CSV 文件: https://www.kaggle.com/datasets/shrutimehta/zomato-restaurants-data

数据集以 CSV 文件形式提供。

将 CSV 文件转换为 TSV 文件,因为示例需要 TSV 文件

使用以下在线转换器将 CSV 文件转换为 TSV 格式。https://products.groupdocs.app/conversion/csv-to-tsv

上传 CSV文件,转换并下载 TSV 文件。现在将此 zomato.tsv 文件用于以下示例。

将 TSV 文件加载到 Pandas DataFrame 中 - 使用 read_table 函数和 delimiter='\t。

在 Python 文件中写入以下代码

import pandas as pdd
dff1 = pdd.read_table("C:/Users/saba2/Desktop/article/articles_py/tsv/zomato.tsv",delimiter='\t')
print(dff1.head())
dff2 = pdd.read_table('C:/Users/saba2/Desktop/article/articles_py/tsv/zomato.tsv', delimiter='\t',index_col=1)
print(dff2.head())
dff3 = pdd.read_table('C:/Users/saba2/Desktop/article/articles_py/tsv/zomato.tsv', delimiter='\t',skiprows=range(3,6))
print(dff3.head())

输出

在命令窗口中运行 python 文件

图 1:使用 cmd 窗口显示结果。

示例 2:将 TSV 文件加载到 Pandas DataFrame 中 - 使用 read_csv 函数和 sep='\t'

设计步骤和编码

  • 步骤 1 - 使用您的 Google 帐户登录。转到 Google Colab。打开一个新的 Colab Notebook 并在其中写入 Python 代码。

  • 步骤 2 - 上传从 Kaggle 下载的 csv 文件转换为 tsv 的 zomato.tsv 文件。此处给出的数据集将用于将其加载到数据框中。

  • 步骤 3 - 现在导入 pandas。 Pandas 是一个开源、易于使用且灵活的库,通常用于在使用 Python 中的数据集时进行数据分析和操作。

  • 步骤 4 - 制作一个数据框 dff,并使用 pandas 中的 read_csv 函数读取 TSV 文件。

  • 步骤 5 - 使用 sep='\t' 和文件名称"zomato.tsv"。使用 head 函数从此数据框打印一些行和列。

  • 步骤 6 - 打印数据框的形状。它将显示数据集中有多少行和多少列。

  • 步骤 7 - 然后说明几个要描述的列名,这次不要打印所有列。

  • 步骤 8 - 单击给定代码单元上显示的播放按钮后执行程序。检查结果,因为它将显示在 colab 笔记本中。

上传数据,tsv 文件

#上传 tsv
从 google.colab 导入文件
data_to_load = files.upload()

读取 TSV 文件并在数据框中加载指定列的代码

#导入所需的库
import pandas as pdd
#选择所有列
#dff = pdd.read_csv("zomato.tsv",sep="\t")
#选择指定的列
dff = pdd.read_csv("zomato.tsv",sep="\t", usecols = ['Restaurant ID','Restaurant Name','City'])
#打印数据框标题和一些行
dff.head()

输出

   Restaurant ID          Restaurant Name                City
0        6317637         Le Petit Souffle         Makati City 
1        6304287         Izakaya Kikufuji         Makati City
2        6300002   Heat - Edsa Shangri-La    Mandaluyong City
3        6318506                     Ooma    Mandaluyong City
4        6314302              Sambo Kojin    Mandaluyong City

结论

在这篇 Python 文章中,给出了两个不同的示例来展示如何将 TSV 加载到数据框中。首先,给出了从 Kaggle 下载 CSV 格式数据集的方法,然后将其转换为 TSV 格式文件并保存。使用程序中的 pandas read_table 函数将此 TSV 文件加载到数据框中。在第二个示例中,使用 Google Colab 编写 Python 程序,并使用相同的 TSV 格式数据集和 Pandas read_csv 函数将数据加载到数据框中。


相关文章