如何将 TSV 文件加载到 Pandas Dataframe 中?
有时,任务是分析数据集并使用 TSV(制表符分隔值)文件中的数据。为此,TSV 文件有时会转换为数据框。数据框是带有不同类型列的标记二维结构。在本文中,使用两个不同的示例,这个名为 pandas 的 Python 库与 Python 代码一起使用来读取 TSV 文件并将其加载到数据框中。对于这些示例,使用了 Kaggle 上提供的 Zomato 数据集。Kaggle 数据集以 CSV(逗号分隔值)格式提供,因此首先下载它,然后使用在线软件链接将其转换为 TSV 格式。在第一个示例中,安装在计算机系统中的 Python 用于运行 Python 程序,该程序是使用 pandas 函数将 TSV 文件读入数据框而编写的。在另一个示例中,使用 Google Colab 展示了该方法,即使计算机中未安装 Python,仍可使用 Python 和 pandas,并在使用另一个函数后将 TVS 文件读入数据框。
使用的 Zomato.TSV 文件

图;此 tsv 文件包含 9551 行和 21 列。
示例 1:将 TSV 文件加载到 Pandas DataFrame 中 - 使用 read_table 函数和 delimiter='\t'
设计步骤和编码
步骤 1 - 首先导入 pandas。 Pandas 是一个开源、易于使用且灵活的库,通常用于在使用 Python 中的数据集时进行数据分析和操作。
步骤 2 - 现在读取 zomato.tsv 文件,因为此处给出的数据集将用于将其加载到数据框中。
步骤 3 - 制作数据框 dff1 并使用 pandas 中的 read_table 函数读取 TSV 文件。
步骤 4 - 使用 delimiter='\t' 和 zomato.tsv 的路径。使用 head 函数从此数据框打印一些行和列。
步骤 5 - 创建一个数据框 dff2 并再次使用 read_table 函数,但这次选择索引列。
步骤 6 - 创建一个数据框 dff3 并再次使用 read_table 函数,但跳过一些行后打印行。
保存数据分析所需的数据文件/CSV 文件
对于这些示例,我们将使用 Kaggle 上可用的数据。登录 Kaggle 并从此链接下载 CSV 文件: https://www.kaggle.com/datasets/shrutimehta/zomato-restaurants-data
数据集以 CSV 文件形式提供。
将 CSV 文件转换为 TSV 文件,因为示例需要 TSV 文件
使用以下在线转换器将 CSV 文件转换为 TSV 格式。https://products.groupdocs.app/conversion/csv-to-tsv
上传 CSV文件,转换并下载 TSV 文件。现在将此 zomato.tsv 文件用于以下示例。
将 TSV 文件加载到 Pandas DataFrame 中 - 使用 read_table 函数和 delimiter='\t。
在 Python 文件中写入以下代码
import pandas as pdd dff1 = pdd.read_table("C:/Users/saba2/Desktop/article/articles_py/tsv/zomato.tsv",delimiter='\t') print(dff1.head()) dff2 = pdd.read_table('C:/Users/saba2/Desktop/article/articles_py/tsv/zomato.tsv', delimiter='\t',index_col=1) print(dff2.head()) dff3 = pdd.read_table('C:/Users/saba2/Desktop/article/articles_py/tsv/zomato.tsv', delimiter='\t',skiprows=range(3,6)) print(dff3.head())
输出
在命令窗口中运行 python 文件

图 1:使用 cmd 窗口显示结果。
示例 2:将 TSV 文件加载到 Pandas DataFrame 中 - 使用 read_csv 函数和 sep='\t'
设计步骤和编码
步骤 1 - 使用您的 Google 帐户登录。转到 Google Colab。打开一个新的 Colab Notebook 并在其中写入 Python 代码。
步骤 2 - 上传从 Kaggle 下载的 csv 文件转换为 tsv 的 zomato.tsv 文件。此处给出的数据集将用于将其加载到数据框中。
步骤 3 - 现在导入 pandas。 Pandas 是一个开源、易于使用且灵活的库,通常用于在使用 Python 中的数据集时进行数据分析和操作。
步骤 4 - 制作一个数据框 dff,并使用 pandas 中的 read_csv 函数读取 TSV 文件。
步骤 5 - 使用 sep='\t' 和文件名称"zomato.tsv"。使用 head 函数从此数据框打印一些行和列。
步骤 6 - 打印数据框的形状。它将显示数据集中有多少行和多少列。
步骤 7 - 然后说明几个要描述的列名,这次不要打印所有列。
步骤 8 - 单击给定代码单元上显示的播放按钮后执行程序。检查结果,因为它将显示在 colab 笔记本中。
上传数据,tsv 文件
#上传 tsv 从 google.colab 导入文件 data_to_load = files.upload()
读取 TSV 文件并在数据框中加载指定列的代码
#导入所需的库 import pandas as pdd #选择所有列 #dff = pdd.read_csv("zomato.tsv",sep="\t") #选择指定的列 dff = pdd.read_csv("zomato.tsv",sep="\t", usecols = ['Restaurant ID','Restaurant Name','City']) #打印数据框标题和一些行 dff.head()
输出
Restaurant ID Restaurant Name City 0 6317637 Le Petit Souffle Makati City 1 6304287 Izakaya Kikufuji Makati City 2 6300002 Heat - Edsa Shangri-La Mandaluyong City 3 6318506 Ooma Mandaluyong City 4 6314302 Sambo Kojin Mandaluyong City
结论
在这篇 Python 文章中,给出了两个不同的示例来展示如何将 TSV 加载到数据框中。首先,给出了从 Kaggle 下载 CSV 格式数据集的方法,然后将其转换为 TSV 格式文件并保存。使用程序中的 pandas read_table 函数将此 TSV 文件加载到数据框中。在第二个示例中,使用 Google Colab 编写 Python 程序,并使用相同的 TSV 格式数据集和 Pandas read_csv 函数将数据加载到数据框中。