创建 Pandas Dataframe 的不同方法
Pandas 是 Python 中用于执行数据分析和数据操作的库之一。在 Pandas 中,数据可以通过两种方式创建:一种是 DataFrame,另一种是 Series。
DataFrame 是 Python 中的二维标记数据结构。它用于数据操作和数据分析。它接受不同的数据类型,如整数、浮点数、字符串等。列的标签是唯一的,而行则标有唯一索引值,这有助于访问定义的行。
DataFrame 用于机器学习任务,允许用户操作和分析大型数据集。它支持过滤、排序、合并、分组和转换数据等操作。
以下是创建 Pandas Dataframe 的不同方法。让我们一一看看它们。
来自 NumPy 数组
我们可以通过使用 Pandas 库的 DataFrame() 函数从 Numpy 数组创建 DataFrame。以下是从 numpy 数组创建 pandas 数据框的语法。
pandas.DataFrame(array)
其中,
pandas 是库的名称
DataFrame 是函数
array 是 numpy 数组
示例
在此示例中,我们将 numpy 数组作为输入参数传递给 DataFrame 函数以及列名,然后该数组将转换为 Dataframe。
import pandas as pd import numpy as np arr = np.array([[20,30,40],[70,80,40]]) data = pd.DataFrame(arr, columns= ['a1', 'a2', 'a3']) print(data.head())
输出
a1 a2 a3 0 20 30 40 1 70 80 40
从字典中创建
可以使用 pandas 库的 DataFrame() 函数将字典作为输入参数传递,从而从字典中创建 DataFrame。以下是从字典创建 pandas 数据框的语法。
pandas.DataFrame(dictionary)
示例
在此示例中,我们将字典作为输入参数传递给 pandas 库的 DataFrame() 函数,然后字典将转换为数据框。
import pandas as pd import numpy as np dic = {'b': [2,3], 'c': [3,5], 'a': [1,6]} data = pd.DataFrame(dic) data.head()
输出
b c a 0 2 3 1 1 3 5 6
从 CSV 文件创建
我们可以从 csv 文件的数据创建数据框。在 pandas 库中,我们有一个名为 read_csv() 的函数来读取 csv 文件数据。以下是从 csv 文件创建数据框的语法。
pandas.read_csv(csv_file)
示例
在此示例中,我们将使用 read_csv() 函数从 csv 文件数据创建 pandas 数据框。以下是供参考的代码。
import pandas as pd data=pd.read_csv("https://raw.githubusercontent.com/Opensourcefordatascience/Data-sets/master/blood_pressure.csv") print(data.head(20))
输出
patient sex agegrp bp_before bp_after 0 1 Male 30-45 143 153 1 2 Male 30-45 163 170 2 3 Male 30-45 153 168 3 4 Male 30-45 153 142 4 5 Male 30-45 146 141 5 6 Male 30-45 150 147 6 7 Male 30-45 148 133 7 8 Male 30-45 153 141 8 9 Male 30-45 153 131 9 10 Male 30-45 158 125 10 11 Male 30-45 149 164 11 12 Male 30-45 173 159 12 13 Male 30-45 165 135 13 14 Male 30-45 145 159 14 15 Male 30-45 143 153 15 16 Male 30-45 152 126 16 17 Male 30-45 141 162 17 18 Male 30-45 176 134 18 19 Male 30-45 143 136 19 20 Male 30-45 162 150