跳至正文
View Categories

< 1 min read

主要内容 #

  1. 了解Pandas 的数据结构-DataFrame。
  2. 掌握Pandas的数据筛选。

1. Pandas的数据结构-DataFrame #

DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。


Pandas DataFrame 是一个二维的数组结构,类似二维数组。
示例代码如下:

import pandas as pd
data = [['Google',10],['Runoob',12],['Wiki',13]]
df = pd.DataFrame(data,columns=['Site','Age'],dtype=float)
print(df)

从以上输出结果可以知道, DataFrame 数据类型一个表格,包含 rows(行) 和 columns(列):

2. Pandas-数据的简单筛选 #

首先,我们简单构建一个6×4的矩阵:

dates=pd.date_range('20230101',periods=6)
df=pd.DataFrame(np.arange(24).reshape(6,4),index=dates,columns=['A','B','C','D'])
  • (1):选择某列

例如选择A列:

print(df['A'])
print(df.A)

选择多行:

print(df[0:3])
print(df['20230102':'20230104'])
  • (2):根据标签loc

同样我们可以使用标签来选择数据 loc, 本例子主要通过标签名字选择某一行数据, 或者通过选择某行或者所有行(:代表所有行)然后选其中某一列或几列数据。

#根据标签选择某行
print(df.loc['20230102'])
#根据标签选择某列或多列
print(df.loc[:,['A','B']]) 
#根据标签来选择行和列
print(df.loc['20230102',['A','B']])
  • (3):根据序列iloc

另外我们可以采用位置进行选择 iloc, 在这里我们可以通过位置选择在不同情况下所需要的数据例如选某一个,连续选或者跨行选等操作。

#选某个元素
print(df.iloc[3,1])
#选多个元素
print(df.iloc[3:5,1:3])
#跨行选
print(df.iloc[[1,3,5],1:3])
  • (3):通过判断的筛选

我们可以采用判断指令 (Boolean indexing) 进行选择. 我们可以约束某项条件然后选择出当前所有数据。

print(df[df.A>8])

3. 小结 #

  • Pandas 的数据结构-DataFrame
  • 掌握Pandas的数据筛选中的几个函数:loc、iloc以及通过判断筛选

习题 #