根据列值屏蔽数据

这将是我们的示例数据框:

  color      name   size
0   red      rose    big
1  blue    violet  small
2   red     tulip  small
3  blue  harebell  small

从数据框中访问单个列,我们可以使用简单的比较 == 将列中的每个元素与给定变量进行比较,产生一个 True 和 False 的 pd.Series

df['size'] == 'small'
0    False
1     True
2     True
3     True
Name: size, dtype: bool

这个 pd.Seriesnp.array 的扩展,它是简单的 list 的扩展。因此我们可以将它交给 __getitem__[] 访问器,如上例所示。

size_small_mask = df['size'] == 'small'
df[size_small_mask]
  color      name   size
1  blue    violet  small
2   red     tulip  small
3  blue  harebell  small