最近学到的数据分析技巧

最近做完了一个气象相关的模块,功能主要是提取选定年份和月份的指定气象指标的相似年。在做这个模块的过程中,用到了一些之前没有用过的函数和功能,在这里简单记录一下。

主要用到了 Pandas 的 DataFrame 。

df.sort_values() 排序

例如

1
df.sort_values(by=['year_mon', 'climate_index'])

就是根据 'year_mon' 和 'climate_index' 排序,可以选定多个,先按照 year_mon 排,再按照 climate_index 排。

日期的处理

将日期字符串转换为时间格式:

1
pd.to_datetime(df['year_mon'],format='%Y/%m/%d')

year_mon 是 df 里的一列,包含类似 1970/09/01 的字符串,经过上面代码的处理,就转变为时间格式,可以按照处理时间的方式处理它。

选择想要的年份、月份和日子:

1
2
3
df['year_mon'].year == 1992
df['year_mon'].month == 6
df['year_mon'].day == 22

若是选择多个月份,则可以用 isin() 函数:

1
df['year_mon'].month.isin([3, 6, 9])

这样就选了 3 月、6 月和 9 月的。

如果要按年、月、日分组做计算,可以:

1
df['year_mon'].resample('M', how = 'mean')

M 是按月,还可以按季度(Q)、天(D)等。

先记录这些吧。