收藏学习：100个Pandas常用的函数

原创

ithorizon 7个月前 (10-13) 阅读数 14 #Linux

收藏学习：100个Pandas常用的函数

在Python数据分析中，Pandas库是一个非常强势的工具，它提供了充足的函数来处理和分析数据。以下是一些Pandas库中常用的函数，这些函数可以帮助我们进行数据清洗、转换、分析等操作。

1. 数据导入与导出

这些函数用于导入和导出数据文件。


import pandas as pd
# 读取CSV文件
df = pd.read_csv('data.csv')
# 读取Excel文件
df = pd.read_excel('data.xlsx')
# 读取JSON文件
df = pd.read_json('data.json')
# 保存CSV文件
df.to_csv('output.csv', index=False)
# 保存Excel文件
df.to_excel('output.xlsx', index=False)
# 保存JSON文件
df.to_json('output.json', orient='records')

2. 数据选择

这些函数用于选择数据集的特定部分。


# 选择特定列
df['column_name']
# 选择行
df.loc[index]
# 筛选满足条件的行
df[df['column_name'] > value]
# 选择多列
df[['column1', 'column2']]

3. 数据排序

这些函数用于对数据进行排序。


# 按列排序
df.sort_values(by='column_name')
# 按行排序
df.sort_index()
# 降序排序
df.sort_values(by='column_name', ascending=False)

4. 数据清洗

这些函数用于处理缺失值、重复值等数据问题。


# 删除缺失值
df.dropna()
# 填充缺失值
df.fillna(value)
# 删除重复值
df.drop_duplicates()
# 替换值
df.replace(to_replace=value, value=new_value)

5. 数据转换

这些函数用于转换数据类型或格式。


# 转换数据类型
df['column_name'] = df['column_name'].astype('int')
# 日期格式转换
df['column_name'] = pd.to_datetime(df['column_name'])
# 成为分类数据
df['column_name'] = df['column_name'].astype('category')

6. 数据合并

这些函数用于合并多个数据集。


# 横向合并
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
result = pd.concat([df1, df2], axis=1)
# 纵向合并
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
result = pd.concat([df1, df2], axis=0)
# 索引合并
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]}, index=[1, 2])
result = pd.merge(df1, df2, left_index=True, right_index=True)

7. 数据分组与聚合

这些函数用于对数据进行分组和聚合。


# 按列分组
df.groupby('column_name').sum()
# 按行分组
df.groupby(['column1', 'column2']).sum()
# 聚合函数
df['column_name'].mean()
df['column_name'].median()
df['column_name'].std()
df['column_name'].min()
df['column_name'].max()

8. 数据可视化

这些函数用于生成数据可视化图表。


import matplotlib.pyplot as plt
# 绘制条形图
df['column_name'].value_counts().plot(kind='bar')
# 绘制折线图
df['column_name'].plot()
# 绘制散点图
plt.scatter(df['column1'], df['column2'])
plt.show()

以上只是Pandas库中常用函数的一部分。在实际的数据分析工作中，我们可以依需要选择合适的函数来处理数据。掌握这些函数，将大大节约我们的数据处理快速。期望这篇文章能帮助您更好地学习和使用Pandas库。

文章标签： Linux