收藏学习:100个Pandas常用的函数

原创
ithorizon 7个月前 (10-13) 阅读数 14 #Linux

收藏学习:100个Pandas常用的函数

在Python数据分析中,Pandas库是一个非常强势的工具,它提供了充足的函数来处理和分析数据。以下是一些Pandas库中常用的函数,这些函数可以帮助我们进行数据清洗、转换、分析等操作。

1. 数据导入与导出

这些函数用于导入和导出数据文件。

import pandas as pd

# 读取CSV文件

df = pd.read_csv('data.csv')

# 读取Excel文件

df = pd.read_excel('data.xlsx')

# 读取JSON文件

df = pd.read_json('data.json')

# 保存CSV文件

df.to_csv('output.csv', index=False)

# 保存Excel文件

df.to_excel('output.xlsx', index=False)

# 保存JSON文件

df.to_json('output.json', orient='records')

2. 数据选择

这些函数用于选择数据集的特定部分。

# 选择特定列

df['column_name']

# 选择行

df.loc[index]

# 筛选满足条件的行

df[df['column_name'] > value]

# 选择多列

df[['column1', 'column2']]

3. 数据排序

这些函数用于对数据进行排序。

# 按列排序

df.sort_values(by='column_name')

# 按行排序

df.sort_index()

# 降序排序

df.sort_values(by='column_name', ascending=False)

4. 数据清洗

这些函数用于处理缺失值、重复值等数据问题。

# 删除缺失值

df.dropna()

# 填充缺失值

df.fillna(value)

# 删除重复值

df.drop_duplicates()

# 替换值

df.replace(to_replace=value, value=new_value)

5. 数据转换

这些函数用于转换数据类型或格式。

# 转换数据类型

df['column_name'] = df['column_name'].astype('int')

# 日期格式转换

df['column_name'] = pd.to_datetime(df['column_name'])

# 成为分类数据

df['column_name'] = df['column_name'].astype('category')

6. 数据合并

这些函数用于合并多个数据集。

# 横向合并

df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})

df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})

result = pd.concat([df1, df2], axis=1)

# 纵向合并

df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})

df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})

result = pd.concat([df1, df2], axis=0)

# 索引合并

df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})

df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]}, index=[1, 2])

result = pd.merge(df1, df2, left_index=True, right_index=True)

7. 数据分组与聚合

这些函数用于对数据进行分组和聚合。

# 按列分组

df.groupby('column_name').sum()

# 按行分组

df.groupby(['column1', 'column2']).sum()

# 聚合函数

df['column_name'].mean()

df['column_name'].median()

df['column_name'].std()

df['column_name'].min()

df['column_name'].max()

8. 数据可视化

这些函数用于生成数据可视化图表。

import matplotlib.pyplot as plt

# 绘制条形图

df['column_name'].value_counts().plot(kind='bar')

# 绘制折线图

df['column_name'].plot()

# 绘制散点图

plt.scatter(df['column1'], df['column2'])

plt.show()

以上只是Pandas库中常用函数的一部分。在实际的数据分析工作中,我们可以依需要选择合适的函数来处理数据。掌握这些函数,将大大节约我们的数据处理快速。期望这篇文章能帮助您更好地学习和使用Pandas库。

本文由IT视界版权所有,禁止未经同意的情况下转发

文章标签: Linux


热门